Tekoälymallit kritiikin kohteena: Tekijänoikeusrikkomuksia ja laitonta opetusmateriaalia

NY Timesin mukaan ChatGPT:n koko liiketoimintamalli perustuu tekijänoikeuksien rikkomiseen ja Stanfordin tutkijat löysivät mm. Stable Diffusionin käyttämästä LAION-5B-opetusdatasta tuhansia lasten hyväksikäyttöä kuvaavaa kuvaa.

Tekoälybuumi on vallannut maailman sellaisella vauhdilla, että heikompia hirvittää. EU ja Yhdysvallat ovat säätämässä vauhdilla lakeja säätelemään alan kehitystä, mutta esimerkiksi jo käytössä olevissakin laajoissa kielimalleissa (Large Language Model, LLM) on rutkasti potentiaalisesti suuria ongelmia setvittäväksi.

Tom’s Hardware on koonnut artikkeliin useita epäkohtia ja muuta pohdittavaa nykyisestä tekoälyvillityksestä. Yksi räikeimmistä kyseenalaisista seikoista on LLM-kielimallien opetus ja siinä käytetty data; mistä se tulee, kuka sitä hallitsee ja kyseleekö kukaan oikeuksien perään? Tuoreena tapauksena New York Times on haastanut Microsoftin ja OpenAI:n oikeuteen, koska mediatalon mukaan ne ovat käyttäneet ChatGPT:n opetukseen erityisen runsaasti sen omistamaa dataa niin tekstien, kuvien kuin videoidenkin muodossa; NY Timesin mukaan ChatGPT-pohjaisten tuotteiden koko liiketoimintamalli perustuu tekijänoikeuksien rikkomiseen.

Kuvien luonnista tutun Midjourneyn tuorein kuudes versio kykenee puolestaan luomaan käytännössä suoria kopioita suosittujen elokuvien ruuduista. Elokuviin konseptitaidetta tekevä Reid Southern on julkaissut viestipalvelu X:ssä joukon Midjourney v6:lla luomiaan kuvia useista elokuvista, kuten Avengers: End Gamesta, Dunesta ja Jokerista. Vaikka katsoja olisi nähnyt elokuvat, voisi Midjourneyllä luotujen kuvien tunnistaminen tekoälyn luomiksi olla vaikeaa tai jopa mahdotonta.

Toinen kuvia luova LLM-malli DALL-E 3 ei välttämättä osaa tuottaa käytännössä identtisiä kohtauksia elokuvista, mutta sen sijaan piirrettyjen hahmojen väärennökset se hanskaa kuin vanhakin tekijä. Tom’s Hardwaren Avram Piltch komensi DALL-E 3:a luomaan esimerkiksi Mikki Hiiren polttamassa tupakkaa ja vesikauhusta kärsivän Väiski Vemmelsäären, eikä tekoälymallilla ollut mitään ongelmia niiden luonnissa tasolla, jota ei erota tekijänoikeuksien haltijan luvalla oikeiden taiteilijoiden tekemistä töistä.

Stanfordin tutkijat ovat puolestaan löytäneet useiden kielimallien opetukseen käytetystä LAION-5B-kuvatietokannasta lasten seksuaalista hyväksikäyttöä kuvaavaa materiaalia. Artikkelin mukaan tietokannassa oli jopa 3000 joko varmistettua tai epäiltyä lasten hyväksikäyttöä kuvaavaa kuvaa. Sanomattakin lienee selvää, miten sellaisen materiaalin käyttö oppimateriaaleissa voi mahdollistaa yhtä haitallisen sisällön luomisen tekoälymallin avulla. Toinen ongelmakohta on kyseisen tietokannan opetuskäyttöön ladanneet tahot, jotka ovat samalla syyllistyneet, tietämättään tai ei, laittoman materiaalin hallussapitoon. LAION-5B:tä on käytetty ainakin Stability AI:n Stable Diffusionin opetuksessa, mutta siinä käytetyssä versiossa tietokannasta on suodatettu pois kaikki ns. NSFW- eli ”Not Safe For Work” -sisältö.

Moraalisten ja immateriaalioikeuksien ongelmien lisäksi myös itse tekoälyprojekteja pyörittävän raudan tehonkulutus on nostettu puheenaiheeksi omassa artikkelissaan. Tom’s Hardwaren mukaan mikäli NVIDIA myi tänä vuonna 1,5 miljoonaa ja ensi vuonna myy 2 miljoonaa H100-laskentapiiriä, ne kuluttaisivat arvioidulla 61 %:n käyttöasteella jopa 13 091 gigawattituntia tehoa vuodessa. Lukema on samaa luokkaa kuin koko Liettuan, Georgian tai Guatemalan vuotuinen kulutus. Luvussa ei ole mukana A100-kiihdyttimiä tai muiden valmistajien piirejä.

Lähde: Tom’s Hardware

Uutiskuva on luotu DALL-E 3 -mallia hyödyntävällä Microsoft Bing Image Creator -työkalulla kehotteella ”Robot stealing data from vault in simpsons cartoon style”. Tarjolla oli myös vaihtoehto, jossa olisi ollut Homer Simpson ehtaan The Simpsons tyyliin.