Tekoälyn tulemista niin teollisuuteen kuin arkeenkin on ollut vaikeaa olla huomaamatta etenkin viimeisen vuoden-parin aikana. Yhdysvaltalainen OpenAI, joka on muun muassa ChatGPT- ja Dall-E-tekoälymallien takana, on joutunut enenevissä määrin tekijänoikeuslakeja koskevien syytösten kohteeksi. Generatiivisia tekoälyjmalleja on koulutettava syöttämällä niille massiivisia määriä dataa, jotta ne voisivat tuottaa realistisia vastauksia käyttäjien kyselyihin niin tekstin kuin kuvienkin muodossa. Tässä datassa on väistämättä mukana tekijänoikeussuojattua materiaalia, kuten tekstiä kirjallisuudesta, artikkeleista tai vaikkapa blogikirjoituksista. Taiteen puolella esimerkiksi maalaukset ja valokuvat ovat herättäneet tekoälyn nousukaudella paljon keskustelua juurikin tekijänoikeuksien näkökulmasta. Aiempina vuosina koneoppimista, johon generatiiviset tekoälymallit perustuvat, kehitettiin lähinnä akateemisessa maailmassa. Tekijänoikeuskeskustelu on herännyt vasta OpenAI:n, Microsoftin, Googlen ja muiden suurien toimijoiden alkaessa kaupallistaa tekoälymallejaan.
OpenAI:n mukaan mallien kouluttaminen olisi mahdotonta ilman tekijänoikeussuojattua materiaalia, sillä nykypäivänä suoja koskee käytännössä kaikkea ihmisten tuottamaa sisältöä, olipa se sitten tekstiä, kuvia, videoita tai mitä hyvänsä. Lausunto oli osoitettu Yhdistyneen kuningaskunnan parlamentin ”Communications and Digital Committee” -valiokunnalle, joka on ottanut tekoälymallien lailliset kysymykset syyniinsä. OpenAI kertoi tällä viikolla blogikirjoituksessaan, että se katsoo julkisesti saatavilla olevan materiaalin käyttämisen tekoälymallien koulutukseen hyvän tavan mukaisena. Kuvio on hankala myös siksi, että tekijänoikeussuojalakeja ei olla vielä ehditty kunnolla säätää kattamaan tekoälyn mukanaan tuomia eettisiä kysymyksiä. Jää siis nähtäväksi, miten pitkään tekoäly ja siihen liittyvät tekijänoikeuskysymykset pysyvät lain ”harmaalla alueella”.
Niin. Ja ilmeisesti mahdotonta oli myös sopia tekijänoikeussuojattujen materiaalien käytöstä etukäteen.
Sitten tämä ”fair use” termi. Eikö se tarkoita sitä, että jos vaikkapa teen Youtubeen arvostelun jostain elokuvasta, niin saan käyttää videossani pieniä pätkiä kyseisestä leffasta siinä määrin kun se on arvostelulle tarpeellista? Eli en voi siis tehdä videotani niin, että elokuva on siinä kokonaan ja puhuisin vain välillä päälle.
Tekoälymallien koulutuksessa ymmärtääkseni se lähdemateriaali tai data käytetään kokonaisuudessaan ja sitä tarvitaan paljon. Miten tämmöinen voi olla ”fair use”?
Juu, mutta fair usessa kai oleellista on, että se lähdemateriaalin pohjalta tuotettu teos on transformatiivinen, mikä ehto kyllä ainakin tekoälytaiteessa taitaa täyttyä. Eihän tuossa noin periaatteellisella tasolla tosiaan ole eroa siihen, jos ihminen selailee muiden artistien töitä ja sen jälkeen maalaa oman teoksen muistamansa pohjalta. Kone vaan tekee tämän hieman eri nopeudella ja eri mittakaavassa.
Niinpä, tämä olisi se miten asioiden pitäisi mennä. Ratkaisuna olisi voinut olla "datapool", josta AI ohjelmien materiaali saadaan, ja jonka käytöstä ohjelmistot maksavat. Miten tuo teknisesti olisi onnistunut, en tiedä. Nyt AI pääsi valloilleen ensin, ja jälkijunassa ihmetellään kuinka tekijänoikeuksia suojelisi. Tarvetta olisi uudistaa tekijänoikeus-keinoja ja kiireesti mutta tältä osin ongelma on tietenkin lakipykälät ja tekniikat materiaalin suojaamiseen tai edes hyvitysprosesseihin.
Hirvittävä määrä on kysymyksiä auki ja AI kehittyy nopeammin kuin mitkään lainsäädännöt sidoksissa materiaaliin ja tekijänoikeuksiin. Unohtamatta sitä, että jokaisella maalla on tietenkin omat lakinsa, joita pitäisi soveltaa ja muutella lähdemateriaalin ja niiden omistajien kannalta.
Kenenkä kanssa sopisit materiaalien käytöstä etukäteen ? Ymmärrät varmaan että tuo on mahdotonta.
Dsta käytetään vastaa samaa kuin itse lukisit/katsoisit jotain. Eihän se riko tekijänoikeuksia että sinä katselet jotain ? Voit jostain kirjasta vaikka kertoa jonkun kohtaeuksen kaverile, eikä sekään riko tekijänoikeuksia.
Täyttyykö kun meillä on jo tekoälymalleja jotka osaa generoida elokuvista kuvia joita ei aidosta erota vaikka olisi leffan nähnyt? Tai kun kuvageneraattori tekee saman? Ja teksti? Kaikki nämä on jo todellisuutta.
No siis riippuu tietty teoksesta, että täyttyykö. Eihän yhtään sen sallitumpaa ole myydä käsinmaalattua väärennöstä Mona Lisasta tai käsinkopioitua tekstiä. En tiedä onko fair use itse asiassa edes oleellinen tässä, kun se taitaa koskea teoksen tai sen osien uudelleenlevittämistä eri muodoissa, mutta tässä oli enemmän kyse siitä, että saako netistä löytyviä materiaaleja käyttää itseopiskeluun, jos niitä ei levitä eteenpäin (tälleen vähän devil’s advocatena).
Vastaisi siis alkuperäisestä kopiosuojattua materiaalia about yhtä paljon kuin esim. jpeg pakattu kuva? Eiköhän tuossa väärennöksen tunnusmerkit täyttyisi kun sama kai se on tekeekö väärennöksen pensselillä vai tekoälymallilla. Aika reunatapaus kyllä eikä siinä mielessä kovin mielenkiintoinen että on helpompi määrittää vanhojen sääntöjen mukaan.
Omasta mielestäni mielenkiintoisemmat kysymykset liittyy niihin tapauksiin, joihin vanhat säännöt eivät oikein päde, esim. saako kone, siinä missä ihminenkin, lukea sata kirjaa fantasiakirjallisuutta ja kirjoittaa sitten omansa oppimansa pohjalta lainaamatta lausettakaan muista kirjoista. Ja jos ei, tapahtuiko rike jo lukemisvaiheessa vai vasta kun uusi kirja kirjoitettiin vai vasta kun se laitettiin kaupalliseen levitykseen.
Jep, en mä sano ettäkö siinä ei olisi mitään eroa, onko tekijänä ihminen vai tekoäly, mutta siitähän tässä nyt pitäisi vauhdilla sopia, että mikä se ero on ja kirjata ylös säännöt. Ero ei taida olla niinkään laadullinen vaan määrällinen, eli tekoäly tekee samaa kuin ihminen, mutta miljardi kertaa nopeammin ja isommin, jolloin vanhat säännöt ei tuohon oikein pysty edes tarttumaan. Vähän niin kuin että jokamiehenoikeus toimii ihan hyvin, koska kenelläkään ei ole jokamiestekoälyä, joka keräisi kaikki maan marjat kaikista metsistä sekunnissa.
Meinaatko että tekoäly tekee kiinnostavampaa sisältöä kuin ihmiset vai sitä että määrällisesti tukkii markkinat ?
Jaa kyllä sen AI:n voi kouluttaa tekijänoikeudellisella materiaalilla ihan hyvin kunhan ensin lisensoi sen materiaalin. Ongelma lienee että joku saattaisi siitä pyytää rahaa vastineeksi(erityisesti artistit)
Ei mahdotonta, mutta pirun kallista
Tämä tässä näin. Ei bisnesidea saa perustua laittomuuksiin.
Nää nykymallit vaan tuppaa esim. täydellisesti kopioimaan tiettyjä sisältöjä mainitsematta että tuotettu teksti on sanatarkka plagiaatti. Kuvien kanssa tilanne on vähän epäselvempi ja lähes suoria plagiaatteja syntyy vähemmän.
Että joo, ei eroa siitä että joku ihminen ctrl+c, ctrl+v jonkun uutisen vaikka ja sanoo omakseen.
Eivät käsittääkseni kovin pitkiä pätkiä pysty sanatarkkaa lainausta tuottamaan, kun "pakkaus" on sen verran aggressiivista.
Väittäisin että enempi niinpäin, että välillä ulostavat suoria lainauksiakin mutta valtaosa GPT-4 tasoisellakin kielimallilla tuotetusta tekstistä on jotain muuta kuin suoraa plagiointia.
Toki jos promptailee jotain Harry Potterin ekan luvun ekaa lausetta niin en ylläty jos osaa sanatarkasti siteerata, mutta tuollaisessa tapauksessa varmaan yhä epäselvää meneekö esim. Fair Usen tai Suomessa siteerausoikeuden piiriin. Koko kirjaa tai tuskin edes kokonaista lukua kykenisi lainaamaan sanatarkasti.
Jos promptaan esoteerisen kysymyksen vaikkapa, että mitä yhteistä on hurrikaanilla ja suomenlapinkoiralla niin tuskin lausekaan vastauksesta on plagioitu mistään.
Mun käsittääkseni asian kannalta oleellisissa maissa ei ole selvää edes asiantuntijoille onko tekijänoikeuden alaisella materiaalilla kouluttaminen laitonta vaan tällä hetkellä asiaa vasta puidaan ennakkotapauksissa oikeudessa. Joten ehkäpä hieman aikaista julistaa noin?
Koska se todistetusti on johtanut käytännössä suoriin väärennöksiin en näe asiassa mitään kyseenalaista.
Edit: pointtina siis se että ne käyttävät opetusdataa ihan liian suoraan
Siitähän tässä juuri oli kyse, että mikä on, tai minkä pitäisi olla laitonta. Tällä hetkellä ei liene laitonta, jos lähetän kaverille tuhat linkkiä netissä luvallisesti jaossa oleviin teksteihin ja kaveri sitten opettelee ne tekstit ulkoa. Jos ajan samat tekstit neuroverkon läpi, niin pitäisikö sen sitten olla laitonta? Ehkä pitäisi, en tiedä, mielenkiintoinen aihe vaan mun mielestä filosofiselta kannalta.
Voisi tietty argumentoida, että ei ole luvallista tallentaa niitä tekijänoikeudenalaisia matskuja omalle koneelle, niin kuin monessa maassa varmaan ei olekaan, mutta tää nyt on ollut aina ihan naurettava ajatus, koska jos ne matskut ruudulla näkyy, niin onhan ne silloin jo koneen rammiin "tallennettu".
Eli mua kiinnostaa, että missä vaiheessa prosessia se laittomuus tapahtuu, jos tapahtuu, vai onko tarkoitus, että tämä nimenomainen prosessi olisi kokonaisuutena laiton.
Meinasin siis vaan tuota "oppimisprosessia", en niinkään lopputuotetta. Mutta joo, tukkii kyllä myös datamarkkinat aika varmasti ja veikkaan, että 10-20 vuoden sisällä 99% kaikesta datasta on tekoälyjen generoimaa synteettistä dataa, jolla sitten opetetaan toisia tekoälyjä jne jne ad infinitum.
Google, Facebook jne. ja datan yksityisyys.
Mutta sitten taas jos niitä purnaajia kuunneltaisiin elettäisiin todennäköisesti vielä pahemmassa dystopiassa.
Kts edit
Joko mallin jakelussa tai jos kyse pilvessä pyörivästä niin tuotetun materiaalin siirrossa (teksti, kuvat). Omaan käyttöönhän saat luoda vaikka sata identtistä kopiota (kuvitteellisesta) Sampsan omaelämänkerrasta "Minä ja Teslani" eikä siitä kai kukaan voi valittaa. Jos yrität myydä niitä tai muuten esittää että minähän sen kirjoitin niin sitten rikotaan tekijänoikeuksia.
Toki materiaalia hankkiessakin voidaan rikkoa lakia jos kaapijabotit kiertää maksumuureja yms.
Mutta ainakin nyt on virallinen vastaus OpenAIlta joka suoraan kertoo että ovat tietoisesti imuroineet tekijänoikeuden alaista materiaalia, alunperinhän taisivat kiemurrella että olisi liian hankalaa edes tietää että onko siellä sellaista. Nyt on sitten oikeuksien päätettävissä ilman epäselvyyksiä että onko se ok vai ei.
Lisäksi esimerkiksi se on 150% varmaa, että tarvitaan AI oppinutta tietoturvaa. Sen koulutus?
Jos rikolliset opettavat omat työkalut ilman rajoituksia, mutta laillinen AI opetettu on tekijän tai muiden oikeuksien nojalla rajoitettu, mihin tilanteeseen siinä tullaan?
Ehdottomasti olen sitä mieltä, että yhteiset säännöt tarvitaan, mutta se ei saisi rajoittaa kohtuuttomasti työkalua, vain sen nojalla, että sillä voi tehdä rikoksia. Vastuu siis tekijälle, eikä työkalulle.
Jep, eli joistain Dall-E 2:n ja Stable Diffusion 1.4:n treenausmateriaalina käytetyistä kuvista on tosiaan kyetty generoimaan selviä jäljennöksiä, mikä on selvästi ongelmallista.
target="_blank"
rel="nofollow noopener"
data-proxy-href="">
https://arxiv.org/pdf/2301.13188.pdf
En ylläty, jos tuo jäljennösongelma on kierrettävissä oleva lastentauti. Ja jos se on ainoa asia mistä tuomio tulee ja esim. yllä olevan kaltaiset Mario kuvat sallitaan, koska ne eivät ole suoria kopioita Nintendon materiaalista vaan heidän työnsä inspiroimia niin luulen, että AI firmat ovat tyytyväisiä.
Naurettava ajatusmaailma, että luova/artistityö ei olisi korvattavissa koneella, ai ja robootteilla, niin kuin on lähes kaikki maailman työ.
Jenkkien käsikirjoittajien lakossakin liitto halusi jotain ehtoja, ettei käsikirjoituksissa saa käyttää tekoälyä, kun pelätään oman työn puolesta.
Tuskin tässä sitä pelätään, että luova työ korvaantuisi (edes osittain) AI:lla. Enemmänkin, että jonkun kyseisen artistin elämäntyö on nyt helposti saatavilla tislattuna, jolloin voit ruokkia AI:lle minkä tahansa kehotteen ja/tai kuvan ja pyytää filtterin omaisesti samannäköistä jälkeä, jäljitellen muutamassa sekunnissa sen, mihin jollakulla on voinut mennä vuosikymmeniä. Jos sen sijaan voisi luoda "originaalia" taidetta, "lainaamatta" muualta, tuskin tästä näin kiihkeästi keskusteltaisiin?
Taiteilijoiden mielestä tilanne on yksiselitteisesti se, että tekoäly ei voi luoda taidetta. Samasta syystä kuin Juuso-karhun tekemät teokset eivät ole taidetta, kuulemma taide vaatii ihmisen
Kannattaa se ny timesin oikeusjuttu lukea läpi.
Suurin osa juu on muuta kuin plagiaattia. En silti kaupalliseen käyttöön laittaisi jos en voi tietää että onko kyse plagiaatista vai ei.
Minäkin vain hallusinoin menneeni oman naiseni tykö yöksi. Eipä aamulla ollut kämppä entisensä…
Juu yhtenä ongelmista kanteessa mainitaan near-verbatim excerpts from Times articles that would otherwise require a paid subscription to view. Ei edelleenkään kuitenkaan ole oikeuden päätöstä siitä, onko rajan yli menty vai meneekö Fair Usen piiriin. Itse en pidä järkevänä tehdä johtopäätöksiä oikeudenkäynnin yhden osapuolen näkemysten perusteella vaan odotan mieluummin oikeuden päätöstä, YMMV.
Kannattaa myös muistaa, että eri maailmassa on erilaiset säännöt ja tekoälymallien luomiseen tarvittavan raudan leviämistä on käytännössä mahdotonta estää.
Jos esim Jenkeissä ja Euroopassa jarrutetaan tekoälysovellutusten kehittämistä, niin on täysin varmaa, että esim Kiinassa ei ja sen seurauksena Eu ja USA lyövät rajoituksinneen ja tekijänoikeuskikkailuineen kirveellä vain ja ainoastaan omaan jalkaansa. Todennäköisesti kehittely ja tutkimus myöskin siirretään yritysjärjestelyin maihin, joissa lakiongelmia ei ole. jolloin kyseiset maat ajavat kehityksessä ohi.
Kyseessä on kuitenkin erittäin merkittävät askelet, ja takapajulaksi jääminen olisi erittäin huono juttu.
Tätä piti jo kokeilla itsekin ja pelkkiä Mario -varianttejahan se tuottaa. Kysyin samalla vähän taustoja (chatgpt 4:ltä), ja tämä oli itselleni ihan mielenkiintoinen tulos:
katso liitettä 1242967
Pointtina oli että sieltä tulee todella pitkiä jopa täysin sanatarkkoja lainauksia, ilman lainausviitteitä.
Esimerkkejä löytyy oikeusjutun julkisista materiaaleista. Täälläkin on uutinen aiheesta jonne niitä on laitettu esille.
Juu lukaisin NYTin artikkelin enkä selaillut itse kanneasiakirjaa. Onhan noi pätkät sen verran pitkiä, etten ylläty jos OpenAI/MS saa tuntea vähän nahoissaan tuosta.
Toinen mahdollinen skenaario on, että länsimaissa aineiston hankkimisesta tulee niin kallista että vain jättifirmoilla on mahdollisuus maksaa aineistosta tai kerätä sitä itse ja pienemmät firmat, yliopistot, voittoa tavoittelemattomat järjestöt ym. putoavat pelistä ja Applen, Amazonin, Googlen, MS:n ymv. valta-asema vahvistuu. Ei mielestäni optimaalinen tilanne.
Henk. koht. arvioisin että paras tilanne olisi jos se tuottaisi automaattisesti luotettavat lähdeviitteet moisissa tilanteissa. Silloin mallin tulosteita voisi hyödyntää paljon laajemmin ja tietoa ei turhaan obfuskoitaisi lainausten välttämiseksi.
Näissä tapauksissa esim. Kiina ja muut Brics -maat voi mahdollisesti painella länsimaista ohi tekoälyn kehityksessä, kun ihmiskunnan tuottama materiaali on käytettävissä ilman rajoituksia.
Tai ainakin niiltä osin kuin valtio materiaalin hyväksyy. Kaikkia historiankirjoja ei välttämättä hyväksyttäisi.
Voivat päästä edelle, mutta tuotoksilla ei ole asiaa kuin sisämarkkinoille. Lisäksi palaa uskomattomasti rahaa kun pitää pakottaa halutut vastaukset tuhanteen ja yhteen yhteiskunnalliseen asiaan liittyen. Olishan se noloa jos ai jakaisi länsimaalaisen mielipiteen mistään.
Tässähän on jo äärimmäisen hyvä perustelut sille, että nämä kaikki AI-palvelut pitäisi lailla kieltää ja tietokannat tuhota. Ihmiskunta ei ole tarvinnut AI:ta, eikä se sitä mihinkään tule tarvitsemaankaan.
Tarvitsee ja tulee tarvitsemaan lukuisiin asioihin. AI sovellutukset ovat erittäin hyviä työkaluja monissa asioissa ja paranevat kokoajan huimaa vauhtia..
Ei niitä tarvita. Voivat olla kivoja ja hauskoja juttuja, mutta ei niitä tarvita.
Kirjapaino, radio, auto, lentokone, televisio, moottorisaha, internet, kännykät, älypuhelimet…
Näistä erittäin hyvistä keksinnöistä tiedän aikalaisten sanoneen ettei niitä tarvita mihinkään ja ovat vain haitallisia. Ja aivan varmasti jo tulella kypsentämistäkin jossain luolamiespiireissä pidettiin ihan paskana ideana
No ei ole ihan vertailtavissa. AI:n potentiaali on kuitenkin mitä enimmissä määrin huijaamisessa ja rikoksissa. Toki hyödyllisiäkin sovelluksia löytyy esim. lääketieteessä. Mutta minä puhuinkin pelkästään näistä sovelluksista/palveluista, missä AI valjastetaan "luomaan" kopioita siitä mitä ihmiset ovat luoneet. Ne pitäisi kieltää ja niiden tietokannat tuhota.
Elä viitsi naurattaa! AI sovellutuksista on ihan mieletöntä apua datan analysoimisessa, muokkauksessa ja luomisessa. Käytännössä siis tullaan välttämättä tarvitsemaan, kun ovat senverran käteviä virityksiä (ihan esimerkkinä nyt vaikka sairaanhoidon tulevaisuus).
Tietenkin myös AI sovellutuksiakin voidaan käyttää väärin, mutta niin voidaan miltei mitä tahansa, eikä kieltoja ole juuri tullut.
Luitko mihin vastasit? Minä en ollut kieltämässä näitä lääketieteen yms. sovelluksia. Sanoin että ne ovat hyödyllisiä.
Tarkoitin näitä palveluita, kuten esim. ChatGPT ja kaltaiset, sekä nämä jotka luovat kuvia ja videoita. Näiden koko olemassaolo perustuu rikollisin keinoin kerätylle datalla ja niiden tuotokset ovat pääsääntöisesti rikollista kamaa. Yhtenä esimerkkinä deepfake-videot.
Tuollaiset kiellot onnistuu maailmassa, jossa on yksi "valtio" ilman yhtään erillistä maata ja lainsäädäntöä. Ja silloinkin on rikollisia ja tahoja joiden osalta valvonta pettää.
Naurettavaa ajatella, että taas heikennetään rehellisten puolustajien asemaa ja kehitystä ties mistä turhista syistä ja sitten samalla annetaan epäsuotuisille tahoille ylilyöntiasema.
Onks tästä boldatusta kohdasta jotain numeroita jossain vai oliko fiilispohjainen mutuheitto?