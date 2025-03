GPT-4o Image Generation -mallin kenties merkittävimmät edistysaskeleet ovat tekstin renderöinnin sekä kuvaan pyynnöstä sisällytettävien objektien määrissä.

Tekoälymaailman kärkinimiin lukeutuva OpenAI julkaisi viime vuonna sen tähän mennessä kehittyneimmän kielimallin, GPT-4o:n. Vaikka kielimalli on markkinoiden kärkeä, siitä on uupunut yksi merkittävä ominaisuus, natiivi tuki kuvien luonnille.

OpenAI:n mukaan yhtiössä on jo pitkään pidetty kuvien luontia sen kielimallien oleellisimpana ominaisuutena. Yhtiön kehittynein kielimalli GPT-4o on kuitenkin joutunut tähän asti luottamaan kuvien luonnissa toiseen kielimalliin, DALL-E 3:een, ja tuonut senkin vain maksavien asiakkaiden saataville. Nyt yhtiö on julkaissut mallille natiivin GPT-4o Image Generation ominaisuuden.

GPT-4o Image Generation -ominaisuudessa on panostettu erityisesti tekstin renderöimisee, mikä on ollut monelle kuvanluontimallille enemmän tai vähemmän ongelmallista. Sen luvataan noudattavan käyttäjän komentoja erityisen tarkasti ja hyödyntävän paitsi 4o-mallin laajaa tietopohjaa, myös keskustelun kontekstia. Se osaa käyttää myös käyttäjän sille lataamia kuvia pohjana tai inspiraation lähteenä uusien kuvien luonnissa. Yhtiön mukaan halutunlaisen kuvan luonti ei ole ollut ikinä helpompaa kielimallia hyödyntäen.

OpenAI kertoo GPT-4o Image Generationin opetuksen perustuneen sisältöön, jossa kuvat ja tekstit liittyvät toisiinsa. Sen avulla mallia on voitu opettaa paremmin sen suhteen, miten kuva ja siihen liittyvä teksti kuvaavat toisiaan. Mallin kerrotaan kykenevän käsittelemään yhdessä käskyssä jopa 10-20 erilaista objektia, kun yleensä kielimalleille kerrotaan olevan vaikeaa sisällyttää vain 5-8 objektia kuvaan. Yhtiö kuitenkin tiedostaa, ettei sen malli tietenkään ole täydellinen ja sitä tullaan parantamaan jatkossakin.

Kielimallilla on edelleen tiukat turvallisuusstandardit ja jokaiseen kuvaan upotetaan G2PA-metadataa, joka varmistaa kuvan olevan lähtöisin GPT-4o-mallista. Malli ei suostu luomaan kiellettyjä aiheita, kuten seksuaalista väkivaltaa kuvaavaa sisältöä tai seksuaalissävytteisiä syväväärennöksiä. Mallissa on rajoituksia myös yleiseen väkivaltaan ja alastomuuteen riittyen.

GPT-4o Image Generation on jo saatavilla ilmaiskäyttäjille sekä Plus-, Pro- ja Team-tilaajille ja se on nyt ChatGPT:n vakiomalli kuvien luontiin. Enterprise- ja opetusasiakkaat joutuvat odottamaan omia pääsyjään vielä hetken. Malli on käytettävissä myös yhdessä OpenAI:n videoiden luontiin tarkoitetun Sora-mallin kanssa. Aiempi DALL-E-malli tulee jatkossa olemaan käytössä erillisellä DALL-E GPT:llä.

