OpenAI:n Dall-E 2 luo kaikenlaisia ​​kuvia tekstinsyötöstä nopeammin ja paremmin

10

Lyhyesti: Kuvittele, että pystyt kuvailemaan kuvaa tekoälylle ja muuttamaan sen fotorealistiseksi kuvaksi. Tämä on yksi viime vuonna ensimmäisen kerran nähtymme ohjelman päivitetyn version väitteistä, ja tulokset näyttävät jännittäviltä.

DALL-E 2 on peräisin San-Francisco-pohjaisesta OpenAI-tutkimuslaboratoriosta tekoälymallien, kuten GPT-2 ja GPT-3, takana, jotka voivat kirjoittaa valeuutisia ja päihittää ihmisvastustajia peleissä, kuten DOTA 2:ssa.

DALL-E 2, nimi, joka tulee taiteilija Salvador Dalín ja Disney-robotin WALL-E:n portaalista, on toinen iteraatio hermoverkosta, jonka näimme ensimmäisen kerran viime vuoden tammikuussa, mutta tämä tarjoaa korkeamman resoluution ja pienemmän latenssin kuin alkuperäinen versio. Sen luomat kuvat ovat nyt paljon parempia 1024 x 1024 pikseliä, mikä on huomattava lisäys alkuperäisen 256 x 256:een verrattuna.

OpenAI:n päivitetyn CLIP-kuvantunnistusjärjestelmän, jota nyt kutsutaan nimellä unCLIP, ansiosta DALL-E 2 voi muuttaa käyttäjän tekstin eloisiksi kuviksi, jopa sellaisiksi, jotka ovat tarpeeksi surrealistisia kilpailemaan Dalin kanssa. Jos esimerkiksi pyydät koripalloa pelaavaa koalaa tai veroja maksavaa apinaa, tekoäly luo pelottavan realistisia kuvia näistä kuvauksista.

Uusin järjestelmä on siirtynyt diffuusio-nimiseen prosessiin, joka alkaa satunnaisten pisteiden kuviosta ja muuttaa sitä vähitellen kohti kuvaa, kun se tunnistaa tietyt näkökohdat.

Muunnelmia nallekarhuista ukiyo-e-tyyliin ja viehättävä kukkakauppa

DALL-E 2 voi tehdä muutakin kuin luoda tekstistä uusia kuvia. Se pystyy myös muuttamaan kuvien osia; voit esimerkiksi korostaa jonkun päätä ja pyytää sitä lisäämään hauska hattu. On jopa mahdollisuus luoda muunnelmia yhdestä kuvasta, jokaisella on erilainen tyyli, sisältö tai kuvakulma.

"Tämä on toinen esimerkki siitä, mitä luulen olevan uusi tietokoneen käyttöliittymätrendi: sanot mitä haluat luonnollisella kielellä tai kontekstuaalisilla vihjeillä, ja tietokone tekee sen", sanoi Sam Altman, OpenAI:n toimitusjohtaja. "Voimme kuvitella "AI-toimistotyöntekijän", joka ottaa pyynnöt luonnollisella kielellä kuten ihminen."

Tämän tyyppisiin kuvien luomiseen tarkoitettuihin tekoälyihin liittyy luontainen väärinkäytön riski. OpenAI:ssa on joitain suojakeinoja, kuten se, että se ei voi luoda kasvoja nimen perusteella ja estää kielteisen materiaalin lataamista tai luomista – vain perheystävällisiä asioita. Joitakin kiellettyjä aiheita ovat viha, häirintä, väkivalta, itsensä vahingoittaminen, avoimet/järkyttävät kuvat, laittomat toimet, petokset, kuten valeuutiset, poliittiset toimijat tai tilanteet, lääketieteellisiin tai sairauksiin liittyvät kuvat tai yleinen roskaposti.

Käyttäjien on myös kerrottava, että tekoäly on luonut kuvat, ja jokaisessa kuvassa on vesileima, joka osoittaa tämän tosiasian.

The Verge kirjoittaa, että tutkijat voivat kirjautua esikatselemaan järjestelmää verkossa. Sitä ei julkaista suoraan yleisölle, vaikka OpenAI toivoo saavansa sen saataville kolmansien osapuolien sovelluksissa jossain vaiheessa tulevaisuudessa.

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More