OpenAIs Dall-E 2 genererer alle slags bilder fra tekstinndata raskere og bedre

Siste oppdatering apr 28, 2022

Kort sagt: Tenk deg å kunne beskrive et bilde til en kunstig intelligens og få det omgjort til et fotorealistisk bilde. Det er en av påstandene fra en oppdatert versjon av et program vi først så i fjor, og resultatene ser spennende ut.

DALL-E 2 kommer fra det San-Francisco-baserte OpenAI-forskningslaboratoriet bak kunstig intelligens-modeller som GPT-2 og GPT-3 som kan skrive falske nyheter og slå toppmenneskelige motstandere i spill som DOTA 2.

DALL-E 2, et navn som kommer fra et portmanteau av kunstneren Salvador Dalí og Disney-roboten WALL-E, er den andre iterasjonen av det nevrale nettverket vi først så i januar i fjor, men dette gir høyere oppløsning og lavere ventetid enn original versjon. Bildene den genererer er nå mye bedre 1024 x 1024 piksler, en merkbar økning i forhold til originalens 256 x 256.

Takket være OpenAIs oppdaterte CLIP-bildegjenkjenningssystem, nå kalt unCLIP, kan DALL-E 2 gjøre brukertekst til levende bilder, selv de som er surrealistiske nok til å konkurrere med Dali selv. Å be om en Koala som spiller basketball eller en ape som betaler skatt, for eksempel, vil se at AI skaper skremmende realistiske bilder av disse beskrivelsene.

Det siste systemet har byttet til en prosess kalt diffusjon, som starter med et mønster av tilfeldige prikker og gradvis endrer det mønsteret mot et bilde når det gjenkjenner spesifikke aspekter.

Varianter av bamser i ukiyo-e-stil og en sjarmerende blomsterbutikk

DALL-E 2 kan gjøre mer enn å lage nye bilder fra tekst. Det er også i stand til å endre deler av bilder; du kan for eksempel fremheve noens hode og be den legge til en morsom lue. Det er til og med et alternativ for å lage varianter av ett enkelt bilde, hver med forskjellige stiler, innhold eller vinkler.

"Dette er nok et eksempel på det jeg tror kommer til å bli en ny trend for datamaskingrensesnitt: du sier hva du vil på naturlig språk eller med kontekstuelle ledetråder, og datamaskinen gjør det," sa Sam Altman, administrerende direktør i OpenAI. "Vi kan forestille oss en ‘AI-kontorarbeider' som tar forespørsler på naturlig språk som et menneske gjør."

Disse typer bildegenererings-AIer har en iboende risiko for å bli misbrukt. OpenAI har noen sikkerhetstiltak på plass, inkludert å ikke kunne generere ansikter basert på et navn og ikke tillate opplasting eller generering av kritikkverdig materiale – bare familievennlige ting. Noen av de forbudte temaene inkluderer hat, trakassering, vold, selvskading, eksplisitte/sjokkerende bilder, ulovlige aktiviteter, bedrag som falske nyheter, politiske aktører eller situasjoner, medisinske eller sykdomsrelaterte bilder eller generell spam.

Brukere må også avsløre at en AI genererte bildene, og det vil være et vannmerke som indikerer dette faktum på hver enkelt.

The Verge skriver at forskere kan registrere seg for å forhåndsvise systemet på nett. Det blir ikke utgitt direkte til offentligheten, selv om OpenAI håper å gjøre det tilgjengelig for bruk i tredjepartsapper på et tidspunkt i fremtiden.

Opptakskilde: www.techspot.com