OpenAI:s Dall-E 2 genererar alla typer av bilder från textinmatning snabbare och bättre

Senaste uppdateringen okt 16, 2022

I korthet: Föreställ dig att kunna beskriva en bild för en AI och få den förvandlad till en fotorealistisk bild. Det är ett av påståendena från en uppdaterad version av ett program vi först såg förra året, och resultaten ser spännande ut.

DALL-E 2 kommer från det San-Francisco-baserade forskningslabbet OpenAI bakom artificiell intelligensmodeller som GPT-2 och GPT-3 som kan skriva falska nyheter och slå mänskliga bästa motståndare i spel som DOTA 2.

DALL-E 2, ett namn som kommer från en portmanteau av konstnären Salvador Dalí och Disney-roboten WALL-E, är den andra upprepningen av det neurala nätverk som vi först såg i januari förra året, men det här erbjuder högre upplösning och lägre latens än original version. Bilderna som den genererar är nu mycket bättre 1024 x 1024 pixlar, en märkbar ökning jämfört med originalets 256 x 256.

Tack vare OpenAI:s uppdaterade CLIP-bildigenkänningssystem, nu kallat unCLIP, kan DALL-E 2 förvandla användartext till levande bilder, även sådana som är tillräckligt surrealistiska för att konkurrera med Dali själv. Om du till exempel ber om en Koala som spelar basket eller en apa som betalar skatt, kommer AI att skapa skrämmande realistiska bilder av dessa beskrivningar.

Det senaste systemet har gått över till en process som kallas diffusion, som börjar med ett mönster av slumpmässiga punkter och gradvis ändrar det mönstret mot en bild när det känner igen specifika aspekter.

Variationer av nallar i ukiyo-e-stil och en pittoresk blomsteraffär

DALL-E 2 kan göra mer än att skapa nya bilder från text. Den kan också ändra delar av bilder; du kan till exempel markera någons huvud och säga åt den att lägga till en rolig hatt. Det finns till och med ett alternativ att skapa varianter av en enda bild, var och en med olika stilar, innehåll eller vinklar.

”Det här är ytterligare ett exempel på vad jag tror kommer att bli en ny trend för datorgränssnitt: du säger vad du vill på naturligt språk eller med kontextuella ledtrådar, och datorn gör det”, säger Sam Altman, vd för OpenAI. ”Vi kan föreställa oss en 'AI-kontorsarbetare' som tar förfrågningar på naturligt språk som en människa gör.”

Dessa typer av bildgenererande AI:er kommer med en inneboende risk att missbrukas. OpenAI har vissa skyddsåtgärder på plats, inklusive att inte kunna generera ansikten baserat på ett namn och att inte tillåta uppladdning eller generering av stötande material – bara familjevänliga saker. Några av de förbjudna ämnena inkluderar hat, trakasserier, våld, självskada, explicita/chockerande bilder, illegala aktiviteter, bedrägerier som falska nyheter, politiska aktörer eller situationer, medicinska eller sjukdomsrelaterade bilder eller allmän spam.

Användare måste också avslöja att en AI genererade bilderna, och det kommer att finnas en vattenstämpel som indikerar detta faktum på var och en.

The Verge skriver att forskare kan registrera sig för att förhandsgranska systemet online. Det släpps inte direkt till allmänheten, även om OpenAI hoppas kunna göra det tillgängligt för användning i tredjepartsappar någon gång i framtiden.

Inspelningskälla: techspot.com