Dall-E 2 di OpenAI genera tutti i tipi di immagini dall’input di testo più velocemente e meglio

Last updated Ott 16, 2022

In breve: immagina di poter descrivere un'immagine a un'intelligenza artificiale e trasformarla in un'immagine fotorealistica. Questa è una delle affermazioni fatte da una versione aggiornata di un programma che abbiamo visto per la prima volta l'anno scorso e i risultati sembrano entusiasmanti.

DALL-E 2 proviene dal laboratorio di ricerca OpenAI di San Francisco dietro modelli di intelligenza artificiale come GPT-2 e GPT-3 in grado di scrivere notizie false e battere i migliori avversari umani in giochi come DOTA 2.

DALL-E 2, un nome che deriva da un portmanteau dell'artista Salvador Dalí e del robot Disney WALL-E, è la seconda iterazione della rete neurale che abbiamo visto per la prima volta a gennaio dello scorso anno, ma questa offre una risoluzione più alta e una latenza inferiore rispetto al versione originale. Le immagini che genera ora sono 1024 x 1024 pixel molto migliori, un notevole aumento rispetto ai 256 x 256 dell'originale.

Grazie al sistema di riconoscimento delle immagini CLIP aggiornato di OpenAI, ora chiamato unCLIP, DALL-E 2 può trasformare il testo dell'utente in immagini vivide, anche quelle abbastanza surreali da competere con lo stesso Dali. Chiedere un Koala che gioca a basket o una scimmia che paga le tasse, ad esempio, vedrà l'IA creare immagini spaventosamente realistiche di queste descrizioni.

L'ultimo sistema è passato a un processo chiamato diffusione, che inizia con uno schema di punti casuali e modifica gradualmente quel modello verso un'immagine quando riconosce aspetti specifici.

Variazioni di orsacchiotti in stile ukiyo-e e un pittoresco negozio di fiori

DALL-E 2 può fare di più che creare nuove immagini dal testo. È anche in grado di alterare sezioni di immagini; puoi, ad esempio, evidenziare la testa di qualcuno e dirgli di aggiungere un cappello divertente. C'è anche un'opzione per creare variazioni di una singola immagine, ognuna con stili, contenuti o angoli diversi.

“Questo è un altro esempio di quella che penso sarà una nuova tendenza dell'interfaccia per computer: dici quello che vuoi in linguaggio naturale o con indizi contestuali, e il computer lo fa”, ha affermato Sam Altman, CEO di OpenAI. “Possiamo immaginare un ‘impiegato AI' che accetta le richieste in un linguaggio naturale come fa un essere umano”.

Questi tipi di IA per la generazione di immagini comportano un rischio intrinseco di essere utilizzati in modo improprio. OpenAI ha in atto alcune salvaguardie, tra cui non essere in grado di generare volti in base a un nome e non consentire il caricamento o la generazione di materiale obietivo, solo materiale adatto alle famiglie. Alcuni degli argomenti vietati includono odio, molestie, violenza, autolesionismo, immagini esplicite/scioccanti, attività illegali, inganni come notizie false, attori o situazioni politiche, immagini mediche o relative a malattie o spam generico.

Gli utenti devono anche rivelare che un'intelligenza artificiale ha generato le immagini e su ciascuna sarà presente una filigrana che indicherà questo fatto.

The Verge scrive che i ricercatori possono iscriversi per visualizzare in anteprima il sistema online. Non viene rilasciato direttamente al pubblico, anche se OpenAI spera di renderlo disponibile per l'uso in app di terze parti in futuro.

Fonte di registrazione: techspot.com