Le Dall-E 2 d’OpenAI génère plus rapidement et mieux toutes sortes d’images à partir de la saisie de texte

Dernière mise à jour Oct 16, 2022

En bref : Imaginez pouvoir décrire une image à une IA et la transformer en une image photoréaliste. C’est l’une des affirmations d’une version mise à jour d’un programme que nous avons vu pour la première fois l’année dernière, et les résultats semblent passionnants.

DALL-E 2 vient du laboratoire de recherche OpenAI basé à San Francisco derrière des modèles d’intelligence artificielle comme GPT-2 et GPT-3 qui peuvent écrire de fausses nouvelles et battre les meilleurs adversaires humains dans des jeux tels que DOTA 2.

DALL-E 2, un nom qui vient d’un portemanteau de l’artiste Salvador Dalí et du robot Disney WALL-E, est la deuxième itération du réseau de neurones que nous avons vu pour la première fois en janvier de l’année dernière, mais celui-ci offre une résolution plus élevée et une latence plus faible que le version originale. Les images qu’il génère sont désormais bien meilleures en 1024 x 1024 pixels, une augmentation notable par rapport aux 256 x 256 de l’original.

Grâce au système de reconnaissance d’image CLIP mis à jour d’OpenAI, désormais appelé unCLIP, DALL-E 2 peut transformer le texte de l’utilisateur en images vives, même celles qui sont suffisamment surréalistes pour rivaliser avec Dali lui-même. Demander un Koala jouant au basket ou un singe payant des impôts, par exemple, verra l’IA créer des images effroyablement réalistes de ces descriptions.

Le dernier système est passé à un processus appelé diffusion, qui commence par un motif de points aléatoires et modifie progressivement ce motif vers une image lorsqu’il reconnaît des aspects spécifiques.

Variations d’ours en peluche dans un style ukiyo-e et un fleuriste pittoresque

DALL-E 2 peut faire plus que créer de nouvelles images à partir de texte. Il est également capable de modifier des sections d’images ; vous pouvez, par exemple, mettre en évidence la tête de quelqu’un et lui dire d’ajouter un chapeau amusant. Il existe même une option pour créer des variations d’une seule image, chacune avec des styles, des contenus ou des angles différents.

« C’est un autre exemple de ce que je pense être une nouvelle tendance d’interface informatique : vous dites ce que vous voulez en langage naturel ou avec des indices contextuels, et l’ordinateur le fait », a déclaré Sam Altman, PDG d’OpenAI. « Nous pouvons imaginer un » employé de bureau IA « qui prend les demandes en langage naturel comme le fait un humain. »

Ces types d’IA de génération d’images comportent un risque inhérent d’être mal utilisés. OpenAI a mis en place certaines garanties, notamment l’impossibilité de générer des visages en fonction d’un nom et l’interdiction de télécharger ou de générer du matériel répréhensible, uniquement des contenus adaptés à la famille. Certains des sujets interdits incluent la haine, le harcèlement, la violence, l’automutilation, les images explicites/choquantes, les activités illégales, les tromperies telles que les fausses nouvelles, les acteurs ou situations politiques, les images médicales ou liées à la maladie, ou le spam général.

Les utilisateurs doivent également divulguer qu’une IA a généré les images, et il y aura un filigrane indiquant ce fait sur chacune d’elles.

The Verge écrit que les chercheurs peuvent s’inscrire pour prévisualiser le système en ligne. Il n’est pas diffusé directement au public, bien qu’OpenAI espère le rendre disponible pour une utilisation dans des applications tierces à un moment donné dans le futur.

Source d’enregistrement: techspot.com