Dall-E 2 de OpenAI genera todo tipo de imágenes a partir de la entrada de texto más rápido y mejor

Last updated Oct 16, 2022

En resumen: imagine poder describir una imagen a una IA y convertirla en una imagen fotorrealista. Esa es una de las afirmaciones de una versión actualizada de un programa que vimos por primera vez el año pasado, y los resultados parecen emocionantes.

DALL-E 2 proviene del laboratorio de investigación OpenAI con sede en San Francisco detrás de modelos de inteligencia artificial como GPT-2 y GPT-3 que pueden escribir noticias falsas y vencer a los principales oponentes humanos en juegos como DOTA 2.

DALL-E 2, un nombre que proviene de un acrónimo del artista Salvador Dalí y el robot de Disney WALL-E, es la segunda iteración de la red neuronal que vimos por primera vez en enero del año pasado, pero esta ofrece una resolución más alta y una latencia más baja que la Versión original. Las imágenes que genera ahora son mucho mejores de 1024 x 1024 píxeles, un aumento notable con respecto a los 256 x 256 del original.

Gracias al sistema de reconocimiento de imágenes CLIP actualizado de OpenAI, ahora llamado unCLIP, DALL-E 2 puede convertir el texto del usuario en imágenes vívidas, incluso aquellas que son lo suficientemente surrealistas como para rivalizar con el propio Dalí. Preguntar por un koala jugando baloncesto o un mono pagando impuestos, por ejemplo, hará que la IA cree imágenes terriblemente realistas de estas descripciones.

El último sistema ha cambiado a un proceso llamado difusión, que comienza con un patrón de puntos aleatorios y gradualmente altera ese patrón hacia una imagen cuando reconoce aspectos específicos.

Variaciones de ositos de peluche al estilo ukiyo-e y una pintoresca floristería

DALL-E 2 puede hacer más que crear nuevas imágenes a partir de texto. También es capaz de alterar secciones de imágenes; puede, por ejemplo, resaltar la cabeza de alguien y decirle que agregue un sombrero divertido. Incluso hay una opción para crear variaciones de una sola imagen, cada una con diferentes estilos, contenido o ángulos.

«Este es otro ejemplo de lo que creo que será una nueva tendencia de interfaz de computadora: dices lo que quieres en lenguaje natural o con pistas contextuales, y la computadora lo hace», dijo Sam Altman, director ejecutivo de OpenAI. «Podemos imaginar un ‘trabajador de oficina de IA' que recibe solicitudes en lenguaje natural como lo hace un humano».

Estos tipos de IA de generación de imágenes conllevan un riesgo inherente de ser mal utilizados. OpenAI tiene algunas medidas de seguridad, como no poder generar caras en función de un nombre y no permitir la carga o generación de material objetable, solo material apto para familias. Algunos de los temas prohibidos incluyen odio, acoso, violencia, autolesiones, imágenes explícitas/impactantes, actividades ilegales, engaños como noticias falsas, actores o situaciones políticas, imágenes médicas o relacionadas con enfermedades o spam en general.

Los usuarios también deben revelar que una IA generó las imágenes, y habrá una marca de agua que indique este hecho en cada una.

The Verge escribe que los investigadores pueden registrarse para obtener una vista previa del sistema en línea. No se lanzará directamente al público, aunque OpenAI espera que esté disponible para su uso en aplicaciones de terceros en algún momento en el futuro.

Fuente de grabación: techspot.com