O Dall-E 2 da OpenAI gera todos os tipos de imagens a partir da entrada de texto mais rápido e melhor

Last updated Out 16, 2022

Em resumo: imagine ser capaz de descrever uma imagem para uma IA e transformá-la em uma imagem fotorrealista. Essa é uma das afirmações feitas por uma versão atualizada de um programa que vimos pela primeira vez no ano passado, e os resultados parecem empolgantes.

DALL-E 2 vem do laboratório de pesquisa OpenAI, com sede em São Francisco, por trás de modelos de inteligência artificial como GPT-2 e GPT-3, que podem escrever notícias falsas e derrotar os principais oponentes humanos em jogos como DOTA 2.

DALL-E 2, um nome que vem de uma junção do artista Salvador Dalí e do robô da Disney WALL-E, é a segunda iteração da rede neural que vimos pela primeira vez em janeiro do ano passado, mas esta oferece maior resolução e menor latência do que o versão original. As imagens geradas agora são 1024 x 1024 pixels muito melhores, um aumento notável em relação aos 256 x 256 do original.

Graças ao sistema de reconhecimento de imagem CLIP atualizado da OpenAI, agora chamado unCLIP, o DALL-E 2 pode transformar o texto do usuário em imagens vívidas, mesmo aquelas que são surreais o suficiente para rivalizar com o próprio Dali. Pedir um Koala jogando basquete ou um macaco pagando impostos, por exemplo, fará com que a IA crie imagens assustadoramente realistas dessas descrições.

O sistema mais recente mudou para um processo chamado difusão, que começa com um padrão de pontos aleatórios e gradualmente altera esse padrão para uma imagem quando reconhece aspectos específicos.

Variações de ursinhos de pelúcia em estilo ukiyo-e e uma floricultura pitoresca

DALL-E 2 pode fazer mais do que criar novas imagens a partir de texto. Também é capaz de alterar seções de imagens; você pode, por exemplo, destacar a cabeça de alguém e pedir para adicionar um chapéu engraçado. Existe até uma opção para criar variações de uma única imagem, cada uma com diferentes estilos, conteúdo ou ângulos.

“Este é outro exemplo do que eu acho que será uma nova tendência de interface de computador: você diz o que quer em linguagem natural ou com pistas contextuais, e o computador faz isso”, disse Sam Altman, CEO da OpenAI. “Podemos imaginar um ‘funcionário de escritório de IA' que recebe solicitações em linguagem natural como um humano”.

Esses tipos de IAs de geração de imagens vêm com um risco inerente de serem mal utilizados. O OpenAI tem algumas salvaguardas, incluindo não ser capaz de gerar rostos com base em um nome e não permitir o upload ou geração de material censurável – apenas material familiar. Alguns dos assuntos proibidos incluem ódio, assédio, violência, automutilação, imagens explícitas/chocantes, atividades ilegais, enganos como notícias falsas, atores ou situações políticas, imagens médicas ou relacionadas a doenças ou spam em geral.

Os usuários também devem divulgar que uma IA gerou as imagens, e haverá uma marca d'água indicando esse fato em cada uma delas.

The Verge escreve que os pesquisadores podem se inscrever para visualizar o sistema online. Ele não está sendo lançado diretamente ao público, embora a OpenAI espere disponibilizá-lo para uso em aplicativos de terceiros em algum momento no futuro.

Fonte de gravação: techspot.com