Программное обеспечениеРазноеТехнологии и не только

Dall-E 2 от OpenAI генерирует все виды изображений из текстового ввода быстрее и лучше

Последнее обновление Дек 6, 2024

Вкратце: представьте, что вы можете описать изображение ИИ и превратить его в фотореалистичное изображение. Это одно из утверждений обновленной версии программы, которую мы впервые увидели в прошлом году, и результаты выглядят впечатляюще.

DALL-E 2 разработан исследовательской лабораторией OpenAI в Сан-Франциско, которая занимается созданием моделей искусственного интеллекта, таких как GPT-2 и GPT-3, которые могут писать фальшивые новости и побеждать лучших противников-людей в таких играх, как DOTA 2.

DALL-E 2, название, которое происходит от портмоне художника Сальвадора Дали и робота Диснея ВАЛЛ-И, является второй итерацией нейронной сети , которую мы впервые увидели в январе прошлого года, но она предлагает более высокое разрешение и меньшую задержку, чем оригинальная версия. Изображения, которые он генерирует, теперь имеют гораздо лучшее разрешение 1024 x 1024 пикселей, что заметно больше, чем у исходных 256 x 256.

Благодаря обновленной системе распознавания изображений CLIP от OpenAI, которая теперь называется unCLIP, DALL-E 2 может превращать пользовательский текст в яркие изображения, даже такие сюрреалистичные, что они могут соперничать с самим Дали. Например, спросив коалу, играющую в баскетбол, или обезьяну, платящую налоги, вы увидите, как ИИ создаст пугающе реалистичные изображения этих описаний.

Последняя система переключилась на процесс, называемый диффузией, который начинается с узора из случайных точек и постепенно изменяет этот узор в сторону изображения, когда оно распознает определенные аспекты.

Вариации плюшевых мишек в стиле укиё-э и причудливый цветочный магазин

DALL-E 2 может больше, чем создавать новые картинки из текста. Он также может изменять части изображений; вы можете, например, выделить чью-то голову и попросить добавить забавную шляпу. Есть даже возможность создавать варианты одного изображения, каждый из которых имеет разные стили, содержание или ракурсы.

«Это еще один пример того, что, как я думаю, станет новой тенденцией компьютерного интерфейса: вы говорите, что хотите, на естественном языке или с контекстуальными подсказками, а компьютер делает это», — сказал Сэм Альтман, генеральный директор OpenAI. «Мы можем представить себе «офисного работника с искусственным интеллектом», который принимает запросы на естественном языке, как это делает человек».

Эти типы ИИ для создания изображений сопряжены с неотъемлемым риском неправильного использования. В OpenAI есть некоторые меры безопасности, в том числе невозможность генерировать лица на основе имени и запрет на загрузку или создание нежелательных материалов — только для семейного просмотра. Некоторые из запрещенных тем включают ненависть, домогательства, насилие, членовредительство, явные/шокирующие изображения, незаконные действия, обман, такие как фальшивые новости, политические деятели или ситуации, медицинские изображения или изображения, связанные с болезнями, или общий спам.

Пользователи также должны указать, что изображения созданы искусственным интеллектом, и на каждом из них будет водяной знак, указывающий на этот факт.

The Verge пишет, что исследователи могут зарегистрироваться для ознакомления с системой онлайн. Он не публикуется напрямую, хотя OpenAI надеется сделать его доступным для использования в сторонних приложениях в какой-то момент в будущем.

Источник записи: techspot.com