Програмне забезпеченняРізнеТехнології і не тільки

OpenAI Dall-E 2 генерує всі види зображень за допомогою введення тексту швидше і краще

Останнє оновлення Жов 16, 2022

Коротше кажучи: уявіть, що ви можете описати картинку штучному інтелекту і перетворити її на фотореалістичне зображення. Це одна із заяв, яку висуває оновлена версія програми, яку ми вперше побачили минулого року, і результати виглядають захоплюючими.

DALL-E 2 походить від дослідницької лабораторії OpenAI у Сан-Франциско, яка створює моделі штучного інтелекту, такі як GPT-2 і GPT-3, які можуть писати фейкові новини та перемагати головних опонентів у таких іграх, як DOTA 2.

DALL-E 2, назва, що походить від твору художника Сальвадора Далі та робота Disney WALL-E, є другою ітерацією нейронної мережі , яку ми вперше побачили в січні минулого року, але ця пропонує більш високу роздільну здатність і меншу затримку, ніж оригінальна версія. Зображення, які він генерує, тепер мають набагато кращі 1024 x 1024 пікселі, що помітно більше, ніж у оригіналі 256 x 256.

Завдяки оновленій системі розпізнавання зображень CLIP OpenAI, яка тепер називається unCLIP, DALL-E 2 може перетворювати користувацький текст у яскраві зображення, навіть такі, які є достатньо сюрреалістичними, щоб конкурувати з самим Далі. Наприклад, якщо попросити коалу, яка грає в баскетбол, або мавпу, яка платить податки, ШІ створить страхітливо реалістичні зображення цих описів.

Остання система перейшла на процес, який називається дифузією, який починається з шаблону випадкових точок і поступово змінює цей шаблон у бік зображення, коли розпізнає конкретні аспекти.

Варіації плюшевих ведмедиків у стилі укійо-е та оригінальний квітковий магазин

DALL-E 2 може робити більше, ніж створювати нові зображення з тексту. Він також може змінювати розділи зображень; Ви можете, наприклад, виділити чиюсь голову і сказати їй додати смішну шапку. Є навіть можливість створити варіанти одного зображення, кожне з різними стилями, вмістом або ракурсами.

«Це ще один приклад того, що, на мою думку, буде новою тенденцією комп'ютерного інтерфейсу: ви говорите, що хочете, природною мовою або з контекстними підказками, і комп’ютер це робить», — сказав Сем Альтман, генеральний директор OpenAI. «Ми можемо уявити собі «офісного працівника», який сприймає запити природною мовою, як людина».

Ці типи штучного інтелекту генерації зображень супроводжуються притаманним ризиком неправомірного використання. OpenAI має певні запобіжні заходи, зокрема не може генерувати обличчя на основі імені та не дозволяє завантажувати або генерувати несприятливий матеріал — лише для сімейного перегляду. Деякі із заборонених предметів включають ненависть, переслідування, насильство, самопошкодження, відверті/шокуючі зображення, незаконну діяльність, обман, такі як фейкові новини, політичні діячі чи ситуації, медичні зображення чи зображення, пов’язані з хворобами, або загальний спам.

Користувачі також повинні розкрити, що зображення створив штучний інтелект, і на кожному з них буде водяний знак, що вказує на цей факт.

The Verge пише, що дослідники можуть зареєструватися для попереднього перегляду системи онлайн. Він не випускається безпосередньо для громадськості, хоча OpenAI сподівається зробити його доступним для використання в сторонніх програмах в якийсь момент у майбутньому.

Джерело запису: techspot.com