Програмне забезпеченняРізнеТехнології і не тільки

Nvidia Instant NeRF AI відтворює 3D-сцени з 2D-фотографій за лічені секунди

Останнє оновлення Лют 25, 2024

У контексті: Nvidia грала з NeRF. Ні, вони не стріляли один в одного пінопластовими дротиками. Термін NeRF скорочується від Neural Radiance Field. Це техніка, яка використовує AI для створення тривимірної сцени з кількох нерухомих зображень (зворотне відтворення). Залежно від бажаної глибини, для отримання результатів зазвичай потрібні години або дні.

Дослідницький відділ Nvidia AI працював над зворотним рендерингом і розробив поле Neural Radiance Field, яке воно називає Instant NeRF, оскільки воно може відображати 3D-сцену в 1000 разів швидше, ніж інші методи NeRF. Модель AI потребує лише кількох секунд, щоб потренуватися на кількох десятках фотографій, знятих під різними кутами, а потім ще лише десятки мілісекунд, щоб відобразити 3D-вид сцени.

Оскільки цей процес протилежний зйомці Polaroid, тобто миттєвому перетворенню 3D-сцени в 2D-зображення, Nvidia відтворила фотографію Енді Уорхола за допомогою Polaroid. Цього тижня дослідницька група представила демонстрацію результатів Instant NeRF на Nvidia GTC (нижче).

«Миттєвий NeRF можна використовувати для створення аватарів або сцен для віртуальних світів, для зйомки учасників відеоконференції та їх оточення в 3D або для реконструкції сцен для 3D цифрових карт», — заявила Nvidia. «Збір даних для живлення NeRF трохи схожий на фотографування на червоній доріжці, який намагається зняти вбрання знаменитості з будь-якого ракурсу — нейронна мережа потребує кількох десятків зображень, зроблених з кількох місць навколо сцени, а також положення камери кожного з них. з тих пострілів».

NeRF створює тривимірне зображення з цих десятків ракурсів, заповнюючи пропуски, де це необхідно. Він навіть може компенсувати оклюзії. Наприклад, якщо об’єкт блокує огляд об’єкта на одному із зображень, AI все одно може заповнити цей кут, навіть якщо він не бачить добре або зовсім не бачить об’єкт.

Однією з недоліків технології є робота з рухомими об’єктами.

«У сцені, яка містить людей або інші рухомі елементи, чим швидше будуть зроблені ці кадри, тим краще», — заявила Nvidia. «Якщо під час процесу захоплення 2D-зображення буде занадто багато руху, створена AI 3D-сцена буде розмитою».

Щоб отримати додаткові технічні відомості, перегляньте публікацію в блозі Nvidia. Ви також можете переглянути решту основної доповіді Дженсена Хуанга GTC на YouTube.

Джерело запису: techspot.com