Instant NeRF AI de Nvidia renderiza escenas 3D a partir de fotos 2D en solo segundos

Last updated Abr 28, 2022

En contexto: Nvidia ha estado jugando con NeRF. No, no se han estado disparando con dardos de espuma. El término NeRF es la abreviatura de Neural Radiance Field. Es una técnica que utiliza IA para crear una escena tridimensional a partir de un puñado de imágenes fijas (representación inversa). Dependiendo de la profundidad que se desee, generalmente se tarda horas o días en generar resultados.

El brazo de investigación de IA de Nvidia ha estado trabajando en el renderizado inverso y desarrolló un Neural Radiance Field que llama Instant NeRF porque puede renderizar la escena 3D hasta 1000 veces más rápido que otras técnicas de NeRF. El modelo de IA solo necesita unos segundos para entrenar en unas pocas docenas de imágenes fijas tomadas desde múltiples ángulos y luego solo decenas de milisegundos más para generar una vista 3D de la escena.

Dado que el proceso es lo opuesto a tomar una Polaroid, es decir, convertir instantáneamente una escena 3D en una imagen 2D, Nvidia recreó una foto de Andy Warhol usando una Polaroid. Esta semana, el equipo de investigación presentó una demostración de los resultados de Instant NeRF en Nvidia GTC (abajo).

"Instant NeRF podría usarse para crear avatares o escenas para mundos virtuales, para capturar participantes de videoconferencias y sus entornos en 3D, o para reconstruir escenas para mapas digitales en 3D", dijo Nvidia. "Recopilar datos para alimentar un NeRF es un poco como ser un fotógrafo de alfombra roja que intenta capturar el atuendo de una celebridad desde todos los ángulos: la red neuronal requiere unas pocas docenas de imágenes tomadas desde múltiples posiciones alrededor de la escena, así como la posición de la cámara de cada uno". de esos tiros".

El NeRF genera la imagen 3D desde estas docenas de ángulos, llenando los espacios en blanco donde sea necesario. Incluso puede compensar las oclusiones. Por ejemplo, si un objeto bloquea la vista del sujeto en una de las imágenes, la IA aún puede completar ese ángulo aunque no pueda ver al sujeto bien o en absoluto.

La única área de debilidad de la tecnología es tratar con objetos en movimiento.

"En una escena que incluye personas u otros elementos en movimiento, cuanto más rápido se capturen estas tomas, mejor", dijo Nvidia. "Si hay demasiado movimiento durante el proceso de captura de imágenes 2D, la escena 3D generada por IA se verá borrosa".

Para obtener más detalles técnicos, consulte la publicación del blog de Nvidia. También puede ver el resto del discurso de apertura de GTC de Jensen Huang en YouTube.

Fuente de grabación: www.techspot.com