Nvidias Instant NeRF AI gjengir 3D-scener fra 2D-bilder på bare sekunder

Siste oppdatering apr 28, 2022

I sammenheng: Nvidia har lekt med NeRF-er. Nei, de har ikke skutt hverandre med skumpiler. Begrepet NeRF er en forkortelse for Neural Radiance Field. Det er en teknikk som bruker AI til å lage en tredimensjonal scene fra en håndfull stillbilder (omvendt gjengivelse). Avhengig av hvor mye dybde som er ønsket, tar det vanligvis timer eller dager å gjengi resultater.

Nvidias AI-forskningsarm har jobbet med invers gjengivelse og utviklet et Neural Radiance Field det kaller Instant NeRF fordi det kan gjengi 3D-scenen opptil 1000 ganger raskere enn andre NeRF- teknikker. AI-modellen trenger bare noen få sekunder for å trene på noen få dusin stillbilder tatt fra flere vinkler og så bare titalls millisekunder til for å gjengi en 3D-visning av scenen.

Siden prosessen er det motsatte av å ta en Polaroid – det vil si å umiddelbart gjøre en 3D-scene til et 2D-bilde – gjenskapte Nvidia et bilde av Andy Warhol ved hjelp av en Polaroid. Denne uken presenterte forskerteamet en demo av Instant NeRF-resultatene på Nvidia GTC (nedenfor).

"Instant NeRF kan brukes til å lage avatarer eller scener for virtuelle verdener, for å fange videokonferansedeltakere og deres miljøer i 3D, eller til å rekonstruere scener for 3D digitale kart," sa Nvidia. "Å samle inn data for å mate en NeRF er litt som å være en rød løper-fotograf som prøver å fange en kjendis antrekk fra alle vinkler – det nevrale nettverket krever noen dusin bilder tatt fra flere posisjoner rundt scenen, så vel som kameraposisjonen til hver av disse skuddene."

NeRF genererer 3D-bildet fra disse dusinvis av vinkler, og fyller ut de tomme feltene der det er nødvendig. Det kan til og med kompensere for okklusjoner. For eksempel, hvis et objekt blokkerer visningen av motivet i et av bildene, kan AI fortsatt fylle ut den vinkelen selv om den ikke kan se motivet godt eller i det hele tatt.

Teknologiens ene svakhetsområde er å håndtere bevegelige objekter.

"I en scene som inkluderer mennesker eller andre bevegelige elementer, jo raskere disse bildene blir tatt, jo bedre," sa Nvidia. "Hvis det er for mye bevegelse under 2D-bildeopptaksprosessen, vil den AI-genererte 3D-scenen være uskarp."

For flere tekniske detaljer, sjekk ut Nvidias blogginnlegg. Du kan også få med deg resten av Jensen Huangs GTC-keynote på YouTube.

Opptakskilde: www.techspot.com