La tecnología instantánea NeRF AI de NVIDIA renderiza escenas 3D a partir de imágenes 2D en segundos

En contexto: Nvidia jugó con NeRF. No, no se dispararon entre ellos con flechas de espuma. El término NeRF es un acrónimo de Neural Radiance Field. Es una tecnología que utiliza inteligencia artificial para crear una escena 3D a partir de un conjunto de imágenes fijas (renderizado inverso). Dependiendo de la profundidad requerida, generalmente toma horas o días ver resultados.

La rama de investigación de inteligencia artificial de Nvidia está trabajando en el renderizado inverso y ha desarrollado un campo de radiación neuronal llamado Instant NeRF porque puede renderizar una escena 3D 1000 veces más rápido que otras tecnologías NeRF. El modelo de IA solo necesita unos segundos para entrenarse en unas pocas docenas de imágenes fijas tomadas desde múltiples ángulos, y luego algunas decenas de milisegundos más para generar una representación 3D de la escena.

Dado que el proceso es lo opuesto a tomar una Polaroid, es decir, convertir instantáneamente una escena 3D en una imagen 2D, Nvidia recreó una imagen de Andy Warhol usando Polaroid. Esta semana, el equipo de investigación envió una demostración de los resultados inmediatos de NeRF a Nvidia GTC (abajo).

Nvidia dijo: «NeRF se puede usar para crear avatares o escenas de mundos virtuales, para capturar participantes de videoconferencias y sus entornos 3D, o para reconstruir escenas para mapas digitales 3D». “Recopilar datos para alimentar NeRF es un poco como ser un fotógrafo de alfombra roja que intenta capturar el atuendo de una celebridad desde todos los ángulos: la red neuronal requiere unas pocas docenas de imágenes tomadas desde múltiples ubicaciones alrededor de la escena, así como la posición de la cámara para cada uno de ellos. esos tiros.

READ  Explicó las diferencias entre las consolas New-Gen y Last-Gen

NeRF crea una imagen 3D a partir de estas docenas de ángulos, llenando los espacios en blanco donde sea necesario. Incluso puede compensar los bloqueos. Por ejemplo, si un objeto oscurece la vista del sujeto en uno de los marcos, la IA aún puede completar ese ángulo incluso si no puede ver bien al sujeto o no puede verlo en absoluto.

La única debilidad de esta técnica está relacionada con los objetos en movimiento.

«En una escena que incluye personas u otros elementos en movimiento, cuanto más rápidas sean estas tomas, mejor», dijo Nvidia. “Si hay mucho movimiento durante el proceso de captura de la imagen 2D, la escena 3D generada por la IA se verá borrosa”.

Para obtener más detalles técnicos, consulte el blog de Nvidia. También puede ver el resto de la palabra clave GTC de Jensen Huang en YouTube.