VGGT Puede Reconstruir Escenas 3D en Apenas un Segundo—Y Está a Punto de Transformar Industrias

Por
CTOL Editors - Ken
7 min de lectura

El VGGT puede reconstruir escenas 3D en un solo segundo, y está a punto de transformar industrias

En el vertiginoso mundo de la visión por computadora, una revolución se ha gestado silenciosamente. Mientras la mayoría de los titulares se centran en la IA generativa que crea imágenes a partir de descripciones de texto, un avance tecnológico diferente acaba de obtener el máximo honor de la comunidad de visión por computadora —y podría tener un impacto mucho más inmediato en el mundo real.

El Visual Geometry Grounded Transformer (VGGT) ganó recientemente el Premio al Mejor Artículo en CVPR 2025, destacándose entre más de 13.000 propuestas en la conferencia más prestigiosa de visión por computadora. ¿Qué hace que esta tecnología sea tan especial? El VGGT puede reconstruir escenas 3D completas a partir de fotografías ordinarias en menos de un segundo, una tarea que tradicionalmente requería algoritmos complejos ejecutándose durante minutos o incluso horas.

De horas a segundos: El fin de una era en la visión 3D

Durante décadas, la reconstrucción de escenas 3D a partir de imágenes 2D ha seguido un manual bien establecido. Los ingenieros utilizaban un proceso meticuloso llamado Estructura a partir del Movimiento (Structure from Motion), seguido de algoritmos de Estéreo Multivista (Multi-View Stereo), que culminaba en técnicas de optimización como el ajuste de haz (bundle adjustment). Este proceso ha impulsado desde los modelos 3D de Google Earth hasta los efectos visuales de Hollywood, pero a costa de un tiempo de cálculo considerable.

«El VGGT representa una ruptura con los procesos de geometría tradicionales», explica Elena, investigadora de visión por computadora no involucrada en el proyecto. «Lo que antes requería múltiples algoritmos especializados, ahora se puede lograr en una única pasada directa a través de una red neuronal».

Las cifras cuentan una historia convincente. El VGGT procesa 100 imágenes en aproximadamente 2 segundos en una sola GPU, logrando una mayor precisión que los métodos que tardan entre 50 y 100 veces más. Para las empresas que dependen de la reconstrucción 3D —desde compañías de RA/RV hasta desarrolladores de vehículos autónomos—, esto representa un salto cuántico en sus capacidades.

Input Photo (A Dragon) for VGGT
Input Photo (A Dragon) for VGGT

Reconstruction Output of VGGT
Reconstruction Output of VGGT

Cómo funciona: El avance técnico

En su esencia, el VGGT es un modelo transformador de 1.200 millones de parámetros, de arquitectura similar a los modelos que impulsan los grandes modelos de lenguaje actuales, pero especializado en tareas de geometría visual. El sistema toma fotografías ordinarias de una escena y produce directamente:

  • Parámetros de la cámara: La posición y orientación precisas de cada cámara que tomó las fotos.
  • Mapas de profundidad: Una medida de la distancia de cada píxel a la cámara.
  • Mapas de puntos: Coordenadas 3D para cada píxel.
  • Trayectorias de puntos 3D: Cómo se mueven puntos específicos a través de diferentes puntos de vista.

Lo que hace que el VGGT sea revolucionario es su mecanismo de «atención alternante». El modelo alterna entre procesar características dentro de imágenes individuales e integrar información de todas las imágenes para comprender la estructura 3D.

«El aspecto más sorprendente es que esto se logra con una arquitectura transformadora estándar», señala el analista de la industria Wei. «Hay un conocimiento de geometría 3D preprogramado mínimo; el modelo ha aprendido esencialmente los principios de la reconstrucción 3D a partir de los datos por sí mismo».

VGGT: Ficha Técnica

CategoríaDetalles Técnicos
Nombre del ModeloVGGT: Visual Geometry Grounded Transformer
Tarea PrincipalReconstrucción 3D unificada a partir de múltiples imágenes en una sola pasada directa.
Arquitectura del ModeloTipo: Transformador directo de 1.200 millones de parámetros.
Mecanismo Clave: Autoatención Alternante (por fotograma y global) para integrar datos por imagen y entre vistas.
Innovaciones Clave• Predicción en una sola pasada, sin necesidad de optimización iterativa.
• Entrenamiento multitarea unificado (cámaras, profundidad, puntos, trayectorias).
• Arquitectura escalable para de 1 a cientos de vistas.
EntradaDe 1 a cientos de imágenes 2D de una escena.
SalidasParámetros de la cámara (intrínsecos/extrínsecos), mapas de profundidad, mapas de puntos 3D y trayectorias de puntos densas.
RendimientoVelocidad: ~2-3 segundos para 100 imágenes en una GPU H100.
Pose de la Cámara (IMC): AUC@10 de 71.3 (pasada directa), 84.9 (con BA).
MVS (DTU): Estado del Arte (Chamfer: 0.38).
EntrenamientoDatos: Pre-entrenado en más de 15 conjuntos de datos 3D reales y sintéticos.
Cómputo: 64 GPUs A100 durante 9 días.
Limitaciones• No es compatible con lentes no estándar (ojo de pez/panorámicas).
• Se degrada con rotaciones extremas o escenas no rígidas.
• El gran tamaño del modelo requiere optimización para su implementación móvil.

Más allá de la velocidad: Por qué esto es importante para las empresas

El impacto del VGGT se extiende mucho más allá del interés académico. La tecnología promete transformar varias industrias:

1. RA/RV y Computación Espacial

Para las empresas que desarrollan experiencias de realidad aumentada, la capacidad de mapear instantáneamente entornos 3D abre nuevas posibilidades para aplicaciones inmersivas. «El tiempo de reconstrucción por debajo del segundo significa que los sistemas de RA pueden adaptarse a entornos cambiantes en tiempo real», afirma Marcus Reynolds, CTO de una destacada startup de RA.

2. Vehículos Autónomos y Robótica

Los coches autónomos y los robots de almacén necesitan comprender su entorno rápidamente para navegar de forma segura. El VGGT podría simplificar drásticamente los sistemas de percepción al tiempo que reduce tanto los requisitos de cálculo como la latencia.

3. Comercio Electrónico y Gemelos Digitales

Los minoristas pueden transformar fotos de smartphones en modelos 3D precisos de productos al instante, mientras que las empresas de construcción e inmobiliarias pueden crear gemelos digitales de espacios físicos con una velocidad sin precedentes. Esto podría revolucionar desde las experiencias de prueba virtual hasta los recorridos inmobiliarios remotos.

4. Creación de Contenido

Para los estudios de VFX, desarrolladores de juegos y constructores del Metaverso, el VGGT proporciona activos 3D de alta calidad a partir de fotos ordinarias o fotogramas de vídeo. Lo que antes requería equipos y experiencia especializados, ahora se puede lograr con un smartphone y este modelo de IA.

Implicaciones para la inversión: ¿Quiénes se benefician?

El lanzamiento del VGGT tiene implicaciones significativas para los inversores que siguen de cerca el espacio de la visión por computadora. Las empresas con productos de reconstrucción 3D existentes podrían necesitar pivotar rápidamente o arriesgarse a la obsolescencia. Mientras tanto, los primeros en adoptar esta tecnología podrían obtener ventajas competitivas sustanciales en sus respectivos mercados.

Los fabricantes de hardware que soportan la inferencia de IA —particularmente aquellos centrados en la computación de borde— deberían ver un aumento en la demanda a medida que el VGGT y modelos similares pasen de la investigación a la implementación. Sin embargo, los verdaderos ganadores podrían ser los desarrolladores de aplicaciones que ahora pueden construir productos antes imposibles sobre esta base.

Según la capitalista de riesgo Sophia Lin: «Estamos ante un escenario clásico de tecnología habilitadora. El VGGT no solo mejora las aplicaciones existentes; hace viables categorías de productos completamente nuevas. Espero que veamos una oleada de startups aprovechando esta capacidad en los próximos 12 a 18 meses».

Desafíos y limitaciones

A pesar de su rendimiento innovador, el VGGT no está exento de limitaciones. La versión actual tiene dificultades con lentes ojo de pez e imágenes panorámicas. También muestra una precisión reducida con rotaciones extremas de cámara y escenas altamente dinámicas con movimiento sustancial.

Entrenar este tipo de modelos sigue siendo computacionalmente intensivo; los investigadores utilizaron 64 GPUs de alta gama durante nueve días. Este gasto puede limitar los esfuerzos de replicación fuera de los principales laboratorios de investigación y los gigantes tecnológicos.

Además, con 1.200 millones de parámetros, el modelo sigue siendo demasiado grande para su implementación móvil sin optimización. «Necesitaremos variantes destiladas o cuantificadas antes de que esto pueda ejecutarse directamente en smartphones», explica James Patterson, analista de hardware.

El camino por delante

Con el lanzamiento del código y los modelos del VGGT en GitHub, la adopción ya ha comenzado a acelerarse. Laboratorios de investigación y empresas están explorando aplicaciones que van desde drones autónomos hasta imágenes médicas.

El impacto del artículo señala un cambio fundamental en la investigación de visión por computadora —alejándose de los procesos geométricos diseñados manualmente hacia enfoques basados en redes neuronales entrenados en conjuntos de datos masivos. Es un patrón que ya hemos visto antes en el procesamiento del lenguaje natural y la visión por computadora 2D, que ahora se repite en la percepción 3D.

Para los líderes empresariales e inversores, el mensaje es claro: la reconstrucción 3D ya no es un proceso lento y especializado, sino una capacidad bajo demanda que puede integrarse en productos y servicios con una latencia mínima. Aquellos que reconozcan y actúen sobre este cambio temprano se encontrarán con una ventaja competitiva significativa en el panorama de la computación espacial en rápida evolución.

Como señaló un crítico: «El VGGT es tanto un avance científico como un modelo fundacional inmediatamente útil para las industrias centradas en 3D». La carrera por capitalizar esta tecnología ya ha comenzado.

Github
Github

También te puede gustar

Este artículo ha sido enviado por nuestro usuario bajo las Normas y directrices para la presentación de noticias. La foto de portada es arte generado por computadora únicamente con fines ilustrativos; no indicativa del contenido factual. Si crees que este artículo infringe los derechos de autor, no dudes en informarlo enviándonos un correo electrónico. Tu vigilancia y cooperación son invaluables para ayudarnos a mantener una comunidad respetuosa y legalmente conforme.

Suscríbete a nuestro boletín

Obtenga lo último en negocios empresariales y tecnología con vistazos exclusivos a nuestras nuevas ofertas

Utilizamos cookies en nuestro sitio web para habilitar ciertas funciones, proporcionarle información más relevante y optimizar su experiencia en nuestro sitio web. Puede encontrar más información en nuestra Política de privacidad y en nuestros Términos de servicio . La información obligatoria se puede encontrar en el aviso legal