NVIDIA Lanza Modelos de IA Cosmos-Reason1 Que Pueden Entender la Física y Controlar Robots Mediante Lenguaje Natural

Por
Lang Wang
7 min de lectura

NVIDIA presenta Cosmos-Reason1: Modelos de IA revolucionarios que unen la comprensión física y el razonamiento encarnado

Investigadores de NVIDIA han presentado Cosmos-Reason1, una innovadora familia de modelos de lenguaje grandes multimodales que representa un avance significativo en la capacidad de la inteligencia artificial para comprender y razonar sobre el mundo físico. Los nuevos modelos de IA, disponibles en versiones de 7B y 56B parámetros, están diseñados específicamente para dotar a los sistemas de IA de sentido común físico y capacidades de razonamiento encarnado que podrían revolucionar la robótica, los vehículos autónomos y las aplicaciones de realidad aumentada.

NVIDIA Cosmos (github.com)
NVIDIA Cosmos (github.com)

Un Marco Integral para la IA Física

El equipo de investigación de NVIDIA ha desarrollado Cosmos-Reason1 a través de un enfoque sistemático e innovador que aborda uno de los desafíos más persistentes de la IA: la falta de anclaje físico en los modelos de lenguaje grandes. El proceso de desarrollo implicó la creación de ontologías exhaustivas, la curación de conjuntos de datos masivos y la implementación de metodologías de entrenamiento especializadas para cerrar la brecha entre la IA basada en lenguaje y la interacción física en el mundo real.

Los investigadores construyeron dos ontologías distintas para organizar su enfoque. La primera es una ontología jerárquica que organiza el sentido común físico en tres categorías principales: Espacio, Tiempo y Física Fundamental, subdivididas a su vez en 16 subcategorías específicas. La segunda es una ontología bidimensional para el razonamiento encarnado que mapea cuatro capacidades clave (procesamiento sensorial, predicción de efectos, respeto de restricciones y aprendizaje a partir de la interacción) en cinco tipos diferentes de agentes.

Para entrenar estos modelos de manera efectiva, el equipo seleccionó aproximadamente 4 millones de pares de video-texto que comprenden tareas de preguntas y respuestas visuales, rastros de razonamiento de "cadena de pensamiento" y rompecabezas de física intuitiva. El proceso de entrenamiento implicó dos etapas distintas: Ajuste Fino Supervisado de IA Física con datos de razonamiento de video específicos del dominio, seguido de Aprendizaje por Refuerzo de IA Física utilizando recompensas verificables basadas en reglas, derivadas de preguntas de opción múltiple.

El desarrollo culminó con la creación de nuevos puntos de referencia que consisten en 1.214 preguntas de opción múltiple sobre razonamiento encarnado y 604 preguntas de sentido común físico. Al ser evaluado con estos puntos de referencia, Cosmos-Reason1 demostró un rendimiento superior, superando a modelos de referencia potentes como GPT-4o y Qwen2.5-VL en 10-15 puntos en tareas de razonamiento encarnado y en 2-7 puntos en tareas de razonamiento de sentido común.

Cosmos RL Infra (githubusercontent.com)
Cosmos RL Infra (githubusercontent.com)

Conclusiones Clave: Transformando la Inteligencia Física de la IA

La introducción de Cosmos-Reason1 marca varios logros críticos en el desarrollo de la inteligencia artificial. Los modelos demuestran que los modelos de lenguaje grandes pueden anclarse eficazmente en la física del mundo real a través de una curación de datos dirigida y técnicas de aprendizaje por refuerzo. Esto representa un cambio fundamental con respecto a los enfoques tradicionales de IA que a menudo tienen dificultades con tareas básicas de razonamiento físico.

La investigación establece los primeros puntos de referencia integrales para el sentido común físico y el razonamiento encarnado, proporcionando métodos de evaluación estandarizados que permitirán una investigación más comparable y reproducible en todo el campo. Las ontologías duales ofrecen un marco sistemático para que los investigadores categoricen y evalúen las capacidades de razonamiento físico, sirviendo potencialmente como lengua franca para la comunidad de IA en general.

La metodología de entrenamiento escalable, particularmente el uso de recompensas basadas en reglas para el aprendizaje por refuerzo, demuestra enfoques prácticos que podrían generalizarse a otras tareas de razonamiento estructurado. La arquitectura híbrida Mamba-MLP-Transformer empleada en el modelo de 56B muestra soluciones eficientes para el razonamiento de contexto largo en aplicaciones multimodales.

Significativamente, NVIDIA se ha comprometido a liberar el código y los pesos del modelo preentrenado bajo la Licencia de Modelo Abierto de NVIDIA, facilitando una adopción más amplia y acelerando el progreso de la investigación en entornos académicos y comerciales.

Análisis Profundo: Implicaciones para la IA y la Industria

La importancia de Cosmos-Reason1 se extiende mucho más allá de sus logros técnicos inmediatos, representando un cambio de paradigma en cómo los sistemas de IA pueden interactuar con el mundo físico y comprenderlo. La investigación aborda limitaciones fundamentales que históricamente han impedido que la IA logre un rendimiento fiable en aplicaciones del mundo real que requieren comprensión física.

Desde una perspectiva técnica, el trabajo demuestra que la focalización explícita de conceptos de física intuitiva a través de datos de entrenamiento específicos mejora significativamente el rendimiento del modelo. El enfoque en aspectos fundamentales como la "Flecha del Tiempo", los "Rompecabezas Espaciales" y la "Permanencia del Objeto" representa un enfoque novedoso para el entrenamiento de IA que aborda capacidades a menudo ignoradas pero cruciales para la interacción física.

La metodología de usar modelos de lenguaje grandes para generar rastros de razonamiento de "cadena de pensamiento", seguidos de refinamiento y validación, presenta un enfoque escalable para crear datos de entrenamiento de alta calidad para tareas de razonamiento complejas. Esta estrategia de curación de datos con modelo en el bucle podría inspirar nuevos métodos en diversas aplicaciones de IA que requieren capacidades de razonamiento sofisticadas.

Las implicaciones comerciales son particularmente atractivas en múltiples industrias. En robótica y automatización, estos modelos podrían permitir que los robots de servicio e industriales demuestren una intuición física mejorada, reduciendo el aprendizaje por ensayo y error y mejorando la seguridad en tareas complejas como operaciones de recogida y colocación, procesos de ensamblaje y navegación autónoma.

Para el desarrollo de vehículos autónomos, las capacidades mejoradas de toma de decisiones podrían resultar cruciales para manejar escenarios dinámicos, incluyendo condiciones climáticas adversas, interacciones de tráfico complejas y situaciones inesperadas en la carretera. La mejor comprensión de la dinámica física podría conducir a sistemas de predicción y planificación más robustos.

En aplicaciones de realidad aumentada y gemelos digitales, Cosmos-Reason1 podría facilitar interfaces de lenguaje más naturales que razonen con precisión sobre las interacciones físicas y las guíen tanto en entornos simulados como reales. Esta capacidad podría transformar la forma en que los usuarios interactúan con sistemas industriales complejos y entornos virtuales.

Los sectores de gestión de activos e inspección podrían beneficiarse de sistemas de control de calidad automatizados que comprendan la permanencia del objeto y las posibilidades mecánicas, lo que llevaría a procesos de inspección más fiables y eficientes en entornos de fabricación e industriales.

¿Sabías que?: Datos Fascinantes sobre la IA Física

El desarrollo del sentido común físico en los sistemas de IA aborda una sorprendente laguna en la tecnología actual. A pesar de sus impresionantes capacidades de lenguaje, muchos modelos de lenguaje grandes multimodales de última generación tienen un rendimiento cercano al nivel de azar en tareas básicas de física intuitiva que la mayoría de los humanos dominan en la primera infancia.

La investigación reveló que los modelos potentes existentes como GPT-4o y otros sistemas multimodales líderes tienen dificultades significativas con conceptos fundamentales de razonamiento físico, destacando la importancia de enfoques de entrenamiento especializados. Este hallazgo subraya cómo la sofisticación verbal no se traduce necesariamente en comprensión física.

El conjunto de datos de entrenamiento de Cosmos-Reason1 incluye tareas auto-supervisadas innovadoras diseñadas para enseñar conceptos físicos fundamentales. Estas incluyen rompecabezas espaciales que prueban la comprensión de las relaciones entre objetos, desafíos de la flecha del tiempo que evalúan el razonamiento temporal y pruebas de permanencia del objeto que evalúan si los modelos comprenden que los objetos siguen existiendo cuando están fuera de la vista.

La arquitectura híbrida Mamba-MLP-Transformer representa una tendencia emergente en el diseño de modelos de IA, combinando diferentes enfoques computacionales para lograr un procesamiento más eficiente de información de contexto largo. Esta innovación arquitectónica podría influir en futuros desarrollos en sistemas de IA multimodales.

Curiosamente, la investigación demuestra que el aprendizaje por refuerzo con recompensas sencillas basadas en reglas puede mejorar eficazmente capacidades de razonamiento específicas en modelos de lenguaje grandes. Este enfoque sugiere que las capacidades complejas de IA pueden mejorarse a través de mecanismos de recompensa relativamente sencillos cuando se diseñan correctamente.

El lanzamiento de código abierto de Cosmos-Reason1 bajo una licencia permisiva representa una contribución significativa a la comunidad de investigación de IA, acelerando potencialmente los plazos de desarrollo para las empresas que buscan integrar capacidades de razonamiento físico en sus productos y servicios. Este enfoque contrasta con la naturaleza cada vez más propietaria de muchos desarrollos avanzados de IA.

La creación de puntos de referencia estandarizados para la evaluación de la IA física aborda una necesidad crítica en el campo, donde la falta de métodos de evaluación consistentes ha dificultado la comparación de diferentes enfoques y el seguimiento sistemático del progreso. Estos puntos de referencia podrían convertirse en herramientas esenciales para futuras investigaciones y desarrollos en sistemas de IA encarnados.

Repositorio de Github

También te puede gustar

Este artículo ha sido enviado por nuestro usuario bajo las Normas y directrices para la presentación de noticias. La foto de portada es arte generado por computadora únicamente con fines ilustrativos; no indicativa del contenido factual. Si crees que este artículo infringe los derechos de autor, no dudes en informarlo enviándonos un correo electrónico. Tu vigilancia y cooperación son invaluables para ayudarnos a mantener una comunidad respetuosa y legalmente conforme.

Suscríbete a nuestro boletín

Obtenga lo último en negocios empresariales y tecnología con vistazos exclusivos a nuestras nuevas ofertas

Utilizamos cookies en nuestro sitio web para habilitar ciertas funciones, proporcionarle información más relevante y optimizar su experiencia en nuestro sitio web. Puede encontrar más información en nuestra Política de privacidad y en nuestros Términos de servicio . La información obligatoria se puede encontrar en el aviso legal