Alibaba presenta Qwen3-Omni, la audaz respuesta de China a los LLM multimodales de código cerrado

Por
CTOL Editors - Lang Wang
5 min de lectura

Alibaba presenta Qwen3-Omni, la audaz respuesta de China a los LLM multimodales de código cerrado

HANGZHOU, China — Alibaba acaba de asestar un golpe significativo en la carrera global de la IA. La compañía ha lanzado Qwen3-Omni, un sistema de IA multimodal capaz de manejar texto, imágenes, audio y video simultáneamente, convirtiéndose en el primer verdadero rival de código abierto de China para GPT-4o de OpenAI y Gemini 2.5 Flash de Google.

A diferencia de muchos lanzamientos de IA llamativos pero restringidos, Qwen3-Omni está abierto al público. Este movimiento, por sí solo, sacude una industria donde las empresas occidentales han estado manteniendo su tecnología bajo llave.

Qwen3-Omni
Qwen3-Omni

Un gran paso adelante en la IA en tiempo real

Qwen3-Omni no es solo otro chatbot con extras. En su esencia reside un ingenioso diseño "Thinker-Talker". El "Thinker" (pensador) procesa y analiza la entrada, mientras que el "Talker" (hablador) responde inmediatamente con una voz natural. En lugar de unir diferentes modelos, Alibaba construyó un sistema integral capaz de conversar en múltiples formatos sin esas pausas incómodas con las que la mayoría de los sistemas de IA suelen tener dificultades.

Los resultados son sorprendentes. En las propias pruebas de Alibaba, Qwen3-Omni superó 32 de los 36 puntos de referencia de audio y video. Responde a la entrada de voz en solo 234 milisegundos —lo suficientemente rápido como para sentir que es una conversación real— y puede transcribir media hora de habla continua sin perder el hilo. Este tipo de velocidad y resistencia lo coloca directamente al nivel de los gigantes occidentales.

El modelo admite 119 idiomas escritos, reconoce 19 hablados y responde en voz alta en 10. Tras bambalinas, utiliza un enfoque de "mezcla de expertos" que solo activa alrededor de 3 mil millones de sus 30 mil millones de parámetros en cada ocasión. Esta eficiencia significa que puede rendir muy por encima de su tamaño.

Herramientas creadas para desarrolladores, no solo para demostraciones

En lugar de lanzar un sistema potente y dejar que los desarrolladores se las arreglen con las partes complicadas, Alibaba ha incluido en Qwen3-Omni herramientas prácticas. Piense en cuadernos listos para usar, guías de integración completas y soporte para el despliegue de vLLM. Para los programadores, esto marca la diferencia entre semanas de quebraderos de cabeza y poder empezar a construir directamente.

Además del modelo base, Alibaba lanzó tres versiones personalizadas:

  • Qwen3-Omni-Instruct, un asistente multimodal que conversa por texto y voz.
  • Qwen3-Omni-Thinking, diseñado para tareas de razonamiento complejas.
  • Qwen3-Omni-Captioner, creado para analizar en profundidad el contenido de audio.

Es un menú de opciones en lugar de una solución única para todos, algo que los desarrolladores llevaban tiempo pidiendo.

Lo que dicen nuestras pruebas internas

Nuestro equipo de ingeniería en CTOL.digital quedó impresionado, especialmente por su enfoque práctico. El elogio se centró en un punto: Alibaba no solo publicó los pesos del modelo en línea. Proporcionó a los desarrolladores manuales prácticos, ejemplos y código funcional para integrar en sus propios proyectos. Para muchos, esto reduce drásticamente la barrera de entrada para construir aplicaciones multimodales. Qwen3-Omni también sorprendió por su precisión fáctica con un mejor conocimiento del mundo, algo que muchos competidores de código abierto no poseen.

Aun así, Omni no es impecable. Comparado con el más pesado Qwen3-Max de Alibaba, Omni sacrifica la profundidad pura por velocidad y usabilidad. Es fantástico para tareas de reconocimiento como el OCR, pero tropieza con problemas matemáticos, a veces inventando respuestas. En la visión de grano fino, Max lo supera al leer texto diminuto o al unir contexto entre regiones de imagen. Sin embargo, Max tiene sus propias peculiaridades: demasiados emojis, un formato markdown excesivamente estilizado y un tono que los probadores encontraron robótico. Omni, con todas sus limitaciones, se siente más natural.

Un impulso de investigación más amplio

Este lanzamiento no ocurre de forma aislada. Alibaba, junto con la Universidad de Fudan, presentó recientemente World Preference Modeling —un marco para entrenar IA con preferencias humanas a gran escala y del mundo real. En lugar de depender únicamente de pequeños conjuntos de datos etiquetados manualmente, WorldPM aprovecha foros como Reddit, Quora y StackExchange.

Sus hallazgos son importantes: para tareas fácticas y objetivas como la codificación o las matemáticas, los modelos más grandes muestran claras ganancias "emergentes" a medida que escalan. Para el estilo subjetivo —por ejemplo, el tono o la floritura en la escritura— los beneficios son más turbios, ya que las preferencias humanas entran en conflicto y el ruido se filtra. Es un paso serio hacia la alineación de la IA con la compleja variedad de valores humanos reales.

Un desafío a la dominancia occidental de código cerrado

El momento no es accidental. Con las crecientes tensiones entre China y Occidente, las empresas tecnológicas chinas quieren reducir la dependencia de la IA extranjera. La decisión de Alibaba de liberar Qwen3-Omni como código abierto contrasta fuertemente con el enfoque cada vez más cerrado de OpenAI y Google.

Los resultados de los puntos de referencia sugieren que Alibaba no está faroleando. El modelo incluso superó a sus rivales en precisión fáctica, captando referencias históricas sutiles que otros pasaron por alto. Dicho esto, todavía se queda atrás en áreas como las matemáticas avanzadas y el análisis visual de grano fino. Curiosamente, el propio Qwen3-Max de Alibaba maneja esas tareas mejor. Pero en usos cotidianos como conversaciones en tiempo real o la lectura de texto de imágenes, Qwen3-Omni destaca.

Mirando más allá de China

Alibaba tiene claramente sus miras puestas en una audiencia global. La compañía lanzó materiales en inglés y mostró demostraciones orientadas a usuarios internacionales. Un ejemplo llamativo: la traducción en vivo a través de dispositivos ponibles, lo que insinúa una competencia directa con productos de IA de consumo occidentales.

En casa, Qwen3-Omni llega mientras el chatbot Quark de Alibaba sube en las clasificaciones de aplicaciones chinas y sus gafas Quark AI salen al mercado. Se siente menos como un lanzamiento aislado y más como la pieza central de un impulso coordinado hacia la tecnología de consumo impulsada por IA.

Qué significa esto para la industria

Al hacer Qwen3-Omni de código abierto, Alibaba reduce la barrera de entrada para cualquiera que desee construir IA multimodal avanzada. Los desarrolladores que antes necesitaban enormes recursos para competir ahora tienen un modelo fundacional sólido y listo para usar. Esto podría desencadenar una nueva ola de innovación, obligando a los grandes actores a reconsiderar lo estrictamente que salvaguardan su tecnología.

"Alibaba básicamente ha lanzado un kit de herramientas completo para construir aplicaciones multimodales serias", señaló un analista de la industria. "Eso cambia las reglas del juego para los desarrolladores de todo el mundo."

Ya se puede probar Qwen3-Omni a través de Qwen Chat, las demostraciones de Hugging Face y la propia plataforma API de Alibaba. El lanzamiento viene con una documentación que facilita la integración mucho más que el habitual proceso de prueba y error.

En un movimiento audaz, China ha entrado con firmeza en el escalón más alto del desarrollo de la IA. Y al mantener Qwen3-Omni de código abierto, Alibaba asegura que existe una alternativa real a los ecosistemas cada vez más cerrados que dominan Occidente.

También te puede gustar

Este artículo ha sido enviado por nuestro usuario bajo las Normas y directrices para la presentación de noticias. La foto de portada es arte generado por computadora únicamente con fines ilustrativos; no indicativa del contenido factual. Si crees que este artículo infringe los derechos de autor, no dudes en informarlo enviándonos un correo electrónico. Tu vigilancia y cooperación son invaluables para ayudarnos a mantener una comunidad respetuosa y legalmente conforme.

Suscríbete a nuestro boletín

Obtenga lo último en negocios empresariales y tecnología con vistazos exclusivos a nuestras nuevas ofertas

Utilizamos cookies en nuestro sitio web para habilitar ciertas funciones, proporcionarle información más relevante y optimizar su experiencia en nuestro sitio web. Puede encontrar más información en nuestra Política de privacidad y en nuestros Términos de servicio . La información obligatoria se puede encontrar en el aviso legal