Moonshot AI presenta Kimi K2 como el primer modelo de código abierto de un billón de parámetros para rivalizar con OpenAI y Deepseek

Por
CTOL Editors - Ken
5 min de lectura

La IA Moonshot de China lanza el primer modelo de código abierto de un billón de parámetros, desafiando el dominio de la IA de Silicon Valley

La escala sin precedentes y la arquitectura innovadora de Kimi K2 señalan una nueva fase en la carrera armamentística global de la IA, con implicaciones significativas para la dinámica del mercado y las estrategias de inversión.

El 11 de julio de 2025, el panorama de la inteligencia artificial cambió drásticamente cuando Moonshot AI lanzó Kimi K2, el primer modelo de lenguaje de código abierto de un billón de parámetros del mundo. Este hito representa más que un logro técnico: señala el surgimiento de China como una fuerza formidable en el desarrollo de la IA de código abierto, además de Deepseek, desafiando directamente los modelos propietarios y el próximo modelo de código abierto de OpenAI.

Poco después, OpenAI anunció un retraso en el lanzamiento de su LLM de código abierto, citando la necesidad de mayor refinamiento. En una publicación de Aidan Clark (@aidan_clark), afirmó que, si bien el modelo es "fenomenal" en términos de capacidad, OpenAI mantiene un listón muy alto para los lanzamientos de código abierto y quiere asegurarse de que el modelo cumpla con ese estándar “en todos los sentidos.” Enfatizó: “¡Este no puede quedar obsoleto!”, subrayando la intención de OpenAI de que este sea un lanzamiento abierto duradero y emblemático.

Kimi AI (moonshot.cn)
Kimi AI (moonshot.cn)

Cuando el tamaño se convierte en estrategia: La apuesta del billón de parámetros

Kimi K2 emplea una sofisticada arquitectura dispersa de Mixtura de Expertos (MoE) con 384 expertos, de los cuales solo 8 se activan por inferencia. Este diseño logra la notable hazaña de mantener 1 billón de parámetros totales mientras utiliza solo 32 mil millones de parámetros activos durante la operación, una configuración que ofrece una capacidad masiva del modelo sin una sobrecarga computacional proporcional.

Las métricas de rendimiento del modelo revelan sus ambiciones. En los benchmarks de codificación, K2 logró una tasa de éxito del 65.8% en SWE-bench Verified en modo agente, superando el 54.6% de GPT-4.1, aunque por debajo de Claude Sonnet 4. En LiveCodeBench, que mide las capacidades de programación interactiva, K2 obtuvo un 53.7%, demostrando competencia en escenarios de desarrollo del mundo real.

Estos resultados posicionan a K2 como el modelo fundacional de código abierto más potente disponible, aunque los observadores del mercado señalan la distinción crucial de que carece de las mejoras de razonamiento encontradas en modelos como DeepSeek R1 o GPT-o1.

La revolución Muon: Innovación y controversia

Detrás de las capacidades de K2 se encuentra una innovación técnica que ha generado un intenso debate dentro de la comunidad de investigación de la IA. El modelo fue entrenado enteramente utilizando el optimizador Muon, un algoritmo de optimización personalizado que, según Moonshot AI, ofrece una eficiencia de tokens superior en comparación con el optimizador AdamW, ampliamente utilizado.

¿Sabías que? El optimizador Muon es un método de entrenamiento novedoso introducido para mejorar la eficiencia de tokens y la estabilidad de escalado de los modelos de lenguaje grandes, particularmente en arquitecturas con gran carga matricial como la de Kimi K2. A diferencia de los optimizadores tradicionales como AdamW, que realizan actualizaciones elemento a elemento, Muon opera a nivel de matriz, aplicando la Normalización Nuclear Softmax (NS) para controlar la norma espectral de las matrices de pesos, esencialmente restringiendo los valores singulares más grandes durante las actualizaciones. Este control de la norma espectral conduce a una optimización más estable y eficiente, especialmente cuando se combina con la Parametrización de Actualización Máxima (MuP), donde Muon destaca al proporcionar un comportamiento de escalado matemáticamente alineado en todos los tamaños de modelo. Sin embargo, Muon presenta desafíos prácticos: requiere matrices de parámetros completas durante las actualizaciones, lo que choca con las configuraciones modernas de entrenamiento distribuido como el sharding Zero-1 y FSDP, que dividen los tensores individuales entre dispositivos. La solución de Moonshot en Kimi K2 es una estrategia pragmática de “recopilación por fuerza bruta”, que vuelve a ensamblar matrices completas solo donde es necesario, un enfoque que se hace viable gracias a la arquitectura MoE dispersa y una cuidadosa disposición de los parámetros. Para abordar la inestabilidad potencial, como la explosión de los logits de atención, Moonshot también introdujo MuonClip, una técnica de recorte posterior a la actualización que escala las matrices de proyección QK basándose en la norma de Frobenius para limitar implícitamente el crecimiento de la norma espectral. Juntos, Muon y MuonClip forman una pila de optimización sofisticada que permitió entrenar a Kimi K2 de manera estable a lo largo de 15.5 billones de tokens sin picos de entrenamiento, lo que la convierte en una innovación importante en el entrenamiento de LLM a gran escala.

Sin embargo, el enfoque de Muon presenta desafíos significativos de infraestructura. El optimizador requiere acceso a matrices de parámetros completas, lo que lo hace costoso de implementar bajo los marcos de entrenamiento distribuido actuales. Algunos expertos técnicos han cuestionado la escalabilidad del enfoque de Moonshot, sugiriendo que puede ser viable solo dentro de la configuración de infraestructura especializada de la empresa.

Moonshot abordó las preocupaciones sobre la estabilidad del entrenamiento a través de MuonClip, una técnica novedosa que previene la explosión de los pesos de atención, una causa común de fallos en el entrenamiento de modelos grandes. El ciclo de entrenamiento de la compañía de más de 15.5 billones de tokens transcurrió sin picos, marcando un logro técnico significativo en el entrenamiento de modelos a gran escala.

Diseñado para actuar, no solo para hablar: La revolución 'agente-primero' de K2

La característica más estratégicamente significativa de K2 puede ser sus capacidades de agente nativas. A diferencia de los modelos de lenguaje tradicionales que requieren una extensa post-formación para el uso de herramientas, K2 fue diseñado explícitamente para flujos de trabajo con agentes desde cero. El modelo logró un 76.5% de precisión en AceBench, un benchmark de agentes abierto, igualando los niveles de rendimiento de Claude y GPT-4.

Este enfoque 'agente-primero' refleja un cambio más amplio en los patrones de aplicación de la IA. En lugar de centrarse principalmente en la IA conversacional, Moonshot ha posicionado a K2 para la ejecución automatizada de tareas y la resolución de problemas en múltiples pasos. Los analistas de mercado sugieren que este posicionamiento podría resultar premonitorio a medida que las empresas buscan cada vez más sistemas de IA capaces de gestionar flujos de trabajo autónomos.

El modelo demuestra una fuerza particular en tareas complejas y de múltiples etapas, como analizar datos salariales y generar visualizaciones HTML interactivas. Sin embargo, las pruebas internas revelan algunas limitaciones en escenarios altamente complejos o ambiguos, donde el modelo ocasionalmente tiene dificultades para completar tareas.

David contra Goliat: Cómo el código abierto desafía a los gigantes propietarios

El lanzamiento de K2 apunta directamente a DeepSeek V3, actualmente el modelo de código abierto no-razonador líder, con Moonshot afirmando un rendimiento superior en múltiples benchmarks. El posicionamiento competitivo se extiende más allá de las métricas técnicas a la estrategia de precios, con los costes de la API de K2 fijados en aproximadamente el doble de las tarifas de DeepSeek V3: 0.15 dólares por millón de tokens de entrada para 'cache hits' y 2.5 dólares por millón

También te puede gustar

Este artículo ha sido enviado por nuestro usuario bajo las Normas y directrices para la presentación de noticias. La foto de portada es arte generado por computadora únicamente con fines ilustrativos; no indicativa del contenido factual. Si crees que este artículo infringe los derechos de autor, no dudes en informarlo enviándonos un correo electrónico. Tu vigilancia y cooperación son invaluables para ayudarnos a mantener una comunidad respetuosa y legalmente conforme.

Suscríbete a nuestro boletín

Obtenga lo último en negocios empresariales y tecnología con vistazos exclusivos a nuestras nuevas ofertas

Utilizamos cookies en nuestro sitio web para habilitar ciertas funciones, proporcionarle información más relevante y optimizar su experiencia en nuestro sitio web. Puede encontrar más información en nuestra Política de privacidad y en nuestros Términos de servicio . La información obligatoria se puede encontrar en el aviso legal