La Revolución de la Atención Lineal: Por Dentro, el Audaz Desafío de Moonshot AI a la Supremacía del Transformer

Por
CTOL Editors - Lang Wang
5 min de lectura

La Revolución de la Atención Lineal: El Audaz Desafío de Moonshot AI a la Supremacía del Transformer

Cómo la implacable apuesta de Kimi por una arquitectura híbrida desató una revolución en la eficiencia y una polémica sobre la originalidad.

El Avance Que Nadie Vio Venir

Después de muchas noches en vela, ciclos de entrenamiento fallidos y ajustes interminables, Kimi Linear de Moonshot AI, un enorme modelo de 48 mil millones de parámetros construido sobre atención lineal híbrida, había superado todos los puntos de referencia importantes.

“Los resultados parecían los de un adulto dando una lección a un niño”, comentó un desarrollador más tarde en notas internas. Las ganancias no fueron solo incrementales, fueron sísmicas.

Lanzado en 2025, Kimi Linear desafía directamente la arquitectura Transformer que ha dominado la inteligencia artificial desde 2017. Reduce el uso de caché de clave-valor en un 75% y decodifica texto hasta seis veces más rápido con longitudes de un millón de tokens, todo ello mientras iguala el poder expresivo de los modelos de atención tradicionales.

Para cualquiera que trabaje con LLMs, esto es enorme. Cuando los costos de inferencia y las limitaciones de memoria dictan lo que es posible, el diseño de Kimi Linear ofrece un nuevo camino a seguir. Abre puertas para todo, desde el análisis de extensos documentos legales hasta la propulsión de agentes autónomos capaces de razonamiento a largo plazo.

Llevando la Ingeniería al Límite

Detrás de esa historia de éxito se esconde una saga de pruebas, frustración y determinación obstinada. Escalar desde prototipos más pequeños hasta un sistema de mezcla de expertos de 48 mil millones de parámetros casi agotó al equipo. Depurar fallos de entrenamiento distribuido, rediseñar capas de red y probar cientos de variantes se convirtió en su ritual nocturno. Un miembro del equipo lo describió más tarde simplemente: “Doloroso, pero valió cada hora”.

En el corazón de su progreso se encuentra la innovación que llaman Kimi Delta Attention, nacida de una optimización agresiva de Gated DeltaNet. Enfoques anteriores se basaban en mecanismos de compuerta global que exigían un costoso fraccionamiento FP32. El nuevo diseño pasó a compuertas a nivel de canal, preservando la eficiencia a la vez que otorgaba un control preciso de la memoria.

Se decidieron por una proporción audaz: tres capas de Atención Delta por cada capa de atención completa. Este equilibrio, descubierto a través de una experimentación meticulosa, demostró ser el punto óptimo entre velocidad y rendimiento.

Luego vino una decisión aún más valiente: abandonar por completo los incrustados de posición rotatorios (RoPE). Este enfoque “full NoPE” entregó toda la comprensión posicional a las capas KDA, simplificando el modelo sin mermar su rendimiento. Incluso el creador de RoPE, según se informa, admiró la audacia de la medida.

Entrenado con 5.7 billones de tokens con una configuración de mezcla de expertos que contaba con 32 expertos en lugar de los 8 habituales, Kimi Linear alcanzó 51.0 en MMLU-Pro y 84.3 en RULER, superando a los modelos de atención completa mientras funciona aproximadamente seis veces más rápido a escalas de un millón de tokens.

Lecciones Aprendidas y un Vistazo al Futuro

Los desarrolladores han sido francos sobre los límites del proyecto. Admitieron que no pudieron alcanzar el rendimiento de vanguardia absoluto a esa escala debido a limitaciones de hardware. Pero ese no era el objetivo. Kimi Linear era la prueba de que la atención lineal híbrida podía pasar de la teoría a la realidad de la producción.

Lo llamaron un proyecto insignia de “reducción de riesgos”, una apuesta estratégica por el futuro. Para demostrar su fe en la transparencia, liberaron el código fuente completo, con kernels optimizados que se integran perfectamente en los frameworks de Flash Linear Attention y vLLM.

Esa apertura ha atraído la atención de investigadores de todo el mundo. Muchos ven a Kimi Linear como un paso fundamental en la evolución de las arquitecturas neuronales. Un desarrollador de la comunidad rastreó sus raíces conceptuales hasta la regla Delta original, argumentando que “los avances empíricos a menudo preceden a que la teoría los alcance”.

Como resumió un investigador: “Por primera vez, no tenemos que elegir entre potencia y eficiencia”.

La Polémica Sobre la Originalidad

Por supuesto, ningún gran avance en IA llega sin drama. Poco después del anuncio, los críticos acusaron al equipo de Moonshot de copiar ideas de la arquitectura RWKV7 anterior. Algunos calificaron el lanzamiento de maniobra publicitaria, afirmando que se trataba más de llamar la atención que de hacer avanzar la ciencia.

Los desarrolladores rebatieron con fuerza. Destacaron las claras distinciones: compuertas por canal en lugar de globales, la proporción única de capas híbridas y su decisión de adoptar el enfoque “fully NoPE”. “Si alguien piensa que es lo mismo, está bien”, dijo uno, “pero tal vez deberían pasar menos tiempo quejándose y más tiempo escalando sus propios modelos”.

Los partidarios se unieron a su lado. Un conocido investigador comentó: “Cuando otros abandonaron la atención lineal, Kimi reavivó la esperanza. Es tanto un producto como una innovación fundamental”.

El debate va más allá de quién copió a quién, toca el corazón de la propia investigación en IA. ¿La verdadera innovación consiste en ideas completamente nuevas, o puede surgir de refinar y recombinar las existentes? De cualquier manera, Kimi Linear demostró algo vital: que la atención lineal, una vez descartada como un callejón sin salida, aún encierra un poder sin explotar.

El Camino por Delante

Los investigadores ya pueden descargar y experimentar con el modelo Kimi-Linear-48B-A3B-Base y su variante ajustada por instrucciones. Todo lo que necesitan es PyTorch 2.6 y las últimas bibliotecas FLA. Los primeros evaluadores dicen que la “personalidad del modelo se siente natural” y que su “vibra coincide con Kimi-2”, lo que significa que el aumento de eficiencia no ha atenuado su producción similar a la humana.

Para una industria obsesionada con el número de parámetros y los presupuestos de entrenamiento, Kimi Linear plantea una pregunta audaz: ¿y si el próximo gran salto no se trata de hacer modelos más grandes, sino más inteligentes?

Ya sea que este modelo se convierta en un hito o simplemente en una nota a pie de página fascinante, una cosa es segura: ha reavivado el entusiasmo por lo que aún es posible en la eficiencia de la IA.

En palabras de un desarrollador cansado pero victorioso: el dolor valió la pena.

También te puede gustar

Este artículo ha sido enviado por nuestro usuario bajo las Normas y directrices para la presentación de noticias. La foto de portada es arte generado por computadora únicamente con fines ilustrativos; no indicativa del contenido factual. Si crees que este artículo infringe los derechos de autor, no dudes en informarlo enviándonos un correo electrónico. Tu vigilancia y cooperación son invaluables para ayudarnos a mantener una comunidad respetuosa y legalmente conforme.

Suscríbete a nuestro boletín

Obtenga lo último en negocios empresariales y tecnología con vistazos exclusivos a nuestras nuevas ofertas

Utilizamos cookies en nuestro sitio web para habilitar ciertas funciones, proporcionarle información más relevante y optimizar su experiencia en nuestro sitio web. Puede encontrar más información en nuestra Política de privacidad y en nuestros Términos de servicio . La información obligatoria se puede encontrar en el aviso legal