Microsoft Rompe la Barrera del Millón de Tokens en la Carrera de la IA en la Nube, Pero la Victoria Podría Ser Fugaz

Por
CTOL Editors - Ken
5 min de lectura

Microsoft Rompe la Barrera del Millón de Tokens en la Carrera de la IA en la Nube, Pero la Victoria Podría Ser Fugaz

El Récord que Reescribe la Computación en la Nube

Microsoft Azure ha pulverizado el récord de velocidad de inferencia de inteligencia artificial, logrando la cifra sin precedentes de 1.1 millones de tokens por segundo en un único sistema a escala de rack —un salto del 27% sobre su propio récord anterior y un hito que marca la llegada de la IA a escala verdaderamente industrial en la nube.

Este logro, conseguido por los ingenieros Mark Gitau y Hugo Affaticati utilizando las nuevas máquinas virtuales Azure ND GB300 v6 impulsadas por la arquitectura Blackwell Ultra de NVIDIA, representa una mejora quíntuple con respecto al hardware de la generación anterior. Sin embargo, detrás de los titulares de celebración, se esconde una historia más compleja: esto no es tanto una revolución como el inevitable siguiente paso en una carrera armamentística donde la línea de meta sigue en movimiento.

Triunfo de Ingeniería sobre Silicio Construido por Otros

El logro técnico es innegable. Al ejecutar el modelo Llama 2 70B, estándar de la industria, en 18 máquinas virtuales que albergan 72 GPUs NVIDIA GB300, Azure demostró lo que sucede cuando el silicio de vanguardia se encuentra con una optimización de software madura. El sistema procesó 15,200 tokens por segundo por GPU, en comparación con solo 3,066 tokens por segundo de los chips H100 de la generación anterior de NVIDIA.

Los ingenieros de Azure extrajeron un 92% de eficiencia de la memoria de alto ancho de banda del sistema y lograron 7,37 terabytes por segundo de rendimiento de memoria —cifras que indican una operación finamente ajustada, no una mera instalación de hardware. La compañía publicó instrucciones detalladas de replicación, una transparencia poco común en los anuncios de proveedores de la nube y una señal de confianza en su pila de ingeniería.

Pero esto es lo que el comunicado de prensa minimiza: este es fundamentalmente un avance de NVIDIA, no de Microsoft. El sistema a escala de rack GB300 NVL72 fue diseñado explícitamente por NVIDIA para exactamente este tipo de carga de trabajo de inferencia, con un 50% más de memoria GPU y un 16% más de capacidad térmica que su predecesor. Azure fue simplemente el primero en llegar a la meta al ponerlo disponible como un servicio en la nube.

Lo que Realmente Significan las Cifras

La importancia no radica en una tecnología revolucionaria, sino en lo que ahora es posible a escala empresarial. El observador independiente Signal65 lo calificó como "prueba definitiva" de que el rendimiento transformador de la IA está disponible como una utilidad fiable —y ese encuadre importa más que las cifras puras.

Para las empresas que desarrollan aplicaciones de IA, el impacto práctico es inmediato: lo que antes requería múltiples racks o largos tiempos de procesamiento ahora puede ocurrir en un solo sistema. La economía cambia proporcionalmente. Pero varias advertencias críticas atemperan el entusiasmo.

Primero, este es un benchmark "offline" —un escenario de procesamiento por lotes, no el servicio interactivo de baja latencia que exigen las aplicaciones del mundo real. El tiempo hasta el primer token, el manejo de usuarios concurrentes y el rendimiento sostenido bajo cargas de trabajo mixtas siguen sin abordarse.

Segundo, la presentación a MLPerf v5.1 no está verificada, lo que significa que no ha pasado por el proceso formal de revisión que valida los resultados certificados de las tablas de clasificación. Son datos de rendimiento legítimos, pero no alcanzan la verificación estándar de oro de la industria.

Tercero, y quizás lo más importante, la prueba utilizó Llama 2 70B —un modelo de la era de 2023. Las aplicaciones de vanguardia de hoy se ejecutan en sistemas sustancialmente más grandes: Llama 3.1 405B o la arquitectura de mezcla de expertos de 671 mil millones de parámetros de DeepSeek-R1. Se desconoce si el logro de un millón de tokens de Azure escalará a estos modelos más exigentes.

El Contexto de los Billones de Dólares

El momento de este anuncio no es casualidad. El mercado de infraestructura de IA, actualmente valorado entre 58 mil millones y 182 mil millones de dólares, según la metodología, se proyecta que absorberá billones de dólares en gasto de capital hasta 2030. Hiperescaladores como Microsoft, Amazon y Google enfrentan una presión creciente: los precios de las API de IA tienden a la baja mientras que los costos de infraestructura se disparan al alza.

Cada punto porcentual de mejora en el rendimiento impacta directamente en los márgenes brutos de cada llamada a la API, cada interacción de chatbot y cada solicitud de generación de código. La ganancia del 27% de Azure sobre GB200 se traduce en dinero real a gran escala —pero solo si pueden mantener la ventaja.

Esa ventaja parece precaria. AWS ya ofrece sistemas de clase Blackwell y es casi seguro que desplegará configuraciones GB300 una vez que el suministro lo permita. CoreWeave y Dell anunciaron las primeras implementaciones comerciales de GB300 Ultra hace semanas. Google Cloud y Oracle Cloud Infrastructure van por detrás por meses, no por años. Incluso el MI355X de AMD demostró un rendimiento competitivo en MLPerf, ofreciendo una posible alternativa de precio-rendimiento al dominio de NVIDIA.

Ser el Primero es Diferente de Ser el Único

El verdadero logro de Azure es ser el primero en comercializar el GB300 NVL72 como un servicio en la nube accesible con datos de rendimiento transparentes y reproducibles. Eso es un liderazgo significativo en el tiempo de comercialización y la integración de sistemas —el trabajo poco glamuroso pero crítico de convertir hardware experimental en infraestructura facturable.

Pero es un liderazgo que se mide en trimestres, no en años. La ventaja competitiva es estrecha porque, en última instancia, todos utilizan la misma base de NVIDIA. Una vez que los competidores publiquen sus cifras —especialmente las presentaciones verificadas en MLPerf— la supremacía de Azure en los titulares se evaporará.

El desafío más profundo sigue sin resolverse: estos sistemas aún consumen entre 100 y 120 kilovatios por rack, requieren una refrigeración líquida sofisticada y no abordan el cambio de la industria hacia ventanas de contexto más largas, la eficiencia multitenencia o la optimización del enrutamiento de mezcla de expertos.

Lo que Microsoft ha demostrado es que la próxima generación de infraestructura de IA funciona y funciona bien en entornos de nube de producción. Lo que no han demostrado es que alguien recordará quién fue el primero una vez que todos los demás lleguen al mismo punto.

También te puede gustar

Este artículo ha sido enviado por nuestro usuario bajo las Normas y directrices para la presentación de noticias. La foto de portada es arte generado por computadora únicamente con fines ilustrativos; no indicativa del contenido factual. Si crees que este artículo infringe los derechos de autor, no dudes en informarlo enviándonos un correo electrónico. Tu vigilancia y cooperación son invaluables para ayudarnos a mantener una comunidad respetuosa y legalmente conforme.

Suscríbete a nuestro boletín

Obtenga lo último en negocios empresariales y tecnología con vistazos exclusivos a nuestras nuevas ofertas

Utilizamos cookies en nuestro sitio web para habilitar ciertas funciones, proporcionarle información más relevante y optimizar su experiencia en nuestro sitio web. Puede encontrar más información en nuestra Política de privacidad y en nuestros Términos de servicio . La información obligatoria se puede encontrar en el aviso legal