CoreWeave Bate el Récord de Velocidad en Entrenamiento de IA con un Clúster Masivo de GPU para Modelos de Lenguaje

Por
Lang Wang
8 min de lectura

La infraestructura de IA récord de CoreWeave establece un nuevo estándar en la industria

En un salto significativo para la infraestructura de inteligencia artificial, CoreWeave (Nasdaq: CRWV) ha demostrado un rendimiento sin precedentes en el entrenamiento de modelos de lenguaje grandes, lo que podría remodelar la economía y el ritmo del desarrollo de la IA para empresas de todo el mundo.

Coreweave (gstatic.com)
Coreweave (gstatic.com)

El hito de los 27 minutos: un avance técnico gestado durante años

En lo que los expertos de la industria están llamando un momento decisivo para la computación en la nube, CoreWeave, en asociación con NVIDIA e IBM, ha entrenado con éxito un modelo Llama 3.1 masivo de 405 mil millones de parámetros en solo 27.3 minutos. Este logro, revelado en su presentación para MLPerf Training v5.0 el 4 de junio, representa más del doble de la velocidad de sistemas comparables.

"Esto no es solo un progreso incremental, es un cambio fundamental en lo que es posible", dijo un arquitecto de sistemas de IA de un laboratorio de investigación líder. "Las ejecuciones de entrenamiento que antes consumían días laborales completos ahora terminan antes de que tu café se enfríe".

El logro técnico se basa en el despliegue de 2,496 GPUs NVIDIA GB200 de CoreWeave en una configuración especializada conocida como NVL72, que agrupa 72 GPUs a través de conexiones NVLink de alto ancho de banda. Esta arquitectura representa una desviación significativa de los clústeres de GPUs tradicionales, eliminando muchos de los cuellos de botella que históricamente han afectado el entrenamiento de IA a gran escala.

Más allá de los números: por qué esto es importante para el desarrollo de la IA

Las implicaciones se extienden mucho más allá de los derechos a presumir en un benchmark de la industria. Para los laboratorios de IA y las empresas que trabajan en modelos de vanguardia, la capacidad de entrenar un modelo fundacional en menos de 30 minutos transforma los ciclos de desarrollo de semanas a días.

"Cuando tus tiempos de entrenamiento bajan de 12 horas a 27 minutos, todo cambia", explicó un investigador computacional familiarizado con implementaciones de IA a gran escala. "Puedes ejecutar docenas de experimentos en un solo día, probar más hipótesis y, en última instancia, construir mejores modelos más rápido que los competidores que aún esperan resultados".

El logro de CoreWeave es particularmente notable por su escala: su presentación utilizó un clúster 34 veces más grande que cualquier otra entrada de MLPerf de un proveedor de la nube. Esto demuestra no solo capacidad técnica, sino también preparación operativa para soportar las cargas de trabajo de IA más exigentes en un momento en que el acceso a recursos informáticos avanzados sigue siendo limitado en toda la industria.

La ecuación económica: redefiniendo el costo total de propiedad de la IA

Las ganancias de rendimiento se traducen directamente en implicaciones financieras. Un análisis de la industria sugiere que entrenar un modelo de 405 mil millones de parámetros en la infraestructura de CoreWeave costaría aproximadamente entre 350.000 y 420.000 dólares, lo que representa aproximadamente un 30-40% menos que las ejecuciones comparables en otras plataformas, que pueden superar los 600.000 dólares.

Para las startups enfocadas en IA que operan con financiación limitada, esta diferencia de costos podría determinar si los proyectos ambiciosos avanzan o permanecen en teoría. Para las empresas establecidas, representa millones en ahorros potenciales para iniciativas de IA a gran escala.

"La economía aquí es convincente", señaló un inversor de capital riesgo especializado en startups de IA. "Cuando se tienen en cuenta tanto el ahorro directo de costos como la ventaja competitiva de ciclos de desarrollo más rápidos, la oferta de CoreWeave se vuelve transformadora para ciertos segmentos del mercado".

La arquitectura técnica detrás del logro

El rendimiento récord de CoreWeave se basa en varias innovaciones técnicas:

Los superchips GB200 Grace Blackwell representan la última generación de aceleradores de IA de NVIDIA, que combinan potentes núcleos de GPU con CPUs Grace basadas en ARM y unidades de procesamiento de datos especializadas en el mismo paquete.

A diferencia de los racks de GPU tradicionales que requieren CPUs de host separadas para transportar datos entre las unidades de procesamiento, el diseño integrado del GB200 elimina este cuello de botella. La configuración NVL72 amplía esta ventaja al crear dominios unificados de 72 GPUs con conexiones directas de alta velocidad entre ellas.

"Lo que hace que esta arquitectura sea especial es cómo aborda el movimiento de datos, que siempre ha sido el talón de Aquiles del entrenamiento de IA distribuido", explicó un especialista en infraestructura de una importante universidad de investigación. "Al integrar CPUs directamente y expandir el dominio NVLink a 72 GPUs, han eliminado varias capas de indirección que típicamente crean ineficiencias de escalado".

La contribución de IBM, aunque menos detallada en los materiales públicos, probablemente abarca un diseño crítico a nivel de sistema que incluye la gestión térmica, la distribución de energía y las redes capaces de sostener los flujos masivos de datos requeridos.

Posicionamiento en el mercado: el lugar de CoreWeave en el panorama competitivo

Este logro posiciona a CoreWeave como una alternativa especializada a los proveedores de la nube hiperescalares como AWS, Google Cloud y Microsoft Azure, todos los cuales ofrecen sus propias opciones de computación de alto rendimiento para cargas de trabajo de IA.

Los Pods TPU v5 de Google, las instancias EC2 P5 de AWS y el recientemente anunciado CryoPod de Microsoft representan los competidores más cercanos, pero ninguno ha demostrado públicamente un rendimiento comparable a esta escala para los benchmarks MLPerf v5.0.

"La carrera por la supremacía de la computación de IA tiene múltiples frentes", observó un analista de infraestructura de la nube. "Los hiperescalares tienen enormes recursos, pero el enfoque especializado de CoreWeave y el acceso temprano a la arquitectura Blackwell les ha dado una ventaja temporal en este segmento específico de alta gama".

Esta ventaja puede ser temporal: AWS, Google y Microsoft tienen acceso a la misma tecnología subyacente de NVIDIA y vastos recursos para implementarla. Sin embargo, para los próximos trimestres críticos, CoreWeave parece haber establecido una ventaja significativa en la capacidad de entrenamiento de LLM a ultraescala.

El camino por delante: desafíos y oportunidades

Si bien el logro de CoreWeave representa un hito significativo, persisten varios desafíos para las organizaciones que buscan aprovechar esta tecnología:

La preparación de datos y la eficiencia de la pipeline se vuelven cada vez más críticas cuando el procesamiento de la GPU se acelera a este grado. Incluso los cuellos de botella menores en la alimentación de datos pueden reducir sustancialmente los beneficios reales de las capacidades de entrenamiento más rápidas.

La complejidad del software sigue siendo sustancial, lo que requiere experiencia especializada para explotar plenamente el entrenamiento distribuido en miles de GPUs. Muchas organizaciones carecen del talento interno para optimizar a esta escala sin apoyo adicional.

La disponibilidad y los plazos de aprovisionamiento determinarán cuántas organizaciones pueden acceder realmente a esta capacidad. CoreWeave afirma tener suficiente inventario para asignar miles de GPUs en 24 horas, un marcado contraste con las listas de espera de varios meses reportadas en algunos hiperescalares, pero la disponibilidad sostenida a esta escala aún debe demostrarse.

Perspectiva de inversión: implicaciones para el mercado de infraestructura de IA

Para los inversores que observan el espacio de la infraestructura de IA, la demostración de CoreWeave destaca varias tendencias clave:

El mercado de proveedores de la nube de IA especializados parece estar consolidándose junto con los hiperescalares establecidos, lo que sugiere una bifurcación entre la computación en la nube de propósito general y la infraestructura de IA especializada.

La posición dominante de NVIDIA en los aceleradores de IA continúa a pesar de los competidores emergentes de Cerebras, Graphcore y Habana Labs. La ventaja de rendimiento de la arquitectura GB200 refuerza el liderazgo tecnológico de NVIDIA, aunque las limitaciones de suministro siguen siendo un factor importante en el mercado.

El mercado total al que se puede acceder para el entrenamiento de IA a ultraescala (modelos de más de 100 mil millones de parámetros) se estima en 2-3 mil millones de dólares anuales y está creciendo rápidamente, lo que representa uno de los segmentos de mayor margen dentro del mercado más amplio de infraestructura de IA de 50 mil millones de dólares.

Las organizaciones con iniciativas sustanciales de IA pueden necesitar adoptar estrategias multi-nube, aprovechando a proveedores especializados como CoreWeave para cargas de trabajo específicas de alto rendimiento mientras mantienen relaciones con los hiperescalares para necesidades informáticas más amplias.

Qué significa esto para el desarrollo de la IA

La demostración de CoreWeave sugiere que hemos entrado en lo que algunos llaman un "carril rápido de IA" para el desarrollo de modelos fundacionales, donde el cuello de botella de las largas ejecuciones de entrenamiento se reduce sustancialmente para aquellos con acceso a infraestructura de vanguardia.

Para los equipos de IA empresariales que trabajan en modelos grandes, las nuevas capacidades merecen una seria consideración, particularmente para proyectos que involucran modelos en el rango de 100 a 500 mil millones de parámetros. Incluso el acceso ocasional a tales recursos podría acelerar significativamente los ciclos de desarrollo.

Las organizaciones más pequeñas y los equipos de investigación aún pueden encontrar los clústeres de GPU tradicionales más rentables para el trabajo diario, reservando los recursos de ultraescala para hitos específicos o demostraciones de prueba de concepto.

A medida que el panorama de la infraestructura continúa evolucionando, con nuevas tecnologías de aceleración y optimizaciones de software que surgen regularmente, el ritmo de la innovación en el desarrollo de la IA parece dispuesto a acelerarse aún más.

Por ahora, el logro de CoreWeave se erige como un punto de referencia de lo que es posible, y una señal de que la carrera por la infraestructura de IA sigue siendo tan dinámica y trascendente como los propios algoritmos de IA.

También te puede gustar

Este artículo ha sido enviado por nuestro usuario bajo las Normas y directrices para la presentación de noticias. La foto de portada es arte generado por computadora únicamente con fines ilustrativos; no indicativa del contenido factual. Si crees que este artículo infringe los derechos de autor, no dudes en informarlo enviándonos un correo electrónico. Tu vigilancia y cooperación son invaluables para ayudarnos a mantener una comunidad respetuosa y legalmente conforme.

Suscríbete a nuestro boletín

Obtenga lo último en negocios empresariales y tecnología con vistazos exclusivos a nuestras nuevas ofertas

Utilizamos cookies en nuestro sitio web para habilitar ciertas funciones, proporcionarle información más relevante y optimizar su experiencia en nuestro sitio web. Puede encontrar más información en nuestra Política de privacidad y en nuestros Términos de servicio . La información obligatoria se puede encontrar en el aviso legal