Huawei Presenta el Sistema CloudMatrix para Inferencia de Modelos de IA a Gran Escala
Huawei ha lanzado documentación técnica que detalla su sistema CloudMatrix384, una plataforma de computación especializada construida alrededor de 384 unidades de procesamiento neuronal Ascend-910C, diseñada para la inferencia de modelos de IA a gran escala. El sistema incluye CloudMatrix-Infer, una pila de servicio optimizada para modelos de lenguaje muy grandes de Mezcla de Expertos (MoE), como DeepSeek-R1 con 671 mil millones de parámetros.
Arquitectura Técnica e Innovaciones
El sistema CloudMatrix implementa varias innovaciones técnicas clave en su arquitectura. Un elemento central del diseño es una red de malla Unified-Bus que permite la comunicación directa entre todas las NPUs y CPUs con una sobrecarga de latencia mínima. Según el informe técnico, esta interconexión añade menos del 3% de pérdida de ancho de banda y menos de 1 microsegundo de latencia durante la comunicación entre nodos.
El sistema emplea un enfoque desagregado para la inferencia de IA, separando el proceso en tres grupos de recursos distintos: NPUs de prellenado, NPUs de decodificación y un clúster de caché respaldado por DRAM. Estos componentes acceden entre sí directamente a través del Unified-Bus, eliminando la necesidad de planificadores conscientes de la localidad y permitiendo una utilización más eficiente de los recursos.
"Este enfoque aplana eficazmente la jerarquía de memoria, permitiendo planificadores sin estado más simples y cachés agrupadas", explica la documentación técnica, que señala que el diseño permite que cualquier DRAM inactiva en el sistema esté disponible para el almacenamiento en caché de clave-valor o de modelos.
Métricas de Rendimiento y Comparaciones
Los datos de rendimiento incluidos en el informe indican que el sistema CloudMatrix logra 6.688 tokens por segundo por NPU durante las operaciones de prellenado con prompts de 4K tokens, lo que se traduce en 4,45 tokens por segundo por TFLOPS. Para las operaciones de decodificación, el sistema entrega 1.943 tokens por segundo por NPU con un tiempo total de sobrecarga de procesamiento inferior a 50 milisegundos cuando se ejecuta con un tamaño de lote de 96.
El informe afirma que estas métricas de eficiencia superan las cifras publicadas para sistemas comparables que funcionan con hardware NVIDIA H100 y H800. Cuando se restringe a requisitos de latencia más estrictos de 15 milisegundos, el sistema mantiene un rendimiento de 538 tokens por segundo ajustando automáticamente los tamaños de lote.
Las técnicas de cuantificación implementadas en el sistema permiten la precisión INT8 cuando es apropiado, manteniendo la precisión BF16/FP32 para operaciones sensibles. El informe indica que este enfoque de precisión mixta preserva la precisión del modelo al tiempo que reduce sustancialmente los requisitos de memoria, con resultados de pruebas de rendimiento que muestran que el modelo INT8 iguala o casi iguala el rendimiento de referencia FP en conjuntos de evaluación de inglés, código, matemáticas y chino.
Consideraciones Económicas
La documentación técnica incluye estimaciones de costos aproximadas para el sistema. Un rack completo de CloudMatrix384 se estima en aproximadamente 50 millones de yuanes (alrededor de 6,9 millones de dólares estadounidenses), con chips individuales Ascend 910C con un precio aproximado de 150.000 yuanes. Basado en las mediciones de rendimiento, esto se traduce en un costo estimado de aproximadamente 2 yuanes por millón de tokens generados.
El Servicio de Memoria Elástica del sistema proporciona beneficios adicionales de eficiencia operativa, permitiendo el cambio de modelo en aproximadamente 5 segundos, frente a los 281 segundos con los enfoques tradicionales de DRAM local de nodo, mientras que requiere solo 1x la huella de DRAM en comparación con 8x para los enfoques convencionales.
Detalles de Implementación Técnica
Varias técnicas especializadas contribuyen a las características de rendimiento del sistema:
-
Paralelismo de Expertos a Gran Escala - El sistema implementa paralelismo de expertos para hasta 320 expertos, distribuyendo exactamente un experto por die de NPU, mientras utiliza paralelismo de datos para capas densas.
-
Pipelining Híbrido y de Micro-lotes - Para las operaciones de prellenado, el sistema utiliza paralelismo tensorial híbrido y paralelismo de expertos para la Atención Latente Multi-Cabeza con pipelining de dos micro-lotes. Las operaciones de decodificación utilizan flujos de atención y MoE superpuestos por micro-lote.
-
Predicción Multi-Token - El sistema genera dos tokens por paso con validación especulativa, proporcionando entre un 6% y un 49% de rendimiento de decodificación adicional, dependiendo del tamaño de lote.
-
Kernels Nativos de Ascend - Implementaciones GEMM INT8 personalizadas y operadores fusionados diseñados específicamente para los motores cubo/vector/DMA de la arquitectura Ascend ayudan a mantener el rendimiento con la estrategia de paralelismo elegida.
Implicaciones en el Mercado
El sistema CloudMatrix representa una solución de computación de IA totalmente doméstica china, desde el silicio de NPU hasta el software del sistema. El informe técnico señala que, con las capacidades de fabricación de China, el sistema tiene potencial para la producción en masa.
La estrategia del modelo DeepSeek de proporcionar pesos abiertos para la adopción comunitaria, al tiempo que ofrece complementos comerciales para despliegues privados, se alinea con lo que el informe describe como el enfoque político de Beijing en el valor de la aplicación por encima del recuento de parámetros brutos.
Para las organizaciones que trabajan con modelos de IA a gran escala, el sistema ofrece potencialmente un enfoque rentable para la inferencia, particularmente para tareas intensivas en datos como la destilación de modelos o el autoentrenamiento sin extensas operaciones de etiquetado.
Desarrollos Futuros
La documentación técnica describe varias áreas para futuros desarrollos, incluyendo interconexiones ópticas más densas y algoritmos de planificación más sofisticados. Los autores sugieren que la arquitectura actual podría escalar a configuraciones aún mayores que la implementación de 384 NPUs detallada en el informe.
Nota: Este análisis se basa en la información técnica proporcionada en la documentación. Los inversores potenciales deben realizar su propia investigación y consultar a asesores financieros antes de tomar decisiones de inversión.