El arma secreta de DeepSeek-V3 al descubierto: Cómo una IA de 671B parámetros funciona con solo 2.048 GPUs

Por
Lang Wang
6 min de lectura

El Arma Secreta de DeepSeek-V3: Cómo una IA de 671.000 Millones de Parámetros Funciona con Solo 2.048 GPUs

La innovación en IA ya no trata solo de modelos más grandes, sino de construir sistemas más inteligentes. Mientras los gigantes tecnológicos compiten por escalar modelos de miles de millones de parámetros, la investigación más reciente de DeepSeek ofrece una narrativa contraria que está ganando atención por las razones adecuadas: rendimiento sin excesos. El artículo recientemente publicado, “Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures” (Perspectivas sobre DeepSeek-V3: Desafíos de Escalado y Reflexiones sobre Hardware para Arquitecturas de IA), revela no solo cómo DeepSeek-V3 logra benchmarks de vanguardia, sino por qué puede hacerlo de forma más rentable que cualquier modelo comparable a gran escala.

Y esto no es simple marketing. Es un plan detallado de cómo el codiseño hardware-software está cambiando el juego de la IA, y reduciendo drásticamente los costes de infraestructura en el proceso.


Parte I: La Estrategia de Arquitectura de DeepSeek—Por Qué 37.000 Millones > 405.000 Millones

En el centro del rendimiento y la ventaja de coste de DeepSeek-V3 se encuentra su arquitectura de Mezcla de Expertos (MoE). De sus masivos 671.000 millones de parámetros totales, solo 37.000 millones se activan por token. Esta elección de diseño reduce drásticamente los requisitos computacionales por pasada hacia adelante:

  • 250 GFLOPs/token frente a 394 GFLOPs/token para modelos densos de 72.000 millones.
  • Más de 10 veces más eficiente que los modelos densos de 405.000 millones (2.448 GFLOPs/token).

El mensaje es claro: la activación dispersa, cuando se ejecuta correctamente, escala mejor, no solo en teoría, sino en hardware real. Este diseño hace que DeepSeek-V3 sea rentable para entrenar y desplegar, incluso a una escala sin precedentes.

Basic Architecture of Deepseek V3
Basic Architecture of Deepseek V3


Parte II: Innovaciones Orientadas al Hardware Que Reducen Costes en Cada Capa

Las perspectivas más convincentes del artículo provienen de la optimización sistemática hardware-modelo que los ingenieros de DeepSeek integraron en el proceso de entrenamiento. No son ajustes superficiales; representan una profunda reconsideración de cómo los LLMs interactúan con la infraestructura física.

1. Atención Latente Multicabezal (MLA)

MLA comprime los cachés KV (Clave-Valor) en representaciones latentes compactas, reduciendo drásticamente el uso de memoria:

  • Tamaño del caché KV: 70 KB por token, frente a 327–516 KB.
  • Permite ventanas de contexto más largas y un escalado de hardware más eficiente.

Esto no solo mejora el rendimiento por GPU, sino que también hace que el modelo sea viable para entornos con menos memoria.

2. Entrenamiento de Precisión Mixta FP8

El uso de DeepSeek de la precisión FP8 de granularidad fina reduce significativamente la memoria y la sobrecarga computacional:

  • Reduce a la mitad la memoria de activación.
  • Mantiene la degradación de la precisión al mínimo.
  • Permite entrenar un modelo MoE de 671.000 millones con solo 2.048 GPUs NVIDIA H800.

Esto es una fracción de lo que se utiliza para entrenar modelos como GPT-4, y reduce los costes de entrenamiento de cientos de millones a menos de 6 millones de dólares.

3. Predicción Especulativa de Múltiples Tokens

Esta novedosa estrategia de decodificación predice y verifica múltiples tokens en paralelo, lo que lleva a:

  • Un aumento del rendimiento de 1.8 veces.
  • Inferencia significativamente más rápida sin comprometer la calidad de la salida.

Es un simple cambio arquitectónico que tiene grandes implicaciones posteriores para el coste de servicio y la latencia.

4. Optimización de la Comunicación y la Red

Desde solapar la comunicación MoE con el cálculo hasta implementar la compresión de red FP8, cada parte de la infraestructura de DeepSeek-V3 está diseñada para la eficiencia:

  • Reducción del 50% en el ancho de banda de comunicación.
  • Una interconexión customizada de tipo fat-tree de dos capas reduce el coste de hardware manteniendo una baja latencia.
  • Suficientemente eficiente como para escalar a más de 16.000 GPUs.

Estas decisiones reflejan la realidad del entrenamiento de modelos grandes en entornos restringidos, ya sean laboratorios académicos o startups.


Parte III: Impacto en el Mundo Real e Implicaciones Estratégicas

Si bien el modelo ya ha sido reconocido por su rendimiento (superando incluso a GPT-4.5 en tareas como matemáticas y generación de código), las decisiones a nivel de infraestructura reveladas en este artículo son las que tienen un valor estratégico a largo plazo.

Para Inversores y Proveedores de Servicios en la Nube

  • Liderazgo en Costes: El coste de entrenamiento de DeepSeek de 5,576 millones de dólares contrasta drásticamente con los cientos de millones de OpenAI.
  • Economía Unitaria: Con un coste de inferencia tan bajo como 2,19 dólares por millón de tokens de salida, DeepSeek supera en precio a OpenAI (60,00 dólares) en más del 90%.
  • Disrupción del Mercado: Este modelo de precios contribuyó a una corrección global de las acciones de IA y a una caída del 18% en el precio de las acciones de Nvidia a principios de este año.

Para Empresas

  • Viabilidad del Despliegue en el Edge: La arquitectura MoE dispersa hace factible ejecutar modelos potentes en GPUs de consumo o dispositivos edge locales.
  • Adopción Empresarial: DeepSeek se ha integrado en equipos de desarrollo, con reducciones del 35% en el tiempo de codificación rutinaria reportadas en uso en campo.

Para Comunidades de Código Abierto

  • Acceso y Extensibilidad: DeepSeek-V3 está disponible a través de OpenRouter, Hugging Face y APIs, totalmente de código abierto y susceptible de ajuste fino.
  • Respuesta de la Comunidad: Más de 15.000 estrellas en GitHub, más de 3.000 versiones afinadas y un ecosistema que crece rápidamente en Asia, Europa y América del Norte.

Parte IV: ¿Qué Hay de Nuevo en DeepSeek-V3-0324?

Aunque DeepSeek-V3 ha estado disponible durante meses, la actualización de marzo de 2025 (V3-0324) añade una potencia significativa:

  • Aumento del número de parámetros a 685.000 millones.
  • Mejoras importantes en benchmarks:
    • MMLU-Pro: 75.9 → 81.2
    • AIME: 39.6 → 59.4
    • GPQA: 59.1 → 68.4
  • Mejora en la generación de código y frontend.
  • Mayor rendimiento en PNL (Procesamiento del Lenguaje Natural) en chino y llamada a funciones.
  • Continúa superando a los principales modelos propietarios en tareas multilingües y de razonamiento.

Aún más importante, el artículo documenta frameworks FP8 de código abierto, recomendaciones de diseño de hardware y métodos de compresión que sirven como hoja de ruta para cualquiera que desee construir LLMs de manera eficiente.


Conclusión: Qué Significa Esto para el Futuro del Escalado de la IA

DeepSeek-V3 es más que un modelo potente; es un caso de estudio en escala de IA sostenible. El artículo técnico recién publicado desmitifica cómo DeepSeek logró la paridad de rendimiento con los líderes del mercado a una fracción del coste de infraestructura. Es una llamada de atención para la industria: simplemente añadir más GPUs a un problema ya no es una ventaja competitiva viable.

En resumen:

  • MoE + FP8 + MLA = cálculo masivamente eficiente.
  • La relación coste-rendimiento se ha convertido en el nuevo campo de batalla.
  • DeepSeek ofrece una guía para que las startups y los laboratorios desafíen a los grandes actores de la IA en su propio terreno.

Ahora la pregunta es: ¿seguirán otros esta guía o continuarán escalando a la antigua usanza hasta que llegue la factura?


También te puede gustar

Este artículo ha sido enviado por nuestro usuario bajo las Normas y directrices para la presentación de noticias. La foto de portada es arte generado por computadora únicamente con fines ilustrativos; no indicativa del contenido factual. Si crees que este artículo infringe los derechos de autor, no dudes en informarlo enviándonos un correo electrónico. Tu vigilancia y cooperación son invaluables para ayudarnos a mantener una comunidad respetuosa y legalmente conforme.

Suscríbete a nuestro boletín

Obtenga lo último en negocios empresariales y tecnología con vistazos exclusivos a nuestras nuevas ofertas

Utilizamos cookies en nuestro sitio web para habilitar ciertas funciones, proporcionarle información más relevante y optimizar su experiencia en nuestro sitio web. Puede encontrar más información en nuestra Política de privacidad y en nuestros Términos de servicio . La información obligatoria se puede encontrar en el aviso legal