La guerra de precios: La apuesta radical de DeepSeek por una IA más económica
DeepSeek ha vuelto a recortar los costes de la IA hasta en un 75%, obligando a sus rivales a replantearse sus estrategias y posiblemente abriendo la puerta a un acceso más amplio a la tecnología avanzada.
PEKÍN — Desarrollar IA siempre ha conllevado un dilema doloroso: más potencia significa más gasto. Pero el nuevo lanzamiento de DeepSeek, una empresa china, ha vuelto a romper esa regla una vez más, y los efectos dominó podrían remodelar toda la industria.
Justo antes de la festividad nacional de China —un momento que se ha convertido en una broma interna entre los ingenieros que observan el implacable ciclo de lanzamientos de la compañía—, DeepSeek lanzó su último modelo, V3.2-Exp. A diferencia de las actualizaciones anteriores, esta no pretende superar a su predecesor. En cambio, apuesta por un enfoque diferente: ofrecer aproximadamente el mismo rendimiento a una fracción del coste.
Los ahorros son drásticos. Para un contexto de 128.000 tokens —aproximadamente el tamaño de una novela completa—, el sistema ahora procesa la entrada (fallo de caché) por solo 0,28 $ por millón de tokens, frente a los 0,56 $, y para el acierto de caché por 0,028 $ desde los 0,07 $ por millón de tokens, una sorprendente reducción del 60 % en el precio. La generación de salida, que suele costar mucho más, se ha desplomado: de 2,20 $ a solo 1,68 $ por millón de tokens. La API de la compañía refleja esta realidad, con los costes de entrada reducidos a la mitad y los de salida en tres cuartas partes.
«Esto es nivel de carnicería de precios», bromeó un ingeniero. Otros predijeron que la medida acorralaría a los competidores y podría eliminar a los laboratorios más débiles, incapaces de igualar la economía.
El ingenioso truco detrás de ello
En el corazón del nuevo sistema de DeepSeek reside una idea engañosamente simple: no todas las palabras en un documento gigante necesitan prestar atención a todas las demás palabras.
Piensa en un estudiante que escribe un trabajo de fin de curso. Si tuviera que releer todo el libro de texto cada vez que escribiera una frase, el proceso llevaría una eternidad. Así es como se comportan los LLM tradicionales: lo suficientemente eficientes para textos cortos, pero absurdamente costosos para los documentos masivos que exigen las aplicaciones actuales.
La solución de DeepSeek, llamada Atención Escasa de DeepSeek (DeepSeek Sparse Attention), introduce un atajo ingenioso. Un «Lightning Indexer» escanea rápidamente todos los tokens anteriores y puntúa su importancia. Luego, en lugar de procesar todo el contexto, el modelo aplica atención completa solo a los 2.048 tokens más relevantes.
La genialidad reside en lo ligero que es este indexador. Utiliza operaciones matemáticas sencillas —como ReLU en lugar de funciones exponenciales pesadas— y se ejecuta con aritmética FP8 de baja precisión. El resultado: cada token es «tocado», pero el trabajo pesado se reserva para los más útiles.
«Es como preguntarle a un bibliotecario qué capítulos importan en lugar de leer todo el libro de principio a fin», explicó un investigador que estudió la arquitectura. «El bibliotecario no es perfecto, pero es lo suficientemente bueno como para ahorrar una montaña de tiempo».
Este cambio hace que la parte costosa de la computación crezca en línea recta en lugar de una curva pronunciada. De repente, tareas que antes parecían demasiado costosas —analizar bases de código enteras, escritos legales o artículos científicos— parecen financieramente realistas.
Entrenando el modelo para identificar lo que importa
DeepSeek no lanzó este indexador a la ligera. Le enseñaron lo que importaba.
Primero, congelaron su modelo existente y lo ejecutaron con atención completa para generar puntuaciones de importancia de «estándar de oro». El indexador aprendió imitando esas puntuaciones, tomando prestada eficazmente la sabiduría del sistema de «peso pesado». Solo después de dominar los conceptos básicos, DeepSeek activó la configuración de atención escasa y entrenó todo junto.
«No se puede construir algo así fácilmente desde cero», escribió un ingeniero en un hilo técnico. «Usar un modelo denso para «enseñar» a uno escaso funciona increíblemente bien, y otros copiarán esta estrategia».
¿Rinde igual de bien?
DeepSeek insiste en que el nuevo sistema mantiene su posición. Las pruebas de referencia en tareas de razonamiento, codificación y multi-agente muestran casi paridad, con pequeñas victorias de ida y vuelta.
Aun así, los escépticos persisten. Un revisor detallado elogió los ahorros de costes, pero informó de compensaciones notables: un rendimiento ligeramente más débil en el razonamiento de múltiples pasos, matemáticas menos fiables y una tendencia a rendirse ante problemas difíciles apoyándose en atajos.
«El noventa por ciento del rendimiento por el veinticinco por ciento del precio», escribió el revisor. «Si el coste importa, es un gran negocio».
Esto plantea una pregunta más importante: ahora que los modelos ya rozan el rendimiento a nivel humano en muchas áreas, ¿la próxima frontera es la capacidad pura o la eficiencia? DeepSeek está apostando claramente por esto último.
El debate abierto
El lanzamiento desencadenó una discusión febril entre los ingenieros. Algunos argumentan que incluso la puntuación ligera de cada token sigue siendo una sobrecarga. Otros se preguntan por qué DeepSeek no mezcló la atención escasa y completa en todas las capas, combinando precisión y eficiencia.
También está la cuestión práctica de cómo este enfoque se relaciona con la infraestructura moderna de IA: el procesamiento por lotes (batching), las peculiaridades de las GPU, la atención paginada. DeepSeek intentó allanar el camino liberando su código de prototipado y los kernels CUDA de alto rendimiento como código abierto, y la comunidad ya lo ha adaptado para las NPU Ascend de Huawei y otros chips nacionales. El soporte inmediato de múltiples proveedores parece menos una coincidencia y más una estrategia, especialmente a medida que China busca la independencia del hardware de IA extranjero.
Por ahora, DeepSeek mantendrá ambas versiones activas hasta el 15 de octubre de 2025, dando a los desarrolladores la oportunidad de realizar pruebas A/B por sí mismos.
El panorama general
El lanzamiento no ocurre en el vacío. Con los controles de exportación occidentales estrangulando el acceso a chips de IA de primer nivel, las empresas chinas deben exprimir más rendimiento de lo que tienen. El modelo de DeepSeek demuestra que los algoritmos ingeniosos pueden compensar parcialmente las desventajas de hardware.
Para las empresas, este cambio es enorme. Asistentes de IA que necesitan recordar conversaciones extensas, ayudantes de código que deben leer repositorios enteros y analizadores de documentos para informes extensos, todo esto se vuelve de repente asequible a escala.
«La era de los agentes aún necesita más velocidad», comentó un desarrollador, resumiendo el ambiente. Un menor coste desbloquea nuevas posibilidades, pero también muestra lo lejos que aún tiene que llegar la tecnología.
Los observadores describen a DeepSeek como una empresa estable, discreta y genuinamente innovadora, lejos de ser ostentosa, pero constante en la entrega de avances. Su costumbre de lanzar grandes versiones justo antes de las vacaciones incluso se ha convertido en una broma recurrente: los ingenieros bromean diciendo que la empresa «acaba las vacaciones un lanzamiento a la vez».
¿Qué viene después?
Para los desarrolladores que trabajan con contextos largos —de 32.000 a 128.000 tokens—, el mensaje es claro: prueben V3.2-Exp ahora. Los ahorros potenciales son demasiado grandes para ignorarlos, incluso con algunas imperfecciones.
Para la industria, el experimento de DeepSeek puede marcar un punto de inflexión. Si la atención escasa resulta competitiva, otros laboratorios se enfrentarán a una decisión difícil: adoptar el método o recortar precios. De cualquier manera, la suposición de que los costes de inferencia son fijos acaba de hacerse añicos.
Y para el mundo en general, una inferencia más barata podría importar tanto como los modelos más inteligentes. Si las empresas más pequeñas y los desarrolladores individuales pueden finalmente permitirse construir a escala, el ritmo de la innovación podría acelerarse en direcciones inesperadas.
ESTO NO CONSTITUYE ASESORAMIENTO DE INVERSIÓN
