El modelo SmolLM3 de Hugging Face redefine los modelos de lenguaje pequeños, listo para revolucionar el ecosistema de la IA
Una potencia compacta que desafía a los gigantes de la industria y abre nuevas fronteras para la computación en el borde
El último lanzamiento de código abierto de Hugging Face, SmolLM3, está cuestionando las suposiciones fundamentales sobre el desarrollo de modelos de lenguaje. Lanzado hoy, este modelo de 3 mil millones de parámetros está logrando resultados de referencia que superan a competidores establecidos de tamaño similar, mientras rivaliza con modelos con un número sustancialmente mayor de parámetros.
Este logro técnico representa un hito significativo en la eficiencia de la IA. A pesar de su tamaño compacto, SmolLM3 demuestra capacidades que antes se creía que requerían arquitecturas mucho más grandes, lo que sugiere un posible cambio en cómo se desarrollarán y desplegarán las aplicaciones de IA en diversas industrias.
"La industria ha estado obsesionada con el escalado de parámetros, pero el diseño de arquitectura eficiente y la metodología de entrenamiento pueden resultar igualmente importantes", señaló un experto en eficiencia de IA al comentar sobre el lanzamiento del modelo. "SmolLM3 demuestra que podemos lograr más con menos cuando la ingeniería subyacente está optimizada".
Ficha técnica: Hugging Face SmolLM3 (modelo de 3 mil millones de parámetros)
Categoría | Detalles |
---|---|
Fecha de lanzamiento | Principios de julio de 2025 |
Parámetros | 3 mil millones |
Ventana de contexto | 128K tokens (entrenado con 64K, extrapolado vía YaRN) |
Idiomas | Inglés, francés, español, alemán, italiano, portugués |
Arquitectura | Transformer solo-decodificador, GQA (Atención de Consulta Agrupada), híbrido NoPE (Sin Incrustación Posicional) |
Tokens de entrenamiento | Preentrenamiento: 11,2 billones de tokens (web, código, matemáticas) Entrenamiento intermedio: 140 mil millones (enfoque en el razonamiento) |
Ajuste fino | 1 mil millones de tokens (no razonamiento) + 0,8 mil millones de tokens (razonamiento) |
Alineamiento | Optimización de Preferencia Anclada (APO) |
Modos de razonamiento | Modo dual: - "think" (razonamiento en cadena de pensamiento) - "no_think" (respuestas directas) |
Uso de herramientas | Soporta llamadas a herramientas XML y Python |
Rendimiento | Supera a modelos de 3 mil millones de parámetros (Llama-3.2-3B, Qwen2.5-3B); competitivo con modelos de 4 mil millones de parámetros |
Eficiencia | Optimizado para despliegue en dispositivo/local (bajo uso de VRAM) |
Código abierto | Pesos completos, receta de entrenamiento y mezclas de datos disponibles públicamente |
Soporte de inferencia | Transformers, ONNX, llama.cpp, MLX, MLC |
Innovaciones clave | - Capas híbridas NoPE/RoPE para retención de contexto largo - Razonamiento de modo dual vía APO (sin RLHF) - Fusión de modelos para recuperación de contexto |
Limitaciones | - Limitado a 6 idiomas - El contexto más allá de 64K depende |