SmolLM3 de Hugging Face Redefine los Modelos de Lenguaje Pequeños, Listo para Revolucionar el Ecosistema de IA

Por
CTOL Editors - Ken
2 min de lectura

El modelo SmolLM3 de Hugging Face redefine los modelos de lenguaje pequeños, listo para revolucionar el ecosistema de la IA

Una potencia compacta que desafía a los gigantes de la industria y abre nuevas fronteras para la computación en el borde

El último lanzamiento de código abierto de Hugging Face, SmolLM3, está cuestionando las suposiciones fundamentales sobre el desarrollo de modelos de lenguaje. Lanzado hoy, este modelo de 3 mil millones de parámetros está logrando resultados de referencia que superan a competidores establecidos de tamaño similar, mientras rivaliza con modelos con un número sustancialmente mayor de parámetros.

Este logro técnico representa un hito significativo en la eficiencia de la IA. A pesar de su tamaño compacto, SmolLM3 demuestra capacidades que antes se creía que requerían arquitecturas mucho más grandes, lo que sugiere un posible cambio en cómo se desarrollarán y desplegarán las aplicaciones de IA en diversas industrias.

SmolLM3 (huggingface.co)
SmolLM3 (huggingface.co)

"La industria ha estado obsesionada con el escalado de parámetros, pero el diseño de arquitectura eficiente y la metodología de entrenamiento pueden resultar igualmente importantes", señaló un experto en eficiencia de IA al comentar sobre el lanzamiento del modelo. "SmolLM3 demuestra que podemos lograr más con menos cuando la ingeniería subyacente está optimizada".

Ficha técnica: Hugging Face SmolLM3 (modelo de 3 mil millones de parámetros)

CategoríaDetalles
Fecha de lanzamientoPrincipios de julio de 2025
Parámetros3 mil millones
Ventana de contexto128K tokens (entrenado con 64K, extrapolado vía YaRN)
IdiomasInglés, francés, español, alemán, italiano, portugués
ArquitecturaTransformer solo-decodificador, GQA (Atención de Consulta Agrupada), híbrido NoPE (Sin Incrustación Posicional)
Tokens de entrenamientoPreentrenamiento: 11,2 billones de tokens (web, código, matemáticas)
Entrenamiento intermedio: 140 mil millones (enfoque en el razonamiento)
Ajuste fino1 mil millones de tokens (no razonamiento) + 0,8 mil millones de tokens (razonamiento)
AlineamientoOptimización de Preferencia Anclada (APO)
Modos de razonamientoModo dual:
- "think" (razonamiento en cadena de pensamiento)
- "no_think" (respuestas directas)
Uso de herramientasSoporta llamadas a herramientas XML y Python
RendimientoSupera a modelos de 3 mil millones de parámetros (Llama-3.2-3B, Qwen2.5-3B); competitivo con modelos de 4 mil millones de parámetros
EficienciaOptimizado para despliegue en dispositivo/local (bajo uso de VRAM)
Código abiertoPesos completos, receta de entrenamiento y mezclas de datos disponibles públicamente
Soporte de inferenciaTransformers, ONNX, llama.cpp, MLX, MLC
Innovaciones clave- Capas híbridas NoPE/RoPE para retención de contexto largo
- Razonamiento de modo dual vía APO (sin RLHF)
- Fusión de modelos para recuperación de contexto
Limitaciones- Limitado a 6 idiomas
- El contexto más allá de 64K depende

También te puede gustar

Este artículo ha sido enviado por nuestro usuario bajo las Normas y directrices para la presentación de noticias. La foto de portada es arte generado por computadora únicamente con fines ilustrativos; no indicativa del contenido factual. Si crees que este artículo infringe los derechos de autor, no dudes en informarlo enviándonos un correo electrónico. Tu vigilancia y cooperación son invaluables para ayudarnos a mantener una comunidad respetuosa y legalmente conforme.

Suscríbete a nuestro boletín

Obtenga lo último en negocios empresariales y tecnología con vistazos exclusivos a nuestras nuevas ofertas

Utilizamos cookies en nuestro sitio web para habilitar ciertas funciones, proporcionarle información más relevante y optimizar su experiencia en nuestro sitio web. Puede encontrar más información en nuestra Política de privacidad y en nuestros Términos de servicio . La información obligatoria se puede encontrar en el aviso legal