Karpathy Propone un Nuevo Método de Entrenamiento de IA Inspirado en el Prompt de Sistema de 17000 Palabras de Claude

Por
Lang Wang
8 min de lectura

Aprendizaje a Través de Prompts del Sistema: La Visión de Andrej Karpathy para el Próximo Paradigma en el Entrenamiento de IA

Andrej Karpathy, una voz destacada en el desarrollo de IA y exdirector de IA en Tesla, recientemente generó debate con una idea aparentemente simple: quizás nos hemos estado perdiendo un paradigma completo en cómo aprenden los modelos de lenguaje grandes (LLMs). Su propuesta, "Aprendizaje a Través de Prompts del Sistema", no implica más datos o redes más profundas, sino una forma más inteligente de guiar a los modelos usando instrucciones editables que se parecen a la memoria y el razonamiento humanos.

Andrej Karpathy dando una presentación en el escenario, conocido por su trabajo en Tesla y OpenAI. (ytimg.com)
Andrej Karpathy dando una presentación en el escenario, conocido por su trabajo en Tesla y OpenAI. (ytimg.com)

En un mundo donde la inversión en IA depende de avances que van más allá del pre-entrenamiento de fuerza bruta y el costoso ajuste fino, esta idea —extraída de la mecánica detrás del prompt del sistema de 17,000 palabras de Claude— plantea preguntas críticas sobre cómo escalar la IA de manera más eficiente y responsable.


Pre-entrenamiento, Ajuste Fino... ¿Y Luego Qué?

El ecosistema actual de entrenamiento de IA está dominado por dos estrategias principales:

  • Pre-entrenamiento: Los LLMs ingieren enormes cantidades de texto para desarrollar una comprensión general del lenguaje y el mundo.
  • Ajuste fino: Se refuerzan comportamientos específicos a través de ejemplos supervisados o aprendizaje por refuerzo, a menudo alineado con la retroalimentación humana (RLHF).

El Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) es un proceso de varias etapas utilizado para entrenar modelos de IA, especialmente modelos de lenguaje grandes, para que se alineen mejor con las preferencias humanas. Implica usar retroalimentación humana, a menudo clasificando diferentes salidas del modelo, para crear un modelo de recompensa que luego guía el aprendizaje de la IA a través del aprendizaje por refuerzo.

Ambos enfoques alteran los parámetros internos del modelo. Pero Karpathy señala un rasgo del aprendizaje humano que estos métodos pasan por alto: a menudo no "recableamos" nuestros cerebros al aprender. Tomamos notas. Nos dejamos recordatorios explícitos. Nos adaptamos cambiando nuestras instrucciones internas, no nuestro cableado principal.

El Aprendizaje a Través de Prompts del Sistema toma prestado de este principio. En lugar de editar pesos con gradientes, sugiere editar el prompt del sistema del modelo —un conjunto persistente de instrucciones que dan forma a su comportamiento en diferentes tareas—. En este marco, los LLMs podrían, en teoría, escribir, refinar y actualizar sus propias estrategias de resolución de problemas, como llevar un cuaderno personal.


El Manual de 17,000 Palabras de Claude: La Chispa Detrás del Cambio

La propuesta de Karpathy no era teórica. Fue provocada por un ejemplo del mundo real: el modelo Claude de Anthropic, cuyo prompt del sistema abarca casi 17,000 palabras. Este megaprompt codifica todo, desde límites morales (por ejemplo, evitar letras de canciones con derechos de autor) hasta estrategias detalladas para responder preguntas (por ejemplo, cómo contar letras en una palabra como fresa). Puedes ver el prompt completo del sistema de Claude aquí.

Tabla 1: Características y Componentes del Prompt del Sistema de Claude

CaracterísticaDetalles
Tamaño~16,739 palabras (110kb)
Longitud de TokensReportadamente alrededor de 24,000 tokens
ComparaciónMucho más grande que el o4-mini de OpenAI (2,218 palabras, 15.1kb)
Componentes Clave
Información ActualProporciona fecha e información contextual al inicio de la conversación
Directrices de ComportamientoInstrucciones para el formato de respuesta y estilo de interacción
Definición de RolEstablece la identidad y los parámetros operativos de Claude
Definiciones de HerramientasComponente más grande; instrucciones para el uso de herramientas de los servidores MCP
Parámetros de SeguridadOrientación para manejar solicitudes potencialmente dañinas
Instrucciones TécnicasDirectrices para contar palabras/caracteres y formato
PropósitoSirve como "configuración" de cómo el LLM interactúa con los usuarios
DesarrolloSe actualiza periódicamente en función de la retroalimentación del usuario y mejoras de diseño

En lugar de codificar el conocimiento directamente en los pesos (lo cual puede ser ineficiente, inflexible y costoso), Anthropic parece estar utilizando el prompt del sistema como un conjunto de instrucciones dinámico. Según Karpathy, esto se parece a cómo se ajustan los humanos: declarando explícitamente "cuando ocurre X, intenta el enfoque Y".

Este cambio replantea los prompts del sistema de guías de comportamiento estáticas a documentos vivos —un lugar donde los LLMs podrían almacenar estrategias generalizadas y revisarlas con el tiempo—. En efecto, es una propuesta para hacer que la IA no solo sea más inteligente, sino más enseñable.


Por Qué Esto Importa para Inversores y Desarrolladores

El atractivo del Aprendizaje a Través de Prompts del Sistema no es solo académico. Habla directamente de puntos clave problemáticos en la implementación actual de la IA:

1. Menores Costos Operativos

El ajuste fino de un modelo —especialmente con RLHF— es caro y lento. Actualizar un prompt del sistema, sin embargo, es casi gratis e instantáneo. Si los comportamientos principales pueden cambiarse actualizando instrucciones en lugar de reentrenar pesos, la implementación se vuelve más rápida y económica.

Métodos de Actualización de Modelos de IA: Ajuste Fino/RLHF vs. Edición de Prompts del Sistema

MétodoCosto y EsfuerzoTiempo de ImplementaciónRasgos Clave
Ajuste Fino / RLHFAlto: Requiere computación, datos y experiencia en MLLargo (días–semanas)Actualiza los pesos del modelo para precisión de tarea/dominio; menos flexible después del entrenamiento
Edición de PromptsBajo: Principalmente diseño/prueba de promptsCorto (horas–días)Ajusta el comportamiento a través de instrucciones; rápido, flexible, no requiere reentrenamiento
Notas GeneralesEl costo depende del tamaño del modelo, tokens e infraestructuraMantenimiento continuoLa elección depende de los objetivos, recursos y rendimiento requerido; pueden combinarse
2. Productos de IA Más Ágiles

Las startups que desarrollan agentes especializados en dominios (bots legales, asistentes médicos, herramientas de servicio al cliente) necesitan una iteración rápida. Los prompts del sistema permiten cambios rápidos sin reentrenar el modelo, aumentando la adaptabilidad en entornos de producción.

3. Eficiencia de Datos y Bucles de Retroalimentación

El ajuste fino tradicional requiere grandes conjuntos de datos. El aprendizaje a través de prompts del sistema ofrece un canal de retroalimentación de mayor dimensión. En lugar de optimizar para una recompensa escalar, invita a una retroalimentación textual más rica, más cercana a cómo los humanos dan instrucciones.


Lo Que Dicen los Expertos

La idea ha generado reacciones diversas en los círculos de IA:

  • Los defensores comparan los prompts del sistema con una Torá Escrita —definiendo instrucciones base— mientras que los nuevos casos se adaptan y expanden a través del aprendizaje interactivo, similar a una Torá Oral.
  • Los críticos se preocupan por la escalabilidad y complejidad. A medida que los prompts crecen, corren el riesgo de volverse frágiles, inconsistentes o contradictorios. Esto podría socavar la fiabilidad en aplicaciones de alto riesgo.
  • Algunos abogan por un enfoque híbrido: "destilación" periódica del conocimiento del prompt del sistema en los pesos, permitiendo que la IA pase del conocimiento explícito al habitual con el tiempo, tal como lo hacen los humanos.
  • Otros experimentan con jerarquías de memoria, donde los modelos indexan ejemplos de resolución de problemas y los incorporan al contexto del prompt solo cuando es necesario, combinando esto con Generación Aumentada con Recuperación (RAG) y herramientas de planificación.

La Generación Aumentada con Recuperación (RAG) es una arquitectura de IA diseñada para mejorar las respuestas generadas por los Modelos de Lenguaje Grandes (LLMs). Funciona primero recuperando información relevante de fuentes de conocimiento externas y luego alimentando este contexto al LLM para producir respuestas más precisas, relevantes y actualizadas.

A pesar de su promesa, algunos ven el aprendizaje a través de prompts del sistema no como un cambio de paradigma, sino como una evolución incremental. Aun así, cuando empresas como Anthropic, OpenAI y Google difieren drásticamente en el tamaño de sus prompts del sistema (las 16,739 palabras de Claude frente a las ~2,218 de OpenAI), queda claro que el prompt se está convirtiendo en una nueva frontera.


Hacia Dónde Podría Ir Esto

Si los LLMs pudieran escribir y actualizar autónomamente sus propios prompts del sistema —documentando lecciones aprendidas, estrategias probadas y tareas refinadas— podríamos presenciar el nacimiento de una nueva arquitectura de entrenamiento de IA:

  • Agentes que se auto-refinan y evolucionan en producción revisando sus propios manuales.
  • Modelos especializados por tarea que no requieren reentrenamiento extenso para nuevos dominios.
  • Destilación semi-automatizada, donde el conocimiento basado en prompts se mueve selectivamente a los pesos a largo plazo, mejorando el rendimiento sin pérdida de flexibilidad.

Esto podría alinearse bien con las necesidades empresariales: modelos que son interpretables, trazables y entrenables incrementalmente, con un tiempo de inactividad mínimo.


Un Cuaderno para Máquinas

La idea de Karpathy puede sonar abstracta, pero aprovecha una intuición profunda: la inteligencia no es solo lo que sabemos, es cómo estructuramos ese conocimiento para usarlo. El Aprendizaje a Través de Prompts del Sistema sugiere que los LLMs no solo necesitan cerebros más grandes, necesitan mejores cuadernos.

A medida que más empresas de IA exploran este punto intermedio entre el pre-entrenamiento y el ajuste fino, esperen que la ingeniería de prompts evolucione hacia la arquitectura de prompts, una disciplina propia. Si esto se convierte en el próximo paradigma o en una poderosa herramienta auxiliar, está por verse.

Pero una cosa está clara: en la carrera por construir IA más inteligente, más barata y más controlable, enseñar a los modelos cómo aprender pronto podría importar más que lo que saben.

También te puede gustar

Este artículo ha sido enviado por nuestro usuario bajo las Normas y directrices para la presentación de noticias. La foto de portada es arte generado por computadora únicamente con fines ilustrativos; no indicativa del contenido factual. Si crees que este artículo infringe los derechos de autor, no dudes en informarlo enviándonos un correo electrónico. Tu vigilancia y cooperación son invaluables para ayudarnos a mantener una comunidad respetuosa y legalmente conforme.

Suscríbete a nuestro boletín

Obtenga lo último en negocios empresariales y tecnología con vistazos exclusivos a nuestras nuevas ofertas

Utilizamos cookies en nuestro sitio web para habilitar ciertas funciones, proporcionarle información más relevante y optimizar su experiencia en nuestro sitio web. Puede encontrar más información en nuestra Política de privacidad y en nuestros Términos de servicio . La información obligatoria se puede encontrar en el aviso legal