Nuevo estudio de Anthropic desafía la investigación de Apple sobre las limitaciones del razonamiento de la IA

Por
Lang Wang
4 min de lectura

Debate sobre el Razonamiento de la IA: Un Estudio Histórico Desafía las Afirmaciones de Apple sobre el "Colapso Cognitivo" en Modelos Grandes

Una refutación científica redefine la comprensión de las capacidades de la IA, contradiciendo la postura escéptica de Apple Research sobre el razonamiento de los modelos de lenguaje.

En una refutación científica contundente publicada esta semana, investigadores de Anthropic han desafiado una narrativa sobre las limitaciones fundamentales de los sistemas de inteligencia artificial. El documento, titulado "La ilusión de la ilusión del pensamiento", desmantela las afirmaciones hechas por Apple Research en su influyente estudio "La ilusión del pensamiento: Comprendiendo las fortalezas y limitaciones de los modelos de razonamiento a través de la lente de la complejidad del problema".

¿Está Apple perdiendo la partida de la IA generativa? (wikimedia.org)
¿Está Apple perdiendo la partida de la IA generativa? (wikimedia.org)

La refutación, de la autoría de los investigadores Alex Lawsen y Claude Opus, disecciona meticulosamente los experimentos de Apple que se habían convertido en conocimiento convencional en los círculos de investigación de la IA. Sus hallazgos sugieren que las limitaciones percibidas en las capacidades de razonamiento de la IA pueden ser más una ilusión que una realidad, un artefacto de métodos de evaluación defectuosos en lugar de límites cognitivos reales.

Críticas a los Modelos de Razonamiento Grandes (LRM) por Apple Research

Punto de Crítica / LimitaciónDescripción ConcisaEvidencia Clave del Documento
1. Colapso Total de PrecisiónLa precisión cae a cero más allá de un cierto umbral de complejidad, revelando una falla en la generalización del razonamiento.La precisión en todos los rompecabezas (por ejemplo, Torre de Hanói) colapsa a 0% a medida que aumenta la complejidad.
2. Escalado Contraintuitivo del EsfuerzoLos modelos "se rinden" ante problemas más difíciles, gastando menos tokens de pensamiento a medida que la complejidad supera un punto crítico, lo que indica un límite de escalado.El uso de "tokens de pensamiento" alcanza su punto máximo y luego disminuye bruscamente para problemas más difíciles, a pesar de un presupuesto de tokens adecuado.
3. Fallo en la Computación Exacta y la ConsistenciaDificultad con la ejecución precisa paso a paso y muestran un rendimiento inconsistente en diferentes tipos de rompecabezas.Proporcionar el algoritmo de solución no evita el fallo.
Altamente inconsistente: más de 100 movimientos correctos en la Torre de Hanói frente a menos de 5 en un rompecabezas más simple de Cruce del Río.
4. Razonamiento Ineficiente y DefectuosoLos rastros de "pensamiento" internos revelan procesos ineficientes: "pensar demasiado" problemas simples y no encontrar rutas correctas para los complejos.En problemas simples, la respuesta correcta aparece temprano pero es seguida por una exploración incorrecta. En problemas complejos, las respuestas correctas llegan tarde o están ausentes.
5. Bajo Rendimiento en Tareas de Baja ComplejidadEn tareas simples, los modelos de "pensamiento" (LRM) son a menudo peores y menos eficientes que los LLM estándar. El proceso de pensamiento es una desventaja.En el régimen de baja complejidad, los modelos estándar que no "piensan" superan consistentemente a sus contrapartes LRM.
6. Evaluación de Referencia DefectuosaLas aparentes ganancias de razonamiento en los puntos de referencia matemáticos estándar (por ejemplo, AIME) son cuestionables y probablemente resulten de la contaminación de datos.El rendimiento en AIME25 es peor que en AIME24, lo contrario del rendimiento humano, lo que sugiere contaminación en datos de referencia más antiguos.

Refutaciones a "La Ilusión del Pensamiento" por Anthropic Research

Punto de Crítica OriginalRefutación ConcisaEvidencia Clave
1. Colapso Total de PrecisiónNo es un colapso de razonamiento, sino un límite físico de tokens. El fallo ocurre precisamente cuando la salida exhaustiva excede el presupuesto de tokens del modelo.Sec 4: Los cálculos muestran que el punto de "colapso" para la Torre de Hanói coincide con el límite de tokens del modelo. Los modelos también declaran explícitamente que están truncando la salida.
2. Escalado Contraintuitivo del EsfuerzoLa reducción de tokens es un artefacto de alcanzar el límite de salida, no una señal de que el modelo "se rinda".Sec 4: Una consecuencia directa del límite de tokens; la generación simplemente se detiene.
3. Fallo en la Computación Exacta y la ConsistenciaCausado por una métrica de complejidad defectuosa que confunde la longitud de la solución con la dificultad computacional.Sec 6: La Torre de Hanói es algorítmicamente simple (solución larga) mientras que Cruce del Río es NP-difícil (solución corta), lo que explica la diferencia de rendimiento.
4. Razonamiento Ineficiente y DefectuosoEl razonamiento es sólido; el formato de salida es la restricción. Los modelos demuestran que entienden el algoritmo cuando se les pide una representación compacta.Sec 5: Los modelos logran una precisión muy alta generando una función para resolver la Torre de Hanói, en lugar de una lista exhaustiva de movimientos.
5. Bajo Rendimiento en Tareas de Baja Complejidad(No abordado directamente, ya que la refutación se centra en desmantelar las afirmaciones de fallo en alta complejidad.)-
6. Evaluación de Referencia DefectuosaLa evaluación original estaba fatalmente defectuosa, incluyendo rompecabezas matemáticamente imposibles.Sec 3: Cruce del Río para N≥6 es demostrablemente irresoluble. Los modelos fueron penalizados incorrectamente por no resolver un problema imposible.

Cuando los Modelos No Fallaban, Simplemente Se Quedaban Sin Espacio

En el corazón de la disputa científica reside un descubrimiento engañosamente simple: en muchos casos donde los investigadores de Apple reportaron que los modelos de IA "fallaban" al resolver rompecabezas complejos como la Torre de Hanói, en realidad no estaban fallando en razonar, sino que literalmente se quedaban sin espacio para escribir sus respuestas.

"Lo que el equipo de Apple interpretó como una limitación de razonamiento era en realidad una restricción física en la

También te puede gustar

Este artículo ha sido enviado por nuestro usuario bajo las Normas y directrices para la presentación de noticias. La foto de portada es arte generado por computadora únicamente con fines ilustrativos; no indicativa del contenido factual. Si crees que este artículo infringe los derechos de autor, no dudes en informarlo enviándonos un correo electrónico. Tu vigilancia y cooperación son invaluables para ayudarnos a mantener una comunidad respetuosa y legalmente conforme.

Suscríbete a nuestro boletín

Obtenga lo último en negocios empresariales y tecnología con vistazos exclusivos a nuestras nuevas ofertas

Utilizamos cookies en nuestro sitio web para habilitar ciertas funciones, proporcionarle información más relevante y optimizar su experiencia en nuestro sitio web. Puede encontrar más información en nuestra Política de privacidad y en nuestros Términos de servicio . La información obligatoria se puede encontrar en el aviso legal