“¿Más Lento, Vagamente Más Inteligente?”: Gemini 2.5 Pro Enfrenta Reacción Negativa de Usuarios Expertos por Baja Precisión y Rendimiento
Alguna vez el Favorito de Desarrolladores y Científicos de Datos, el Último Modelo Insignia de IA de Google Despierta Frustración en la Comunidad Técnica
En el mundo de alto riesgo del desarrollo de IA, donde los milisegundos importan y la precisión no es opcional, el lanzamiento por parte de Google el 6 de mayo de Gemini 2.5 Pro —la tan esperada actualización de su modelo insignia— ha caído como un duro golpe entre sus usuarios más exigentes: programadores profesionales, analistas de datos e investigadores técnicos.
Apenas 24 horas después de su lanzamiento, los foros y canales de desarrolladores se llenaron de descontento. Desde "retraso paralizante" hasta "amnesia instruccional", los primeros en adoptar han dado la voz de alarma sobre lo que consideran una regresión significativa enmascarada detrás de un velo de cortesía superficial y animaciones de procesamiento.
Hoja de Datos de Gemini 2.5 Pro 05-06
Característica | Detalles |
---|---|
Nombre del Modelo | Gemini 2.5 Pro Preview 05-06 |
ID del Modelo | gemini-2.5-pro-preview-05-06 |
Precio (por 1M tokens) | |
Entrada (≤200K tokens) | $1.25 |
Entrada (>200K tokens) | $2.50 |
Salida (≤200K tokens) | $10.00 |
Salida (>200K tokens) | $15.00 |
Ideal para | Programación, Razonamiento, Comprensión Multimodal |
Casos de Uso | - Razonar sobre problemas complejos - Abordar código, matemáticas y temas STEM difíciles - Analizar grandes conjuntos de datos/bases de código/documentos |
Fecha Límite de Conocimiento | Enero de 2025 |
Límites de Peticiones | - 150 RPM (Pagado) - 5 RPM / 25 peticiones por día (Gratuito) |
"Piensa Más, Dice Menos": Un Cambio Frustrante en los Paradigmas de Interacción
Uno de los cambios más consistentes —y discordantes— reportados por los usuarios es un aumento drástico en la latencia. Múltiples profesionales compartieron que Gemini 2.5 Pro ahora "piensa" por períodos prolongados, a menudo 2-4 veces más que la versión anterior. Estos retrasos se ven agravados por un nuevo patrón: el modelo muestra mensajes intermitentemente como “pensó durante 13 segundos”, aparentemente tratando de justificar su ritmo más lento.
Sin embargo, lo que surge después de esa espera es, paradójicamente, un resultado menos incisivo.
"Es como si estuviera cargando confianza", dijo un líder técnico en una firma de modelado financiero, que solicitó anonimato para hablar con franqueza. "Esperas más, pero obtienes algo más superficial. Hay una disminución inquietante en la profundidad analítica, especialmente al abordar problemas complejos".
Este cambio es particularmente preocupante para los usuarios expertos que dependen de la IA para flujos de lógica anidada, modelado estadístico o revisión de código de precisión, áreas donde la velocidad y el rigor son inseparables.
Deriva Cognitiva: La Capacidad de Seguir Instrucciones se Ve Afectada
Otro blanco de críticas es la capacidad disminuida de Gemini 2.5 Pro para seguir instrucciones en conversaciones de múltiples turnos, una capacidad fundamental para los flujos de trabajo profesionales.
Varios usuarios notaron que el modelo olvida directivas a mitad de conversación, incluso sin poder mantener parámetros simples de una respuesta a la siguiente. Otros observaron que "se confundía con instrucciones básicas", o peor, las ignoraba por completo.
"En un momento, le di cinco directivas. Respondió a dos y perdió las otras tres", contó un ingeniero de IA empresarial. "Antes, solía integrar esos requisitos sin problemas. Ahora es como tratar con un becario en su primer día".
Y para los desarrolladores, la frustración se intensifica aún más. Según los reportes, Gemini omite partes clave de los archivos de código, particularmente en resultados largos. Esto ha provocado compilaciones rotas y pipelines interrumpidos, resultados que no solo son inconvenientes, sino potencialmente costosos en entornos de producción.
"Ahora Estropea el Código": La Anatomía de una Regresión
Quizás la preocupación más seria reside en la calidad del código, un área donde Gemini 2.5 Pro, según los números, rinde por debajo de sus contrapartes de OpenAI.
Según las métricas de LiveBench, Gemini obtuvo 72.87 en programación, en comparación con un rendimiento notablemente mayor de las variantes o3 Medium y High de OpenAI. Si bien su puntuación en matemáticas y su capacidad de razonamiento siguen siendo competitivas, esas fortalezas están demostrando ser una compensación insuficiente para la ejecución errática del modelo en dominios técnicos.
Un desarrollador describió cómo el modelo "mutiló" código existente en lugar de ajustar bloques específicos, realizando ediciones drásticas y perjudiciales en lugar de las modificaciones precisas y quirúrgicas solicitadas. Otro señaló que Gemini "satisfizo quizás tres de ocho comprobaciones básicas en una prueba anidada if-else", pasando por alto rutas lógicas obvias que las versiones anteriores manejaban con competencia.
Esto no es una degradación menor; es, como describió un crítico, "al menos un 50% peor que la versión anterior en mi honesta opinión".
"Excesivamente Educado, Peligrosamente Vago": ¿Un Problema de Estilo Sobre Sustancia?
Muchos han señalado un cambio de tono notorio en los resultados de Gemini 2.5 Pro. Ahora es, según varios críticos, "más educado, más verboso y más evasivo". La crítica no es sobre el tono por sí mismo, sino sobre lo que ese tono enmascara.
"Las versiones anteriores eran secas pero perspicaces. Esta parece haber pasado por un filtro de relaciones públicas", señaló un arquitecto de software de Berlín. "Pides un análisis de riesgos y obtienes un ensayo diplomático. Es vago, cauto; básicamente inutilizable cuando necesitas decisiones firmes".
En una industria que valora la directividad y la claridad de diagnóstico, el estilo de salida suavizado de Gemini se siente como una elección editorial inoportuna, una que va a expensas de la utilidad.
Carga en el Hardware y Errores de Carga: Surgen las Limitaciones Técnicas
Más allá del rendimiento del software, los usuarios también reportaron ineficiencias de hardware, con el uso de la GPU local de Gemini estancado alrededor del 30%, muy por debajo de la utilización esperada. Este cuello de botella exacerba los tiempos de respuesta ya lentos, especialmente durante cálculos complejos o tareas con múltiples archivos.
Varios usuarios también reportaron fallos de carga después de un uso prolongado, un problema que podría apuntar a fuga de memoria o manejo inestable de sesiones en la nueva versión.
Los Números No Mienten, Pero Tampoco Cuentan Toda la Historia
En teoría, Gemini 2.5 Pro no es un fracaso. Su puntuación promedio global en LiveBench de 78.99 lo posiciona como un modelo fuerte de propósito general, justo detrás de la clase o3 de OpenAI.
Sus fortalezas en matemáticas y razonamiento lo hacen viable para dominios cuantitativos, y se desempeña razonablemente bien en el seguimiento de instrucciones, estadísticamente hablando.
Pero en flujos de trabajo de alta precisión en el mundo real, particularmente en ingeniería de software y análisis de datos, donde el margen para la vaguedad es cero, esos números son menos tranquilizadores.
"Este modelo parece afinado para un usuario que nunca va más allá de tareas superficiales", comentó un ingeniero de datos. "Para personas como yo, eso no es solo frustrante, es peligroso".
Nostalgia se Encuentra con la Necesidad: ¿Volverán los Usuarios Atrás?
Quizás el indicador más revelador de desilusión es la repentina nostalgia por la iteración anterior de Gemini, con muchos pidiendo una opción para revertir.
"Esta es la primera vez que compañeros de equipo me dicen: '¿Podemos volver atrás?'. Eso debería preocupar a Google", dijo un desarrollador en una empresa de infraestructura en la nube.
Y, de hecho, si Gemini 2.5 Pro continúa en esta trayectoria, Google podría enfrentar una dura decisión: priorizar el rendimiento para profesionales, o redoblar la apuesta por la accesibilidad para usuarios generales.
¿Qué Sigue? Una Encrucijada para Gemini
El descontento en torno al lanzamiento de Gemini 2.5 Pro en mayo no solo representa un paso en falso técnico, sino que destaca una tensión más profunda en el desarrollo de IA: equilibrar la seguridad general del usuario y el refinamiento del tono con las necesidades de los usuarios expertos que demandan claridad, consistencia y control.
A medida que los laboratorios competidores iteran rápidamente y las expectativas de los usuarios se endurecen, Google podría tener poca opción más que recalibrar los cimientos del modelo, o arriesgarse a ceder terreno ante competidores más ágiles y precisos.
Por ahora, aquellos en la vanguardia del código y la computación observan de cerca y esperan una solución que no solo piense más tiempo, sino que piense mejor.