Google presenta una IA que puede navegar por la web como un humano, pero el trabajo real apenas comienza

Por
CTOL Editors - Ken
5 min de lectura

Google presenta una IA que puede navegar por la web como un humano, pero el trabajo real acaba de empezar

El modelo Gemini 2.5 Computer Use busca encargarse del trabajo digital repetitivo, pero los primeros usuarios deberían prepararse para los contratiempos.

Google DeepMind ha lanzado su modelo Gemini 2.5 Computer Use, un sistema de IA que puede hacer clic, escribir y desplazarse por sitios web y aplicaciones de forma muy similar a como lo hace una persona. El modelo, ya disponible en vista previa a través de la API de Gemini, marca un gran paso hacia la conversión de la IA en un asistente práctico capaz de manejar las tareas digitales repetitivas que muchos detestamos.

Así es como funciona: la IA examina una captura de pantalla de la interfaz, interpreta lo que el usuario desea, revisa sus movimientos anteriores y luego decide qué hacer a continuación: hacer clic en un botón, rellenar un formulario, desplazarse más hacia abajo. Después de cada acción, obtiene otra captura de pantalla y el ciclo continúa hasta que la tarea finaliza o el modelo se queda atascado.

Google afirma que Gemini 2.5 alcanza más del 70 por ciento de precisión con un tiempo de tarea promedio de unos 225 segundos. En puntos de referencia estándar como Online-Mind2Web, WebVoyager y AndroidWorld, está superando a sus rivales. Dentro de Google, los equipos ya lo están utilizando para pruebas de interfaz de usuario, Project Mariner y nuevas funciones en el Modo IA de la Búsqueda.

Algunos de los primeros evaluadores están impresionados. "Gemini 2.5 Computer Use está muy por delante de cualquier otra cosa que hayamos probado: un 50 por ciento más rápido y preciso que las herramientas de la competencia", afirmó Poke.com, un servicio de asistencia de IA en el programa piloto de Google.

Aun así, no todos están listos para celebrar. Nuestros propios ingenieros de CTOL.digital encontraron el sistema "prometedor para la automatización y las pruebas de navegadores", pero también "temprano, prioriza la web y delicado cuando las tareas se complican". Su veredicto: es útil ahora, pero necesita grandes mejoras en velocidad y fiabilidad antes de que pueda ser verdaderamente transformador.

Gemini 2.5 Computer Use (googleapis.com)
Gemini 2.5 Computer Use (googleapis.com)

Seguridad por diseño, ¿o solo para aparentar?

Una cosa que distingue al modelo de Google es la forma en que aborda la seguridad. Cada acción pasa por un servicio de seguridad antes de su ejecución, lo que ayuda a proteger contra tres riesgos principales: el mal uso por parte de los usuarios, que el propio modelo haga algo inesperado o indicaciones maliciosas ocultas en los sitios web.

Los desarrolladores pueden incluso requerir la confirmación del usuario antes de pasos arriesgados como compras, la elusión de CAPTCHAs o el control de sistemas sensibles. A diferencia de sus rivales, que añaden filtros a posteriori, Google entrenó estas salvaguardias en el propio modelo.

Eso podría resultar ser una gran ventaja. Nuestros analistas señalaron: "Las revisiones por acción y las políticas a nivel de sistema son los valores predeterminados correctos. Esto no bloqueará todas las inyecciones de instrucciones, pero hace que la adopción empresarial sea mucho más fluida, especialmente en industrias reguladas."

Si Google convierte este revisor en un servicio independiente y personalizable, permitiendo a las empresas integrar sus propias reglas y aprobaciones, podría darle al gigante tecnológico una verdadera ventaja en el mercado.

Lo que puede hacer y lo que no

Ahora mismo, Gemini 2.5 destaca en los navegadores web. Muestra potencial con aplicaciones móviles, pero el control del sistema operativo a nivel de escritorio sigue estando fuera de su alcance. Esto puede ser, de hecho, intencionado.

"Las automatizaciones más valiosas se encuentran detrás de los inicios de sesión web, cosas como formularios, consolas de administración y herramientas SaaS", observó nuestro equipo. "Los bucles más rápidos y ajustados en la web superan al control torpe del sistema operativo para la mayoría de los flujos de trabajo empresariales".

Los puntos fuertes parecen ser la automatización basada en navegador, las pruebas de interfaz de usuario, la navegación estructurada por sitios y la entrada de datos. De hecho, el equipo de pagos de Google afirma que el uso de Gemini 2.5 como respaldo para pruebas de extremo a extremo frágiles redujo el tiempo de recuperación manual en días.

Pero los límites son claros. Las tareas todavía tardan minutos, no segundos, lo que descarta el soporte al cliente de alto volumen. El rendimiento disminuye en problemas abiertos o desafíos tipo rompecabezas. Y en el uso diario, la versión de vista previa varía lo suficiente como para que los desarrolladores necesiten reintentos y supervisión humana.

Impacto empresarial y el panorama general

Nuestro análisis sugiere que los verdaderos ganadores no serán las startups de "automatización de navegadores por IA". Estas se parecen más a características que a empresas de pleno derecho. La mayor oportunidad radica en construir soluciones verticales: copilotos especializados para industrias reguladas, infraestructura de pruebas resiliente, herramientas de seguridad y plataformas de monitoreo del rendimiento.

"Las empresas duraderas combinarán APIs nativas, manejo de la interfaz de usuario como respaldo, flujos de trabajo estructurados, controles de seguridad incorporados y herramientas de revisión amigables para humanos", explicó nuestro equipo. "La ventaja competitiva no es solo el agente, sino el conocimiento del proceso, las integraciones y los datos".

La competencia no se detiene. Anthropic está impulsando una automatización de escritorio más amplia a través de Claude. Los proyectos de código abierto se están multiplicando, ofreciendo a los desarrolladores muchas alternativas. Las empresas inteligentes diseñarán sistemas lo suficientemente flexibles como para cambiar de proveedores a medida que la tecnología madure, en lugar de apostar por uno solo.

En resumen

Gemini 2.5 Computer Use es un progreso, no magia. Establece un listón más alto para la forma en que la IA navega por el mundo digital, con características de seguridad más robustas y puntos de referencia competitivos. Pero sigue siendo infraestructura, útil para automatizar el trabajo rutinario, no un agente de ciencia ficción que pueda manejar cualquier cosa que le eches.

Por ahora, las empresas deberían dirigirlo a flujos de trabajo de alto valor y estrictamente definidos con métricas de éxito claras y planes de respaldo. La tecnología se volverá más rápida y más inteligente con el tiempo. La verdadera decisión es si adoptarla temprano y convivir con las imperfecciones actuales, o esperar el camino más suave que seguramente llegará a medida que Google y sus rivales hacen avanzar la frontera.

NO ES ASESORAMIENTO DE INVERSIÓN

También te puede gustar

Este artículo ha sido enviado por nuestro usuario bajo las Normas y directrices para la presentación de noticias. La foto de portada es arte generado por computadora únicamente con fines ilustrativos; no indicativa del contenido factual. Si crees que este artículo infringe los derechos de autor, no dudes en informarlo enviándonos un correo electrónico. Tu vigilancia y cooperación son invaluables para ayudarnos a mantener una comunidad respetuosa y legalmente conforme.

Suscríbete a nuestro boletín

Obtenga lo último en negocios empresariales y tecnología con vistazos exclusivos a nuestras nuevas ofertas

Utilizamos cookies en nuestro sitio web para habilitar ciertas funciones, proporcionarle información más relevante y optimizar su experiencia en nuestro sitio web. Puede encontrar más información en nuestra Política de privacidad y en nuestros Términos de servicio . La información obligatoria se puede encontrar en el aviso legal