Google presenta Gemini 2.5 Computer Use, un modelo de IA que navega y realiza tareas en la web de manera similar a los humanos

TecnologíaInteligencia artificial

Google presenta Gemini 2.5 Computer Use, un modelo de IA que navega y realiza tareas en la web de manera similar a los humanos

Google presenta Gemini 2.5 Computer Use, un avanzado modelo de IA que navega y realiza tareas web con precisión y capacidades visuales similares a las humanas.

Descripción

Google ha presentado Gemini 2.5 Computer Use, un modelo innovador de inteligencia artificial diseñado para navegar y usar la web de forma similar a como lo hace la persona, aprovechando las capacidades visuales y de razonamiento de Gemini 2.5 Pro. Este desarrollo supone un avance significativo en el manejo de interfaces, ya que permite al modelo realizar tareas como completar formularios, hacer scroll y navegar por sitios web mediante llamadas a funciones específicas, mejorando así su eficiencia y precisión.

El modelo funciona analizando la tarea, generando una respuesta inicial que generalmente corresponde a la llamada a una función para ejecutar una acción concreta, como hacer clic o escribir. Para interpretar la interfaz, Gemini 2.5 Computer Use toma capturas de pantalla y, si es necesario, consulta al usuario antes de continuar para evitar errores, como comprar la talla incorrecta de un producto. A continuación, realiza sucesivas capturas y llamadas a funciones hasta completar la tarea solicitada.

Este modelo está optimizado para la navegación web, aunque presenta ciertas limitaciones en interfaces móviles. Google lo dirige principalmente a desarrolladores interesados en probar y evaluar su integración en sus propias aplicaciones, facilitando un mejor control y resultados en tareas repetitivas o complejas en el navegador. Gemini 2.5 Computer Use estará disponible inicialmente a través de la API de Gemini en plataformas como Google AI Studio y Vertex AI.

Una característica distintiva de esta innovación es su capacidad para consultar al usuario antes de ejecutar acciones potencialmente riesgosas, como posibles errores de compra. Este proceso se realiza mediante capturas de pantalla y llamadas a funciones, lo que permite una interacción más segura y controlada. La tecnología también puede generar capturas y hacer llamadas a funciones de forma repetida hasta completar la tarea.

Además, Google indica que variantes del modelo soportan funciones en Google AI Mode, la nueva herramienta de búsqueda por inteligencia artificial, y Project Mariner, la iniciativa propia para desarrollar agentes de IA. Otros competidores, como Anthropic con Claude y OpenAI con sus agentes, también utilizan capacidades similares con llamadas a funciones y análisis de capturas de pantalla, marcando un avance en la interacción automática con interfaces web y móviles.