Conjunto de Herramientas de Uso de Computadora con la API de Gemini¶
El Conjunto de Herramientas de Uso de Computadora permite a un agente operar una interfaz de usuario de una computadora, como navegadores, para completar tareas. Esta herramienta utiliza un modelo específico de Gemini y la herramienta de pruebas Playwright para controlar un navegador Chromium y puede interactuar con páginas web tomando capturas de pantalla, haciendo clic, escribiendo y navegando.
Para más información sobre el modelo de uso de computadora, consulta la API de Gemini Computer use o la API de Vertex AI de Google Cloud Computer use.
Versión de vista previa
El modelo y herramienta de Uso de Computadora es una versión de Vista previa. Para más información, consulta las descripciones de etapas de lanzamiento.
Configuración¶
Debes instalar Playwright y sus dependencias, incluyendo Chromium, para poder usar el Conjunto de Herramientas de Uso de Computadora.
Recomendado: crear y activar un entorno virtual de Python
Crea un entorno virtual de Python:
Activa el entorno virtual de Python:
Para configurar las bibliotecas de software requeridas para el Conjunto de Herramientas de Uso de Computadora:
- Instala las dependencias de Python:
- Instala las dependencias de Playwright, incluyendo el navegador Chromium:
Usar la herramienta¶
Usa el Conjunto de Herramientas de Uso de Computadora agregándolo como herramienta a tu agente. Cuando
configures la herramienta, debes proporcionar una implementación de la clase BaseComputer
que define una interfaz para que un agente use una computadora. En el
siguiente ejemplo, la clase PlaywrightComputer se define para este propósito.
Puedes encontrar el código para esta implementación en el archivo playwright.py del
proyecto de muestra del agente
computer_use.
from google.adk import Agent
from google.adk.models.google_llm import Gemini
from google.adk.tools.computer_use.computer_use_toolset import ComputerUseToolset
from typing_extensions import override
from .playwright import PlaywrightComputer
root_agent = Agent(
model='gemini-2.5-computer-use-preview-10-2025',
name='hello_world_agent',
description=(
'computer use agent that can operate a browser on a computer to finish'
' user tasks'
),
instruction='you are a computer use agent',
tools=[
ComputerUseToolset(computer=PlaywrightComputer(screen_size=(1280, 936)))
],
)
Para un ejemplo de código completo, consulta el proyecto de muestra del agente computer_use.