Bidi-streaming (en vivo) en ADK¶
El streaming bidireccional (Bidi) (en vivo) en ADK añade la capacidad de interacción de voz y video bidireccional de baja latencia de la API de Gemini Live a los agentes de IA.
Con el modo bidi-streaming, o en vivo, puedes proporcionar a los usuarios finales la experiencia de conversaciones de voz naturales y similares a las humanas, incluyendo la capacidad de que el usuario interrumpa las respuestas del agente con comandos de voz. Los agentes con streaming pueden procesar entradas de texto, audio y video, y pueden proporcionar salidas de texto y audio.
-
Inicio rápido (Bidi-streaming)
En este inicio rápido, construirás un agente simple y usarás streaming en ADK para implementar comunicación de voz y video bidireccional de baja latencia.
-
Aplicación Demo de Bidi-streaming
Una implementación de referencia lista para producción que muestra el streaming bidireccional de ADK con soporte multimodal (texto, audio, imagen). Esta demo basada en FastAPI demuestra comunicación WebSocket en tiempo real, transcripción automática, llamadas a herramientas con Google Search y gestión completa del ciclo de vida del streaming. Esta demo se referencia ampliamente a lo largo de la serie de guías de desarrollo.
-
Artículo del blog: Guía Visual de ADK Bidi-streaming
Una guía visual para el desarrollo de agentes de IA multimodal en tiempo real con ADK Bidi-streaming. Este artículo proporciona diagramas e ilustraciones intuitivas para ayudarte a entender cómo funciona Bidi-streaming y cómo construir agentes de IA interactivos.
-
Serie de guías de desarrollo de Bidi-streaming
Una serie de artículos para profundizar en el desarrollo de Bidi-streaming con ADK. Puedes aprender conceptos básicos y casos de uso, la API principal y el diseño de aplicaciones de extremo a extremo.
- Parte 1: Introducción a ADK Bidi-streaming - Fundamentos de Bidi-streaming, tecnología de Live API, componentes de arquitectura de ADK y ciclo de vida completo de la aplicación con ejemplos de FastAPI
- Parte 2: Envío de mensajes con LiveRequestQueue - Flujo de mensajes ascendente, envío de texto/audio/video, señales de actividad y patrones de concurrencia
- Parte 3: Manejo de eventos con run_live() - Procesamiento de eventos, manejo de texto/audio/transcripciones, ejecución automática de herramientas y flujos de trabajo multi-agente
- Parte 4: Entendiendo RunConfig - Modalidades de respuesta, modos de streaming, gestión de sesiones, reanudación de sesiones, compresión de ventana de contexto y gestión de cuotas
- Parte 5: Cómo usar Audio, Imagen y Video - Especificaciones de audio, arquitecturas de modelo, transcripción de audio, detección de actividad de voz y características de diálogo proactivo/afectivo
-
Herramientas de Streaming
Las herramientas de streaming permiten que las herramientas (funciones) transmitan resultados intermedios de vuelta a los agentes y los agentes pueden responder a esos resultados intermedios. Por ejemplo, podemos usar herramientas de streaming para monitorear los cambios en el precio de las acciones y hacer que el agente reaccione a ello. Otro ejemplo es que podemos hacer que el agente monitoree el flujo de video, y cuando hay cambios en el flujo de video, el agente puede reportar los cambios.
-
Artículo del blog: Google ADK + Vertex AI Live API
Este artículo muestra cómo usar Bidi-streaming (en vivo) en ADK para streaming de audio/video en tiempo real. Ofrece un ejemplo de servidor Python usando LiveRequestQueue para construir agentes de IA personalizados e interactivos.
-
Artículo del blog: Potencia el Desarrollo de ADK con Claude Code Skills
Este artículo demuestra cómo usar Claude Code Skills para acelerar el desarrollo de ADK, con un ejemplo de construcción de una aplicación de chat con Bidi-streaming. Aprende cómo aprovechar la asistencia de codificación impulsada por IA para construir mejores agentes más rápido.