Saltar a contenido

Cartesia

Soportado en ADKPython v0.1.0TypeScript v0.2.0

El Servidor MCP de Cartesia conecta tu agente ADK a la plataforma de audio de IA Cartesia. Esta integración le da a tu agente la capacidad de generar habla, localizar voces entre idiomas y crear contenido de audio usando lenguaje natural.

Casos de uso

  • Generación de Texto a Voz: Convierte texto en habla de sonido natural usando la diversa biblioteca de voces de Cartesia, con control sobre la selección de voz y formato de salida.

  • Localización de Voz: Transforma voces existentes a diferentes idiomas mientras preserva las características del hablante original—ideal para creación de contenido multilingüe.

  • Relleno de Audio: Llena espacios entre segmentos de audio para crear transiciones suaves, útil para edición de podcasts o producción de audiolibros.

  • Transformación de Voz: Convierte clips de audio para que suenen como diferentes voces de la biblioteca de Cartesia.

Requisitos previos

Uso con agente

from google.adk.agents import Agent
from google.adk.tools.mcp_tool import McpToolset
from google.adk.tools.mcp_tool.mcp_session_manager import StdioConnectionParams
from mcp import StdioServerParameters

CARTESIA_API_KEY = "YOUR_CARTESIA_API_KEY"

root_agent = Agent(
    model="gemini-2.5-pro",
    name="cartesia_agent",
    instruction="Help users generate speech and work with audio content",
    tools=[
        McpToolset(
            connection_params=StdioConnectionParams(
                server_params=StdioServerParameters(
                    command="uvx",
                    args=["cartesia-mcp"],
                    env={
                        "CARTESIA_API_KEY": CARTESIA_API_KEY,
                        # "OUTPUT_DIRECTORY": "/path/to/output",  # Opcional
                    }
                ),
                timeout=30,
            ),
        )
    ],
)
import { LlmAgent, MCPToolset } from "@google/adk";

const CARTESIA_API_KEY = "YOUR_CARTESIA_API_KEY";

const rootAgent = new LlmAgent({
    model: "gemini-2.5-pro",
    name: "cartesia_agent",
    instruction: "Help users generate speech and work with audio content",
    tools: [
        new MCPToolset({
            type: "StdioConnectionParams",
            serverParams: {
                command: "uvx",
                args: ["cartesia-mcp"],
                env: {
                    CARTESIA_API_KEY: CARTESIA_API_KEY,
                    // OUTPUT_DIRECTORY: "/path/to/output",  // Opcional
                },
            },
        }),
    ],
});

export { rootAgent };

Herramientas disponibles

Herramienta Descripción
text_to_speech Convierte texto a audio usando una voz especificada
list_voices Lista todas las voces disponibles de Cartesia
get_voice Obtiene detalles sobre una voz específica
clone_voice Clona una voz a partir de muestras de audio
update_voice Actualiza una voz existente
delete_voice Elimina una voz de tu biblioteca
localize_voice Transforma una voz a un idioma diferente
voice_change Convierte un archivo de audio para usar una voz diferente
infill Llena espacios entre segmentos de audio

Configuración

El servidor MCP de Cartesia puede configurarse usando variables de entorno:

Variable Descripción Requerida
CARTESIA_API_KEY Tu clave API de Cartesia
OUTPUT_DIRECTORY Directorio para almacenar archivos de audio generados No

Recursos adicionales