Cartesia¶

Soportado en ADKPython v0.1.0TypeScript v0.2.0

El Servidor MCP de Cartesia conecta tu agente ADK a la plataforma de audio de IA Cartesia. Esta integración le da a tu agente la capacidad de generar habla, localizar voces entre idiomas y crear contenido de audio usando lenguaje natural.

Casos de uso¶

Generación de Texto a Voz: Convierte texto en habla de sonido natural usando la diversa biblioteca de voces de Cartesia, con control sobre la selección de voz y formato de salida.
Localización de Voz: Transforma voces existentes a diferentes idiomas mientras preserva las características del hablante original—ideal para creación de contenido multilingüe.
Relleno de Audio: Llena espacios entre segmentos de audio para crear transiciones suaves, útil para edición de podcasts o producción de audiolibros.
Transformación de Voz: Convierte clips de audio para que suenen como diferentes voces de la biblioteca de Cartesia.

Requisitos previos¶

Regístrate para una cuenta de Cartesia
Genera una clave API desde el playground de Cartesia

Uso con agente¶

PythonTypeScript

Servidor MCP Local

from google.adk.agents import Agent
from google.adk.tools.mcp_tool import McpToolset
from google.adk.tools.mcp_tool.mcp_session_manager import StdioConnectionParams
from mcp import StdioServerParameters

CARTESIA_API_KEY = "YOUR_CARTESIA_API_KEY"

root_agent = Agent(
    model="gemini-2.5-pro",
    name="cartesia_agent",
    instruction="Help users generate speech and work with audio content",
    tools=[
        McpToolset(
            connection_params=StdioConnectionParams(
                server_params=StdioServerParameters(
                    command="uvx",
                    args=["cartesia-mcp"],
                    env={
                        "CARTESIA_API_KEY": CARTESIA_API_KEY,
                        # "OUTPUT_DIRECTORY": "/path/to/output",  # Opcional
                    }
                ),
                timeout=30,
            ),
        )
    ],
)

Servidor MCP Local

import { LlmAgent, MCPToolset } from "@google/adk";

const CARTESIA_API_KEY = "YOUR_CARTESIA_API_KEY";

const rootAgent = new LlmAgent({
    model: "gemini-2.5-pro",
    name: "cartesia_agent",
    instruction: "Help users generate speech and work with audio content",
    tools: [
        new MCPToolset({
            type: "StdioConnectionParams",
            serverParams: {
                command: "uvx",
                args: ["cartesia-mcp"],
                env: {
                    CARTESIA_API_KEY: CARTESIA_API_KEY,
                    // OUTPUT_DIRECTORY: "/path/to/output",  // Opcional
                },
            },
        }),
    ],
});

export { rootAgent };

Herramientas disponibles¶

Herramienta	Descripción
`text_to_speech`	Convierte texto a audio usando una voz especificada
`list_voices`	Lista todas las voces disponibles de Cartesia
`get_voice`	Obtiene detalles sobre una voz específica
`clone_voice`	Clona una voz a partir de muestras de audio
`update_voice`	Actualiza una voz existente
`delete_voice`	Elimina una voz de tu biblioteca
`localize_voice`	Transforma una voz a un idioma diferente
`voice_change`	Convierte un archivo de audio para usar una voz diferente
`infill`	Llena espacios entre segmentos de audio

Configuración¶

El servidor MCP de Cartesia puede configurarse usando variables de entorno:

Variable	Descripción	Requerida
`CARTESIA_API_KEY`	Tu clave API de Cartesia	Sí
`OUTPUT_DIRECTORY`	Directorio para almacenar archivos de audio generados	No