XTTS-v2 da Coqui em 1 Clique no GPUBrasil | Síntese de Voz em Português

O XTTS-v2 da Coqui é provavelmente o modelo open-source de TTS mais usado em produção no mundo. Suporta 17 idiomas incluindo português brasileiro, faz clonagem de voz com apenas 6 segundos de áudio, e processa streaming em tempo real. Neste guia você aprende a implantá-lo no GPUBrasil com 1 clique.

⚡ Resumo

XTTS-v2 entrega qualidade comparável a soluções pagas como ElevenLabs, custando apenas o tempo de GPU. Template pronto no GPUBrasil sobe em ~90 segundos.

O que é o XTTS-v2?

XTTS-v2 é a segunda geração do modelo XTTS da Coqui AI. É um modelo de TTS multilíngue que combina um GPT autoregressivo com um HiFi-GAN vocoder. Treinado em milhares de horas de áudio em 17 idiomas, ele faz clonagem de voz zero-shot.

Características principais

17 idiomas: Português (BR/PT), Inglês, Espanhol, Francês, Alemão, Italiano, Polonês, Turco, Russo, Holandês, Tcheco, Árabe, Chinês, Japonês, Húngaro, Coreano, Hindi
Cross-lingual: use voz em inglês para falar português (e vice-versa)
Streaming: latência <200ms para primeira palavra
Emoção e estilo: transferidos automaticamente do áudio de referência
Modelo público: CPML license (não-comercial sem compra) — atenção em projetos pagos

Casos de uso

Assistentes de voz multilíngues: mesmo agente atende em PT, ES e EN
Dublagem automática: traduzir vídeos mantendo a voz do palestrante
Geração de áudio para anúncios: sem precisar contratar locutor
Apps de aprendizado de idiomas: pronúncia nativa em tempo real
Acessibilidade: leitor de tela com voz natural personalizada

Requisitos de hardware

XTTS-v2 é leve — roda em GPU de 8GB sem problemas:

RTX 3060 12GB / A4000: excelente custo-benefício
RTX 4090: streaming em tempo real com folga
A100 / H100: use só se já tem alocada

💰 Custo no GPUBrasil

RTX A4000: a partir de R$ 1,80/h. Para um serviço gerando 500 áudios/dia, gasto fica em ~R$ 3/dia rodando 2h.

Deploy em 1 clique

Passo 1: Selecionar template

Entre no Console GPUBrasil
Vá em Templates → Voz IA
Clique em XTTS-v2 (Coqui)
Selecione GPU (recomendado: RTX A4000 ou superior)
Clique em Iniciar

Em ~90 segundos a instância está com Docker, drivers NVIDIA, modelo XTTS-v2 baixado (~2GB) e Gradio UI rodando.

Passo 2: Web UI (Gradio)

Acesse https://<sua-instancia>.gpubrasil.com.br:

Faça upload de um áudio de referência (.wav 6-30s)
Selecione idioma de saída (pt, en, es, ...)
Digite o texto
Clique em Generate

Passo 3: API REST

Exemplo de chamada via Python:

import requests

url = "https://sua-instancia.gpubrasil.com.br/api/tts"
payload = {
    "text": "Olá! Bem-vindo ao GPUBrasil, a nuvem de GPU para devs brasileiros.",
    "speaker_wav": "/uploads/locutor.wav",
    "language": "pt"
}

response = requests.post(url, json=payload)
with open("saida.wav", "wb") as f:
    f.write(response.content)

print("Áudio salvo em saida.wav")

Passo 4: Uso programático (Python local)

from TTS.api import TTS

# Carregar modelo
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)

# Gerar áudio
tts.tts_to_file(
    text="O Brasil ganhou mais uma nuvem de GPU acessível.",
    speaker_wav="ref.wav",
    language="pt",
    file_path="output.wav"
)

XTTS-v2 vs F5-TTS

Velocidade: XTTS-v2 é ~30% mais rápido em streaming
Qualidade prosódica: F5-TTS ganha em frases longas; XTTS em frases curtas
Idiomas: XTTS tem 17 idiomas nativos; F5 cobre menos
Licença comercial: XTTS exige licença paga para uso comercial; F5 é MIT (livre)

⚠️ Atenção licença

XTTS-v2 usa Coqui Public Model License (CPML). Para uso comercial pago, é necessário adquirir licença com a Coqui. Para projetos open-source ou pessoais, é grátis.

Dicas de produção

Cache de speakers: mantenha embeddings dos locutores em disco para reduzir latência
Streaming: use o modo stream_generator para latência sub-200ms
Batch: agrupe frases em uma única chamada para melhor throughput
Texto normalizado: expanda números (R$ 1.000 → "mil reais") antes de enviar

Suba seu próprio TTS em 90 segundos

Ganhe R$ 25 de crédito grátis no GPUBrasil e teste XTTS-v2 sem compromisso.

Começar Grátis →

Conclusão

XTTS-v2 é o cavalo de batalha do TTS open-source. Combinado com o template 1-clique do GPUBrasil, você sai do zero para um endpoint multilíngue de qualidade profissional em menos de 2 minutos. Pague apenas pelas horas de GPU que usar.