O XTTS-v2 da Coqui é provavelmente o modelo open-source de TTS mais usado em produção no mundo. Suporta 17 idiomas incluindo português brasileiro, faz clonagem de voz com apenas 6 segundos de áudio, e processa streaming em tempo real. Neste guia você aprende a implantá-lo no GPUBrasil com 1 clique.
XTTS-v2 entrega qualidade comparável a soluções pagas como ElevenLabs, custando apenas o tempo de GPU. Template pronto no GPUBrasil sobe em ~90 segundos.
O que é o XTTS-v2?
XTTS-v2 é a segunda geração do modelo XTTS da Coqui AI. É um modelo de TTS multilíngue que combina um GPT autoregressivo com um HiFi-GAN vocoder. Treinado em milhares de horas de áudio em 17 idiomas, ele faz clonagem de voz zero-shot.
Características principais
- 17 idiomas: Português (BR/PT), Inglês, Espanhol, Francês, Alemão, Italiano, Polonês, Turco, Russo, Holandês, Tcheco, Árabe, Chinês, Japonês, Húngaro, Coreano, Hindi
- Cross-lingual: use voz em inglês para falar português (e vice-versa)
- Streaming: latência <200ms para primeira palavra
- Emoção e estilo: transferidos automaticamente do áudio de referência
- Modelo público: CPML license (não-comercial sem compra) — atenção em projetos pagos
Casos de uso
- Assistentes de voz multilíngues: mesmo agente atende em PT, ES e EN
- Dublagem automática: traduzir vídeos mantendo a voz do palestrante
- Geração de áudio para anúncios: sem precisar contratar locutor
- Apps de aprendizado de idiomas: pronúncia nativa em tempo real
- Acessibilidade: leitor de tela com voz natural personalizada
Requisitos de hardware
XTTS-v2 é leve — roda em GPU de 8GB sem problemas:
- RTX 3060 12GB / A4000: excelente custo-benefício
- RTX 4090: streaming em tempo real com folga
- A100 / H100: use só se já tem alocada
RTX A4000: a partir de R$ 1,80/h. Para um serviço gerando 500 áudios/dia, gasto fica em ~R$ 3/dia rodando 2h.
Deploy em 1 clique
Passo 1: Selecionar template
- Entre no Console GPUBrasil
- Vá em Templates → Voz IA
- Clique em XTTS-v2 (Coqui)
- Selecione GPU (recomendado: RTX A4000 ou superior)
- Clique em Iniciar
Em ~90 segundos a instância está com Docker, drivers NVIDIA, modelo XTTS-v2 baixado (~2GB) e Gradio UI rodando.
Passo 2: Web UI (Gradio)
Acesse https://<sua-instancia>.gpubrasil.com.br:
- Faça upload de um áudio de referência (.wav 6-30s)
- Selecione idioma de saída (pt, en, es, ...)
- Digite o texto
- Clique em Generate
Passo 3: API REST
Exemplo de chamada via Python:
import requests
url = "https://sua-instancia.gpubrasil.com.br/api/tts"
payload = {
"text": "Olá! Bem-vindo ao GPUBrasil, a nuvem de GPU para devs brasileiros.",
"speaker_wav": "/uploads/locutor.wav",
"language": "pt"
}
response = requests.post(url, json=payload)
with open("saida.wav", "wb") as f:
f.write(response.content)
print("Áudio salvo em saida.wav")
Passo 4: Uso programático (Python local)
from TTS.api import TTS
# Carregar modelo
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
# Gerar áudio
tts.tts_to_file(
text="O Brasil ganhou mais uma nuvem de GPU acessível.",
speaker_wav="ref.wav",
language="pt",
file_path="output.wav"
)
XTTS-v2 vs F5-TTS
- Velocidade: XTTS-v2 é ~30% mais rápido em streaming
- Qualidade prosódica: F5-TTS ganha em frases longas; XTTS em frases curtas
- Idiomas: XTTS tem 17 idiomas nativos; F5 cobre menos
- Licença comercial: XTTS exige licença paga para uso comercial; F5 é MIT (livre)
XTTS-v2 usa Coqui Public Model License (CPML). Para uso comercial pago, é necessário adquirir licença com a Coqui. Para projetos open-source ou pessoais, é grátis.
Dicas de produção
- Cache de speakers: mantenha embeddings dos locutores em disco para reduzir latência
- Streaming: use o modo
stream_generatorpara latência sub-200ms - Batch: agrupe frases em uma única chamada para melhor throughput
- Texto normalizado: expanda números (R$ 1.000 → "mil reais") antes de enviar
Suba seu próprio TTS em 90 segundos
Ganhe R$ 25 de crédito grátis no GPUBrasil e teste XTTS-v2 sem compromisso.
Começar Grátis →Conclusão
XTTS-v2 é o cavalo de batalha do TTS open-source. Combinado com o template 1-clique do GPUBrasil, você sai do zero para um endpoint multilíngue de qualidade profissional em menos de 2 minutos. Pague apenas pelas horas de GPU que usar.
Leia também: F5-TTS · OpenVoice v2