O XTTS-v2 da Coqui é provavelmente o modelo open-source de TTS mais usado em produção no mundo. Suporta 17 idiomas incluindo português brasileiro, faz clonagem de voz com apenas 6 segundos de áudio, e processa streaming em tempo real. Neste guia você aprende a implantá-lo no GPUBrasil com 1 clique.

⚡ Resumo

XTTS-v2 entrega qualidade comparável a soluções pagas como ElevenLabs, custando apenas o tempo de GPU. Template pronto no GPUBrasil sobe em ~90 segundos.

O que é o XTTS-v2?

XTTS-v2 é a segunda geração do modelo XTTS da Coqui AI. É um modelo de TTS multilíngue que combina um GPT autoregressivo com um HiFi-GAN vocoder. Treinado em milhares de horas de áudio em 17 idiomas, ele faz clonagem de voz zero-shot.

Características principais

Casos de uso

Requisitos de hardware

XTTS-v2 é leve — roda em GPU de 8GB sem problemas:

💰 Custo no GPUBrasil

RTX A4000: a partir de R$ 1,80/h. Para um serviço gerando 500 áudios/dia, gasto fica em ~R$ 3/dia rodando 2h.

Deploy em 1 clique

Passo 1: Selecionar template

  1. Entre no Console GPUBrasil
  2. Vá em Templates → Voz IA
  3. Clique em XTTS-v2 (Coqui)
  4. Selecione GPU (recomendado: RTX A4000 ou superior)
  5. Clique em Iniciar

Em ~90 segundos a instância está com Docker, drivers NVIDIA, modelo XTTS-v2 baixado (~2GB) e Gradio UI rodando.

Passo 2: Web UI (Gradio)

Acesse https://<sua-instancia>.gpubrasil.com.br:

Passo 3: API REST

Exemplo de chamada via Python:

import requests

url = "https://sua-instancia.gpubrasil.com.br/api/tts"
payload = {
    "text": "Olá! Bem-vindo ao GPUBrasil, a nuvem de GPU para devs brasileiros.",
    "speaker_wav": "/uploads/locutor.wav",
    "language": "pt"
}

response = requests.post(url, json=payload)
with open("saida.wav", "wb") as f:
    f.write(response.content)

print("Áudio salvo em saida.wav")

Passo 4: Uso programático (Python local)

from TTS.api import TTS

# Carregar modelo
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)

# Gerar áudio
tts.tts_to_file(
    text="O Brasil ganhou mais uma nuvem de GPU acessível.",
    speaker_wav="ref.wav",
    language="pt",
    file_path="output.wav"
)

XTTS-v2 vs F5-TTS

⚠️ Atenção licença

XTTS-v2 usa Coqui Public Model License (CPML). Para uso comercial pago, é necessário adquirir licença com a Coqui. Para projetos open-source ou pessoais, é grátis.

Dicas de produção

Suba seu próprio TTS em 90 segundos

Ganhe R$ 25 de crédito grátis no GPUBrasil e teste XTTS-v2 sem compromisso.

Começar Grátis →

Conclusão

XTTS-v2 é o cavalo de batalha do TTS open-source. Combinado com o template 1-clique do GPUBrasil, você sai do zero para um endpoint multilíngue de qualidade profissional em menos de 2 minutos. Pague apenas pelas horas de GPU que usar.

Leia também: F5-TTS · OpenVoice v2