Imagine clonar a voz de qualquer pessoa em português brasileiro a partir de apenas 10 segundos de áudio — sem treinamento, sem fine-tuning, e em produção em menos de 3 minutos. É exatamente isso que o F5-TTS faz, e agora você pode implantá-lo no GPUBrasil com apenas 1 clique.
F5-TTS é o estado da arte em clonagem de voz zero-shot, lançado em 2024 pela SWivid. Implante na sua GPU em ~2 minutos via template 1-clique no GPUBrasil e gere áudios em qualquer voz que você forneça.
O que é o F5-TTS?
F5-TTS (Flow-matching Text-to-Speech) é um modelo open-source de síntese de voz baseado em flow matching e diffusion transformers. Diferente do XTTS ou Tortoise, ele não precisa de treinamento por voz: você fornece um áudio de referência de poucos segundos e o modelo replica timbre, entonação e estilo.
Principais características
- Zero-shot: clona vozes sem nenhum fine-tuning
- Multi-idioma: suporta português, inglês, espanhol, chinês e mais
- Rápido: ~3-5 segundos para gerar 10s de áudio em RTX 4090
- Open-source: licença MIT, sem custo de royalties
- API HTTP: Gradio Web UI + endpoint REST prontos para uso
Casos de uso reais no Brasil
F5-TTS é ideal para qualquer caso em que síntese tradicional (Google TTS, Polly) não entrega naturalidade suficiente:
- Audiobooks em português: narração com voz de qualquer locutor licenciado
- Dublagem de vídeos: manter a voz original do apresentador em outro idioma
- Atendimento humanizado: URA com voz consistente da sua marca
- Acessibilidade: dar voz a pacientes que perderam a fala (com a voz deles)
- Podcasts e cursos: regravação de trechos sem precisar voltar ao estúdio
Hardware recomendado
F5-TTS é relativamente leve. Recomendamos no mínimo 12GB de VRAM:
- RTX 3090 / 4090: ideal para produção, ~3s para 10s de áudio
- RTX A4000 / A5000: custo-benefício excelente para volume médio
- L40S / A100: overkill, use se já tem alocada
RTX 4090: a partir de R$ 2,50/h. Para gerar 1000 áudios de 10s por dia, custo total fica em ~R$ 5-10/dia.
Deploy em 1 clique no GPUBrasil
Esqueça requirements.txt, conflitos de CUDA, container builds. Com o template 1-clique do GPUBrasil tudo é automatizado:
Passo 1: Criar conta e selecionar GPU
- Acesse gpubrasil.com.br e crie sua conta (ganhe R$ 25 grátis)
- Vá em Console → Templates
- Clique em F5-TTS na categoria 🎙️ Voz IA
- Escolha a GPU (recomendado: RTX 4090)
- Clique em Iniciar
Em ~2 minutos a instância está pronta, com Docker, NVIDIA drivers, F5-TTS e Gradio rodando na porta 7860.
Passo 2: Acessar a Web UI
# URL gerada automaticamente pelo GPUBrasil
https://<sua-instancia>.gpubrasil.com.br
# Faça upload de:
# 1. Áudio de referência (.wav, 5-15s, voz clara)
# 2. Texto a sintetizar (em português)
# 3. Clique em "Generate"
Passo 3: Usar via API HTTP
O Gradio expõe também uma API REST. Exemplo em Python:
import requests
url = "https://sua-instancia.gpubrasil.com.br/api/predict"
payload = {
"data": [
{"path": "voz_referencia.wav"}, # áudio de referência
"Texto de referência transcrito", # transcrição do ref
"Olá! Esta é minha voz clonada em português.", # texto a falar
False, # remove_silence
0.15, # cross-fade duration
32, # nfe_step
1.0 # speed
]
}
r = requests.post(url, json=payload)
audio_path = r.json()["data"][0]
print("Áudio gerado:", audio_path)
Dicas de qualidade
- Áudio de referência limpo: 10-15s em ambiente sem ruído, voz natural
- Match de idioma: ref em PT-BR gera melhor PT-BR (mas funciona cross-lingual)
- Texto curto: divida textos longos em frases para evitar drift
- NFE steps: 32 é o sweet spot. 16 fica robótico, 64 não melhora
F5-TTS vs alternativas
- F5-TTS vs XTTS-v2: F5 tem melhor qualidade prosódica, XTTS tem inferência mais rápida
- F5-TTS vs ElevenLabs: F5 é gratuito (open-source) e roda na sua GPU, ElevenLabs cobra por caractere
- F5-TTS vs Tortoise: F5 é 10x mais rápido com qualidade similar
Pronto para clonar vozes em português?
Crie sua conta no GPUBrasil, ganhe R$ 25 de crédito e implante F5-TTS em 1 clique.
Começar Grátis →Conclusão
F5-TTS democratiza a clonagem de voz de alta qualidade. Com o template 1-clique do GPUBrasil, qualquer dev brasileiro pode subir um endpoint TTS profissional em minutos, pagando por hora de uso real, sem assinatura mensal.
Próximos passos: experimente também o XTTS-v2 e OpenVoice v2 para comparar qualidade no seu caso de uso.