F5-TTS: Clonagem de Voz com IA em 1 Clique no GPUBrasil

Imagine clonar a voz de qualquer pessoa em português brasileiro a partir de apenas 10 segundos de áudio — sem treinamento, sem fine-tuning, e em produção em menos de 3 minutos. É exatamente isso que o F5-TTS faz, e agora você pode implantá-lo no GPUBrasil com apenas 1 clique.

⚡ Resumo Rápido

F5-TTS é o estado da arte em clonagem de voz zero-shot, lançado em 2024 pela SWivid. Implante na sua GPU em ~2 minutos via template 1-clique no GPUBrasil e gere áudios em qualquer voz que você forneça.

O que é o F5-TTS?

F5-TTS (Flow-matching Text-to-Speech) é um modelo open-source de síntese de voz baseado em flow matching e diffusion transformers. Diferente do XTTS ou Tortoise, ele não precisa de treinamento por voz: você fornece um áudio de referência de poucos segundos e o modelo replica timbre, entonação e estilo.

Principais características

Zero-shot: clona vozes sem nenhum fine-tuning
Multi-idioma: suporta português, inglês, espanhol, chinês e mais
Rápido: ~3-5 segundos para gerar 10s de áudio em RTX 4090
Open-source: licença MIT, sem custo de royalties
API HTTP: Gradio Web UI + endpoint REST prontos para uso

Casos de uso reais no Brasil

F5-TTS é ideal para qualquer caso em que síntese tradicional (Google TTS, Polly) não entrega naturalidade suficiente:

Audiobooks em português: narração com voz de qualquer locutor licenciado
Dublagem de vídeos: manter a voz original do apresentador em outro idioma
Atendimento humanizado: URA com voz consistente da sua marca
Acessibilidade: dar voz a pacientes que perderam a fala (com a voz deles)
Podcasts e cursos: regravação de trechos sem precisar voltar ao estúdio

Hardware recomendado

F5-TTS é relativamente leve. Recomendamos no mínimo 12GB de VRAM:

RTX 3090 / 4090: ideal para produção, ~3s para 10s de áudio
RTX A4000 / A5000: custo-benefício excelente para volume médio
L40S / A100: overkill, use se já tem alocada

💰 Custo estimado no GPUBrasil

RTX 4090: a partir de R$ 2,50/h. Para gerar 1000 áudios de 10s por dia, custo total fica em ~R$ 5-10/dia.

Deploy em 1 clique no GPUBrasil

Esqueça requirements.txt, conflitos de CUDA, container builds. Com o template 1-clique do GPUBrasil tudo é automatizado:

Passo 1: Criar conta e selecionar GPU

Acesse gpubrasil.com.br e crie sua conta (ganhe R$ 25 grátis)
Vá em Console → Templates
Clique em F5-TTS na categoria 🎙️ Voz IA
Escolha a GPU (recomendado: RTX 4090)
Clique em Iniciar

Em ~2 minutos a instância está pronta, com Docker, NVIDIA drivers, F5-TTS e Gradio rodando na porta 7860.

Passo 2: Acessar a Web UI

# URL gerada automaticamente pelo GPUBrasil
https://<sua-instancia>.gpubrasil.com.br

# Faça upload de:
# 1. Áudio de referência (.wav, 5-15s, voz clara)
# 2. Texto a sintetizar (em português)
# 3. Clique em "Generate"

Passo 3: Usar via API HTTP

O Gradio expõe também uma API REST. Exemplo em Python:

import requests

url = "https://sua-instancia.gpubrasil.com.br/api/predict"
payload = {
    "data": [
        {"path": "voz_referencia.wav"},  # áudio de referência
        "Texto de referência transcrito",  # transcrição do ref
        "Olá! Esta é minha voz clonada em português.",  # texto a falar
        False,  # remove_silence
        0.15,   # cross-fade duration
        32,     # nfe_step
        1.0     # speed
    ]
}
r = requests.post(url, json=payload)
audio_path = r.json()["data"][0]
print("Áudio gerado:", audio_path)

Dicas de qualidade

Áudio de referência limpo: 10-15s em ambiente sem ruído, voz natural
Match de idioma: ref em PT-BR gera melhor PT-BR (mas funciona cross-lingual)
Texto curto: divida textos longos em frases para evitar drift
NFE steps: 32 é o sweet spot. 16 fica robótico, 64 não melhora

F5-TTS vs alternativas

F5-TTS vs XTTS-v2: F5 tem melhor qualidade prosódica, XTTS tem inferência mais rápida
F5-TTS vs ElevenLabs: F5 é gratuito (open-source) e roda na sua GPU, ElevenLabs cobra por caractere
F5-TTS vs Tortoise: F5 é 10x mais rápido com qualidade similar

Pronto para clonar vozes em português?

Crie sua conta no GPUBrasil, ganhe R$ 25 de crédito e implante F5-TTS em 1 clique.

Começar Grátis →

Conclusão

F5-TTS democratiza a clonagem de voz de alta qualidade. Com o template 1-clique do GPUBrasil, qualquer dev brasileiro pode subir um endpoint TTS profissional em minutos, pagando por hora de uso real, sem assinatura mensal.

Próximos passos: experimente também o XTTS-v2 e OpenVoice v2 para comparar qualidade no seu caso de uso.