Imagine clonar a voz de qualquer pessoa em português brasileiro a partir de apenas 10 segundos de áudio — sem treinamento, sem fine-tuning, e em produção em menos de 3 minutos. É exatamente isso que o F5-TTS faz, e agora você pode implantá-lo no GPUBrasil com apenas 1 clique.

⚡ Resumo Rápido

F5-TTS é o estado da arte em clonagem de voz zero-shot, lançado em 2024 pela SWivid. Implante na sua GPU em ~2 minutos via template 1-clique no GPUBrasil e gere áudios em qualquer voz que você forneça.

O que é o F5-TTS?

F5-TTS (Flow-matching Text-to-Speech) é um modelo open-source de síntese de voz baseado em flow matching e diffusion transformers. Diferente do XTTS ou Tortoise, ele não precisa de treinamento por voz: você fornece um áudio de referência de poucos segundos e o modelo replica timbre, entonação e estilo.

Principais características

Casos de uso reais no Brasil

F5-TTS é ideal para qualquer caso em que síntese tradicional (Google TTS, Polly) não entrega naturalidade suficiente:

Hardware recomendado

F5-TTS é relativamente leve. Recomendamos no mínimo 12GB de VRAM:

💰 Custo estimado no GPUBrasil

RTX 4090: a partir de R$ 2,50/h. Para gerar 1000 áudios de 10s por dia, custo total fica em ~R$ 5-10/dia.

Deploy em 1 clique no GPUBrasil

Esqueça requirements.txt, conflitos de CUDA, container builds. Com o template 1-clique do GPUBrasil tudo é automatizado:

Passo 1: Criar conta e selecionar GPU

  1. Acesse gpubrasil.com.br e crie sua conta (ganhe R$ 25 grátis)
  2. Vá em Console → Templates
  3. Clique em F5-TTS na categoria 🎙️ Voz IA
  4. Escolha a GPU (recomendado: RTX 4090)
  5. Clique em Iniciar

Em ~2 minutos a instância está pronta, com Docker, NVIDIA drivers, F5-TTS e Gradio rodando na porta 7860.

Passo 2: Acessar a Web UI

# URL gerada automaticamente pelo GPUBrasil
https://<sua-instancia>.gpubrasil.com.br

# Faça upload de:
# 1. Áudio de referência (.wav, 5-15s, voz clara)
# 2. Texto a sintetizar (em português)
# 3. Clique em "Generate"

Passo 3: Usar via API HTTP

O Gradio expõe também uma API REST. Exemplo em Python:

import requests

url = "https://sua-instancia.gpubrasil.com.br/api/predict"
payload = {
    "data": [
        {"path": "voz_referencia.wav"},  # áudio de referência
        "Texto de referência transcrito",  # transcrição do ref
        "Olá! Esta é minha voz clonada em português.",  # texto a falar
        False,  # remove_silence
        0.15,   # cross-fade duration
        32,     # nfe_step
        1.0     # speed
    ]
}
r = requests.post(url, json=payload)
audio_path = r.json()["data"][0]
print("Áudio gerado:", audio_path)

Dicas de qualidade

F5-TTS vs alternativas

Pronto para clonar vozes em português?

Crie sua conta no GPUBrasil, ganhe R$ 25 de crédito e implante F5-TTS em 1 clique.

Começar Grátis →

Conclusão

F5-TTS democratiza a clonagem de voz de alta qualidade. Com o template 1-clique do GPUBrasil, qualquer dev brasileiro pode subir um endpoint TTS profissional em minutos, pagando por hora de uso real, sem assinatura mensal.

Próximos passos: experimente também o XTTS-v2 e OpenVoice v2 para comparar qualidade no seu caso de uso.