O OpenVoice v2 da MyShell é um dos modelos de clonagem de voz mais elogiados de 2024, e a grande diferença para outros TTS está no controle granular de estilo: você não só clona o timbre, mas também controla emoção, ritmo, pausas e até sotaque. E é totalmente open-source sob licença MIT.

⚡ Por que escolher OpenVoice v2?

Único modelo open-source que separa tone color (timbre) de style (emoção/ritmo). Você pode clonar a voz de alguém e fazer essa voz falar com emoções diferentes — chave para narração de audiobooks e conteúdo dinâmico.

O que torna o OpenVoice v2 único?

A maioria dos TTS open-source extrai apenas o speaker embedding do áudio de referência. OpenVoice v2 usa uma arquitetura desacoplada:

Isso significa que você pode pegar uma voz neutra do seu CEO e gerar áudios dele falando com tom alegre, sério, amigável ou profissional — só mudando um parâmetro.

Características principais

Casos de uso brasileiros

Hardware recomendado

💰 Custo estimado

RTX A4000 no GPUBrasil: a partir de R$ 1,80/h. Geração de 1000 áudios curtos/dia consome ~1h de GPU = R$ 2/dia.

Deploy em 1 clique no GPUBrasil

Passo 1: Iniciar template

  1. Entre no Console
  2. Templates → 🎙️ Voz IA
  3. Selecione OpenVoice v2
  4. GPU recomendada: RTX A4000 ou RTX 4090
  5. Clique em Iniciar

O template baixa o repositório oficial da MyShell, instala dependências em ambiente Docker isolado e sobe o Gradio UI na porta 7860. Tempo total: ~2 minutos.

Passo 2: Acessar Web UI

Vá em https://<sua-instancia>.gpubrasil.com.br e siga:

  1. Faça upload de áudio de referência (5-15s, voz alvo)
  2. Escolha estilo: default, cheerful, terrified, angry, friendly
  3. Selecione idioma de saída
  4. Digite o texto
  5. Clique em Generate

Passo 3: Uso via Python

from openvoice import se_extractor
from openvoice.api import ToneColorConverter, BaseSpeakerTTS

# 1. Carregar modelos
ckpt_base = "checkpoints/base_speakers/EN"
ckpt_converter = "checkpoints/converter"
device = "cuda:0"

base_tts = BaseSpeakerTTS(f"{ckpt_base}/config.json", device=device)
base_tts.load_ckpt(f"{ckpt_base}/checkpoint.pth")

converter = ToneColorConverter(f"{ckpt_converter}/config.json", device=device)
converter.load_ckpt(f"{ckpt_converter}/checkpoint.pth")

# 2. Extrair embedding da voz alvo
target_se, _ = se_extractor.get_se("voz_alvo.wav", converter, target_dir="processed")

# 3. Gerar fala com estilo
base_tts.tts(
    "Olá! Sou seu assistente brasileiro com OpenVoice v2.",
    "tmp.wav",
    speaker="default",
    language="Portuguese",
    speed=1.0
)

# 4. Aplicar timbre da voz alvo
source_se = base_tts.hps.speakers["default"]
converter.convert(
    audio_src_path="tmp.wav",
    src_se=source_se,
    tgt_se=target_se,
    output_path="final.wav"
)

OpenVoice v2 vs F5-TTS vs XTTS-v2

✅ Quando usar OpenVoice v2

Escolha OpenVoice v2 quando você precisa de variação emocional com a mesma voz e quer evitar custos de licença comercial.

Dicas de qualidade

Comece a clonar vozes com controle emocional

Ganhe R$ 25 de crédito grátis no GPUBrasil e suba OpenVoice v2 em 2 minutos.

Criar Conta Grátis →

Conclusão

OpenVoice v2 abre possibilidades que outros TTS open-source não dão: clonagem de voz com controle de emoção e estilo, com licença MIT permitindo uso comercial sem custo extra. Combinado com a infra do GPUBrasil — sem CAPEX, pagando por hora — é uma combinação imbatível para startups brasileiras de áudio/IA.

Comparação completa: F5-TTS · XTTS-v2