OpenVoice v2: Clonagem de Voz Cross-Lingual em 1 Clique

O OpenVoice v2 da MyShell é um dos modelos de clonagem de voz mais elogiados de 2024, e a grande diferença para outros TTS está no controle granular de estilo: você não só clona o timbre, mas também controla emoção, ritmo, pausas e até sotaque. E é totalmente open-source sob licença MIT.

⚡ Por que escolher OpenVoice v2?

Único modelo open-source que separa tone color (timbre) de style (emoção/ritmo). Você pode clonar a voz de alguém e fazer essa voz falar com emoções diferentes — chave para narração de audiobooks e conteúdo dinâmico.

O que torna o OpenVoice v2 único?

A maioria dos TTS open-source extrai apenas o speaker embedding do áudio de referência. OpenVoice v2 usa uma arquitetura desacoplada:

Base speaker model: gera fala com estilo controlado (emoção, ritmo)
Tone color converter: aplica o timbre da voz alvo na fala gerada

Isso significa que você pode pegar uma voz neutra do seu CEO e gerar áudios dele falando com tom alegre, sério, amigável ou profissional — só mudando um parâmetro.

Características principais

Controle de estilo: alegre, triste, animado, profissional, e mais
Cross-lingual: voz em PT-BR pode falar inglês, espanhol, japonês com sotaque correto
Licença MIT: uso comercial 100% livre
Rápido: ~2s para 10s de áudio em RTX 3090
Compatível com 6 idiomas base: EN, ES, FR, ZH, JA, KR — voz de PT-BR funciona via cross-lingual

Casos de uso brasileiros

Audiobooks com múltiplas emoções: mesmo narrador, vozes diferentes para diálogo
Cursos online: apresentador único com tom adequado a cada módulo
E-commerce: descrições de produtos com tom de marca consistente
Conteúdo internacional: influenciador BR falando inglês mantendo voz própria
Avatares digitais: personagens com voz consistente em múltiplos idiomas

Hardware recomendado

RTX 3060 12GB / A4000: ideal, custo baixo
RTX 4090 / A5000: volume alto / streaming
VRAM mínima: 8GB (modelo + converter)

💰 Custo estimado

RTX A4000 no GPUBrasil: a partir de R$ 1,80/h. Geração de 1000 áudios curtos/dia consome ~1h de GPU = R$ 2/dia.

Deploy em 1 clique no GPUBrasil

Passo 1: Iniciar template

Entre no Console
Templates → 🎙️ Voz IA
Selecione OpenVoice v2
GPU recomendada: RTX A4000 ou RTX 4090
Clique em Iniciar

O template baixa o repositório oficial da MyShell, instala dependências em ambiente Docker isolado e sobe o Gradio UI na porta 7860. Tempo total: ~2 minutos.

Passo 2: Acessar Web UI

Vá em https://<sua-instancia>.gpubrasil.com.br e siga:

Faça upload de áudio de referência (5-15s, voz alvo)
Escolha estilo: default, cheerful, terrified, angry, friendly
Selecione idioma de saída
Digite o texto
Clique em Generate

Passo 3: Uso via Python

from openvoice import se_extractor
from openvoice.api import ToneColorConverter, BaseSpeakerTTS

# 1. Carregar modelos
ckpt_base = "checkpoints/base_speakers/EN"
ckpt_converter = "checkpoints/converter"
device = "cuda:0"

base_tts = BaseSpeakerTTS(f"{ckpt_base}/config.json", device=device)
base_tts.load_ckpt(f"{ckpt_base}/checkpoint.pth")

converter = ToneColorConverter(f"{ckpt_converter}/config.json", device=device)
converter.load_ckpt(f"{ckpt_converter}/checkpoint.pth")

# 2. Extrair embedding da voz alvo
target_se, _ = se_extractor.get_se("voz_alvo.wav", converter, target_dir="processed")

# 3. Gerar fala com estilo
base_tts.tts(
    "Olá! Sou seu assistente brasileiro com OpenVoice v2.",
    "tmp.wav",
    speaker="default",
    language="Portuguese",
    speed=1.0
)

# 4. Aplicar timbre da voz alvo
source_se = base_tts.hps.speakers["default"]
converter.convert(
    audio_src_path="tmp.wav",
    src_se=source_se,
    tgt_se=target_se,
    output_path="final.wav"
)

OpenVoice v2 vs F5-TTS vs XTTS-v2

OpenVoice v2: melhor para controle de emoção/estilo; licença MIT
F5-TTS: melhor qualidade prosódica em frases longas; licença MIT
XTTS-v2: melhor para streaming em tempo real; licença CPML (comercial paga)

✅ Quando usar OpenVoice v2

Escolha OpenVoice v2 quando você precisa de variação emocional com a mesma voz e quer evitar custos de licença comercial.

Dicas de qualidade

Áudio de referência limpo: 10-15s, sem música/ruído de fundo
Português: use base speaker EN + texto em PT — soa natural cross-lingual
Combine estilos: mesma voz com style="cheerful" + style="default" cria narrações dinâmicas
Speed: entre 0.9 e 1.1 mantém naturalidade

Comece a clonar vozes com controle emocional

Ganhe R$ 25 de crédito grátis no GPUBrasil e suba OpenVoice v2 em 2 minutos.

Criar Conta Grátis →

Conclusão

OpenVoice v2 abre possibilidades que outros TTS open-source não dão: clonagem de voz com controle de emoção e estilo, com licença MIT permitindo uso comercial sem custo extra. Combinado com a infra do GPUBrasil — sem CAPEX, pagando por hora — é uma combinação imbatível para startups brasileiras de áudio/IA.

Comparação completa: F5-TTS · XTTS-v2