O OpenVoice v2 da MyShell é um dos modelos de clonagem de voz mais elogiados de 2024, e a grande diferença para outros TTS está no controle granular de estilo: você não só clona o timbre, mas também controla emoção, ritmo, pausas e até sotaque. E é totalmente open-source sob licença MIT.
Único modelo open-source que separa tone color (timbre) de style (emoção/ritmo). Você pode clonar a voz de alguém e fazer essa voz falar com emoções diferentes — chave para narração de audiobooks e conteúdo dinâmico.
O que torna o OpenVoice v2 único?
A maioria dos TTS open-source extrai apenas o speaker embedding do áudio de referência. OpenVoice v2 usa uma arquitetura desacoplada:
- Base speaker model: gera fala com estilo controlado (emoção, ritmo)
- Tone color converter: aplica o timbre da voz alvo na fala gerada
Isso significa que você pode pegar uma voz neutra do seu CEO e gerar áudios dele falando com tom alegre, sério, amigável ou profissional — só mudando um parâmetro.
Características principais
- Controle de estilo: alegre, triste, animado, profissional, e mais
- Cross-lingual: voz em PT-BR pode falar inglês, espanhol, japonês com sotaque correto
- Licença MIT: uso comercial 100% livre
- Rápido: ~2s para 10s de áudio em RTX 3090
- Compatível com 6 idiomas base: EN, ES, FR, ZH, JA, KR — voz de PT-BR funciona via cross-lingual
Casos de uso brasileiros
- Audiobooks com múltiplas emoções: mesmo narrador, vozes diferentes para diálogo
- Cursos online: apresentador único com tom adequado a cada módulo
- E-commerce: descrições de produtos com tom de marca consistente
- Conteúdo internacional: influenciador BR falando inglês mantendo voz própria
- Avatares digitais: personagens com voz consistente em múltiplos idiomas
Hardware recomendado
- RTX 3060 12GB / A4000: ideal, custo baixo
- RTX 4090 / A5000: volume alto / streaming
- VRAM mínima: 8GB (modelo + converter)
RTX A4000 no GPUBrasil: a partir de R$ 1,80/h. Geração de 1000 áudios curtos/dia consome ~1h de GPU = R$ 2/dia.
Deploy em 1 clique no GPUBrasil
Passo 1: Iniciar template
- Entre no Console
- Templates → 🎙️ Voz IA
- Selecione OpenVoice v2
- GPU recomendada: RTX A4000 ou RTX 4090
- Clique em Iniciar
O template baixa o repositório oficial da MyShell, instala dependências em ambiente Docker isolado e sobe o Gradio UI na porta 7860. Tempo total: ~2 minutos.
Passo 2: Acessar Web UI
Vá em https://<sua-instancia>.gpubrasil.com.br e siga:
- Faça upload de áudio de referência (5-15s, voz alvo)
- Escolha estilo: default, cheerful, terrified, angry, friendly
- Selecione idioma de saída
- Digite o texto
- Clique em Generate
Passo 3: Uso via Python
from openvoice import se_extractor
from openvoice.api import ToneColorConverter, BaseSpeakerTTS
# 1. Carregar modelos
ckpt_base = "checkpoints/base_speakers/EN"
ckpt_converter = "checkpoints/converter"
device = "cuda:0"
base_tts = BaseSpeakerTTS(f"{ckpt_base}/config.json", device=device)
base_tts.load_ckpt(f"{ckpt_base}/checkpoint.pth")
converter = ToneColorConverter(f"{ckpt_converter}/config.json", device=device)
converter.load_ckpt(f"{ckpt_converter}/checkpoint.pth")
# 2. Extrair embedding da voz alvo
target_se, _ = se_extractor.get_se("voz_alvo.wav", converter, target_dir="processed")
# 3. Gerar fala com estilo
base_tts.tts(
"Olá! Sou seu assistente brasileiro com OpenVoice v2.",
"tmp.wav",
speaker="default",
language="Portuguese",
speed=1.0
)
# 4. Aplicar timbre da voz alvo
source_se = base_tts.hps.speakers["default"]
converter.convert(
audio_src_path="tmp.wav",
src_se=source_se,
tgt_se=target_se,
output_path="final.wav"
)
OpenVoice v2 vs F5-TTS vs XTTS-v2
- OpenVoice v2: melhor para controle de emoção/estilo; licença MIT
- F5-TTS: melhor qualidade prosódica em frases longas; licença MIT
- XTTS-v2: melhor para streaming em tempo real; licença CPML (comercial paga)
Escolha OpenVoice v2 quando você precisa de variação emocional com a mesma voz e quer evitar custos de licença comercial.
Dicas de qualidade
- Áudio de referência limpo: 10-15s, sem música/ruído de fundo
- Português: use base speaker EN + texto em PT — soa natural cross-lingual
- Combine estilos: mesma voz com style="cheerful" + style="default" cria narrações dinâmicas
- Speed: entre 0.9 e 1.1 mantém naturalidade
Comece a clonar vozes com controle emocional
Ganhe R$ 25 de crédito grátis no GPUBrasil e suba OpenVoice v2 em 2 minutos.
Criar Conta Grátis →Conclusão
OpenVoice v2 abre possibilidades que outros TTS open-source não dão: clonagem de voz com controle de emoção e estilo, com licença MIT permitindo uso comercial sem custo extra. Combinado com a infra do GPUBrasil — sem CAPEX, pagando por hora — é uma combinação imbatível para startups brasileiras de áudio/IA.