Pagar US$ 0,006 por minuto na API do OpenAI Whisper parece barato — até você precisar transcrever 10.000 horas de podcast. Self-hostar o Whisper em sua própria GPU economiza até 90% e mantém dados sensíveis na sua infra. Neste guia, deploy 1-clique no GPUBrasil.
Whisper Large-v3 transcreve português brasileiro com WER (taxa de erro) abaixo de 5%. Em RTX 4090, processa áudio em ~10x tempo real. Custo: ~R$ 0,03/h de áudio (vs R$ 1,80 na API).
O que é Whisper?
Whisper é o modelo open-source de speech-to-text da OpenAI, treinado em 680 mil horas de áudio multilíngue. É o estado da arte em transcrição automática, suporta 99 idiomas e tem variantes de tamanho do tiny (39M params) ao large-v3 (1.55B params).
O template do GPUBrasil sobe um servidor HTTP compatível com a API REST do OpenAI — você só troca a URL e seus clientes continuam funcionando.
Características principais
- Multilíngue: português, inglês, espanhol e mais 96 idiomas
- Timestamps por palavra: ideal para legendagem precisa
- Detecção automática de idioma
- Tradução integrada: áudio em qualquer idioma → texto em inglês
- API compatível com OpenAI: drop-in replacement
- Licença MIT: uso comercial livre
Casos de uso brasileiros
- Transcrição de reuniões: ata automática de calls do Meet/Zoom
- Legendagem de vídeos: YouTube, cursos, palestras em PT-BR
- Atendimento ao cliente: análise de chamadas de call center
- Podcast SEO: gerar artigos/posts a partir de áudios
- Acessibilidade: closed captions para conteúdo institucional
- LGPD-friendly: dados sensíveis nunca saem da sua infra
Hardware recomendado
- Whisper Tiny/Base: roda em qualquer GPU 4GB+
- Whisper Medium: RTX 3060 / A4000 (~5GB VRAM)
- Whisper Large-v3: RTX 4090 / A5000 (~10GB VRAM, recomendado)
RTX 4090: a partir de R$ 2,50/h, processando ~10h de áudio/h de GPU = R$ 0,25 por hora de áudio. OpenAI cobra R$ 1,80 — economia de 86%.
Deploy em 1 clique
Passo 1: Iniciar template
- Console do GPUBrasil → Templates → 🎙️ Voz IA
- Selecione Whisper Server
- GPU recomendada: RTX 4090 ou RTX A5000
- Clique em Iniciar
O template usa o faster-whisper (4x mais rápido que o whisper original) com servidor compatível com OpenAI rodando na porta 8000.
Passo 2: Transcrever via API
import requests
url = "https://sua-instancia.gpubrasil.com.br/v1/audio/transcriptions"
with open("reuniao.mp3", "rb") as f:
files = {"file": f}
data = {
"model": "whisper-large-v3",
"language": "pt",
"response_format": "verbose_json",
"timestamp_granularities[]": "word"
}
r = requests.post(url, files=files, data=data)
result = r.json()
print(result["text"])
# Timestamps por palavra
for word in result["words"]:
print(f"[{word['start']:.2f}s] {word['word']}")
Passo 3: Drop-in OpenAI SDK
Se seu código já usa openai, troque apenas a base URL:
from openai import OpenAI
client = OpenAI(
base_url="https://sua-instancia.gpubrasil.com.br/v1",
api_key="dummy" # qualquer string funciona
)
with open("podcast.mp3", "rb") as f:
transcript = client.audio.transcriptions.create(
model="whisper-large-v3",
file=f,
language="pt",
response_format="srt" # legendas .srt prontas!
)
with open("podcast.srt", "w") as out:
out.write(transcript)
Passo 4: Tradução (áudio PT → texto EN)
curl -X POST "https://sua-instancia.gpubrasil.com.br/v1/audio/translations" \
-F "file=@palestra-pt.mp3" \
-F "model=whisper-large-v3" \
-F "response_format=text"
# Retorna o conteúdo traduzido para inglês
Dicas de produção
- Pré-processamento: converta para WAV mono 16kHz para máxima velocidade
- VAD (Voice Activity Detection): habilite para pular silêncio
- Initial prompt: envie contexto para melhorar palavras técnicas/nomes próprios
- Batch: processe múltiplos arquivos em paralelo (faster-whisper suporta)
- Chunk: divida áudios longos em blocos de 30min
Whisper Large-v3 vs Tiny vs Medium
- Tiny: velocidade máxima, mas WER ~15% em PT-BR
- Medium: equilibrado, WER ~7%
- Large-v3: melhor qualidade, WER ~4% — recomendado para produção
Economize até 90% em transcrição
Ganhe R$ 25 grátis no GPUBrasil e suba seu Whisper Server em ~90 segundos.
Começar Grátis →Conclusão
Self-hostar o Whisper Server transforma a economia da transcrição: você paga GPU por hora e processa volume ilimitado. Combinado com o template 1-clique e a infraestrutura local do GPUBrasil, é a opção mais eficiente para empresas brasileiras que lidam com áudio em escala.
Leia também: F5-TTS para síntese de voz · Marker: PDF → Markdown