Sua aplicação usa GPT-4 da OpenAI, Claude da Anthropic, Gemini do Google, e ainda quer rodar Qwen self-hosted? Cada um tem SDK próprio, formato diferente, e o caos cresce. LiteLLM é o gateway que unifica tudo em uma única API compatível com OpenAI — e roda em 1 clique no GPUBrasil.
LiteLLM proxy traduz formato OpenAI para 100+ providers (Anthropic, Bedrock, Azure, Cohere, Mistral, vLLM, Ollama, etc). Adiciona fallback automático, rate limiting, custos por usuário e logs centralizados.
O que é o LiteLLM?
LiteLLM é um API gateway open-source para LLMs. Você fala OpenAI; ele traduz para qualquer provider. Recursos chave para times empresariais:
- 100+ providers: OpenAI, Anthropic, Google Vertex, Azure, AWS Bedrock, Cohere, Mistral, Together, Anyscale, Replicate, Hugging Face, vLLM, Ollama, e mais
- Routing inteligente: escolhe modelo por custo, latência ou disponibilidade
- Fallback automático: GPT-4 caiu? Roteia para Claude
- Rate limiting: por usuário, time, modelo
- Cost tracking: spend por API key, por equipe, alertas
- Caching: Redis para reduzir custos em queries repetidas
- Logging: Langfuse, Helicone, Datadog, S3
- Guardrails: filtros de PII, jailbreak detection
- Virtual keys: chaves por usuário com budget próprio
Casos de uso brasileiros
- Empresas usando múltiplos LLMs: dev usa GPT-4, ops usa Claude, RAG usa Qwen — uma key só
- Controle de custos: alerta quando time de marketing passar de R$ 5k/mês
- Migração gradual: A/B test de OpenAI vs LLM self-hosted no GPUBrasil
- Fallback BR: GPT-4 indisponível → roteia para Qwen self-hosted no GPUBrasil
- Compliance: dados sensíveis vão só para self-hosted; resto vai para OpenAI
- Resellers de IA: emita virtual keys para clientes finais
Hardware
LiteLLM proxy não precisa de GPU — ele só roteia tráfego. Mas o template do GPUBrasil já vem com:
- GPU pequena (RTX A4000): rodar LiteLLM + 1-2 modelos self-hosted juntos
- CPU-only: também é viável (use template Notebooks)
RTX A4000 (R$ 1,80/h) hospedando LiteLLM proxy + Qwen2.5-3B juntos. Para SaaS atendendo 1000 usuários/dia: ~R$ 5/dia.
Deploy em 1 clique
Passo 1: Iniciar template
- Console → Templates → 🧠 LLM Self-hosted
- Selecione LiteLLM Proxy
- GPU: RTX A4000 (ou CPU-only)
- Clique em Iniciar
O template gera uma master key aleatória e expõe o proxy na porta 4000. UI admin disponível em /ui.
Passo 2: Configurar providers
Edite ~/litellm/config.yaml via SSH:
model_list:
# OpenAI
- model_name: gpt-4-turbo
litellm_params:
model: openai/gpt-4-turbo
api_key: os.environ/OPENAI_API_KEY
# Anthropic
- model_name: claude-3-5-sonnet
litellm_params:
model: anthropic/claude-3-5-sonnet-20241022
api_key: os.environ/ANTHROPIC_API_KEY
# vLLM self-hosted no GPUBrasil
- model_name: qwen-br
litellm_params:
model: openai/Qwen/Qwen2.5-7B-Instruct
api_base: https://outra-instancia.gpubrasil.com.br/v1
api_key: dummy
litellm_settings:
set_verbose: false
cache: true
router_settings:
routing_strategy: "least-busy"
num_retries: 2
fallbacks:
- {gpt-4-turbo: ["claude-3-5-sonnet", "qwen-br"]}
Reinicie:
docker restart litellm
Passo 3: Usar via SDK OpenAI
from openai import OpenAI
client = OpenAI(
base_url="https://sua-instancia.gpubrasil.com.br/v1",
api_key="sk-1234" # master key gerada no template
)
# Roteia para OpenAI
r1 = client.chat.completions.create(
model="gpt-4-turbo",
messages=[{"role":"user","content":"Olá!"}]
)
# Mesma chamada, agora vai pra Anthropic
r2 = client.chat.completions.create(
model="claude-3-5-sonnet",
messages=[{"role":"user","content":"Olá!"}]
)
# Mesma chamada, vai pra Qwen self-hosted no GPUBrasil
r3 = client.chat.completions.create(
model="qwen-br",
messages=[{"role":"user","content":"Olá!"}]
)
Passo 4: Virtual keys (multi-tenant)
# Criar key para um cliente com budget de R$ 100/mês
curl -X POST "https://sua-instancia.gpubrasil.com.br/key/generate" \
-H "Authorization: Bearer sk-1234" \
-H "Content-Type: application/json" \
-d '{
"models": ["gpt-4-turbo", "qwen-br"],
"max_budget": 100,
"budget_duration": "30d",
"user_id": "cliente_acme"
}'
# Resposta:
# { "key": "sk-acme-xxxxx", "expires": "2026-06-20" }
Fallback automático
# Se OpenAI cair, LiteLLM tenta Claude, depois Qwen
router_settings:
num_retries: 3
retry_after: 5 # segundos
fallbacks:
- {gpt-4-turbo: ["claude-3-5-sonnet", "qwen-br"]}
- {claude-3-5-sonnet: ["qwen-br"]}
Cost tracking + alertas
# Webhook quando time excede orçamento
general_settings:
master_key: os.environ/LITELLM_MASTER_KEY
database_url: "postgres://..."
alerting: ["slack"]
alert_to_webhook_url: "https://hooks.slack.com/..."
alerting_threshold: 300 # R$ por hora
LiteLLM vs alternativas
- LiteLLM vs OpenRouter: LiteLLM é self-hosted (sem markup); OpenRouter cobra fee
- LiteLLM vs Helicone: Helicone é observability; LiteLLM é proxy + observability
- LiteLLM vs Portkey: Portkey é SaaS; LiteLLM open-source
- LiteLLM vs custom code: testes e providers atualizados constantemente
Dicas de produção
- PostgreSQL: habilite DB para virtual keys, spend logs e budgets persistentes
- Redis cache: reduza 30-50% dos custos em RAG repetitivos
- Prometheus: exporte métricas em
/metrics - Streaming: SSE funciona com qualquer provider — mesmo os que não têm
- Guardrails: habilite Llama Guard ou OpenAI Moderation antes de cada chamada
Centralize todos os seus LLMs em 90 segundos
Ganhe R$ 25 grátis no GPUBrasil e suba seu LiteLLM gateway com 1 clique.
Começar Grátis →Conclusão
LiteLLM é a peça que falta na arquitetura de qualquer empresa que usa LLMs em produção. Subir no GPUBrasil em 1 clique te dá um gateway brasileiro com observabilidade, fallback e controle de custos — sem depender de APIs estrangeiras.