LiteLLM Proxy: Unifique 100+ LLMs em 1 Clique no GPUBrasil

Sua aplicação usa GPT-4 da OpenAI, Claude da Anthropic, Gemini do Google, e ainda quer rodar Qwen self-hosted? Cada um tem SDK próprio, formato diferente, e o caos cresce. LiteLLM é o gateway que unifica tudo em uma única API compatível com OpenAI — e roda em 1 clique no GPUBrasil.

⚡ Resumo

LiteLLM proxy traduz formato OpenAI para 100+ providers (Anthropic, Bedrock, Azure, Cohere, Mistral, vLLM, Ollama, etc). Adiciona fallback automático, rate limiting, custos por usuário e logs centralizados.

O que é o LiteLLM?

LiteLLM é um API gateway open-source para LLMs. Você fala OpenAI; ele traduz para qualquer provider. Recursos chave para times empresariais:

100+ providers: OpenAI, Anthropic, Google Vertex, Azure, AWS Bedrock, Cohere, Mistral, Together, Anyscale, Replicate, Hugging Face, vLLM, Ollama, e mais
Routing inteligente: escolhe modelo por custo, latência ou disponibilidade
Fallback automático: GPT-4 caiu? Roteia para Claude
Rate limiting: por usuário, time, modelo
Cost tracking: spend por API key, por equipe, alertas
Caching: Redis para reduzir custos em queries repetidas
Logging: Langfuse, Helicone, Datadog, S3
Guardrails: filtros de PII, jailbreak detection
Virtual keys: chaves por usuário com budget próprio

Casos de uso brasileiros

Empresas usando múltiplos LLMs: dev usa GPT-4, ops usa Claude, RAG usa Qwen — uma key só
Controle de custos: alerta quando time de marketing passar de R$ 5k/mês
Migração gradual: A/B test de OpenAI vs LLM self-hosted no GPUBrasil
Fallback BR: GPT-4 indisponível → roteia para Qwen self-hosted no GPUBrasil
Compliance: dados sensíveis vão só para self-hosted; resto vai para OpenAI
Resellers de IA: emita virtual keys para clientes finais

Hardware

LiteLLM proxy não precisa de GPU — ele só roteia tráfego. Mas o template do GPUBrasil já vem com:

GPU pequena (RTX A4000): rodar LiteLLM + 1-2 modelos self-hosted juntos
CPU-only: também é viável (use template Notebooks)

💰 Custo no GPUBrasil

RTX A4000 (R$ 1,80/h) hospedando LiteLLM proxy + Qwen2.5-3B juntos. Para SaaS atendendo 1000 usuários/dia: ~R$ 5/dia.

Deploy em 1 clique

Passo 1: Iniciar template

Console → Templates → 🧠 LLM Self-hosted
Selecione LiteLLM Proxy
GPU: RTX A4000 (ou CPU-only)
Clique em Iniciar

O template gera uma master key aleatória e expõe o proxy na porta 4000. UI admin disponível em /ui.

Passo 2: Configurar providers

Edite ~/litellm/config.yaml via SSH:

model_list:
  # OpenAI
  - model_name: gpt-4-turbo
    litellm_params:
      model: openai/gpt-4-turbo
      api_key: os.environ/OPENAI_API_KEY

  # Anthropic
  - model_name: claude-3-5-sonnet
    litellm_params:
      model: anthropic/claude-3-5-sonnet-20241022
      api_key: os.environ/ANTHROPIC_API_KEY

  # vLLM self-hosted no GPUBrasil
  - model_name: qwen-br
    litellm_params:
      model: openai/Qwen/Qwen2.5-7B-Instruct
      api_base: https://outra-instancia.gpubrasil.com.br/v1
      api_key: dummy

litellm_settings:
  set_verbose: false
  cache: true

router_settings:
  routing_strategy: "least-busy"
  num_retries: 2
  fallbacks:
    - {gpt-4-turbo: ["claude-3-5-sonnet", "qwen-br"]}

Reinicie:

docker restart litellm

Passo 3: Usar via SDK OpenAI

from openai import OpenAI

client = OpenAI(
    base_url="https://sua-instancia.gpubrasil.com.br/v1",
    api_key="sk-1234"  # master key gerada no template
)

# Roteia para OpenAI
r1 = client.chat.completions.create(
    model="gpt-4-turbo",
    messages=[{"role":"user","content":"Olá!"}]
)

# Mesma chamada, agora vai pra Anthropic
r2 = client.chat.completions.create(
    model="claude-3-5-sonnet",
    messages=[{"role":"user","content":"Olá!"}]
)

# Mesma chamada, vai pra Qwen self-hosted no GPUBrasil
r3 = client.chat.completions.create(
    model="qwen-br",
    messages=[{"role":"user","content":"Olá!"}]
)

Passo 4: Virtual keys (multi-tenant)

# Criar key para um cliente com budget de R$ 100/mês
curl -X POST "https://sua-instancia.gpubrasil.com.br/key/generate" \
    -H "Authorization: Bearer sk-1234" \
    -H "Content-Type: application/json" \
    -d '{
        "models": ["gpt-4-turbo", "qwen-br"],
        "max_budget": 100,
        "budget_duration": "30d",
        "user_id": "cliente_acme"
    }'

# Resposta:
# { "key": "sk-acme-xxxxx", "expires": "2026-06-20" }

Fallback automático

# Se OpenAI cair, LiteLLM tenta Claude, depois Qwen
router_settings:
  num_retries: 3
  retry_after: 5  # segundos
  fallbacks:
    - {gpt-4-turbo: ["claude-3-5-sonnet", "qwen-br"]}
    - {claude-3-5-sonnet: ["qwen-br"]}

Cost tracking + alertas

# Webhook quando time excede orçamento
general_settings:
  master_key: os.environ/LITELLM_MASTER_KEY
  database_url: "postgres://..."
  alerting: ["slack"]
  alert_to_webhook_url: "https://hooks.slack.com/..."
  alerting_threshold: 300  # R$ por hora

LiteLLM vs alternativas

LiteLLM vs OpenRouter: LiteLLM é self-hosted (sem markup); OpenRouter cobra fee
LiteLLM vs Helicone: Helicone é observability; LiteLLM é proxy + observability
LiteLLM vs Portkey: Portkey é SaaS; LiteLLM open-source
LiteLLM vs custom code: testes e providers atualizados constantemente

Dicas de produção

PostgreSQL: habilite DB para virtual keys, spend logs e budgets persistentes
Redis cache: reduza 30-50% dos custos em RAG repetitivos
Prometheus: exporte métricas em /metrics
Streaming: SSE funciona com qualquer provider — mesmo os que não têm
Guardrails: habilite Llama Guard ou OpenAI Moderation antes de cada chamada

Centralize todos os seus LLMs em 90 segundos

Ganhe R$ 25 grátis no GPUBrasil e suba seu LiteLLM gateway com 1 clique.

Começar Grátis →

Conclusão

LiteLLM é a peça que falta na arquitetura de qualquer empresa que usa LLMs em produção. Subir no GPUBrasil em 1 clique te dá um gateway brasileiro com observabilidade, fallback e controle de custos — sem depender de APIs estrangeiras.

Veja também: vLLM · TGI