Sua aplicação usa GPT-4 da OpenAI, Claude da Anthropic, Gemini do Google, e ainda quer rodar Qwen self-hosted? Cada um tem SDK próprio, formato diferente, e o caos cresce. LiteLLM é o gateway que unifica tudo em uma única API compatível com OpenAI — e roda em 1 clique no GPUBrasil.

⚡ Resumo

LiteLLM proxy traduz formato OpenAI para 100+ providers (Anthropic, Bedrock, Azure, Cohere, Mistral, vLLM, Ollama, etc). Adiciona fallback automático, rate limiting, custos por usuário e logs centralizados.

O que é o LiteLLM?

LiteLLM é um API gateway open-source para LLMs. Você fala OpenAI; ele traduz para qualquer provider. Recursos chave para times empresariais:

Casos de uso brasileiros

Hardware

LiteLLM proxy não precisa de GPU — ele só roteia tráfego. Mas o template do GPUBrasil já vem com:

💰 Custo no GPUBrasil

RTX A4000 (R$ 1,80/h) hospedando LiteLLM proxy + Qwen2.5-3B juntos. Para SaaS atendendo 1000 usuários/dia: ~R$ 5/dia.

Deploy em 1 clique

Passo 1: Iniciar template

  1. Console → Templates → 🧠 LLM Self-hosted
  2. Selecione LiteLLM Proxy
  3. GPU: RTX A4000 (ou CPU-only)
  4. Clique em Iniciar

O template gera uma master key aleatória e expõe o proxy na porta 4000. UI admin disponível em /ui.

Passo 2: Configurar providers

Edite ~/litellm/config.yaml via SSH:

model_list:
  # OpenAI
  - model_name: gpt-4-turbo
    litellm_params:
      model: openai/gpt-4-turbo
      api_key: os.environ/OPENAI_API_KEY

  # Anthropic
  - model_name: claude-3-5-sonnet
    litellm_params:
      model: anthropic/claude-3-5-sonnet-20241022
      api_key: os.environ/ANTHROPIC_API_KEY

  # vLLM self-hosted no GPUBrasil
  - model_name: qwen-br
    litellm_params:
      model: openai/Qwen/Qwen2.5-7B-Instruct
      api_base: https://outra-instancia.gpubrasil.com.br/v1
      api_key: dummy

litellm_settings:
  set_verbose: false
  cache: true

router_settings:
  routing_strategy: "least-busy"
  num_retries: 2
  fallbacks:
    - {gpt-4-turbo: ["claude-3-5-sonnet", "qwen-br"]}

Reinicie:

docker restart litellm

Passo 3: Usar via SDK OpenAI

from openai import OpenAI

client = OpenAI(
    base_url="https://sua-instancia.gpubrasil.com.br/v1",
    api_key="sk-1234"  # master key gerada no template
)

# Roteia para OpenAI
r1 = client.chat.completions.create(
    model="gpt-4-turbo",
    messages=[{"role":"user","content":"Olá!"}]
)

# Mesma chamada, agora vai pra Anthropic
r2 = client.chat.completions.create(
    model="claude-3-5-sonnet",
    messages=[{"role":"user","content":"Olá!"}]
)

# Mesma chamada, vai pra Qwen self-hosted no GPUBrasil
r3 = client.chat.completions.create(
    model="qwen-br",
    messages=[{"role":"user","content":"Olá!"}]
)

Passo 4: Virtual keys (multi-tenant)

# Criar key para um cliente com budget de R$ 100/mês
curl -X POST "https://sua-instancia.gpubrasil.com.br/key/generate" \
    -H "Authorization: Bearer sk-1234" \
    -H "Content-Type: application/json" \
    -d '{
        "models": ["gpt-4-turbo", "qwen-br"],
        "max_budget": 100,
        "budget_duration": "30d",
        "user_id": "cliente_acme"
    }'

# Resposta:
# { "key": "sk-acme-xxxxx", "expires": "2026-06-20" }

Fallback automático

# Se OpenAI cair, LiteLLM tenta Claude, depois Qwen
router_settings:
  num_retries: 3
  retry_after: 5  # segundos
  fallbacks:
    - {gpt-4-turbo: ["claude-3-5-sonnet", "qwen-br"]}
    - {claude-3-5-sonnet: ["qwen-br"]}

Cost tracking + alertas

# Webhook quando time excede orçamento
general_settings:
  master_key: os.environ/LITELLM_MASTER_KEY
  database_url: "postgres://..."
  alerting: ["slack"]
  alert_to_webhook_url: "https://hooks.slack.com/..."
  alerting_threshold: 300  # R$ por hora

LiteLLM vs alternativas

Dicas de produção

Centralize todos os seus LLMs em 90 segundos

Ganhe R$ 25 grátis no GPUBrasil e suba seu LiteLLM gateway com 1 clique.

Começar Grátis →

Conclusão

LiteLLM é a peça que falta na arquitetura de qualquer empresa que usa LLMs em produção. Subir no GPUBrasil em 1 clique te dá um gateway brasileiro com observabilidade, fallback e controle de custos — sem depender de APIs estrangeiras.

Veja também: vLLM · TGI