vLLM: Servir LLMs Self-Hosted em 1 Clique no GPUBrasil

Quer rodar LLaMA 3.3, Qwen 2.5 ou Mistral em produção com API compatível com OpenAI? vLLM é o servidor de inferência open-source mais usado no mundo, com PagedAttention para 5-10x mais throughput que Hugging Face Transformers padrão. No GPUBrasil, deploy em 1 clique.

⚡ Resumo

vLLM serve LLMs com throughput de até 3000+ tokens/segundo em H100. API totalmente compatível com OpenAI — troque a base_url e seu código continua funcionando.

O que é o vLLM?

vLLM é um servidor de inferência criado em UC Berkeley que introduziu o algoritmo PagedAttention — analogamente ao paginamento de memória virtual em sistemas operacionais, mas para o KV cache de attention. Resultado: aproveitamento de VRAM 24x melhor que implementações ingênuas.

Características principais

API OpenAI-compatible: drop-in para clientes que usam o SDK openai
Continuous batching: agrupa requisições dinamicamente
Quantização: AWQ, GPTQ, FP8 — modelos grandes em GPUs menores
Tensor parallelism: divida modelo em múltiplas GPUs (LLaMA 3.1 405B em 8x H100)
Speculative decoding: 2-3x mais rápido em geração
Function calling: structured output e tool use
Modelos suportados: LLaMA, Qwen, Mistral, Gemma, Phi, DeepSeek, Mixtral, e dezenas mais

Casos de uso brasileiros

Chatbots LGPD-compliant: dados nunca saem do Brasil
RAG corporativo: documentos sensíveis ficam in-house
SaaS com IA: custo previsível por hora vs por token
Geração de conteúdo em escala: SEO, descrições, traduções
Análise de chamadas: resumo automático com voz transcrita
Code assistants internos: Copilot privado em código proprietário

Hardware recomendado

RTX 4090 (24GB): Qwen2.5-7B, LLaMA-3-8B em FP16; até 30B com AWQ
L40S / A6000 (48GB): 30-34B em FP16; 70B com quantização
A100 80GB: 70B em FP16 com folga
H100 80GB: top de linha; 405B com tensor parallelism

💰 Custo no GPUBrasil

RTX 4090 (R$ 2,50/h) servindo Qwen2.5-7B = ~10M tokens/h = R$ 0,00025 por 1k tokens. OpenAI GPT-4 mini cobra R$ 0,75/1M (~3x mais para qualidade similar).

Deploy em 1 clique

Passo 1: Iniciar template

Console → Templates → 🧠 LLM Self-hosted
Selecione vLLM
GPU recomendada: RTX 4090 ou superior
Clique em Iniciar

O template usa a imagem oficial vllm/vllm-openai:latest, baixa o modelo padrão (Qwen2.5-7B-Instruct) e expõe a API OpenAI-compatible na porta 8000.

Passo 2: Testar com curl

curl -X POST "https://sua-instancia.gpubrasil.com.br/v1/chat/completions" \
    -H "Content-Type: application/json" \
    -d '{
        "model": "Qwen/Qwen2.5-7B-Instruct",
        "messages": [
            {"role": "user", "content": "Explique RAG em 2 frases."}
        ],
        "temperature": 0.7
    }'

Passo 3: SDK OpenAI (drop-in)

from openai import OpenAI

client = OpenAI(
    base_url="https://sua-instancia.gpubrasil.com.br/v1",
    api_key="not-needed"
)

resp = client.chat.completions.create(
    model="Qwen/Qwen2.5-7B-Instruct",
    messages=[
        {"role": "system", "content": "Você é um assistente brasileiro."},
        {"role": "user", "content": "Resuma a Lei Geral de Proteção de Dados."}
    ],
    stream=True
)

for chunk in resp:
    print(chunk.choices[0].delta.content or "", end="", flush=True)

Passo 4: Trocar de modelo

Edite as variáveis de ambiente no template ou faça SSH e reinicie:

# SSH na instância
ssh -i ~/.ssh/gpubrasil.pem ubuntu@SEU_IP

# Trocar modelo
docker stop vllm
docker run -d --name vllm --gpus all -p 8000:8000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    vllm/vllm-openai:latest \
    --model meta-llama/Llama-3.1-8B-Instruct \
    --max-model-len 8192 \
    --gpu-memory-utilization 0.9

Otimizações para produção

Quantização AWQ/GPTQ

Reduza VRAM em 4x mantendo 99% da qualidade:

# LLaMA 3.1 70B em RTX 4090! (com AWQ)
--model casperhansen/llama-3-70b-instruct-awq \
--quantization awq \
--max-model-len 4096

Speculative decoding

# 2-3x mais rápido com modelo draft pequeno
--speculative_model Qwen/Qwen2.5-0.5B \
--num_speculative_tokens 5

Tensor parallelism

# 4 GPUs servindo Qwen 72B
--model Qwen/Qwen2.5-72B-Instruct \
--tensor-parallel-size 4

vLLM vs alternativas

vLLM vs HuggingFace TGI: vLLM tem throughput maior; TGI tem boa stack pronta da HF
vLLM vs Ollama: Ollama é dev/local; vLLM é produção/escala
vLLM vs OpenAI API: 5-10x mais barato, dados ficam locais, sem rate limit
vLLM vs LiteLLM: LiteLLM é proxy/router; vLLM é o motor de inferência

Function calling e structured output

from openai import OpenAI
import json

client = OpenAI(base_url="https://sua-instancia.gpubrasil.com.br/v1", api_key="x")

resp = client.chat.completions.create(
    model="Qwen/Qwen2.5-7B-Instruct",
    messages=[{"role": "user", "content": "Preço da AAPL hoje?"}],
    tools=[{
        "type": "function",
        "function": {
            "name": "get_stock_price",
            "parameters": {
                "type": "object",
                "properties": {"symbol": {"type": "string"}},
                "required": ["symbol"]
            }
        }
    }],
    tool_choice="auto"
)

print(resp.choices[0].message.tool_calls)

Sirva seu próprio LLM em 90 segundos

Ganhe R$ 25 grátis no GPUBrasil e suba vLLM com Qwen, LLaMA ou Mistral em 1 clique.

Começar Grátis →

Conclusão

vLLM é a referência mundial em servir LLMs open-source em produção. Combinado com a infra brasileira do GPUBrasil — pagamento por hora, sem CAPEX, dados em território nacional — é a alternativa óbvia para qualquer empresa querendo IA sem depender de APIs estrangeiras.

Compare: TGI da HuggingFace · LiteLLM proxy