Quer rodar LLaMA 3.3, Qwen 2.5 ou Mistral em produção com API compatível com OpenAI? vLLM é o servidor de inferência open-source mais usado no mundo, com PagedAttention para 5-10x mais throughput que Hugging Face Transformers padrão. No GPUBrasil, deploy em 1 clique.
vLLM serve LLMs com throughput de até 3000+ tokens/segundo em H100. API totalmente compatível com OpenAI — troque a base_url e seu código continua funcionando.
O que é o vLLM?
vLLM é um servidor de inferência criado em UC Berkeley que introduziu o algoritmo PagedAttention — analogamente ao paginamento de memória virtual em sistemas operacionais, mas para o KV cache de attention. Resultado: aproveitamento de VRAM 24x melhor que implementações ingênuas.
Características principais
- API OpenAI-compatible: drop-in para clientes que usam o SDK
openai - Continuous batching: agrupa requisições dinamicamente
- Quantização: AWQ, GPTQ, FP8 — modelos grandes em GPUs menores
- Tensor parallelism: divida modelo em múltiplas GPUs (LLaMA 3.1 405B em 8x H100)
- Speculative decoding: 2-3x mais rápido em geração
- Function calling: structured output e tool use
- Modelos suportados: LLaMA, Qwen, Mistral, Gemma, Phi, DeepSeek, Mixtral, e dezenas mais
Casos de uso brasileiros
- Chatbots LGPD-compliant: dados nunca saem do Brasil
- RAG corporativo: documentos sensíveis ficam in-house
- SaaS com IA: custo previsível por hora vs por token
- Geração de conteúdo em escala: SEO, descrições, traduções
- Análise de chamadas: resumo automático com voz transcrita
- Code assistants internos: Copilot privado em código proprietário
Hardware recomendado
- RTX 4090 (24GB): Qwen2.5-7B, LLaMA-3-8B em FP16; até 30B com AWQ
- L40S / A6000 (48GB): 30-34B em FP16; 70B com quantização
- A100 80GB: 70B em FP16 com folga
- H100 80GB: top de linha; 405B com tensor parallelism
RTX 4090 (R$ 2,50/h) servindo Qwen2.5-7B = ~10M tokens/h = R$ 0,00025 por 1k tokens. OpenAI GPT-4 mini cobra R$ 0,75/1M (~3x mais para qualidade similar).
Deploy em 1 clique
Passo 1: Iniciar template
- Console → Templates → 🧠 LLM Self-hosted
- Selecione vLLM
- GPU recomendada: RTX 4090 ou superior
- Clique em Iniciar
O template usa a imagem oficial vllm/vllm-openai:latest, baixa o modelo padrão (Qwen2.5-7B-Instruct) e expõe a API OpenAI-compatible na porta 8000.
Passo 2: Testar com curl
curl -X POST "https://sua-instancia.gpubrasil.com.br/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen2.5-7B-Instruct",
"messages": [
{"role": "user", "content": "Explique RAG em 2 frases."}
],
"temperature": 0.7
}'
Passo 3: SDK OpenAI (drop-in)
from openai import OpenAI
client = OpenAI(
base_url="https://sua-instancia.gpubrasil.com.br/v1",
api_key="not-needed"
)
resp = client.chat.completions.create(
model="Qwen/Qwen2.5-7B-Instruct",
messages=[
{"role": "system", "content": "Você é um assistente brasileiro."},
{"role": "user", "content": "Resuma a Lei Geral de Proteção de Dados."}
],
stream=True
)
for chunk in resp:
print(chunk.choices[0].delta.content or "", end="", flush=True)
Passo 4: Trocar de modelo
Edite as variáveis de ambiente no template ou faça SSH e reinicie:
# SSH na instância
ssh -i ~/.ssh/gpubrasil.pem ubuntu@SEU_IP
# Trocar modelo
docker stop vllm
docker run -d --name vllm --gpus all -p 8000:8000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
vllm/vllm-openai:latest \
--model meta-llama/Llama-3.1-8B-Instruct \
--max-model-len 8192 \
--gpu-memory-utilization 0.9
Otimizações para produção
Quantização AWQ/GPTQ
Reduza VRAM em 4x mantendo 99% da qualidade:
# LLaMA 3.1 70B em RTX 4090! (com AWQ)
--model casperhansen/llama-3-70b-instruct-awq \
--quantization awq \
--max-model-len 4096
Speculative decoding
# 2-3x mais rápido com modelo draft pequeno
--speculative_model Qwen/Qwen2.5-0.5B \
--num_speculative_tokens 5
Tensor parallelism
# 4 GPUs servindo Qwen 72B
--model Qwen/Qwen2.5-72B-Instruct \
--tensor-parallel-size 4
vLLM vs alternativas
- vLLM vs HuggingFace TGI: vLLM tem throughput maior; TGI tem boa stack pronta da HF
- vLLM vs Ollama: Ollama é dev/local; vLLM é produção/escala
- vLLM vs OpenAI API: 5-10x mais barato, dados ficam locais, sem rate limit
- vLLM vs LiteLLM: LiteLLM é proxy/router; vLLM é o motor de inferência
Function calling e structured output
from openai import OpenAI
import json
client = OpenAI(base_url="https://sua-instancia.gpubrasil.com.br/v1", api_key="x")
resp = client.chat.completions.create(
model="Qwen/Qwen2.5-7B-Instruct",
messages=[{"role": "user", "content": "Preço da AAPL hoje?"}],
tools=[{
"type": "function",
"function": {
"name": "get_stock_price",
"parameters": {
"type": "object",
"properties": {"symbol": {"type": "string"}},
"required": ["symbol"]
}
}
}],
tool_choice="auto"
)
print(resp.choices[0].message.tool_calls)
Sirva seu próprio LLM em 90 segundos
Ganhe R$ 25 grátis no GPUBrasil e suba vLLM com Qwen, LLaMA ou Mistral em 1 clique.
Começar Grátis →Conclusão
vLLM é a referência mundial em servir LLMs open-source em produção. Combinado com a infra brasileira do GPUBrasil — pagamento por hora, sem CAPEX, dados em território nacional — é a alternativa óbvia para qualquer empresa querendo IA sem depender de APIs estrangeiras.
Compare: TGI da HuggingFace · LiteLLM proxy