Preciso saber configurar servidor para rodar um LLM?

Não necessariamente. Os templates de 1 clique (como o vLLM) sobem o modelo e expõem um endpoint compatível com a API da OpenAI automaticamente — você conecta seu código e começa a usar.

Rode o GLM-5.2 e LLMs de ponta nas GPUs Econômicas

Com as GPUs Econômicas, as placas que rodam os modelos open-source de ponta ficaram muito mais acessíveis. Isso muda o que você consegue rodar você mesmo — com seus dados no seu controle, sem depender de uma API que pode mudar de preço ou sumir.

⚡ Resumo

Modelos como o GLM-5.2 (open-source, 1M de contexto) rodam bem em H100/H200 — agora disponíveis no tier Econômico. LLMs médios rodam em A100; versões quantizadas cabem até em RTX 4090. Você paga por hora e mantém tudo no Brasil.

O que dá para rodar agora

GLM-5.2 — o open-source de ponta com 1M de contexto: roda bem em H100/H200. Veja o detalhe completo do GLM-5.2.
DeepSeek, Qwen, Llama e outros LLMs open-weight — de A100 a H100, conforme o tamanho.
Geração de imagem/vídeo (Stable Diffusion, ComfyUI) — em RTX 4090/A6000.
Fine-tuning e RAG — do A4000 ao H100, escolhendo o custo certo.

Qual GPU para qual modelo

Modelo	GPU recomendada (Econômica)
LLMs 7B–13B (quantizados)	RTX 4090 (24 GB)
LLMs 30B–70B	A100 80GB
GLM-5.2 e modelos de ponta / contexto longo	H100 / H200
Imagem e vídeo	RTX 4090 / A6000

Como subir (vLLM em 1 clique)

A forma mais rápida é usar o template vLLM de 1 clique: você sobe uma GPU no tier Econômico, escolhe o template e recebe um endpoint compatível com a API da OpenAI. Seu código existente continua funcionando, só trocando o endpoint:

# Endpoint OpenAI-compatible apontando para o seu LLM (vLLM no GPUBrasil)
from openai import OpenAI

client = OpenAI(
    base_url="https://sua-instancia.gpubrasil.com.br/v1",
    api_key="sua-chave-local",
)

resp = client.chat.completions.create(
    model="zai-org/GLM-5.2",
    messages=[{"role": "user", "content": "Resuma este contrato em 5 tópicos."}],
)
print(resp.choices[0].message.content)

💡 Realidade de hardware

O GLM-5.2 completo (753B MoE) pede GPU de alta VRAM (classe H100/H200), sobretudo para aproveitar o contexto de 1M. Versões quantizadas reduzem bastante o custo e cabem em placas menores. Veja como escolher a GPU certa.

Privacidade: seus dados no Brasil

Por serem open-weight, esses modelos rodam na sua instância: prompts, código e documentos não saem para uma API de terceiros. Para empresas, isso significa soberania de dados e aderência à LGPD — um diferencial forte frente às APIs fechadas. Leia mais sobre soberania de dados e LGPD.

Comece com as GPUs Econômicas

Deposite a partir de R$ 100 (e ganhe até R$ 25 de bônus no 1º depósito). Suba uma GPU NVIDIA em segundos, pagando por hora.

Ver GPUs Econômicas →

Perguntas frequentes

Em que GPU o GLM-5.2 roda melhor?

Em H100/H200, por causa da alta VRAM e banda — ambas disponíveis no tier Econômico. Versões quantizadas do modelo podem rodar em placas menores, com menos contexto.

Dá para rodar LLM open-source com privacidade total?

Sim. Como os pesos são abertos, você hospeda o modelo na sua própria instância no Brasil, mantendo prompts e dados sensíveis no país (soberania de dados e LGPD).

Preciso saber configurar servidor?

Não necessariamente. Os templates de 1 clique (como o vLLM) sobem o modelo e expõem um endpoint compatível com a OpenAI automaticamente — você conecta seu código e começa a usar.