Toda API de IA cobra da mesma forma: por token. Cada palavra que entra e cada palavra que sai tem um preço. No começo isso parece barato — centavos por chamada. Mas quando o produto cresce, o pipeline de agentes roda 24/7 e você processa milhões de documentos, a conta por token vira um imposto que só aumenta. A boa notícia: existe outra forma de pagar por inferência, e em escala ela é muito mais barata.
API = custo por token (cresce linearmente, para sempre). Self-hosting = custo por hora de GPU (fixo, você satura com quanto volume quiser). Acima de um certo volume, hospedar seu próprio LLM open-source sai muito mais barato — e ainda te dá soberania de dados e zero lock-in.
Como funciona o custo por token
Nas APIs fechadas, você paga entrada (seu prompt) e saída (a resposta) separadamente. Preços de referência por milhão de tokens (sempre confirme os valores atuais de cada fornecedor):
| Modelo (referência) | Entrada / 1M tok | Saída / 1M tok |
|---|---|---|
| Modelo de fronteira (topo) | ~US$ 15 | ~US$ 75 |
| Modelo intermediário | ~US$ 3 | ~US$ 15 |
| Modelo leve | ~US$ 1 | ~US$ 5 |
O problema não é o preço unitário — é a linearidade. Dobrou o uso, dobrou a conta. Não existe economia de escala: o milionésimo token custa o mesmo que o primeiro.
Como funciona o custo por hora de GPU
Quando você hospeda um modelo open-source (GLM-5.2, Llama, Qwen, DeepSeek...) na sua própria GPU, a lógica inverte: você paga a GPU por hora, e ela processa quantos tokens couberem na capacidade dela. Uma GPU moderna servindo com vLLM e batching sustenta um throughput altíssimo — o que significa bilhões de tokens por mês por um custo fixo.
Ou seja: quanto mais tokens você empurra pela mesma instância, menor o custo efetivo por token. É o oposto do modelo de API.
A matemática: um exemplo real
Imagine um produto que processa 300M tokens de entrada + 100M de saída por mês (típico de RAG e agentes, que leem muito contexto). Vamos comparar.
Pela API (custo por token)
- Modelo intermediário: 300M × US$3 + 100M × US$15 = US$ 900 + US$ 1.500 = ~US$ 2.400/mês (≈ R$ 14.400).
- Modelo de fronteira: 300M × US$15 + 100M × US$75 = US$ 4.500 + US$ 7.500 = ~US$ 12.000/mês (≈ R$ 72.000).
Self-hosted (custo por hora)
Uma H100 dedicada rodando o modelo open-source 24/7 no GPUBrasil custa da ordem de ~R$ 11 mil/mês (cerca de 730 horas). E essa mesma H100 tem folga de sobra: com batching, ela serve muito mais que os 400M tokens do exemplo — na prática, bilhões de tokens por mês.
| Cenário (400M tok/mês) | Custo mensal | Sobra de capacidade |
|---|---|---|
| API — intermediário | ≈ R$ 14.400 | — |
| API — fronteira | ≈ R$ 72.000 | — |
| H100 self-hosted (24/7) | ≈ R$ 11.000 | Muito alta (cabe 3–5× o volume) |
No self-hosting, o custo não sobe quando você dobra o volume — até saturar a GPU. Se o seu uso crescer para 1–2 bilhões de tokens/mês, a conta da API viraria dezenas de milhares de reais, enquanto a sua H100 continua custando ~R$ 11 mil. É aí que a diferença deixa de ser boa e vira gritante.
Não precisa ser 24/7 — e nem H100
Dois ajustes deixam a conta ainda melhor para cargas menores:
- Ligue só quando usa. Como a cobrança é por hora, rode a GPU no horário comercial ou em lotes e desligue no resto. 10h/dia úteis ≈ 1/3 do custo de 24/7.
- Use a GPU certa. Modelos quantizados rodam bem em GPUs mais baratas (RTX A6000, L40). Veja como escolher a GPU certa para o seu modelo.
Quando a API ainda ganha
Sejamos honestos — self-hosting nem sempre é a resposta:
- Volume baixo ou esporádico: se você faz poucas chamadas por dia, pagar por token é mais barato que manter (ou nem isso — ligar/desligar) uma GPU.
- Picos imprevisíveis: a API escala instantaneamente sem você gerenciar nada.
- Zero MLOps: se você não quer operar infraestrutura, a API entrega simplicidade.
Por isso o padrão vencedor costuma ser híbrido: self-host o grosso do volume previsível e mande os picos ou os casos raros para uma API de fronteira, roteando com um proxy como o LiteLLM.
Bônus: você não paga só em dinheiro
Custo por token não é só R$. Self-hostando, você também ganha:
- Soberania de dados: prompts e documentos nunca saem da sua instância — crucial para LGPD.
- Sem lock-in: preço e disponibilidade são seus. Nenhum fornecedor encarece ou aposenta seu modelo do dia para a noite.
- Latência local: GPU no Brasil = menos ida e volta para servidores no exterior.
Faça as contas com a sua própria GPU
Ganhe R$ 25 grátis, suba um LLM open-source por hora e veja o custo por token despencar.
Começar Grátis →Perguntas frequentes
Quando self-hostar um LLM sai mais barato que usar uma API?
Quando o volume é alto e previsível. API cobra por token (cresce linearmente para sempre); self-hosting cobra por hora de GPU (fixo, você satura com o volume que quiser). O ponto de virada é quando a conta mensal por token superaria o custo de manter a GPU — na prática, centenas de milhões a bilhões de tokens/mês. Para volume baixo, a API tende a ganhar.
Como calcular se vale a pena trocar a API por GPU própria?
Estime seus tokens/mês e multiplique pelo preço por token da API. Compare com o custo de uma GPU pelas horas que você realmente precisa (aqui a cobrança é por hora). Se a GPU serve seu volume dentro da capacidade e custa menos que a API, vale a pena — e você ainda ganha soberania e zero lock-in.
Preciso deixar a GPU ligada 24 horas por dia?
Não. Cobrança por hora significa ligar só nas janelas de uso (horário comercial, lotes, picos) e desligar no resto. GPUs menores/quantizadas também reduzem o custo por hora.
Conclusão
A pergunta certa não é "API ou GPU própria?", e sim "qual parte do meu volume faz mais sentido em cada modelo?". Para o uso previsível e crescente — que é onde mora o custo —, trocar "por token" por "por hora de GPU" pode cortar a conta pela metade ou mais, e ainda entrega soberania de dados. Comece medindo seus tokens/mês, rode uma GPU por algumas horas e compare com a sua fatura de API. Os números costumam falar por si.
Leia também: GLM-5.2 vs Claude: o open-source que encara a Anthropic · Quanto custa rodar IA no Brasil em 2026 · Suba um LLM com vLLM em 1 clique