Toda API de IA cobra da mesma forma: por token. Cada palavra que entra e cada palavra que sai tem um preço. No começo isso parece barato — centavos por chamada. Mas quando o produto cresce, o pipeline de agentes roda 24/7 e você processa milhões de documentos, a conta por token vira um imposto que só aumenta. A boa notícia: existe outra forma de pagar por inferência, e em escala ela é muito mais barata.

⚡ Resumo

API = custo por token (cresce linearmente, para sempre). Self-hosting = custo por hora de GPU (fixo, você satura com quanto volume quiser). Acima de um certo volume, hospedar seu próprio LLM open-source sai muito mais barato — e ainda te dá soberania de dados e zero lock-in.

Como funciona o custo por token

Nas APIs fechadas, você paga entrada (seu prompt) e saída (a resposta) separadamente. Preços de referência por milhão de tokens (sempre confirme os valores atuais de cada fornecedor):

Modelo (referência)Entrada / 1M tokSaída / 1M tok
Modelo de fronteira (topo)~US$ 15~US$ 75
Modelo intermediário~US$ 3~US$ 15
Modelo leve~US$ 1~US$ 5

O problema não é o preço unitário — é a linearidade. Dobrou o uso, dobrou a conta. Não existe economia de escala: o milionésimo token custa o mesmo que o primeiro.

Como funciona o custo por hora de GPU

Quando você hospeda um modelo open-source (GLM-5.2, Llama, Qwen, DeepSeek...) na sua própria GPU, a lógica inverte: você paga a GPU por hora, e ela processa quantos tokens couberem na capacidade dela. Uma GPU moderna servindo com vLLM e batching sustenta um throughput altíssimo — o que significa bilhões de tokens por mês por um custo fixo.

Ou seja: quanto mais tokens você empurra pela mesma instância, menor o custo efetivo por token. É o oposto do modelo de API.

A matemática: um exemplo real

Imagine um produto que processa 300M tokens de entrada + 100M de saída por mês (típico de RAG e agentes, que leem muito contexto). Vamos comparar.

Pela API (custo por token)

Self-hosted (custo por hora)

Uma H100 dedicada rodando o modelo open-source 24/7 no GPUBrasil custa da ordem de ~R$ 11 mil/mês (cerca de 730 horas). E essa mesma H100 tem folga de sobra: com batching, ela serve muito mais que os 400M tokens do exemplo — na prática, bilhões de tokens por mês.

Cenário (400M tok/mês)Custo mensalSobra de capacidade
API — intermediário≈ R$ 14.400
API — fronteira≈ R$ 72.000
H100 self-hosted (24/7)≈ R$ 11.000Muito alta (cabe 3–5× o volume)
💡 O pulo do gato

No self-hosting, o custo não sobe quando você dobra o volume — até saturar a GPU. Se o seu uso crescer para 1–2 bilhões de tokens/mês, a conta da API viraria dezenas de milhares de reais, enquanto a sua H100 continua custando ~R$ 11 mil. É aí que a diferença deixa de ser boa e vira gritante.

Não precisa ser 24/7 — e nem H100

Dois ajustes deixam a conta ainda melhor para cargas menores:

Quando a API ainda ganha

Sejamos honestos — self-hosting nem sempre é a resposta:

Por isso o padrão vencedor costuma ser híbrido: self-host o grosso do volume previsível e mande os picos ou os casos raros para uma API de fronteira, roteando com um proxy como o LiteLLM.

Bônus: você não paga só em dinheiro

Custo por token não é só R$. Self-hostando, você também ganha:

Faça as contas com a sua própria GPU

Ganhe R$ 25 grátis, suba um LLM open-source por hora e veja o custo por token despencar.

Começar Grátis →

Perguntas frequentes

Quando self-hostar um LLM sai mais barato que usar uma API?

Quando o volume é alto e previsível. API cobra por token (cresce linearmente para sempre); self-hosting cobra por hora de GPU (fixo, você satura com o volume que quiser). O ponto de virada é quando a conta mensal por token superaria o custo de manter a GPU — na prática, centenas de milhões a bilhões de tokens/mês. Para volume baixo, a API tende a ganhar.

Como calcular se vale a pena trocar a API por GPU própria?

Estime seus tokens/mês e multiplique pelo preço por token da API. Compare com o custo de uma GPU pelas horas que você realmente precisa (aqui a cobrança é por hora). Se a GPU serve seu volume dentro da capacidade e custa menos que a API, vale a pena — e você ainda ganha soberania e zero lock-in.

Preciso deixar a GPU ligada 24 horas por dia?

Não. Cobrança por hora significa ligar só nas janelas de uso (horário comercial, lotes, picos) e desligar no resto. GPUs menores/quantizadas também reduzem o custo por hora.

Conclusão

A pergunta certa não é "API ou GPU própria?", e sim "qual parte do meu volume faz mais sentido em cada modelo?". Para o uso previsível e crescente — que é onde mora o custo —, trocar "por token" por "por hora de GPU" pode cortar a conta pela metade ou mais, e ainda entrega soberania de dados. Comece medindo seus tokens/mês, rode uma GPU por algumas horas e compare com a sua fatura de API. Os números costumam falar por si.

Leia também: GLM-5.2 vs Claude: o open-source que encara a Anthropic · Quanto custa rodar IA no Brasil em 2026 · Suba um LLM com vLLM em 1 clique