A Economia dos Tokens: Self-Hosting Reduz Custos de IA

Q: Quando self-hostar um LLM sai mais barato que usar uma API?

Quando o volume de tokens é alto e previsível. APIs cobram por token (custo que cresce linearmente para sempre); self-hosting cobra por hora de GPU (custo fixo que você satura com quanto volume quiser). O ponto de virada acontece quando a conta mensal por token superaria o custo de manter uma GPU rodando — na prática, cargas com centenas de milhões a bilhões de tokens por mês. Para volume baixo ou esporádico, a API costuma ser mais barata.

Q: Como calcular se vale a pena trocar a API por GPU própria?

Estime seus tokens/mês, multiplique pelo preço por token da API para obter o custo mensal. Depois compare com o custo de uma GPU pelas horas que você realmente precisa (no GPUBrasil, cobrança por hora). Se a GPU serve seu volume dentro da capacidade dela e custa menos que a conta da API, self-hostar vale a pena — e ainda ganha soberania de dados e nenhum lock-in.

Q: Preciso deixar a GPU ligada 24 horas por dia?

Não. Como a cobrança é por hora, você liga a GPU só nas janelas de uso (horário comercial, lotes de processamento, picos) e desliga no resto. Para cargas variáveis, isso reduz muito o custo fixo. GPUs menores/quantizadas também baixam o custo por hora.

Toda API de IA cobra da mesma forma: por token. Cada palavra que entra e cada palavra que sai tem um preço. No começo isso parece barato — centavos por chamada. Mas quando o produto cresce, o pipeline de agentes roda 24/7 e você processa milhões de documentos, a conta por token vira um imposto que só aumenta. A boa notícia: existe outra forma de pagar por inferência, e em escala ela é muito mais barata.

⚡ Resumo

API = custo por token (cresce linearmente, para sempre). Self-hosting = custo por hora de GPU (fixo, você satura com quanto volume quiser). Acima de um certo volume, hospedar seu próprio LLM open-source sai muito mais barato — e ainda te dá soberania de dados e zero lock-in.

Como funciona o custo por token

Nas APIs fechadas, você paga entrada (seu prompt) e saída (a resposta) separadamente. Preços de referência por milhão de tokens (sempre confirme os valores atuais de cada fornecedor):

Modelo (referência)	Entrada / 1M tok	Saída / 1M tok
Modelo de fronteira (topo)	~US$ 15	~US$ 75
Modelo intermediário	~US$ 3	~US$ 15
Modelo leve	~US$ 1	~US$ 5

O problema não é o preço unitário — é a linearidade. Dobrou o uso, dobrou a conta. Não existe economia de escala: o milionésimo token custa o mesmo que o primeiro.

Como funciona o custo por hora de GPU

Quando você hospeda um modelo open-source (GLM-5.2, Llama, Qwen, DeepSeek...) na sua própria GPU, a lógica inverte: você paga a GPU por hora, e ela processa quantos tokens couberem na capacidade dela. Uma GPU moderna servindo com vLLM e batching sustenta um throughput altíssimo — o que significa bilhões de tokens por mês por um custo fixo.

Ou seja: quanto mais tokens você empurra pela mesma instância, menor o custo efetivo por token. É o oposto do modelo de API.

A matemática: um exemplo real

Imagine um produto que processa 300M tokens de entrada + 100M de saída por mês (típico de RAG e agentes, que leem muito contexto). Vamos comparar.

Pela API (custo por token)

Modelo intermediário: 300M × US$3 + 100M × US$15 = US$ 900 + US$ 1.500 = ~US$ 2.400/mês (≈ R$ 14.400).
Modelo de fronteira: 300M × US$15 + 100M × US$75 = US$ 4.500 + US$ 7.500 = ~US$ 12.000/mês (≈ R$ 72.000).

Self-hosted (custo por hora)

Uma H100 dedicada rodando o modelo open-source 24/7 no GPUBrasil custa da ordem de ~R$ 11 mil/mês (cerca de 730 horas). E essa mesma H100 tem folga de sobra: com batching, ela serve muito mais que os 400M tokens do exemplo — na prática, bilhões de tokens por mês.

Cenário (400M tok/mês)	Custo mensal	Sobra de capacidade
API — intermediário	≈ R$ 14.400	—
API — fronteira	≈ R$ 72.000	—
H100 self-hosted (24/7)	≈ R$ 11.000	Muito alta (cabe 3–5× o volume)

💡 O pulo do gato

No self-hosting, o custo não sobe quando você dobra o volume — até saturar a GPU. Se o seu uso crescer para 1–2 bilhões de tokens/mês, a conta da API viraria dezenas de milhares de reais, enquanto a sua H100 continua custando ~R$ 11 mil. É aí que a diferença deixa de ser boa e vira gritante.

Não precisa ser 24/7 — e nem H100

Dois ajustes deixam a conta ainda melhor para cargas menores:

Ligue só quando usa. Como a cobrança é por hora, rode a GPU no horário comercial ou em lotes e desligue no resto. 10h/dia úteis ≈ 1/3 do custo de 24/7.
Use a GPU certa. Modelos quantizados rodam bem em GPUs mais baratas (RTX A6000, L40). Veja como escolher a GPU certa para o seu modelo.

Quando a API ainda ganha

Sejamos honestos — self-hosting nem sempre é a resposta:

Volume baixo ou esporádico: se você faz poucas chamadas por dia, pagar por token é mais barato que manter (ou nem isso — ligar/desligar) uma GPU.
Picos imprevisíveis: a API escala instantaneamente sem você gerenciar nada.
Zero MLOps: se você não quer operar infraestrutura, a API entrega simplicidade.

Por isso o padrão vencedor costuma ser híbrido: self-host o grosso do volume previsível e mande os picos ou os casos raros para uma API de fronteira, roteando com um proxy como o LiteLLM.

Bônus: você não paga só em dinheiro

Custo por token não é só R$. Self-hostando, você também ganha:

Soberania de dados: prompts e documentos nunca saem da sua instância — crucial para LGPD.
Sem lock-in: preço e disponibilidade são seus. Nenhum fornecedor encarece ou aposenta seu modelo do dia para a noite.
Latência local: GPU no Brasil = menos ida e volta para servidores no exterior.

Faça as contas com a sua própria GPU

Ganhe R$ 25 grátis, suba um LLM open-source por hora e veja o custo por token despencar.

Começar Grátis →

Perguntas frequentes

Quando self-hostar um LLM sai mais barato que usar uma API?

Quando o volume é alto e previsível. API cobra por token (cresce linearmente para sempre); self-hosting cobra por hora de GPU (fixo, você satura com o volume que quiser). O ponto de virada é quando a conta mensal por token superaria o custo de manter a GPU — na prática, centenas de milhões a bilhões de tokens/mês. Para volume baixo, a API tende a ganhar.

Como calcular se vale a pena trocar a API por GPU própria?

Estime seus tokens/mês e multiplique pelo preço por token da API. Compare com o custo de uma GPU pelas horas que você realmente precisa (aqui a cobrança é por hora). Se a GPU serve seu volume dentro da capacidade e custa menos que a API, vale a pena — e você ainda ganha soberania e zero lock-in.

Preciso deixar a GPU ligada 24 horas por dia?

Não. Cobrança por hora significa ligar só nas janelas de uso (horário comercial, lotes, picos) e desligar no resto. GPUs menores/quantizadas também reduzem o custo por hora.

Conclusão

A pergunta certa não é "API ou GPU própria?", e sim "qual parte do meu volume faz mais sentido em cada modelo?". Para o uso previsível e crescente — que é onde mora o custo —, trocar "por token" por "por hora de GPU" pode cortar a conta pela metade ou mais, e ainda entrega soberania de dados. Comece medindo seus tokens/mês, rode uma GPU por algumas horas e compare com a sua fatura de API. Os números costumam falar por si.