A pergunta "qual GPU eu uso?" não tem uma resposta única — tem a resposta certa para a sua carga de trabalho. Usar uma H100 para servir um modelo pequeno é desperdício; tentar treinar um modelo gigante numa RTX 4090 é frustração. Este guia casa cada tipo de tarefa com a GPU adequada, da consumer RTX 4090 à próxima geração NVIDIA Vera Rubin — e o melhor: no GPUBrasil você aluga todas por hora, sem pagar preços de importação.
Inferência de modelos pequenos/médios e QLoRA → RTX 4090/5090. Treinamento sério → A100. Treinamento em larga escala e inferência de alto throughput → H100. Maiores modelos / maior memória → H200. O futuro (2º semestre de 2026) → NVIDIA Vera Rubin. Tudo alugável por hora em reais.
Tabela comparativa
| GPU | Memória | Forte em | Quando escolher |
|---|---|---|---|
| RTX 4090 | 24GB GDDR6X | Custo-benefício, inferência, QLoRA, gaming/streaming | Modelos pequenos/médios e fine-tuning leve |
| RTX 5090 | 32GB GDDR7 | Flagship consumer mais novo | Mais folga que a 4090 sem ir a data center |
| A100 | 40/80GB HBM2e | Treinamento, NVLink | Cavalo de batalha para treinar |
| H100 | 80GB HBM3 | Treinamento em larga escala, alto throughput | Produção pesada de inferência/treino |
| H200 | 141GB HBM3e | Maior memória atual | Os maiores modelos numa única GPU |
| NVIDIA Vera Rubin | Próx. geração | ~5x inferência do Blackwell | Quando chegar (2º sem. 2026) |
Framework de decisão: "se você faz X, escolha Y"
RTX 4090 — o coringa de custo-benefício
Com 24GB de GDDR6X, a RTX 4090 é a escolha mais inteligente para inferência de modelos pequenos e médios, fine-tuning QLoRA e cargas mistas de desenvolvimento. Também é excelente para gaming e streaming na nuvem. Se você está prototipando ou servindo um modelo até a casa das dezenas de bilhões de parâmetros quantizado, ela costuma resolver com folga.
RTX 5090 — o flagship consumer mais novo
A RTX 5090 é a geração consumer seguinte, com mais memória e desempenho que a 4090. Boa quando você quer um pouco mais de folga sem migrar para uma GPU de data center.
A100 — o cavalo de batalha do treinamento
A A100 (40 ou 80GB, com NVLink) é a referência para treinamento. O NVLink permite combinar várias GPUs com largura de banda alta, essencial para distribuir treino de modelos maiores.
H100 — larga escala e alto throughput
A H100 (80GB HBM3) é o passo acima: treinamento em larga escala e inferência de alto throughput. Quando você precisa servir muitas requisições por segundo ou treinar sério, é ela.
H200 — a maior memória atual
Com 141GB de HBM3e, a H200 é a opção atual de maior memória, ideal para acomodar os maiores modelos numa única GPU sem fragmentar entre placas.
NVIDIA Vera Rubin — a próxima fronteira
A plataforma NVIDIA Vera Rubin é a aposta de 2026: a GPU Rubin R100 (cerca de 336 bilhões de transistores) combinada com a CPU Vera, prometendo cerca de 5x o desempenho de inferência do Blackwell. A disponibilidade em nuvem é esperada para o segundo semestre de 2026.
Comprar qualquer uma dessas placas no Brasil envolve impostos de importação altíssimos (veja quanto custa rodar IA no Brasil). No GPUBrasil você aluga por hora em reais via Pix — começando pela RTX A4000 a partir de R$ 1,80/h. Para as demais, veja os preços atuais no console.
Erros comuns ao escolher
- Superdimensionar: pagar por uma H100 para servir um modelo que cabe numa 4090.
- Subdimensionar: tentar treinar ou rodar um modelo grande numa GPU sem memória suficiente — resulta em OOM ou quantização agressiva demais.
- Ignorar a memória: o limitante mais comum não é o poder de cálculo, e sim a VRAM. Verifique o tamanho do modelo + KV cache antes de escolher.
Teste a GPU certa antes de se comprometer
Ganhe R$ 25 grátis e alugue por hora desde a RTX A4000 (a partir de R$ 1,80/h) até as GPUs de data center.
Ganhe R$ 25 grátis →Perguntas frequentes
Qual GPU usar para inferência de modelos pequenos e médios?
Para inferência de modelos pequenos e médios e fine-tuning leve (QLoRA), a RTX 4090 (24GB GDDR6X) tem excelente custo-benefício. A RTX 5090, mais nova, é a opção topo de linha consumer. Para começar barato, a RTX A4000 sai a partir de R$ 1,80/h no GPUBrasil. Todas são alugáveis por hora em reais.
Qual a diferença entre A100, H100 e H200?
A A100 (40/80GB, NVLink) é o cavalo de batalha para treinamento. A H100 (80GB HBM3) entrega treinamento em larga escala e inferência de alto throughput. A H200 (141GB HBM3e) é a opção atual com maior memória, ideal para os maiores modelos. A escolha depende do tamanho do modelo e do throughput desejado.
O que é a plataforma NVIDIA Vera Rubin?
Vera Rubin é a plataforma de próxima geração da NVIDIA para 2026: a GPU Rubin R100 (cerca de 336 bilhões de transistores) combinada com a CPU Vera, prometendo cerca de 5x o desempenho de inferência do Blackwell. A disponibilidade em nuvem é esperada para o segundo semestre de 2026.
Conclusão
Escolher GPU é casar memória e throughput com a sua carga real. Comece pelo tamanho do modelo, depois pelo throughput, e só então pense em poder bruto. E como no GPUBrasil tudo é alugável por hora em reais, você pode testar a GPU antes de se comprometer — sem pagar preços brasileiros de importação por hardware que talvez não fosse o ideal.
Leia também: NVIDIA Vera Rubin explicada · Comparativo de LLMs open-source 2026 · Quanto custa rodar IA no Brasil