Como Escolher a GPU Certa: RTX 4090 vs A100 vs H100 vs Rubin

A pergunta "qual GPU eu uso?" não tem uma resposta única — tem a resposta certa para a sua carga de trabalho. Usar uma H100 para servir um modelo pequeno é desperdício; tentar treinar um modelo gigante numa RTX 4090 é frustração. Este guia casa cada tipo de tarefa com a GPU adequada, da consumer RTX 4090 à próxima geração NVIDIA Vera Rubin — e o melhor: no GPUBrasil você aluga todas por hora, sem pagar preços de importação.

⚡ Resumo

Inferência de modelos pequenos/médios e QLoRA → RTX 4090/5090. Treinamento sério → A100. Treinamento em larga escala e inferência de alto throughput → H100. Maiores modelos / maior memória → H200. O futuro (2º semestre de 2026) → NVIDIA Vera Rubin. Tudo alugável por hora em reais.

Tabela comparativa

GPU	Memória	Forte em	Quando escolher
RTX 4090	24GB GDDR6X	Custo-benefício, inferência, QLoRA, gaming/streaming	Modelos pequenos/médios e fine-tuning leve
RTX 5090	32GB GDDR7	Flagship consumer mais novo	Mais folga que a 4090 sem ir a data center
A100	40/80GB HBM2e	Treinamento, NVLink	Cavalo de batalha para treinar
H100	80GB HBM3	Treinamento em larga escala, alto throughput	Produção pesada de inferência/treino
H200	141GB HBM3e	Maior memória atual	Os maiores modelos numa única GPU
NVIDIA Vera Rubin	Próx. geração	~5x inferência do Blackwell	Quando chegar (2º sem. 2026)

Framework de decisão: "se você faz X, escolha Y"

RTX 4090 — o coringa de custo-benefício

Com 24GB de GDDR6X, a RTX 4090 é a escolha mais inteligente para inferência de modelos pequenos e médios, fine-tuning QLoRA e cargas mistas de desenvolvimento. Também é excelente para gaming e streaming na nuvem. Se você está prototipando ou servindo um modelo até a casa das dezenas de bilhões de parâmetros quantizado, ela costuma resolver com folga.

RTX 5090 — o flagship consumer mais novo

A RTX 5090 é a geração consumer seguinte, com mais memória e desempenho que a 4090. Boa quando você quer um pouco mais de folga sem migrar para uma GPU de data center.

A100 — o cavalo de batalha do treinamento

A A100 (40 ou 80GB, com NVLink) é a referência para treinamento. O NVLink permite combinar várias GPUs com largura de banda alta, essencial para distribuir treino de modelos maiores.

H100 — larga escala e alto throughput

A H100 (80GB HBM3) é o passo acima: treinamento em larga escala e inferência de alto throughput. Quando você precisa servir muitas requisições por segundo ou treinar sério, é ela.

H200 — a maior memória atual

Com 141GB de HBM3e, a H200 é a opção atual de maior memória, ideal para acomodar os maiores modelos numa única GPU sem fragmentar entre placas.

NVIDIA Vera Rubin — a próxima fronteira

A plataforma NVIDIA Vera Rubin é a aposta de 2026: a GPU Rubin R100 (cerca de 336 bilhões de transistores) combinada com a CPU Vera, prometendo cerca de 5x o desempenho de inferência do Blackwell. A disponibilidade em nuvem é esperada para o segundo semestre de 2026.

💡 Você não precisa comprar

Comprar qualquer uma dessas placas no Brasil envolve impostos de importação altíssimos (veja quanto custa rodar IA no Brasil). No GPUBrasil você aluga por hora em reais via Pix — começando pela RTX A4000 a partir de R$ 1,80/h. Para as demais, veja os preços atuais no console.

Erros comuns ao escolher

Superdimensionar: pagar por uma H100 para servir um modelo que cabe numa 4090.
Subdimensionar: tentar treinar ou rodar um modelo grande numa GPU sem memória suficiente — resulta em OOM ou quantização agressiva demais.
Ignorar a memória: o limitante mais comum não é o poder de cálculo, e sim a VRAM. Verifique o tamanho do modelo + KV cache antes de escolher.

Teste a GPU certa antes de se comprometer

Ganhe R$ 25 grátis e alugue por hora desde a RTX A4000 (a partir de R$ 1,80/h) até as GPUs de data center.

Ganhe R$ 25 grátis →

Perguntas frequentes

Qual GPU usar para inferência de modelos pequenos e médios?

Para inferência de modelos pequenos e médios e fine-tuning leve (QLoRA), a RTX 4090 (24GB GDDR6X) tem excelente custo-benefício. A RTX 5090, mais nova, é a opção topo de linha consumer. Para começar barato, a RTX A4000 sai a partir de R$ 1,80/h no GPUBrasil. Todas são alugáveis por hora em reais.

Qual a diferença entre A100, H100 e H200?

A A100 (40/80GB, NVLink) é o cavalo de batalha para treinamento. A H100 (80GB HBM3) entrega treinamento em larga escala e inferência de alto throughput. A H200 (141GB HBM3e) é a opção atual com maior memória, ideal para os maiores modelos. A escolha depende do tamanho do modelo e do throughput desejado.

O que é a plataforma NVIDIA Vera Rubin?

Vera Rubin é a plataforma de próxima geração da NVIDIA para 2026: a GPU Rubin R100 (cerca de 336 bilhões de transistores) combinada com a CPU Vera, prometendo cerca de 5x o desempenho de inferência do Blackwell. A disponibilidade em nuvem é esperada para o segundo semestre de 2026.

Conclusão

Escolher GPU é casar memória e throughput com a sua carga real. Comece pelo tamanho do modelo, depois pelo throughput, e só então pense em poder bruto. E como no GPUBrasil tudo é alugável por hora em reais, você pode testar a GPU antes de se comprometer — sem pagar preços brasileiros de importação por hardware que talvez não fosse o ideal.