Você tem um corpus do seu domínio — um conjunto de artigos científicos, notas clínicas, textos jurídicos ou material em uma língua de baixos recursos — e quer um modelo de linguagem que "fale" essa linguagem específica. A boa notícia: em 2026, você não precisa de um cluster nem de um orçamento de big tech para isso. Com QLoRA, dá para adaptar um modelo aberto ao seu domínio em uma única GPU acessível, paga por hora em reais.
O QLoRA quantiza o modelo base em 4 bits e treina apenas pequenos adaptadores (LoRA), reduzindo drasticamente a memória necessária. Resultado: modelos de 7B a ~13B cabem em uma única GPU de 24GB (ex.: RTX 4090). Você paga a GPU por hora, mantém os dados no Brasil sob a LGPD e fica com o modelo nas suas mãos. Fine-tune completo de modelos gigantes ainda precisa de múltiplas GPUs.
O que é LoRA / QLoRA (sem jargão)
Treinar um LLM do zero — ou fazer um fine-tune completo ajustando todos os bilhões de parâmetros — é caro em memória e em GPU. As técnicas de fine-tuning eficiente em parâmetros (PEFT) resolvem isso de forma elegante:
- LoRA congela o modelo base e treina apenas pequenas matrizes "adaptadoras" injetadas em algumas camadas. Você ajusta uma fração mínima dos parâmetros, mas captura o comportamento do seu domínio.
- QLoRA vai além: carrega o modelo base quantizado em 4 bits (ocupando bem menos VRAM) e treina os adaptadores LoRA por cima. É o que permite caber um modelo de 7B–13B em uma GPU de 24GB.
Na prática, você não muda o "cérebro" do modelo inteiro — você ensina um conjunto enxuto de ajustes que orientam o modelo para o seu domínio. Ao final, os adaptadores ocupam só alguns megabytes.
Passo 1 — Escolha o modelo base
Comece de um modelo aberto sólido e do tamanho certo para a sua GPU:
| Família | Tamanhos úteis em 24GB (QLoRA) | Bom para |
|---|---|---|
| Llama | 8B | Uso geral, forte em inglês |
| Qwen | 7B–14B | Multilíngue, código, raciocínio |
| Mistral | 7B | Eficiente, bom custo-benefício |
Não tem certeza de qual escolher? Veja nosso comparativo de modelos open-source 2026. Para português e tarefas multilíngues, modelos da família Qwen costumam ser um ótimo ponto de partida.
Passo 2 — Prepare seu corpus
A qualidade dos dados importa mais que a quantidade. Para fine-tuning supervisionado, organize seus exemplos no formato instrução → resposta (ou diálogo). Alguns milhares de exemplos bem curados já fazem diferença visível em um domínio específico. Dicas:
- Limpe e padronize: remova ruído (cabeçalhos repetidos de PDF, lixo de OCR) antes de treinar.
- Separe um conjunto de teste: guarde 5–10% dos exemplos fora do treino para avaliar honestamente.
- Cuide do consentimento: com dados clínicos ou pessoais, garanta a base legal sob a LGPD antes de usar.
Passo 3 — Treine com PEFT em uma GPU de 24GB
No Console, suba uma GPU de 24GB (como a RTX 4090) com o template JupyterLab e instale a stack do Hugging Face. O esqueleto de QLoRA com a biblioteca PEFT é assim:
# pip install transformers peft bitsandbytes trl datasets accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from peft import LoraConfig
from trl import SFTTrainer
import torch
base = "Qwen/Qwen2.5-7B" # ou Llama, Mistral...
# 1) Carrega o modelo base quantizado em 4 bits (QLoRA)
bnb = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16,
)
model = AutoModelForCausalLM.from_pretrained(base, quantization_config=bnb, device_map="auto")
tok = AutoTokenizer.from_pretrained(base)
# 2) Define os adaptadores LoRA (treina poucos parâmetros)
lora = LoraConfig(
r=16, lora_alpha=32, lora_dropout=0.05,
target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
task_type="CAUSAL_LM",
)
# 3) Treina sobre o seu corpus
trainer = SFTTrainer(
model=model, peft_config=lora, tokenizer=tok,
train_dataset=meu_dataset, # seus exemplos do domínio
)
trainer.train()
trainer.save_model("./meu-adaptador-lora") # só os adaptadores, poucos MB
Ao final, você tem um adaptador LoRA pequeno que pode ser carregado por cima do modelo base na hora da inferência — inclusive servido com vLLM para uso em produção.
Passo 4 — Avalie de verdade
Não confie só na curva de loss. Para saber se o modelo melhorou no seu domínio:
- Teste cego: rode o modelo base e o ajustado no mesmo conjunto de teste e compare lado a lado.
- Métricas da tarefa: use a métrica que importa para você (acurácia de classificação, exatidão factual, qualidade da tradução).
- Revisão humana: em domínios sensíveis (saúde, direito), peça a um especialista para avaliar amostras.
- Cuidado com overfitting: se o modelo decora o treino mas piora no teste, reduza épocas ou o
rdo LoRA.
Custo realista (e o que uma GPU não faz)
Um experimento de QLoRA em um modelo de 7B com alguns milhares de exemplos costuma levar de poucas horas a um dia em uma GPU de 24GB. Como o pagamento é por hora em reais e por Pix, você estima o custo antes e desliga a instância ao terminar — ideal para um orçamento de pesquisa. Uma GPU de entrada como a RTX A4000 a partir de R$ 1,80/h serve para prototipar o pipeline antes de subir para a 4090. (Veja os preços atuais no console.)
QLoRA em uma única GPU de 24GB é excelente para modelos pequenos a médios (7B–13B). Para um fine-tune completo de modelos muito grandes (70B+) ou treino com contextos enormes, você vai precisar de múltiplas GPUs. Quando chegar nesse ponto, escolha a GPU certa com nosso guia de como escolher entre RTX 4090, A100, H100 e Rubin.
Seus dados (e seu modelo) ficam no Brasil
Quando você treina em GPU no Brasil, o corpus, os adaptadores e os pesos resultantes ficam no país. Você não envia notas clínicas ou textos jurídicos sensíveis a uma API estrangeira, o que ajuda na conformidade com a LGPD e mantém você dono do modelo treinado. Aprofunde-se em soberania de dados e LGPD. E se a fila do cluster da sua universidade está travando esse trabalho, veja como ter GPU sob demanda sem fila de cluster.
Adapte um modelo ao seu domínio hoje
Ganhe R$ 25 grátis e rode seu primeiro QLoRA em uma GPU brasileira.
Ganhe R$ 25 grátis →Perguntas frequentes
Dá para fazer fine-tuning de um LLM em uma única GPU?
Sim, com QLoRA. A técnica quantiza o modelo base em 4 bits e treina apenas pequenos adaptadores (LoRA), o que reduz muito o uso de memória. Assim, modelos de 7B a ~13B costumam caber em uma única GPU de 24GB, como uma RTX 4090. Um fine-tune completo de modelos muito grandes ainda exige múltiplas GPUs.
Quanto custa fazer fine-tuning de um modelo para pesquisa?
No GPUBrasil você paga a GPU por hora em reais. Um experimento de QLoRA em um modelo de 7B com alguns milhares de exemplos pode levar de poucas horas a um dia em uma GPU de 24GB. Como o pagamento é por hora e por Pix, dá para estimar o custo antes e desligar a instância ao terminar. Veja os preços atuais no console.
Meus dados de treino ficam no Brasil durante o fine-tuning?
Sim. Como o treino roda em GPU no Brasil, seu corpus (papers, notas clínicas, textos jurídicos) e os pesos do modelo permanecem no país. Isso ajuda na conformidade com a LGPD e mantém você no controle do modelo treinado, sem enviar dados sensíveis a APIs estrangeiras.
Conclusão
Adaptar um LLM ao seu domínio deixou de ser privilégio de quem tem cluster. Com QLoRA, uma GPU de 24GB e um corpus bem curado, qualquer laboratório no Brasil pode ter um modelo afinado para a sua tarefa — pagando por hora em reais, mantendo os dados no país e sendo realista sobre o que uma única GPU faz. Comece pequeno, avalie com honestidade e escale só quando precisar.
Leia também: IA para pesquisadores sem fila de cluster · Comparativo de modelos open-source 2026 · Como escolher a GPU certa