OCR tradicional (Tesseract) é rápido mas burro: ele reconhece pixels, não entende layout. O Surya é um OCR moderno baseado em transformers que detecta blocos, tabelas, ordem de leitura e suporta 90+ idiomas incluindo português. E você sobe em 1 clique no GPUBrasil.
Surya = OCR + detecção de texto + análise de layout + ordem de leitura, tudo em um pacote open-source com licença GPL/Comercial. Processa ~30 páginas/min em RTX A4000.
O que é o Surya?
Surya é o motor de OCR criado pela VikParuchuri (mesmo autor do Marker), composto por 4 modelos especializados:
- Text detection: encontra blocos de texto em qualquer orientação
- Text recognition: OCR multilíngue (90+ idiomas)
- Layout analysis: classifica regiões (título, tabela, figura, equação)
- Reading order: reordena blocos seguindo lógica de leitura humana
Características principais
- 90+ idiomas: português, inglês, espanhol, árabe, chinês, japonês, etc
- Robusto: funciona com PDFs escaneados, fotos de documentos e screenshots
- Layout-aware: entende colunas, tabelas e formulários
- Open-source: GPL para uso aberto; licença comercial separada para SaaS
- Bounding boxes: retorna coordenadas exatas de cada bloco
Casos de uso no Brasil
- Digitalização de arquivos: processos físicos antigos virando dados estruturados
- Notas fiscais: NFs em foto/scan viram JSON estruturado
- RG, CNH, comprovantes: pipeline de KYC sem APIs caras (Iugu, idwall, Truora)
- Apostilas e provas: digitalização para EAD
- Cartórios: escrituras antigas viram texto pesquisável
- Receitas médicas: com texto manuscrito + impresso
Hardware recomendado
- RTX 3060 12GB / A4000: ideal para volume médio (30 pág/min)
- RTX 4090 / A5000: alta performance (80+ pág/min)
- VRAM mínima: 8GB
RTX A4000 (R$ 1,80/h) processa ~1.800 páginas/hora = R$ 0,001 por página. AWS Textract cobra R$ 0,08/página. Economia de 99%.
Deploy em 1 clique
Passo 1: Iniciar template
- Console → Templates → 📄 Documentos IA
- Selecione Surya OCR
- GPU recomendada: RTX A4000
- Clique em Iniciar
O template instala dependências, baixa os 4 modelos do Surya (~2GB) e expõe a Web UI Streamlit na porta 8501.
Passo 2: Web UI
Acesse https://<sua-instancia>.gpubrasil.com.br. Faça upload de PDF ou imagem, e veja:
- Texto extraído por bloco
- Bounding boxes visualizados
- Classificação de layout (header, table, figure)
- Ordem de leitura reconstruída
Passo 3: Uso programático via Python
from surya.ocr import run_ocr
from surya.model.detection.model import load_model as load_det
from surya.model.recognition.model import load_model as load_rec
from surya.model.detection.model import load_processor as load_det_proc
from surya.model.recognition.processor import load_processor as load_rec_proc
from PIL import Image
# 1. Carregar modelos
det_model = load_det()
det_proc = load_det_proc()
rec_model = load_rec()
rec_proc = load_rec_proc()
# 2. OCR de imagem
image = Image.open("nota_fiscal.jpg")
langs = ["pt"]
predictions = run_ocr(
[image], [langs],
det_model, det_proc,
rec_model, rec_proc
)
# 3. Extrair texto por bloco
for block in predictions[0].text_lines:
print(f"[{block.bbox}] {block.text} (conf={block.confidence:.2f})")
Passo 4: Layout analysis
from surya.layout import batch_layout_detection
from surya.model.layout.model import load_model as load_layout
from surya.model.layout.processor import load_processor as load_layout_proc
layout_model = load_layout()
layout_proc = load_layout_proc()
# Detecta regiões: Title, Text, Table, Figure, etc.
layout = batch_layout_detection(
[image], layout_model, layout_proc, [det_pred]
)
for block in layout[0].bboxes:
print(f"{block.label}: {block.bbox}")
Surya vs alternativas
- Surya vs Tesseract: Surya entende layout e tem ~5% melhor accuracy em PT-BR
- Surya vs PaddleOCR: Surya tem melhor multilingual; Paddle é mais rápido em CPU
- Surya vs AWS Textract / Google Vision: roda na sua infra, 1/100 do custo, dados ficam no Brasil
- Surya vs Marker: Surya é o motor; Marker é o pipeline PDF→Markdown que usa Surya
Dicas de produção
- Pré-processamento: deskew + denoise (OpenCV) melhora 5-10% accuracy
- Idiomas: especifique só os necessários — modelo mais rápido
- Batch: processe múltiplas páginas em paralelo
- Pipeline: combine Surya (OCR) + LLM (extração estruturada) para NFs/contratos
Crie seu OCR profissional em minutos
Ganhe R$ 25 grátis no GPUBrasil e suba Surya OCR em 90 segundos.
Começar Grátis →Conclusão
Surya é o melhor OCR open-source para documentos brasileiros: suporte nativo a PT-BR, entende layouts complexos e custa centavos por mil páginas no GPUBrasil. Para qualquer workflow de digitalização, KYC ou ingestão documental, é a escolha óbvia em 2026.
Próximos: Marker: PDF → Markdown · GROBID para papers acadêmicos