Surya OCR: Reconhecimento de Texto em PT-BR em 1 Clique

OCR tradicional (Tesseract) é rápido mas burro: ele reconhece pixels, não entende layout. O Surya é um OCR moderno baseado em transformers que detecta blocos, tabelas, ordem de leitura e suporta 90+ idiomas incluindo português. E você sobe em 1 clique no GPUBrasil.

⚡ Resumo

Surya = OCR + detecção de texto + análise de layout + ordem de leitura, tudo em um pacote open-source com licença GPL/Comercial. Processa ~30 páginas/min em RTX A4000.

O que é o Surya?

Surya é o motor de OCR criado pela VikParuchuri (mesmo autor do Marker), composto por 4 modelos especializados:

Text detection: encontra blocos de texto em qualquer orientação
Text recognition: OCR multilíngue (90+ idiomas)
Layout analysis: classifica regiões (título, tabela, figura, equação)
Reading order: reordena blocos seguindo lógica de leitura humana

Características principais

90+ idiomas: português, inglês, espanhol, árabe, chinês, japonês, etc
Robusto: funciona com PDFs escaneados, fotos de documentos e screenshots
Layout-aware: entende colunas, tabelas e formulários
Open-source: GPL para uso aberto; licença comercial separada para SaaS
Bounding boxes: retorna coordenadas exatas de cada bloco

Casos de uso no Brasil

Digitalização de arquivos: processos físicos antigos virando dados estruturados
Notas fiscais: NFs em foto/scan viram JSON estruturado
RG, CNH, comprovantes: pipeline de KYC sem APIs caras (Iugu, idwall, Truora)
Apostilas e provas: digitalização para EAD
Cartórios: escrituras antigas viram texto pesquisável
Receitas médicas: com texto manuscrito + impresso

Hardware recomendado

RTX 3060 12GB / A4000: ideal para volume médio (30 pág/min)
RTX 4090 / A5000: alta performance (80+ pág/min)
VRAM mínima: 8GB

💰 Custo no GPUBrasil

RTX A4000 (R$ 1,80/h) processa ~1.800 páginas/hora = R$ 0,001 por página. AWS Textract cobra R$ 0,08/página. Economia de 99%.

Deploy em 1 clique

Passo 1: Iniciar template

Console → Templates → 📄 Documentos IA
Selecione Surya OCR
GPU recomendada: RTX A4000
Clique em Iniciar

O template instala dependências, baixa os 4 modelos do Surya (~2GB) e expõe a Web UI Streamlit na porta 8501.

Passo 2: Web UI

Acesse https://<sua-instancia>.gpubrasil.com.br. Faça upload de PDF ou imagem, e veja:

Texto extraído por bloco
Bounding boxes visualizados
Classificação de layout (header, table, figure)
Ordem de leitura reconstruída

Passo 3: Uso programático via Python

from surya.ocr import run_ocr
from surya.model.detection.model import load_model as load_det
from surya.model.recognition.model import load_model as load_rec
from surya.model.detection.model import load_processor as load_det_proc
from surya.model.recognition.processor import load_processor as load_rec_proc
from PIL import Image

# 1. Carregar modelos
det_model = load_det()
det_proc = load_det_proc()
rec_model = load_rec()
rec_proc = load_rec_proc()

# 2. OCR de imagem
image = Image.open("nota_fiscal.jpg")
langs = ["pt"]

predictions = run_ocr(
    [image], [langs],
    det_model, det_proc,
    rec_model, rec_proc
)

# 3. Extrair texto por bloco
for block in predictions[0].text_lines:
    print(f"[{block.bbox}] {block.text} (conf={block.confidence:.2f})")

Passo 4: Layout analysis

from surya.layout import batch_layout_detection
from surya.model.layout.model import load_model as load_layout
from surya.model.layout.processor import load_processor as load_layout_proc

layout_model = load_layout()
layout_proc = load_layout_proc()

# Detecta regiões: Title, Text, Table, Figure, etc.
layout = batch_layout_detection(
    [image], layout_model, layout_proc, [det_pred]
)

for block in layout[0].bboxes:
    print(f"{block.label}: {block.bbox}")

Surya vs alternativas

Surya vs Tesseract: Surya entende layout e tem ~5% melhor accuracy em PT-BR
Surya vs PaddleOCR: Surya tem melhor multilingual; Paddle é mais rápido em CPU
Surya vs AWS Textract / Google Vision: roda na sua infra, 1/100 do custo, dados ficam no Brasil
Surya vs Marker: Surya é o motor; Marker é o pipeline PDF→Markdown que usa Surya

Dicas de produção

Pré-processamento: deskew + denoise (OpenCV) melhora 5-10% accuracy
Idiomas: especifique só os necessários — modelo mais rápido
Batch: processe múltiplas páginas em paralelo
Pipeline: combine Surya (OCR) + LLM (extração estruturada) para NFs/contratos

Crie seu OCR profissional em minutos

Ganhe R$ 25 grátis no GPUBrasil e suba Surya OCR em 90 segundos.

Começar Grátis →

Conclusão

Surya é o melhor OCR open-source para documentos brasileiros: suporte nativo a PT-BR, entende layouts complexos e custa centavos por mil páginas no GPUBrasil. Para qualquer workflow de digitalização, KYC ou ingestão documental, é a escolha óbvia em 2026.

Próximos: Marker: PDF → Markdown · GROBID para papers acadêmicos