HANE extrai entidades estruturadas de acórdãos, contratos, manuais ERP e documentos fiscais — entregando até 86% menos tokens ao seu LLM. Seus documentos nunca saem do seu ambiente.
PyMuPDF 1.27.2 · AdaptiveHANEPipeline v1.5.1 · CPU · ambiente isolado
O HANE se adapta ao vocabulário de cada segmento — on-premise, sem dados externos, sem retreinamento. Troque o domínio editando um arquivo YAML.
Processe acórdãos, sentenças e editais com velocidade e sigilo processual total. On-premise em GCT — zero transferência externa.
Analise contratos, petições e jurisprudência em volume — extraindo partes, prazos, valores e cláusulas de risco de forma estruturada.
Extraia entidades de manuais TOTVS, SPEDs, NF-e e ADVPL — acelerando implantações, auditorias fiscais e suporte técnico.
Indexe repositórios, analise impacto de mudanças e construa bases de conhecimento técnico — sem enviar o código inteiro ao LLM.
hane-code indexCartórios de Registro de Imóveis, Notas, Títulos e Documentos e Civil processam volumes massivos de documentos repetitivos — escrituras, certidões, procurações e contratos. O HANE extrai partes, objetos, valores e qualificações automaticamente.
† Medido sobre 63 acórdãos TJ-GO reais em PDF. Pipeline: AdaptiveHANEPipeline v1.5.1 · PyMuPDF 1.27.2 · CPU · ambiente isolado.
HANE (Hierarchical Adaptive NER Encoder) é um pipeline de extração de entidades nomeadas composto por quatro camadas adaptativas: seleção contextual semântica (CSG), NER hierárquico com ontologia jurídica, budget adaptativo por seção e cache de padrões. O resultado é extração precisa em acórdãos, contratos, petições e manuais — com suporte a documentos extensos via janelas sobrepostas.
Construído sobre o modelo GLiNER (open-source) como motor de NER, o HANE adiciona camadas proprietárias que transformam documentos jurídicos longos em contexto estruturado e comprimido. Não requer retreinamento para novos domínios — edite o YAML de ontologia e o pipeline se adapta.
Reconhece automaticamente EMENTA, RELATÓRIO, FUNDAMENTAÇÃO, DISPOSITIVO e VOTO — e aplica budget máximo nas seções de maior densidade jurídica.
Hierarquias de entidades definidas em YAML — partes, valores, prazos, base legal, penalidades. Adicione novas entidades sem código ou retreinamento.
Os acórdãos nunca saem do ambiente do Tribunal. Deploy Docker em GCT ou VPS interna — zero chamada a serviço externo durante o processamento.
FastAPI com autenticação por API Key, suporte a PDF, DOCX, TXT. Integra com PJe, SAJ, N8n e qualquer sistema via POST /annotate/file.
Com PyMuPDF, CPU e GPU são equivalentes neste perfil de documento. Não é preciso GPU dedicada — container padrão GCT já entrega P95 = 1 s.
63 acórdãos TJ-GO reais, ambiente isolado, dados brutos disponíveis. Mediana 148 ms · P95 1 s · 85,9% economia de tokens — números verificáveis.
Faça upload de qualquer PDF ou DOCX jurídico e receba em segundos o contexto comprimido pronto para o seu LLM.
Envie acórdão, contrato ou petição em PDF ou DOCX. O HANE detecta automaticamente as seções jurídicas (EMENTA, FUNDAMENTAÇÃO, DISPOSITIVO).
4 camadas extraem partes, valores, prazos e base legal. Budget máximo nas seções críticas (DISPOSITIVO, FUNDAMENTAÇÃO). Cache reutiliza padrões já indexados.
Seu LLM recebe 218 tokens em vez de 1.570 — mesma cobertura jurídica, custo ~7× menor por chamada. Entidades estruturadas, não texto bruto.
Enquanto o usuário aguarda a resposta, o HANE executa as 4 camadas em sequência — sem chamar nenhum LLM internamente.
Quatro modelos de uso — do mais simples ao mais avançado. O HANE entra como camada de eficiência antes do LLM, independente de qual você usa.
O HANE extrai entidades estruturadas de acórdãos e contratos e entrega JSON pronto — sem chamar nenhum LLM externo. Custo por token: zero.
Ideal quando a resposta não precisa ser em linguagem natural — só estrutura.
Antes de enviar o acórdão ao LLM, o HANE comprime o contexto e injeta entidades jurídicas estruturadas. O LLM recebe 218 tokens em vez de 1.570.
Resultado validado: 1.570 tokens → 218 tokens · GPT-4o: $62 → $9 / mês por 10k acórdãos.
O HANE atua como ferramenta dentro do agente — via REST API (POST /annotate/file) ou MCP (extract_entities) — extrai entidades para que o LLM raciocine sobre dados verificados.
/annotate/fileO HANE reduz ~86% do custo das chamadas LLM em cada etapa do agente.
Via hook UserPromptSubmit, o HANE intercepta o prompt automaticamente quando detecta um arquivo jurídico mencionado — injeta contexto estruturado antes de o Claude receber a mensagem.
PDF, DOCX, TXTConfiguração única. O Claude responde melhor com contexto comprimido que com o PDF bruto.
O HANE expõe suas ferramentas como servidor MCP — qualquer host compatível (Claude Desktop, Claude Code, Cursor) pode invocar o pipeline diretamente.
extract_entities — extrai entidades de acórdão ou contratocompare_documents — diff semântico entre versões de contratoestimate_tokens — pré-estimativa de economia (sem GPU)annotate_file — processa PDF/DOCX em discoZero engenharia extra. Config JSON de uma linha. Ver detalhes →
Container Docker completo com API, PostgreSQL e Nginx — roda na infraestrutura do Tribunal. Os documentos nunca saem do ambiente.
docker-compose.yml + nginx.conf + .envGCT = plataforma homologada pelo CNJ para tribunais estaduais.
| Métrica | Acórdão bruto | Com HANE | Ganho |
|---|---|---|---|
| Tokens enviados (acórdão TJ-GO · mediana) | 1.570 | 218 | −85,9% |
| Custo GPT-4o (por 10.000 acórdãos/mês) | $62/mês | $9/mês | −86% |
| Latência de processamento (E2E mediana · CPU) | — | 147,8 ms | P95 = 1 s |
| Cobertura semântica | 100% | 100% | igual |
| Recall de entidades críticas | ~95% | 100% | +5 pp |
| Dados que saem do Tribunal | 100% ao LLM externo | 0 bytes | on-premise |
* Valores medidos sobre 63 acórdãos TJ-GO reais (PDF). AdaptiveHANEPipeline v1.5.1 · PyMuPDF 1.27.2 · CPU. GPT-4o a $2,50/M input tokens.
Faça upload de qualquer PDF ou DOCX jurídico e veja em segundos: seções detectadas, entidades extraídas e contexto comprimido pronto para o LLM. Sem cadastro.
Conecte o pipeline HANE diretamente ao seu IDE ou agente jurídico — sem REST, sem código de integração. O LLM decide quando invocar o HANE e com quais parâmetros.
Claude Desktop, Claude Code, Cursor, Windsurf. Configura o HANE com um bloco JSON.
O modelo decide automaticamente quando chamar extract_entities ou compare_documents — sem prompt manual.
O HANE retorna partes, valores, prazos e base legal — o LLM raciocina sobre dados verificados.
{
"mcpServers": {
"hane": {
"command": "python",
"args": ["/caminho/para/hane_mcp_client.py"],
"env": {
"HANE_MODE": "rest",
"HANE_API_URL": "http://localhost:8000",
"HANE_API_KEY": "sua_api_key"
}
}
}
}
Não. Na modalidade on-premise, o HANE roda inteiramente na sua infraestrutura — tribunal (GCT), cartório, escritório ou servidor interno. Os documentos são processados via POST /annotate/file para o container local e zero bytes trafegam para fora. Atende LGPD, sigilo processual e requisitos de segredo de justiça.
Não. O HANE atua como camada de pré-processamento antes do LLM — comprime o contexto que você envia, tornando cada chamada mais barata e precisa. Integra com PJe, SAJ, TOTVS Protheus, sistemas de cartório e qualquer plataforma via REST API ou N8n, sem substituir a arquitetura existente.
Não. O benchmark foi executado integralmente em CPU — configuração padrão de um container on-premise em GCT. Com PyMuPDF, CPU e GPU são equivalentes neste perfil de documento. 95% dos acórdãos são processados em menos de 1 segundo em CPU.
Medido sobre 63 acórdãos TJ-GO reais em PDF (ambiente isolado, maio/2026). Token de entrada médio: 1.570; tokens após HANE: ~218. A economia vem de três camadas: CSG (~55%), Budget adaptativo (~31%) e Cache matricial (hit rate 11,7%). Dados brutos disponíveis em benchmark_raw.json.
Não. O HANE usa o modelo GLiNER pré-treinado e ontologias em YAML para adaptar ao domínio jurídico. Adicionar uma nova entidade (ex: tipo de ação) é editar um arquivo YAML — sem GPU, sem fine-tuning, sem code review.
Licença on-premise RSA-PSS emitida para o CNPJ do órgão. Verificação a cada 12 h com grace period de 72 h em caso de falha de conectividade. Inclui contrato de suporte e atualização. Entre em contato para proposta.
Documentos: PDF, DOCX, TXT, XML, JSON, XLS/XLSX, CSV e Parquet. Código-fonte: .PRW / .TLPP (ADVPL), .py, .js, .ts, .sql, .java. Arquivos fiscais estruturados como SPED EFD e EFD-Contribuições são processados via leitura de texto — sem parser específico de layout.
Sim. O domain fingerprinter analisa o vocabulário do documento e seleciona automaticamente a ontologia mais adequada: juridico_pt para acórdãos, contratos e petições; fiscal_pt para SPEDs e NF-e; erp para manuais Protheus; generico para documentos de cartório ou qualquer outro domínio. Você também pode forçar o domínio via parâmetro da API.
Sim. O HANE foi projetado para qualquer segmento que processe documentos em volume. Cartórios de Registro de Imóveis e Notas usam o domínio juridico_pt para extrair partes, imóveis e valores de escrituras e certidões. Escritórios de advocacia processam contratos e petições. Empresas com ERP Protheus usam o domínio erp para manuais e código ADVPL. O benchmark do TJ-GO valida a precisão no segmento mais exigente — os demais se beneficiam da mesma arquitetura.
Startup de tecnologia especializada em extração semântica de entidades para documentos corporativos e jurídicos.
Cientista de dados e analista de sistemas com foco em IA aplicada, NLP e automação de processos. MBA em Ciência de Dados pela PUC Goiás. Na TOTVS Brasil Central liderou um projeto de ETL orientado a dados para automatizar implantações do Protheus via leitura e análise do SPED Fiscal — 2º lugar no Desafio de Inovação TBC, hoje adotado pela TOTVS Matriz com redução significativa de custo e tempo nas implantações. Criador do pipeline HANE: modelo de extração semântica hierárquica de entidades que reduz em até 70% os tokens enviados a modelos de linguagem.
Interessado em uma demonstração com dados reais do Tribunal ou quer um trial? Preencha o formulário — respondemos em até 24 h.
Ou escreva direto: contato@haneia.com.br