AI OCR LogoAI OCR
Voltar ao Blog

DeepSeek OCR 2: Revolucionando a inteligência de documentos

Fluxo causal visual do DeepSeek OCR 2

A DeepSeek lançou oficialmente o DeepSeek-OCR 2, um sistema inovador de reconhecimento ótico de caracteres que muda fundamentalmente a digitalização linear tradicional para um modelo que interpreta imagens com "lógica visual humana".

DeepEncoder V2: Fluxo causal visual

No coração deste lançamento está a arquitetura DeepEncoder V2. Ao contrário das ferramentas tradicionais de OCR que processam documentos estritamente linha por linha, o DeepSeek-OCR 2 emprega um mecanismo de "Fluxo causal visual". Ele reorganiza dinamicamente os componentes da imagem com base no significado semântico, imitando a forma como um humano lê uma página complexa — primeiro compreendendo o layout global, as colunas e as relações antes de mergulhar nos detalhes específicos.

Essa abordagem melhora significativamente o desempenho em layouts complexos, como documentos e tabelas com texto/estrutura mistos, permitindo que a IA "veja" o contexto global primeiro.

Eficiência inigualável e especificações técnicas

O DeepSeek-OCR 2 introduz a "Compressão ótica de contextos", capaz de representar conteúdo com até 20 vezes menos tokens em comparação com os modelos tradicionais. Esse ganho massivo de eficiência permite:

  • Resolução dinâmica: O modelo utiliza uma estratégia de resolução flexível (padronizada em tokens compostos como (0-6)×768×768 + 1×1024×1024) para equilibrar detalhes e velocidade.
  • <strong>Redução drástica</strong> no tempo de computação e uso de memória.
  • <strong>Escalabilidade</strong> para tarefas de ingestão de documentos em grande escala que sobrecarregariam outros modelos.

Desempenho e Benchmarks

As avaliações em benchmarks como o <strong>OmniDocBench v1.5</strong> demonstram uma melhoria de 3,73% em relação às linhas de base anteriores. Mais importante ainda, ele iguala ou excede os recursos dos principais provedores de nuvem (Google Cloud Vision, AWS Textract), enquanto funciona de forma significativamente mais eficiente em hardware local.

Ele se destaca particularmente em:

  • Preservar estruturas de documentos complexas.
  • Suporte a mais de 100 idiomas.
  • Processar conteúdo especializado, como fórmulas químicas (SMILES).

Código aberto e disponibilidade

O DeepSeek-OCR 2 é totalmente de código aberto sob a licença MIT, reforçando o compromisso da DeepSeek com uma IA acessível.

Instalar via Git

git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git

Discussão da comunidade

gary IH fung@garyfung
2026-01-27 17:45:00

O que diabos os geeks da matemática na China estão fazendo com a otimização de LLM? Isso é como Ozempic para LLM 10x

RAVI KUMAR SAHU@RAVIKUMARSAHU78
2026-01-27 19:45:00

Avanços impressionantes! O foco na ordem lógica de estilo humano no escaneamento de imagens pode revolucionar o processamento de documentos. Ansioso para ver o impacto na precisão do OCR. Ótimo trabalho, equipe DeepSeek!

Andrew Giles@giles_home
2026-01-27 16:45:00

Ah, ótimo, agora temos IA que faz o que os humanos fazem, pula o título e o 1º parágrafo e fica irritada porque o 2º parágrafo não está definindo o cenário. 😂 Brilhante.

rpgc@rpgcai
2026-01-27 20:15:00

Finalmente, um OCR que entende o contexto do layout em vez de apenas fazer escaneamento em grade

Abe@AbeIndoria
2026-01-27 15:45:00

Alguma ideia de como ele se compara com o Florence?

Liza@LazyCoda
2026-01-27 16:45:00

@grok posso rodar isso com MBP m3? Ou em um vps, e que velocidade posso esperar?