27 de janeiro de 2026

DeepSeek OCR 2: Revolucionando a inteligência de documentos

A DeepSeek lançou oficialmente o DeepSeek-OCR 2, um sistema inovador de reconhecimento ótico de caracteres que muda fundamentalmente a digitalização linear tradicional para um modelo que interpreta imagens com "lógica visual humana".

DeepEncoder V2: Fluxo causal visual

No coração deste lançamento está a arquitetura DeepEncoder V2. Ao contrário das ferramentas tradicionais de OCR que processam documentos estritamente linha por linha, o DeepSeek-OCR 2 emprega um mecanismo de "Fluxo causal visual". Ele reorganiza dinamicamente os componentes da imagem com base no significado semântico, imitando a forma como um humano lê uma página complexa — primeiro compreendendo o layout global, as colunas e as relações antes de mergulhar nos detalhes específicos.

Essa abordagem melhora significativamente o desempenho em layouts complexos, como documentos e tabelas com texto/estrutura mistos, permitindo que a IA "veja" o contexto global primeiro.

Eficiência inigualável e especificações técnicas

O DeepSeek-OCR 2 introduz a "Compressão ótica de contextos", capaz de representar conteúdo com até 20 vezes menos tokens em comparação com os modelos tradicionais. Esse ganho massivo de eficiência permite:

Resolução dinâmica: O modelo utiliza uma estratégia de resolução flexível (padronizada em tokens compostos como (0-6)×768×768 + 1×1024×1024) para equilibrar detalhes e velocidade.
Redução drástica no tempo de computação e uso de memória.
Escalabilidade para tarefas de ingestão de documentos em grande escala que sobrecarregariam outros modelos.

Desempenho e Benchmarks

As avaliações em benchmarks como o OmniDocBench v1.5 demonstram uma melhoria de 3,73% em relação às linhas de base anteriores. Mais importante ainda, ele iguala ou excede os recursos dos principais provedores de nuvem (Google Cloud Vision, AWS Textract), enquanto funciona de forma significativamente mais eficiente em hardware local.

Ele se destaca particularmente em:

Preservar estruturas de documentos complexas.
Suporte a mais de 100 idiomas.
Processar conteúdo especializado, como fórmulas químicas (SMILES).

Código aberto e disponibilidade

O DeepSeek-OCR 2 é totalmente de código aberto sob a licença MIT, reforçando o compromisso da DeepSeek com uma IA acessível.

Ver no GitHub 🤗 Ver modelos

Instalar via Git

git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git

Discussão da comunidade

gary IH fung@garyfung

2026-01-27 17:45:00

O que diabos os geeks da matemática na China estão fazendo com a otimização de LLM? Isso é como Ozempic para LLM 10x

RAVI KUMAR SAHU@RAVIKUMARSAHU78

2026-01-27 19:45:00

Avanços impressionantes! O foco na ordem lógica de estilo humano no escaneamento de imagens pode revolucionar o processamento de documentos. Ansioso para ver o impacto na precisão do OCR. Ótimo trabalho, equipe DeepSeek!

Andrew Giles@giles_home

2026-01-27 16:45:00

Ah, ótimo, agora temos IA que faz o que os humanos fazem, pula o título e o 1º parágrafo e fica irritada porque o 2º parágrafo não está definindo o cenário. 😂 Brilhante.

rpgc@rpgcai

2026-01-27 20:15:00

Finalmente, um OCR que entende o contexto do layout em vez de apenas fazer escaneamento em grade

Abe@AbeIndoria

2026-01-27 15:45:00

Alguma ideia de como ele se compara com o Florence?

Liza@LazyCoda

2026-01-27 16:45:00

@grok posso rodar isso com MBP m3? Ou em um vps, e que velocidade posso esperar?