DeepSeek OCR 2: Revolucionando a inteligência de documentos

A DeepSeek lançou oficialmente o DeepSeek-OCR 2, um sistema inovador de reconhecimento ótico de caracteres que muda fundamentalmente a digitalização linear tradicional para um modelo que interpreta imagens com "lógica visual humana".
DeepEncoder V2: Fluxo causal visual
No coração deste lançamento está a arquitetura DeepEncoder V2. Ao contrário das ferramentas tradicionais de OCR que processam documentos estritamente linha por linha, o DeepSeek-OCR 2 emprega um mecanismo de "Fluxo causal visual". Ele reorganiza dinamicamente os componentes da imagem com base no significado semântico, imitando a forma como um humano lê uma página complexa — primeiro compreendendo o layout global, as colunas e as relações antes de mergulhar nos detalhes específicos.
Essa abordagem melhora significativamente o desempenho em layouts complexos, como documentos e tabelas com texto/estrutura mistos, permitindo que a IA "veja" o contexto global primeiro.
Eficiência inigualável e especificações técnicas
O DeepSeek-OCR 2 introduz a "Compressão ótica de contextos", capaz de representar conteúdo com até 20 vezes menos tokens em comparação com os modelos tradicionais. Esse ganho massivo de eficiência permite:
- Resolução dinâmica: O modelo utiliza uma estratégia de resolução flexível (padronizada em tokens compostos como
(0-6)×768×768 + 1×1024×1024) para equilibrar detalhes e velocidade. - <strong>Redução drástica</strong> no tempo de computação e uso de memória.
- <strong>Escalabilidade</strong> para tarefas de ingestão de documentos em grande escala que sobrecarregariam outros modelos.
Desempenho e Benchmarks
As avaliações em benchmarks como o <strong>OmniDocBench v1.5</strong> demonstram uma melhoria de 3,73% em relação às linhas de base anteriores. Mais importante ainda, ele iguala ou excede os recursos dos principais provedores de nuvem (Google Cloud Vision, AWS Textract), enquanto funciona de forma significativamente mais eficiente em hardware local.
Ele se destaca particularmente em:
- Preservar estruturas de documentos complexas.
- Suporte a mais de 100 idiomas.
- Processar conteúdo especializado, como fórmulas químicas (SMILES).
Código aberto e disponibilidade
O DeepSeek-OCR 2 é totalmente de código aberto sob a licença MIT, reforçando o compromisso da DeepSeek com uma IA acessível.
Instalar via Git
git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.gitDiscussão da comunidade
O que diabos os geeks da matemática na China estão fazendo com a otimização de LLM? Isso é como Ozempic para LLM 10x
Avanços impressionantes! O foco na ordem lógica de estilo humano no escaneamento de imagens pode revolucionar o processamento de documentos. Ansioso para ver o impacto na precisão do OCR. Ótimo trabalho, equipe DeepSeek!
Ah, ótimo, agora temos IA que faz o que os humanos fazem, pula o título e o 1º parágrafo e fica irritada porque o 2º parágrafo não está definindo o cenário. 😂 Brilhante.
Finalmente, um OCR que entende o contexto do layout em vez de apenas fazer escaneamento em grade
Alguma ideia de como ele se compara com o Florence?
@grok posso rodar isso com MBP m3? Ou em um vps, e que velocidade posso esperar?