2026年1月27日

DeepSeek OCR 2：引领文档智能理解的革命

DeepSeek 正式发布了 DeepSeek-OCR 2。这是一个开创性的光学字符识别系统，实现了从传统线性扫描向使用“人类视觉逻辑”解释图像的模型的根本性转变。

DeepEncoder V2：视觉因果流

本次发布的核心是 DeepEncoder V2 架构。与严格逐行处理文档的传统 OCR 工具不同，DeepSeek-OCR 2 采用了“视觉因果流（Visual Causal Flow）”机制。它根据语义动态重新排列图像组件，模拟人类阅读复杂页面的方式——在深入具体细节之前，先理解全局布局、分栏以及元素之间的关系。

这种方法通过让 AI 先“看清”全局上下文，显著提升了在混合文本/结构文档和表格等复杂布局上的处理性能。

无与伦比的效率与技术规格

DeepSeek-OCR 2 引入了“上下文视觉压缩”技术，与传统模型相比，能够用减少高达 20 倍的 Token 来表示内容。这一巨大的效率提升带来了：

动态分辨率：该模型采用灵活的分辨率策略（默认使用复合 Token，如 (0-6)×768×768 + 1×1024×1024），以平衡细节和速度。
计算时间和内存占用的大幅降低。
针对大规模文档录入任务的可扩展性，而这些任务通常会使其他模型过载。

性能与基准测试

在 OmniDocBench v1.5 等基准测试上的评估表明，该模型相比之前的基准有 3.73% 的提升。更重要的是，它在本地硬件上运行效率显著提高的同时，性能比肩甚至超越了主流云服务商（Google Cloud Vision、AWS Textract）。

它在以下方面表现尤为出色：

完整保留复杂的文档结构。
支持超过 100 种语言。
处理化学分子式（SMILES）等专业内容。

开源与获取方式

DeepSeek-OCR 2 在 MIT 许可下完全开源，这进一步践行了 DeepSeek 致力于推动普惠 AI 的承诺。

在 GitHub 上查看 🤗 查看模型

通过 Git 安装

git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git

社区讨论

gary IH fung@garyfung

2026-01-27 17:45:00

中国的数学天才们在 LLM 优化方面到底做了什么？这简直是 LLM 界的司美格鲁肽（Ozempic），效率直接翻了 10 倍！

RAVI KUMAR SAHU@RAVIKUMARSAHU78

2026-01-27 19:45:00

令人赞叹的进步！图像扫描中对类似人类逻辑顺序的关注，可能会彻底改变文档处理。非常期待看到它对 OCR 准确性的影响。DeepSeek 团队干得漂亮！

Andrew Giles@giles_home

2026-01-27 16:45:00

太好了，现在我们有了一个和人类一模一样的 AI：直接跳过标题和第一段，然后因为第二段没有交代背景而感到烦躁。😂 绝了。

rpgc@rpgcai

2026-01-27 20:15:00

终于有一个能理解排版上下文，而不是只会进行网格扫描的 OCR 了。

Abe@AbeIndoria

2026-01-27 15:45:00

有人知道它和 Florence 相比怎么样吗？

Liza@LazyCoda

2026-01-27 16:45:00

@grok 我可以在 M3 芯片的 MBP 上运行它吗？或者在 VPS 上运行，速度能达到多少？