DeepSeek OCR 2:引领文档智能理解的革命

DeepSeek 正式发布了 DeepSeek-OCR 2。这是一个开创性的光学字符识别系统,实现了从传统线性扫描向使用“人类视觉逻辑”解释图像的模型的根本性转变。
DeepEncoder V2:视觉因果流
本次发布的核心是 DeepEncoder V2 架构。与严格逐行处理文档的传统 OCR 工具不同,DeepSeek-OCR 2 采用了“视觉因果流(Visual Causal Flow)”机制。它根据语义动态重新排列图像组件,模拟人类阅读复杂页面的方式——在深入具体细节之前,先理解全局布局、分栏以及元素之间的关系。
这种方法通过让 AI 先“看清”全局上下文,显著提升了在混合文本/结构文档和表格等复杂布局上的处理性能。
无与伦比的效率与技术规格
DeepSeek-OCR 2 引入了“上下文视觉压缩”技术,与传统模型相比,能够用减少高达 20 倍的 Token 来表示内容。这一巨大的效率提升带来了:
- 动态分辨率:该模型采用灵活的分辨率策略(默认使用复合 Token,如
(0-6)×768×768 + 1×1024×1024),以平衡细节和速度。 - 计算时间和内存占用的<strong>大幅降低</strong>。
- 针对大规模文档录入任务的<strong>可扩展性</strong>,而这些任务通常会使其他模型过载。
性能与基准测试
在 <strong>OmniDocBench v1.5</strong> 等基准测试上的评估表明,该模型相比之前的基准有 3.73% 的提升。更重要的是,它在本地硬件上运行效率显著提高的同时,性能比肩甚至超越了主流云服务商(Google Cloud Vision、AWS Textract)。
它在以下方面表现尤为出色:
- 完整保留复杂的文档结构。
- 支持超过 100 种语言。
- 处理化学分子式(SMILES)等专业内容。
开源与获取方式
DeepSeek-OCR 2 在 MIT 许可下完全开源,这进一步践行了 DeepSeek 致力于推动普惠 AI 的承诺。
通过 Git 安装
git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git社区讨论
中国的数学天才们在 LLM 优化方面到底做了什么?这简直是 LLM 界的司美格鲁肽(Ozempic),效率直接翻了 10 倍!
令人赞叹的进步!图像扫描中对类似人类逻辑顺序的关注,可能会彻底改变文档处理。非常期待看到它对 OCR 准确性的影响。DeepSeek 团队干得漂亮!
太好了,现在我们有了一个和人类一模一样的 AI:直接跳过标题和第一段,然后因为第二段没有交代背景而感到烦躁。😂 绝了。
终于有一个能理解排版上下文,而不是只会进行网格扫描的 OCR 了。
有人知道它和 Florence 相比怎么样吗?
@grok 我可以在 M3 芯片的 MBP 上运行它吗?或者在 VPS 上运行,速度能达到多少?