2026年1月27日

DeepSeek OCR 2：引領文件智能理解的革命

DeepSeek 正式發布了 DeepSeek-OCR 2。這是一個開創性的光學字元識別系統，實現了從傳統線性掃描向使用「人類視覺邏輯」解釋影像的模型的根本性轉變。

DeepEncoder V2：視覺因果流

本次發布的核心是 DeepEncoder V2 架構。與嚴格逐行處理文件的傳統 OCR 工具不同，DeepSeek-OCR 2 採用了「視覺因果流（Visual Causal Flow）」機制。它根據語意動態重新排列影像組件，模擬人類閱讀複雜頁面的方式——在深入具體細節之前，先理解全局版面、分欄以及元素之間的關係。

這種方法透過讓 AI 先「看清」全局上下文，顯著提升了在混合文字/結構文件和表格等複雜版面上的處理效能。

無與倫比的效率與技術規格

DeepSeek-OCR 2 引入了「上下文視覺壓縮」技術，與傳統模型相比，能夠用減少高達 20 倍的 Token 來表示內容。這一巨大的效率提升帶來了：

動態解析度：該模型採用彈性的解析度策略（預設使用複合 Token，如 (0-6)×768×768 + 1×1024×1024），以平衡細節和速度。
計算時間和記憶體佔用的大幅降低。
針對大規模文件輸入任務的可擴充性，而這些任務通常會使其他模型過載。

性能與基準測試

在 OmniDocBench v1.5 等基準測試上的評估表明，該模型相比之前的基準有 3.73% 的提升。更重要的是，它在本地硬體上運行效率顯著提高的同时，性能媲美甚至超越了主流雲端服務商（Google Cloud Vision、AWS Textract）。

It excels particularly in:

完整保留複雜的文件結構。
支援超過 100 種語言。
處理化學分子式（SMILES）等專業內容。

開源與獲取方式

DeepSeek-OCR 2 在 MIT 許可下完全開源，這進一步踐行了 DeepSeek 致力於推動普惠 AI 的承諾。

在 GitHub 上查看 🤗 查看模型

透過 Git 安裝

git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git

社區討論

gary IH fung@garyfung

2026-01-27 17:45:00

中國的數學天才們在 LLM 優化方面到底做了什麼？這簡直是 LLM 界的司美格魯肽（Ozempic），效率直接翻了 10 倍！

RAVI KUMAR SAHU@RAVIKUMARSAHU78

2026-01-27 19:45:00

令人讚嘆的進步！影像掃描中對類似人類邏輯順序的關注，可能會徹底改變文件處理。非常期待看到它對 OCR 準確性的影響。DeepSeek 團隊幹得漂亮！

Andrew Giles@giles_home

2026-01-27 16:45:00

太好了，現在我們有了一個和人類一模一樣的 AI：直接跳過標題和第一段，然後因為第二段沒有交代背景而感到煩躁。😂 絕了。

rpgc@rpgcai

2026-01-27 20:15:00

終於有一個能理解排版上下文，而不是只會進行網格掃描的 OCR 了。

Abe@AbeIndoria

2026-01-27 15:45:00

有人知道它和 Florence 相比怎麼樣嗎？

Liza@LazyCoda

2026-01-27 16:45:00

@grok 我可以在 M3 晶片的 MBP 上運行它嗎？或者在 VPS 上運行，速度能達到多少？