AI OCR LogoAI OCR
Quay lại Blog

DeepSeek OCR 2: Cách mạng hóa trí tuệ tài liệu

Luồng nhân quả trực quan DeepSeek OCR 2

DeepSeek đã chính thức ra mắt DeepSeek-OCR 2, một hệ thống nhận dạng ký tự quang học đột phá, chuyển đổi căn bản từ quét tuyến tính truyền thống sang một mô hình diễn giải hình ảnh bằng "logic trực quan của con người".

DeepEncoder V2: Luồng nhân quả trực quan

Trọng tâm của bản phát hành này là kiến trúc DeepEncoder V2. Không giống như các công cụ OCR tiêu chuẩn xử lý tài liệu nghiêm ngặt theo từng dòng một, DeepSeek-OCR 2 sử dụng cơ chế "Luồng nhân quả trực quan". Nó sắp xếp lại các thành phần hình ảnh một cách động dựa trên ý nghĩa ngữ nghĩa, bắt chước cách con người đọc một trang phức tạp — trước tiên hiểu bố cục tổng thể, các cột và mối quan hệ trước khi đi sâu vào các chi tiết cụ thể.

Cách tiếp cận này cải thiện đáng kể hiệu suất trên các bố cục phức tạp, chẳng hạn như tài liệu cấu trúc/văn bản hỗn hợp và bảng biểu, bằng cách cho phép AI "nhìn thấy" ngữ cảnh tổng thể trước.

Hiệu quả vượt trội & Thông số kỹ thuật

DeepSeek-OCR 2 giới thiệu tính năng "Nén quang học ngữ cảnh", có khả năng biểu thị nội dung với số lượng token ít hơn tới 20 lần so với các mô hình truyền thống. Sự gia tăng hiệu quả to lớn này cho phép:

  • Độ phân giải động: Mô hình sử dụng chiến lược độ phân giải linh hoạt (mặc định là các token tổng hợp như (0-6)×768×768 + 1×1024×1024) để cân bằng giữa chi tiết và tốc độ.
  • <strong>Giảm thiểu đáng kể</strong> thời gian tính toán và sử dụng bộ nhớ.
  • <strong>Khả năng mở rộng</strong> cho các nhiệm vụ thu thập tài liệu quy mô lớn vốn có thể làm quá tải các mô hình khác.

Hiệu suất & Điểm chuẩn

Các đánh giá trên các điểm chuẩn như <strong>OmniDocBench v1.5</strong> cho thấy sự cải thiện 3,73% so với các mốc cơ sở trước đó. Quan trọng hơn, nó đáp ứng hoặc vượt qua khả năng của các nhà cung cấp đám mây lớn (Google Cloud Vision, AWS Textract) trong khi chạy hiệu quả hơn đáng kể trên phần cứng cục bộ.

Nó đặc biệt xuất sắc trong việc:

  • Bảo tồn các cấu trúc tài liệu phức tạp.
  • Hỗ trợ hơn 100 ngôn ngữ.
  • Xử lý nội dung chuyên ngành như công thức hóa học (SMILES).

Mã nguồn mở & Tính sẵn có

DeepSeek-OCR 2 hoàn toàn là mã nguồn mở theo giấy phép MIT, củng cố cam kết của DeepSeek đối với việc giúp AI dễ dàng tiếp cận hơn.

Cài đặt qua Git

git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git

Thảo luận cộng đồng

gary IH fung@garyfung
2026-01-27 17:45:00

mấy ông thần toán học ở Trung Quốc đang làm cái quái gì với việc tối ưu hóa LLM thế này? Cái này giống như thuốc giảm cân Ozempic cho LLM x10 vậy

RAVI KUMAR SAHU@RAVIKUMARSAHU78
2026-01-27 19:45:00

Những tiến bộ ấn tượng! Việc tập trung vào thứ tự logic giống con người trong quét hình ảnh có thể cách mạng hóa việc xử lý tài liệu. Rất hào hứng để xem tác động đối với độ chính xác của OCR. Làm tốt lắm, đội ngũ DeepSeek!

Andrew Giles@giles_home
2026-01-27 16:45:00

Ồ tuyệt quá, bây giờ chúng ta có AI làm những gì con người làm, bỏ qua tiêu đề và đoạn văn thứ 1 rồi cảm thấy khó chịu vì đoạn văn thứ 2 không dựng lên bối cảnh. 😂 Quá xuất sắc.

rpgc@rpgcai
2026-01-27 20:15:00

cuối cùng cũng có một OCR hiểu được ngữ cảnh bố cục thay vì chỉ quét theo lưới

Abe@AbeIndoria
2026-01-27 15:45:00

Có ai biết nó so với Florence thế nào không?

Liza@LazyCoda
2026-01-27 16:45:00

@grok tôi có thể chạy cái này với MBP m3 không? Hoặc trên một vps và tôi có thể kỳ vọng tốc độ thế nào