٢٧ يناير ٢٠٢٦

DeepSeek OCR 2: ثورة في معالجة وفهم المستندات ذكيًا

تدفق القراءة والمنطق البصري السببي في DeepSeek OCR 2

أطلقت DeepSeek رسميًا نموذج DeepSeek-OCR 2، وهو نظام ثوري للتعرف الضوئي على الحروف يمثل تحولًا جذريًا من المسح الخطي التقليدي إلى نموذج يفسر الصور بناءً على "المنطق البصري البشري".

DeepEncoder V2: التدفق البصري السببي

في صميم هذا الإصدار تأتي بنية DeepEncoder V2. على عكس أدوات التعرف الضوئي التقليدية التي تعالج المستندات سطرًا بسطر بدقة، يستخدم DeepSeek-OCR 2 آلية "التدفق البصري السببي". يقوم النموذج بإعادة ترتيب مكونات الصورة ديناميكيًا بناءً على المعنى الدلالي، محاكيًا طريقة قراءة البشر لصفحة معقدة — حيث يستوعب أولاً التخطيط العام والأعمدة والعلاقات قبل الخوض في التفاصيل الدقيقة.

يعمل هذا الأسلوب على تحسين الأداء بشكل كبير في التخطيطات المعقدة، مثل المستندات والجداول ذات النصوص والهياكل المختلطة، من خلال تمكين الذكاء الاصطناعي من "رؤية" السياق العام أولاً.

كفاءة لا مثيل لها ومواصفات تقنية

يقدم DeepSeek-OCR 2 ميزة "الضغط البصري للسياق"، القادرة على تمثيل المحتوى بـ رموز (Tokens) أقل بـ 20 ضعفاً مقارنة بالنماذج التقليدية. يتيح هذا التحسين الهائل في الكفاءة ما يلي:

الدقة الديناميكية: يستخدم النموذج استراتيجية دقة مرنة (افتراضيًا الرموز المركبة مثل (0-6)×768×768 + 1×1024×1024) لتحقيق التوازن بين التفاصيل والسرعة.
تقليل هائل في وقت الحوسبة واستهلاك الذاكرة.
قابلية التوسع لمهام استيعاب المستندات واسعة النطاق التي قد تشكل عبئاً كبيراً على النماذج الأخرى.

الأداء واختبارات القياس

تظهر التقييمات على اختبارات القياس مثل OmniDocBench v1.5 تحسنًا بنسبة 3.73% مقارنة بالمعايير السابقة. والأهم من ذلك، أنه يطابق أو يتفوق على قدرات كبار مزودي السحابة (Google Cloud Vision و AWS Textract) مع تشغيله بكفاءة أكبر بشكل ملحوظ على الأجهزة المحلية.

وهو يتميز بشكل خاص في:

الحفاظ على هياكل المستندات المعقدة.
معالجة أكثر من 100 لغة مختلفة.
معالجة المحتوى المتخصص مثل الصيغ الكيميائية (SMILES).

المصدر المفتوح والتوافر

نموذج DeepSeek-OCR 2 مفتوح المصدر بالكامل بموجب رخصة MIT، مما يعزز التزام DeepSeek بالذكاء الاصطناعي المتاح للجميع.

عرض على GitHub 🤗 عرض النماذج

التثبيت عبر Git

git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git

مناقشات المجتمع

gary IH fung@garyfung

2026-01-27 17:45:00

ما الذي يفعله عباقرة الرياضيات في الصين لتحسين النماذج اللغوية الكبيرة؟ هذا يشبه دواء Ozempic للنماذج الكبيرة بـ 10 أضعاف الكفاءة!

RAVI KUMAR SAHU@RAVIKUMARSAHU78

2026-01-27 19:45:00

تطورات مذهلة! التركيز على الترتيب المنطقي البصري الشبيه بالبشر في مسح الصور قد يحدث ثورة في معالجة المستندات. متحمس لرؤية التأثير على دقة التعرف الضوئي. عمل رائع لفريق DeepSeek!

Andrew Giles@giles_home

2026-01-27 16:45:00

رائع جداً، الآن لدينا ذكاء اصطناعي يفعل ما يفعله البشر تماماً، يتخطى العنوان والفقرة الأولى ويشعر بالانزعاج لأن الفقرة الثانية لم تحدد سياق المشهد. 😂 عبقري.

rpgc@rpgcai

2026-01-27 20:15:00

أخيرًا، نظام OCR يفهم سياق التخطيط العام بدلاً من مجرد المسح الشبكي العشوائي.

Abe@AbeIndoria

2026-01-27 15:45:00

هل لدى أحد فكرة عن كيفية مقارنته بنموذج Florence؟

Liza@LazyCoda

2026-01-27 16:45:00

@grok هل يمكنني تشغيل هذا على جهاز MBP m3؟ أو على خادم افتراضي VPS وما هي السرعة المتوقعة؟