AI OCR LogoAI OCR
Kembali ke Blog

DeepSeek OCR 2: Merevolusi Kecerdasan Dokumen

Aliran Kausal Visual DeepSeek OCR 2

DeepSeek telah secara resmi meluncurkan DeepSeek-OCR 2, sistem pengenalan karakter optik terobosan yang secara mendasar bergeser dari pemindaian linier tradisional ke model yang menafsirkan gambar dengan "logika visual manusia".

DeepEncoder V2: Aliran Kausal Visual

Inti dari rilis ini adalah arsitektur DeepEncoder V2. Berbeda dengan alat OCR standar yang memproses dokumen secara ketat baris demi baris, DeepSeek-OCR 2 menggunakan mekanisme "Aliran Kausal Visual". Ini mengatur ulang komponen gambar secara dinamis berdasarkan makna semantik, meniru bagaimana manusia membaca halaman yang rumit—terlebih dahulu memahami tata letak global, kolom, dan hubungan sebelum menyelami detail spesifik.

Pendekatan ini secara signifikan meningkatkan performa pada tata letak yang rumit, seperti dokumen struktur/teks campuran dan tabel, dengan memungkinkan AI "melihat" konteks global terlebih dahulu.

Efisiensi yang Tak Tertandingi & Spesifikasi Teknis

DeepSeek-OCR 2 memperkenalkan "Kompresi Optik Konteks," yang mampu merepresentasikan konten dengan token hingga 20 kali lebih sedikit dibandingkan dengan model tradisional. Peningkatan efisiensi yang masif ini memungkinkan untuk:

  • Resolusi Dinamis: Model ini menggunakan strategi resolusi fleksibel (default ke token komposit seperti (0-6)×768×768 + 1×1024×1024) untuk menyeimbangkan detail dan kecepatan.
  • <strong>Pengurangan Drastis</strong> dalam waktu komputasi dan penggunaan memori.
  • <strong>Skalabilitas</strong> untuk tugas-tugas penyerapan dokumen berskala besar yang akan membebani model-model lain.

Performa & Tolok Ukur

Evaluasi pada tolok ukur seperti <strong>OmniDocBench v1.5</strong> menunjukkan peningkatan 3,73% dari garis dasar sebelumnya. Lebih penting lagi, ini menandingi atau melampaui kemampuan penyedia cloud utama (Google Cloud Vision, AWS Textract) sementara berjalan jauh lebih efisien pada perangkat keras lokal.

Ini sangat unggul dalam hal:

  • Mempertahankan struktur dokumen yang rumit.
  • Mendukung lebih dari 100 bahasa.
  • Memproses konten khusus seperti rumus kimia (SMILES).

Sumber Terbuka & Ketersediaan

DeepSeek-OCR 2 sepenuhnya open-source di bawah lisensi MIT, memperkuat komitmen DeepSeek terhadap AI yang dapat diakses.

Instal via Git

git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git

Diskusi Komunitas

gary IH fung@garyfung
2026-01-27 17:45:00

apa sih yang dilakukan para jenius matematika di China dengan optimasi LLM? Ini seperti LLM Ozempic 10x

RAVI KUMAR SAHU@RAVIKUMARSAHU78
2026-01-27 19:45:00

Kemajuan yang luar biasa! Fokus pada urutan logis mirip manusia dalam pemindaian gambar dapat merevolusi pemrosesan dokumen. Bersemangat untuk melihat dampaknya pada akurasi OCR. Kerja bagus, tim DeepSeek!

Andrew Giles@giles_home
2026-01-27 16:45:00

Oh bagus sekali, agora kita memiliki AI yang melakukan apa yang dilakukan manusia, melewati judul dan paragraf ke-1 dan menjadi kesal karena paragraf ke-2 tidak mengatur adegan. 😂 Cerdas.

rpgc@rpgcai
2026-01-27 20:15:00

akhirnya, OCR yang memahami konteks tata letak alih-alih hanya pemindaian kisi

Abe@AbeIndoria
2026-01-27 15:45:00

Ada ide bagaimana perbandingannya dengan Florence?

Liza@LazyCoda
2026-01-27 16:45:00

@grok apakah saya bisa menjalankan ini dengan MBP m3? Atau di vps dan kecepatan apa yang bisa saya harapkan