DeepSeek OCR 2: Merevolusi Kecerdasan Dokumen

DeepSeek telah secara resmi meluncurkan DeepSeek-OCR 2, sistem pengenalan karakter optik terobosan yang secara mendasar bergeser dari pemindaian linier tradisional ke model yang menafsirkan gambar dengan "logika visual manusia".
DeepEncoder V2: Aliran Kausal Visual
Inti dari rilis ini adalah arsitektur DeepEncoder V2. Berbeda dengan alat OCR standar yang memproses dokumen secara ketat baris demi baris, DeepSeek-OCR 2 menggunakan mekanisme "Aliran Kausal Visual". Ini mengatur ulang komponen gambar secara dinamis berdasarkan makna semantik, meniru bagaimana manusia membaca halaman yang rumit—terlebih dahulu memahami tata letak global, kolom, dan hubungan sebelum menyelami detail spesifik.
Pendekatan ini secara signifikan meningkatkan performa pada tata letak yang rumit, seperti dokumen struktur/teks campuran dan tabel, dengan memungkinkan AI "melihat" konteks global terlebih dahulu.
Efisiensi yang Tak Tertandingi & Spesifikasi Teknis
DeepSeek-OCR 2 memperkenalkan "Kompresi Optik Konteks," yang mampu merepresentasikan konten dengan token hingga 20 kali lebih sedikit dibandingkan dengan model tradisional. Peningkatan efisiensi yang masif ini memungkinkan untuk:
- Resolusi Dinamis: Model ini menggunakan strategi resolusi fleksibel (default ke token komposit seperti
(0-6)×768×768 + 1×1024×1024) untuk menyeimbangkan detail dan kecepatan. - <strong>Pengurangan Drastis</strong> dalam waktu komputasi dan penggunaan memori.
- <strong>Skalabilitas</strong> untuk tugas-tugas penyerapan dokumen berskala besar yang akan membebani model-model lain.
Performa & Tolok Ukur
Evaluasi pada tolok ukur seperti <strong>OmniDocBench v1.5</strong> menunjukkan peningkatan 3,73% dari garis dasar sebelumnya. Lebih penting lagi, ini menandingi atau melampaui kemampuan penyedia cloud utama (Google Cloud Vision, AWS Textract) sementara berjalan jauh lebih efisien pada perangkat keras lokal.
Ini sangat unggul dalam hal:
- Mempertahankan struktur dokumen yang rumit.
- Mendukung lebih dari 100 bahasa.
- Memproses konten khusus seperti rumus kimia (SMILES).
Sumber Terbuka & Ketersediaan
DeepSeek-OCR 2 sepenuhnya open-source di bawah lisensi MIT, memperkuat komitmen DeepSeek terhadap AI yang dapat diakses.
Instal via Git
git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.gitDiskusi Komunitas
apa sih yang dilakukan para jenius matematika di China dengan optimasi LLM? Ini seperti LLM Ozempic 10x
Kemajuan yang luar biasa! Fokus pada urutan logis mirip manusia dalam pemindaian gambar dapat merevolusi pemrosesan dokumen. Bersemangat untuk melihat dampaknya pada akurasi OCR. Kerja bagus, tim DeepSeek!
Oh bagus sekali, agora kita memiliki AI yang melakukan apa yang dilakukan manusia, melewati judul dan paragraf ke-1 dan menjadi kesal karena paragraf ke-2 tidak mengatur adegan. 😂 Cerdas.
akhirnya, OCR yang memahami konteks tata letak alih-alih hanya pemindaian kisi
Ada ide bagaimana perbandingannya dengan Florence?
@grok apakah saya bisa menjalankan ini dengan MBP m3? Atau di vps dan kecepatan apa yang bisa saya harapkan