AI OCR LogoAI OCR
Zurück zum Blog

DeepSeek OCR 2: Revolutionierung der Dokumentenintelligenz

DeepSeek OCR 2 Visual Causal Flow

DeepSeek hat offiziell DeepSeek-OCR 2 auf den Markt gebracht, ein bahnbrechendes optisches Zeichenerkennungssystem, das sich grundlegend vom traditionellen linearen Scannen hin zu einem Modell bewegt, das Bilder mit „menschlicher visueller Logik“ interpretiert.

DeepEncoder V2: Visual Causal Flow

Das Herzstück dieses Releases ist die DeepEncoder V2-Architektur. Im Gegensatz zu Standard-OCR-Tools, die Dokumente strikt Zeile für Zeile verarbeiten, nutzt DeepSeek-OCR 2 einen „Visual Causal Flow“-Mechanismus. Er ordnet Bildkomponenten dynamisch basierend auf der semantischen Bedeutung neu an und ahmt so nach, wie ein Mensch eine komplexe Seite liest – zuerst das globale Layout, die Spalten und die Beziehungen verstehen, bevor er sich in spezifische Details vertieft.

Dieser Ansatz verbessert die Leistung bei komplexen Layouts wie Dokumenten mit gemischtem Text/Struktur und Tabellen erheblich, indem er der KI ermöglicht, zuerst den globalen Kontext zu „sehen“.

Unübertroffene Effizienz & Technische Spezifikationen

DeepSeek-OCR 2 führt eine optische Kontextkomprimierung ein, die in der Lage ist, Inhalte mit bis zu 20-mal weniger Token im Vergleich zu herkömmlichen Modellen darzustellen. Dieser massive Effizienzgewinn ermöglicht Folgendes:

  • Dynamische Auflösung: Das Modell nutzt eine flexible Auflösungsstrategie (standardmäßig zusammengesetzte Token wie (0-6)×768×768 + 1×1024×1024), um Detailtreue und Geschwindigkeit auszubalancieren.
  • <strong>Drastische Reduzierung</strong> von Rechenzeit und Speichernutzung.
  • <strong>Skalierbarkeit</strong> für großvolumige Dokumentenerfassungsaufgaben, die andere Modelle überfordern würden.

Leistung & Benchmarks

Bewertungen auf Benchmarks wie <strong>OmniDocBench v1.5</strong> zeigen eine Verbesserung von 3,73 % gegenüber früheren Baselines. Noch wichtiger ist, dass es die Fähigkeiten der großen Cloud-Anbieter (Google Cloud Vision, AWS Textract) erreicht oder übertrifft, während es auf lokaler Hardware deutlich effizienter läuft.

Es zeichnet sich besonders aus durch:

  • Erhaltung komplexer Dokumentenstrukturen.
  • Unterstützung von über 100 Sprachen.
  • Verarbeitung von spezialisierten Inhalten wie chemischen Formeln (SMILES).

Open Source & Verfügbarkeit

DeepSeek-OCR 2 ist unter der MIT-Lizenz vollständig Open Source, was das Engagement von DeepSeek für frei zugängliche KI unterstreicht.

Über Git installieren

git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git

Community-Diskussion

gary IH fung@garyfung
2026-01-27 17:45:00

Was zum Teufel machen die Mathe-Geeks in China mit der LLM-Optimierung? Das ist wie LLM-Ozempic 10x

RAVI KUMAR SAHU@RAVIKUMARSAHU78
2026-01-27 19:45:00

Beeindruckende Fortschritte! Der Fokus auf eine menschenähnliche logische Reihenfolge beim Bildscannen könnte die Dokumentenverarbeitung revolutionieren. Ich bin gespannt auf die Auswirkungen auf die OCR-Genauigkeit. Tolle Arbeit, DeepSeek-Team!

Andrew Giles@giles_home
2026-01-27 16:45:00

Oh großartig, jetzt haben wir eine KI, die genau das tut, was Menschen tun: Sie überspringt den Titel und den ersten Absatz und ärgert sich, dass der zweite Absatz nicht die Szene beschreibt. 😂 Genial.

rpgc@rpgcai
2026-01-27 20:15:00

Endlich ein OCR, das den Layoutkontext versteht, anstatt nur ein Raster abzuscannen

Abe@AbeIndoria
2026-01-27 15:45:00

Irgendeine Idee, wie es im Vergleich to Florence abschneidet?

Liza@LazyCoda
2026-01-27 16:45:00

@grok Kann ich das auf einem MBP M3 ausführen? Oder auf einem VPS, und welche Geschwindigkeit kann ich erwarten?