DeepSeek OCR 2: Revolutionierung der Dokumentenintelligenz

DeepSeek hat offiziell DeepSeek-OCR 2 auf den Markt gebracht, ein bahnbrechendes optisches Zeichenerkennungssystem, das sich grundlegend vom traditionellen linearen Scannen hin zu einem Modell bewegt, das Bilder mit „menschlicher visueller Logik“ interpretiert.
DeepEncoder V2: Visual Causal Flow
Das Herzstück dieses Releases ist die DeepEncoder V2-Architektur. Im Gegensatz zu Standard-OCR-Tools, die Dokumente strikt Zeile für Zeile verarbeiten, nutzt DeepSeek-OCR 2 einen „Visual Causal Flow“-Mechanismus. Er ordnet Bildkomponenten dynamisch basierend auf der semantischen Bedeutung neu an und ahmt so nach, wie ein Mensch eine komplexe Seite liest – zuerst das globale Layout, die Spalten und die Beziehungen verstehen, bevor er sich in spezifische Details vertieft.
Dieser Ansatz verbessert die Leistung bei komplexen Layouts wie Dokumenten mit gemischtem Text/Struktur und Tabellen erheblich, indem er der KI ermöglicht, zuerst den globalen Kontext zu „sehen“.
Unübertroffene Effizienz & Technische Spezifikationen
DeepSeek-OCR 2 führt eine optische Kontextkomprimierung ein, die in der Lage ist, Inhalte mit bis zu 20-mal weniger Token im Vergleich zu herkömmlichen Modellen darzustellen. Dieser massive Effizienzgewinn ermöglicht Folgendes:
- Dynamische Auflösung: Das Modell nutzt eine flexible Auflösungsstrategie (standardmäßig zusammengesetzte Token wie
(0-6)×768×768 + 1×1024×1024), um Detailtreue und Geschwindigkeit auszubalancieren. - <strong>Drastische Reduzierung</strong> von Rechenzeit und Speichernutzung.
- <strong>Skalierbarkeit</strong> für großvolumige Dokumentenerfassungsaufgaben, die andere Modelle überfordern würden.
Leistung & Benchmarks
Bewertungen auf Benchmarks wie <strong>OmniDocBench v1.5</strong> zeigen eine Verbesserung von 3,73 % gegenüber früheren Baselines. Noch wichtiger ist, dass es die Fähigkeiten der großen Cloud-Anbieter (Google Cloud Vision, AWS Textract) erreicht oder übertrifft, während es auf lokaler Hardware deutlich effizienter läuft.
Es zeichnet sich besonders aus durch:
- Erhaltung komplexer Dokumentenstrukturen.
- Unterstützung von über 100 Sprachen.
- Verarbeitung von spezialisierten Inhalten wie chemischen Formeln (SMILES).
Open Source & Verfügbarkeit
DeepSeek-OCR 2 ist unter der MIT-Lizenz vollständig Open Source, was das Engagement von DeepSeek für frei zugängliche KI unterstreicht.
Über Git installieren
git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.gitCommunity-Diskussion
Was zum Teufel machen die Mathe-Geeks in China mit der LLM-Optimierung? Das ist wie LLM-Ozempic 10x
Beeindruckende Fortschritte! Der Fokus auf eine menschenähnliche logische Reihenfolge beim Bildscannen könnte die Dokumentenverarbeitung revolutionieren. Ich bin gespannt auf die Auswirkungen auf die OCR-Genauigkeit. Tolle Arbeit, DeepSeek-Team!
Oh großartig, jetzt haben wir eine KI, die genau das tut, was Menschen tun: Sie überspringt den Titel und den ersten Absatz und ärgert sich, dass der zweite Absatz nicht die Szene beschreibt. 😂 Genial.
Endlich ein OCR, das den Layoutkontext versteht, anstatt nur ein Raster abzuscannen
Irgendeine Idee, wie es im Vergleich to Florence abschneidet?
@grok Kann ich das auf einem MBP M3 ausführen? Oder auf einem VPS, und welche Geschwindigkeit kann ich erwarten?