27 janvier 2026

DeepSeek OCR 2 : Révolutionner l''intelligence documentaire

DeepSeek a officiellement lancé DeepSeek-OCR 2, un système révolutionnaire de reconnaissance optique de caractères qui passe fondamentalement de la numérisation linéaire traditionnelle à un modèle qui interprète les images avec une « logique visuelle humaine ».

DeepEncoder V2 : Flux causal visuel

Au cœur de cette version se trouve l''architecture DeepEncoder V2. Contrairement aux outils OCR standard qui traitent les documents strictement ligne par ligne, DeepSeek-OCR 2 utilise un mécanisme de « flux causal visuel ». Il réorganise dynamiquement les composants de l''image en fonction de leur signification sémantique, imitant la façon dont un humain lit une page complexe — en comprenant d''abord la mise en page globale, les colonnes et les relations avant de plonger dans les détails spécifiques.

Cette approche améliore considérablement les performances sur les mises en page complexes, telles que les documents contenant du texte/structure mixte et des tableaux, en permettant à l''IA de « voir » d''abord le contexte global.

Efficacité inégalée & Spécifications techniques

DeepSeek-OCR 2 introduit la « compression optique des contextes », capable de représenter le contenu avec jusqu''à 20 fois moins de jetons par rapport aux modèles traditionnels. Ce gain d''efficacité massif permet :

Résolution dynamique : Le modèle utilise une stratégie de résolution flexible (par défaut des jetons composites comme (0-6)×768×768 + 1×1024×1024) pour équilibrer les détails et la vitesse.
Réduction drastique du temps de calcul et de l''utilisation de la mémoire.
Évolutivité pour les tâches d''intégration de documents à grande échelle qui submergeraient d''autres modèles.

Performances & Repères

Les évaluations sur des repères comme OmniDocBench v1.5 démontrent une amélioration de 3,73 % par rapport aux références précédentes. Plus important encore, il égale ou dépasse les capacités des principaux fournisseurs de cloud (Google Cloud Vision, AWS Textract) tout en fonctionnant de manière beaucoup plus efficace sur le matériel local.

Il excelle particulièrement dans :

La préservation des structures documentaires complexes.
La prise en charge de plus de 100 langues.
Le traitement de contenus spécialisés comme les formules chimiques (SMILES).

Open Source & Disponibilité

DeepSeek-OCR 2 est entièrement open-source sous la licence MIT, renforçant l''engagement de DeepSeek en faveur d''une IA accessible.

Voir sur GitHub 🤗 Voir les modèles

Installer via Git

git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git

Discussion communautaire

gary IH fung@garyfung

2026-01-27 17:45:00

Qu''est-ce que les génies des maths en Chine fabriquent avec l''optimisation des LLM ? C''est comme de l''Ozempic pour LLM x10

RAVI KUMAR SAHU@RAVIKUMARSAHU78

2026-01-27 19:45:00

Des avancées impressionnantes ! L''accent mis sur un ordre logique de type humain dans la numérisation d''images pourrait révolutionner le traitement des documents. Hâte de voir l''impact sur la précision de l''OCR. Beau travail, l''équipe DeepSeek !

Andrew Giles@giles_home

2026-01-27 16:45:00

Oh génial, maintenant on a une IA qui fait ce que font les humains : elle saute le titre et le premier paragraphe et s''énerve que le deuxième paragraphe ne pose pas le décor. 😂 Brillant.

rpgc@rpgcai

2026-01-27 20:15:00

Enfin, un OCR qui comprend le contexte de la mise en page au lieu de faire un simple balayage par grille

Abe@AbeIndoria

2026-01-27 15:45:00

Une idée de la comparaison avec Florence ?

Liza@LazyCoda

2026-01-27 16:45:00

@grok est-ce que je peux faire tourner ça sur un MBP M3 ? Ou sur un VPS, et à quelle vitesse puis-je m''attendre ?