DeepSeek OCR 2: Revolucionando la inteligencia de documentos

DeepSeek ha lanzado oficialmente DeepSeek-OCR 2, un innovador sistema de reconocimiento óptico de caracteres que cambia fundamentalmente el escaneo lineal tradicional por un modelo que interpreta las imágenes con "lógica visual humana".
DeepEncoder V2: Flujo causal visual
En el núcleo de este lanzamiento se encuentra la arquitectura DeepEncoder V2. A diferencia de las herramientas de OCR estándar que procesan documentos estrictamente línea por línea, DeepSeek-OCR 2 emplea un mecanismo de "Flujo causal visual". Reorganiza dinámicamente los componentes de la imagen en función del significado semántico, imitando la forma en que un humano lee una página compleja: primero comprende el diseño global, las columnas y las relaciones antes de sumergirse en los detalles específicos.
Este enfoque mejora significativamente el rendimiento en diseños complejos, como documentos con texto/estructura mixtos y tablas, al permitir que la IA "vea" el contexto global primero.
Eficiencia inigualable y especificaciones técnicas
DeepSeek-OCR 2 presenta la "Compresión óptica de contextos", capaz de representar contenido con hasta 20 veces menos tokens en comparación con los modelos tradicionales. Esta enorme ganancia de eficiencia permite:
- Resolución dinámica: El modelo utiliza una estrategia de resolución flexible (predeterminada en tokens compuestos como
(0-6)×768×768 + 1×1024×1024) para equilibrar el detalle y la velocidad. - <strong>Reducción drástica</strong> en el tiempo de computación y el uso de memoria.
- <strong>Escalabilidad</strong> para tareas de ingesta de documentos a gran escala que abrumarían a otros modelos.
Rendimiento y puntos de referencia
Las evaluaciones en puntos de referencia como <strong>OmniDocBench v1.5</strong> muestran una mejora del 3.73% sobre las líneas base anteriores. Más importante aún, iguala o supera las capacidades de los principales proveedores de la nube (Google Cloud Vision, AWS Textract) mientras se ejecuta de manera significativamente más eficiente en hardware local.
Destaca particularmente en:
- Preservar estructuras de documentos complejas.
- Soporte para más de 100 idiomas.
- Procesamiento de contenido especializado como fórmulas químicas (SMILES).
Código abierto y disponibilidad
DeepSeek-OCR 2 es totalmente de código abierto bajo la licencia MIT, lo que refuerza el compromiso de DeepSeek con una IA accesible.
Instalar mediante Git
git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.gitDiscusión de la comunidad
¿Qué demonios están haciendo los genios de las matemáticas en China con la optimización de LLM? Esto es como Ozempic para LLM x10
¡Avances impresionantes! El enfoque en el orden lógico de tipo humano en el escaneo de imágenes podría revolucionar el procesamiento de documentos. Emocionado por ver el impacto en la precisión del OCR. ¡Excelente trabajo, equipo de DeepSeek!
Ah, genial, ahora tenemos una IA que hace lo que hacen los humanos: se salta el título y el primer párrafo y se molesta porque el segundo párrafo no sitúa la escena. 😂 Brillante.
Por fin, un OCR que entiende el contexto del diseño en lugar de limitarse a escanear en cuadrícula
¿Alguna idea de cómo se compara con Florence?
@grok ¿puedo ejecutar esto con una MBP m3? O en un vps, y qué velocidad puedo esperar