27 de enero de 2026

DeepSeek OCR 2: Revolucionando la inteligencia de documentos

DeepSeek ha lanzado oficialmente DeepSeek-OCR 2, un innovador sistema de reconocimiento óptico de caracteres que cambia fundamentalmente el escaneo lineal tradicional por un modelo que interpreta las imágenes con "lógica visual humana".

DeepEncoder V2: Flujo causal visual

En el núcleo de este lanzamiento se encuentra la arquitectura DeepEncoder V2. A diferencia de las herramientas de OCR estándar que procesan documentos estrictamente línea por línea, DeepSeek-OCR 2 emplea un mecanismo de "Flujo causal visual". Reorganiza dinámicamente los componentes de la imagen en función del significado semántico, imitando la forma en que un humano lee una página compleja: primero comprende el diseño global, las columnas y las relaciones antes de sumergirse en los detalles específicos.

Este enfoque mejora significativamente el rendimiento en diseños complejos, como documentos con texto/estructura mixtos y tablas, al permitir que la IA "vea" el contexto global primero.

Eficiencia inigualable y especificaciones técnicas

DeepSeek-OCR 2 presenta la "Compresión óptica de contextos", capaz de representar contenido con hasta 20 veces menos tokens en comparación con los modelos tradicionales. Esta enorme ganancia de eficiencia permite:

Resolución dinámica: El modelo utiliza una estrategia de resolución flexible (predeterminada en tokens compuestos como (0-6)×768×768 + 1×1024×1024) para equilibrar el detalle y la velocidad.
Reducción drástica en el tiempo de computación y el uso de memoria.
Escalabilidad para tareas de ingesta de documentos a gran escala que abrumarían a otros modelos.

Rendimiento y puntos de referencia

Las evaluaciones en puntos de referencia como OmniDocBench v1.5 muestran una mejora del 3.73% sobre las líneas base anteriores. Más importante aún, iguala o supera las capacidades de los principales proveedores de la nube (Google Cloud Vision, AWS Textract) mientras se ejecuta de manera significativamente más eficiente en hardware local.

Destaca particularmente en:

Preservar estructuras de documentos complejas.
Soporte para más de 100 idiomas.
Procesamiento de contenido especializado como fórmulas químicas (SMILES).

Código abierto y disponibilidad

DeepSeek-OCR 2 es totalmente de código abierto bajo la licencia MIT, lo que refuerza el compromiso de DeepSeek con una IA accesible.

Ver en GitHub 🤗 Ver modelos

Instalar mediante Git

git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git

Discusión de la comunidad

gary IH fung@garyfung

2026-01-27 17:45:00

¿Qué demonios están haciendo los genios de las matemáticas en China con la optimización de LLM? Esto es como Ozempic para LLM x10

RAVI KUMAR SAHU@RAVIKUMARSAHU78

2026-01-27 19:45:00

¡Avances impresionantes! El enfoque en el orden lógico de tipo humano en el escaneo de imágenes podría revolucionar el procesamiento de documentos. Emocionado por ver el impacto en la precisión del OCR. ¡Excelente trabajo, equipo de DeepSeek!

Andrew Giles@giles_home

2026-01-27 16:45:00

Ah, genial, ahora tenemos una IA que hace lo que hacen los humanos: se salta el título y el primer párrafo y se molesta porque el segundo párrafo no sitúa la escena. 😂 Brillante.

rpgc@rpgcai

2026-01-27 20:15:00

Por fin, un OCR que entiende el contexto del diseño en lugar de limitarse a escanear en cuadrícula

Abe@AbeIndoria

2026-01-27 15:45:00

¿Alguna idea de cómo se compara con Florence?

Liza@LazyCoda

2026-01-27 16:45:00

@grok ¿puedo ejecutar esto con una MBP m3? O en un vps, y qué velocidad puedo esperar