AI OCR LogoAI OCR
Volver al Blog

DeepSeek OCR 2: Revolucionando la inteligencia de documentos

Flujo causal visual de DeepSeek OCR 2

DeepSeek ha lanzado oficialmente DeepSeek-OCR 2, un innovador sistema de reconocimiento óptico de caracteres que cambia fundamentalmente el escaneo lineal tradicional por un modelo que interpreta las imágenes con "lógica visual humana".

DeepEncoder V2: Flujo causal visual

En el núcleo de este lanzamiento se encuentra la arquitectura DeepEncoder V2. A diferencia de las herramientas de OCR estándar que procesan documentos estrictamente línea por línea, DeepSeek-OCR 2 emplea un mecanismo de "Flujo causal visual". Reorganiza dinámicamente los componentes de la imagen en función del significado semántico, imitando la forma en que un humano lee una página compleja: primero comprende el diseño global, las columnas y las relaciones antes de sumergirse en los detalles específicos.

Este enfoque mejora significativamente el rendimiento en diseños complejos, como documentos con texto/estructura mixtos y tablas, al permitir que la IA "vea" el contexto global primero.

Eficiencia inigualable y especificaciones técnicas

DeepSeek-OCR 2 presenta la "Compresión óptica de contextos", capaz de representar contenido con hasta 20 veces menos tokens en comparación con los modelos tradicionales. Esta enorme ganancia de eficiencia permite:

  • Resolución dinámica: El modelo utiliza una estrategia de resolución flexible (predeterminada en tokens compuestos como (0-6)×768×768 + 1×1024×1024) para equilibrar el detalle y la velocidad.
  • <strong>Reducción drástica</strong> en el tiempo de computación y el uso de memoria.
  • <strong>Escalabilidad</strong> para tareas de ingesta de documentos a gran escala que abrumarían a otros modelos.

Rendimiento y puntos de referencia

Las evaluaciones en puntos de referencia como <strong>OmniDocBench v1.5</strong> muestran una mejora del 3.73% sobre las líneas base anteriores. Más importante aún, iguala o supera las capacidades de los principales proveedores de la nube (Google Cloud Vision, AWS Textract) mientras se ejecuta de manera significativamente más eficiente en hardware local.

Destaca particularmente en:

  • Preservar estructuras de documentos complejas.
  • Soporte para más de 100 idiomas.
  • Procesamiento de contenido especializado como fórmulas químicas (SMILES).

Código abierto y disponibilidad

DeepSeek-OCR 2 es totalmente de código abierto bajo la licencia MIT, lo que refuerza el compromiso de DeepSeek con una IA accesible.

Instalar mediante Git

git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git

Discusión de la comunidad

gary IH fung@garyfung
2026-01-27 17:45:00

¿Qué demonios están haciendo los genios de las matemáticas en China con la optimización de LLM? Esto es como Ozempic para LLM x10

RAVI KUMAR SAHU@RAVIKUMARSAHU78
2026-01-27 19:45:00

¡Avances impresionantes! El enfoque en el orden lógico de tipo humano en el escaneo de imágenes podría revolucionar el procesamiento de documentos. Emocionado por ver el impacto en la precisión del OCR. ¡Excelente trabajo, equipo de DeepSeek!

Andrew Giles@giles_home
2026-01-27 16:45:00

Ah, genial, ahora tenemos una IA que hace lo que hacen los humanos: se salta el título y el primer párrafo y se molesta porque el segundo párrafo no sitúa la escena. 😂 Brillante.

rpgc@rpgcai
2026-01-27 20:15:00

Por fin, un OCR que entiende el contexto del diseño en lugar de limitarse a escanear en cuadrícula

Abe@AbeIndoria
2026-01-27 15:45:00

¿Alguna idea de cómo se compara con Florence?

Liza@LazyCoda
2026-01-27 16:45:00

@grok ¿puedo ejecutar esto con una MBP m3? O en un vps, y qué velocidad puedo esperar