2026년 1월 27일

DeepSeek OCR 2: 문서 지능의 혁신

DeepSeek가 공식적으로 DeepSeek-OCR 2를 출시했습니다. 이는 기존의 선형 스캔 방식에서 벗어나 ''인간의 시각적 논리''를 사용해 이미지를 해석하는 모델로의 근본적인 전환을 의미하는 획기적인 광학 문자 인식 시스템입니다.

DeepEncoder V2: 시각적 인과 흐름

이번 출시의 핵심은 DeepEncoder V2 아키텍처입니다. 문서를 엄격하게 한 줄씩 처리하는 일반적인 OCR 도구와 달리, DeepSeek-OCR 2는 ''시각적 인과 흐름(Visual Causal Flow)'' 메커니즘을 사용합니다. 이 모델은 세부 사항을 파악하기 전에 전체적인 레이아웃, 열, 관계를 먼저 이해하는 인간의 독서 방식을 모방하여 의미에 따라 이미지 구성 요소를 동적으로 재배치합니다.

이러한 접근 방식은 AI가 전체적인 맥락을 먼저 ''볼'' 수 있게 함으로써 텍스트와 구조가 혼재된 문서나 표와 같이 복잡한 레이아웃에서 처리 성능을 크게 향상시킵니다.

비할 데 없는 효율성 및 기술 사양

DeepSeek-OCR 2는 ''맥락 시각 압축'' 기술을 도입하여 기존 모델에 비해 최대 20배 적은 토큰으로 콘텐츠를 표현할 수 있습니다. 이러한 엄청난 효율성 향상을 통해 다음이 가능해집니다:

동적 해상도: 모델은 디테일과 속도의 균형을 맞추기 위해 유연한 해상도 전략(기본적으로 (0-6)×768×768 + 1×1024×1024와 같은 복합 토큰 사용)을 활용합니다.
연산 시간 및 메모리 사용량의 획기적인 감소.
다른 모델을 압도할 수 있는 대규모 문서 처리 작업에 대한 확장성.

성능 및 벤치마크

OmniDocBench v1.5와 같은 벤치마크 테스트 평가 결과, 이전 베이스라인 대비 3.73% 향상된 성능을 보여주었습니다. 더 중요한 것은 로컬 하드웨어에서 훨씬 더 효율적으로 실행되면서도 주요 클라우드 제공업체(Google Cloud Vision, AWS Textract)의 기능과 대등하거나 능가한다는 점입니다.

특히 다음과 같은 분야에서 탁월합니다:

복잡한 문서 구조 보존.
100개 이상의 언어 지원.
화학식(SMILES)과 같은 전문적인 콘텐츠 처리.

오픈 소스 및 이용 안내

DeepSeek-OCR 2는 MIT 라이선스 하에 완전히 오픈 소스로 제공되며, 누구나 쉽게 사용할 수 있는 인공지능을 구축하려는 DeepSeek의 약속을 실천하고 있습니다.

GitHub에서 보기 🤗 모델 보기

Git을 통한 설치

git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git

커뮤니티 토론

gary IH fung@garyfung

2026-01-27 17:45:00

중국의 수학 천재들은 LLM 최적화로 도대체 무슨 짓을 하고 있는 걸까? 이건 LLM 업계의 오젬픽(Ozempic)이다. 효율성이 10배나 뛰었다!

RAVI KUMAR SAHU@RAVIKUMARSAHU78

2026-01-27 19:45:00

놀라운 발전입니다! 이미지 스캔 시 인간과 유사한 논리적 순서에 초점을 맞추는 것은 문서 처리에 혁신을 가져올 수 있습니다. OCR 정확도에 미칠 영향이 매우 기대됩니다. DeepSeek 팀 수고하셨습니다!

Andrew Giles@giles_home

2026-01-27 16:45:00

좋군요, 이제 인간과 똑같이 행동하는 AI가 생겼네요. 제목과 첫 번째 문단은 건너뛰고, 두 번째 문단이 상황 설명을 하지 않는다고 짜증을 내는군요. 😂 대단합니다.

rpgc@rpgcai

2026-01-27 20:15:00

드디어 단순한 그리드 스캔이 아니라 레이아웃 맥락을 이해하는 OCR이 나왔다.

Abe@AbeIndoria

2026-01-27 15:45:00

Florence 모델과 비교해 어떤지 아시는 분 계신가요?

Liza@LazyCoda

2026-01-27 16:45:00

@grok 이걸 M3 칩 탑재 MBP에서 실행할 수 있나요? 아니면 VPS에서 실행한다면 어느 정도의 속도를 기대할 수 있을까요?