DeepSeek OCR 2: 문서 지능의 혁신

DeepSeek가 공식적으로 DeepSeek-OCR 2를 출시했습니다. 이는 기존의 선형 스캔 방식에서 벗어나 ''인간의 시각적 논리''를 사용해 이미지를 해석하는 모델로의 근본적인 전환을 의미하는 획기적인 광학 문자 인식 시스템입니다.
DeepEncoder V2: 시각적 인과 흐름
이번 출시의 핵심은 DeepEncoder V2 아키텍처입니다. 문서를 엄격하게 한 줄씩 처리하는 일반적인 OCR 도구와 달리, DeepSeek-OCR 2는 ''시각적 인과 흐름(Visual Causal Flow)'' 메커니즘을 사용합니다. 이 모델은 세부 사항을 파악하기 전에 전체적인 레이아웃, 열, 관계를 먼저 이해하는 인간의 독서 방식을 모방하여 의미에 따라 이미지 구성 요소를 동적으로 재배치합니다.
이러한 접근 방식은 AI가 전체적인 맥락을 먼저 ''볼'' 수 있게 함으로써 텍스트와 구조가 혼재된 문서나 표와 같이 복잡한 레이아웃에서 처리 성능을 크게 향상시킵니다.
비할 데 없는 효율성 및 기술 사양
DeepSeek-OCR 2는 ''맥락 시각 압축'' 기술을 도입하여 기존 모델에 비해 최대 20배 적은 토큰으로 콘텐츠를 표현할 수 있습니다. 이러한 엄청난 효율성 향상을 통해 다음이 가능해집니다:
- 동적 해상도: 모델은 디테일과 속도의 균형을 맞추기 위해 유연한 해상도 전략(기본적으로
(0-6)×768×768 + 1×1024×1024와 같은 복합 토큰 사용)을 활용합니다. - 연산 시간 및 메모리 사용량의 <strong>획기적인 감소</strong>.
- 다른 모델을 압도할 수 있는 대규모 문서 처리 작업에 대한 <strong>확장성</strong>.
성능 및 벤치마크
<strong>OmniDocBench v1.5</strong>와 같은 벤치마크 테스트 평가 결과, 이전 베이스라인 대비 3.73% 향상된 성능을 보여주었습니다. 더 중요한 것은 로컬 하드웨어에서 훨씬 더 효율적으로 실행되면서도 주요 클라우드 제공업체(Google Cloud Vision, AWS Textract)의 기능과 대등하거나 능가한다는 점입니다.
특히 다음과 같은 분야에서 탁월합니다:
- 복잡한 문서 구조 보존.
- 100개 이상의 언어 지원.
- 화학식(SMILES)과 같은 전문적인 콘텐츠 처리.
오픈 소스 및 이용 안내
DeepSeek-OCR 2는 MIT 라이선스 하에 완전히 오픈 소스로 제공되며, 누구나 쉽게 사용할 수 있는 인공지능을 구축하려는 DeepSeek의 약속을 실천하고 있습니다.
Git을 통한 설치
git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git커뮤니티 토론
중국의 수학 천재들은 LLM 최적화로 도대체 무슨 짓을 하고 있는 걸까? 이건 LLM 업계의 오젬픽(Ozempic)이다. 효율성이 10배나 뛰었다!
놀라운 발전입니다! 이미지 스캔 시 인간과 유사한 논리적 순서에 초점을 맞추는 것은 문서 처리에 혁신을 가져올 수 있습니다. OCR 정확도에 미칠 영향이 매우 기대됩니다. DeepSeek 팀 수고하셨습니다!
좋군요, 이제 인간과 똑같이 행동하는 AI가 생겼네요. 제목과 첫 번째 문단은 건너뛰고, 두 번째 문단이 상황 설명을 하지 않는다고 짜증을 내는군요. 😂 대단합니다.
드디어 단순한 그리드 스캔이 아니라 레이아웃 맥락을 이해하는 OCR이 나왔다.
Florence 모델과 비교해 어떤지 아시는 분 계신가요?
@grok 이걸 M3 칩 탑재 MBP에서 실행할 수 있나요? 아니면 VPS에서 실행한다면 어느 정도의 속도를 기대할 수 있을까요?