시각 혁명: AI가 텍스트를 읽는 대신 '보는' 법을 배운 방법
중국 딥시크(DeepSeek), 급진적인 압축 기술로 수십 년간 이어진 AI 정설을 뒤집다 – 기계 정보 처리 방식 재편 가능성
실리콘밸리 — 인공지능에 대한 근본적인 가정에 도전하는 한 연구에서, 딥시크(DeepSeek) 연구진은 컴퓨터가 긴 문서를 단어별로 처리하는 대신 인간처럼 '이미지'로 바라봄으로써 훨씬 효율적으로 다룰 수 있음을 입증했습니다.
오늘 발표된 논문에서 자세히 설명된 이 획기적인 기술은 DeepSeek-OCR이라는 시스템을 소개합니다. 이 시스템은 컴퓨터 과학자들이 오랫동안 추구해왔던 목표, 즉 의미 손실 없이 방대한 텍스트를 처리하는 데 드는 막대한 계산 비용을 극적으로 압축하는 방법을 달성했습니다.
이 혁신의 핵심에는 직관에 반하는 아이디어가 있습니다. 문건이 길어질수록 기하급수적으로 비용이 증가하는 표준 방식인 수천 개의 개별 단어 토큰을 AI 시스템에 입력하는 대신, 연구진은 텍스트를 이미지로 렌더링합니다. 그런 다음 특수 시각 인코더가 해당 이미지를 원본 데이터의 극히 일부로 압축하고, 언어 모델은 이를 다시 전체 텍스트로 '압축 해제'합니다.
독립적인 AI 연구 단체인 CTOL.digital 엔지니어링 팀은 "이는 단순히 OCR(광학 문자 인식) 성능 향상을 넘어선다"고 강조하며, "비용이 많이 드는 텍스트 토큰을 고밀도 2D 시각 토큰으로 교체하여 LLM(대규모 언어 모델)의 컨텍스트 병목 현상을 해결하는 것"이라고 분석했습니다.
중요한 수치들
측정 지표에서 그 의미가 명확하게 드러납니다. DeepSeek-OCR은 텍스트를 10대 1 비율로 압축하면서 약 97%의 정확도를 달성합니다. 이는 일반적으로 1,000개의 텍스트 토큰이 필요했던 것을 단 100개의 시각 토큰으로 표현하는 것입니다. 심지어 더 적극적인 20대 1 압축에서도 시스템은 60%의 정확도를 유지합니다.
복잡한 문서 레이아웃, 수식, 표 등을 대상으로 AI 시스템을 테스트하는 옴니독벤치(OmniDocBench) 벤치마크에서, DeepSeek-OCR은 기존 시스템들을 능가하는 성능을 보이면서도 계산 자원을 한 자릿수 이상 적게 사용했습니다. MinerU 2.0과 같은 경쟁 시스템이 페이지당 평균 6,000개의 토큰을 필요로 했던 반면, DeepSeek-OCR은 800개 미만의 토큰으로 유사하거나 더 나은 결과를 달성했습니다.
실질적인 시사점은 엄청납니다. 연구진은 단일 고성능 GPU에서 하루 20만 페이지 이상의 문서 처리 능력을 보고했으며, 이는 중간 규모 클러스터에서 하루 3,300만 페이지까지 확장될 수 있는 처리량입니다.
새로운 메모리 아키텍처
아마도 이 연구의 가장 도발적인 측면은 OCR 성능 자체가 아니라 AI 시스템의 미래에 대해 시사하는 바일 것입니다. CTOL.digital 팀은 '시각 기억(visual memory)' 패러다임이라고 부르는 것을 확인했습니다. 이는 AI 시스템이 인간과 유사하게 등급화된 기억을 유지하며, 최신 정보는 고해상도로 저장하고 오래된 컨텍스트는 점차적으로 저해상도 압축 이미지로 '희미해지는' 가능성을 의미합니다.
이러한 발전을 추적하는 커뮤니티 연구자들은 "모델이 텍스트를 직접 '볼' 수 있다면, 시각 입력이 텍스트 토큰보다 저렴하고 더 인간적일 수 있다"고 언급했습니다. "최신 컨텍스트는 고정밀 타일과 같고, 오래된 컨텍스트는 미세한 모드와 같아서 자연스럽게 망각이 나타난다"는 것입니다.
이 접근 방식은 AI 시스템이 긴 컨텍스트 이해라는 고질적인 문제를 다루는 방식을 근본적으로 바꿀 수 있습니다. 현재 언어 모델은 길이가 길어질수록 계산 비용이 제곱으로 증가하기 때문에 긴 문서, 대화 또는 코드베이스를 처리하는 데 어려움을 겪습니다. DeepSeek-OCR은 대안을 제시합니다. 오래된 컨텍스트를 압축된 이미지로 렌더링하고, 최신 정보는 완전한 충실도로 유지하면서 멀리 떨어진 컨텍스트에 대한 자연스러운 '망각'을 허용하는 것입니다.
획기적인 기술의 아키텍처
이 시스템의 효율성은 약 3억 8천만 개의 파라미터를 가진 세 단계 인코더 아키텍처와, 추론 단계당 5억 7천만 개의 파라미터만 활성화되는 30억 개의 파라미터를 가진 MoE(Mixture-of-Experts) 디코더의 조합에서 비롯됩니다.
인코더의 첫 번째 단계는 메모리에 과부하를 주지 않고 고해상도 이미지를 로컬에서 처리하기 위해 윈도우드 어텐션(windowed attention)을 사용합니다. 이후 컨볼루션 네트워크가 중요한 압축 단계인 16배 공격적인 다운샘플링을 수행하고, 마지막 전역 어텐션(global attention) 단계에서 이제 관리 가능한 토큰 수에 대한 전체적인 컨텍스트를 포착합니다.
CTOL.digital의 분석은 이 설계의 우아함을 강조했습니다. "1024×1024 이미지는 4096개의 패치 토큰을 생성하고, 전역 어텐션 이전에 256개의 토큰으로 다운샘플링하여 활성화(activations)를 관리 가능하게 유지합니다."
시스템 훈련에는 기본적인 OCR 기능을 위해 약 4,300만 쌍의 이미지-텍스트 쌍과, 차트 분석 및 화학 구조 인식과 같은 고급 작업을 위해 1,600만 쌍의 특수 쌍을 처리해야 했습니다. 연구팀은 각각 8개의 고성능 GPU를 장착한 20개 노드에서 훈련을 진행했으며, 이는 최첨단 AI 연구를 점점 더 정의하는 규모입니다.
텍스트 인식을 넘어서
이 시스템은 단순한 텍스트 전사를 훨씬 뛰어넘는 기능을 보여줍니다. 차트를 구조화된 데이터로 분석하고, 화학 다이어그램을 표준 표기법으로 변환하며, 기하학적 도형을 해석하고, 약 100개 언어를 처리할 수 있습니다. 시연에서는 일반 텍스트뿐만 아니라 HTML 테이블, 마크다운(Markdown), 좌표 기반 레이아웃을 포함한 구조화된 형식으로 출력하는 능력을 보여주었습니다.
하지만 CTOL.digital 팀은 중요한 주의사항도 언급했습니다. "97%의 정확도는 엄격한 OCR 사용 사례에는 충분하지 않습니다. 아이디어는 훌륭하지만, 중요한 파이프라인에서는 정확도가 부족할 수 있습니다." 의료 기록이나 금융 계약과 같이 완벽한 정확도가 필수적인 애플리케이션에서는 여전히 인간의 감독이 중요할 것입니다.
혁신의 패턴
이번 개발은 주류 접근 방식에 도전하는 기초 연구를 발표하며 인정을 받아온 DeepSeek-AI의 광범위한 혁신 패턴과 일치합니다. AI 연구 커뮤니티의 구성원들은 "딥시크는 다른 연구자들이 시도하는 데 수년이 걸리는 기본 모델 아이디어를 계속해서 내놓고 있다"며, "제품 개선보다는 AGI(범용 인공지능) 지향적인 연구처럼 느껴진다"고 평가했습니다.
이 연구는 또한 AI 시스템에서 시각과 언어의 미래 관계에 대한 흥미로운 질문을 제기합니다. 압축률에서 도출되는 경험칙에 따르면, 시각 토큰이 텍스트 토큰보다 약 10배 많은 의미론적 내용을 담을 수 있다면, 미래의 AI 시스템은 시각 처리 방식을 선호하여 텍스트 토큰화를 완전히 포기할 수도 있을까요?
연구자들은 "이것이 확장된다면, 차세대 장문 컨텍스트 LLM은 원본 토큰 문자열 대신 사고의 스크린샷을 기억할 수도 있다"고 추측했습니다.
앞으로의 과제
중요한 질문들이 남아 있습니다. 이 접근 방식이 잘 정리된 문서 외에 자유 형식 텍스트에 얼마나 일반화될 수 있을까요? 다양한 레이아웃에 대한 최적의 타일링 및 해상도 정책은 무엇일까요? 그리고 압축 이점을 유지하면서 정확도 임계값을 더 높일 수 있을까요?
CTOL.digital 팀은 핵심 과제를 다음과 같이 정의했습니다. "자유 형식 텍스트는 어떻게 하면 최대한 압축 가능한 렌더링으로 정확히 매핑될 수 있을까요?"
하지만 이러한 미해결 질문들에도 불구하고, DeepSeek-OCR은 광학 문자 인식의 점진적인 발전을 넘어섭니다. 이는 AI 시스템이 가장 고질적인 문제 중 하나인 길고 복잡한 정보를 효율적으로 처리하는 근본적으로 다른 방식을 제안합니다.
AI 시스템이 컨텍스트를 유지하고, 미묘한 차이를 이해하며, 대규모로 효율적으로 작동하는 능력으로 점점 더 평가받는 시대에, '컨텍스트 광학 압축' 기술은 단순한 영리한 엔지니어링 기법을 넘어설 수 있습니다. 이는 인공지능이 인간처럼 기억하고 잊는 법을 배우는 방식에 대한 한 줄기 통찰일 수 있습니다.
코드와 모델 가중치는 공개되어, 더 넓은 연구 커뮤니티가 이러한 발견을 기반으로 구축하고, 검증하며, 확장할 수 있도록 했습니다. 이것이 일시적인 탐구에 그칠지, 아니면 AI 아키텍처의 지속적인 변화를 의미할지는 지켜봐야 합니다. 하지만 현재로서는 시각 혁명이 문자 그대로 시작되었습니다.
기술 논문 및 구현 세부 정보는 DeepSeek-AI의 공개 저장소를 통해 확인할 수 있습니다. CTOL.digital 엔지니어링 팀의 분석은 독립적으로 수행되었습니다.
