딥시크의 '사소한' AI 업데이트, 구글 플래그십 모델 성능과 조용히 어깨를 나란히 하다

중국 AI 스타트업, '소규모' 업데이트로 추론 능력에 비약적 발전 이뤄

DeepSeek의 최신 R1 모델, 구글의 주력 AI에 조용히 강력한 경쟁자로 부상하며 인공지능 추론 분야에서 폐쇄형 LLM의 지배력에 도전

빠르게 진화하는 인공지능 환경에서 점진적인 개선이 종종 글로벌 기술 리더십에 막대한 영향을 미치는 가운데, 중국 스타트업 DeepSeek은 업계 관측통들이 '전략적 절제의 대가'라고 부르는 모습을 보여주었습니다. 지난 5월 28일, 이 회사는 자사의 R1 추론 모델에 대해 '소규모 버전 업데이트'라고 칭하는 발표를 했습니다. 그러나 이 설명은 종합적인 평가에서 나타나는 상당한 성능 향상과 점점 더 모순되는 듯 보입니다.

당사의 자체 벤치마크에 따르면, R1-0528로 명명된 이 업데이트 모델은 조용히 구글의 Gemini 2.5 Pro에 대한 유력한 대안으로 자리매김했으며, 기술 이전 및 국가 안보를 둘러싼 지정학적 긴장 속에서 중국 AI 역량의 중요한 이정표를 세웠습니다. Hugging Face에서 MIT 라이선스라는 관대한 조건으로 공개된 이 6,850억 개 매개변수 오픈소스 모델은 접근 가능한 연구 도구인 동시에 선도적인 폐쇄형 경쟁사들의 가격 전략에 도전하는 강력한 상업적 제품이기도 합니다.

Deepseek (deepseek.com)

'소규모' 개선 뒤에 숨겨진 은밀한 혁명

DeepSeek의 겸손한 대외 메시지에도 불구하고, 내부 성능 지표는 핵심 AI 역량 전반에 걸쳐 혁신적인 업그레이드를 보여줍니다. 공식 언론 채널보다는 사용자 커뮤니티를 통해 출시를 발표한 이 회사의 접근 방식은 기술적 영향력을 극대화하면서도 관심을 최소화하려는 의도적인 전략을 시사합니다.

당사 하드웨어에서 실행된 테스트를 기반으로 추정했을 때, 이 모델의 비용은 출력 토큰 100만 개당 약 2.5달러로, Gemini 2.5 Pro Preview 05-06의 가격보다 상당히 낮습니다. 그러나 이 모델이 요구하는 높은 연산 부하는 분명합니다. 이 모델은 초당 약 32.4개 토큰을 생성하며, 평균 완료 시간이 수 분을 초과하여 고급 추론 작업의 복잡성을 강조합니다.

당사의 내부 기술 평가에 따르면 R1-0528은 이전 버전을 괴롭혔던 근본적인 약점들, 특히 수학적 추론 및 코드 생성 분야의 약점들을 해결했습니다. 모델의 출력 용량은 약 20,000개 토큰으로 두 배 증가하여 복잡한 질문에 대한 더 포괄적인 답변을 가능하게 했으며, 동시에 광범위한 애플리케이션의 사용 비용 또한 증가시켰습니다.

업계 선두주자들과의 성능 격차 좁히기

AI 추론 모델의 경쟁 환경은 점점 더 계층화되고 있으며, 일반적으로 GPT o3와 Claude 4 계열이 최상위 계층을 차지하고 있습니다. R1-0528의 성능 프로필은 DeepSeek이 추론 능력 면에서 당사가 판단하는 '1군(First Tier)'에 성공적으로 자리매김했음을 시사하며, GPT o3 high/medium 및 Claude 4 Sonnet/Opus 계열에만 뒤처집니다.

수학적 추론(역사적으로 오픈소스 AI 모델의 약점이었던 분야)에서 R1-0528은 현저한 개선을 보여줍니다. 이전 버전이 계산 정확도에서 어려움을 겪었던 반면, 업데이트된 모델은 환각 현상 발생률이 상당히 감소했으며 더 신뢰할 수 있는 문제 해결 방식을 보입니다. 프로그래밍 능력도 마찬가지로 발전하여 더 사려 깊고 유지 보수 가능한 결과물을 나타냅니다.

모델의 작문 능력은 아마도 가장 흥미로운 발전일 것입니다. 평가자들은 정서적 공명 및 문학적 정교함 측면에서 구글의 Gemini 2.5 Pro와 놀라운 유사성을 지적하며, 일부는 Gemini 2.5 Pro로부터의 잠재적인 지식 증류에 대해 추측하고 있습니다. 이는 AI 개발에서 흔하지만 논란이 되는 관행입니다.

글로벌 AI 경쟁에 대한 전략적 시사점

DeepSeek의 접근 방식은 오픈소스 AI 개발의 광범위한 추세를 반영하며, 기업들은 비용 우위를 유지하면서 선도적인 폐쇄형 모델의 성능에 필적하는 데 점점 더 중점을 둡니다. MIT 라이선스 결정은 특히 기반 기술에 대한 자신감을 보여주는데, 이는 제한 없는 상업적 배포를 허용하기 때문입니다.

그러나 상당한 도전 과제도 남아 있습니다. 안정성 문제가 모델을 괴롭히고 있으며, 코드 생성은 테스트 사례의 일부에서만 일관된 결과를 생성합니다. 논리적 추론 작업에서 출력 가변성은 최대 27%까지 변동할 수 있어 상업적 배포를 위한 지속적인 개선 필요성을 시사합니다.

추론 과정에서 가끔 다른 언어에서 영어로 전환되는 모델의 경향은 AI 학습의 복잡한 언어 역학을 강조합니다. 이는 모델의 의도된 시장과 관계없이 영어 데이터가 학습 데이터 세트에서 지배적인 경우가 많기 때문입니다.

시장 포지셔닝 및 경제적 역학

상업적 관점에서 R1-0528은 업계 관측통들이 "더 강력한 모델보다 저렴하고, 더 저렴한 모델보다 강력하다"고 묘사하는 흥미로운 시장 위치를 차지합니다. 이러한 포지셔닝은 최고 수준의 폐쇄형 대안의 프리미엄 가격 없이도 정교한 추론 능력을 요구하는 비용에 민감한 애플리케이션에 특히 매력적일 수 있습니다.

상당한 처리 능력과 긴 완료 시간을 요구하는 모델의 높은 연산 집약도는 실시간 애플리케이션에 대한 적용 가능성을 제한할 수 있습니다. 그러나 속도보다 정확성이 덜 중요한 일괄 처리, 콘텐츠 생성 및 복잡한 분석 작업의 경우 R1-0528은 설득력 있는 가치 제안을 제공합니다.

오픈소스 AI 개발의 미래

DeepSeek의 이번 출시에 대한 신중한 접근 방식(상당한 업그레이드를 일상적인 유지 보수처럼 다루는 것)은 시장 포지셔닝 및 경쟁 역학에 대한 정교한 전략적 사고를 시사합니다. 공격적인 마케팅 캠페인보다는 점진적인 역량 시연과 유기적인 채택에 중점을 두는 모습입니다.

업계 분석가들은 이번 출시가 더 중요한 발표를 위한 준비일 수 있으며, 현재의 개선 사항이 미래 돌파구의 토대가 될 수 있다고 제안합니다. 기존 폐쇄형 모델과 거의 동등한 수준을 달성하면서 비용 우위를 유지하는 이 회사의 능력은 시장 침투 확대를 위한 좋은 위치를 점하게 합니다.

R1-0528은 단순한 정기 소프트웨어 업데이트 이상의 의미를 지닙니다. 이는 야심찬 실험에서 정교한 실행으로 나아가는 중국 AI 역량의 성숙을 구현합니다. 최고 수준의 폐쇄형 모델에 비해 여전히 격차가 존재하지만, 이 궤적은 글로벌 AI 개발 센터 전반에 걸쳐 역량의 가속화된 수렴을 시사합니다.

AI 솔루션을 평가하는 기업 사용자들에게 R1-0528은 지리적 원산지보다 성능, 비용 및 특정 애플리케이션 요구 사항이 덜 중요해질 수 있는 점점 더 다극화되는 AI 환경을 엿볼 수 있는 기회를 제공합니다. 이 모델이 기존 폐쇄형 제품에 대한 신뢰할 수 있는 대안으로 부상한 것은 글로벌 AI 경쟁의 새로운 국면, 즉 명확한 계층보다는 유능한 대안이 특징인 시대를 알리는 신호입니다.

우리는 더 광범위하고 독립적인 성능 관점을 얻기 위해 LiveBench.ai와 같은 더 많은 제3자 평가를 기다리고 있습니다.