딥시크, 새로운 희소 어텐션 기술로 AI 추론 비용 최대 60% 절감

작성자
CTOL Editors - Lang Wang
13 분 독서

가격 전쟁: DeepSeek의 파격적인 AI 비용 절감 승부수

DeepSeek이 AI 비용을 최대 75%까지 다시 한번 대폭 삭감하면서, 경쟁사들은 전략을 재고해야 할 처지에 놓였고, 첨단 기술에 대한 더 넓은 접근 가능성이 열릴 수도 있게 됐다.


베이징 — AI를 구축하는 것은 항상 고통스러운 트레이드오프를 수반해 왔다: 더 강력한 성능은 더 많은 비용을 의미한다. 그러나 중국 DeepSeek의 새로운 발표는 이 규칙을 다시 한번 깨뜨렸고, 그 파급 효과는 전체 산업을 재편할 수 있을 것이다.

중국 국경절 직전—이는 회사의 끊임없는 출시 주기를 지켜보는 엔지니어들 사이에서 내부 농담이 되었다—DeepSeek은 최신 모델인 V3.2-Exp를 공개했다. 이전 업그레이드와 달리, 이번 모델은 전작보다 더 똑똑하다고 주장하지 않는다. 대신, 다른 도전을 감행했다: 훨씬 저렴한 비용으로 거의 동일한 성능을 제공하는 것이다.

절감 효과는 엄청나다. 128,000 토큰 컨텍스트(이는 소설 한 권 분량에 해당한다)의 경우, 시스템은 이제 백만 토큰당 입력(캐시 미스) 처리 비용이 $0.56에서 $0.28로 줄었으며, 캐시 히트의 경우 백만 토큰당 $0.07에서 $0.028로, 충격적인 60% 가격 인하를 기록했다. 일반적으로 훨씬 더 많은 비용이 드는 출력 생성 비용은 $2.20에서 단 $1.68로 급락했다. 회사의 API는 이러한 현실을 반영하여, 입력 비용은 절반으로, 출력 비용은 75% 삭감되었다.

한 엔지니어는 "이건 가격 도살 수준이다"라고 농담했다. 다른 이들은 이번 조치가 경쟁사들을 궁지로 몰아넣고, 이러한 경제성을 맞출 수 없는 약한 연구소들을 잠재적으로 제거할 것이라고 예측했다.

Deepseek (github.com)
Deepseek (github.com)


그 뒤에 숨겨진 영리한 기술

DeepSeek의 새로운 시스템의 핵심에는 겉보기에는 간단하지만 중요한 아이디어가 있다: 거대한 문서의 모든 단어가 다른 모든 단어에 주의를 기울일 필요는 없다는 것이다.

학기말 보고서를 쓰는 학생을 떠올려보자. 한 문장을 쓸 때마다 교과서 전체를 다시 읽어야 한다면, 그 과정은 끝없이 길어질 것이다. 이것이 바로 전통적인 LLM이 작동하는 방식이다. 짧은 텍스트에는 충분히 효율적이지만, 오늘날 애플리케이션이 요구하는 방대한 문서에는 터무니없이 비싸다.

DeepSeek Sparse Attention이라고 불리는 DeepSeek의 해결책은 영리한 지름길을 도입한다. "라이트닝 인덱서(Lightning Indexer)"는 모든 이전 토큰을 빠르게 스캔하고 그 중요도를 평가한다. 그리고 나서 전체 컨텍스트를 처리하는 대신, 모델은 가장 관련성이 높은 상위 2,048개 토큰에만 완전한 어텐션(attention)을 적용한다.

이 인덱서가 얼마나 경량인지에 그 탁월함이 있다. 무거운 지수 함수 대신 ReLU와 같은 간단한 수학 연산을 사용하며, 저정밀 FP8 연산으로 실행된다. 그 결과: 모든 토큰이 처리되지만, 가장 유용한 토큰에 대해서만 무거운 작업이 이루어진다.

이 아키텍처를 연구한 한 연구원은 "책을 처음부터 끝까지 다 읽는 대신 사서에게 어떤 챕터가 중요한지 묻는 것과 같다"고 설명했다. "사서가 완벽하지는 않지만, 엄청난 시간을 절약해줄 만큼은 충분히 좋다."

이러한 변화는 계산의 비용이 많이 드는 부분이 가파른 곡선이 아닌 직선으로 증가하게 만든다. 갑자기 전체 코드베이스, 법률 보고서 또는 과학 논문 분석과 같이 한때 너무 비싸게 여겨졌던 작업들이 재정적으로 현실성 있게 보이기 시작했다.


중요한 것을 알아내도록 모델 학습시키기

DeepSeek은 이 인덱서를 그냥 내놓은 것이 아니다. 무엇이 중요한지 가르쳤다.

먼저, 그들은 기존 모델을 고정시키고 완전한 어텐션을 사용하여 "골드 스탠다드(gold standard)" 중요도 점수를 생성했다. 인덱서는 이 점수들을 모방함으로써 학습했으며, 이는 사실상 고성능 시스템으로부터 지혜를 빌려온 것이다. 기본을 숙달한 후에야 DeepSeek은 희소 어텐션(sparse attention) 설정을 활성화하고 모든 것을 함께 훈련시켰다.

한 엔지니어는 기술 포럼에서 "이런 것을 처음부터 쉽게 만들 수는 없다"고 썼다. "밀집 모델을 사용하여 희소 모델을 '가르치는' 방식은 놀라울 정도로 잘 작동하며, 다른 회사들도 이 전략을 따를 것이다."


성능은 그만큼 좋을까?

DeepSeek은 새로운 시스템이 기존 성능을 유지한다고 주장한다. 추론, 코딩, 다중 에이전트 작업 전반에 걸친 벤치마크 테스트는 사소한 승패를 제외하면 거의 동등한 성능을 보여준다.

여전히 회의적인 시선도 존재한다. 한 심층 리뷰어는 비용 절감은 칭찬했지만, 눈에 띄는 트레이드오프를 보고했다: 다단계 추론에서 약간 약한 성능, 신뢰도가 떨어지는 수학 능력, 그리고 어려운 문제에 직면했을 때 지름길에 의존하여 포기하는 경향 등이다.

리뷰어는 "25%의 가격으로 90%의 성능을 얻는 것"이라고 썼다. "비용이 중요하다면, 이는 아주 좋은 거래다."

이는 더 큰 질문을 제기한다: 이제 모델들이 이미 많은 분야에서 인간 수준의 성능에 근접한 상황에서, 다음 개척지는 순수한 기능일까, 아니면 효율성일까? DeepSeek은 분명 후자에 투자하고 있다.


공개 논쟁

이 출시는 엔지니어들 사이에서 열띤 토론을 촉발했다. 어떤 이들은 모든 토큰에 대한 경량화된 점수 부여조차 여전히 오버헤드라고 주장한다. 다른 이들은 DeepSeek이 정확성과 효율성을 결합하기 위해 왜 희소 어텐션과 완전한 어텐션을 레이어 전반에 걸쳐 혼합하지 않았는지 궁금해한다.

또한 이 접근 방식이 배치 처리, GPU 특성, 페이지 어텐션과 같은 현대 AI 인프라와 어떻게 상호 작용하는지에 대한 실용적인 문제도 있다. DeepSeek은 프로토타이핑 코드와 고성능 CUDA 커널을 오픈 소스화하여 그 길을 평탄하게 하려 노력했으며, 커뮤니티는 이미 화웨이의 Ascend NPU와 다른 국내 칩에 이를 적용했다. 즉각적인 다중 공급업체 지원은 우연보다는 전략처럼 보이며, 특히 중국이 해외 AI 하드웨어로부터 독립을 추구하는 상황에서는 더욱 그렇다.

현재 DeepSeek은 2025년 10월 15일까지 두 버전 모두를 활성 상태로 유지하고 있으며, 개발자들이 직접 A/B 테스트를 할 기회를 제공하고 있다.


큰 그림

이번 출시는 고립된 상황에서 이루어지는 것이 아니다. 서방의 수출 통제로 인해 최고급 AI 칩 접근이 제한되면서, 중국 기업들은 현재 가지고 있는 것으로부터 더 많은 성능을 끌어내야 한다. DeepSeek의 모델은 영리한 알고리즘이 하드웨어의 단점을 부분적으로 상쇄할 수 있음을 증명한다.

기업들에게 이 변화는 엄청나다. 방대한 대화를 기억해야 하는 AI 비서, 전체 리포지토리를 읽어야 하는 코드 도우미, 긴 보고서를 위한 문서 분석기 등 이 모든 것이 갑자기 대규모로 저렴해진다.

한 개발자는 "에이전트 시대는 여전히 더 많은 속도를 필요로 한다"고 논평하며 분위기를 요약했다. 저렴한 비용은 새로운 가능성을 열지만, 동시에 이 기술이 아직 갈 길이 멀다는 것을 보여주기도 한다.

관찰자들은 DeepSeek을 안정적이고 절제되어 있으며 진정으로 혁신적이라고 평가한다. 화려함과는 거리가 멀지만, 꾸준히 혁신을 제공하고 있다는 것이다. 휴일 직전에 주요 출시를 하는 그들의 습관은 심지어 유행하는 농담이 되었다: 엔지니어들은 회사가 "한 번에 하나의 출시로 휴가를 끝낸다"고 농담한다.


다음은 무엇인가?

32,000에서 128,000 토큰에 이르는 긴 컨텍스트로 작업하는 개발자들에게 메시지는 분명하다: 지금 바로 V3.2-Exp를 테스트하라. 몇 가지 미흡한 점이 있더라도, 잠재적인 절감 효과는 무시하기에는 너무 크다.

산업계에 있어서 DeepSeek의 실험은 전환점이 될 수 있다. 만약 희소 어텐션이 경쟁력을 입증한다면, 다른 연구소들은 어려운 선택에 직면할 것이다: 이 방법을 수용하거나 가격을 대폭 인하하거나. 어느 쪽이든, 추론 비용이 고정되어 있다는 가정은 산산조각 났다.

그리고 더 넓은 세상에서는 더 저렴한 추론이 더 스마트한 모델만큼 중요할 수 있다. 소규모 기업과 개인 개발자들이 마침내 대규모로 구축할 여유가 생긴다면, 혁신의 속도는 예상치 못한 방향으로 가속화될 수 있다.

투자 조언이 아님

당신도 좋아할지도 모릅니다

이 기사는 사용자가 뉴스 제출 규칙 및 지침에 따라 제출한 것입니다. 표지 사진은 설명을 위한 컴퓨터 생성 아트일 뿐이며 실제 내용을 나타내지 않습니다. 이 기사가 저작권을 침해한다고 생각되면, 우리에게 이메일을 보내 신고해 주십시오. 당신의 경계심과 협력은 우리가 예의 바르고 법적으로 준수하는 커뮤니티를 유지하는 데 중요합니다.

뉴스레터 구독하기

최신 기업 비즈니스 및 기술 정보를 독점적으로 엿보며 새로운 오퍼링을 확인하세요

저희 웹사이트는 특정 기능을 활성화하고, 더 관련성 있는 정보를 제공하며, 귀하의 웹사이트 경험을 최적화하기 위해 쿠키를 사용합니다. 자세한 정보는 저희의 개인정보 보호 정책 서비스 약관 에서 확인하실 수 있습니다. 필수 정보는 법적 고지