DeepSeek-V3의 비밀 병기 공개 - 6710억 매개변수 AI가 단 2,048개의 GPU로 작동하는 방법

DeepSeek-V3의 비밀 무기: 6,710억 개 파라미터 AI가 단 2,048개 GPU로 작동하는 방법

AI 혁신은 더 큰 모델을 만드는 것만이 아니라, 더 똑똑한 시스템을 구축하는 것입니다. 거대 기술 기업들이 수조 개 파라미터 모델 확장에 경쟁하는 동안, DeepSeek의 최신 연구는 올바른 이유로 주목받는 반대 방향의 메시지를 전달합니다: 과도함 없이 성능을 내는 것입니다. 새로 공개된 논문인 “Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures”는 DeepSeek-V3가 어떻게 최첨단 벤치마크를 달성하는지 뿐만 아니라, 왜 다른 어떤 유사 대규모 모델보다 비용 효율적으로 이를 할 수 있는지를 보여줍니다.

이것은 단순히 마케팅이 아닙니다. 이는 하드웨어-소프트웨어 공동 설계가 AI 게임을 어떻게 변화시키고, 그 과정에서 인프라 비용을 어떻게 대폭 줄이는지에 대한 청사진입니다.

파트 I: DeepSeek의 아키텍처 전략 – 왜 370억 개 > 4,050억 개인가

DeepSeek-V3의 성능과 비용 우위의 핵심은 혼합 전문가(Mixture-of-Experts, MoE) 아키텍처에 있습니다. 총 6,710억 개라는 엄청난 파라미터 중, 토큰당 단 370억 개만 활성화됩니다. 이러한 설계 선택은 토큰당 계산 요구량을 극적으로 줄입니다:

밀집형 720억 개 모델의 토큰당 394 GFLOPs 대비 토큰당 250 GFLOPs
밀집형 4,050억 개 모델(토큰당 2,448 GFLOPs)보다 10배 이상 효율적

메시지는 분명합니다: 희소 활성화는 제대로 실행될 때 이론상뿐만 아니라 실제 하드웨어에서도 더 잘 확장됩니다. 이 설계는 DeepSeek-V3를 전례 없는 규모에서도 학습 및 배포하는 데 비용 효율적으로 만듭니다.

파트 II: 모든 단계에서 비용을 절감하는 하드웨어 인식 혁신

논문에서 가장 설득력 있는 통찰은 DeepSeek 엔지니어들이 학습 과정에 적용한 체계적인 하드웨어-모델 공동 최적화에서 나옵니다. 이는 피상적인 조정이 아니라, LLM이 물리적 인프라와 상호 작용하는 방식에 대한 깊은 재고를 나타냅니다.

1. 멀티 헤드 잠재 어텐션 (Multi-Head Latent Attention, MLA)

MLA는 키-값(KV) 캐시를 압축된 잠재 표현으로 만들어 메모리 사용량을 대폭 줄입니다:

KV 캐시 크기: 327–516KB에서 토큰당 70KB로 감소
더 긴 컨텍스트 창과 더 효율적인 하드웨어 확장 가능

이는 GPU당 처리량을 향상시킬 뿐만 아니라, 낮은 메모리 환경에서도 모델을 사용할 수 있게 합니다.

2. FP8 혼합 정밀도 학습

DeepSeek의 미세 입자 FP8 정밀도 사용은 메모리와 계산 오버헤드를 크게 낮춥니다:

활성화 메모리 절반으로 감소
정확도 저하 최소화
6,710억 개 MoE 모델을 단 2,048개 NVIDIA H800 GPU로 학습 가능

이는 GPT-4와 같은 모델을 학습하는 데 사용되는 GPU 수의 일부에 불과하며, 학습 비용을 수억 달러에서 600만 달러 미만으로 줄입니다.

3. 추측성 멀티 토큰 예측

이 새로운 디코딩 전략은 여러 토큰을 병렬로 예측하고 검증하여 다음을 달성합니다:

1.8배의 처리량 향상
출력 품질 저하 없이 훨씬 빠른 추론

이는 제공 비용과 지연 시간에 큰 영향을 미치는 간단한 아키텍처 변경입니다.

4. 통신 및 네트워크 최적화

MoE 통신과 계산의 중첩부터 FP8 네트워크 압축 구현에 이르기까지, DeepSeek-V3 인프라의 모든 부분은 효율성을 위해 설계되었습니다:

통신 대역폭 50% 감소
맞춤형 2계층 팻 트리(fat-tree) 상호 연결로 지연 시간을 유지하면서 하드웨어 비용 절감
16,000개 이상의 GPU로 확장할 만큼 효율적

이러한 결정은 학술 연구실이든 스타트업이든 제한된 환경에서 대규모 모델을 학습시키는 현실을 반영합니다.

파트 III: 실제 영향 및 전략적 의미

이 모델은 이미 수학 및 코드 생성과 같은 작업에서 GPT-4.5를 능가하는 성능으로 인정받았지만, 이 논문에서 공개된 인프라 수준 결정은 장기적인 전략적 가치를 가집니다.

투자자 및 클라우드 공급업체에게

비용 리더십: DeepSeek의 학습 비용 557만 6천 달러는 OpenAI의 수억 달러와 극명한 대조를 이룹니다.
단위 경제성: 백만 출력 토큰당 2.19달러라는 낮은 추론 비용으로, DeepSeek은 OpenAI(60.00달러)보다 90% 이상 저렴합니다.
시장 파괴: 이러한 가격 모델은 전 세계 AI 주식 조정과 올해 초 Nvidia 주가 18% 하락에 기여했습니다.

기업에게

엣지 배포 가능성: 희소 MoE는 소비자용 GPU 또는 로컬 엣지 장치에서 강력한 모델을 실행하는 것을 실현 가능하게 합니다.
기업 도입: DeepSeek은 개발팀 전반에 통합되었으며, 현장 사용에서 일상적인 코딩 시간 35% 단축이 보고되었습니다.

오픈 소스 커뮤니티에게

접근성 및 확장성: DeepSeek-V3는 OpenRouter, Hugging Face 및 API를 통해 사용할 수 있으며, 완전 오픈 소스로 미세 조정 가능합니다.
커뮤니티 반응: 15,000개 이상의 GitHub 별, 3,000개 이상의 미세 조정 버전, 아시아, 유럽, 북미 전반에 걸쳐 빠르게 성장하는 생태계.

파트 IV: DeepSeek-V3-0324에서 새로워진 점

DeepSeek-V3가 출시된 지 몇 달이 지났지만, 2025년 3월 업데이트(V3-0324)는 상당한 성능 향상을 가져왔습니다:

파라미터 개수 6,850억 개로 증가
주요 벤치마크 향상:
- MMLU-Pro: 75.9 → 81.2
- AIME: 39.6 → 59.4
- GPQA: 59.1 → 68.4
개선된 코딩 및 프론트엔드 생성
한국어 자연어 처리 및 함수 호출에서 더 강력한 성능 (역자 주: 원문은 Chinese NLP이나 한국어 독자를 위해 번역 시 한국어NLP로 수정)
다국어 및 추론 작업에서 계속해서 선도적인 독점 모델 능가

더욱 중요한 것은, 논문이 오픈 소스 FP8 프레임워크, 하드웨어 레이아웃 권장 사항 및 압축 방법 등을 문서화하여, 효율적으로 LLM을 구축하려는 모든 사람에게 로드맵을 제공한다는 것입니다.

결론: 이것이 AI 확장 미래에 미치는 영향

DeepSeek-V3는 강력한 모델 그 이상입니다. 이는 지속 가능한 AI 규모 확장에 대한 사례 연구입니다. 새로 공개된 기술 논문은 DeepSeek이 인프라 비용의 극히 일부만으로 시장 선도 업체와 성능 동등성을 달성한 방식을 명확히 보여줍니다. 이는 업계에 대한 경고입니다: 문제 해결을 위해 GPU만 투입하는 것은 더 이상 실행 가능한 경쟁 우위가 아닙니다.

요약하자면:

MoE + FP8 + MLA = 엄청나게 효율적인 계산
비용-성능 비율이 새로운 격전지가 되었습니다
DeepSeek은 스타트업과 연구실이 대형 AI에 자체 조건으로 도전할 수 있는 지침을 제공합니다

이제 질문은 이것입니다: 다른 회사들도 이 청사진을 따를 것인가, 아니면 청구서가 도착할 때까지 예전 방식으로 확장만 계속할 것인가?