화웨이 클라우드매트릭스 시스템, 중국 생성형 AI 독립에 중요한 진전

화웨이, 대규모 AI 모델 추론용 클라우드매트릭스 시스템 공개

화웨이는 대규모 AI 모델 추론을 위해 384개의 어센드-910C 신경망 처리 장치(NPU)를 중심으로 구축된 특수 컴퓨팅 플랫폼인 클라우드매트릭스384 시스템에 대한 기술 문서를 공개했다. 이 시스템에는 6,710억 개의 매개변수를 가진 딥시크-R1(DeepSeek-R1)과 같은 초거대 전문가 혼합(MoE) 언어 모델에 최적화된 서빙 스택인 클라우드매트릭스-인퍼(CloudMatrix-Infer)가 포함되어 있다.

기술 아키텍처 및 혁신

클라우드매트릭스 시스템은 아키텍처에 여러 가지 핵심적인 기술 혁신을 구현했다. 설계의 핵심은 모든 NPU와 CPU 간에 최소한의 지연 오버헤드로 직접 통신을 가능하게 하는 유니파이드-버스(Unified-Bus) 메시 네트워크이다. 기술 보고서에 따르면, 이 인터커넥트는 노드 간 통신 시 3% 미만의 대역폭 손실과 1마이크로초(µs) 미만의 지연을 발생시킨다.

이 시스템은 AI 추론에 분리형(disaggregated) 접근 방식을 채택하여 프로세스를 세 가지 별개의 리소스 풀, 즉 프리필(prefill) NPU, 디코딩(decode) NPU, 그리고 DRAM 기반 캐싱 클러스터로 분리한다. 이 구성 요소들은 유니파이드-버스를 통해 서로 직접 접근하므로, 지역성 인지(locality-aware) 스케줄러가 필요 없어지고 자원 활용 효율성이 높아진다.

기술 문서에서는 "이러한 접근 방식은 메모리 계층 구조를 효과적으로 평탄화하여, 더 간단한 무상태(stateless) 스케줄러와 풀링된(pooled) 캐시를 가능하게 한다"고 설명한다. 또한 이 설계는 시스템 내 어디에서든 유휴 DRAM이 키-값 또는 모델 캐싱에 사용될 수 있도록 한다고 덧붙였다.

성능 지표 및 비교

보고서에 포함된 성능 데이터에 따르면, 클라우드매트릭스 시스템은 4K 토큰 프롬프트의 프리필(prefill) 작업 시 NPU당 초당 6,688개의 토큰을 달성하며, 이는 TFLOPS당 초당 4.45개의 토큰으로 환산된다. 디코딩(decode) 작업의 경우, 배치 크기 96으로 실행 시 총 처리 오버헤드 시간이 50밀리초(ms) 미만으로 NPU당 초당 1,943개의 토큰을 제공한다.

보고서는 이러한 효율성 지표가 엔비디아 H100 및 H800 하드웨어에서 실행되는 유사 시스템의 공시된 수치를 능가한다고 밝힌다. 15밀리초(ms)라는 더 엄격한 지연 시간 요구사항이 적용될 때, 이 시스템은 배치 크기를 자동으로 조정하여 초당 538개의 토큰 처리량을 유지한다.

시스템에 구현된 양자화(quantization) 기술은 적절한 경우 INT8 정밀도를 허용하며, 민감한 작업에는 BF16/FP32 정밀도를 유지한다. 보고서는 이러한 혼합 정밀도(mixed-precision) 접근 방식이 모델 정확도를 보존하면서 메모리 요구량을 크게 줄여준다고 설명한다. 벤치마크 결과는 INT8 모델이 영어, 코드, 수학, 중국어 평가 스위트 전반에서 FP-기준 성능과 일치하거나 거의 근접한 성능을 보임을 보여준다.

경제적 고려사항

기술 문서에는 시스템의 대략적인 비용 추정치가 포함되어 있다. 완전한 클라우드매트릭스384 랙은 약 5천만 위안(약 690만 달러, 한화 약 94억 5천만원 상당)으로 추정되며, 개별 어센드 910C 칩은 약 15만 위안(한화 약 2,820만원 상당)이다. 처리량 측정치를 기반으로 할 때, 이는 생성되는 백만 토큰당 약 2위안(한화 약 376원 상당)의 비용으로 환산된다.

이 시스템의 탄력적 메모리 서비스(Elastic Memory Service)는 추가적인 운영 효율성 이점을 제공한다. 이는 기존의 노드 로컬(node-local) DRAM 접근 방식이 281초가 걸리는 것과 비교하여 약 5초 만에 모델 전환을 가능하게 하며, 기존 방식의 8배에 비해 단 1배의 DRAM 점유율만 요구한다.

기술 구현 세부사항

몇 가지 특수 기술이 시스템의 성능 특성에 기여한다.

대규모 전문가 병렬화(Large-scale Expert Parallelism) - 이 시스템은 최대 320명의 전문가(experts)에게 전문가 병렬화를 구현하여, NPU 다이(die)당 정확히 한 명의 전문가를 분산시키고 밀집 레이어(dense layers)에는 데이터 병렬화를 사용한다.
하이브리드 및 마이크로 배치 파이프라이닝(Hybrid and Micro-batch Pipelining) - 프리필(prefill) 작업의 경우, 이 시스템은 2개의 마이크로 배치 파이프라이닝을 통해 멀티 헤드 잠재 어텐션(Multi-Head Latent Attention)에 하이브리드 텐서 병렬화(hybrid tensor parallelism)와 전문가 병렬화(expert parallelism)를 사용한다. 디코딩(decode) 작업은 마이크로 배치당 중첩 어텐션(overlapped attention) 및 MoE 스트림을 사용한다.
멀티 토큰 예측(Multi-Token Prediction) - 이 시스템은 추측성 검증(speculative validation)을 통해 단계당 두 개의 토큰을 생성하여, 배치 크기에 따라 6~49%의 추가 디코딩 처리량을 제공한다.
어센드 네이티브 커널(Ascend-native Kernels) - 어센드(Ascend) 아키텍처의 큐브/벡터/DMA 엔진을 위해 특별히 설계된 맞춤형 INT8 GEMM 구현과 융합 연산자(fused operators)는 선택된 병렬화 전략으로 성능을 유지하는 데 도움이 된다.

시장 함의

클라우드매트릭스 시스템은 NPU 실리콘부터 시스템 소프트웨어에 이르기까지 완전한 중국 자체 AI 컴퓨팅 솔루션을 대표한다. 기술 보고서는 중국의 제조 역량을 고려할 때, 이 시스템이 대량 생산될 가능성이 있다고 언급한다.

딥시크(DeepSeek) 모델의 전략은 커뮤니티 채택을 위한 오픈 웨이트(open weights)를 제공하면서 프라이빗 배포(private deployments)를 위한 상업용 부가 기능을 제공하는 것으로, 이는 보고서가 설명하는 베이징의 순수 파라미터 수보다 애플리케이션 가치에 중점을 둔 정책 기조와 일치한다.

대규모 AI 모델을 사용하는 조직에게 이 시스템은 특히 모델 증류(model distillation)나 광범위한 라벨링 작업 없이 자기 학습(self-training)과 같은 데이터 집약적 작업에 있어 비용 효율적인 추론 접근 방식을 제공할 수 있다.

향후 개발 계획

기술 문서에는 더 고밀도 광학 인터커넥트(optical interconnects)와 더욱 정교한 스케줄링 알고리즘을 포함한 여러 향후 개발 영역이 명시되어 있다. 저자들은 현재 아키텍처가 보고서에 상세히 설명된 384 NPU 구현보다 훨씬 더 큰 구성으로 확장될 수 있다고 제안한다.

참고: 이 분석은 문서에 제공된 기술 정보를 기반으로 합니다. 잠재적 투자자는 투자 결정을 내리기 전에 자체 조사를 수행하고 금융 자문가와 상담해야 합니다.