마이크로소프트, 클라우드 AI 경쟁서 백만 토큰 장벽 돌파…승리는 일시적일 수도

마이크로소프트, 클라우드 AI 경쟁에서 100만 토큰 장벽 돌파…그러나 승리는 찰나일 수도

클라우드 컴퓨팅의 역사를 다시 쓰는 기록

마이크로소프트 애저(Microsoft Azure)가 인공지능 추론 속도 벤치마크를 경신하며 단일 랙 스케일 시스템에서 전례 없는 초당 110만 토큰을 달성했다. 이는 자체 이전 기록보다 27% 향상된 수치이자, 클라우드에서 진정한 산업 규모 AI 시대가 도래했음을 알리는 이정표다.

엔비디아의 블랙웰 울트라(Blackwell Ultra) 아키텍처 기반 신형 애저 ND GB300 v6 가상 머신을 사용하여 엔지니어 마크 기타우(Mark Gitau)와 위고 아파티카티(Hugo Affaticati)가 이뤄낸 이번 성과는 이전 세대 하드웨어 대비 5배 향상된 성능을 보여준다. 그러나 축하할 만한 헤드라인 뒤에는 더 복잡한 이야기가 숨어 있다. 이는 혁명이라기보다는 끊임없이 결승선이 이동하는 군비 경쟁에서 피할 수 없는 다음 단계에 가깝다.

타사의 실리콘 위에서 일궈낸 엔지니어링 승리

기술적 성과는 부인할 수 없다. 애저는 72개의 엔비디아 GB300 GPU를 탑재한 18개 가상 머신에서 업계 표준 라마 2 70B(Llama 2 70B) 모델을 실행하며 최첨단 실리콘이 고도로 최적화된 소프트웨어와 만났을 때 어떤 일이 일어나는지 보여주었다. 이 시스템은 GPU당 초당 15,200 토큰을 처리했으며, 이는 엔비디아의 이전 세대 H100 칩의 초당 3,066 토큰과 비교된다.

애저 엔지니어들은 시스템의 고대역폭 메모리에서 92%의 효율성을 끌어냈고, 초당 7.37테라바이트의 메모리 처리량을 달성했다. 이 수치들은 단순한 하드웨어 설치가 아닌 정교하게 조정된 운영을 나타낸다. 회사는 상세한 재현 지침을 공개했는데, 이는 클라우드 제공업체의 발표에서는 보기 드문 투명성이며 그들의 엔지니어링 스택에 대한 자신감의 표현이다.

하지만 보도자료에서 축소된 부분이 있다: 이는 근본적으로 마이크로소프트의 돌파구가 아니라 엔비디아의 돌파구라는 점이다. GB300 NVL72 랙 스케일 시스템은 이러한 종류의 추론 워크로드를 위해 엔비디아가 명시적으로 설계한 것으로, 이전 모델보다 GPU 메모리가 50% 더 많고 열 용량은 16% 더 높다. 애저는 단순히 이 시스템을 클라우드 서비스로 제공하는 데 있어 가장 먼저 결승선에 도달했을 뿐이다.

숫자들이 진정으로 의미하는 것

그 중요성은 혁명적인 기술에 있는 것이 아니라, 이제 엔터프라이즈 규모에서 무엇이 가능한지에 있다. 제3자 관찰기관인 Signal65는 이를 "변혁적인 AI 성능이 신뢰할 수 있는 유틸리티로 제공될 수 있다는 결정적인 증거"라고 불렀으며, 이러한 관점은 원시 숫자보다 더 중요하다.

AI 애플리케이션을 구축하는 기업들에게 실질적인 영향은 즉각적이다. 이전에는 여러 랙이나 긴 처리 시간이 필요했던 작업이 이제 단일 시스템에서 이루어질 수 있다. 경제성 또한 비례하여 변화한다. 그러나 몇 가지 중요한 주의사항이 이러한 열기를 식힌다.

첫째, 이는 "오프라인" 벤치마크이다. 즉, 실제 애플리케이션이 요구하는 대화형 저지연 서비스가 아닌 일괄 처리 시나리오다. 첫 토큰 응답 시간, 동시 사용자 처리, 혼합 워크로드 하에서의 지속적인 성능은 아직 다루어지지 않았다.

둘째, MLPerf v5.1 제출 결과는 미검증 상태이다. 이는 인증된 리더보드 결과를 검증하는 공식 검토 절차를 거치지 않았음을 의미한다. 합법적인 성능 데이터이긴 하지만, 업계의 황금 표준 검증에는 미치지 못한다.

셋째, 그리고 아마도 가장 중요한 점은, 테스트에 사용된 것이 2023년 모델인 라마 2 70B라는 것이다. 오늘날의 최첨단 애플리케이션은 훨씬 더 큰 시스템, 예를 들어 라마 3.1 405B나 딥시크-R1(DeepSeek-R1)의 6,710억 매개변수 전문가 혼합(Mixture-of-Experts) 아키텍처에서 실행된다. 애저의 100만 토큰 달성 기록이 이러한 더 까다로운 모델에도 적용될 수 있을지는 아직 미지수다.

1조 달러 규모의 배경

이번 발표의 시기는 우연이 아니다. 방법론에 따라 현재 580억 달러에서 1,820억 달러로 평가되는 AI 인프라 시장은 2030년까지 수조 달러의 자본 지출을 흡수할 것으로 예상된다. 마이크로소프트, 아마존, 구글과 같은 하이퍼스케일러들은 AI API 가격이 하락하는 반면 인프라 비용은 급증하면서 점점 더 큰 압박에 직면해 있다.

성능 개선의 각 1% 포인트는 모든 API 호출, 모든 챗봇 상호작용, 모든 코드 생성 요청의 총마진에 직접적인 영향을 미친다. GB200 대비 애저의 27% 향상은 대규모에서는 실질적인 금전적 이득으로 이어진다. 그러나 이는 그들이 선두를 유지할 수 있을 때에만 가능하다.

그러한 선두는 위태로워 보인다. AWS는 이미 블랙웰(Blackwell)급 시스템을 제공하고 있으며, 공급이 허락되는 대로 GB300 구성을 거의 확실하게 배포할 것이다. 코어위브(CoreWeave)와 델(Dell)은 이미 몇 주 전에 최초의 상업용 GB300 울트라(Ultra) 배포를 발표했다. 구글 클라우드와 오라클 클라우드 인프라(Oracle Cloud Infrastructure)는 몇 년이 아닌 몇 달 뒤처져 있다. 심지어 AMD의 MI355X도 경쟁력 있는 MLPerf 성능을 입증하며 엔비디아의 지배력에 대한 잠재적인 가격-성능 대안을 제시했다.

최초와 유일은 다르다

애저의 진정한 성과는 GB300 NVL72를 투명하고 재현 가능한 성능 데이터를 갖춘 접근 가능한 클라우드 서비스로 최초로 상용화했다는 점이다. 이는 시장 출시 시간과 시스템 통합 측면에서 의미 있는 리더십이다. 실험적인 하드웨어를 유료 인프라로 바꾸는 화려하지 않지만 중요한 작업이다.

그러나 이는 몇 년이 아닌 몇 분기로 측정되는 리더십이다. 경쟁 우위는 좁다. 결국 모든 경쟁사들이 동일한 엔비디아 기반을 사용하기 때문이다. 경쟁사들이 자신들의 수치를, 특히 검증된 MLPerf 제출 결과를 발표하는 순간, 애저의 헤드라인 상의 우위는 사라질 것이다.

더 깊은 과제는 여전히 해결되지 않았다. 이 시스템들은 랙당 100-120킬로와트의 전력을 소비하며, 정교한 액체 냉각을 필요로 하고, 더 긴 컨텍스트 창, 멀티테넌트 효율성, 전문가 혼합(Mixture-of-Experts) 라우팅 최적화로 향하는 업계의 변화를 다루지 않는다.

마이크로소프트가 증명한 것은 차세대 AI 인프라가 프로덕션 클라우드 환경에서 잘 작동한다는 점이다. 그들이 증명하지 못한 것은 다른 모든 경쟁사들이 같은 수준에 도달했을 때 누가 먼저였는지를 사람들이 기억할 것인가 하는 점이다.