코어위브, 대규모 GPU 클러스터로 언어 모델 AI 훈련 속도 신기록 달성

코어위브의 기록적인 AI 인프라, 새로운 산업 표준 제시

인공지능(AI) 인프라 분야에서 중대한 도약을 이루며, 코어위브(CoreWeave, Nasdaq: CRWV)가 대규모 언어 모델 훈련에서 전례 없는 성능을 시연했다. 이는 전 세계 기업의 AI 개발 경제성과 속도를 근본적으로 변화시킬 잠재력을 가지고 있다.

27분 기록: 수년에 걸쳐 이뤄진 기술적 돌파구

업계 전문가들이 클라우드 컴퓨팅의 전환점이라 부르는 가운데, 코어위브는 엔비디아(NVIDIA) 및 IBM과의 파트너십을 통해 방대한 4,050억 개의 매개변수를 가진 라마 3.1(Llama 3.1) 모델을 단 27.3분 만에 성공적으로 훈련했다. 6월 4일 MLPerf 트레이닝 v5.0 제출에서 공개된 이 성과는 유사 시스템보다 두 배 이상 빠른 속도다.

선도적인 연구소의 한 AI 시스템 아키텍트는 "이것은 단순히 점진적인 발전이 아니라, 가능성의 근본적인 변화"라며, "과거에는 하루 종일 걸리던 훈련이 이제 커피가 식기도 전에 끝난다"고 말했다.

이 기술적 성과는 코어위브가 2,496개의 엔비디아 GB200 GPU를 NVL72라는 특수 구성으로 배포한 데 기반한다. NVL72는 고대역폭 NVLink 연결을 통해 72개의 GPU를 그룹화한다. 이 아키텍처는 기존 GPU 클러스터와는 현저히 다른 방식으로, 대규모 AI 훈련을 오랫동안 괴롭혀왔던 많은 병목 현상을 제거한다.

숫자 그 이상: AI 개발에 있어 이것이 중요한 이유

이번 성과가 시사하는 바는 업계 벤치마크에서의 자랑을 넘어선다. 최첨단 모델을 연구하는 AI 연구소 및 기업에게는 30분 이내에 파운데이션 모델을 훈련할 수 있는 능력이 개발 주기를 몇 주에서 며칠로 단축시킨다.

대규모 AI 배포에 정통한 한 컴퓨팅 연구원은 "훈련 시간이 12시간에서 27분으로 줄어들면 모든 것이 바뀐다"며, "하루에 수십 개의 실험을 진행하고, 더 많은 가설을 테스트하며, 결과가 나오기를 기다리는 경쟁사보다 궁극적으로 더 나은 모델을 더 빠르게 구축할 수 있다"고 설명했다.

코어위브의 성과는 특히 그 규모 면에서 주목할 만하다. 이들이 제출한 클러스터는 다른 어떤 클라우드 제공업체의 MLPerf 참가작보다 34배나 컸다. 이는 기술적 역량뿐만 아니라, 첨단 컴퓨팅 자원 접근이 업계 전반적으로 제한적인 시기에 가장 까다로운 AI 워크로드를 지원할 수 있는 운영 준비 상태를 입증한다.

경제적 방정식: AI 총 소유 비용(TCO) 재정의

성능 향상은 직접적으로 재정적 영향을 미친다. 업계 분석에 따르면, 코어위브 인프라에서 4,050억 매개변수 모델을 훈련하는 데 약 35만 달러에서 42만 달러가 소요될 것으로 예상된다. 이는 다른 플랫폼에서 유사한 훈련을 진행하는 데 드는 비용(60만 달러를 초과할 수 있음)보다 약 30~40% 저렴한 수치다.

제한된 자금으로 운영되는 AI 스타트업의 경우, 이러한 비용 차이는 야심찬 프로젝트가 진행될지 아니면 이론에 머물지 결정할 수 있다. 기존 기업에게는 대규모 AI 이니셔티브에서 수백만 달러의 잠재적 절감 효과를 의미한다.

AI 스타트업 전문 벤처 투자자는 "여기서의 경제성은 매우 설득력 있다"며, "직접적인 비용 절감과 빠른 개발 주기라는 경쟁 우위를 모두 고려하면, 코어위브의 제안은 특정 시장 부문에서 혁신적인 역할을 한다"고 언급했다.

성과를 뒷받침하는 기술 아키텍처

코어위브의 기록적인 성능은 여러 기술 혁신에 기반한다.

GB200 그레이스 블랙웰(Grace Blackwell) 슈퍼칩은 엔비디아의 최신 AI 가속기로, 강력한 GPU 코어를 ARM 기반 그레이스(Grace) CPU 및 특수 데이터 처리 장치와 동일한 패키지에 결합했다.

처리 장치 간 데이터를 이동시키기 위해 별도의 호스트 CPU를 필요로 하는 기존 GPU 랙과 달리, GB200의 통합 설계는 이러한 병목 현상을 해결한다. NVL72 구성은 72개의 GPU로 구성된 통합 도메인을 생성하고 그들 간에 직접적인 고속 연결을 제공함으로써 이러한 이점을 더욱 확장한다.

주요 연구 대학의 인프라 전문가는 "이 아키텍처를 특별하게 만드는 것은 분산 AI 훈련의 아킬레스건이었던 데이터 이동 문제를 해결하는 방식"이라며, "CPU를 직접 통합하고 NVLink 도메인을 72개의 GPU로 확장함으로써, 일반적으로 스케일링 비효율성을 초래하는 여러 간접 계층을 제거했다"고 설명했다.

IBM의 기여는 공개 자료에서는 덜 자세하지만, 열 관리, 전력 분배, 그리고 필요한 방대한 데이터 흐름을 유지할 수 있는 네트워킹 패브릭을 포함한 핵심 시스템 수준 설계에 기여했을 가능성이 높다.

시장 포지셔닝: 경쟁 구도 속 코어위브의 위치

이번 성과는 코어위브를 AWS, 구글 클라우드, 마이크로소프트 애저와 같은 하이퍼스케일 클라우드 제공업체들에 대한 전문적인 대안으로 자리매김하게 한다. 이들 모두 AI 워크로드를 위한 자체 고성능 컴퓨팅 옵션을 제공하고 있다.

구글의 TPU v5 Pod, AWS의 EC2 P5 인스턴스, 마이크로소프트가 최근 발표한 크라이오팟(CryoPod)이 가장 근접한 경쟁자로 꼽히지만, MLPerf v5.0 벤치마크에서 이 정도 규모의 유사한 성능을 공개적으로 시연한 곳은 아직 없다.

한 클라우드 인프라 분석가는 "AI 컴퓨팅 우위를 위한 경쟁은 다면적"이라며, "하이퍼스케일러들은 엄청난 자원을 가지고 있지만, 코어위브의 집중적인 접근 방식과 블랙웰(Blackwell) 아키텍처에 대한 조기 접근은 이 특정 하이엔드 부문에서 일시적인 우위를 제공했다"고 평가했다.

이러한 우위는 일시적일 수 있다. AWS, 구글, 마이크로소프트 모두 동일한 엔비디아 기반 기술과 방대한 자원을 활용하여 이를 배포할 수 있기 때문이다. 그러나 향후 몇 분기 동안 코어위브는 초고성도 LLM 훈련 역량에서 의미 있는 선두를 확보한 것으로 보인다.

앞으로의 과제와 기회

코어위브의 성과가 중요한 이정표가 되지만, 이 기술을 활용하려는 조직에게는 몇 가지 과제가 남아있다.

GPU 처리 속도가 이 정도로 가속화되면 데이터 준비 및 파이프라인 효율성이 점점 더 중요해진다. 데이터 공급의 사소한 병목 현상조차도 더 빠른 훈련 역량의 실제 이점을 크게 감소시킬 수 있다.

소프트웨어 복잡성은 여전히 상당하여, 수천 개의 GPU에 걸친 분산 훈련을 완전히 활용하려면 전문 지식이 필요하다. 많은 조직은 추가 지원 없이는 이 규모에서 최적화할 수 있는 사내 인재가 부족하다.

가용성과 프로비저닝(할당) 기간은 실제로 얼마나 많은 조직이 이 역량에 접근할 수 있는지를 결정할 것이다. 코어위브는 24시간 이내에 수천 개의 GPU를 할당할 수 있는 충분한 재고를 확보했다고 주장한다. 이는 일부 하이퍼스케일러에서 보고된 수개월 대기 목록과는 극명한 대조를 이루지만, 이 규모에서의 지속적인 가용성은 아직 입증되어야 한다.

투자 관점: AI 인프라 시장에 미치는 영향

AI 인프라 시장을 주시하는 투자자들에게 코어위브의 시연은 몇 가지 주요 동향을 강조한다.

전문 AI 클라우드 제공업체 시장은 기존 하이퍼스케일러들과 함께 공고해지는 것으로 보이며, 이는 범용 클라우드 컴퓨팅과 특수 AI 인프라 간의 양분화를 시사한다.

세레브라스(Cerebras), 그래프코어(Graphcore), 하바나 랩스(Habana Labs) 등 신흥 경쟁업체에도 불구하고 엔비디아의 AI 가속기 시장 지배적 위치는 지속되고 있다. GB200 아키텍처의 성능 우위는 엔비디아의 기술적 리더십을 강화하지만, 공급 제약은 여전히 중요한 시장 요인으로 남아있다.

초대규모 AI 훈련(1,000억 개 이상의 매개변수 모델)의 전체 유효 시장(TAM)은 연간 20억~30억 달러로 추정되며 빠르게 성장하고 있다. 이는 전체 500억 달러 규모의 AI 인프라 시장 내에서 가장 높은 마진을 가진 부문 중 하나이다.

상당한 AI 이니셔티브를 가진 조직은 다중 클라우드 전략을 채택해야 할 수 있다. 코어위브와 같은 전문 제공업체를 특정 고성능 워크로드에 활용하면서, 더 광범위한 컴퓨팅 요구사항을 위해 하이퍼스케일러와의 관계를 유지하는 방식이다.

AI 개발에 미치는 영향

코어위브의 시연은 우리가 파운데이션 모델 개발을 위한 'AI 급행 차선'에 진입했음을 시사한다. 이 차선에서는 최첨단 인프라에 접근할 수 있는 사람들에게 긴 훈련 실행의 병목 현상이 크게 줄어든다.

대규모 모델을 연구하는 기업 AI 팀에게 새로운 역량은 심각하게 고려할 가치가 있다. 특히 1,000억~5,000억 개 매개변수 범위의 모델을 포함하는 프로젝트에서 더욱 그렇다. 이러한 자원에 가끔 접근하는 것만으로도 개발 주기를 크게 단축시킬 수 있다.

소규모 조직 및 연구팀은 여전히 일상적인 작업에 전통적인 GPU 클러스터가 더 비용 효율적이라고 생각할 수 있으며, 초대규모 자원은 특정 이정표나 개념 증명 시연을 위해 남겨둘 수 있다.

새로운 가속기 기술과 소프트웨어 최적화가 지속적으로 등장하면서 인프라 환경이 계속 발전함에 따라, AI 개발 혁신의 속도는 더욱 가속화될 것으로 보인다.

현재로서는 코어위브의 성과가 무엇이 가능한지에 대한 벤치마크 역할을 하며, AI 인프라 경쟁이 AI 알고리즘 자체만큼이나 역동적이고 중요함을 시사한다.