
실리콘밸리 스타트업, 엔비디아 AI 장악력 깨기 위해 2억 5천만 달러 투자
모듈러의 기록적인 자금 조달, AI 수요 급증 속 벤더 종속에 대한 반발 심화 시사
실리콘밸리 서버 팜 내부에서 큰 변화가 감지되고 있습니다. AI 워크로드가 점점 더 많은 컴퓨팅 파워를 집어삼키는 가운데, 한 신생 스타트업이 테크 업계에서 가장 지배적인 세력 중 하나인 엔비디아의 AI 인프라 장악력에 도전하기 위해 2억 5천만 달러의 전비를 확보했습니다.
프로그래밍 언어 개척자인 크리스 래트너가 공동 설립한 스타트업 모듈러(Modular)는 수요일 토마스 툴의 US 이노베이티브 테크놀로지 펀드가 주도한 시리즈 C 투자를 유치했다고 발표했습니다. 이번 투자 유치로 모듈러의 기업 가치는 약 3배 증가한 16억 달러에 달했으며, 2022년 창립 이래 총 3억 8천만 달러의 자금을 모으게 되었습니다. 이제 이 회사는 AI 컴퓨팅의 규칙을 새로 쓰려는 도전자들 중 선두에 서 있습니다.
그러나 이러한 성공의 이면에는 더 깊은 이야기가 숨어 있습니다. 업계는 단순히 더 빠른 칩을 쫓는 것이 아닙니다. 불편한 현실과 씨름하고 있습니다. 컴퓨팅 수요는 폭발적으로 증가하고 있지만, 파편화되고 벤더별로 나뉜 소프트웨어 스택 때문에 오늘날의 엄청난 용량 중 상당 부분이 유휴 상태로 남아있다는 것입니다.
조용한 위기: 컴퓨팅 파워에 굶주린 세상에서 낭비되는 컴퓨팅
AI의 컴퓨팅 파워에 대한 갈증은 끝이 없어 보입니다. 데이터 센터는 유리 대성당처럼 솟아나지만, 내부자들은 공공연히 눈에 띄는 비효율성에 대해 속삭입니다. 문제는 하드웨어 자체가 아니라, 그 하드웨어를 둘러싼 '울타리 쳐진 정원'(즉, 폐쇄적인 생태계)입니다.
엔비디아는 CUDA를, AMD는 ROCm을, 애플은 자체 프레임워크를 가지고 있습니다. 각각의 기술은 개발자들을 자체 사일로(독점적인 환경)로 몰아넣어, 단일 벤더에 충성하거나 엄청난 비용으로 여러 코드베이스를 동시에 다루게 만듭니다. 한 분석가는 이를 "혁신세"라고 부릅니다.
그 세금은 작지 않습니다. AI 모델 훈련 비용은 추론 비용이 하락하는 와중에도 매달 증가하고 있습니다. 기업들은 컴퓨팅에 기록적인 금액을 지출하지만, 소프트웨어 병목 현상 때문에 그 지출의 상당 부분이 효과를 내지 못하고 있습니다. 모든 경주용 자동차가 1단 기어에 갇힌 채 움직이는 모습을 상상해보세요. 많은 엔지니어들이 그리는 그림이 바로 이것입니다.
모듈러의 승부수: AI의 "운영체제" 구축
모듈러는 해결책을 찾았다고 생각합니다. 이 회사는 자신들을 한때 서버 하드웨어를 추상화하여 기업 IT 환경을 영원히 바꾼 VMware에 비견되는 AI 업계의 존재로 내세우고 있습니다.
이 플랫폼은 세 가지 주요 구성 요소를 통합합니다. 최상위에는 AI에 최적화된 쿠버네티스 네이티브 오케스트레이션 시스템인 **매머스(Mammoth)**가 있습니다. 일반적인 오케스트레이션과 달리 매머스는 워크로드 유형별 요청 라우팅, 더 스마트한 할당을 위한 캐시로부터 컴퓨팅 분리, 동일 하드웨어에서 여러 모델을 처리하는 것과 같은 대규모 추론의 미묘한 특징들을 이해합니다.
다음은 서빙 레이어인 MAX입니다. 모듈러는 여기에 투기적 디코딩(speculative decoding) 및 오퍼레이터 레벨 퓨전(operator-level fusions)과 같은 최적화 기술을 집약했습니다. 또한 이들은 실용적인 약속을 합니다. 바로 호환성입니다. MAX는 PyTorch 및 독점 모델을 지원하며, OpenAI의 API와 호환되는 엔드포인트를 노출합니다.
그리고 그 기반에는 파이썬의 용이성과 C++의 압도적인 속도를 결합한 새로운 시스템 언어인 **모조(Mojo)**가 있습니다. 이 언어를 소유함으로써 모듈러는 CUDA가 엔비디아에게 부여했던 것과 동일한 종류의 종속 효과를 달성하려 합니다. 단, 이번에는 모든 벤더에 걸쳐서 말입니다.
초기 벤치마크 결과는 고무적입니다. 모듈러는 자사의 스택이 최신 하드웨어에서 vLLM 및 SGLang과 같은 프레임워크보다 20~50% 더 나은 성능을 제공하며, 파트너에게는 최대 70%의 지연 시간 감소와 최대 80%의 비용 절감 효과를 가져다준다고 말합니다.
성패가 갈리는 시장에서 동맹 구축
모듈러는 이 싸움에 홀로 뛰어들고 있지 않습니다. 이번 투자 유치 과정에서 클라우드 제공업체부터 칩 제조업체에 이르는 광범위한 동맹 관계가 드러났습니다. 오라클, AWS, 람다 랩스, 텐서웨이브가 합류했습니다. 하드웨어 파트너로는 AMD와 흥미롭게도 엔비디아 자신도 포함되어 있습니다. 고객사로는 인월드(Inworld)와 같은 스타트업부터 제인 스트리트(Jane Street)와 같은 거대 기업까지 다양합니다.
클라우드 플랫폼에게 모듈러를 지원하는 것은 합리적입니다. 통합된 소프트웨어 레이어는 특정 칩 공급업체에 대한 의존도를 낮추고 활용률을 높일 수 있습니다. AMD와 다른 경쟁사들에게는 채택 장벽을 낮춤으로써 엔비디아와의 경쟁 환경을 평준화할 기회입니다.
투자자 토마스 툴은 직설적으로 말했습니다. "전략적 AI 구현은 오늘날 경제에서 가장 중요한 경쟁 요소입니다." 숨겨진 의미는 명확합니다. 소프트웨어 레이어를 통제하는 자가 시장뿐만 아니라 국가 경쟁력까지 좌우할 수 있다는 것입니다.
도전자들에게 타이밍은 더할 나위 없이 좋습니다. AMD의 최신 MI350 칩은 많은 AI 워크로드에서 엔비디아의 성능에 필적하며, Cerebras와 Groq 같은 스타트업들은 특정 사용 사례에서 탁월한 성능을 발휘하는 특수 아키텍처를 추진하고 있습니다. 모듈러의 추상화 레이어는 이러한 대안들에게도 경쟁할 수 있는 기회를 제공할 수 있습니다.
엔비디아의 반격
물론 엔비디아도 가만히 있지 않습니다. 엔비디아의 NIM (NVIDIA Inference Microservices) 플랫폼은 CUDA 기반 배포를 간단한 컨테이너에 담아 제공합니다. 엔비디아 생태계에 만족하는 고객들에게 이 턴키(turnkey) 모델은 타의 추종을 불허하는 단순성과 성능을 제공합니다.
이는 모듈러를 고전적인 혁신가의 딜레마에 빠뜨립니다. 모듈러는 개발자들에게 유연성과 크로스 플랫폼의 자유가 엔비디아 폐쇄형 생태계의 완성도와 속도보다 더 중요하다는 것을 설득해야 합니다. 한편, vLLM, SGLang, ONNX Runtime과 같은 오픈소스 경쟁사들은 이미 상당한 개발자들의 지지를 얻고 있습니다.
그리고 시장의 힘이 기술만큼이나 결과를 좌우할 수 있습니다. GPU 수요가 공급을 초과하는 상황에서 많은 기업들은 원하는 칩을 선택할 여유가 없습니다. 그들은 구할 수 있는 것을 받아들일 것입니다. 그러한 역학 관계만으로도 모듈러와 같은 벤더 중립적 솔루션의 채택을 촉진할 수 있습니다.
투자자들이 주목하는 이유
2억 5천만 달러의 이번 투자는 벤처 캐피탈이 AI를 바라보는 시각의 변화를 보여줍니다. 화려한 모델 스타트업들이 헤드라인을 장식하지만, 인프라 플레이어들은 점점 더 안전하고 지속 가능한 투자처로 여겨지고 있습니다. 이들은 AI 군비 경쟁에서 승리할 필요가 없습니다. 누가 최고의 모델을 만들든 상관없이 그로부터 이익을 얻습니다.
16억 달러의 기업 가치는 모듈러가 단순한 소프트웨어 스타트업 이상으로 투자자들에게 비치고 있음을 시사합니다. 투자자들은 모듈러가 모든 AI 프로젝트가 통과해야 하는 '통행료 징수소'와 같은 기반 레이어가 될 수 있다고 예상하고 있습니다. 그러한 포지셔닝은 클라우드 거대 기업이나 하드웨어 벤더들이 군침을 흘릴 만한 인수 후보로 만들기에 충분합니다.
앞으로의 길
그럼에도 불구하고 모듈러의 도전은 엄청납니다. 단순히 언어나 프레임워크를 구축하는 것이 아니라, 언어, 런타임, 오케스트레이션을 동시에 해결해야 합니다. 그러한 어려운 난관을 극복하는 기업은 많지 않습니다.
역사는 희망과 경고를 동시에 제시합니다. VMware는 이를 성공시켰고 IT를 재편했습니다. 다른 많은 기업들은 유사한 시도를 했지만 성능 타협이나 기존 강자들의 저항 때문에 좌절했습니다. 모듈러는 하드웨어 전반에 걸쳐 "충분히 좋은" 속도를 제공하는 동시에 전환을 정당화할 만한 운영의 용이성을 제공해야 합니다.
시간은 흐르고 있습니다. 엔비디아의 생태계는 매일 더 강력해지고 있으며, 오픈소스 경쟁자들도 빠르게 전진하고 있습니다. 모듈러가 깃발을 꽂을 기회가 영원히 열려 있지는 않을 것입니다.
AI 업계에서 이해관계는 매우 높습니다. 모듈러가 성공한다면, 다양하고 경쟁력 있는 하드웨어 옵션과 더 공정한 가격 책정의 미래를 열 수 있습니다. 만약 실패한다면, 엔비디아의 지배력은 거의 영구적인 수준으로 굳어질 수 있습니다.
한 가지 확실한 점은 AI 컴퓨팅 비용이 치솟고 공급이 더 빠듯해짐에 따라, 벤더에 구애받지 않는 인프라의 매력은 더욱 커질 것이라는 사실입니다. 모듈러가 이러한 갈증을 지속적인 성공으로 바꿀 수 있을지는 회사의 운명뿐만 아니라 향후 수년간 AI 인프라의 형태를 결정할 수도 있습니다.
내부 투자 분석
측면 | 요약 |
---|---|
핵심 논지 | 통합 AI 컴퓨팅 레이어는 하드웨어 다원주의와 벤더 종속 피로감에 의해 추진되는 실질적이고 강력한 트렌드입니다. 그러나 그 성공은 엔비디아의 반격(NIM, TensorRT-LLM)에 맞서 성능 동등성과 운영 단순성을 입증하는 데 달려 있습니다. |
핵심 신호: 모듈러의 투자 유치 | 16억 달러 기업 가치로 2억 5천만 달러 유치. "AI용 VMware"로 포지셔닝하며, 클라우드, 기업, ISV를 위해 CUDA/ROCm/ASIC을 추상화하는 통합 스택(OpenAI 호환 서빙, K8s 제어 평면, 커널 DSL)을 제공합니다. |
핵심 신호: 엔비디아의 반격 | NIM 마이크로서비스와 TensorRT-LLM은 CUDA 생태계 내에서 턴키 방식의 고성능 경로를 제공하며, 제3자 통합자의 필요성을 약화시키는 강력한 "쉬운 버튼" 역할을 합니다. |
시장 동인 (근본 원인) | 1. 벤더 종속 피로감: 엔비디아 대비 가격 협상력 확보 희망. 2. 하드웨어 다원주의: 신뢰할 수 있는 대안 (AMD MI350, Groq, Gaudi, Apple MLX). 3. 운영 복잡성: 사전 채우기 라우팅, 양자화 등 즉시 사용 가능한 기능의 필요성. 4. 자본 이동: 네오클라우드/클라우드는 더 나은 투자 수익률(ROIC)을 위해 활용률과 휴대성(이식성)이 필요합니다. |
경쟁 환경 | 수평적 통합자: 모듈러 (풀스택), ONNX 런타임 (실용적), OpenXLA/IREE (컴파일러 IR). 서빙 엔진: vLLM (OSS 기본), SGLang (빠른 진입자), NVIDIA NIM/TRT-LLM (기존 강자의 용이성), Hugging Face TGI (기업용). 하드웨어 수직 계열: 엔비디아 (강력한 흡인력), AMD (신뢰도 향상), Groq (속도 서사). |
승리 경로 (모듈러/통합자) | 1. 유통: 클라우드/네오클라우드 이미지에 OEM 사전 설치. 2. 칩 벤더 공동 개발: 비엔비디아 하드웨어에 대한 Day-0 지원 및 성능 동등성. 3. 운영적 우위: 고급 기능(사전 채우기 라우팅, 다중 테넌시) 기본 제공. 4. 개발자 흡인력: 모조 언어의 성공 또는 강력한 PyTorch/OpenAI API 상호운용성. |
주요 위험 / 실패 모드 | 1. 엔비디아의 편리성: NIM이 "충분히 좋다"면 휴대성(이식성)의 매력이 감소합니다. 2. 성능 지연: 일반 하드웨어에서 (5-20%) 느리면 마이그레이션을 저해합니다. 3. 과도한 구축 위험: 언어+런타임+제어 평면의 범위가 너무 넓음. 4. 오픈 표준: ONNX/OpenXLA/vLLM의 성숙은 새로운 레이어를 불필요하게 만들 수 있습니다. |
실사 중점 사항 (VC용) | 1. 휴대성(이식성) 증명: B200 vs MI350 vs Gaudi에서 생산 SLO (TTFT, p95, 1백만 토큰당 비용) 확인. 2. 유통: 클라우드 마켓플레이스에서 기본 옵션으로 내장 여부. 3. 운영 기본 기능: NIM과의 기능 동등성 (라우팅, 캐싱, 다중 모델 서빙). 4. 생태계: 모델 지원, API 호환성, vLLM/SGLang 대비 벤치마크. 5. 마진: "작업당" 수익화의 단위 경제학. |
창업 기회 | 1. LLM 가시성: 토큰 수준 추적, 비용 귀속. 2. 양자화 툴체인: 입증 가능한 정확도 경계, 자동 A/B 테스트. 3. 다중 테넌트 안전 및 정책: 인프라 레이어 보호 장치. 4. 엣지 통합: ExecuTorch/MLX/NPU를 클라우드 메시와 연결. |
통합 레이어가 승리할 경우의 함의 | 1. 칩 다변화 가속 (AMD/Gaudi/Groq 점유율 증가). 2. 클라우드/네오클라우드는 엔비디아에 대한 영향력 회복; 활용률/ROIC 개선. 3. 표준 (ONNX, OpenXLA)의 영향력 증대. |
실패할 경우의 함의 | NIM으로 CUDA 헤게모니 심화; 비엔비디아 하드웨어 채택 둔화. |
12-24개월 전망 | 1. 투스택(Two-stack) 세계: "엔비디아 우선" 대 "통합 우선" 스택이 공존. 2. M&A: 하이퍼스케일러/네오클라우드가 통합 솔루션 기업 인수. 3. AMD 점유율 증가: 통합 런타임 성숙에 따라 추론 부문에서 AMD 점유율 증가. 4. 서빙 엔진 통합: 경쟁은 미미한 성능 차이보다 운영 편의성으로 이동. |
추적할 핵심 성과 지표 (KPI) | 1. 비용: B200 vs MI350에서 p95 기준 1백만 출력 토큰당 비용. 2. 속도: NIM 대비 상용화 시간. 3. 커버리지: 칩/벤더 지원 및 Day-0 준비도. 4. 효율성: 사전 채우기 라우팅 적중률, KV 캐시 재사용. 5. 유통: 마켓플레이스 이미지 및 OEM 사전 번들링. |
투자 조언 아님