Google의 Ironwood TPU v7 출시 임박 — AI의 성능 및 수익 규칙을 재편할 추론 슈퍼칩

구글의 아이언우드 칩, AI 경제학 재정의하며 새로운 추론 시대 열다

전력 제약 시대의 기술적 도약

구글 클라우드의 아이언우드 TPU v7이 2025년 4월 프리뷰(사전 공개) 이후 정식 출시를 앞두고 전면에 나서고 있다. 이는 단순한 칩 출시를 넘어선, 과감한 아키텍처적 시도다. Hot Chips 2025에서 새로운 기술 세부 정보가 공개된 후 더욱 명확해졌듯이, 구글은 훈련(학습)보다는 추론에 크게 베팅하고 있다.

각 아이언우드 유닛은 엄청난 4,614 FP8 테라플롭스(teraflops)의 연산 능력을 제공하며, 초당 7.3 테라바이트(terabytes)로 작동하는 192 기가바이트(gigabytes)의 초고속 HBM3e 메모리 지원을 받는다. 첨단 5나노미터(nm) 공정으로 제작된 이 칩은 약 600와트(watts)의 전력을 소비하는데, 이는 그 성능에 비해 인상적인 수치다.

진정한 마법은 포드(pod) 수준에서 일어난다. 9,216개의 액체 냉각 칩이 광 회로 스위칭을 통해 연결되어 총 42.5 FP8 엑사플롭스(exaflops)의 성능과 경이로운 1.77 페타바이트(petabytes)의 공유 메모리를 달성하는 모습을 상상해보라. 이는 머신러닝 시스템 분야에서 기록적인 수치다. 이러한 설정은 구글의 핵심 신념을 드러낸다. 2025년 후반 AI 배포의 가장 큰 장애물은 더 이상 순수한 연산 능력이 아니라, 대규모의 상태 저장형 AI 에이전트를 확장 운영하는 데 필요한 메모리, 대역폭, 그리고 전력 효율성이라는 것이다.

아이언우드의 초당 1.2 테라바이트 I/O 패브릭과 이전 트릴리움(Trillium) 세대 대비 두 배 향상된 와트당 성능은 이러한 문제점들을 직접적으로 해결한다. 하이퍼스케일러들은 전력망의 물리적 한계에 부딪히고 있으며, 따라서 모든 와트에서 더 많은 추론을 이끌어내는 것이 새로운 기준이 되었다. 오늘날의 멀티 기가와트 데이터센터에서 핵심 지표는 얼마나 빨리 훈련할 수 있는지가 아니라, 추론 워크로드를 얼마나 효율적으로 처리할 수 있는지다.

앤트로픽(Anthropic) 계약, 수요 촉발하며 엔비디아(Nvidia)와의 경쟁 부추겨

전환점은 2025년 10월 23일에 찾아왔다. 앤트로픽은 "최대 100만 대의 TPU"와 "수백억 달러" 규모의 계약을 체결했으며, 2026년까지 예상 전력 사용량은 1기가와트(gigawatt)를 넘어설 것으로 전망된다. 하룻밤 사이에 아이언우드는 로드맵상의 약속에서 실제적이고 중대한 수요에 의해 뒷받침되는 생산 현실로 탈바꿈했다.

구글에게 이 계약은 가시성과 안정성을 의미한다. 이제 구글은 4월 당시의 큰 우려 사항이었던 미사용 용량에 대한 걱정 없이 데이터센터 건설 및 전력 계약을 계획할 수 있게 되었다.

앤트로픽의 베팅 규모가 모든 것을 말해준다. 클로드(Claude) 개발사인 앤트로픽은 엔비디아나 AWS의 최신 칩을 기다리는 대신, 구글의 아이언우드를 시장 출시 속도와 전력 효율성 때문에 선택했다. 이는 TPU v7의 경제성, 즉 더 많은 추론과 더 적은 에너지 소비에 대한 분명한 인정이다. 실리콘이 아닌 전력이 성장을 제한하는 세상에서 이는 그 어느 때보다 중요하다.

AI 칩 시장의 경쟁은 이제 워크로드별로 분화되고 있다. 엔비디아의 블랙웰(Blackwell) 칩은 여전히 최첨단 훈련(학습) 분야를 지배하며, 호퍼(Hopper)보다 최대 30배 빠른 추론을 제공하고 2026년에 출시될 루빈(Rubin)의 3.6 엑사플롭스 랙 스케일(rack-scale) 시스템의 토대를 마련하고 있다. 한편, AWS는 울트라클러스터(UltraCluster) 네트워크를 통해 연결된 50만 개의 트레이니움2(Trainium2) 칩을 배포했지만, 각 칩의 온보드 메모리는 더 적다(16개 칩 블록당 약 1.29 FP8 페타플롭스). 마이크로소프트의 마이아(Maia) 프로그램은 여전히 뒤처져 있으며, 차세대 하드웨어는 2026년까지 지연되었다.

구글의 전략은 다르다. 구글은 가장 큰 숫자를 쫓는 것이 아니라, 올바른 숫자를 쫓고 있다. 아이언우드의 1.77 페타바이트 공유 메모리는 전문가 혼합(MoE) 모델, 장문 맥락 추론, 그리고 검색 중심 시스템을 처리하는 데 우위를 제공한다. 이는 현대 AI의 핵심 워크로드다. 엔비디아가 만능(one-size-fits-all) 솔루션을 판매하는 동안, 구글은 "추론 시대"라고 부르는 것을 위해 맞춤형 인프라를 구축하고 있다.

투자 인사이트: 수직 계열화를 통한 마진 보호

알파벳 투자자들에게 아이언우드는 단순한 새로운 칩 이상의 의미를 지닌다. 이는 클라우드 AI 사업에서 축소되는 마진에 대한 방어책이다. AWS와 같은 하이퍼스케일러들은 2027년까지 11.8 기가와트의 전력 용량에 도달할 것으로 예상되며, 전체 산업은 해당 기간 동안 막대한 투자를 하고 있다. 맞춤형 실리콘은 구글이 이러한 지출을 이익으로 전환하여, 칩 설계부터 배포까지의 가치를 포착할 수 있게 한다.

수치가 모든 것을 말해준다. 아이언우드는 트릴리움 대비 와트당 성능을 두 배로 높이며, 이는 2026년 데이터센터의 각 메가와트(megawatt) 용량이 2024년 시스템보다 두 배의 추론 출력을 생산할 수 있다는 의미다. 구글의 vLLM 통합 및 개선된 패스웨이즈(Pathways) 스케줄링과 같은 더 스마트한 소프트웨어를 더하면, 구글은 마진을 개선하면서도 AI 서비스 가격을 경쟁력 있게 책정할 수 있다. 간단히 말해, 자체 칩을 사용하는 것이 다른 회사의 칩을 재판매하는 것보다 낫다.

앤트로픽과의 계약은 또한 구글의 자본 지출 계획에서 불확실성을 제거한다. 고객 유치를 바라며 용량을 구축하는 대신, 구글은 이제 보장된 수요에 맞춰 구축한다. 이는 금융 모델을 추측에서 확실성으로 전환하며, AI 인프라 지출이 이제 고정된 수익과 직접적으로 연결된다.

하지만 세 가지 큰 질문이 여전히 남아있다. 첫째, 구글은 더 많은 핵심 고객을 유치할 수 있을까? 두세 건의 추가적인 장기 TPU 계약은 아이언우드가 단순히 한 고객만을 위한 기적이 아니라는 것을 증명할 것이다. 둘째, 전력 프로젝트는 일정대로 진행될까? 2026년 목표는 변전소 승인과 건설 일정에 달려 있으며, 이는 전적으로 구글의 통제하에 있지 않다. 셋째, 구글의 소프트웨어 스택이 엔비디아의 CUDA 생태계와 보조를 맞출 수 있을까? 활용률이 여기에 달려 있으며, 90%에서 70%로 떨어지면 효율성에 큰 타격을 줄 것이다.

엔비디아의 훈련(학습) 분야 지배력은 여전히 안전하지만, 아이언우드와 같은 맞춤형 칩의 위협은 현실이다. 구글은 연구나 신속한 프로토타이핑 분야에서 엔비디아를 왕좌에서 끌어내리려 하지 않는다. 대신, 구글은 AI 시스템을 매일 가동하는 대규모의 꾸준한 추론 작업과 같은 핵심 워크로드를 목표로 하고 있다. 2027년까지 구글의 TPU는 전체 추론 시장의 최대 30%를 처리할 수 있을 것으로 예상된다.

이러한 변화는 아마존과 마이크로소프트의 유사한 움직임과 결합되어, 엔비디아가 가격 책정을 정당화해야 하는 압력이 커지는 이유를 설명한다. AI 칩 시장은 하나의 거대 공급업체에서 각각 자체 스택을 소유하는 여러 수직 계열화된 생태계로 진화하고 있다.

아이언우드의 진정한 중요성은 AI 인프라가 단순히 끝없이 확장하는 것을 넘어 수익 마진을 높일 수 있다는 것을 입증하는 데 있다. 알파벳에게 이는 전략적 안전망으로서, 내부 사용과 클라우드 임대 사이를 전환할 수 있는 유연성을 제공하며 외부 칩 제조업체에 대한 의존도를 줄인다. 효율성이 최고인 세상에서 구글의 아이언우드는 AI 자체의 경제학을 재정의하는 칩이 될 수 있다.

투자 조언 아님