생성형 AI, 소프트웨어 일자리만 위협하는 게 아니다 – 퍼블릭 클라우드에도 다가온다
10년 동안, 이 서사는 막을 수 없는 것처럼 느껴졌다. 퍼블릭 클라우드 위에 구축하거나, 경쟁자들이 당신을 뒤처지게 만들 것을 지켜보라는 식이었다. 관리형 서비스는 무한한 확장성과 글로벌 도달 범위를 약속했다. 굳이 중력에 맞서 싸울 이유가 무엇이겠는가? 그러던 중, 누구도 예상치 못한 방식으로 판도를 뒤집는 생성형 AI가 등장했다. 소프트웨어 엔지니어를 대체할까 모두가 두려워했던 바로 그 기술이 이제 하이퍼스케일 클라우드를 필연적인 존재로 만들었던 '운영상의 해자'를 조용히 허물고 있다.
이를 거대한 재균형 과정으로 생각해보자. 에이전트 기반 SRE 시스템은 런북(운영 지침서)을 자동으로 작성한다. 자동 복구(Auto-remediation)는 인간이 알아채기도 전에 문제를 해결한다. 코파일럿은 테라폼 구성과 쿠버네티스 매니페스트를 며칠이 아닌 몇 분 만에 생성한다. 운영 부담이 줄어들면 경제성은 극적으로 변화한다. 많은 대기업은 예측 가능한 워크로드를 운영한다. 이들에게는 자체 용량을 소유하거나 저렴한 글로벌 VPS를 사용하는 것이 다시금 재정적으로 합리적인 선택이 된다.
(이 기사는 생성형 AI 워크로드를 제외한, 비-AI 퍼블릭 클라우드 워크로드에 중점을 둡니다.)
낡은 거래 방식은 저물고 있다
퍼블릭 클라우드는 단순히 "다른 사람이 서버를 관리해주는 것"만을 의미하지 않았다. 기업들은 방대한 플랫폼 팀을 구축할 필요 없이 속도, 안전성, 확장성 때문에 프리미엄을 지불했다. 그러나 AI는 대부분의 사람이 깨닫는 것보다 더 빠르게 그 격차를 좁히고 있다.
에이전트 기반 운영은 단순 반복 작업을 완전히 없앤다. 대규모 언어 모델은 필요에 따라 인프라 코드를 생성한다. 이들은 인시던트 발생 시 안전한 롤백을 제안한다. 또한 복잡한 문제를 요약하고 정책 경계 내에서 표준 런북을 실행한다. 플랫폼 팀이 온종일 매달리던 작업들이 이제 몇 분 만에 완료된다. 더 좋은 점은 문서가 일관되게 유지되고 감사 추적 기록이 완벽하게 남는다는 것이다.
오픈소스 도구들은 이제 실제 프로덕션 환경에서 사용하기에 "충분히 관리 가능한" 수준이 되었다. 한때 자체 호스팅하기에는 너무 위험해 보였던 Postgres 오퍼레이터, 벡터 데이터베이스, 모델 서버, 피처 스토어, 관측 가능성(observability) 스택들이 이제 에이전트가 정책형 코드(policy-as-code) 프레임워크를 사용하여 조립한다. 사용자 지정(Customization)은 벤더 종속(vendor lock-in)을 언제나 능가한다. AI는 글루 코드(glue code)가 시간이 지남에 따라 품질이 저하되는 것을 방지한다.
예측 가능한 워크로드는 경제적으로 탄력적인 워크로드보다 우수하다. 대부분의 성숙한 기업들은 80% 이상의 꾸준한 트래픽 패턴을 보인다. 자체 인프라나 VPS에서 높은 활용률을 달성하면 시간당 요금제 가격을 압도한다. 데이터 송신 비용(Egress costs)은 이러한 이점을 크게 증폭시킨다.
핵심은 이것이다: 운영 프리미엄이 산업 전반에 걸쳐 붕괴하고 있다는 점이다. 단위 경제학(Unit economics)만이 중요한 유일한 지표가 된다. 1,000회 추론당 유로, 1,000개 토큰당 유로, 처리된 기가바이트당 유로. 이러한 냉혹한 현실 아래에서 클라우드의 편리성 마크업(convenience markup)이 적나라하게 드러나고 있다.
급증하는 트래픽에는 여전히 클라우드가 필요하다 – 단지 10~20%만
클라우드 지지자들은 즉시 변동성이 큰 워크로드(spiky workloads)를 언급한다. 마케팅 이벤트는 트래픽 급증을 유발하고, 모델 평가 팜은 일시적으로 가동된다. 이 시나리오들에 대해서는 전적으로 옳다. 예측 불가능한 급증을 위해 용량을 빌리는 것은 완벽하게 합리적이다. 하지만 그렇다고 해서 전체 인프라를 하이퍼스케일 데이터 센터에 영원히 주차해 둘 정당한 이유는 되지 않는다.
업계 전반에 걸쳐 더 현명한 패턴이 나타나고 있다. 자체 인프라나 VPS에서 기본 워크로드를 운영하고, 70~85%의 활용률에 맞춰 규모를 조정한다. 클라우드 또는 보조 베어메탈(bare-metal) 공급업체에 '버스트 레인'(burst lanes, 비상/확장 채널)을 생성한다. 이를 실험, 트래픽 급증, 재해 복구 훈련 등에 사용한다. 모든 곳에서 동일한 컨트롤 플레인(control plane)과 정책을 유지한다. 배치(Placement)는 고통스러운 마이그레이션 프로젝트가 아닌, 스케줄링 결정이 된다.
이러한 그림에서 클라우드가 사라지는 것은 아니다. 모든 것의 기본 거점(default home)이 아니라, 넘침 방지 밸브(overflow valve) 역할을 하게 되는 것이다.
최후의 변명들이 힘을 잃고 있다
과거에는 이 논쟁을 즉시 종식시키곤 했던 세 가지 주장이 있었다. 오늘날 그것들은 하이브리드 인프라로 가는 길에 놓인 작은 장애물일 뿐이다.
글로벌 페일오버(Global failover)는 면밀히 살펴보지 않으면 중요하게 들린다. 신뢰성은 프리미엄 SKU(고급 제품 단위)가 아닌 시스템 설계에서 비롯된다. 에이전트 기반 운영은 리전(region) 상태 모니터링, DNS 스티어링, 리전 간 스냅샷, 재해 복구 테스트를 자동화한다. 판도를 바꾸는 것은 '즉각적인 증거 생성'이다. 에이전트는 복구 목표 시간(RTO), 백업 로그, 변경 승인 내역을 감사관이 바로 활용할 수 있는 패키지로 취합한다. 규율은 여전히 중요하지만, 하이퍼스케일러 없이도 이를 달성할 수 있다.
기업 신원 관리(Enterprise identity management) 및 가이드레일(guardrails)에는 이제 오픈소스 대안이 있다. Keycloak, Ory, SPIFFE, SPIRE, OpenFGA, Cedar, Vault, OPA, Gatekeeper는 강력한 신원, 정책, 그리고 비밀 관리(secrets management) 기능을 제공한다. 에이전트는 이러한 제어 기능을 엔드 투 엔드(end-to-end)로 연결한다. 이들은 정책 문서를 실제 인프라와 동기화된 상태로 유지한다. 퍼블릭 클라우드가 제공하는 조직적 통합은 편리하다. 하지만 더 이상 대체 불가능한 것이 아니다.
NVLink나 InfiniBand와 같은 특수 네트워크 패브릭은 특정 워크로드에 중요하다. 수백 개의 GPU에 걸쳐 모델을 훈련하는 것은 특별한 상호 연결(interconnects)을 요구한다. 초저지연 추론(ultra-low latency inference)은 신중한 토폴로지(topology) 계획이 필요하다. 하지만 이것은 워크로드 분류일 뿐, 보편적인 비장의 카드가 아니다. 대부분의 추론 파이프라인, 데이터 처리 작업, 애플리케이션 백엔드는 표준 네트워크에서 잘 실행된다. 전문화된 워크로드는 적절한 하드웨어에 배치하고, 그 외의 모든 것은 값비싼 하이퍼스케일 플랫폼에서 이동시켜라.
소규모 팀이 플랫폼 비용 절감 효과를 얻게 되었다
소규모 기업들은 역사적으로 인지 과부하(cognitive overload)를 피하기 위해 클라우드를 선택했다. 이제는 에이전트가 그 부담을 극적으로 줄여준다.
대략 일주일 만에 완전한 플랫폼을 부트스트랩할 수 있다. 테라폼(Terraform)은 인프라를 자동으로 프로비저닝한다. Talos나 K3s는 경량 쿠버네티스를 제공한다. Argo CD는 배포를 처리하고, Vault는 비밀(secrets)을 관리한다. SPIRE는 서비스 신원을 처리하고, Keycloak은 인증을 제공한다. Cilium은 모든 것을 안전하게 네트워킹한다. Postgres 오퍼레이터는 데이터베이스를 운영하고, MinIO는 객체 스토리지를 제공한다. Prometheus, Loki, Grafana는 전체 스택을 모니터링한다. AI가 이 모든 것의 구성을 작성한다.
그 후에는 운영이 자동 조종(autopilot)으로 실행된다. 런북 에이전트는 안전한 복구 작업을 자동으로 실행한다. 규정 준수 에이전트는 접근 검토, 백업 확인, 재해 복구 지표를 취합한다. 비용 에이전트는 1,000회 요청당 지출을 보고하고 갑작스러운 증가를 표시한다.
인프라 작업이 프롬프트 작성과 승인 클릭으로 줄어들면, 대부분의 소규모 비즈니스 워크로드에서 VPS 경제성은 온디맨드(on-demand) 가격 책정을 압도한다. 관리형 서비스는 여전히 진정한 '분 단위 규모의 급증(minute-scale bursts)'이나 엄격한 규정 준수 요구사항에 도움이 된다. 하지만 이제는 필수가 아닌 선택 사항이 되었다.
새로운 계산법: 인스턴스가 아닌 결과물에 가격을 매겨라
이러한 변화는 이념적인 자세(ideological posturing)가 아니다. 이는 의사 결정에 기본 산수(arithmetic)가 지배하는 현상이다. 가상 머신 사양 비교를 멈춰라. 대신 비즈니스에 실제로 중요한 것을 추적하기 시작하라.
환경 전반에 걸쳐 결과물당 비용을 계산하라. 1,000회 추론당 유로, 1,000개 토큰당 유로, 처리된 기가바이트당 유로를 측정하라. 용량 확보 시간(Time-to-capacity)은 민첩성을 보여준다. GPU를 프로비저닝하거나 서비스 티어를 두 배로 늘리는 데 걸리는 시간이 며칠이 아닌 몇 분이 걸리는지. 신뢰성 증명(Reliability proofs)은 성공적인 복원 시점 및 최근 훈련에서 검증된 복구 목표를 포함한다. 변경 속도(Change velocity)는 에이전트가 생성한 풀 리퀘스트(pull requests)를 통해 문제가 얼마나 빨리 프로덕션 배포로 이어지는지 추적한다. 운영상의 고충(Operational toil)은 주당 페이지 수와 평균 복구 시간을 산정한다.
이 지표들을 통합 대시보드에 올려라. 그러면 당신이 실제로 얼마나 많은 클라우드 용량을 진정으로 필요로 하는지 정확히 알게 될 것이다. 더 이상 "모든 것"일 필요는 거의 없을 것이다.
생성형 AI가 퍼블릭 클라우드를 집어삼킬 것인가?
직접적인 경쟁이나 적대적 인수합병을 통해서가 아니다. 대신 서서히 고사시키는 방식으로 말이다.
에이전트 기반 프로그래밍과 AI 기반 운영은 빠르게 성숙하고 있다. 한때 완전 관리형 인프라에 대해 지불했던 프리미엄은 분기마다 정당화하기 더 어려워지고 있다. 기본 워크로드는 자체 용량이나 저비용 VPS 공급업체로 이전된다. 급증하는 트래픽과 예외적인 상황(edge cases)은 여전히 하이퍼스케일 용량을 잠시 빌려 사용한다. 클라우드 비용은 "기반 플랫폼"에서 "압력 방출 밸브"(pressure release valve)로 축소된다.
생성형 AI는 이미 개발자를 위해 애플리케이션 코드를 작성한다. 이제는 자신감 있는 자체 호스팅을 가능하게 하는 운영 플레이북, 보안 정책, 규정 준수 증거를 작성하고 있다. 소프트웨어 엔지니어링 일자리가 하룻밤 사이에 사라지지는 않을 것이다. 하지만 그 근본적인 성격은 변화하고 있다. 퍼블릭 클라우드 역시 사라지지 않을 것이다. 다만 가장 방어 가능한 위치로 축소될 것이다. 즉, 진정한 버스트 용량, 특별한 네트워크 패브릭, 그리고 스스로 구축할 수 없거나 구축하지 않을 규정 준수 자동화와 같은 영역으로 말이다.
그 외의 모든 것은 다른 곳으로 이동한다. 입증된 패턴과 비용 민감도를 가진 꾸준한 워크로드는 새로운 삼두정치(triumvirate)에 의해 잠식될 것이다. AI 기반 운영, 성숙한 오픈소스 도구, 그리고 저렴한 글로벌 VPS 용량이 인프라 경제학을 다시 쓰고 있다. 클라우드 시대가 끝나지는 않을 것이다. 단지 적정 규모로 조정될(right-sized) 뿐이다.