메타, '코드처럼 생각하는' 코드 세계 모델 출시… 소프트웨어 개발의 미래 재편할 듯

메타, "코드처럼 사고하는" AI 공개…소프트웨어 개발의 미래를 재편하다

텍스트만 읽는 대신 코드 실행을 시뮬레이션하도록 학습하는 오픈소스 시스템

메타의 FAIR 팀은 새로운 종류의 AI 모델을 공개했습니다. 이 모델은 대규모 언어 모델(LLM)처럼 코드를 정적인 텍스트로만 읽는 것이 아니라, 코드가 어떻게 실행되는지 실제로 "상상"합니다. '코드 월드 모델(Code World Model, CWM)'이라고 불리는 이 모델은 소프트웨어 실행의 내부 그림을 한 줄 한 줄, 단계별로 구축하며, 마치 프로그램이 작동하는 것을 정신적으로 시뮬레이션하는 것과 같습니다.

이러한 관점의 변화는 놀라운 결과를 낳았습니다. 320억 개의 매개변수를 가진 CWM은 소프트웨어 연구에서 가장 까다로운 벤치마크 중 하나인 SWE-bench Verified 테스트에서 새로운 기준을 제시했습니다. 이 모델은 실제 소프트웨어 버그를 65.8%의 성공률로 해결했습니다. 이는 OpenAI 및 Anthropic과 같은 독점적 강자들과 직접적으로 경쟁할 수 있는 수준이며, 심지어 오픈소스입니다.

한 LLM 연구원은 "이는 단순히 AI가 코드를 더 잘 생성하게 만드는 것만이 아닙니다"라며, "소프트웨어가 어떻게 생겼는지가 아니라, 소프트웨어가 실제로 무엇을 하는지 기계가 진정으로 이해하도록 가르치는 것입니다. 게다가, 이는 르쿤의 월드 모델을 훌륭하게 전문화한 것입니다"라고 설명했습니다.

LLM 대 르쿤의 월드 모델

특징	LLM (GPT-4 등)	르쿤의 월드 모델
훈련 데이터	텍스트 (수조 개의 토큰)	다중 모드 감각 데이터 (시각, 청각, 환경)
핵심 목표	다음 토큰 예측	세상의 미래 상태 예측
기반	간접적 (인간 텍스트를 통해)	직접적 (지각-행동 루프를 통해)
추론	상관관계 기반, 통계적	인과적, 모델 기반
기억	제한된 컨텍스트 창	장기적인 일화 기억 + 의미 기억
계획	취약함, 외부 스캐폴딩 필요	내재적, 내부 시뮬레이션을 통해
효율성	데이터 의존적	인간과 유사한 효율성 지향
응용 분야	채팅, 코딩, 텍스트 작업	로봇 공학, 자율 에이전트, 진정한 AI 비서

급진적인 훈련 접근 방식

CWM의 강점은 훈련 방식에서 비롯됩니다. 기존 LLM들은 방대한 양의 소스 코드를 학습하지만, 코드가 실제로 어떻게 실행되는지는 전혀 보지 못합니다. 메타는 실행 자체를 포착하도록 설계된 "중간 훈련(mid-training)" 단계를 통해 이러한 방식을 뒤집었습니다.

한 데이터 세트는 상세한 파이썬 실행 추적 데이터를 포함했는데, 이는 본질적으로 프로그램의 내부 상태가 각 코드 줄에 따라 어떻게 변하는지에 대한 자세한 기록이었습니다. 다른 데이터 세트는 "에이전틱 궤적(agentic trajectories)"이라고 불리며, AI 에이전트와 실제 컴퓨팅 환경 간의 수백만 가지 실제 상호 작용을 기록했습니다. 이 에이전트는 파일을 조작하고, 셸 명령어를 실행하며, 그 결과를 관찰했는데, 이는 마치 선임 개발자를 그림자처럼 따라다니는 디지털 견습생과 같았습니다.

이 동적 데이터를 훈련함으로써, 모델은 단순히 구문(syntax) 이상의 것을 학습했습니다. 모델은 마치 디지털 세계의 물리학을 배우는 것처럼 코드의 행동을 흡수했습니다. 이러한 기반은 변경 사항이 적용되기 전에 그 결과를 예측할 수 있는 능력을 부여하며, 이는 디버깅에 있어 초능력과도 같습니다.

벤치마크 정복

CWM의 능력은 AI 모델이 GitHub 프로젝트의 실제 버그를 수정하는 SWE-bench Verified 테스트에서 가장 빛을 발합니다. 성공하려면 시스템은 코드 조각뿐만 아니라 파일과 의존성 전반에 걸친 큰 그림을 이해하고, 엄격한 테스트 스위트를 통과할 수 있는 수정 사항을 작성해야 합니다.

여기서 CWM은 동료 모델들과 어깨를 나란히 하는 것을 넘어, 규모가 더 큰 오픈소스 모델들을 포함한 다른 모든 오픈소스 모델들을 능가했습니다. 이는 연구자들이 "신경 디버깅(neural debugging)"이라고 부르는, 코드를 실행하지 않고도 정신적으로 코드를 탐색하며 문제를 발견하는 놀라운 능력을 보여주었습니다. 시험에서 CWM은 실행이 어떻게 전개될지 예측하는 데 96% 이상의 정확도를 기록했습니다.

그리고 이를 위해 일반적인 능력을 희생하지 않았습니다. 이 모델은 여전히 전통적인 프로그래밍 작업과 수학적 추론에서 뛰어난 성능을 보이며, 더 깊은 이해가 전반적인 능력을 축소시키는 것이 아니라 강화한다는 것을 입증했습니다.

관심과 의문

당연히 AI 커뮤니티는 호기심으로 들끓었습니다. 많은 이들이 메타가 모델뿐만 아니라 각 진화 단계를 보여주는 훈련 체크포인트까지 공개한 것에 대해 칭찬했으며, 이는 다른 거대 기술 기업들의 점차 폐쇄적인 태도와는 대조되는 환영할 만한 움직임입니다.

하지만, 열광에는 주의할 점이 따릅니다. 연구자들은 기존 코드 생성 시스템과의 독립적인 직접 비교 및 개발 환경에서의 실제 테스트를 원합니다. 또한 실용적인 문제로 크기가 있습니다. 320억 개의 매개변수를 가진 CWM은 상당한 컴퓨팅 성능을 요구합니다. 일반 개발자들에게는 더 가벼운 버전이 이론을 실천으로 옮기는 데 핵심이 될 것입니다.

코드 완성 그 이상

더 큰 이야기는 이 접근 방식이 전반적인 AI에 시사하는 바일 수 있습니다. 실행 역학을 훈련하는 것이 코드에 이렇게 잘 작동한다면, 결과가 외양보다 더 중요한 다른 영역에도 적용하지 못할 이유가 무엇일까요?

CWM이 환경을 내부적으로 모델링하는 능력은 다단계 작업을 계획하고 수행할 수 있는 미래 AI 에이전트의 가능성을 시사합니다. 해커보다 먼저 취약점을 찾아내는 자동화된 테스터나, 땀 한 방울 흘리지 않고 시스템을 디버깅하는 디지털 비서를 상상해 보십시오.

모델과 방법론을 오픈소스로 공개함으로써 메타는 협력을 통한 발전에 투자하고 있습니다. 이러한 움직임은 경쟁사들을 더 투명한 방향으로 이끌고 업계 전반의 발전을 가속화할 수 있습니다.

앞으로의 길

현재 CWM은 실전에서 스스로를 증명하기를 기다리는 기술적 승리입니다. CTOL.digital 엔지니어링 팀이 말했듯이, "이는 훌륭한 연구 결과물이며, 견고하게 작성되었고, 유망하지만, 우리는 이것을 '테스트'해야 합니다." 실제 개발자들을 위해 버그를 수정하고 워크플로우를 간소화하는 과정에서 진정한 시험을 거칠 것입니다.

이 시점은 의미심장합니다. AI 세계가 비밀주의와 개방성 사이에서 고심하는 가운데, 메타의 결정은 이 분야 전반의 기대를 바꿀 수 있습니다. 코드를 이해하는 기계가 표준이 된다면, 우리는 AI가 단순히 패턴을 복사하는 것을 넘어 그것에 대해 추론하는 소프트웨어 개발의 새로운 시대로 진입할 수도 있습니다.

구문에서 의미론으로의 이러한 도약이 진정한 혁명을 촉발할지는 CWM이 압박 속에서 얼마나 잘 작동하는지에 달려 있습니다. 업계는 이를 면밀히 주시하고 있습니다.