메타, 시청만으로 로봇 제어하는 V-JEPA 2 모델 공개…훈련 시간 최소화

메타의 V-JEPA 2 혁신, 인공지능의 LLM 이후 시대를 예고하다

혁신적인 비디오 기반 AI 시스템, 현재 언어 모델을 쓸모없게 만들 수 있는 이해, 예측 및 물리적 계획 능력을 선보이다

메타가 오늘날의 거대 언어 모델(LLM)을 구동하는 텍스트 기반 예측을 훨씬 뛰어넘는 기능을 시연하는 획기적인 비디오 모델인 V-JEPA 2를 공개했습니다. 100만 시간 이상의 인터넷 비디오로 훈련된 이 파운데이션급 시스템은 많은 AI 전문가들이 오랫동안 중요한 이정표로 여겨왔던, 즉 수동적 관찰과 물리적 세계에서의 능동적 계획 사이의 간극을 좁히는 데 성공했습니다.

표: 얀 르쿤이 제기한 V-JEPA 2의 주요 비판점

비판점	설명
추상성 부족	인간과 같은 추론 및 여러 영역에 걸친 일반화에 실패
벤치마크 성능 격차	새로운 물리적 추론 벤치마크에서 인간보다 현저히 낮은 성능
표면적 물리 추론	깊은 인과 추론이나 견고한 객체 영속성보다는 패턴 인식에 의존
점진적 혁신	이전 자기 지도 학습 방식의 소폭 확장으로 간주
제한된 양식	주로 시각적; 다른 감각 데이터(오디오, 촉각 등)와의 통합 부족
홍보 및 과장	과장되었고 대안적 또는 경쟁적인 AI 모델을 경시하는 것으로 인식됨

관찰에서 행동으로: 두 단계 혁명

V-JEPA 2를 차별화하는 것은 혁신적인 2단계 학습 접근 방식입니다. 방대한 양의 특정 작업 데이터를 요구하는 기존 AI 시스템과 달리, V-JEPA 2는 먼저 수동적 관찰을 통해 세상이 작동하는 방식에 대한 일반적인 이해를 구축한 다음, 최소한의 추가 훈련만으로 이 지식을 특정 작업에 적용합니다.

"이는 AI 시스템이 학습하는 방식에 대한 근본적인 재고를 의미합니다." 연구에 정통한 한 AI 과학자는 말합니다. "V-JEPA 2는 픽셀 단위의 완벽한 예측을 생성하거나 세상에 대한 텍스트 설명에 의존하는 대신, 물리적 상호작용과 시간적 역동성의 본질을 포착하는 추상적 표현을 학습합니다."

시스템의 첫 번째 단계는 인터넷 비디오에 대한 대규모 사전 훈련 단계로, 픽셀 수준이 아닌 표현 공간에서 누락된 공간적 및 시간적 정보를 예측하는 것을 학습합니다. 두 번째 단계에서는 놀랍게도 적은 양인 62시간의 라벨링되지 않은 로봇 상호작용 데이터만으로 모델 예측 제어를 통해 물리적 조작 작업을 가능하게 하는 행동 조건 모델인 V-JEPA 2-AC를 생성할 수 있습니다.

르쿤의 비전이 구체화되다

V-JEPA 2의 아키텍처는 현재 거대 언어 모델에 대해 비판적인 목소리를 내왔던 메타의 최고 AI 과학자 얀 르쿤이 옹호해온 핵심 원칙들을 구현합니다. 르쿤은 진정한 인공지능이 물리적 세계에 기반을 두고 텍스트 패턴을 넘어선 풍부하고 다단계적인 표현을 구축하는 능력을 요구한다고 꾸준히 주장해왔습니다.

결과는 놀랍습니다. V-JEPA 2는 비디오 인식(Something-Something v2에서 77.3% Top-1 정확도), 동작 예측(Epic-Kitchens-100에서 39.7% Recall@5), 로봇 조작(픽앤플레이스 작업에서 65-80% 성공률) 등 전통적으로 분리된 영역에서 최첨단 성능을 달성합니다. 가장 인상적인 것은 이러한 기능들이 단일 공유 표현에서 나온다는 점입니다.

로봇 공학의 데이터 장벽을 허물다

아마도 가장 중요한 성과는 V-JEPA 2가 최소한의 훈련 데이터로 복잡한 로봇 조작 작업을 수행할 수 있다는 점일 것입니다. 기존 접근 방식은 수백 시간의 전문가 시연이나 수백만 번의 시행착오를 필요로 합니다.

"이는 적응형 로봇 공학의 장벽을 극적으로 낮춥니다." AI 개발을 추적하는 한 업계 분석가는 설명합니다. "공장 로봇은 사람들이 유사한 작업을 수행하는 비디오를 시청함으로써 새로운 조립 작업을 학습할 수 있으며, 적응을 위해 최소한의 물리적 시행착오만 필요합니다. 경제적 파급 효과는 엄청납니다."

표현 공간에서의 시스템의 에너지 기반 계획은 놀랍도록 효율적입니다. 유사 시스템이 한 계획 단계당 4분이 걸리는 반면, V-JEPA 2는 단 16초 만에 더 높은 성공률을 달성합니다. 이러한 효율성은 사내 로봇 집단을 위한 실시간 계획을 실현 가능하게 합니다.

언어를 넘어서: 현재 AI의 한계

V-JEPA 2의 등장은 현재 거대 언어 모델의 근본적인 한계에 대한 인식이 높아지는 가운데 이루어졌습니다. LLM은 텍스트 생성에서 인상적인 능력을 보여주지만, 물리적 현실에 대한 이해가 부족하고 세계 모델을 필요로 하는 계획 및 추론 작업에서 어려움을 겪습니다.

"우리가 보고 있는 것은 공동 임베딩 철학의 타당성입니다." 이 분야의 한 연구원은 언급합니다. "추상적 표현 공간에서 예측하는 것이 고화질 감각 데이터를 생성하거나 텍스트의 통계적 패턴에 의존하는 것보다 더 효율적이고 효과적이라는 것이 증명되었습니다."

특히 V-JEPA 2는 언어 지도 없이 사전 훈련되었음에도 불구하고 비디오 질문 응답 작업에서 최첨단 결과를 달성합니다. 거대 언어 모델과 연동될 경우, 시각-언어 사전 훈련의 지배적인 패러다임을 넘어 시간에 의존하는 질문에서 이미지-텍스트 인코더를 능가하는 성능을 보입니다.

다가올 산업의 변화

V-JEPA 2의 실제 적용은 여러 산업에 걸쳐 확장됩니다:

창고 및 마이크로 풀필먼트 로봇 공학 분야에서는 시스템이 비용이 많이 드는 재라벨링 또는 원격 조작 세션 없이 새로운 제품에 신속하게 적응할 수 있습니다. 자율 검사 및 유지보수 작업은 복잡한 보상 설계 없이 CAD/BIM 모델의 목표 이미지에 따라 수행될 수 있습니다. 비디오 분석 및 검색 애플리케이션은 시간적 추론 작업에서 이미지 기반 접근 방식을 능가하는 동작 중심 임베딩의 이점을 누릴 것입니다.

XR(확장 현실) 애플리케이션 및 생성형 에이전트의 경우, 비디오 고유 인코더를 LLM과 연동하면 시간을 진정으로 "보고" 혼합 현실 환경에서 지능적으로 행동할 수 있는 시스템을 만들 수 있습니다. 이 기술의 효율성은 컴퓨팅 자원이 제한된 엣지 AI 애플리케이션에도 적합합니다.

투자 환경: LLM 이후 시대를 위한 포지셔닝

AI 개발을 추적하는 투자자들에게 V-JEPA 2는 경쟁 환경의 상당한 변화를 알립니다. 순수 언어 모델에 과도하게 투자한 기업들은 시장이 물리적 세계 이해 및 계획 능력을 갖춘 AI 시스템을 점점 더 요구함에 따라 어려움에 직면할 수 있습니다.

세계 모델 기술을 통합할 준비가 된 로봇 공학 기업은 구현 장벽이 낮아짐에 따라 도입 곡선이 가속화될 수 있습니다. 로봇 훈련을 위한 데이터 요구 사항의 극적인 감소는 이전에 데이터 수집 비용으로 어려움을 겪었던 중견 자동화 기업에 특히 큰 도움이 될 수 있습니다.

엣지 AI 처리를 전문으로 하는 반도체 제조업체는 표현 공간 계획이 픽셀 생성 접근 방식에 비해 컴퓨팅 요구 사항을 줄여 새로운 기회를 찾을 수 있습니다. 마찬가지로, 비디오 처리 및 잠재 공간 연산에 최적화된 특수 AI 인프라를 제공하는 클라우드 제공업체는 증가하는 시장 점유율을 확보할 수 있습니다.

그러나 분석가들은 상업적 애플리케이션이 여전히 카메라 보정, 더 긴 계획 범위, 그리고 더 직관적인 목표 인터페이스 측면에서 도전에 직면해 있다고 경고합니다. 초기 진입 기업은 V-JEPA 2의 핵심 기능을 활용하는 도메인별 애플리케이션을 구축하면서 이러한 한계를 해결해야 할 것입니다.

물리적 AI로 가는 길의 이정표

V-JEPA 2는 중요한 진전을 나타내지만, 연구자들은 여전히 남아있는 한계를 인정합니다. 이 시스템은 카메라 위치에 민감하며, 매우 긴 계획 범위에 어려움을 겪고, 현재 언어 지시가 아닌 시각적 목표를 요구합니다.

그럼에도 불구하고 이 연구는 인간이 하는 것처럼, 주로 관찰을 통해 학습한 다음 그 지식을 세상에서 행동하는 데 적용하는, 보다 일반적인 인공지능을 향한 실행 가능한 경로에 대한 설득력 있는 증거를 제공합니다. 이러한 접근 방식이 르쿤이 예측한 5년 이내에 현재 언어 모델을 정말로 쓸모없게 만들지는 지켜봐야겠지만, V-JEPA 2는 언어뿐만 아니라 물리적 세계 자체를 이해하는 차세대 AI 시스템을 위한 강력한 청사진을 제시합니다.

면책 조항: 본 분석은 현재 연구 개발을 기반으로 하며 투자 조언으로 간주되어서는 안 됩니다. 기술의 과거 성과가 미래 결과를 보장하지 않습니다. 독자들은 개인적인 지침을 위해 재무 고문과 상담해야 합니다.