엔비디아, 코스모스-리즌1 공개: 물리적 이해와 실체적 추론을 연결하는 혁신적인 AI 모델
엔비디아 연구진이 인공지능의 물리 세계 이해 및 추론 능력에 있어 중요한 진전을 보여주는 획기적인 멀티모달 대규모 언어 모델 제품군인 코스모스-리즌1을 발표했습니다. 70억 개 및 560억 개 매개변수 버전으로 제공되는 이 새로운 AI 모델은 로봇 공학, 자율주행차, 증강 현실 애플리케이션에 혁명을 일으킬 수 있는 물리적 상식과 실체적 추론 능력을 AI 시스템에 부여하도록 특별히 설계되었습니다.
물리 AI를 위한 포괄적 프레임워크
엔비디아 연구팀은 AI의 가장 지속적인 과제 중 하나인 대규모 언어 모델의 물리적 기반 부족 문제를 해결하기 위해 혁신적인 체계적 접근 방식을 통해 코스모스-리즌1을 개발했습니다. 개발 과정에는 언어 기반 AI와 실제 물리적 상호 작용 사이의 간극을 메우기 위한 포괄적인 온톨로지 생성, 방대한 데이터셋 큐레이션(선별 및 정리), 전문화된 훈련 방법론 구현이 포함되었습니다.
연구진은 접근 방식을 체계화하기 위해 두 가지 고유한 온톨로지를 구축했습니다. 첫 번째는 물리적 상식을 공간, 시간, 기본 물리라는 세 가지 주요 범주로 정리하고, 이를 다시 16개의 세부 하위 범주로 세분화하는 계층적 온톨로지입니다. 두 번째는 감각 처리, 효과 예측, 제약 조건 준수, 상호 작용을 통한 학습이라는 네 가지 핵심 기능을 다섯 가지 다른 에이전트 유형에 걸쳐 매핑하는 실체적 추론을 위한 2차원 온톨로지입니다.
이 모델들을 효과적으로 훈련하기 위해 팀은 시각적 질문 답변 작업, 사고의 흐름 추론 기록, 직관적 물리 퍼즐로 구성된 약 400만 개의 비디오-텍스트 쌍을 큐레이션했습니다. 훈련 과정은 두 가지 단계로 진행되었습니다. 첫째, 도메인별 비디오 추론 데이터에 대한 물리 AI 지도 미세 조정, 둘째, 객관식 질문 답변에서 파생된 규칙 기반의 검증 가능한 보상을 활용한 물리 AI 강화 학습입니다.
이러한 개발은 1,214개의 실체적 추론 객관식 질문과 604개의 물리적 상식 질문으로 구성된 새로운 벤치마크를 만들며 정점을 찍었습니다. 이 벤치마크에 대해 평가했을 때, 코스모스-리즌1은 GPT-4o 및 Qwen2.5-VL을 포함한 강력한 기존 모델들보다 실체적 추론 작업에서 1015점, 상식 추론 작업에서 27점 더 높은 성능을 보여주며 우수성을 입증했습니다.
주요 성과: AI의 물리적 지능 혁신
코스모스-리즌1의 발표는 인공지능 개발에 있어 여러 중요한 성과를 의미합니다. 이 모델들은 목표 지향적인 데이터 큐레이션과 강화 학습 기법을 통해 대규모 언어 모델이 실제 물리 세계에 효과적으로 기반을 둘 수 있음을 보여줍니다. 이는 기본적인 물리적 추론 작업에서 종종 어려움을 겪는 기존 AI 접근 방식과는 근본적인 변화를 나타냅니다.
이 연구는 물리적 상식과 실체적 추론을 위한 최초의 포괄적인 벤치마크를 구축하여, 해당 분야 전반에 걸쳐 더 비교 가능하고 재현 가능한 연구를 가능하게 하는 표준화된 평가 방법을 제공합니다. 두 가지 온톨로지는 연구자들이 물리적 추론 능력을 분류하고 평가할 수 있는 체계적인 프레임워크를 제공하며, 광범위한 AI 커뮤니티의 공통 표준어 역할을 할 수 있습니다.
특히 규칙 기반 보상을 활용한 강화 학습과 같은 확장 가능한 훈련 방법론은 다른 구조화된 추론 작업에도 일반화될 수 있는 실용적인 접근 방식을 보여줍니다. 560억 개 모델에 적용된 하이브리드 맘바-MLP-트랜스포머 아키텍처는 멀티모달 애플리케이션에서 긴 문맥 추론을 위한 효율적인 솔루션을 선보입니다.
특히, 엔비디아는 코스와 사전 훈련된 모델 가중치를 엔비디아 오픈 모델 라이선스(NVIDIA Open Model License) 하에 공개하여, 학계 및 상업 환경 전반에 걸쳐 광범위한 채택을 촉진하고 연구 진행 속도를 가속화할 예정입니다.
심층 분석: AI 및 산업에 미치는 영향
코스모스-리즌1의 중요성은 즉각적인 기술적 성과를 넘어, AI 시스템이 물리 세계와 상호 작용하고 이해하는 방식에 있어 패러다임 전환을 의미합니다. 이 연구는 물리적 이해를 요구하는 실제 애플리케이션에서 AI가 안정적인 성능을 달성하는 것을 역사적으로 방해했던 근본적인 한계를 다룹니다.
기술적 관점에서, 이 작업은 전용 훈련 데이터를 통해 직관적인 물리 개념을 명시적으로 목표로 삼는 것이 모델 성능을 크게 향상시킨다는 것을 보여줍니다. "시간의 화살", "공간 퍼즐", "대상 영속성"과 같은 근본적인 측면에 집중하는 것은 물리적 상호 작용에 있어 종종 간과되지만 매우 중요한 능력을 다루는 AI 훈련에 대한 새로운 접근 방식을 나타냅니다.
대규모 언어 모델을 사용하여 사고의 흐름 추론 기록을 생성하고, 이를 정제하고 검증하는 방법론은 복잡한 추론 작업을 위한 고품질 훈련 데이터를 생성하는 확장 가능한 접근 방식을 제시합니다. 이러한 모델 인 더 루프(Model-in-the-loop) 데이터 큐레이션 전략은 정교한 추론 능력이 필요한 다양한 AI 애플리케이션에 새로운 방법을 제시할 수 있습니다.
사업적 영향은 여러 산업 분야에서 특히 매력적입니다. 로봇 공학 및 자동화 분야에서는 이 모델들이 서비스 및 산업용 로봇이 향상된 물리적 직관을 보여주도록 하여, 시행착오 학습을 줄이고 픽앤플레이스(물건 집어 옮기기), 조립 공정, 자율 내비게이션과 같은 복잡한 작업에서 안전성을 높일 수 있습니다.
자율주행차 개발의 경우, 향상된 의사결정 능력은 악천후, 복잡한 교통 상호 작용, 예상치 못한 도로 상황을 포함한 역동적인 시나리오를 처리하는 데 매우 중요할 수 있습니다. 물리적 역학에 대한 이해 증진은 더욱 견고한 예측 및 계획 시스템으로 이어질 수 있습니다.
증강 현실 및 디지털 트윈 애플리케이션에서는 코스모스-리즌1이 시뮬레이션 및 실제 환경 모두에서 물리적 상호 작용을 정확하게 추론하고 안내하는 보다 자연스러운 언어 인터페이스를 가능하게 할 수 있습니다. 이 기능은 사용자가 복잡한 산업 시스템 및 가상 환경과 상호 작용하는 방식을 변화시킬 수 있습니다.
자산 관리 및 검사 부문은 대상 영속성 및 기계적 어포던스(상호작용 가능성)를 이해하는 자동화된 품질 관리 시스템의 혜택을 받아, 제조 및 산업 환경에서 더욱 신뢰할 수 있고 효율적인 검사 프로세스를 이끌어낼 수 있습니다.
아시나요? 물리 AI에 대한 흥미로운 사실
AI 시스템에서 물리적 상식을 개발하는 것은 현재 기술의 놀라운 격차를 해소합니다. 인상적인 언어 능력에도 불구하고, 많은 최첨단 멀티모달 대규모 언어 모델은 대부분의 인간이 어린 시절에 습득하는 기본적인 직관적 물리 작업에서 거의 무작위 수준의 성능을 보입니다.
연구 결과, GPT-4o 및 기타 선도적인 멀티모달 시스템과 같은 기존의 강력한 모델들이 근본적인 물리적 추론 개념에서 상당한 어려움을 겪는 것으로 나타났으며, 이는 전문화된 훈련 접근 방식의 중요성을 강조합니다. 이 발견은 언어적 정교함이 반드시 물리적 이해로 이어지는 것은 아님을 뒷받침합니다.
코스모스-리즌1 훈련 데이터셋에는 기본적인 물리 개념을 가르치기 위해 설계된 혁신적인 자기 지도 학습 작업이 포함되어 있습니다. 여기에는 물체 관계 이해를 테스트하는 공간 퍼즐, 시간적 추론을 평가하는 시간의 화살표 챌린지, 모델이 시야에서 벗어난 후에도 물체가 계속 존재한다는 것을 이해하는지 평가하는 대상 영속성 테스트가 포함됩니다.
하이브리드 맘바-MLP-트랜스포머 아키텍처는 AI 모델 설계의 새로운 트렌드를 나타내며, 서로 다른 계산 접근 방식을 결합하여 긴 문맥 정보를 더욱 효율적으로 처리합니다. 이러한 아키텍처 혁신은 멀티모달 AI 시스템의 미래 개발에 영향을 미칠 수 있습니다.
흥미롭게도, 이 연구는 단순한 규칙 기반 보상을 통한 강화 학습이 대규모 언어 모델의 특정 추론 능력을 효과적으로 향상시킬 수 있음을 보여줍니다. 이 접근 방식은 복잡한 AI 능력이 적절히 설계될 경우 비교적 간단한 보상 메커니즘을 통해 향상될 수 있음을 시사합니다.
코스모스-리즌1이 개방형 라이선스(permissive license)로 오픈 소스화된 것은 AI 연구 커뮤니티에 상당한 기여를 하며, 제품 및 서비스에 물리적 추론 능력을 통합하려는 기업의 개발 일정을 잠재적으로 가속화할 수 있습니다. 이러한 접근 방식은 많은 고급 AI 개발의 점점 더 독점적인 성격과 대조됩니다.
물리 AI 평가를 위한 표준화된 벤치마크의 생성은 해당 분야의 중요한 필요를 충족시킵니다. 일관된 평가 방법의 부족으로 인해 다양한 접근 방식을 비교하고 진행 상황을 체계적으로 추적하기 어려웠기 때문입니다. 이러한 벤치마크는 실체적 AI 시스템의 미래 연구 및 개발에 필수적인 도구가 될 수 있습니다.