메타 초지능 연구소, AI 선구자 르쿤 퇴사 속 SAM 3D 공개: 실질적 영향력 위한 전략적 전환

메타 슈퍼인텔리전스 랩스, SAM 3D 공개... AI 선구자 르쿤 퇴사 속 '현실 세계 영향'으로의 전략적 전환

리더십 전환 속 획기적인 3D 재구성 기술 등장... 순수 연구 대신 응용 AI에 주력하는 메타의 전략적 방향을 시사

메타 슈퍼인텔리전스 랩스(Meta Superintelligence Labs)는 최고 AI 과학자 얀 르쿤(Yann LeCun)이 12년 만에 퇴사를 발표한 날, SAM 3D를 공개했다. 이 우연의 일치는 메타의 인공지능 전략에 있어 중대한 전환점을 강조한다. 르쿤이 새로운 스타트업에서 이론적인 '월드 모델'을 추구하는 동안, 메타는 마크 저커버그와 알렉산더 왕이 오랫동안 추구해온 목표, 즉 즉각적이고 실제적인 현실 세계 응용이 가능한 AI에 더욱 집중하고 있다.

SAM 3D는 이러한 비전이 구체화된 결과물이다. 이 시스템은 어떤 2D 사진이든 상세한 3D 재구성으로 변환할 수 있으며, 정확한 기하학적 구조와 텍스처를 가진 물체 또는 정밀한 자세 및 형태 추정 기능을 갖춘 인체를 포착한다. 멸균된 실험실 환경이나 여러 대의 카메라 각도를 필요로 했던 이전의 3D 재구성 도구와 달리, SAM 3D는 가려진 물체, 복잡한 장면, 극단적인 카메라 각도 등 실제 세계의 혼란스러운 이미지에서도 작동한다.

데이터 엔진 혁명

이 기술적 혁신은 단순히 아키텍처적 영리함에 그치지 않고, AI 모델이 구축되는 방식에 대한 근본적인 재고를 의미한다. 메타의 연구팀은 '데이터 플라이휠(data flywheel)'이라고 부르는 것을 개발했는데, 이는 강력한 AI 시스템에 필요한 규모의 대규모 실제 3D 훈련 데이터가 단순히 존재하지 않는다는 사실을 인식한 데 따른 것이다.

그들의 해결책은 ChatGPT를 성공으로 이끈 전략, 즉 '휴먼 인 더 루프 선호 학습(human-in-the-loop preference learning)'에서 아이디어를 얻었다. 인간 주석자가 처음부터 3D 모델을 힘들게 생성하도록 요청하는 대신(이는 불가능할 정도로 비용이 많이 드는 작업), 시스템은 여러 3D 후보를 생성하고 인간은 단순히 가장 좋은 것을 선택한다. 이는 3D 주석 작업을 생성 문제에서 검증 문제로 전환하여 비용을 대폭 절감하면서도 품질을 유지하게 한다.

이후 연구팀은 대규모 언어 모델을 위해 개척된 기술인 '직접 선호 최적화(Direct Preference Optimization)'를 3D 형상에 적용했다. 이 모델은 명시적인 레이블이 아닌 인간의 선호도에서 학습하며, 실제 사람들이 더 정확하거나 심미적으로 만족스럽다고 판단하는 것을 기반으로 출력을 개선한다.

인체 재구성을 위해 메타는 비전-언어 모델(Vision-Language Models)을 배치하여 백플립, 가려짐, 특이한 카메라 각도와 같은 어려운 시나리오에 대한 수백만 개의 이미지를 자동으로 마이닝했다. 이는 기존 모션 캡처 데이터셋보다 훨씬 더 다양한 훈련 분포를 생성하여 이전 시스템을 괴롭혔던 '취약성 문제'를 해결했다.

실험실에서 거실로

메타의 애플리케이션 로드맵은 이러한 전략을 명확히 보여준다. SAM 3D는 페이스북 마켓플레이스(Facebook Marketplace)의 '방 안에서 보기(View in Room)' 기능을 지원하여, 쇼핑객들이 가구를 구매하기 전에 자신의 공간에서 가구를 미리 볼 수 있게 할 것이다. 물리치료사들은 원격 환자 모니터링을 위해 신체 자세 추정 기능을 사용할 수 있다. 로봇 회사들은 비싼 라이다(LiDAR) 센서 없이도 일반 소비자용 카메라만을 사용하여 기계가 물체를 잡을 수 있도록 할 수 있다.

연구 심층 분석에 따르면, "이는 3D 컴퓨터 비전 분야의 'LLM의 순간'이다." 언어 모델이 대규모 훈련과 인간의 선호도에 맞춰 발전했듯이, SAM 3D도 동일한 원리를 형상에 적용한다.

이 시스템은 실제 이미지에 대한 인간 선호도 테스트에서 현재 최첨단 방식에 비해 5:1의 승률을 달성했다. 이는 해당 기술이 생산용으로 실용적인 가능성 문턱을 넘어섰음을 시사하는 지표이다.

크리에이터의 회의론과 상업적 질문들

ctol.digital 엔지니어링 팀의 업계 반응은 실질적인 우려와 함께 조심스러운 낙관론을 드러냈다. 일부 팀원들은 "놀라운" 단일 이미지 재구성 기능과 빠른 프로토타이핑 잠재력을 높이 평가했다. 장면을 위한 SAM 3D Objects와 인체 캡처를 위한 SAM 3D Body라는 두 가지 모델 아키텍처는 데이터셋 생성 및 자산 생성 워크플로우에 특히 큰 관심을 받았다.

그러나 다른 이들은 생산 준비 상태에 대해 날카로운 질문을 제기했다. 팀들은 나란히 비교할 수 있는 출력물, 메시 토폴로지 품질 평가 및 텍스처 충실도 샘플을 요청했다. 평가 노트는 "사용자는 후속 사용을 위해 메시/UV 품질을 검증하고 블렌더(Blender)와 같은 도구에서 정리 작업을 준비할 것을 권장한다"고 밝혔다.

상업적 라이선스 조건은 여전히 불분명하며, 전문 파이프라인에 통합을 고려하는 스튜디오에게는 중요한 우려 사항이다. 유니티(Unity) 및 컴피유아이(ComfyUI)와 같은 산업 표준 도구와의 내보내기 호환성 검증이 필요하다. 가려진 피사체, 앉은 자세, 헐렁한 의류와 같은 예외 상황은 배포 전에 철저한 테스트를 거쳐야 한다.

상징적인 전환

르쿤은 자신의 링크드인(LinkedIn) 발표에서 퇴사가 메타를 파트너로 삼아 새로운 벤처에서 첨단 기계 지능 연구 의제를 계속하는 것이라고 설명했다. 2013년 메타의 AI 연구소(AI Research lab)를 설립하고 7년간 최고 AI 과학자로 재직했던 그의 퇴사는 순수 연구와 이론적 돌파구를 강조했던 시대의 종말을 알린다.

반면 SAM 3D는 다른 철학을 담고 있다. 이는 오늘날의 구체적인 문제를 해결하는 응용 AI이다. 이론적인 월드 모델도, 10년이 걸리는 연구 일정도 없다. 그저 휴대폰으로 의자를 스캔하여 가상 방에 넣을 수 있는 기술일 뿐이다.

이러한 전환이 저커버그에게 필요한 혁신적인 비즈니스 영향을 가져올지, 아니면 미래의 돌파구를 만들어낼 장기적인 기초 연구를 희생시킬지는 메타의 AI에 대한 결정적인 질문으로 남을 것이다. 그러나 메시지는 분명하다. 학문적 연습으로서의 AI 연구 시대는 끝났고, 제품으로서의 AI 시대가 시작되었다.

투자 권유 아님