메타 연구진, 10년간의 AI 훈련 '비법'을 단 하나의 수학적 증명으로 대체…누구나 맞춤형 모델 구축 가능

작성자
CTOL Editors - Lang Wang
7 분 독서

마지막 선물: 떠나는 AI 선구자가 학습의 가장 어려운 문제를 해결했을지도 모른다

인공지능의 창시자 중 한 명에게 최고의 업적이 될 만한 성과로, 메타의 기초 AI 연구소(FAIR) 연구원들이 기계가 세상을 이해하는 방식을 혁신하는 획기적인 연구 결과를 발표했습니다. 이는 얀 르쿤 수석 과학자가 회사를 떠날 준비를 하는 가운데 그가 남길 마지막 과학적 유산이 될 수도 있습니다.

LeJEPA라고 명명된 이 연구는 10년간의 임시방편적인 공학적 해결책을 하나의 수학적 증명으로 대체하며, AI 커뮤니티에서 '표현 붕괴(representation collapse)' 문제라고 불렀던 것을 해결합니다. 이 문제는 자기 학습 시스템이 포기하고 아무것도 학습하지 못하는 경향을 의미합니다.

르쿤은 '월드 모델(world models)'에 초점을 맞춘 스타트업을 시작하기 위해 메타를 떠나고 있습니다. 이러한 시기는 LeJEPA의 이론적 우아함에 무게를 더합니다. 이 방법은 너무나 근본적이어서 이를 둘러싼 조직적 혼란보다 오래 지속될 수 있습니다.

연금술에서 과학으로

수년 동안, 인간의 레이블 없이 AI를 학습시키는 것, 즉 자기 지도 학습(self-supervised learning)이라는 성배는 공학이라기보다는 연금술에 가까웠습니다. 연구원들은 교사-학생 네트워크, 정지-경사(stop-gradient) 작업, 지수 이동 평균과 같은 복잡한 임시방편을 짜 맞췄습니다. 이 방법들은 겨우 작동했지만, 끊임없는 조정이 필요했고 종종 알 수 없는 이유로 실패했습니다.

LeJEPA는 이 취약한 탑을 허물고 증명을 제시합니다. 즉, AI가 학습한 것을 조직하는 최적의 방법은 수학자들이 등방성 가우시안 분포(isotropic Gaussian distribution)라고 부르는, 완벽하게 균형 잡힌 지식 구(sphere of knowledge) 형태라는 것입니다. 모든 정보 조각은 균등하게 분포되어야 하며, 군집화되거나 쓸모없는 동일성으로 붕괴되지 않아야 합니다.

통찰력 자체는 심오합니다. 하지만 이를 구현하는 것은 불가능해 보였습니다. 수십억 개의 데이터 포인트가 천 차원 공간에서 완벽한 구를 형성하는지 직접 측정하는 것은 계산을 거부하기 때문입니다.

해결책인 스케치된 등방성 가우시안 정규화(Sketched Isotropic Gaussian Regularization)는 거의 천재적입니다. 전체 다차원 구조를 측정하는 대신, 그 구조의 수많은 무작위적인 1차원 '그림자'를 검토합니다. 모든 그림자가 완벽해 보인다면, 전체도 완벽해야 한다는 것으로, 1960년대 확률 이론의 원리가 2025년 최대 AI 과제에 갑자기 적용된 것입니다.

민주화 정리

그 함의는 기술적 우아함을 넘어섭니다. LeJEPA의 훈련 손실(training loss)은 실제 성능과 99%의 상관관계를 보입니다. 이는 연구원들이 값비싼 레이블링된 테스트 데이터 없이 단 하나의 숫자를 보며 모델을 최적화할 수 있음을 의미합니다. 하나의 하이퍼파라미터(hyperparameter)가 수십 개를 대체하며, 전체 방법론은 약 50줄의 코드에 불과합니다.

가장 놀라운 점은 다음과 같습니다. 단 11,000장의 은하 이미지와 같은 아주 작은 데이터셋으로 처음부터 훈련된 특화 모델이 수억 장의 이미지로 훈련된 대규모 범용 모델을 능가한다는 실험 결과입니다. 이는 실리콘밸리가 주장하는 AI 역량 독점에 도전장을 던집니다.

이제 5만 장의 X선 이미지를 가진 병원은 특정 필요에 맞춰 수십억 달러짜리 기반 모델보다 우수한 AI를 구축할 수 있습니다. 소규모 위성 회사는 자체 이미지로 비전 시스템을 훈련할 수 있습니다. 이론적 기반은 한때 장인 정신의 영역이었던 것을 재현 가능한 과학으로 만듭니다.

유산의 변동

이것이 르쿤의 메타에 대한 마지막 기여가 될지는 불분명합니다. 그러나 (회사 내부의) 제도적 불확실성의 순간에 LeJEPA가 발표된 시기는 오히려 행운일 수 있습니다. 이 방법론의 단순성과 이론적 기반은 기업 연구 전략에 갇혀 있을 때보다 더 빠르게 확산될 수 있게 할 것입니다.

이 논문은 자기 지도 학습을 휴리스틱 기반 실험에서 엄격한 수학적 원리로 전환시킵니다. 그렇게 함으로써, 단지 기술적 해결책뿐만 아니라 근본적인 AI 연구가 어떻게 진행되어야 하는지에 대한 청사진을 제공했습니다. 즉, 이론 우선, 공학 다음, 민주화는 부차적인 것이 아니라 결과로서 따라오는 것입니다.

당신도 좋아할지도 모릅니다

이 기사는 사용자가 뉴스 제출 규칙 및 지침에 따라 제출한 것입니다. 표지 사진은 설명을 위한 컴퓨터 생성 아트일 뿐이며 실제 내용을 나타내지 않습니다. 이 기사가 저작권을 침해한다고 생각되면, 우리에게 이메일을 보내 신고해 주십시오. 당신의 경계심과 협력은 우리가 예의 바르고 법적으로 준수하는 커뮤니티를 유지하는 데 중요합니다.

뉴스레터 구독하기

최신 기업 비즈니스 및 기술 정보를 독점적으로 엿보며 새로운 오퍼링을 확인하세요

저희 웹사이트는 특정 기능을 활성화하고, 더 관련성 있는 정보를 제공하며, 귀하의 웹사이트 경험을 최적화하기 위해 쿠키를 사용합니다. 자세한 정보는 저희의 개인정보 보호 정책 서비스 약관 에서 확인하실 수 있습니다. 필수 정보는 법적 고지