VGGT, 1초 만에 3D 장면 재구성—산업의 판도를 바꿀 준비 완료

작성자
CTOL Editors - Ken
8 분 독서

VGGT, 3D 장면 1초 만에 재구성—산업 혁명 예고

급변하는 컴퓨터 비전 분야에서 조용하지만 강력한 혁명이 진행되고 있습니다. 대부분의 언론이 텍스트 프롬프트로 이미지를 생성하는 생성형 AI에 주목하는 동안, 또 다른 기술적 돌파구가 컴퓨터 비전 커뮤니티의 최고 영예를 안았으며, 이는 훨씬 더 즉각적인 현실 세계에 영향을 미칠 수 있습니다.

컴퓨터 비전 분야에서 가장 권위 있는 학회인 CVPR 2025에서 Visual Geometry Grounded Transformer (VGGT)가 13,000개 이상의 제출작 중 단연 돋보이며 최우수 논문상을 수상했습니다. 이 기술이 이토록 특별한 이유는 무엇일까요? VGGT는 일반 사진으로 전체 3D 장면을 1초도 안 되는 시간에 재구성할 수 있습니다. 이는 전통적으로 복잡한 알고리즘을 몇 분 또는 몇 시간 동안 실행해야 했던 작업입니다.

몇 시간에서 몇 초로: 3D 비전 시대의 종말

수십 년 동안 2D 이미지에서 3D 장면을 재구성하는 것은 잘 정립된 방식에 따라 이루어졌습니다. 엔지니어들은 스트럭처 프롬 모션(Structure from Motion)이라는 세심한 과정을 사용하고, 이어서 멀티뷰 스테레오(Multi-View Stereo) 알고리즘을 적용한 후, 번들 조정(bundle adjustment)과 같은 최적화 기술로 마무리했습니다. 이 파이프라인은 구글 어스의 3D 모델부터 할리우드 시각 효과에 이르기까지 모든 것을 구현했지만, 상당한 계산 시간을 필요로 했습니다.

이 프로젝트에 참여하지 않은 컴퓨터 비전 연구원 엘레나는 "VGGT는 전통적인 기하학 파이프라인에서 벗어난 새로운 방식"이라고 설명합니다. "이전에는 여러 전문 알고리즘이 필요했던 작업을 이제 신경망을 통한 단일 순방향 전달(forward pass)만으로 처리할 수 있습니다."

수치는 설득력 있는 이야기를 들려줍니다. VGGT는 단일 GPU에서 약 2초 만에 100장의 이미지를 처리하며, 50~100배 더 많은 시간이 소요되는 방법보다 더 나은 정확도를 달성합니다. AR/VR 기업부터 자율 주행 차량 개발사에 이르기까지 3D 재구성에 의존하는 기업들에게 이는 능력의 비약적인 도약을 의미합니다.

Input Photo (A Dragon) for VGGT
Input Photo (A Dragon) for VGGT

VGGT 재구성 결과물
VGGT 재구성 결과물

작동 원리: 기술적 돌파구

VGGT는 본질적으로 12억 개의 매개변수를 가진 트랜스포머 모델입니다. 이는 오늘날 대규모 언어 모델(LLM)을 구동하는 모델들과 유사한 아키텍처를 가지고 있지만, 시각적 기하학 작업에 특화되어 있습니다. 이 시스템은 장면의 일반 사진을 입력받아 다음을 직접 출력합니다:

  • 카메라 매개변수: 사진을 찍은 각 카메라의 정확한 위치와 방향
  • 깊이 맵: 각 픽셀이 카메라로부터 얼마나 떨어져 있는지에 대한 측정값
  • 포인트 맵: 각 픽셀에 대한 3D 좌표
  • 3D 포인트 트랙: 특정 포인트가 여러 시점에서 어떻게 움직이는지

VGGT를 혁신적으로 만드는 것은 "교차 어텐션(alternating attention)" 메커니즘입니다. 이 모델은 단일 이미지 내의 특징을 처리하는 것과 모든 이미지의 정보를 통합하여 3D 구조를 이해하는 것을 번갈아 가며 수행합니다.

산업 분석가 웨이는 "가장 놀라운 점은 이것이 표준 트랜스포머 아키텍처로 달성되었다는 것"이라며, "최소한의 하드코딩된 3D 기하학 지식만으로도 모델이 데이터만으로 3D 재구성 원리를 본질적으로 학습했다"고 말합니다.

VGGT: 기술 사양 요약

범주기술 세부 사항
모델명VGGT: Visual Geometry Grounded Transformer
핵심 과제단일 순방향 전달(single feed-forward pass)로 여러 이미지에서 통합된 3D 재구성.
모델 아키텍처유형: 12억 개 매개변수 순방향 트랜스포머.
핵심 메커니즘: 교차 셀프 어텐션 (프레임별 및 전역)을 통해 이미지별 및 교차 뷰 데이터 통합.
주요 혁신• 단일 패스 예측, 반복적인 최적화 불필요.
• 통합된 다중 작업 학습 (카메라, 깊이, 포인트, 트랙).
• 1개에서 수백 개의 뷰를 위한 확장 가능한 아키텍처.
입력장면의 2D 이미지 1개에서 수백 개.
출력카메라 매개변수 (내부/외부), 깊이 맵, 3D 포인트 맵, 밀집된 포인트 트랙.
성능속도: H100 GPU 1대에서 이미지 100개당 약 2-3초.
카메라 포즈 (IMC): AUC@10 71.3 (순방향), 84.9 (BA 포함).
MVS (DTU): SOTA (Chamfer: 0.38).
학습데이터: 15개 이상의 실제 및 합성 3D 데이터셋으로 사전 학습.
연산: 64개 A100 GPU로 9일.
제한 사항• 비표준 렌즈 (어안/파노라마) 미지원.
• 극심한 회전 또는 비강체(non-rigid) 장면에 취약.
• 대규모 모델 크기로 인해 모바일 배포를 위한 최적화 필요.

속도를 넘어: 비즈니스에 중요한 이유

VGGT의 영향력은 학문적 관심을 훨씬 뛰어넘습니다. 이 기술은 여러 산업을 변화시킬 잠재력을 가지고 있습니다:

1. AR/VR 및 공간 컴퓨팅

증강 현실 경험을 구축하는 기업들에게, 3D 환경을 즉시 매핑하는 능력은 몰입형 애플리케이션을 위한 새로운 가능성을 열어줍니다. 선도적인 AR 스타트업의 CTO 마커스 레이놀즈는 "1초 미만의 재구성 시간은 AR

당신도 좋아할지도 모릅니다

이 기사는 사용자가 뉴스 제출 규칙 및 지침에 따라 제출한 것입니다. 표지 사진은 설명을 위한 컴퓨터 생성 아트일 뿐이며 실제 내용을 나타내지 않습니다. 이 기사가 저작권을 침해한다고 생각되면, 우리에게 이메일을 보내 신고해 주십시오. 당신의 경계심과 협력은 우리가 예의 바르고 법적으로 준수하는 커뮤니티를 유지하는 데 중요합니다.

뉴스레터 구독하기

최신 기업 비즈니스 및 기술 정보를 독점적으로 엿보며 새로운 오퍼링을 확인하세요

저희 웹사이트는 특정 기능을 활성화하고, 더 관련성 있는 정보를 제공하며, 귀하의 웹사이트 경험을 최적화하기 위해 쿠키를 사용합니다. 자세한 정보는 저희의 개인정보 보호 정책 서비스 약관 에서 확인하실 수 있습니다. 필수 정보는 법적 고지