구글, '사고형' 로봇 모델 공개…전문가들, "실제 활용엔 너무 느려"

구글의 로봇 혁명: 대담한 새 AI 모델은 '생각하는 기계'를 시사하지만, 현실은 아직 과장된 기대에 미치지 못한다

구글 제미니 로보틱스 AI, 무대 위에서 눈부신 시연 선보였지만 전문가들은 '상용화 시기상조' 경고

구글 딥마인드는 수요일 "물리적 세계에서 AGI(범용 인공지능)를 해결하는 것"을 향한 중대한 진전이라고 묘사하며 베일을 벗겼다. 이 회사는 단순히 명령을 실행하는 것을 넘어, 놀랍도록 인간적인 방식으로 로봇 작업을 추론하고, 계획하며, 수행하는 두 가지 새로운 인공지능 모델을 선보였다.

정교한 시연은 많은 이들의 이목을 집중시켰다. 로봇들은 빨래를 개고, 쓰레기를 분류했으며, 마치 과정을 숙고하는 것처럼 자신의 결정을 큰 소리로 설명했다. 그러나 이러한 스포트라이트 뒤편에서 전문가들은 신중을 기할 것을 촉구한다. 그들은 이러한 혁신이 흥미롭지만, 신뢰할 수 있는 일상적인 지능형 기계로 가는 길은 여전히 길고 장애물이 많다고 주장한다.

새로운 종류의 로봇

구글 발표의 핵심 주역은 제미니 로보틱스 1.5와 그 자매 모델인 제미니 로보틱스-ER 1.5였다. 자동 조종 소프트웨어처럼 작동했던 기존 로봇 시스템과 달리, 이 모델들은 행동하기 전에 생각하는 것을 목표로 한다. 이들은 주변 환경에 대해 추론하고, 다단계 작업을 분해하며, 예상치 못한 일이 발생했을 때도 적응할 수 있다.

이 프로젝트의 연구원인 캐롤라이나 파라다(Carolina Parada)는 구글의 야망을 이렇게 요약했다. "우리는 물리적 에이전트 시대를 열고 있으며, 로봇이 복잡한 다단계 작업을 더 잘 해결하기 위해 인지하고, 계획하고, 생각하고, 도구를 사용하며, 행동할 수 있도록 합니다."

작동 방식은 다음과 같다. 제미니 로보틱스-ER 1.5 모델은 로봇의 "고수준 두뇌"처럼 작동한다. 이는 공간 인식, 자연어 및 온라인 도구를 사용하여 무엇을 해야 할지 파악한다. 예를 들어, 쓰레기를 분류하라는 요청을 받으면 각 품목이 어디에 속하는지 결정하기 전에 구글에서 지역 재활용 규칙을 검색할 수 있다. 표준 제미니 로보틱스 1.5는 이러한 계획을 받아 자체 추론 과정을 유지하면서 정밀한 움직임으로 전환한다.

구글의 시연에서 로봇은 물건을 퇴비, 재활용, 일반 쓰레기통으로 분류하라는 명령을 받았다. 추가 훈련 없이 지역 지침을 조사하고 각 품목을 분석한 후 작업을 수행했으며, 그 과정에서 자신의 사고 과정을 설명했다.

아마도 가장 인상적인 점은 이 모델들이 "교차 구현 학습(cross-embodiment learning)"을 수행할 수 있다는 것이다. 한 로봇 디자인에서 얻은 기술이 완전히 다른 기계로 원활하게 전이된다. 구글의 ALOHA 2 연구 로봇에서 학습한 작업이 추가 훈련 없이 앱트로닉(Apptronik)의 휴머노이드 아폴로(Apollo)와 프란카(Franka) 이중 팔 로봇으로 이어졌다. 이러한 종류의 일반화는 오랫동안 로봇공학자들의 숙원이었다.

화려한 시연, 그러나 전체 이야기는 아니다

입이 떡 벌어지는 시연에도 불구하고, 업계 베테랑들은 보다 냉철한 시각을 권한다. CTOL.digital의 엔지니어링 팀은 이 기술이 "시연에서는 인상적이지만, 실제 환경에서는 느리고 초기 단계"라고 평가했다.

그들은 "행동하기 전에 생각하는" 능력은 진정으로 새로우며, 일반적으로 다른 로봇에 필요한 고된 미세 조정을 줄일 수 있다고 말했다. 그러나 실제로는 지저분하고 예측 불가능한 환경에서 이 모델들이 눈에 띄는 지연과 불안정한 신뢰성을 보였다.

지연 시간(latency)이 큰 문제로 부상했다. 추론 과정, 즉 구글이 "사고 예산(thinking budget)"이라고 부르는 것은 막대한 연산을 요구한다. 이는 성능을 저하시키는데, 이는 현실 세계에서 빠르게 작동해야 하는 로봇에게는 결정적인 단점이다.

CTOL.digital 팀은 "미리 보기의 한계점에는 변화하는 API, 계산 비용, 프롬프트 품질 및 시각적 입력에 대한 높은 의존성이 포함된다"고 언급했다. 다시 말해, 이 모델들은 실험에는 이상적이지만 공장, 병원 또는 가정에 적용하기에는 아직 멀었다.

벤치마크 대 현실

구글은 빈손으로 오지 않았다. 이 회사는 제미니 로보틱스-ER 1.5가 공간 추론, 비디오 분석, 구현된 질문 답변 테스트를 포함한 15개 학술 벤치마크에서 기록을 세웠다고 자랑했다. 서류상으로는 이 모델이 모범 학생처럼 보인다.

그러나 벤치마크는 일상의 혼란을 거의 포착하지 못한다. 로봇은 깨끗한 실험실에서 화려한 블록을 완벽하게 분류할 수 있지만, 실제 주방의 어두운 조명, 지저분한 조리대 또는 이상하게 생긴 물체에 직면하면 멈춰버릴 수 있다. 이론과 실제 사이의 이러한 격차는 로봇공학의 가장 어려운 난관 중 하나로 남아있다.

안전이 주목받다

더 자율적으로 추론할 수 있는 기계가 등장하면서 안전은 더 이상 부차적인 문제가 아니라 핵심적인 문제가 되었다. 구글은 모든 행동 전에 고수준 안전 점검, 광범위한 AI 안전 정책과의 정렬, 충돌 방지를 위한 저수준 시스템을 포함한 여러 보호 계층을 구축했다고 밝혔다.

이 회사는 또한 로봇이 의미론적 안전을 얼마나 잘 다루는지 테스트하기 위해 설계된 데이터 세트인 ASIMOV 벤치마크의 새로운 버전을 발표했다. 초기 테스트 결과 제미니 로보틱스-ER 1.5는 움직이기 전에 상황을 고려하는 능력 덕분에 안전 규칙을 상당히 잘 처리하는 것으로 나타났다.

그럼에도 불구하고 CTOL.digital 엔지니어들은 우려를 표명했다. 그들은 "안전 계층이 필수적"이라고 강조했으며, 안전과 속도 사이의 절충은 현재 형태의 시스템을 계속 따라다닐 것이라고 경고했다.

왜 중요한가

구글의 공개는 기술 세계가 AI의 미래를 보는 방식의 변화를 강조한다. 이제는 반복적인 작업을 자동화하는 것을 넘어, 사람처럼 추론하고 적응할 수 있는 기계를 만드는 데 초점을 맞추고 있다. 만약 성공한다면, 그 보상은 막대할 수 있다. 더 똑똑한 로봇은 제조 및 물류에서부터 의료 및 가정 지원에 이르는 산업을 혁신할 수 있다.

개발자를 위해 제미니 로보틱스-ER 1.5 모델은 이미 구글 AI 스튜디오를 통해 이용 가능하다. 더 발전된 제미니 로보틱스 1.5는 현재 일부 파트너에게만 제한된다. 이러한 단계적 출시는 구글이 흥미를 유발하면서도 이 기술에 여전히 한계가 있다는 것을 알고 있음을 시사한다.

CTOL.digital은 이러한 분위기를 가장 잘 포착했다. "통합 계획과 '행동하기 전에 생각하는' 프레임워크에 대한 진정한 기대감이 있습니다. 그러나 이것이 진정한 '사고'를 의미하는 것인지, 아니면 정교한 마케팅인지에 대한 회의론도 존재합니다."

앞으로의 긴 여정

구글의 발표는 거대 기술 기업들이 자신들의 대규모 언어 모델이 단순히 텍스트를 쏟아내는 것 이상의 일을 할 수 있음을 증명하려는 군비 경쟁 한가운데에 놓여 있다. AI를 물리적 작업에 기반을 둠으로써 구글은 우위를 점하려 노력하고 있다.

그럼에도 불구하고, 독립적인 평가자들은 이 기술이 "가정용으로 채택되기까지는 아직 몇 년이 걸릴 것"이라고 예측한다. 다만, 조건이 엄격하게 통제될 수 있는 기업 파일럿에서는 더 빨리 유용하게 사용될 수 있다고 덧붙였다.

현재로서는 제미니 로보틱스 1.5가 정교한 제품이라기보다는 문샷 프로젝트처럼 느껴진다 — 오늘날 준비된 것이 아니라, 무엇이 가능한지에 대한 엿보기이다. 로봇이 놀랍도록 인간적인 방식으로 계획하고, 추론하며, 행동하기 시작하면서 문제는 그들이 일상생활을 재편할지 여부가 아니라, 언제 재편할지의 문제이다.

역사는 혁명이 하룻밤 사이에 일어나지 않는다고 말한다. 혁명은 작고 거의 눈에 띄지 않는 단계로 전개된다. 언젠가 로봇이 조용히 당신의 재활용품을 분류하거나 아무런 소란 없이 옷을 개 줄 수 있을 것이다. 그때가 바로 생각하는 기계의 시대가 진정으로 도래했음을 알게 될 때다.

투자 조언 아님