구글, 사람처럼 웹 탐색하는 AI 공개…하지만 진짜 업무는 이제 시작

구글, 사람처럼 웹 탐색하는 AI 공개—그러나 진짜 작업은 이제 시작일 뿐

Gemini 2.5 컴퓨터 사용 모델은 디지털 잡무를 대신하는 것을 목표로 하지만, 초기 사용자들은 예상치 못한 문제에 대비해야 합니다.

구글 딥마인드가 사람처럼 웹사이트와 앱을 클릭하고, 입력하고, 스크롤할 수 있는 AI 시스템인 Gemini 2.5 컴퓨터 사용 모델을 출시했습니다. 현재 Gemini API를 통해 미리보기 형태로 제공되는 이 모델은 AI를 많은 사람이 싫어하는 반복적인 디지털 업무를 처리할 수 있는 실용적인 비서로 전환하는 데 있어 큰 진전을 의미합니다.

작동 방식은 다음과 같습니다. AI는 화면의 스크린샷을 보고 사용자가 원하는 바를 해석한 다음, 이전 움직임을 확인하고, 다음 행동(버튼 클릭, 양식 작성, 추가 스크롤 등)을 결정합니다. 각 행동 후에는 또 다른 스크린샷을 얻으며, 작업이 완료되거나 모델이 막힐 때까지 이 과정이 반복됩니다.

구글은 Gemini 2.5가 평균 약 225초의 작업 시간으로 70% 이상의 정확도를 달성한다고 밝혔습니다. Online-Mind2Web, WebVoyager, AndroidWorld와 같은 표준 벤치마크에서 경쟁사들을 능가하고 있습니다. 구글 내부에서는 이미 사용자 인터페이스 테스트, 프로젝트 마리너(Project Mariner), 그리고 검색 AI 모드의 새로운 기능에 이 모델을 활용하고 있습니다.

일부 초기 테스터들은 깊은 인상을 받았습니다. 구글의 시범 프로그램에 참여 중인 AI 비서 서비스 Poke.com은 "Gemini 2.5 컴퓨터 사용은 우리가 시도했던 어떤 것보다 훨씬 앞서 있다. 경쟁 도구보다 50% 더 빠르고 정확하다"고 말했습니다.

하지만 모든 사람이 축배를 들 준비가 된 것은 아닙니다. CTOL.digital의 엔지니어들은 이 시스템이 "브라우저 자동화 및 테스트에 유망하다"고 평가했지만, 동시에 "초기 단계이고, 웹 중심이며, 작업이 복잡해지면 까다롭다"고 지적했습니다. 이들의 결론은 현재로서는 유용하지만, 진정으로 혁신적이 되려면 속도와 신뢰성 면에서 큰 개선이 필요하다는 것입니다.

Gemini 2.5 Computer Use (googleapis.com)

설계 단계부터 안전성 고려—아니면 그저 보여주기식일까?

구글 모델의 차별점 중 하나는 안전성에 접근하는 방식입니다. 모든 행동은 실행 전에 안전성 서비스를 거치는데, 이는 사용자 오용, 모델 자체의 예상치 못한 행동, 웹사이트에 숨겨진 악의적인 프롬프트라는 세 가지 주요 위험으로부터 보호하는 데 도움이 됩니다.

개발자들은 구매, CAPTCHA 우회, 민감한 시스템 제어와 같은 위험한 단계 전에 사용자 확인을 요구할 수도 있습니다. 사후에 필터를 부착하는 경쟁사와 달리, 구글은 이러한 안전장치를 모델 자체에 내재하도록 훈련했습니다.

이는 큰 장점이 될 수 있습니다. 우리 분석가들은 "액션별 검토 및 시스템 수준 정책이 올바른 기본값이다. 이것이 모든 프롬프트 주입을 막지는 못하겠지만, 특히 규제 산업에서 기업의 도입을 훨씬 더 원활하게 만들 것이다"라고 언급했습니다.

만약 구글이 이 검토 기능을 독립적이고 맞춤 설정 가능한 서비스로 전환하여, 기업들이 자체 규칙과 승인 절차를 연결할 수 있게 한다면, 이 기술 거대 기업에게 진정한 시장 우위를 제공할 수 있을 것입니다.

무엇을 할 수 있고—무엇을 할 수 없는가

현재 Gemini 2.5는 웹 브라우저에서 탁월한 성능을 발휘합니다. 모바일 앱에서도 가능성을 보이지만, 데스크톱 수준의 운영체제 제어는 아직 불가능합니다. 이는 사실 의도적인 설계일 수 있습니다.

우리 팀은 "가장 가치 있는 자동화는 웹 로그인 뒤에 있다. 양식, 관리자 콘솔, SaaS 도구와 같은 것들이다"라며 "대부분의 기업 워크플로우에서 웹에서의 더 빠르고 긴밀한 루프가 서투른 OS 제어보다 낫다"고 분석했습니다.

주요 활용 분야는 브라우저 기반 자동화, UI 테스트, 구조화된 사이트 탐색, 데이터 입력으로 보입니다. 실제로 구글의 결제 팀은 취약한 엔드 투 엔드 테스트의 백업으로 Gemini 2.5를 사용하여 수동 복구 시간을 며칠 단축했다고 밝히기도 했습니다.

하지만 한계는 명확합니다. 작업 시간이 아직 몇 분이 걸리고, 몇 초 만에 처리되지 않아 대규모 고객 지원에는 적합하지 않습니다. 개방형 문제나 퍼즐 같은 도전 과제에서는 성능이 저하됩니다. 그리고 일상적인 사용에서 미리보기 버전은 편차가 커서 개발자들이 재시도와 사람의 감독을 필요로 합니다.

비즈니스 영향과 더 큰 그림

우리 분석에 따르면, 진정한 승자는 "AI 브라우저 구동" 스타트업이 아닐 것입니다. 이들은 완전한 회사라기보다는 기능에 가깝습니다. 더 큰 기회는 수직적 솔루션, 즉 규제 산업을 위한 전문 코파일럿, 탄력적인 테스트 인프라, 보안 도구, 성능 모니터링 플랫폼을 구축하는 데 있습니다.

우리 팀은 "오래 지속될 기업들은 네이티브 API, 폴백으로서의 UI 구동, 구조화된 워크플로우, 내장된 안전성 검사, 사용자 친화적인 검토 도구를 혼합할 것이다"라며 "해자(경쟁 우위)는 에이전트뿐만 아니라 프로세스 지식, 통합, 데이터에 있다"고 설명했습니다.

경쟁사들도 가만히 있지 않습니다. 앤스로픽(Anthropic)은 클로드(Claude)를 통해 더 광범위한 데스크톱 자동화를 추진하고 있습니다. 오픈소스 프로젝트도 증가하고 있어 개발자들에게 많은 대안을 제공합니다. 현명한 기업들은 기술이 성숙함에 따라 제공업체를 전환할 수 있을 만큼 유연한 시스템을 설계하여, 한 곳에만 의존하지 않을 것입니다.

결론

Gemini 2.5 컴퓨터 사용은 마법이 아닌 진보입니다. 더 강력한 안전 기능과 경쟁력 있는 벤치마크를 통해 AI가 디지털 세계를 탐색하는 방식에 더 높은 기준을 제시합니다. 그러나 이것은 여전히 인프라일 뿐이며, 일상적인 작업을 자동화하는 데 유용하지만, 어떤 작업이든 처리할 수 있는 공상 과학 영화의 에이전트는 아닙니다.

현재로서는 기업들이 명확한 성공 지표와 백업 계획을 가진 명확하게 정의되고 가치 높은 워크플로우에 이 기술을 활용해야 합니다. 기술은 시간이 지남에 따라 더 빨라지고 똑똑해질 것입니다. 진정한 결정은 일찍 도입하여 현재의 초기 문제점을 감수할 것인지, 아니면 구글과 경쟁사들이 기술의 최전선을 개척함에 따라 올 더 매끄러운 경험을 기다릴 것인지에 달려 있습니다.

투자 조언 아님

구글, 사람처럼 웹 탐색하는 AI 공개…하지만 진짜 업무는 이제 시작

구글, 사람처럼 웹 탐색하는 AI 공개—그러나 진짜 작업은 이제 시작일 뿐

설계 단계부터 안전성 고려—아니면 그저 보여주기식일까?

무엇을 할 수 있고—무엇을 할 수 없는가

비즈니스 영향과 더 큰 그림

결론

당신도 좋아할지도 모릅니다

뉴스레터 구독하기