알리바바 연구진, UI 제어 테스트 선두 GUI-Owl 및 Mobile-Agent-v3 시스템 출시

작성자
CTOL Editors - Lang Wang
12 분 독서

조용한 혁명: 기계가 우리의 디지털 세상을 탐색하는 법을 배우다

중국 선전 — 8월 20일, 중국 인공지능 연구소에서 디지털 업무의 경제학을 재편할 수 있는 조용하지만 놀라운 발전이 나왔습니다. 두 가지 오픈소스 시스템인 GUI-OwlMobile-Agent-v3가 공개되었는데, 이들은 컴퓨터 인터페이스를 제어하는 데 있어서 세계에서 가장 발전된 일부 독점 AI 모델을 능가하는 능력을 보여주었습니다.

GUI-Owl은 사람들이 매일 사용하는 버튼, 메뉴, 화면 등 그래픽 사용자 인터페이스(GUI)를 이해하고 상호작용하도록 특별히 설계된 모델입니다. 일반적인 목적의 AI 시스템과 달리, 이 모델은 휴대폰이든 데스크톱이든 어떤 컴퓨터 인터페이스든 "보고" 조작하도록 맞춤 제작되었습니다.

이러한 기반 위에 Mobile-Agent-v3는 복잡한 다단계 작업을 완료하기 위해 함께 작동하는 전문 에이전트들의 전체 프레임워크 역할을 합니다. 그 안에서 일부 에이전트는 목표를 계획하고, 다른 에이전트는 작업을 실행하며, 또 다른 에이전트는 진행 상황을 모니터링하고 실수를 수정합니다. 이들은 함께 거의 모든 소프트웨어 애플리케이션을 처리할 수 있는 디지털 인력을 구성합니다.

성능 수치는 놀랍습니다. 안드로이드월드 벤치마크에서 Mobile-Agent-v3는 73.3%의 성공률을 달성하여 Anthropic의 Claude(44.8%)를 훨씬 앞섰습니다. GUI 제어 특화 작업에서는 GUI-Owl의 320억 개 매개변수 모델이 **94.2%**에 도달했으며, OpenAI의 GPT-4o(53.5%)와 비교됩니다. 이것들은 작은 개선이 아니라, AI가 할 수 있는 일의 비약적인 발전을 의미합니다.

그리고 아마도 가장 중요한 점은, 독점 시스템이 항상 오픈소스 대안보다 우위에 있을 것이라는 오랜 가정에 도전한다는 것입니다.

GUI 자동화 사례
GUI 자동화 사례


혁신의 방정식

데이터는 이러한 변화를 명확히 보여줍니다. Mobile-Agent-v3는 안드로이드 벤치마크에서 기존 독점 시스템을 능가했으며, GUI-Owl은 GUI 작업에서 GPT-4o의 점수를 거의 두 배로 만들었습니다.

한 연구원은 “우리는 특수 애플리케이션 분야에서 클로즈드소스 프리미엄의 붕괴를 목격하고 있습니다. 독점 개발이 항상 우월할 것이라는 가정은 무너지고 있습니다”라고 말했습니다.

이는 단순한 기술적 이정표 이상입니다. 오픈소스 시스템이 독점 시스템을 계속 앞지를 수 있다면, 그 파급 효과는 기술 부문 전반의 기업 가치 평가에 영향을 미칠 것입니다. 독점 AI 역량을 기반으로 구축된 "해자(경제적 진입장벽)"로 높이 평가받던 기업들은 그러한 이점이 빠르게 줄어들고 있음을 발견할 수 있습니다.


자기 개선의 아키텍처

이러한 성과는 무엇으로 설명될까요? 이 돌파구의 핵심에는 새로운 개발 접근 방식이 있습니다. 주요 병목 현상이었던 비용이 많이 드는 사람이 주석을 단 데이터에 크게 의존하는 대신, 팀은 자가 진화 데이터 생성 시스템을 구축했습니다.

여기서 안드로이드, 우분투, macOS, 윈도우즈를 구동하는 가상 환경은 AI 에이전트가 작업을 시도하고, 결과를 평가하며, 새로운 훈련 데이터를 자동으로 생성하도록 합니다. 각 주기는 성능을 향상시키고 다음 라운드를 위한 훨씬 더 좋은 데이터를 생성합니다. 이는 네트워크 성장을 연구하는 경제학자들에게 익숙한 플라이휠 효과입니다.

경제적 의미는 심오합니다. 기존 AI 훈련 비용은 작업이 복잡해질수록 증가합니다. 하지만 자기 개선을 통해 한계 비용은 0에 가까워지고 역량은 기하급수적으로 증가할 수 있습니다. 한 분석가는 “데이터 플라이휠 효과는 AI 경제학의 새로운 패러다임을 나타냅니다”라고 언급했습니다.


움직이는 시장

상업적 기회는 엄청납니다. 오랫동안 경직된 규칙 기반 시스템에 의존해왔던 기업 자동화는 인간처럼 유연하게 워크플로를 처리하는 적응형 AI 에이전트에 의해 혁신될 수 있습니다.

  • 금융 서비스: 백오피스 업무 — 대사, 규정 준수, 거래 처리 등 — 가 자동화되어 비용을 30~40% 절감할 수 있을 것으로 추정됩니다.
  • 헬스케어: 전자의무기록 및 보험 서류 관리와 같은 행정적 부담은 지출의 거의 3분의 1을 차지합니다. GUI 자동화는 이러한 부담을 크게 줄일 수 있습니다.
  • 기타 부문: 고객 서비스, 소프트웨어 테스트, 심지어 개인 생산성 앱까지 혜택을 볼 수 있습니다.

하드웨어 가속 효과

이러한 변화는 소프트웨어에만 국한되지 않습니다. GUI 자동화는 실시간 사용자 상호작용을 따라잡기 위해 빠르고 로컬에서 이루어지는 연산을 필요로 합니다. 클라우드 기반 AI와 달리 지연을 허용할 수 없습니다.

이는 엣지 컴퓨팅 및 컴퓨터 비전과 고속 추론에 최적화된 특수 칩에 대한 새로운 수요를 의미합니다. 한 반도체 분석가는 “GUI 자동화는 지연 시간 제약으로 인해 엣지 배포가 단순히 선호되는 것을 넘어 필수적이라는 점을 보여주는 사례입니다”라고 언급했습니다.

초기 도입자들은 이미 이러한 요구를 지원하기 위해 특수 하드웨어에 투자하고 있으며, 이는 AI 가속 분야에서 칩 제조업체에게 상당한 성장 기회를 시사합니다.


미지의 영역 탐색

앞으로의 길은 순탄치 않을 것입니다. 특히 AI 및 고용 관련 규제가 아직 진화 중인 산업과 국가에 따라 채택 속도는 달라질 것입니다.

대규모 배포를 위해서는 상당한 기술 통합도 필요합니다. 모델 자체는 강력하지만, 이를 기업 운영에 포함시키는 것은 복잡한 작업이며, 종종 강력한 자체 역량을 갖춘 조직으로 제한됩니다.

또한 오픈소스는 혁신을 가속화하지만, 기업 구매자들이 일반적으로 요구하는 장기적인 지원에 대한 의문을 제기합니다. 상업 공급업체들이 개입할 가능성이 높지만, 이러한 서비스에 대한 시장 구조는 여전히 불분명합니다.


시장 참여자를 위한 전략적 포지셔닝

승자는 핵심 기술의 창조자가 아니라, 그 기술을 활용하는 기업이 될 수 있습니다. 시스템 통합업체, 기업용 소프트웨어 공급업체 및 관리형 서비스 기업은 기업이 이러한 새로운 역량을 구현하도록 지원함으로써 모두 혜택을 볼 수 있습니다.

반대로, 전통적인 비즈니스 프로세스 아웃소싱이나 수동 데이터 입력과 같은 노동 집약적인 프로세스에 의존하는 기업들은 잠재적인 혼란에 직면하게 되므로 비즈니스 모델을 재고해야 할 것입니다.

반도체 제조업체 또한 엇갈린 전망에 직면합니다. 엣지 및 추론 중심 칩 공급업체는 번성할 수 있지만, 범용 하드웨어 생산자는 특수 요구 사항으로 인해 압력을 받을 수 있습니다.

투자자들에게 메시지는 명확합니다. 특수 AI는 더 이상 독점 기업에 의해 지배되지 않을 수 있습니다. 통합 잠재력이 큰 오픈소스 플랫폼이 더 나은 투자가 될 수 있습니다.


GUI 자동화의 등장은 뛰어난 성능과 오픈소스 접근성을 결합하여 잠재적으로 패러다임을 전환하는 순간을 의미합니다. 이는 산업, 경제, 글로벌 시장 전반에 걸쳐 영향을 미치는 발전이며, 앞으로 몇 달, 몇 년 동안 면밀한 관심이 요구됩니다.


본 분석은 현재 기술 및 시장 상황을 반영합니다. 투자 결정은 철저한 실사 및 전문가의 조언에 따라 이루어져야 합니다. AI 시스템의 과거 성과가 미래 결과를 예측하는 지표는 아닙니다.

당신도 좋아할지도 모릅니다

이 기사는 사용자가 뉴스 제출 규칙 및 지침에 따라 제출한 것입니다. 표지 사진은 설명을 위한 컴퓨터 생성 아트일 뿐이며 실제 내용을 나타내지 않습니다. 이 기사가 저작권을 침해한다고 생각되면, 우리에게 이메일을 보내 신고해 주십시오. 당신의 경계심과 협력은 우리가 예의 바르고 법적으로 준수하는 커뮤니티를 유지하는 데 중요합니다.

뉴스레터 구독하기

최신 기업 비즈니스 및 기술 정보를 독점적으로 엿보며 새로운 오퍼링을 확인하세요

저희 웹사이트는 특정 기능을 활성화하고, 더 관련성 있는 정보를 제공하며, 귀하의 웹사이트 경험을 최적화하기 위해 쿠키를 사용합니다. 자세한 정보는 저희의 개인정보 보호 정책 서비스 약관 에서 확인하실 수 있습니다. 필수 정보는 법적 고지