알리바바, 주요 성능 테스트에서 구글 최고 모델에 필적하는 6가지 새로운 AI 시스템 출시

알리바바, 대담한 AI 출시로 미국 기술 대기업에 반격 가하다

알리바바가 도전장을 내밀었습니다. 실리콘밸리를 놀라게 한 발표에서, 중국의 거대 기술 기업 알리바바는 여섯 가지 AI 시스템을 공개했습니다. 이번 출시는 해당 분야에서 미국이 지배적인 위치에 도전하려는 중국 기업의 가장 야심찬 시도 중 하나로 평가됩니다.

공개된 시스템의 중심에는 1조 개 이상의 매개변수를 자랑하는 거대한 모델인 Qwen3-Max가 있습니다. 악명 높은 SWE-Bench Verified 코딩 테스트에서 Qwen3-Max는 69.6점을 기록했는데, 이는 서구의 선도 시스템들조차 종종 어려움을 겪는 기준점입니다. 초기 비교 결과에 따르면 이 모델은 구글의 Gemini 2.5 Pro와 대등하며, 어떤 경우에는 능가하기도 합니다.

이번 출시를 잘 아는 한 연구원은 “이것은 단순한 또 하나의 모델 출시가 아닙니다. Qwen은 오픈소스 표준이 되고 있습니다. 그들은 구글과 매우 흡사한 리듬으로 움직이지만, 자신들만의 전략을 가지고 있습니다”라고 설명했습니다.

머신 비전의 도약

주요 특징 중 하나는 이미지와 비디오를 놀라운 정확도로 처리하는 시각-언어 모델인 Qwen3-VL입니다. 이 모델은 256,000개의 토큰을 처리할 수 있어 두 시간 분량의 영상을 분석하기에 충분하며, 거의 완벽한 정확도를 유지합니다. 더 긴 맥락에서도 약 99.5%의 정확도를 꾸준히 유지합니다.

그 비결은 바로 "딥스택(DeepStack)" 아키텍처에 있습니다. 시각적 요소를 언어에 단순히 끼워 맞추는 대신, 모델은 시각적 세부 정보를 시스템의 여러 레이어에 직접 통합합니다. 이를 통해 미세한 세부 정보를 잃지 않고 추론할 수 있습니다.

CTOL.digital의 자체 내부 테스트에서 Qwen3-VL은 기존 모델들을 당황하게 했던 위업을 달성했습니다. 색맹 검사표를 정확하게 읽고, 복잡하게 얽힌 표를 깔끔한 HTML로 분석했으며, 이미지에서 직접 수학 문제를 풀었습니다. 하지만 전체 웹페이지 디자인을 재현하도록 요청받으면 여전히 어려움을 겪으며, 다른 선도 모델들에 비해 기준에 못 미치는 매력적이지 않은 레이아웃을 종종 만들어냅니다.

실시간 안전성 문제 해결

아마도 가장 대담한 움직임은 실시간으로 콘텐츠를 중재하는 새로운 안전 시스템인 Qwen3Guard일 것입니다. 텍스트가 완전히 생성될 때까지 기다리는 대신, 각 토큰이 생성될 때마다 이를 확인합니다. 이는 대화가 유해하거나 안전하지 않은 영역으로 흐를 때 즉시 개입할 수 있음을 의미합니다.

이 시스템은 119개 언어에서 작동하며 콘텐츠를 안전(Safe), 논란의 여지가 있음(Controversial), 안전하지 않음(Unsafe)의 세 가지 범주로 분류합니다. 이 시스템은 폭력, 자해, AI 안전장치 "탈옥" 시도 등 9가지 민감한 영역을 다룹니다.

이러한 접근 방식은 느리거나 불완전할 수 있는 사후 필터에 의존하는 많은 서구 시스템과 극명한 대조를 이룹니다. AI를 대규모로 배포하는 것을 우려하는 기업들에게 실시간 확인은 판도를 바꿀 수 있는 게임 체인저가 될 수 있습니다.

이것이 중요한 이유

알리바바의 출시 시기는 우연이 아닙니다. OpenAI나 구글과 같은 미국 기업들이 헤드라인을 장식하는 동안, 중국 기업들은 조용히 꾸준한 발전을 이루고 있었습니다. 알리바바의 전략은 기본 모델부터 지도 및 예약 앱에 직접 연결되는 여행 플래너와 같은 소비자 대면 도구에 이르기까지 전체 AI 스택에 걸쳐 펼쳐집니다.

이번 출시는 또한 미국-중국 기술 갈등이라는 배경 속에서 이루어졌습니다. 워싱턴의 수출 통제는 첨단 칩 접근을 제한했지만, 알리바바의 결과는 영리한 알고리즘과 효율적인 설계가 부분적으로 그 격차를 좁힐 수 있음을 보여줍니다.

강점과 난관

다른 독립 테스트들은 엇갈리지만 인상적인 결과를 보여줍니다. Qwen3-VL은 32개 언어에서 광학 문자 인식(OCR)을 완벽하게 수행했으며, 이는 이전 10개에서 크게 도약한 것입니다. 또한 복잡한 기상 지도를 해석하고 태풍 패턴을 놀라운 정확도로 포착했습니다.

하지만 이 시스템이 완벽한 것은 아닙니다. 한 시험에서는 여러 랜드마크를 혼동했습니다. 추론 작업에서는 "사고(Thinking)" 변형이 때때로 문제를 과도하게 분석하여, 너무 깊이 파고들어 올바른 궤도에서 너무 멀리 벗어나 실수를 저지르기도 했습니다. 이는 더 긴 "사고"가 더 나은 결과를 보장하지 않는다는 점을 상기시켜 주며, 이는 우리를 크게 놀라게 했습니다.

전략으로서의 오픈소스

시장 반응은 대체로 긍정적이었습니다. 개발자들은 기술적 진보뿐만 아니라 알리바바의 상세 모델 사양 및 가중치 공유 결정에 대해서도 칭찬했습니다. 이러한 개방성은 많은 서구 경쟁사들이 폐쇄적이고 독점적인 경로를 선택하며 후퇴한 시기에 더욱 두드러집니다.

문을 열어둠으로써 알리바바는 투명하고 수정 가능한 도구를 원하는 글로벌 개발자 기반을 유치할 수 있습니다. 이는 기술 자체는 완벽하지 않더라도 채택률에서 경쟁사들을 뛰어넘는 데 도움이 될 수 있는 전략입니다.

더 큰 그림

지금 전개되고 있는 상황은 일방적인 경주라기보다는 전 세계적인 경쟁에 가깝습니다. 미국은 AI 혁신에서 여전히 초기 선두를 유지하고 있지만, 유럽, 중국 및 다른 지역들이 빠르게 따라잡고 있습니다.

알리바바의 출시는 더 큰 추세를 강조합니다. 경쟁은 더 이상 누가 가장 똑똑한 단일 모델을 가지고 있느냐에 관한 것이 아닙니다. 시각, 언어, 안전 및 소비자 도구를 원활한 플랫폼으로 결합하는 통합된 생태계를 구축할 수 있는 사람으로 초점이 이동하고 있습니다.

이 큰 질문은 이 새로운 단계에서 미국 기업들이 그들의 우위를 유지할 수 있을지 여부입니다. 알리바바의 Qwen3 출시가 어떤 신호라면, 경쟁은 더욱 치열해졌고 기존의 힘의 균형은 오래 지속되지 않을 수 있습니다.