알리바바, 폐쇄형 멀티모달 LLM에 대한 중국의 강력한 해답 'Qwen3-Omni' 공개
항저우, 중국 — 알리바바가 글로벌 AI 경쟁에서 중요한 움직임을 보였습니다. 이 회사는 텍스트, 이미지, 오디오, 비디오를 동시에 처리할 수 있는 멀티모달 AI 시스템인 Qwen3-Omni를 공개했습니다. 이는 OpenAI의 GPT-4o와 구글의 Gemini 2.5 Flash에 대항하는 중국 최초의 진정한 오픈소스 경쟁자입니다.
많은 화려하지만 접근이 제한된 AI 출시와 달리, Qwen3-Omni는 일반에 공개됩니다. 이러한 움직임만으로도 서구 기업들이 자사 기술을 폐쇄적으로 유지해온 업계에 큰 파장을 일으키고 있습니다.
실시간 AI의 거대한 도약
Qwen3-Omni는 단순한 챗봇 그 이상입니다. 그 핵심에는 영리한 "생각하는 자-말하는 자(Thinker-Talker)" 디자인이 자리하고 있습니다. '생각하는 자'가 입력을 처리하고 분석하는 동안, '말하는 자'는 즉시 자연스러운 음성으로 응답합니다. 알리바바는 여러 모델을 억지로 결합하는 대신, 대부분의 AI 시스템이 어려워하는 어색한 지연 없이 다양한 형식으로 대화할 수 있는 하나의 엔드투엔드 시스템을 구축했습니다.
결과는 놀랍습니다. 알리바바 자체 테스트에서 Qwen3-Omni는 36개 오디오 및 비디오 벤치마크 중 32개에서 최고 성능을 기록했습니다. 음성 입력에 단 234밀리초 만에 응답하는데, 이는 실제 대화처럼 느껴질 만큼 충분히 빠른 속도입니다. 또한, 30분간의 연속 음성을 놓치지 않고 전사(transcribe)할 수 있습니다. 이러한 종류의 속도와 지구력은 Qwen3-Omni를 서구 거대 기업들과 정면으로 겨루게 합니다.
이 모델은 119개 문자 언어를 지원하고, 19개 음성 언어를 인식하며, 10개 언어로 음성 응답을 합니다. 내부적으로는 300억 개 파라미터 중 약 30억 개만 매번 활성화하는 전문가 혼합(Mixture-of-Experts) 접근 방식을 사용합니다. 이러한 효율성은 모델이 기대 이상의 성능을 발휘할 수 있음을 의미합니다.
단순한 시연용이 아닌, 개발자를 위한 도구들
알리바바는 강력한 시스템을 내놓고 개발자들이 복잡한 부분을 알아서 해결하도록 하는 대신, Qwen3-Omni를 실용적인 도구들과 함께 제공했습니다. 바로 실행 가능한 노트북, 완벽한 통합 가이드, vLLM 배포 지원 등을 예로 들 수 있습니다. 프로그래머들에게 이는 몇 주간의 골칫거리가 즉시 개발에 착수하는 것과의 차이를 의미합니다.
기본 모델 외에도 알리바바는 세 가지 맞춤형 버전을 출시했습니다:
- Qwen3-Omni-Instruct: 텍스트와 음성으로 대화하는 멀티모달 비서.
- Qwen3-Omni-Thinking: 어려운 추론 작업을 위해 설계.
- Qwen3-Omni-Captioner: 오디오 콘텐츠를 심층적으로 분석하도록 구축.
이는 만능 해결책보다는 다양한 선택지를 제공하며, 개발자들이 오랫동안 요구해왔던 방식입니다.
자체 테스트 결과
CTOL.digital의 우리 엔지니어링 팀은 특히 Qwen3-Omni의 실용적인 지향점에 깊은 인상을 받았습니다. 칭찬은 한 가지 점에 집중되었습니다. 알리바바는 단순히 모델 가중치를 온라인에 공개한 것이 아니라는 점입니다. 개발자들에게 실제 가이드, 예제, 그리고 자신들의 프로젝트에 바로 적용할 수 있는 작동하는 코드를 제공했습니다. 많은 이들에게 이는 멀티모달 앱 구축의 진입 장벽을 획기적으로 낮춥니다. Qwen3-Omni는 또한 많은 오픈소스 경쟁자들이 갖지 못한, 더 나은 세계 지식을 바탕으로 한 사실적 정확성에서도 놀라움을 주었습니다.
그럼에도 불구하고 옴니(Omni)가 완벽한 것은 아닙니다. 알리바바의 더 강력한 Qwen3-Max와 비교할 때, 옴니는 순수한 깊이를 속도와 유용성과 맞바꿨습니다. OCR과 같은 인식 작업에는 탁월하지만, 수학 문제에서는 어려움을 겪으며 때로는 답을 지어내기도 합니다. 정교한 시각 처리에서는 Max가 작은 텍스트를 읽거나 이미지 영역 전반의 맥락을 연결하는 데 옴니를 능가합니다. 하지만 Max는 자체적인 단점도 있습니다. 너무 많은 이모지, 과도하게 스타일링된 마크다운, 그리고 테스트자들이 로봇 같다고 느낀 어조가 그렇습니다. 옴니는 모든 한계에도 불구하고 더 자연스럽게 느껴집니다.
광범위한 연구 노력
이번 출시는 고립적으로 진행되는 것이 아닙니다. 알리바바는 푸단 대학교와 함께 최근 **월드 선호도 모델링(World Preference Modeling)**을 선보였습니다. 이는 대규모 실제 인간 선호도 데이터를 기반으로 AI를 훈련하는 프레임워크입니다. 소규모의 수동으로 레이블링된 데이터셋에만 의존하는 대신, WorldPM은 Reddit, Quora, StackExchange와 같은 포럼의 데이터를 활용합니다.
그들의 발견은 중요합니다. 코딩이나 수학과 같은 사실적이고 객관적인 작업의 경우, 모델이 확장됨에 따라 더 큰 모델에서 명확한 "초월적(emergent)" 이득이 나타납니다. 반면, 어조나 글쓰기 재능과 같은 주관적인 스타일의 경우, 인간의 선호도가 충돌하고 노이즈가 스며들기 때문에 그 이점이 불분명합니다. 이는 AI를 실제 인간 가치의 복잡한 다양성과 일치시키기 위한 중요한 단계입니다.
폐쇄형 서구 지배에 대한 도전
이 타이밍은 우연이 아닙니다. 중국과 서방 간의 긴장이 고조됨에 따라, 중국 기술 기업들은 외국 AI에 대한 의존도를 줄이고자 합니다. 알리바바의 Qwen3-Omni 오픈소스 결정은 OpenAI와 구글의 점점 더 폐쇄적인 접근 방식과 극명한 대조를 이룹니다.
벤치마크 결과는 알리바바가 허풍을 떨고 있지 않음을 시사합니다. 이 모델은 사실적 정확도에서 경쟁자들을 능가하며, 다른 모델들이 놓쳤던 미묘한 역사적 참조까지 포착했습니다. 그렇다고 해도, 고급 수학이나 정교한 시각 분석과 같은 분야에서는 여전히 뒤처집니다. 흥미롭게도 알리바바 자체의 Qwen3-Max가 이러한 작업들을 더 잘 처리합니다. 그러나 실시간 대화나 이미지에서 텍스트를 읽는 것과 같은 일상적인 용도에서는 Qwen3-Omni가 빛을 발합니다.
중국을 넘어선 시야
알리바바는 분명히 글로벌 청중을 겨냥하고 있습니다. 회사는 영어 자료를 공개하고 국제 사용자들을 위한 데모를 선보였습니다. 한 가지 놀라운 예시는 웨어러블 기기를 통한 실시간 번역으로, 이는 서구 소비자 AI 제품과의 직접적인 경쟁을 암시합니다.
중국 내에서는 알리바바의 **쿼크 챗봇(Quark chatbot)**이 중국 앱 순위를 높이고 **쿼크 AI 안경(Quark AI Glasses)**이 시장에 출시되는 시점에 Qwen3-Omni가 등장했습니다. 이는 고립된 출시라기보다는 AI 기반 소비자 기술 분야로의 조율된 추진의 핵심처럼 느껴집니다.
업계에 미치는 영향
Qwen3-Omni를 오픈소스로 공개함으로써 알리바바는 고급 멀티모달 AI를 구축하고자 하는 모든 이들의 진입 장벽을 낮춥니다. 한때 경쟁하기 위해 막대한 자원이 필요했던 개발자들은 이제 바로 활용할 수 있는 견고한 기반 모델을 갖게 되었습니다. 이는 새로운 혁신의 물결을 촉발하여, 대기업들이 자사 기술을 얼마나 엄격하게 보호할지 다시 생각하게 만들 수 있습니다.
한 업계 분석가는 "알리바바는 진지한 멀티모달 앱을 구축하기 위한 완전한 툴킷을 기본적으로 제공했습니다"라고 언급했습니다. "이는 전 세계 개발자들에게 판도를 바꿀 것입니다."
이미 Qwen Chat, 허깅 페이스(Hugging Face) 데모, 그리고 알리바바 자체 API 플랫폼을 통해 Qwen3-Omni를 테스트할 수 있습니다. 이번 출시는 일반적인 시행착오 과정보다 통합을 훨씬 더 원활하게 만드는 문서와 함께 제공됩니다.
하나의 대담한 움직임으로, 중국은 AI 개발의 최고 단계로 확고히 진입했습니다. 그리고 Qwen3-Omni를 오픈소스로 유지함으로써 알리바바는 서구에서 지배적인 점점 더 폐쇄적인 생태계에 대한 진정한 대안이 있음을 보장합니다.