알리바바 Qwen3-2507, 낮은 자원 소모로 비추론 오픈소스 LLM 새 벤치마크 제시

알리바바의 큐원3, 놀라운 새 모델로 AI 경쟁 판도 뒤흔들다

조용한 거인: 중국 AI 다크호스가 실리콘밸리를 어떻게 앞질렀나

7월 22일, 알리바바의 통이 첸원(Tongyi Qianwen) 팀이 Qwen3-235B-A22B-Instruct-2507 모델을 공개했다. 이 모델은 선두 오픈소스 경쟁자들(Deepseek v3.1 및 Kimi K2)을 능가할 뿐만 아니라, 여러 주요 벤치마크에서 독점 모델 강자인 클로드 4 소네트(Claude 4 Sonnet, 비사고형)에까지 도전하며 AI 연구자들을 충격에 빠뜨렸다.

이번 혁신은 오픈소스 거대언어모델(LLM) 개발에서 중국의 지배력을 다시 한번 입증했다. 이제 중국 모델들은 비추론(non-reasoning) 부문에서 최상위권을 차지하고 있으며, 큐원3가 선두를 달리고 그 뒤를 키미 K2와 딥시크 v3.1이 잇고 있다. 추론 모델 분야에서는 딥시크 R1이 여전히 최고의 오픈소스 옵션으로 남아있다. 업계 관측통들은 새로운 큐원3 비추론 모델을 성공시킨 아키텍처 혁신을 활용할 가능성이 있는 알리바바의 다음 추론 모델 출시를 학수고대하고 있다.

한 선임 AI 연구원은 "이것은 단순한 점진적 개선이 아니다"라며, "이 아키텍처로 가능하다고 생각했던 것의 근본적인 변화다. 벤치마크는 거짓말하지 않는다"고 말했다.

'학들 사이의 닭': 이토록 뛰어날 리 없는 모델

큐원3 새 모델의 가장 인상적인 특징은 '하지 않는 것'에 있다. 대부분의 고성능 AI 시스템과 달리, 이 모델은 문제를 단계별로 명시적으로 처리하는 계산 방식인 "사고 모드"를 사용하지 않는다. 그럼에도 불구하고 사고 모드를 사용하는 많은 모델들을 능가하는 결과를 달성한다.

한 업계 관측통은 이를 "학들 사이의 닭"이라고 묘사하며, 겉보기에는 소박하지만 최정상급 성능을 보여준다고 말했다.

벤치마크 결과는 이를 증명한다: 복잡한 수학 평가인 AIME25에서 큐원3의 점수는 24.7점에서 70.3점으로 수직 상승했다. 이는 45.6점 향상된 수치로, 키미 K2 및 딥시크 V3와 같은 경쟁자들을 크게 앞선다.

유사하게, 추론 작업에서도 극적인 개선이 나타났다. 이 모델은 ZebraLogic에서 95.0점(딥시크 83.4점, 키미 89.0점 대비)을 기록했고, ARC-AGI에서는 41.8점을 달성하여 모든 경쟁자를 능가했다.

더욱 주목할 만한 점은, 인간 선호도 정렬을 측정하는 벤치마크인 Arena-Hard v2에서 큐원3가 79.2%를 기록하며 GPT-4o의 61.9%마저 뛰어넘었다는 사실이다.

기술적 돌파: 전략으로서의 분리

큐원3 발전의 핵심에는 직관에 반하는 설계 철학이 있다. 알리바바 팀은 명령어 처리와 복잡한 추론을 혼합한 하이브리드 모델을 만드는 대신, 이 기능들을 완전히 분리했다.

이는 업계의 일반적인 추세에서 크게 벗어나는 접근 방식이다. 경쟁사들이 점점 더 정교한 "사고형" 아키텍처를 추구하는 동안, 큐원3 팀은 비사고형 모델을 예상치 못하게 강력하게 만드는 데 집중했다.

기술 사양은 그 배경의 일부를 보여준다: 이 시스템은 희소 혼합 전문가(Sparse Mixture of Experts, SMoE) 아키텍처를 채택하고 있으며, 총 2,350억 개의 파라미터를 가지고 있지만 추론 시에는 단 220억 개만 활성화된다. 94개의 트랜스포머 레이어와 특수화된 어텐션 메커니즘을 통해 이 모델은 256K의 컨텍스트 창을 지원하는데, 이는 공개된 시스템 중 가장 긴 수준이다.

기업 AI 배포를 담당하는 한 머신러닝 전문가는 "다른 모든 사람들이 대시보드에 집중할 때, 그들은 본질적으로 엔진을 재구축한 셈"이라며, "빠른 명령어 처리와 심사숙고하는 추론을 분리한 것은 탁월한 전략이며, 실제 애플리케이션에서 더 잘 작동한다"고 말했다.

벤치마크를 넘어선 실제 영향

단순한 점수를 넘어, 초기 사용자들은 실제 애플리케이션에서 중요한 세 가지 주요 개선 사항을 보고했다: 향상된 다국어 기능, 사용자 의도와의 더 나은 정렬, 그리고 장문 텍스트 이해 능력의 비약적인 향상이다.

새 모델을 테스트 중인 한 개발자는 "이 모델은 당신이 무엇을 요청하는지 정확히 이해한다"며, "복잡하고 모호한 지시에도 불구하고, 문자 그대로 요청한 것이 아니라 당신이 실제로 원했던 것을 일관되게 생성해낸다"고 설명했다.

이러한 실용적인 강점은 코드 생성 및 에이전트 기반 작업으로도 확장된다. 큐원3는 LiveCodeBench 및 BFCL-v3와 같은 벤치마크에서 현재 대부분의 대안을 능가한다.

글로벌 AI 개발에 대한 전략적 함의

알리바바의 돌파는 글로벌 AI 지형에 중요한 함의를 지닌다. 이는 미국 기술 기업들이 주도하는 널리 받아들여지는 아키텍처 접근 방식이 최첨단 성능에 도달하는 유일한 길이 아닐 수 있음을 시사한다.

전 세계 AI 스타트업에 투자하는 한 벤처 투자가는 "중국 AI 생태계에서 진정한 혁신이 일어나고 있다"며, "더 이상 단순히 따라잡는 수준이 아니라, 새로운 영역을 개척하고 있다"고 말했다.

이번 출시는 또한 오픈소스 AI 모델의 기준을 극적으로 높였다. 큐원3는 전통적인 의미에서 완전히 오픈소스는 아니지만, 허깅 페이스(Hugging Face)를 통한 접근성, vLLM 및 SGLang과 같은 주류 프레임워크를 통한 접근성, 그리고 상세한 기술 문서를 통해 GPT-4 또는 클로드와 같은 폐쇄형 모델보다 더 접근성이 높다.

축하 속의 신중론

모든 반응이 긍정적인 것만은 아니다. 일부 전문가들은 특정 벤치마크 점수, 특히 SimpleQA의 54.3점이 비추론 모델에게 현실적인지 의문을 제기하며, 진정한 능력 향상보다는 벤치마크 최적화 가능성에 대한 우려를 표했다.

한 저명한 AI 연구원은 소셜 미디어에 "큐원 팀이 벤치마크를 조작하는 것이 아니길 진심으로 바란다"며, "내부 벤치마크 없이 공개 테스트에 과도하게 최적화하는 것은 장기적으로 명성에 해를 끼칠 수 있다"고 썼다.

다른 이들은 응답 시간 증가(평균 응답 시간이 19초에서 214초로 증가) 및 비영어권 맥락에서 가끔 발생하는 영어 혼입 현상과 같은 실제적인 한계점을 지적한다.

투자 관점: AI 시장에 미치는 의미

AI 부문을 주시하는 투자자들에게 큐원3의 출시는 여러 가지 중요한 함의를 지닌다.

첫째, 이는 선도적인 AI 기업들을 둘러싼 경쟁 해자(moat)가 이전에 생각했던 것보다 좁을 수 있음을 시사한다. 만약 알리바바가 다른 아키텍처 접근 방식으로 OpenAI 및 Anthropic과 경쟁할 만한 결과를 낼 수 있다면, 이러한 기능들의 독점성은 예상보다 빠르게 약화될 수 있다.

둘째, 특정 컴퓨팅 패러다임에 초점을 맞춘 전문화된 모델이 주요 지표에서 범용 아키텍처를 능가할 수 있음을 나타낸다. 기업 애플리케이션을 위한 맞춤형 AI 솔루션을 개발하는 회사들은 더 범용적인 제품들을 잠재적으로 뛰어넘을 수 있다.

마지막으로, 이는 중국 기술 기업들의 AI 혁신 속도가 가속화되고 있음을 강조하며, 지정학적 복잡성에도 불구하고 글로벌 AI 생태계 전반에 걸친 투자 다각화가 현명할 수 있음을 시사한다.

시장 분석가들은 어떤 특정 모델이 궁극적으로 시장을 지배하든 관계없이 이점을 얻을 수 있는, 여러 모델 아키텍처를 배포할 수 있는 기업 AI 인프라를 개발하는 회사들을 주시할 것을 제안한다.

이 기사는 기술 발표 및 전문가 분석을 바탕으로 작성되었습니다. 투자자들은 투자 결정을 내리기 전에 스스로 조사를 수행하고 재무 상담사와 상의해야 합니다. AI 기업의 과거 실적이 미래 결과를 보장하지는 않습니다.