중국 AI 코딩 모델 GLM-4.6, 실제 테스트에서 클로드 소넷 4 성능에 필적하며 월 3달러

중국의 GLM-4.6, 실리콘밸리 AI 코딩 우위 정조준… 비용은 극히 일부 수준

새 모델, 실제 코딩 작업에서 클로드 소네트 4에 필적하며 토큰 사용량을 30% 절감, 중국 AI에 글로벌 개발자 시장 진출 기회를 제공한다.

중국 AI 산업이 대담한 도전장을 내밀었다. 중국에서 가장 야심찬 AI 기업 중 하나인 지푸(Zhipu)는 최근 GLM-4.6을 출시했다. 이 코딩 전문 모델은 업계 평가에 따르면, 일상적인 프로그래밍 작업에서 앤스로픽(Anthropic)의 클로드 소네트 4(Claude Sonnet 4)에 필적하는 성능을 보인다. 놀라운 점은, 비용을 무려 85%까지 절감하면서 이를 달성했다는 것이다.

이번 출시는 수많은 신제품이 쏟아져 나온 9월 출시 시즌의 한가운데 이루어졌다. 이미 오픈AI(OpenAI)의 GPT-5 코덱스(Codex), 앤스로픽의 클로드 소네트 4.5, 딥시크(DeepSeek)의 V3.2가 시장에 출시된 바 있다. 벤치마크 점수 과시에 초점을 맞췄던 이전 경쟁과 달리, 이제 경쟁은 개발자들이 실제로 중요하게 생각하는 것, 즉 저렴하면서도 작업을 완수하는 도구로 이동하고 있다.

고개를 끄덕이게 하는 성능

GLM-4.6을 테스트하기 위해 지푸는 클로드 코드(Claude Code) 개발 환경 내에서 74가지 실제 코딩 과제를 설정했다. 그리고 검증을 위해 허깅페이스(Hugging Face)에 결과를 공개했다. 결과는 많은 이들을 놀라게 했다. GLM-4.6은 여러 작업에서 클로드 소네트 4를 능가했을 뿐만 아니라, 다른 모든 중국 경쟁자들을 훨씬 뒤처지게 했다.

이 과제들은 단순히 건조한 학술적 벤치마크가 아니었다. 대신 사용자 인터페이스 구축, 문서 처리 자동화, 데이터 중심 대시보드 생성과 같은 실제 개발자들이 겪는 골칫거리를 모방했다.

가장 눈에 띄는 테스트 중 하나는 모델에 64페이지 분량의 오픈AI 연구 논문을 깔끔한 한 페이지짜리 HTML 인포그래픽으로 압축하도록 요청했다. 평가자들은 결과물을 "견고하고 잘 구성되어 있다"고 평했다. 클로드 소네트 4.5의 결과물만큼 시각적으로 세련되지는 않았지만, 훨씬 더 비싼 모델들을 능가했다.

또 다른 테스트에서는 모델이 애니메이션과 풍부한 그래픽을 포함하는 "2024년 골든 위크 관광" 데이터 대시보드를 구축했다. 독립적인 검토자들은 GLM-4.6의 성능이 클로드 소네트 4.5와 동등하다고 밝혔다. 이는 세련되고 기능적인 대시보드에 의존하는 모든 기업에 있어 큰 성과이다.

하지만 모든 것이 완벽했던 것은 아니다. 널리 사용되는 코딩 벤치마크인 SWE-벤치 베리파이드(SWE-bench Verified)에서는 GLM-4.6이 68%를 기록하며 딥시크 V3.2와 동률을 이뤘지만, 클로드 소네트 4.5의 77.2%에는 미치지 못했다.

효율성: 비밀 병기

GLM-4.6이 진정으로 빛을 발하는 부분은 효율성이다. 이전 버전인 GLM-4.5보다 약 30% 적은 토큰을 소비한다. 추론 작업의 경우, 감소폭은 훨씬 더 크다. 16,000 토큰에서 9,000 토큰으로 줄어들었다. 이는 시장에서 가장 효율적인 중국 추론 모델이 되었다.

응답 시간은 약 35초로, 더 빠른 "2군(second-tier)" 모델들 사이에 포함될 만큼 충분히 빠르다.

CTOL.digital의 한 엔지니어링 팀원은 "개발자들은 더 이상 리더보드 챔피언만을 원하지 않습니다. 실제 대화를 처리하고, 도구와 연동되며, 예산을 낭비하지 않는 모델을 원합니다."라고 말했다. GLM-4.6은 이러한 요구사항을 충족하는 것으로 보인다.

시장을 뒤흔드는 가격

효율성은 곧 비용 절감을 의미하며, 지푸는 이를 사용자에게 돌려주고 있다. GLM 코딩 플랜은 이제 월 20위안(약 3달러)부터 시작한다. 이는 경쟁사 비용의 약 7분의 1 수준이다. 이 플랜은 매월 "수백억에서 수천억" 개의 토큰을 제공하며, 대부분의 전업 개발자에게 충분히 관대한 할당량이다.

또한, 이 구독 플랜에는 비전 인식, 검색 기능, 그리고 클로드 코드, 루 코드(Roo Code), 클라인(Cline)과 같은 도구와의 플러그 앤 플레이(plug-and-play) 통합 기능이 포함되어 있다. 개발자들에게 이 가치 제안은 간단하다. 거의 클로드 4 수준의 성능을 매우 저렴한 가격에 누릴 수 있다는 것이다.

기술적 개선과 타협점

지푸는 단순히 가격만 조정한 것이 아니다. GLM-4.6은 컨텍스트 윈도우를 128,000 토큰에서 200,000 토큰으로 확장하여 딥시크 V3.2의 128,000 토큰을 능가한다. 이를 통해 방대한 코드베이스나 긴 문서를 한 번에 처리할 수 있다.

이 모델은 또한 이전 버전에 비해 더 강력한 명령어 이해, 향상된 산술 능력, 그리고 더 깔끔한 언어 출력을 보여준다. 하지만 주의할 점도 있다. 다양한 프로그래밍 언어에서 구문 오류가 GLM-4.5의 5.5%에 비해 13%로 급증했다. Go 언어로 작업하는 개발자들은 이를 특히 더 체감할 것이다.

또 다른 특이점도 있다. 길고 복잡한 추론 작업에서 GLM-4.6은 때때로 답을 강제로 찾아내기보다는 일찍 작업을 중단하는 경향이 있다. 검토자들은 이를 "양보 경향(concession tendency)"이라고 불렀는데, 이는 공격적인 토큰 최적화의 대가일 가능성이 높다.

더 큰 그림: 칩 주권

이면에는 훨씬 더 큰 전략적 중요성을 지닌 요소, 즉 칩 독립(chip independence)이 자리 잡고 있다. GLM-4.6은 캠브리콘(Cambricon) 칩에서 FP8+Int4 혼합 정밀도 추론을 실행하는 최초의 상용 모델이다. 또한 vLLM을 사용하여 무어 스레드(Moore Threads) 하드웨어에서 FP8로 네이티브 실행된다.

이러한 최적화가 유지된다면, 중국 기업들은 마침내 엔비디아(NVIDIA) GPU에 대한 의존도를 낮출 수 있을 것이다. 이는 미국의 수출 규제를 고려할 때 핵심적인 취약점이었다. CTOL.digital 엔지니어링 팀이 요약했듯이, "학습과 추론 모두 국내 칩에서 원활하게 실행된다면, 중국은 더욱 자율적인 AI 스택을 구축하게 될 것입니다."

치열해지는 경쟁

9월에 쏟아진 모델 출시는 AI 코딩 경쟁이 얼마나 치열해졌는지를 여실히 보여준다. 딥시크 V3.2는 API 가격을 절반 이상 인하했다. 오픈AI의 GPT-5 코덱스는 비용 절감을 위해 "사고(thinking)" 토큰 트리밍을 도입했다. 앤스로픽의 클로드 소네트 4.5는 복잡한 추론에서 한 발 앞서 나갔다.

한때 추종자로 치부되던 중국 기업들은 이제 세계적인 주목을 받는 방식으로 혁신하고 있다. GLM-4.6의 효율성, 칩 통합, 그리고 저렴한 가격의 조합은 우연이 아니다. 이는 전 세계 개발자들을 사로잡기 위한 분명한 전략의 일부이다.

이 모델은 이미 서비스되고 있다. 해외 사용자는 z.ai에서, 중국 사용자는 bigmodel.cn에서 찾을 수 있으며, 오픈소스 버전은 허깅페이스와 모델스코프(ModelScope)에서 출시되고 있다. 소비자 채팅 앱과 기업용 API도 이를 출시하고 있다.

개발자들의 반응

실제 사용 후기는 고무적이다. 개발자들은 더 부드러운 프론트엔드 생성, 적은 지연, 그리고 Vue 3와 같은 최신 프레임워크에서 오래된 프로젝트의 빠른 재구축을 보고하고 있다. 일부 개발자들은 데이터 스크랩 및 로컬 문서 생성을 원활하게 수행하는 완전한 도구 활용 에이전트까지 구축했다.

프론트엔드 시나리오에서 GLM-4.6은 클로드 4와 대등하거나 심지어 능가하는 경우가 많다. 하지만 클로드 소네트 4.5는 고강도 추론 및 장문 문서 작업에서 여전히 우위를 유지하고 있다.

결론

오늘날의 AI 환경에서는 단순히 '강력한 성능'만이 전부는 아니다. 배포 전략, 효율성, 그리고 비용이 그만큼 중요해졌다. GLM-4.6은 이 세 가지 균형을 모두 잡았다. 이 모델이 절대적으로 최고의 성능을 보이는 것은 아니지만, 대부분의 경우 충분히 근접하며 훨씬 저렴하다.

많은 개발자들에게 이러한 조합은 거부할 수 없을 것이다. 한 분석가는 이를 "가장 실용적인 국내 코딩 모델"이자 서구 제품에 대한 믿을 만한 도전자로 평가했다.

이것이 중국의 장기적인 경쟁력의 시작을 알리는 것인지 아니면 일시적인 우위에 불과한지는 지켜봐야 한다. 하지만 한 가지는 분명하다. 2025년 10월, GLM-4.6은 개발자들이 최첨단 AI 코딩에 대해 얼마를 지불해야 할지에 대한 논의를 변화시켰다.