Anthropic, Claude Sonnet 4.5 공개: 더 빠르고 스마트해졌지만 코딩 경쟁에서는 여전히 2위

앤트로픽, 클로드 소네트 4.5 공개: 더 빠르고 스마트하지만 코딩 경쟁에서는 여전히 2위

새로운 LLM은 길고 복잡한 작업 및 코딩 지원에서 상당한 진전을 보였지만, 가장 어려운 문제에서는 여전히 GPT-5 코덱에 미치지 못한다.

샌프란시스코 — 앤트로픽(Anthropic)은 월요일(현지 시각) 자사의 최신 AI 모델인 클로드 소네트 4.5(Claude Sonnet 4.5)를 과감한 주장과 함께 공개했다. 앤트로픽은 이 모델을 *“세계 최고의 코딩 모델”*이라고 불렀지만, 면밀히 살펴보면 다른 이야기가 드러난다. 이 모델이 이전 버전보다 더 빠르고 유연한 것은 사실이다. 하지만 독립적인 테스트에 따르면, 전문 개발자들에게 가장 중요한 핵심 영역에서 여전히 오픈AI(OpenAI)의 GPT-5 코덱(Codex)에 미치지 못하는 것으로 나타났다.

이번 출시는 소네트 4(Sonnet 4) 공개 이후 불과 4개월 만에 이루어졌으며, AI 기업들이 서로를 능가하기 위해 얼마나 빠르게 경쟁하는지를 상기시켜 준다. 앤트로픽과 오픈AI는 이제 거의 분기마다 주요 업데이트를 발표한다. 관측통들은 앤트로픽이 오픈AI를 견제하기 위해 발표 시기를 조절하는 경우가 많다고 지적했다. 예를 들어, 앤트로픽의 오푸스 4.1(Opus 4.1)은 8월 GPT-5 출시 직전에 공개되었다.

속도뿐 아니라 '지구력'에 중점

앤트로픽은 '지구력'에 크게 투자하고 있다. 회사 자체 테스트에 따르면, 소네트 4.5는 30시간 이상 연속적으로 복잡한 코딩 프로젝트를 집중력을 잃지 않고 수행할 수 있다. 이는 장시간 작업 중 종종 집중력을 잃던 이전 모델들에 비해 큰 진전이다.

수치도 이를 뒷받침한다. 실제 소프트웨어 엔지니어링 성능을 측정하는 벤치마크인 SWE-bench Verified에서 소네트 4.5는 이전 앤트로픽 모델 중 가장 높은 점수를 기록했다. AI가 전체 컴퓨터 시스템을 얼마나 잘 다루는지를 테스트하는 OSWorld에서는 6월 42.2%에서 오늘날 61.4%로 상승했다.

실제 적용에서 이는 이 모델이 단순히 코드를 작성하는 것 이상을 할 수 있다는 것을 의미한다. 앤트로픽의 크롬 확장 프로그램을 사용하여 웹 브라우저를 탐색하고, 스프레드시트를 작성하며, 심지어 긴 온라인 양식도 작성할 수 있다. 개발자들은 또한 Git 없이 진행 상황을 저장할 수 있는 클로드 코드(Claude Code)의 체크포인트 기능, 더욱 매끄러운 터미널, 내장된 비주얼 스튜디오 코드(Visual Studio Code) 통합과 같은 새로운 도구들을 얻는다.

현실적인 평가

CTOL.digital 엔지니어링 팀의 엔지니어들은 풀 리퀘스트 검토, 디버깅, 다중 파일 프로젝트 처리와 같은 일상적인 작업에서 소네트 4.5의 속도와 신뢰성을 칭찬했다. 특히 체크포인트 기능은 많은 호평을 받았다.

하지만 더 어려운 문제에 도전했을 때 '밀월 기간'은 끝났다. 복잡한 프런트엔드 작업에서 이 모델은 어려움을 겪었다. 어떤 경우에는 프로젝트의 기존 구조나 인증 설정을 무시하여, 개발자들이 원치 않는 방식으로 앱을 손상시킬 수 있었다.

우리 엔지니어링 팀의 한 엔지니어는 “일상적인 코딩 작업에는 탁월합니다”라고 설명했다. “하지만 심층적인 논리 퍼즐이나 까다로운 프로덕션 버그에 직면했을 때는 여전히 GPT-5 코덱이 우리의 첫 번째 선택입니다.”

결론은? 많은 팀원들이 두 가지 모델 시스템을 운영하고 있다. 소네트 4.5는 일상적인 작업을 위해 사용하고, 어려운 작업은 GPT-5에 맡기는 식이다. 이러한 접근 방식은 앤트로픽이 격차를 좁힐 때까지 비용과 생산성 균형을 맞출 수 있다.

에이전트 미래를 위한 기반 다지기

모델 자체 외에도 앤트로픽은 더 큰 무언가를 위한 기반을 조용히 다지고 있다. 회사는 클로드 코드(Claude Code)의 기반이 되는 동일한 툴킷인 클로드 에이전트 SDK(Claude Agent SDK)를 최근 출시했다. 이를 통해 개발자들은 장기 실행 작업, 권한 관리, 여러 하위 에이전트 간의 조정을 처리할 수 있는 자율 에이전트를 구축할 수 있다.

앤트로픽은 또한 프리미엄 사용자를 대상으로 5일간의 “클로드와 상상하기(Imagine with Claude)” 데모를 운영하고 있다. 이 데모에서 소네트 4.5는 실시간으로 스크립트 없이 작동하는 실제 소프트웨어를 처음부터 구축한다. 실험으로 포지셔닝되었지만, 이는 앤트로픽이 코딩 보조 도구를 넘어 완전한 AI 협업자로 나아가려는 야망을 암시한다.

가격은 백만 입력 토큰당 3달러, 백만 출력 토큰당 15달러로 동일하게 유지되어, 경쟁사들이 요금을 인하하는 동안에도 클로드는 프리미엄 티어에 확고히 자리 잡고 있다.

안전성, 여전히 최우선

앤트로픽은 정렬(alignment)을 잊지 않았다. 소네트 4.5는 아첨, 기만 또는 기타 위험한 행동의 징후가 적어 지금까지 출시된 모델 중 가장 안전한 것으로 평가된다. 또한 이전보다 프롬프트 인젝션 공격에 더 잘 저항하며, 이는 실제 시스템 내에서 에이전트가 작동할 때 매우 중요하다.

이 모델은 무기 개발과 관련된 위험한 입력을 감지하는 필터를 포함하여 AI 안전 수준 3(AI Safety Level 3) 보호 기능을 갖추고 출시된다. 이러한 필터가 때로는 무해한 자료를 차단하기도 하지만, 앤트로픽은 오탐(false alarms)이 이전 버전에 비해 10분의 1로 줄었다고 밝혔다.

사방에서 오는 압력

이번 출시 이후 앤트로픽의 생존은 덜 위태로워 보이지만, 위협은 여전히 존재한다. 이미 최고의 코딩 LLM이라는 왕관 보석 같은 위치를 잃었으며, 가장 어려운 문제들은 이제 GPT-5 High/Pro로만 해결할 수 있다. 현재 앤트로픽은 가격과 일상적인 사용 사례에서만 경쟁할 수 있다. 만약 제미니 3(Gemini 3)가 코딩 성능에서 소네트 4.5를 능가하면서도 더 저렴하다면(파레토 최적을 유지한다면), 앤트로픽은 심각한 어려움에 처할 수 있다. 지금까지 앤트로픽 모델의 가장 큰 장점은 일상적인 코딩 작업에 있었기 때문이다.

투자자 유의사항

투자자들에게 보내는 메시지는 분명하다. 대규모 언어 모델(LLM) 시장은 빠르게 성숙하고 있다. 이제 수익은 점진적이며, 진정한 차별화는 조만간 순수한 성능이 아닌 통합, 생태계 종속 또는 산업별 미세 조정에서 나올 수 있다.

한편, 개발자들은 단일 공급업체에만 의존하지 않을 가능성이 높다. 더 현명한 움직임은 작업에 따라 여러 모델을 혼합하여 사용하는 것이다. 이는 모델 개발사의 수익을 압박할 수 있지만, 그 위에 오케스트레이션 도구를 구축하는 회사들에게는 기회를 창출할 수 있다.

기반 모델(foundation models)만 판매하는 기업들에게 위험이 가장 크다. 기능이 수렴되고 고객들이 쉽게 전환함에 따라, 운영 비용이 줄어들기 훨씬 전에 가격 결정력이 무너질 수 있다. 막대한 자금력과 클라우드 번들을 보유한 하이퍼스케일러(hyperscalers)들은 이러한 추세를 가속화할 수 있다.

면책 조항: 이 기사는 현재 시장 상황과 패턴을 반영합니다. 과거의 결과가 미래의 성과를 보장하지 않습니다. 독자들은 투자 결정을 내리기 전에 독립적인 금융 자문을 구해야 합니다.