구글의 제미니 2.5 프로 06-05, 6월 업데이트서 성능 저하...비밀 킹폴 모델 우연히 공개

구글 AI의 난항: 제미니 2.5 프로 06-05 출시로 역풍…베일에 싸인 'Kingfall' 모델 등장에 이목 집중

구글의 인공지능 부문은 현재 격동의 시기를 겪고 있다. 최신 제미니 2.5 프로 06-05 버전이 이전 버전에 비해 저조한 성능을 보여 광범위한 개발자들의 비판을 촉발했기 때문이다. 동시에 'Kingfall'이라는 코드명의 베일에 싸인 모델이 유출되어 회사의 AI 전략을 재편할 잠재적인 게임 체인저로 떠오르고 있다.

2025년 6월 5일 출시된 제미니 2.5 프로 프리뷰 06-05는 개발자 커뮤니티로부터 날카로운 비판을 받고 있다. 포괄적인 벤치마크 데이터에 따르면, 교체된 5월 6일 모델에 비해 여러 핵심 지표에서 상당한 성능 저하가 나타났다. LiveBench.ai 평가에 따르면, 새 모델의 전역 평균 점수는 71.99에서 69.39로 떨어져 전반적인 기능의 우려스러운 감소를 보였다.

알고 계셨나요? 구글의 보도자료에 따르면, 구글의 제미니 2.5 프로 프리뷰(2025년 6월 5일 출시)는 최고 수준의 산업 벤치마크에서 최첨단 성능을 자랑하며, LMArena(1470 Elo) 및 Aider Polyglot(86.2%)에서 뛰어난 결과를 보였습니다. 개발자를 위한 "사고 예산(thinking budgets)"과 같은 혁신적인 기능을 특징으로 하며, 구글의 가장 지능적인 모델로 극찬받고 있습니다. 하지만 이러한 인상적인 지표에도 불구하고, 많은 사용자들(저희를 포함하여)은 코딩 신뢰성, 문맥 유지, 응답 품질 등 실사용에서의 성능 부족을 발견했습니다. 이는 AI에서 반복적으로 나타나는 긴장감을 보여줍니다: 선도적인 벤치마크 점수가 항상 만족스러운 사용자 경험으로 이어지는 것은 아닙니다. 또한, 이는 어떤 벤치마크가 효과를 잃었는지에 대한 좋은 통찰력을 제공합니다.

업그레이드가 다운그레이드가 될 때: 숫자가 말해주는 냉정한 현실

성능 저하는 기업 사용자 및 개발자에게 가장 중요한 여러 핵심 영역에 걸쳐 나타난다. 가장 극적으로는 에이전트 코딩(agentic coding) 기능이 30.00에서 13.33으로, 무려 56%나 폭락하여 많은 자동화된 코딩 워크플로우를 망가뜨렸다. 수학 성능 또한 88.63에서 83.33으로 하락했으며, 실용적인 AI 배포의 초석인 지시 따르기(instruction following)는 83.50에서 78.54로 떨어졌다.

한 AI 연구원은 "에이전트 코딩의 퇴보는 특히 우려스럽습니다. 이는 기업 애플리케이션에 필수적인 복잡하고 다단계 프로그래밍 작업을 처리하는 모델의 능력에 영향을 미치기 때문입니다"라고 지적했다.

기술 커뮤니티는 단순 수치를 넘어선 품질 문제에 대해 특히 목소리를 높이고 있다. 개발자들은 코드 출력에서 환각(hallucinations) 현상이 증가했다고 보고하는데, 모델이 존재하지 않는 함수나 변수를 이전보다 더 자주 만들어낸다는 것이다. 다중 파일 코딩 프로젝트와 점진적인 코드 수정은 현저히 신뢰성이 떨어져, 많은 팀이 이전 5월 버전으로 되돌아가야만 했다.

개발자들의 반발: 커뮤니티의 압박 심화

사용자 피드백은 성능 지표를 넘어선 여러 중요한 문제점을 중심으로 모였다. 모델의 문맥 유지(context retention) 기능은 현저히 저하되었으며, 긴 세션 동안 대화 기록을 유지하거나 사용자 지시를 기억하는 데 빈번한 실패를 보였다. 이러한 불안정성은 세부 사항에 대한 지속적인 주의가 필요한 복잡한 워크플로우에 특히 문제가 되는 것으로 입증되었다.

기대했던 "맥스 씽킹(Max Thinking)" 모드는 향상된 추론 능력으로 홍보되었지만, 기대를 충족시키지 못했다. 사용자들은 이 모드가 의미 있는 더 나은 결과를 제공하지 않으면서 속도가 느리다고 묘사하며, 일부는 표준 모드보다 오히려 정확도가 떨어지는 결과물을 생성한다고 보고한다.

한 기업 AI 컨설턴트는 "새로운 버전은 장황하지만 내용이 얕다는 느낌을 줍니다. 더 많은 단어를 생성하지만, 실행 가능한 통찰력은 거의 제공하지 않으며, 이는 기업 고객이 필요로 하는 것과는 정반대입니다"라고 말했다.

인터페이스 변경은 사용자층을 더욱 좌절시켰는데, 핵심 기능이 중첩된 메뉴에 숨겨져 있고 사용자 지정 옵션이 줄어들어 기존 워크플로우를 방해하고 있다. 성능 저하와 사용성 문제의 결합은 일부 사람들이 구글의 AI 개발 궤적에 대한 신뢰 위기라고 묘사하는 상황을 만들어냈다.

Kingfall의 수수께끼: 우연히 엿본 구글의 미래

이러한 논란 속에서, 6월 초 구글 AI 스튜디오를 통해 약 20분간 유출된 'Kingfall'이라는 이름의 기밀 구글 모델이 AI 커뮤니티의 상상력을 사로잡았다. 의도적인 마케팅이든 진정한 실수든 간에, 이 짧은 유출은 제미니 2.5 프로의 현재 한계와 극명하게 대조되는 능력을 드러냈다.

Kingfall은 약 65,000 토큰의 컨텍스트 창으로 텍스트, 이미지 및 파일을 처리하는 정교한 멀티모달 능력을 보여준다. 가장 흥미로운 기능은 복잡한 문제에 대해 자원 집약적인 단계별 추론을 가능하게 하는 구성 가능한 '사고 예산'이다. 초기 테스터들은 단일 HTML 파일로 기능적인 마인크래프트 복제본과 같은 정교한 애플리케이션을 생성하는 것을 포함하여 코딩 작업에서 탁월한 성능을 보고했다.

이 모델의 SVG 생성 능력은 앤트로픽(Anthropic)의 클로드 4(Claude 4)마저 능가한다고 보고되었으며, 디버깅 및 다단계 논리 처리 능력은 짧은 노출 기간 동안 이에 접근했던 소수의 그룹으로부터 칭찬을 받았다. 이러한 능력은 Kingfall이 제미니 2.5 프로의 완전한 버전이거나 완전히 새로운 기업 중심의 변형 모델임을 시사한다.

전략적 함의: 구글의 AI 체스 게임

AI 환경이 점점 더 경쟁이 심화됨에 따라, 이러한 발전의 시기는 상당한 전략적 중요성을 가진다. 구글은 신속한 반복 개발의 필요성과 품질 유지의 절박함 사이에서 곤란을 겪고 있는 것으로 보이며, 6월 5일 출시로 인해 이 균형이 분명히 불리하게 기울어졌다.

업계 분석가들은 Kingfall 유출이 OpenAI의 예상되는 o3 Pro 출시에 대한 구글의 대응일 수 있으며, 기업 시장에서 고급 추론 능력을 핵심 차별점으로 내세우려는 움직임이라고 시사한다. 이 모델의 아키텍처는 자동화 및 비즈니스 프로세스 최적화에 대한 의도적인 초점을 암시하며, 이 분야에서의 수요는 계속 급증하고 있다.

그러나 현재의 제미니 2.5 프로 성능 저하는 구글의 개발 및 테스트 프로세스에 대한 의문을 제기한다. 여러 지표에서 나타난 상당한 성능 하락은 부적절한 검증 절차 또는 사용자에게 인기가 없는 의도적인 트레이드오프(trade-offs)를 시사한다.

시장 역학 및 경쟁 위치

AI 모델 시장은 점차 파편화되어 가고 있으며, 각기 다른 제공업체들이 특정 영역에서 두각을 나타내고 있다. 구글의 현재 곤경은 고급 추론 및 멀티모달 처리와 같은 신흥 능력의 한계를 넘어서면서도 광범위한 역량을 유지하는 데 따르는 어려움을 강조한다.

연간 1,500억 달러(약 200조 원) 이상의 가치를 지니며 연간 40%씩 성장하는 기업 AI 시장은 신뢰성과 일관성에 특히 민감하다. 구글의 예상치 못한 모델 업데이트 및 엔드포인트 변경에 대한 명성은 이미 기업 고객들 사이에 경계심을 불러일으켰으며, 현재의 성능 저하는 특히 더 큰 손상을 입히고 있다.

투자 전망: AI 시장 변동성 헤쳐나가기

제미니 2.5 프로와 Kingfall의 엇갈리는 궤적은 AI 중심 포트폴리오에 복잡한 투자 환경을 제시한다. 구글의 제미니 2.5 프로에서의 즉각적인 실책이 단기적인 성과에 압박을 가할 수 있지만, Kingfall이 보여준 고급 능력은 제대로 실행될 경우 상당한 시장 판도 변화의 잠재력을 시사한다.

투자자들은 구글의 방대한 컴퓨팅 인프라와 연구 능력이 이러한 좌절에서 상대적으로 빠르게 회복할 수 있는 위치에 있다고 판단할 수 있다. 역사적 패턴은 주요 AI 제공업체들이 획기적인 개선을 달성하기 전에 일시적인 퇴보를 겪는 경우가 많다는 것을 시사하므로, 현재의 약세는 장기적인 투자 관점에서 잠재적으로 매력적일 수 있다.

기업 AI 시장의 지속적인 확장과 멀티모달 및 추론 가능한 모델에 대한 수요 증가는 신뢰할 수 있는 고급 기능을 제공할 수 있는 제공업체에게 유리하게 작용할 수 있다. 구글의 과제는 Kingfall이 보여준 혁신과 기업 채택에 필요한 안정성을 조화시키는 데 있다.

시장 참여자들은 현재 비판에 대한 구글의 대응 시점, Kingfall에 대한 공식 발표 전략, 그리고 개발 또는 테스트 절차의 변경 사항을 주시해야 한다. 현재의 우려를 해결하는 동시에 Kingfall의 잠재력을 활용하는 회사의 능력은 급변하는 AI 환경에서 경쟁적 위치를 결정할 수 있다.

**AI 모델 개발의 과거 성과는 미래 결과를 보장