구글의 제미니 3: 구현 결함에 발목 잡힌 최고 수준 AI 모델

구글 제미니 3: 최고 수준의 AI 모델, 그러나 구현 결함으로 발목 잡혀

내부 엔지니어링 평가 결과: 최첨단 기능에도 불구하고 도구 호출 실패와 엄격한 안전 필터로 인해 한계 드러나

ctol.digital 엔지니어링 팀의 내부 평가에 따르면, 구글의 제미니 3는 벤치마크에서 GPT-5.1보다 우위에 있다고 평가되지만, 실제 배포를 제한하는 심각한 사용성 문제가 문서화되었다.

제미니 3가 2025년 11월 중순에 출시된 후 실시된 이 평가는, 해당 모델이 "AGI(범용 인공지능)에 한 걸음 더 다가섰다"고 결론 내리며 1등급 시스템으로 분류했다. 그러나 같은 보고서는 특정 프로덕션 워크플로우에서는 "완전히 사용할 수 없게" 만드는 근본적인 문제점들을 지적했다.

벤치마크 우위

제미니 3는 LMArena 및 ARC-AGI 벤치마크에서 새로운 최첨단 결과를 달성했으며, 수학, 논리, 다중 모달 이해 및 코딩 작업 전반에서 GPT-5.1과 클로드 소네트 4.5와 같거나 능가했다. 평가자들은 이 모델이 경쟁사보다 우수한 "세계 지식"을 보여주며 더 낮은 환각 현상 발생률을 보인다고 설명했다.

이 시스템의 다중 모달 기능, 특히 비디오, UI, 화면 이해 능력은 중요한 발전을 나타낸다. 100만 토큰 컨텍스트 윈도우는 제미니 2.5 프로보다 더 나은 토큰 효율성을 제공하면서 더 높은 지능을 유지하며, 이는 GPT-5보다 토큰당 가격은 높지만, 긴 컨텍스트 애플리케이션에 더 비용 효율적이다.

평가자들은 진정한 공간 추론 능력과 경쟁 모델보다 적은 토큰으로 "인간 직관과 유사한" 문제 해결 능력을 강조했다. Vending-Bench 2에서 제미니 3는 에이전트 워크플로우를 통해 1년 동안 비즈니스를 운영하는 것을 성공적으로 시뮬레이션했다.

치명적인 구현 결함

이 평가는 반복적인 도구 호출 실패를 문서화했으며, 이는 UNEXPECTED TOOL CALL 오류를 발생시키고 API 제약 조건을 위반한다. 이 모델은 우아한 오류 복구 및 재계획 메커니즘이 부족하여, 프로덕션 시스템의 근본적인 요구 사항인 "API 도구 실행에 신뢰할 수 없다"고 평가되었다.

안전 필터가 상당히 강화되어 모델이 이전 버전보다 "훨씬 엄격"해졌고 사용 사례를 제한한다. 평가자들은 이 필터로 인해 특정 합법적인 요청조차 "완전히 사용할 수 없게" 만든다고 보고했다.

성능 문제에는 실제 환각보다 더 자주 발생하는 문체 오류(어색한 표현과 부적절한 비유)가 포함된다. 이 모델은 계산 정확도에서 GPT-5보다 떨어지며, 종종 소수점 정밀도를 놓치거나 잘못된 수학적 결과를 생성한다. 장문 핵심 데이터 추출은 70%의 성공률에 그친다.

속도는 또 다른 트레이드오프를 나타낸다. 사용자는 빠른 응답(제미니 플래시) 또는 심층 추론(제미니 프로) 중 하나를 선택해야 하며, 프로 버전은 표준 채팅 상호작용에서 제미니 2.5 프로보다 느리다고 인식된다.

구글의 제미니 3: 구현 결함에 발목 잡힌 최고 수준 AI 모델

구글 제미니 3: 최고 수준의 AI 모델, 그러나 구현 결함으로 발목 잡혀

벤치마크 우위

치명적인 구현 결함

생태계 약점

개발자 가이드 및 접근성

시장 시사점

당신도 좋아할지도 모릅니다

뉴스레터 구독하기