“더 느려지고 모호하게 똑똑해졌나?” - 제미니 2.5 프로 05-06, 정확도 및 성능 저하 문제로 파워 유저 반발 직면

"더 느리고, 막연하게 더 똑똑해졌다?" 전문가들, 정확도·성능 하락에 구글 Gemini 2.5 Pro에 반발

한때 개발자·데이터 과학자의 총애를 받던 구글 최신 플래그십 AI, 기술 커뮤니티에서 불만 폭발

밀리초가 중요하고 정확도가 선택 사항이 아닌 고도의 AI 개발 분야에서, 구글이 5월 6일 출시한 Gemini 2.5 Pro는—플래그십 모델의 큰 기대를 모았던 업그레이드—가장 까다로운 사용자들, 즉 전문 코더, 데이터 분석가, 기술 연구원들 사이에서 큰 실망을 안겨주었습니다.

출시 불과 24시간 만에 포럼과 개발자 채널은 불만으로 들끓었습니다. "심각한 지연"부터 "지시사항 망각"에 이르기까지, 초기 사용자들은 피상적인 예의와 처리 애니메이션 뒤에 숨겨진 명백한 퇴보라고 여기는 것에 대해 경고음을 울렸습니다.

Gemini 2.5 Pro 05-06 팩트 시트

기능	세부 정보
모델 이름	Gemini 2.5 Pro Preview 05-06
모델 ID	`gemini-2.5-pro-preview-05-06`
가격 (100만 토큰당)
입력 (≤20만 토큰)	$1.25
입력 (>20만 토큰)	$2.50
출력 (≤20만 토큰)	$10.00
출력 (>20만 토큰)	$15.00
최적 사용처	코딩, 추론, 멀티모달 이해
사용 사례	- 복잡한 문제 추론 - 어려운 코드, 수학, STEM 문제 해결 - 대규모 데이터셋/코드베이스/문서 분석
지식 차단 시점 (Knowledge Cutoff)	2025년 1월
초당 요청 수 제한 (Rate Limits)	- 150 RPM (유료) - 5 RPM / 하루 25 요청 (무료)

"더 많이 생각하고, 더 적게 말한다": 짜증나는 상호작용 변화

사용자들이 보고한 가장 일관되고 당혹스러운 변화 중 하나는 레이턴시의 급증입니다. 여러 전문가들은 Gemini 2.5 Pro가 이제 훨씬 더 긴 시간, 종종 이전 빌드보다 **2~4배 더 오래 "생각한다"**고 말했습니다. 이러한 지연은 새로운 패턴에 의해 더욱 심화됩니다: 모델이 가끔씩 *"13초간 생각했습니다"*와 같은 메시지를 표시하며, 느려진 속도를 정당화하려는 것처럼 보입니다.

하지만 그 기다림 끝에 나오는 결과물은 역설적이게도 덜 날카롭습니다.

익명을 요청한 한 금융 모델링 회사의 기술 리더는 "마치 자신감 버퍼링 중인 것 같아요,"라고 말했습니다. "더 오래 기다리는데, 나오는 건 더 피상적이에요. 특히 복잡한 문제를 다룰 때 분석적 깊이가 눈에 띄게 떨어졌어요."

이러한 변화는 중첩된 로직 흐름, 통계 모델링, 또는 정밀한 코드 리뷰 등 속도와 엄격함이 필수적인 분야에서 AI에 의존하는 전문 사용자들에게 특히 골치 아픈 문제입니다.

인지 능력 저하: 지시사항 이행 능력 타격

또 다른 비판의 대상은 전문적인 작업 흐름의 핵심 기능인 다자간 대화에서 지시사항을 따르는 Gemini 2.5 Pro의 저하된 능력입니다.

여러 사용자는 모델이 대화 도중 지시사항을 잊어버린다고 지적했으며, 심지어 한 응답에서 다음 응답으로 간단한 매개변수조차 전달하지 못한다고 말했습니다. 다른 사용자들은 모델이 **"기본 지시사항도 제대로 못 따른다"**거나, 더 나쁘게는 아예 무시한다는 것을 관찰했습니다.

한 기업 AI 엔지니어는 "한 번은 5개의 지시를 내렸는데, 2개에만 응답하고 나머지 3개는 잊어버렸어요,"라고 회상했습니다. "예전에는 그 요구사항들을 자연스럽게 통합해서 처리했어요. 지금은 신입 인턴과 일하는 것 같아요."

그리고 개발자들에게는 좌절감이 더욱 커집니다. Gemini는 특히 긴 결과물에서 코드 파일의 핵심 부분을 누락하는 것으로 알려졌습니다. 이로 인해 빌드 실패와 파이프라인 중단이 발생하며—이는 불편함을 넘어 운영 환경에서 비용이 발생할 수도 있는 결과입니다.

"이제 코드를 망가뜨린다": 퇴보의 해부

아마도 가장 심각한 우려는 코드 품질에 있습니다—Gemini 2.5 Pro가 통계적으로 OpenAI의 경쟁 모델보다 성능이 떨어지는 영역입니다.

LiveBench 지표에 따르면, Gemini는 코딩에서 72.87점을 기록했는데, 이는 OpenAI의 o3 미디엄 및 하이 버전의 훨씬 높은 성능과 비교됩니다. 수학 점수와 추론 능력은 경쟁력이 있지만, 이러한 강점은 기술 영역에서 모델의 불안정한 실행을 충분히 보완하지 못하고 있습니다.

한 개발자는 모델이 특정 블록을 수정하기보다는 기존 코드를 "훼손했다"고 묘사했으며, 요청된 정확하고 외과적인 수정 대신 광범위하고 해로운 수정을 가했다고 말했습니다. 또 다른 사용자는 Gemini가 "중첩된 if-else 테스트에서 8개의 건전성 검사 중 3개 정도만 통과했다"며, 이전 버전이 능숙하게 처리했던 명백한 논리적 경로를 놓쳤다고 지적했습니다.

이는 사소한 성능 저하가 아닙니다—한 리뷰어의 말처럼, "솔직히 말해서 이전 출시 버전보다 최소 50% 더 나빠졌다"는 것입니다.

"너무 예의 바르고, 위험하게 모호하다": 내용보다 형식의 문제?

많은 사람들이 Gemini 2.5 Pro 결과물의 눈에 띄는 어조 변화를 지적했습니다. 여러 리뷰어에 따르면, 이제 모델은 "더 예의 바르고, 더 장황하며, 더 회피적"입니다. 이러한 비판은 어조 그 자체에 대한 것이 아니라, 그 어조가 무엇을 숨기는지에 대한 것입니다.

베를린의 한 소프트웨어 아키텍트는 "초기 빌드는 무뚝뚝했지만 통찰력 있었습니다. 이번 빌드는 홍보팀 필터를 거친 것 같아요,"라고 말했습니다. "위험 분석을 요청하면 외교적인 에세이가 나옵니다. 모호하고 신중하며—단호한 결정이 필요할 때 기본적으로 쓸모없어요."

직설적이고 진단적인 명확성을 높이 평가하는 산업에서, Gemini의 부드러워진 결과물 스타일은 달갑지 않은 편집적 선택처럼 느껴지며—이는 유용성을 희생하면서 이루어졌습니다.

하드웨어 부하 및 업로드 오류: 기술적 한계 드러나

소프트웨어 성능 외에도 사용자들은 하드웨어 비효율성도 보고했습니다. Gemini의 로컬 GPU 사용률이 30% 수준에서 정체되어 있어, 예상되는 활용도에 훨씬 못 미칩니다. 이러한 병목 현상은 특히 복잡한 계산이나 다중 파일 작업 시 이미 느린 응답 시간을 더욱 악화시킵니다.

여러 사용자는 또한 장시간 사용 후 업로드 오류를 보고했는데—이는 새 빌드에서 메모리 누수 또는 불안정한 세션 처리를 시사할 수 있는 문제입니다.

수치가 거짓말은 안 하지만, 전부는 말해주지 않는다

겉보기에는 Gemini 2.5 Pro가 실패는 아닙니다. 글로벌 LiveBench 평균 점수 78.99점은 OpenAI의 o3 모델군 바로 뒤처지며, 강력한 범용 모델로서의 위치를 보여줍니다.

수학 및 추론 강점은 정량적 영역에서 유용하게 만들며, 통계적으로 보면 지시사항 이행도 꽤 잘합니다.

하지만 실제 고정밀 작업—특히 모호함의 여지가 전혀 없는 소프트웨어 엔지니어링 및 데이터 분석—에서는 이러한 수치가 덜 안심할 수 있습니다.

한 데이터 엔지니어는 "이 모델은 피상적인 작업만 하는 사용자에 맞춰 조정된 것 같습니다,"라고 말했습니다. "저 같은 사람들에게는 짜증나는 것을 넘어—위험합니다."

향수와 필요성 충돌: 사용자들은 이전 버전으로 돌아갈까?

아마도 가장 확실한 실망의 지표는 이전 Gemini 버전에 대한 갑작스러운 향수이며, 많은 사람들이 롤백 옵션을 요구하고 있다는 점입니다.

한 클라우드 인프라 회사의 개발자는 "동료들이 '이전 버전으로 돌아갈 수 있나요?'라고 말한 건 이번이 처음입니다. 구글은 이걸 걱정해야 할 겁니다,"라고 말했습니다.

그리고 실제로, Gemini 2.5 Pro가 이러한 궤적을 계속 유지한다면, 구글은 명백한 결정에 직면할 수 있습니다: 전문가들을 위한 성능을 우선시하거나, 일반 사용자 접근성 강화에 집중하거나.

다음은? Gemini의 갈림길

Gemini 2.5 Pro의 5월 출시를 둘러싼 불만은 단지 기술적 실수만을 의미하지 않습니다—이는 AI 개발의 더 깊은 긴장을 부각시킵니다: 더 넓은 사용자 안전 및 어조 개선의 균형을 명확성, 일관성, 제어를 요구하는 전문 사용자들의 요구와 어떻게 맞출 것인가.

경쟁사들이 빠르게 발전하고 사용자 기대치가 높아짐에 따라, 구글은 모델 근본 구조를 재조정하거나 더 민첩하고 날카로운 경쟁자들에게 시장 점유율을 잃을 위험을 감수하는 것 외에는 선택의 여지가 거의 없을 수 있습니다.

현재 코딩 및 계산 분야의 최전선에 있는 사람들은 예의주시하며—더 오래 생각하는 것이 아니라, 더 잘 생각하는 수정을 기다리고 있습니다.