씽킹 머신즈 연구진, 언어 모델이 동일 질문에 다른 답변 내놓는 이유 해결했지만 60% 성능 저하 수반

AI 연구원들, 거대 언어 모델의 오랜 재현성 위기 해결

새로운 기술은 AI 응답에서 완벽한 일관성을 달성했지만, 성능 상충 관계와 연구 우선순위에 대한 의문을 제기합니다.

2025년 9월 11일 — 씽킹 머신스 랩(Thinking Machines Lab)의 한 팀이 인공지능 분야의 가장 고질적인 기술적 난제 중 하나, 즉 거대 언어 모델이 동일한 입력에 대해, 심지어 결정론적인 조건이라고 알려진 상황에서도 동일한 출력을 생성하지 못하는 문제에 대한 연구를 발표했습니다.

"LLM 추론의 비결정성 해결(Defeating Nondeterminism in LLM Inference)"이라는 제목으로 상세히 설명된 이 연구는 AI 비일관성의 근본 원인을 파악하고 완벽한 재현성을 달성하는 해결책을 제시합니다. 비록 상당한 계산 비용이 수반되기는 하지만 말입니다. 이 연구 결과는 이것이 근본적인 돌파구인지 아니면 틈새 문제를 다루는 정교한 엔지니어링인지에 대한 AI 커뮤니티 내 논쟁을 불러일으켰습니다.

진정한 범인 밝혀내기

수년 동안 연구원들은 AI 비결정성의 원인을 부동 소수점 연산과 병렬 GPU 처리의 조합으로 돌렸지만, 씽킹 머신스 팀은 이 설명을 체계적으로 반박했습니다. 그들은 세심한 실험을 통해 개별 행렬 연산이 실제로 실행 전반에 걸쳐 결정론적임을 입증했습니다.

그들이 발견한 진정한 원인은 "배치 불변성(batch invariance)"에 있습니다. 즉, AI 시스템이 처리 효율성을 위해 사용자 요청을 그룹화하는 방식입니다. RMSNorm, 행렬 곱셈 및 어텐션 메커니즘과 같은 핵심 연산은 배치 크기에 따라 내부 계산 전략을 변경하여, 서버 부하에 따라 동일한 입력에 대해 다른 결과를 생성합니다.

"동일한 질문이 수학적 부정확성 때문이 아니라 얼마나 많은 다른 사용자가 동시에 요청을 제출했는지에 따라 다른 답변을 내놓을 수 있다"고 연구는 설명합니다. 이 발견은 겉으로는 동일해 보이는 AI 쿼리가 관련 없는 계산 컨텍스트에 어떻게 의존하게 되는지를 보여줍니다.

결정론적 해결책 설계

이러한 한계를 수용하는 대신, 연구팀은 배치 크기에 관계없이 일관된 동작을 유지하는 수정된 계산 루틴인 "배치 불변 커널(batch-invariant kernels)"을 설계했습니다. 이 해결책은 세 가지 근본적인 연산을 재구상해야 했습니다.

RMSNorm: 모든 배치 크기에 걸쳐 일관된 데이터 병렬 감소 전략을 구현하여, 배치 차원에 따라 달라지는 성능 최적화 "분할 감소(split-reduction)" 접근 방식을 피합니다.

행렬 곱셈: 입력 크기에 따라 동적으로 조정되는 "Split-K" 전략을 제거하고, 대신 일관된 타일 크기를 가진 고정 커널 구성을 사용합니다.

어텐션 메커니즘: 가장 복잡한 수정 사항으로, 가변 분할 대신 고정 분할 크기 전략을 포함하여 시퀀스 길이에 관계없이 동일한 감소 패턴을 보장합니다.

상당한 비용을 동반한 놀라운 결과

2,350억 개의 매개변수 모델에 대한 테스트는 극적인 결과를 낳았습니다. 표준 vLLM 구현은 1,000개의 동일한 요청에서 80개의 고유한 결과물을 생성했습니다. 배치 불변 접근 방식은 완벽한 재현성을 달성했으며, 1,000개의 모든 결과물이 비트 단위로 동일했습니다.

그러나 이러한 결정론은 최적화된 구현에 비해 약 60% 증가한 지연 시간이라는 상당한 계산 비용을 수반했습니다. 연구원들은 그들의 구현이 아직 최적화되지 않았음을 인정하지만, 이러한 성능 저하는 실제 배포 시나리오에 대한 의문을 제기합니다.

강화 학습의 돌파구

이 연구의 가장 중요한 기여는 강화 학습 애플리케이션에 있을 수 있습니다. 연구팀은 추론(inference)과 훈련(training) 단계 간의 수치적 발산이 암묵적으로 온-정책(on-policy) 알고리즘을 오프-정책(off-policy) 알고리즘으로 변환하여, 복잡한 교정 조치를 필요로 하고 훈련 불안정성을 유발한다는 것을 입증했습니다.

샘플링과 훈련 간의 비트 단위 동일성을 보장함으로써, 그들의 접근 방식은 "진정한 온-정책 강화 학습"을 가능하게 하여 정책 간의 KL-발산(KL-divergence)을 제거하고 오랫동안 연구원들을 당황하게 했던 AI 훈련 과정을 안정화할 수 있습니다.

엇갈린 전문가 평가

이 연구는 AI 커뮤니티 내에서 극명하게 대조되는 평가를 불러일으켰습니다. 학계 검토자들은 이 연구를 "기초 연구"이자 "예외적인 진단 정밀도"라고 칭찬하며, AI를 "경험적 예술에서 엄격한 공학 분야로" 변화시키는 것에 비유했습니다.

한 상세한 학술 평가는 배치 불변성 발견을 "뛰어난 연역적 추론"이라고 묘사하고, 어텐션을 위한 고정 분할 크기 전략을 "특히 통찰력 있다"고 평가했습니다. 이 평가는 강화 학습에 대한 심오한 함의를 강조하며, 이 연구가 "수많은 실험에서 교란 변수였을 가능성이 있는 해로운 저수준 버그를 발견하고 해결한다"고 제안합니다.

그러나 더 회의적인 관점은 이 연구의 광범위한 중요성에 의문을 제기합니다. 업계 관찰자들은 기술적으로 건전하지만, 이 연구가 최종 사용자보다는 주로 연구원과 엔지니어에게 관련된 문제를 다룬다고 지적합니다. 일부는 결정론에 대한 이러한 초점이 "진정한 개척지가 고갈되고 있는" 분야를 보여주는 것이라고 봅니다.

"OpenAI 계보를 가진 연구소에서 결정론을 데뷔 메시지로 강조하는 것은 다소 실망스러운 느낌을 줍니다." 한 업계 분석가는 지적합니다. "연구는 탄탄하지만, 주요 발표로서 이것은 결집된 비전이라기보다는 세심한 실험실 기록처럼 읽힙니다."

실제 적용 및 한계

이 결정론적 접근 방식은 절대적인 일관성이 요구되는 특정 영역에서 분명한 가치를 보여줍니다: 과학 연구 재현성, 규제 준수, 재무 모델링, 그리고 "거의 같은 답변"이 용납되지 않는 미션 크리티컬 애플리케이션입니다.

속도와 비용 효율성을 위해 최적화된 소비자 애플리케이션의 경우, 60%의 성능 저하는 상당한 장벽을 제시합니다. 연구팀은 최적화된 커널 엔지니어링을 통해 이러한 격차가 줄어들 수 있다고 제안하지만, 최대 성능과 배치 불변성 간의 근본적인 상충 관계는 지속될 수 있습니다.

시장 및 투자 함의

규제 산업의 기업 고객들은 결정론적 AI 서비스에 대한 수요를 촉진하여 클라우드 공급자에게 프리미엄 시장 부문을 창출할 수 있습니다. 그러나 성능 비용은 특수 용도 외의 광범위한 채택을 제한할 수 있습니다.

하드웨어 제조업체는 배치 불변 연산에 최적화된 특수 칩을 탐색할 수 있지만, 현재의 성능 저하를 고려할 때 이러한 개발은 매우 추측적입니다. 더 즉각적인 영향은 결정론적 추론을 차별화된 서비스 계층으로 제공할 수 있는 AI 인프라 회사에 집중될 가능성이 높습니다.

투자 분석가들은 이 연구의 중요성이 주로 구현 개선과 첨단 커널 엔지니어링을 통해 성능 격차를 실질적으로 줄일 수 있는지 여부에 달려 있다고 말합니다.

기술적 성숙도 vs 혁신

이 연구는 성능 한계를 확장하는 것과 시스템 신뢰성을 보장하는 것 사이의 AI 개발에서 근본적인 긴장을 강조합니다. 배치 불변성 해결책이 인상적인 엔지니어링 원칙을 보여주지만, 이러한 세심한 최적화가 연구 자원의 가장 생산적인 할당을 나타내는지에 대한 의문은 여전히 남아 있습니다.

이 연구는 의심할 여지 없이 AI 시스템 신뢰성을 향상시키고 더 안정적인 강화 학습을 위한 기반을 제공합니다. 이것이 획기적인 혁신을 구성하는지 아니면 전문 분야에서 정교한 문제 해결을 의미하는지는 관점과 적용 맥락에 따라 달라집니다.

입증 가능한 AI 일관성을 요구하는 조직에게 이 연구는 명확한 경로를 제공합니다. 역량 확장과 효율성 향상에 중점을 둔 광범위한 AI 생태계에는 그 관련성이 더 제한적입니다. 기술적 성취는 부인할 수 없지만, 그 변혁적 잠재력은 미래 최적화 노력과 AI 결정론에 대한 시장 요구 사항의 진화에 크게 달려 있습니다.

투자 면책 조항: 제시된 분석은 기술 연구를 기반으로 한 정보에 입각한 평가이며 특정 투자 조언을 구성하지 않습니다. AI 기술 투자는 본질적인 위험을 수반하며, 과거 성과가 미래 결과를 보장하지 않습니다. 독자는 투자 결정을 내리기 전에 자격을 갖춘 재무 자문가와 상담해야 합니다.