선형 어텐션 혁명: 문샷 AI가 트랜스포머 패권에 던진 대담한 도전

작성자
CTOL Editors - Lang Wang
11 분 독서

선형 어텐션 혁명: 문샷 AI, 트랜스포머 지배력에 과감히 도전하다

키미가 하이브리드 아키텍처에 끊임없이 도전하며 효율성 혁명을 일으키고, 독창성 논란에 휩싸인 과정

아무도 예상치 못한 돌파구

수많은 밤샘 작업과 실패한 학습 실행, 끝없는 조정을 거쳐, 하이브리드 선형 어텐션 기반의 거대한 480억 파라미터 모델인 문샷 AI의 키미 리니어가 중요한 모든 벤치마크를 압도적으로 경신했습니다.

한 개발자는 나중에 내부 메모에서 "결과는 마치 어른이 아이를 가르치는 것 같았다"고 언급했습니다. 그 성과는 단순한 점진적 개선이 아니라 대격변에 가까웠습니다.

2025년에 출시된 키미 리니어는 2017년부터 인공지능 분야를 지배해 온 트랜스포머 아키텍처에 정면으로 도전합니다. 기존 어텐션 모델의 표현력과 필적하면서도, 키-값 캐시 사용량을 75% 절감하고 백만 토큰 길이의 텍스트를 최대 6배 더 빠르게 디코딩합니다.

거대 언어 모델(LLM)을 다루는 모든 이들에게 이는 엄청난 소식입니다. 추론 비용과 메모리 제약이 가능성을 결정하는 상황에서, 키미 리니어의 설계는 새로운 길을 제시합니다. 이는 긴 법률 문서를 분석하는 것부터 장기 추론이 가능한 자율 에이전트에 동력을 공급하는 것에 이르기까지 다양한 가능성을 열어줍니다.

공학적 한계에 도전하다

이 성공 스토리 뒤에는 시련과 좌절, 그리고 끈질긴 투혼의 역사가 숨어 있습니다. 소규모 프로토타입에서 480억 파라미터 규모의 전문가 혼합 시스템(MoE)으로 확장하는 과정은 팀을 거의 한계까지 몰아붙였습니다. 분산 학습 실패를 디버깅하고, 네트워크 계층을 재설계하며, 수백 가지 변형을 테스트하는 것이 그들의 밤샘 의식이 되었습니다. 한 팀원은 나중에 이를 단순히 "고통스러웠지만, 모든 시간의 가치가 있었다"고 표현했습니다.

그들의 발전의 핵심에는 게이티드 델타넷(Gated DeltaNet)의 공격적인 최적화에서 탄생한 **키미 델타 어텐션(Kimi Delta Attention)**이라는 혁신이 있습니다. 이전 접근 방식은 값비싼 FP32 청킹을 요구하는 전역 게이팅 메커니즘에 의존했지만, 새로운 설계는 채널별 게이트로 전환하여 효율성을 유지하면서 정밀한 메모리 제어를 가능하게 했습니다.

그들은 과감한 비율, 즉 완전 어텐션 레이어 하나당 세 개의 델타 어텐션 레이어를 선택했습니다. 면밀한 실험을 통해 발견된 이 균형은 속도와 성능 사이의 최적점임이 입증되었습니다.

그리고 더욱 용감한 결정이 뒤따랐습니다. 로터리 위치 임베딩(RoPE)을 완전히 포기한 것입니다. 이 "완전 NoPE" 접근 방식은 모든 위치 이해를 KDA 레이어에 맡겨 모델을 단순화하면서도 성능 저하를 막았습니다. 심지어 RoPE의 개발자조차 이 결정의 대담함에 감탄했다고 전해집니다.

일반적인 8개 대신 32개의 전문가를 자랑하는 전문가 혼합(MoE) 설정으로 5조 7천억 개의 토큰을 학습한 키미 리니어는 MMLU-Pro에서 51.0점, RULER에서 84.3점을 기록했습니다. 이는 완전 어텐션 모델을 능가하는 점수이며, 백만 토큰 규모에서 약 6배 더 빠르게 작동합니다.

얻은 교훈과 앞으로의 전망

개발자들은 프로젝트의 한계에 대해 솔직했습니다. 그들은 하드웨어 제약으로 인해 해당 규모에서 절대적인 최첨단 성능에 도달할 수 없었음을 인정했습니다. 그러나 그것이 핵심은 아니었습니다. 키미 리니어는 하이브리드 선형 어텐션이 이론에서 실제 생산으로 전환될 수 있다는 증거였습니다.

그들은 이를 미래에 대한 전략적 투자이자 "핵심 위험 완화(flagship derisking)" 프로젝트라고 불렀습니다. 투명성에 대한 믿음을 증명하기 위해, 플래시 선형 어텐션(Flash Linear Attention) 및 vLLM 프레임워크에 깔끔하게 통합되는 최적화된 커널을 포함하여 전체 코드베이스를 오픈소스로 공개했습니다.

이러한 개방성은 전 세계 연구자들의 주목을 받았습니다. 많은 이들이 키미 리니어를 신경망 아키텍처 진화의 중추적인 단계로 보고 있습니다. 한 커뮤니티 개발자는 그 개념적 뿌리를 원래의 델타 규칙(Delta rule)까지 거슬러 올라가며, "경험적 돌파구는 종종 이론이 따라잡기 전에 발생한다"고 주장했습니다.

한 연구원은 이를 다음과 같이 요약했습니다. "처음으로, 우리는 성능과 효율성 사이에서 선택할 필요가 없게 되었습니다."

독창성 논란

물론, AI의 주요 도약은 논란 없이 이루어지지 않습니다. 발표 직후, 비평가들은 문샷 팀이 이전 RWKV7 아키텍처의 아이디어를 모방했다고 비난했습니다. 일부는 이 발표를 과학 발전보다는 관심을 끌기 위한 홍보성 술책이라고 주장했습니다.

개발자들은 강력하게 반박했습니다. 그들은 전역 게이팅 대신 채널별 게이팅, 독특한 하이브리드 레이어 비율, 그리고 완전 NoPE 접근 방식을 택한 결정 등 명확한 차이점을 강조했습니다. 한 개발자는 "누군가 이것이 같다고 생각한다면 좋다"며, "하지만 불평하는 시간을 줄이고 자신의 모델을 확장하는 데 더 많은 시간을 할애해야 할 것"이라고 말했습니다.

지지자들은 그들의 편에 섰습니다. 한 저명한 연구원은 "다른 이들이 선형 어텐션을 포기했을 때, 키미가 희망을 다시 불어넣었다"며, "이것은 제품이면서 동시에 근본적인 혁신"이라고 언급했습니다.

이 논쟁은 누가 누구를 모방했는지를 넘어, AI 연구 자체의 핵심을 건드리고 있습니다. 진정한 혁신은 완전히 새로운 아이디어에서 나오는가, 아니면 기존 아이디어를 정제하고 재조합하여 탄생할 수 있는가? 어느 쪽이든, 키미 리니어는 중요한 사실을 입증했습니다. 한때 막다른 길로 치부되었던 선형 어텐션이 여전히 활용되지 않은 잠재력을 가지고 있다는 것입니다.

앞으로의 길

연구자들은 이미 Kimi-Linear-48B-A3B-Base 모델과 명령어 튜닝된 변형을 다운로드하여 실험할 수 있습니다. 필요한 것은 파이토치(PyTorch) 2.6과 최신 FLA 라이브러리뿐입니다. 초기 테스터들은 이 모델의 "성격이 자연스럽게 느껴지고" "키미-2와 비슷한 느낌"이라고 말하며, 효율성 향상이 인간과 유사한 출력 능력을 저해하지 않았음을 의미합니다.

파라미터 수와 학습 예산에 집착하는 업계에 키미 리니어는 대담한 질문을 던집니다. 다음 큰 도약이 모델을 더 크게 만드는 것이 아니라 더 똑똑하게 만드는 것에 있다면 어떨까?

이 모델이 이정표가 되든, 아니면 단순히 흥미로운 주석으로 남든, 한 가지는 분명합니다. 이는 AI 효율성 분야에서 여전히 가능한 것에 대한 기대를 다시 불지폈습니다.

한 지치고도 승리한 개발자의 말처럼: 그 고통은 충분히 가치 있었습니다.

당신도 좋아할지도 모릅니다

이 기사는 사용자가 뉴스 제출 규칙 및 지침에 따라 제출한 것입니다. 표지 사진은 설명을 위한 컴퓨터 생성 아트일 뿐이며 실제 내용을 나타내지 않습니다. 이 기사가 저작권을 침해한다고 생각되면, 우리에게 이메일을 보내 신고해 주십시오. 당신의 경계심과 협력은 우리가 예의 바르고 법적으로 준수하는 커뮤니티를 유지하는 데 중요합니다.

뉴스레터 구독하기

최신 기업 비즈니스 및 기술 정보를 독점적으로 엿보며 새로운 오퍼링을 확인하세요

저희 웹사이트는 특정 기능을 활성화하고, 더 관련성 있는 정보를 제공하며, 귀하의 웹사이트 경험을 최적화하기 위해 쿠키를 사용합니다. 자세한 정보는 저희의 개인정보 보호 정책 서비스 약관 에서 확인하실 수 있습니다. 필수 정보는 법적 고지