바이트댄스, 거대 기술 기업에 필적하는 소형 AI 번역 모델 출시

바이트댄스 70억 매개변수 AI 모델, 번역 분야에서 거대 기술 기업에 도전장 내밀다

바이트댄스의 경량 모델이 기계 번역의 경제성을 재정의하며, GPT-4, Gemini와 같은 자원 집약적 거대 모델의 지배력을 위협하고 있다.

더 클수록 더 좋다는 인식이 오랫동안 지배적이었던 활기찬 AI 시장에서, 이러한 근본적인 가정에 도전하는 민첩한 경쟁자가 등장했다. 틱톡을 운영하는 바이트댄스는 70억 매개변수 규모의 경량 언어 모델 Seed-X를 공개했다. 이 모델은 OpenAI, Anthropic, Google의 주력 제품을 포함해 최대 30배 규모의 모델과 동등하거나 그 이상의 번역 성능을 제공한다.

체급을 뛰어넘는 경량 챔피언

머신러닝 업계에서는 모델의 복잡성과 지식 용량의 대략적인 척도인 매개변수 수가 일종의 군비 경쟁이 되었다. 업계 선두 기업들은 수천억 개의 매개변수까지 확장했으며, 매개변수가 증가할수록 기하급수적으로 더 많은 컴퓨팅 파워, 에너지 소비, 그리고 재정적 투자가 요구되었다.

이러한 배경 속에서 Seed-X는 획기적인 전환점을 제시한다. 이 오픈소스 모델 제품군은 28개 언어 간의 다국어 번역에만 전적으로 집중하며, 수학 및 코딩과 같은 분야의 범용적인 기능들을 의도적으로 희생함으로써 전문 영역에서 비할 데 없는 효율성을 달성했다.

기술 문서를 검토한 한 AI 연구원은 "여기서 혁명적인 것은 단일 알고리즘의 획기적인 발전이 아니라, 전문화에 대한 종합적인 접근 방식입니다"라고 언급했다. 그는 이어서 "그들은 전략적 집중이 단순히 규모의 힘을 능가할 수 있음을 입증했습니다. 이는 외과의사의 메스와 망치의 차이와 같습니다"라고 덧붙였다.

맞춤형 훈련을 통한 외과적 정밀성

바이트댄스의 접근 방식은 개발 파이프라인 전반에 걸쳐 세심한 주의를 기울였음을 보여준다. 이 모델은 6조 개의 토큰으로 3단계 사전 학습을 거쳤는데, 단일 언어 데이터로 시작하여 점진적으로 다국어 데이터로 전환하고 최종적으로는 순수 병렬 데이터를 사용했다. 이는 이전 연구에서 '치명적 망각(catastrophic forgetting)'의 위험 때문에 경고했던 전략이었다.

연구팀은 23만 6천 개의 예시를 사용한 지도 기반 명령 튜닝과 새로운 강화 학습 접근 방식을 통해 모델을 더욱 정교하게 다듬었다. 특히 저자원 언어를 위해 인간 피드백과 혁신적인 '이중 일관성(dual-consistency)' 보상 메커니즘을 결합했다.

인간 평가 결과, Seed

바이트댄스, 거대 기술 기업에 필적하는 소형 AI 번역 모델 출시

바이트댄스 70억 매개변수 AI 모델, 번역 분야에서 거대 기술 기업에 도전장 내밀다

체급을 뛰어넘는 경량 챔피언

맞춤형 훈련을 통한 외과적 정밀성

당신도 좋아할지도 모릅니다

뉴스레터 구독하기