내부 고발자, 화웨이 주력 AI 프로그램의 사기 및 비위 혐의 폭로

화웨이 주력 AI 프로그램, 사기 및 비리 의혹으로 내부 고발돼

중국 AI 야망의 무너진 꿈들

화웨이의 명망 높은 노아의 방주 연구소(Noah's Ark Lab) 핵심 연구원이 회사의 주력 판구(Pangu) 대규모 언어 모델 개발 과정에서 광범위한 비리, 표절, 학문적 부정행위가 있었다는 상세한 주장을 폭로했습니다.

2025년 7월 9일 깃허브(GitHub)에 익명으로 공개된 이 내부 고발자의 폭로는 중국에서 가장 유명한 기술 기업 중 한 곳의 '어둠의 심장부'에 대한 전례 없는 통찰력을 제공합니다. 해당 서한에 따르면, 화웨이의 AI 분야에서의 화려한 성과는 조작된 결과, 도난당한 지적 재산, 그리고 "정직함을 처벌하고 기만을 보상하는" 문화 위에 세워졌을 수 있다고 합니다.

경쟁사 모델 '껍데기 씌우기': 대규모 사기 의혹

이번 의혹의 핵심은 '껍데기 씌우기(shelling)'라고 불리는 관행입니다. 이는 화웨이가 경쟁사의 모델을 가져와 표면적인 변경만 가한 뒤 자사의 독자적인 개발물로 위장했다는 것입니다. 내부 고발자는 결과물 도출에 대한 압박 속에서 "왕윈허(Wang Yunhe) 소형 모델 연구소"가 이끄는 팀이 알리바바의 큐원-110B(Qwen-110B) 모델을 재포장하고 약간의 수정을 가한 뒤 "135B V2"로 이름을 바꿨다고 주장합니다.

내부 분석 결과, 일치하지 않는 아키텍처, 큐원(Qwen)과 동일한 파라미터 분포, 그리고 여전히 "Qwen" 이름이 포함된 소스 코드 등 결정적인 증거가 발견되었다고 합니다. 내부 고발자는 많은 팀원들이 이 기만에 "경악"했음에도 불구하고, 이 모델이 하위 클라이언트에 배포되고 내부적으로 성과로 축하받았다고 주장합니다.

"그 모델은 단순히 유사한 것이 아니었습니다. 말 그대로 화웨이 배지를 붙인 큐원 자체였습니다." 보복에 대한 두려움으로 익명을 요구한, 해당 상황에 정통한 한 AI 연구원은 본 기자에게 이렇게 말했습니다. "아키텍처를 검토할 기술적 지식이 있는 사람이라면 누구든 진실을 알 수 있었을 겁니다."

벤치마크 조작: 불가능했던 완벽한 점수

아마도 가장 치명적인 것은 화웨이가 발표한 판구 울트라(Pangu Ultra) 벤치마크에 대한 의혹일 것입니다. 내부 고발자는 모델 보고서가 ARC-이지(ARC-Easy) 벤치마크에서 수학적으로 불가능한 100% 정확도를 기록했다고 주장했습니다. 이는 외부 전문가들에 의해 즉시 "비현실적이거나 조작된 것"으로 지적된 결과입니다.

화웨이 노아의 방주 연구소의 전직 엔지니어들은 충격적인 설명을 내놓았습니다. ARC-이지(ARC-Easy)의 전체 데이터셋(약 5,200개 문항)으로 테스트하는 대신, 팀은 내부 빠른 검증에 사용되는 100개 샘플의 부분 집합만 평가했다는 것입니다. 이 부분적인 결과가 시간 압박 속에 최종 공개 보고서에 포함되어 완벽한 점수라는 착시를 불러일으켰다고 주장됩니다.

또한, RACE와 같은 벤치마크는 경쟁사들이 사용하는 전통적인 퍼플렉서티(perplexity) 기반 방식에 비해 최대 40점까지 점수를 부풀리는 단순화된 방식으로 평가되었습니다. 이렇게 부풀려진 결과는 더 엄격한 방식으로 평가된 다른 모델들의 점수와 직접 비교되었는데, 이는 학술적 규범을 위반하는 기만적인 비교였습니다.

내부 고발자의 고뇌: "피와 땀, 희생"

이 서한은 스캔들의 깊은 개인적인 측면을 드러냅니다. 저자는 엔비디아(NVIDIA)의 AI 하드웨어에 대한 국내 대안을 구축하려는 화웨이의 사명을 믿었던 헌신적인 엔지니어들의 수년간의 고된 작업을 설명합니다. 팀은 화웨이의 어센드(Ascend) NPU에서 점점 더 큰 모델을 훈련시키며 상당한 기술적 난관에 봉착했다고 합니다.

표절 의혹을 받는 135B V2와 달리, 내부 고발자는 135B V3 모델(판구 울트라)이 정제된 토크나이저(tokenizer)와 개선된 훈련 파이프라인을 사용하여 자신들의 팀에 의해 "처음부터 진정으로 훈련되었다"고 주장합니다. "피와 땀, 희생의 진정한 산물"이라고 묘사된 이 모델은 "깨끗한 훈련과 손실 급증 없음"으로 경쟁력 있는 성능을 제공했으며, 이는 대규모 모델 훈련에서 보기 드문 성과입니다.

"나쁜 결과는 받아들일 수 있습니다. 하지만 어리석은 결과는 받아들일 수 없습니다." 노아의 방주 연구소에서 MoE(Mixture-of-Experts) 인프라를 담당했던 칭화대 박사 출신인 "블리얼탄(Blealtan)"이라는 전직 엔지니어는 이렇게 말했습니다.

은폐 문화와 관료주의적 부패

엔지니어들이 결함 있는 벤치마크 보고서를 수정하려 했을 때, 그들은 "대중의 반발을 두려워하고 실수를 인정할 수 있는 어떤 수정도 피하려 한" 고위 경영진에 의해 제지당했다고 주장됩니다. 내부 고발자는 정직한 팀은 소진되거나 떠나고, 부정한 행위자들은 인정과 자원을 얻는 독성적인 환경을 묘사합니다.

연구 논문의 저자 목록은 "실제 기여가 아닌 경영진에 의해 관리"되었다고 합니다. 일부 사람들은 보고서가 공개된 후에야 자신의 이름이 추가되거나 삭제되었음을 발견했습니다. arXiv와 같은 플랫폼에 연구 결과가 업로드되는 작업은 핵심 팀원의 최소한의 의견만 반영되어 비기술직 직원에 의해 이루어졌다고 주장합니다.

진정한 이해관계: 위기에 처한 중국의 AI 야망

이 의혹들은 오픈AI(OpenAI)와 앤스로픽(Anthropic)과 같은 미국 경쟁사들과의 격차를 좁히기 위해 경쟁해 온 중국 AI 산업에 결정적인 시점에 제기되었습니다. 화웨이의 판구 모델은 지속적인 미국의 제재 속에서 기술적 자급자족을 위한 중국의 야망에 핵심적인 역할을 합니다.

업계 전문가들은 화웨이의 주장된 비행이 단순한 자부심 이상의 동기에서 비롯되었을 수 있다고 추측합니다. 일부는 화웨이의 어센드 칩이 엔비디아의 최고급 LLM 훈련 능력만큼 뛰어나다는 것을 허위로 증명하기 위해 더 나은 성능의 외부 모델을 사용하려 했을 것이라고 주장합니다. 이는 화웨이가 판구가 통합된 하드웨어를 정부 및 군사 고객에게 판매하는 데 도움이 될 수 있다는 것입니다.

투자자 전망: 여파 헤쳐나가기

중국의 AI 경쟁을 주시하는 투자자들에게 이 의혹들은 국내 AI 역량의 실제 상태에 대한 상당한 우려를 불러일으킵니다. 시장 분석가들은 몇 가지 잠재적 영향을 제시합니다.

첫째, 투명한 연구 관행을 통해 진정으로 혁신적인 AI 기술을 개발하는 기업들이 더욱 신뢰할 수 있는 장기 투자처로 부상할 수 있습니다. 오픈소스 접근 방식과 검증 가능한 벤치마크를 강조해 온 딥시크(DeepSeek)와 바이두(Baidu)와 같은 기업들은 AI 주장 전반에 대한 면밀한 검토가 강화되면서 이점을 얻을 수 있습니다.

둘째, 하드웨어 측면에 특별한 주의가 필요합니다. 만약 화웨이의 어센드 칩이 엔비디아 제품에 비해 대규모 AI 훈련에 실제로 어려움을 겪는다면, 엔비디아를 지원하는 공급망 기업들은 예상보다 오랫동안 경쟁 우위를 유지할 수 있을 것입니다.

마지막으로, 이번 스캔들은 중국 내 AI 벤치마크 보고에 대한 규제 감독을 가속화할 수 있으며, 이는 규제 준수 문제를 야기할 수 있지만 제3자 검증 서비스를 제공하는 기업들에게는 기회가 될 수도 있습니다.

"우리가 목격하는 것은 중국 AI 부문의 전환점이 될 수 있습니다." 한 기술 투자 전략가는 언급했습니다. "시장은 앞으로 투명성을 보상하고 불투명성을 처벌할 가능성이 높습니다."

면책 조항: 이 분석은 현재 시장 상황과 확립된 지표만을 반영합니다. 과거의 성과가 미래의 결과를 보장하지 않습니다. 독자들은 개인화된 투자 조언을 위해 재무 전문가와 상담해야 합니다.

화웨이가 아직 이러한 주장에 대해 공식적으로 답변하지 않았기 때문에, 그 전체적인 영향은 불확실합니다. 그러나 분명한 것은 중국 AI 혁명의 화려한 발표와 인상적인 벤치마크 이면에는 이전에 알려진 것보다 훨씬 더 많은 복잡성과 논란이 숨어있을 수 있다는 점입니다.