미라 무라티의 첫 제품 '팅커', 엔지니어들 가치 제안에 의문 제기하며 고전

미라 무라티의 첫 스타트업 제품, 혹독한 평가에 직면하다

오픈소스 경쟁자들의 강세 속, 엔지니어들은 그녀의 파인튜닝 API 성과에 의구심을 표한다

샌프란시스코 — 지난 가을, 수개월간의 알려진 긴장 끝에 미라 무라티(Mira Murati)가 OpenAI를 떠났을 때, AI 업계는 숨죽였다. 오랫동안 회사에서 가장 영향력 있는 인물 중 한 명으로 여겨졌던 전 최고기술책임자(CTO)였던 그녀는 뭔가 새로운 것을 준비 중이었다. 이번 주, 그녀의 스타트업 Thinking Machines가 마침내 베일을 벗었다. 첫 제품은 Tinker(링크 삽입) — 대규모 오픈 가중치(open-weight) 언어 모델의 파인튜닝(fine-tuning) 과정을 훨씬 덜 고통스럽게 만들겠다고 약속하는 관리형 API였다.

그러나 박수 대신 이번 출시는 회의적인 반응을 얻었다.

"Unsloth가 훨씬 낫다"고 CTOL.digital의 한 엔지니어가 우리의 내부 슬랙(Slack) 채널에서 언급했는데, 이는 업계의 초기 반응을 잘 요약해 준다. 우리 팀의 분석은 Tinker가 실제로 새로운 것을 제공하는지에 대해 심각한 의구심을 제기한다.

무라티에게 있어 이번 일의 중요성은 더할 나위 없이 크다. 차세대 대규모 GPT 스타일 모델을 추구하는 대신 파인튜닝 서비스를 출시함으로써, 그녀는 AI의 미래가 맞춤화에 있다고 베팅하고 있다. 이는 그녀의 전 직장인 OpenAI의 폐쇄적인 철학에 대한 직접적인 비판이며, Thinking Machines의 높은 기업 가치를 입증하거나, 과대평가되었음을 드러낼 수도 있는 도박이다.

약속: 가장 어려운 부분의 단순화

이론적으로 Tinker는 간단한 제안을 한다. 스케줄링, 리소스 할당, 장애 복구 등 복잡한 인프라 문제를 해결해 주면서도 연구자들이 자신의 데이터와 알고리즘을 제어할 수 있도록 한다. 팀은 단 한 줄의 코드로 소규모 빌드부터 Qwen-235B-A22B와 같은 거대한 모델에 이르기까지 모델 간을 이동할 수 있다.

이 시스템은 Thinking Machines의 내부 클러스터에서 실행되며 LoRA(Low-Rank Adaptation)를 사용하여 여러 학습 작업에 컴퓨팅 리소스를 확장하고 잠재적으로 비용을 절감한다. 개발자들이 시작할 수 있도록 돕기 위해, 회사는 현대적인 후처리(post-training) 방법론을 담은 오픈소스 라이브러리인 "Tinker Cookbook"도 공개했다.

일부 저명한 연구 그룹들은 이미 이 제품을 시험해 보았다. 프린스턴, 스탠포드, 버클리의 팀들은 수학 정리 증명부터 화학 추론에 이르는 다양한 프로젝트에 Tinker를 테스트했다. Redwood Research는 심지어 까다로운 AI 제어 문제에 Qwen3-32B를 학습시키는 데 Tinker를 사용하기도 했다.

문제: 이것이 다르다고 누구를 설득할 수 있는가?

문제는 이것이다. 그 어떤 것도 엔지니어들이 계속해서 묻는 질문에 답하지 못한다. 그들이 이미 신뢰하는 오픈소스 도구에서 왜 바꿔야 하는가?

우리 CTOL.digital 엔지니어링 팀의 검토는 두 가지 약점을 지적한다. 첫 번째는 순전히 오래된 의구심이다. Unsloth나 TRL과 같은 검증된 시스템과 Tinker를 비교하는 벤치마크가 공개되지 않은 상황에서, 개발자들은 Tinker가 더 빠르고, 저렴하며, 안정적인지 판단할 확실한 근거가 없다. 그들이 원하는 것은 "명확하고 입증된 이점"이다. 아직까지는 그런 이점을 보지 못했다.

두 번째 약점은 더 치명적이다. 일부 엔지니어들은 Tinker를 "투자자 쇼"로 일축한다. 실제 사용자에게 봉사하기보다는 투자자들에게 깊은 인상을 주기 위해 만들어진 도구라는 것이다. 일단 그러한 인식이 자리 잡으면, 사용 편의성에 대한 막연한 설명으로는 해결될 수 없다.

"우리는 비용과 성능 면에서 현재 스택(stack)을 능가하는 투명하고 재현 가능한 결과를 원한다"고 우리 엔지니어 중 한 명이 단호하게 말했다. 그러한 결과가 나타나기 전까지는 의심이 승리할 것이다.

무엇이 부족한가: 입증 가능한 증거

Tinker의 데뷔에서 가장 큰 허점은 쉽게 발견된다. 독립적인 벤치마크가 없다는 것이다. 토큰당 비용, 처리량, 학습 안정성, 수렴 시간 등 실제로 중요한 지표에서 다른 대안들과 비교한 단 하나의 학습 결과도 공개되지 않았다.

그러한 침묵은 엔지니어들이 평가 대신 추측하게 만든다. 그들은 Tinker의 관리형 인프라가 진정으로 부담을 덜어주는지, 아니면 임대 GPU에서 Unsloth를 실행하는 것과 비교하여 LoRA 기술이 정말로 비용을 절감하는지 알 수 없다.

마찬가지로 눈에 띄는 것은 언급되지 않은 내용이다. 상세한 버그 보고서나 실패 분석이 없다는 것은 대부분의 개발자들이 아직 진지하게 테스트할 시간을 투자하지 않았음을 시사한다. 베타 접근이 더 넓게 열리고 사용자들이 로그, 구성, 재현 가능한 오류를 공유하기 시작하면, 피드백은 날카로운 비판으로 굳어지거나 수용으로 누그러질 것이다.

더 큰 그림: AGI 경쟁에 대한 반대 베팅

Tinker의 출시는 또한 무라티의 관점에 대한 더 깊은 의미를 드러낸다. 최첨단 모델 개발 대신 파인튜닝 인프라를 선택함으로써, 그녀는 인공 일반 지능(AGI)을 향한 획기적인 도약이 당분간은 없을 것이라고 시사하고 있다.

그러한 관점은 그녀를 OpenAI 공동 창립자인 존 슐만(John Schulman)과 연구원 배럿 조프(Barret Zoph), 루크 메츠(Luke Metz)와 같은 다른 OpenAI 출신자들의 대열에 합류시킨다. 이들은 모두 오픈 가중치 모델로 전환했다. 그들의 움직임은 공통된 신념을 시사한다. 지금 당장은 개방형 모델을 맞춤화하는 것이 다음 거대한 폐쇄형 시스템을 향해 경쟁하는 것보다 더 실용적인 가치를 제공한다는 것이다.

이 논쟁은 AI 산업의 핵심을 꿰뚫는다. 발전은 끊임없이 더 크고 엄격하게 보호되는 모델을 구축하는 데서 오는가, 아니면 이미 존재하는 모델을 더 현명하게 적용하는 방법을 발명하는 데서 오는가?

앞으로의 길: 입증하지 못하면 사라진다

Thinking Machines는 점차 대기자 명단의 사용자들에게 접근을 허용하고 있다. 이 서비스는 베타 기간 동안 무료이지만, 곧 사용량 기반 모델로 요금이 전환될 예정이다. 엔지니어들 사이의 냉담한 반응에 대해 질문을 받았을 때, 회사는 언급을 거부했다. 또한 경쟁 시스템에 대한 어떤 벤치마크 데이터도 공유하지 않았다.

그러한 침묵은 단 하나의 길만을 남긴다. 신뢰를 얻기 위해 무라티의 팀은 확실한 증거를 공개해야 한다. 재현 가능한 벤치마크, 실제 비용 절감, 안정성 향상, 그리고 실제 학습 곡선으로 문서화된 생산성 향상 등이다. 이러한 증거 없이는 Tinker는 인상적인 데뷔였지만 결국 실패한 제품으로 기억될 위험이 있다.

CTOL.digital의 일부 엔지니어들은 노골적으로 말했다. "베타가 확장되고 사용자들이 구성, 로그, 실패 결과를 공개하면 더 실질적인 비판이 쏟아질 것이다. 그런데 잠깐, 투자자들은 지금 울고 있는 건가?"

무라티의 OpenAI 시절 명성은 여전히 그녀에게 관심을 가져다준다. 하지만 그 관심을 유지할 수 있을지는 다음에 무엇을 보여주느냐에 달려있다. 약속이 아니라 증명에 말이다.