OpenAI, 클립 길이 및 접근성 관련 엇갈린 평가 속 동기화 오디오 및 새 iOS 소셜 앱 갖춘 소라 2 AI 비디오 생성기 출시

물리학이 상상력을 만나다: OpenAI의 Sora 2, AI 비디오를 새로운 시대로 이끌다

새로운 모델은 사실적인 움직임, 동기화된 사운드를 제공하며 OpenAI의 더 큰 야망을 엿볼 수 있게 한다. 하지만 짧은 클립과 제한된 출시 범위는 아직 완전한 이야기가 아님을 보여준다.

샌프란시스코—OpenAI가 최근 Sora 2를 공개했으며, 이는 이미 텍스트 기반 AI를 재편했던 "GPT-3.5의 순간"과 비교되고 있다. 2024년 2월에 출시된 첫 번째 Sora는 미래를 암시했지만 기본에서 어려움을 겪었다. 물리학은 만화 같았고, 립싱크는 들쭉날쭉했다. 이 새 버전은 상황을 완전히 바꿨다. 이제 농구공이 백보드를 치고 예상대로 튀어 오르거나, 패들보더가 백플립을 망치면서도 물보라 물리학이 그대로 유지되는 것을 볼 수 있다. 심지어 대화가 애니메이션 입술과 깔끔하게 동기화되어 창작자들이 오랫동안 기다려온 기능을 선보인다.

그리고 단순히 기술적인 측면만이 아니다. OpenAI는 사용자가 자신의 모습과 목소리를 AI 생성 클립에 넣을 수 있는 "카메오(Cameos)" 기능을 중심으로 하는 iOS 앱을 출시하고 있다. 현재로서는 초대 전용이며 미국과 캐나다로 제한되지만, OpenAI의 전략은 분명하다. 틱톡과 유튜브 쇼츠(YouTube Shorts)와 함께 숏폼 콘텐츠 시장에서 한자리를 차지하려는 것이다.

알고 계셨나요? Sora의 리더인 빌 피블스(Bill Peebles)는 MIT에서 학사 학위를, UC 버클리에서 박사 학위를 받은 젊은 연구원입니다. 그는 NVIDIA, Adobe, Meta에서 인턴십을 거쳐 OpenAI에 합류했으며, "Sora 2를 만들었다"는 노력을 이끌었습니다.

제작 규칙을 다시 쓸 수 있는 비약적인 발전

그렇다면 Sora 2를 진정으로 차별화하는 것은 무엇일까? 세 가지다: 동기화된 오디오, 더욱 강력해진 물리학, 그리고 여러 샷에 걸쳐 일관성을 유지하는 캐릭터. 이전 모델들은 프롬프트에 맞춰 현실을 왜곡하는 나쁜 버릇이 있었다. 예를 들어, 물체가 순간 이동하거나, 손이 도구로 녹아내리거나, 사람들이 불가능한 점프를 하는 식이었다.

이번에는 모델이 실패를 인정한다. 체조 선수를 애니메이션화하도록 요청하면 완벽한 루틴을 강요하지 않는다. 놓친 캐치, 서투른 착지, 충돌 시 실제로 전달되는 운동량 등 이 모든 것이 자연스럽게 나타난다. 한 연구원이 말했듯이, "Sora 2는 때때로 사람들이 넘어지고, 물체가 완벽하게 작동하지 않는다는 것을 이해합니다. 그것이 바로 이 모델을 신뢰할 수 있게 만드는 요소입니다."

창작자들에게 이는 엄청난 변화다. 과거에는 AI 비디오를 만들려면 무성 클립과 별도의 오디오 트랙을 따로 다루고 모든 것을 힘들게 동기화해야 했다. Sora 2는 이러한 작업 흐름을 한 단계로 압축한다. 비디오, 대화, 배경 소음, 음향 효과를 한 번에 생성하는 것이다. 또한 영화 같은 사실주의, 애니메이션 스타일, 혹은 그 중간을 원하든 명령에 따라 스타일을 바꿀 수 있으며, 연속성은 그대로 유지된다.

사실상 데이터 엔진인 소셜 앱

화려한 데모를 넘어 살펴보면 OpenAI의 전략이 더욱 명확해진다. 카메오는 사용자가 자신의 클립에 등장하기 전에 자신의 목소리와 얼굴을 녹화하도록 요구한다. 표면적으로는 재미있는 개인화 기능이다. 하지만 현실에서 분석가들은 더 깊은 의미를 본다. OpenAI가 향후 멀티모달 모델, 즉 단순히 이미지를 넘어 물리적 세계가 어떻게 작동하는지 이해하는 모델을 구동하기 위한 '골드 스탠다드' 생체 데이터를 수집하고 있다는 것이다.

한 전략가는 노골적으로 요약했다. "이것은 내일 틱톡과 경쟁하는 것이 아닙니다. 향후 몇 년 안에 세계 시뮬레이션 모델을 위한 기반을 구축하는 것입니다."

이 앱 자체는 수동적인 스크롤링보다는 창작을 장려한다. "피드 철학(Feed Philosophy)"은 리믹스 가능한 콘텐츠, 자연어 기반 추천, 그리고 ChatGPT와 연동된 부모 통제 기능을 포함한 어린 사용자들을 위한 엄격한 규칙을 강조한다. 검열 계층, 디지털 워터마킹, 그리고 공인 딥페이킹 금지 규칙 또한 내장되어 있다. 사용자들은 자신의 카메오에 대한 통제권을 유지하며, 자신의 모습이 나타나는 모든 클립을 추적하고 언제든지 취소할 수 있다.

놀라운 데모, 그러나 현실적인 한계

선보이는 영상들은 언뜻 보기에 눈부시다. 날개 소용돌이를 뒤로 한 채 얼음 첨탑 사이를 헤쳐나가는 용, 폭풍우에 완벽하게 동기화된 목소리로 눈보라 속에서 외치는 탐험가들. 하지만 CTOL.digital 팀이 하이라이트 영상을 넘어 자세히 살펴보자, 균열이 보이기 시작했다.

5초 미만의 짧은 클립은 720p, 30fps에서 잘 작동한다. 하지만 그 이상으로 넘어가면 이음새가 벌어진다. 캐릭터들은 표정을 잃고, 물체는 부자연스럽게 깜박이며, 환상이 무너지기 시작한다. 우리 팀은 심지어 이를 위한 용어를 만들었다. 바로 "죽은 눈(dead-eye) 문제"다. 한 테스트 클립은 결함이 얼마나 심각할 수 있는지를 보여주었다. 고양이를 머리에 얹고 숲 속을 빠르게 페달링하는 남자의 모습이었다. 기발한 디테일 대신, 결과물은 텅 비어 보였고, 거친 가장자리들이 "AI 생성"임을 소리쳤다. 다른 팀원은 "물이 절벽의 끝없는 구덩이로 쏟아지는" 경우를 테스트했고, 결과 영상은 아무리 좋게 봐도 움직임이 없었다.

한 팀원은 "10초보다 훨씬 더 긴 영상이 필요하다. 벌써 2025년이다"라고 불평했다. 다른 이들은 "AI 슬롭(AI slop)"이라고 부르는 현상, 즉 피드를 압도할 위험이 있는 저품질 대량 생산 콘텐츠의 범람에 대한 좌절감을 표했다.

법적, 윤리적 그림자

CTOL.digital 팀은 또한 두 가지 민감한 문제, 즉 저작권과 개인정보 보호를 지적했다.

저작권에 관해서는 Sora 2가 놀라운 정확도로 인기 있는 스타일을 모방할 수 있다. 이는 팬들에게는 흥미롭지만, 인간 예술가들에게는 자신들의 작품이 파생적인 AI 창작물에 의해 가려질까 봐 우려되는 부분이다.

개인정보 보호 측면에서는 카메오의 생체 인식 정보 수집이 위험 신호를 울렸다. 검토자들은 인증의 강도, 데이터의 보안 저장 방식, 그리고 통제가 실패할 경우 발생할 수 있는 일에 대해 의문을 제기했다. OpenAI는 사용자가 모든 권리를 유지하며 언제든지 취소할 수 있다고 주장하지만, 우려는 계속되고 있다.

경쟁자, 비용, 그리고 시장 압력

OpenAI만 홀로 이 분야에 있는 것은 아니다. 구글의 Veo 3는 이미 제미니(Gemini)와 AI 스튜디오를 통해 최대 8초 길이의 오디오 동기화 비디오 클립을 생성한다. Veo 3의 가격은 초당 약 0.40달러, 더 빠른 티어는 0.15달러이다. 이는 OpenAI가 Sora 2 클립을 10초당 2달러 미만으로 유지해야 한다는 압박을 가한다. 특히 API 사용량을 확장하려는 경우 더욱 그렇다.

과제는 단순히 용량에 관한 것만이 아니다. 효율성에 관한 것이다. 이러한 작업의 중추인 블랙웰 GPU(Blackwell GPU)는 개당 3만 달러에서 5만 달러에 달하며, 클라우드 대여료는 계속 변동하고 있다.

한편, Runway, Luma, Pika와 같은 기존 플레이어들은 더 긴 테이크, 편집 타임라인, 권리 관리 도구를 갖춘 전문 워크플로우에서 이미 강력한 입지를 구축하고 있다. 관측통들은 하이브리드 워크플로우가 등장할 것으로 예상한다. 즉, 화려한 짧은 클립에는 Sora 2를, 더 긴 프로젝트를 다듬고 조립하는 데는 전통적인 도구를 사용하는 식이다.

현장의 평가

CTOL.digital의 최종 결론은? Sora 2는 비약적인 발전이지만 여전히 취약하다. 물리학은 제대로 작동하고, 동기화된 오디오는 큰 장점이다. 하지만 더 긴 샷, 인간의 감정 표현, 미세한 객체 처리는 여전히 압력을 받으면 무너진다.

그들은 캐릭터 일관성과 오디오 통합이 새로운 창의적 가능성을 열어주더라도, 개인정보 보호 우려와 출시 제한이 채택 속도를 늦출 수 있다고 경고했다. 그들의 평가는 다음과 같다. 인상적인 발전이지만, 다듬어진 데모와 실제 일상적인 제작 사이에는 여전히 간극이 존재한다.

투자자들이 주목하는 것

분석가들은 여러 방향으로 파급 효과를 예상한다.

단기적인 수혜자는 컴퓨팅 수요가 계속 증가하고 있으므로 엔비디아(NVIDIA)와 CoreWeave 같은 GPU 클라우드 제공업체들이 포함된다. OpenAI와의 깊은 관계와 애저(Azure) 역량을 갖춘 마이크로소프트(Microsoft)도 이득을 볼 수 있다. 애플(Apple) 역시 iOS 유통과 잠재적인 온디바이스 처리 덕분에 혜택을 볼 수 있다.

중기적으로는 AI 콘텐츠 검증을 위한 규제 준수 도구가 유망해 보인다. EU의 AI 법안과 새로운 미국 주법들은 더 많은 라벨링, 워터마킹, 탐지를 요구할 것이다. Sora 2를 편집 파이프라인에 통합하는 창의적인 소프트웨어 회사들, 특히 멀티샷 스토리보드와 버전 제어 기능을 갖춘 회사들은 수익성 있는 틈새시장을 개척할 수 있다.

위험은 여전히 존재한다. 틱톡과 유튜브 같은 숏폼 비디오 대기업들은 일부 참여 압력을 느낄 수 있지만, 이들의 네트워크, 수익 분배 시스템, 그리고 글로벌 도달 범위는 이기기 어렵다. 안드로이드 지원이나 수익화 도구 없이는 Sora 2가 이들을 곧바로 왕좌에서 끌어내리지는 못할 것이다.

참고로, 오늘 엔비디아 주식은 186.58달러로 마감하여 4.74달러 상승했으며, 거래량은 2억 3,600만 주를 넘어섰다. 이는 AI 인프라에 대한 투자자 신뢰가 아직 식지 않았다는 신호다.

분석가들은 일반적인 면책 조항을 강조합니다. 과거 추세가 미래 결과를 보장하지 않습니다. 투자를 고려하는 사람은 스스로 철저히 조사하고 인가된 자문가와 상담해야 합니다.