알리바바, Wan2.2 오픈소스 비디오 AI 출시… 개발자 커뮤니티 기술적 평가 엇갈려

알리바바, 오픈소스 비디오 AI 'Wan2.2' 출시…개발자 커뮤니티 기술적 평가 엇갈려

AI 생성 비디오의 치열한 경쟁 구도 속에서, 알리바바의 통이 연구소(Tongyi Lab)는 최신 오픈소스 영상 생성 시스템인 Wan2.2를 공개했습니다. 아파치 2.0 라이선스로 출시된 이 모델군은 일반 소비자용 하드웨어에서도 구동되며, 조명, 색상, 구도에 대한 전례 없는 제어 기능을 통해 영화 같은 품질의 영상을 약속합니다. 하지만 전 세계 개발자들이 이러한 주장을 시험대에 올리면서, 더욱 미묘한 현실이 드러나고 있습니다.

영상 생성의 판도를 바꾸는 세 가지 모델

알리바바의 전략은 특화에 중점을 두어, 사용 사례에 따라 세 가지의 독특한 모델을 선보입니다.

플래그십 모델인 T2V-A14B는 순수 텍스트-투-비디오(text-to-video) 생성을 담당하며, 480P 또는 720P 해상도의 5초 분량 클립을 생성합니다. 이와 함께 I2V-A14B는 이미지-투-비디오(image-to-video) 변환에 특화되어 있으며, 이전 세대에 비해 눈에 띄게 아티팩트(artifact)가 줄었습니다. 두 모델 모두 80GB 이상의 VRAM을 필요로 하는 상당한 컴퓨팅 자원을 요구하므로, 전문적인 영역에 속합니다.

하지만 놀라운 주목을 받고 있는 것은 TI2V-5B입니다. 이 하이브리드 모델은 텍스트와 이미지 입력을 모두 받아들이며, RTX 4090과 같은 일반 소비자용 GPU에서 24fps의 720P 영상을 생성합니다. 이 더 작은 모델은 이전에는 데이터 센터에 국한되었던 기술을 대중화하여, 5초 분량의 클립을 9분 이내에 완성합니다.

세 가지 모델을 모두 테스트한 한 머신러닝 엔지니어는 "5B 모델의 성능 대비 접근성 비율은 진정한 변곡점을 나타냅니다. 이는 이전에는 클라우드 API 크레딧이 필요했던 기능을 소비자 하드웨어로 가져다줍니다"라고 평가했습니다.

오해의 소지가 있는 MoE: 아키텍처적 눈속임

기술 분석가들은 알리바바가 Wan2.2를 "전문가 혼합(Mixture-of-Experts, MoE)" 아키텍처로 특징지은 주장에 의구심을 표하며, 이는 더 면밀한 검토가 필요하다고 지적합니다.

동적 라우팅을 사용하는 전통적인 MoE 시스템과 달리, Wan2.2는 스테이블 디퓨전 XL(Stable Diffusion XL)의 기본-정제(base-refiner) 방식과 유사한 2단계 확산(diffusion) 파이프라인으로 구현되었습니다. 이 시스템은 두 가지 전문 구성 요소를 사용합니다. 하나는 레이아웃 및 구도를 위해 처음부터 학습된 고노이즈(high-noise) 전문가이고, 다른 하나는 세부 정제를 위해 Wan2.1에서 미세 조정된 저노이즈(low-noise) 전문가입니다.

확산 모델을 전문으로 하는 한 연구원은 "이것은 라우팅 레이어가 있는 진정한 MoE가 아닙니다. 본질적으로 노이즈 수준에 기반한 전문가 전환이며, 물론 의미 있는 최적화이긴 하지만, 대부분이 MoE 아키텍처로 간주하는 것은 아닙니다"라고 설명했습니다.

총 파라미터 수는 270억 개에 달하지만, 추론 단계에서는 140억 개만 활성화되어 시스템이 신경망 용량을 효과적으로 두 배로 늘리면서 메모리 효율성을 유지할 수 있습니다.

두 가지 VAE 이야기: 기술적 분열

아마도 Wan2.2의 개발 우선순위를 가장 잘 보여주는 것은 압축 기술일 것입니다. 5B 모델은 Wan2.1의 4x8x8 VAE(Variational Autoencoder)보다 4배 효율적인 16x16x4라는 놀라운 압축률을 달성하는 새로운 VAE를 도입했습니다. 이는 더 작은 모델이 적은 파라미터 수에도 불구하고 24fps의 720P 영상을 생성할 수 있게 합니다.

흥미롭게도, 더 강력한 14B 모델들은 여전히 구형의 비효율적인 Wan2.1 VAE를 사용하고 있습니다. 이는 '저가형' 모델이 프리미엄 모델보다 더 진보된 압축 기술을 사용하는 상황을 만듭니다.

두 시스템을 벤치마킹한 한 개발자는 "2.2 모델이 여전히 2.1 VAE를 사용하는 것이 이상하게 느껴집니다. 이러한 불일치는 통합된 워크플로우에 불필요한 장벽을 만듭니다"라고 지적했습니다.

현미경 아래에서: 보도자료를 넘어선 실제 성능

커뮤니티 벤치마크는 마케팅 주장과 실제 성능 간의 극명한 대조를 보여줍니다. AWS 크레딧에 10달러를 투자하여 모델을 테스트한 중국 지후(Zhihu) 사용자는 다음과 같은 놀라운 결과를 보고했습니다.

5B 모델은 소비자용 하드웨어(RTX 4090)에서 훌륭하게 작동하며, 약 2.5분 만에 20단계 노이즈 제거(denoising steps)를 완료하고 총 생성 시간은 약 9분입니다. 그러나 텍스트 렌더링에 지속적으로 어려움을 겪고, "8비트 레트로"와 같은 스타일 프롬프트를 무시하며, 특히 얼굴이나 세부 장면에서 현저하게 "낮은 충실도"의 결과를 생성합니다.

테스터는 "5B에서 영화 같은 품질을 기대하지 마십시오. 레트로 또는 애니메이션 장면에 훌륭하지만, 사람, 텍스트 또는 미세한 디테일에서는 어려움을 겪습니다"라고 경고했습니다.

L40S GPU(48GB VRAM)에서 테스트된 14B 모델은 훨씬 향상된 프레임 일관성과 현실감을 제공하지만, 상당한 비용이 듭니다. 메모리 효율적인 FP8 모드에서도 단일 5초 분량의 영상을 생성하는 데 약 48분이 소요됩니다. 더 큰 문제는, 더 작은 모델과 마찬가지로 텍스트 렌더링 및 스타일 프롬프트 준수에서 동일한 근본적인 한계를 여전히 보인다는 점입니다.

통합 환경: 생태계 준비 상태

Wan2.2의 실제 유용성은 기존 워크플로우와의 통합에 크게 좌우됩니다. 알리바바는 ComfyUI 및 Diffusers를 포함한 인기 있는 프레임워크와의 호환성을 보장했으며, LoRA 학습, FP8 양자화, 다중 GPU 추론을 지원합니다.

그러나 Wan2.1 생태계의 주요 기능(VACE 지원, 장면 보간, 프레임 예측 포함)은 눈에 띄게 부재합니다. 이러한 기능의 부족과 14B 모델에서 구형 VAE가 계속 사용되는 점은 생태계 일관성보다 마케팅 목표를 우선시한 파편화된 개발 접근 방식을 시사합니다.

방대한 데이터의 힘: 숨겨진 규모

Wan2.2의 기능 뒤에는 엄청난 데이터 스케일링 노력이 숨어 있습니다. 알리바바의 문서에 따르면, 이 시스템은 이전 버전보다 65.6% 더 많은 이미지와 83.2% 더 많은 비디오로 학습되었으며, 이는 모션 처리, 의미론적 정확성, 미학적 품질에서 측정 가능한 개선으로 이어졌습니다.

이러한 방대한 데이터 학습은 Wan2.2의 가장 인상적인 기능을 가능하게 합니다. 60개 이상의 매개변수를 통해 세밀한 미학적 제어가 가능하며, 사용자는 이전에는 전문 비디오 편집 소프트웨어에서만 가능했던 정밀도로 조명, 색상 보정, 카메라 스타일을 조정할 수 있습니다.

시장 분석: 비디오 AI 경쟁에서의 투자 관점

AI 영상 생성 분야를 추적하는 투자자들에게 Wan2.2는 기회이자 주의를 요하는 대상입니다. 소비자 모델과 전문가 모델 간의 명확한 성능 격차는 특정 하드웨어 구성에 맞춰 시스템을 최적화하는 미들웨어 솔루션에 대한 상당한 잠재력을 시사합니다.

GPU 메모리 최적화, 모델 양자화, 전문 추론 엔진을 개발하는 기업들은 콘텐츠 제작자들이 14B 규모 모델을 접근 가능한 하드웨어에서 실행할 방법을 찾으면서 수요가 증가할 수 있습니다. 마찬가지로, 이 모델에 최적화된 추론을 제공하는 클라우드 제공업체는 전문 GPU에 투자할 의사가 없는 제작자들로부터 상당한 시장 점유율을 확보할 수 있습니다.

Wan2.2 자체의 기술적 파편화(특히 일관성 없는 VAE 구현)는 이러한 이질적인 접근 방식을 일관된 워크플로우로 통합할 수 있는 기업들에게 기회를 제공합니다. 포스트 프로세싱이나 하이브리드 렌더링을 통해 5B 모델과 14B 모델 간의 품질 격차를 해소하는 도구를 개발하는 소프트웨어 개발자들은 상당한 인기를 얻을 수 있습니다.

AI 가속 전문 하드웨어 제조업체도 이익을 얻을 것입니다. 14B 모델 실행에 있어 엔비디아(NVIDIA)의 L-시리즈와 같은 GPU가 소비자용 카드보다 명확한 이점을 보이면서, 클라우드 서비스에 의존하기보다 이러한 기능을 로컬에서 활용하려는 진지한 콘텐츠 제작자들 사이에서 새로운 업그레이드 주기를 촉진할 수 있습니다.

투자 관점: 현재 AI 영상 생성 기술의 파편화된 특성은 통합 및 최적화 솔루션에서 기회를 시사합니다. 하드웨어 가속, 메모리 효율적인 추론, 워크플로우 통합 도구를 개발하는 기업들은 이러한 모델의 채택 증가로 이익을 얻을 수 있습니다. 소비자 및 전문가 구현 간의 상당한 성능 격차는 잠재적인 미들웨어 시장을 가리킵니다. 하지만 투자자들은 이 기술이 급변하고 있으며, 다음 세대에서는 근본적인 아키텍처 변화가 일어날 가능성이 있다는 점을 인식해야 합니다. 유사 기술의 과거 성과가 미래 결과를 보장하지 않으며, 기술 동향에 기반한 투자 결정을 내리기 전에 재정 고문과 상담하는 것이 권장됩니다.