글로벌

알리바바, 세계 최초 MoE 기반 영상 생성 모델 ‘Wan2.2’ 오픈소스 공개

  • 텍스트·이미지 기반 통합 프레임워크…연산 소모 50% 절감
  • “클릭 한 번으로 고품질 시네마틱 영상 제작” 3개 모델로 구성

알리바바가 업계 최초로 MoE(Mixture-of-Experts) 아키텍처를 적용한 오픈소스 대규모 영상 생성 모델 시리즈 ‘Wan2.2’를 공개했다.

이 모델은 크리에이터와 개발자들이 클릭 한 번으로 고품질 시네마틱 영상을 손쉽게 제작할 수 있도록 지원하는 것이 특징이다.

텍스트·이미지·하이브리드까지 3개 모델 통합

Wan2.2 시리즈는 텍스트 기반의 ‘Wan2.2-T2V-A14B’, 이미지 기반의 ‘Wan2.2-I2V-A14B’, 텍스트·이미지 통합 하이브리드 모델 ‘Wan2.2-TI2V-5B’ 등 총 3가지 모델로 구성된다. 다양한 영상 생성 입력 방식을 단일 프레임워크에 통합하도록 설계됐다.

Wan2.2-T2V-A14B와 Wan2.2-I2V-A14B는 MoE 아키텍처와 고도로 선별된 미적 데이터셋을 바탕으로 훈련되어, 조명·시간대·색조·구도·초점 거리·카메라 앵글 등 다양한 요소를 정밀하게 제어할 수 있다.

또한 인물의 표정 변화, 손 제스처, 스포츠 동작 등 복잡한 움직임 묘사에도 강점을 보이며, 물리 법칙을 반영한 현실적인 표현력과 고도화된 지시 이해력을 바탕으로 사실적인 영상 생성이 가능하다.

연산 소모 50% 절감하는 이중 전문가 시스템

긴 토큰으로 인해 발생하는 영상 생성 과정의 높은 연산 소모 부담을 줄이기 위해 Wan2.2 T2V-A14B와 Wan2.2-I2V-A14B는 확산 모델의 노이즈 제거(denoising) 과정에 두 개의 솔루션을 도입했다.

전체 장면 구성을 담당하는 ‘고노이즈 엑스퍼트(High-Noise Expert)’와 세밀한 디테일을 정교하게 다듬는 ‘저노이즈 엑스퍼트(Low-Noise Expert)’가 포함된 설계다. 두 모델 모두 총 270억 개 파라미터 중 매 스텝에서 140억 개만 활성화되며, 연산 소모를 최대 50%까지 줄여준다.

시네마틱 프롬프트로 미적 요소 세분화 제어

Wan2.2는 시네마틱 프롬프트 시스템을 통해 조명, 구도, 색감 등의 미적 요소를 세분화해 조절할 수 있도록 설계됐다. 이를 통해 사용자의 시각적 의도를 보다 정확하게 반영한 결과물을 생성할 수 있다.

기존 Wan2.1 대비 이미지 데이터는 65.6%, 영상 데이터는 83.2% 이상 확대된 학습 데이터셋을 활용해 복잡한 장면 및 창의적 표현력에서도 한층 향상된 성능을 보인다.

일반 GPU에서도 수 분 내 720p 영상 생성

하이브리드 모델인 Wan2.2-TI2V-5B는 고압축 3D VAE 구조를 활용해 시간 및 공간 축을 각각 4x16x16 비율로 압축, 전체 압축률 64배를 달성했다. 이를 통해 일반 소비자용 GPU에서도 수 분 이내에 5초 분량의 720p 영상을 생성할 수 있으며, 높은 처리 효율성과 확장성을 제공한다.

현재 Wan 2.2 모델은 허깅페이스(Hugging Face), 깃허브(GitHub), 알리바바 클라우드 오픈소스 커뮤니티 모델스코프(ModelScope)에서 누구나 무료로 다운로드할 수 있다.

누적 540만 건 다운로드 기록한 오픈소스 기여

알리바바는 글로벌 오픈소스 커뮤니티에 기여하는 주요 기술 기업으로, 지난 2월에는 Wan2.1 시리즈의 4가지 모델을, 5월에는 영상 생성·편집 통합 모델 Wan2.1-VACE(Video All-in-one Creation and Editing)를 각각 오픈소스로 공개한 바 있다.

현재까지 해당 모델들은 허깅페이스와 모델스코프에서 누적 540만 건 이상의 다운로드를 기록하며 높은 관심을 받고 있다.

플래텀 중국 연구소장 / 편견 없는 시각으로 중국의 정치·경제·사회 현상을 관찰하고, 객관적인 분석을 통해 현지 상황을 이해하려 노력합니다.

댓글

Leave a Comment


관련 기사

글로벌

홍콩 사이버포트, 27개 선도기업과 AI·디지털 자산 생태계 구축 발표

스타트업

텔레픽스, 위성정보 특화 AI 검색모델 ‘픽시’ 오픈소스 공개

투자

2025년 8월 스타트업 투자시장, AI·딥테크·블록체인 분야가 주도

스타트업

딥브레인AI, 이미지 한 장으로 AI 아바타 광고 영상 제작 기능 출시