알리바바, 세계 최초 MoE 기반 영상 생성 모델 'Wan2.2' 오픈소스 공개

텍스트·이미지 기반 통합 프레임워크…연산 소모 50% 절감
“클릭 한 번으로 고품질 시네마틱 영상 제작” 3개 모델로 구성

알리바바가 업계 최초로 MoE(Mixture-of-Experts) 아키텍처를 적용한 오픈소스 대규모 영상 생성 모델 시리즈 ‘Wan2.2’를 공개했다.

이 모델은 크리에이터와 개발자들이 클릭 한 번으로 고품질 시네마틱 영상을 손쉽게 제작할 수 있도록 지원하는 것이 특징이다.

텍스트·이미지·하이브리드까지 3개 모델 통합

Wan2.2 시리즈는 텍스트 기반의 ‘Wan2.2-T2V-A14B’, 이미지 기반의 ‘Wan2.2-I2V-A14B’, 텍스트·이미지 통합 하이브리드 모델 ‘Wan2.2-TI2V-5B’ 등 총 3가지 모델로 구성된다. 다양한 영상 생성 입력 방식을 단일 프레임워크에 통합하도록 설계됐다.

Wan2.2-T2V-A14B와 Wan2.2-I2V-A14B는 MoE 아키텍처와 고도로 선별된 미적 데이터셋을 바탕으로 훈련되어, 조명·시간대·색조·구도·초점 거리·카메라 앵글 등 다양한 요소를 정밀하게 제어할 수 있다.

또한 인물의 표정 변화, 손 제스처, 스포츠 동작 등 복잡한 움직임 묘사에도 강점을 보이며, 물리 법칙을 반영한 현실적인 표현력과 고도화된 지시 이해력을 바탕으로 사실적인 영상 생성이 가능하다.

연산 소모 50% 절감하는 이중 전문가 시스템

긴 토큰으로 인해 발생하는 영상 생성 과정의 높은 연산 소모 부담을 줄이기 위해 Wan2.2 T2V-A14B와 Wan2.2-I2V-A14B는 확산 모델의 노이즈 제거(denoising) 과정에 두 개의 솔루션을 도입했다.

전체 장면 구성을 담당하는 ‘고노이즈 엑스퍼트(High-Noise Expert)’와 세밀한 디테일을 정교하게 다듬는 ‘저노이즈 엑스퍼트(Low-Noise Expert)’가 포함된 설계다. 두 모델 모두 총 270억 개 파라미터 중 매 스텝에서 140억 개만 활성화되며, 연산 소모를 최대 50%까지 줄여준다.

시네마틱 프롬프트로 미적 요소 세분화 제어

Wan2.2는 시네마틱 프롬프트 시스템을 통해 조명, 구도, 색감 등의 미적 요소를 세분화해 조절할 수 있도록 설계됐다. 이를 통해 사용자의 시각적 의도를 보다 정확하게 반영한 결과물을 생성할 수 있다.

기존 Wan2.1 대비 이미지 데이터는 65.6%, 영상 데이터는 83.2% 이상 확대된 학습 데이터셋을 활용해 복잡한 장면 및 창의적 표현력에서도 한층 향상된 성능을 보인다.

일반 GPU에서도 수 분 내 720p 영상 생성

하이브리드 모델인 Wan2.2-TI2V-5B는 고압축 3D VAE 구조를 활용해 시간 및 공간 축을 각각 4x16x16 비율로 압축, 전체 압축률 64배를 달성했다. 이를 통해 일반 소비자용 GPU에서도 수 분 이내에 5초 분량의 720p 영상을 생성할 수 있으며, 높은 처리 효율성과 확장성을 제공한다.

현재 Wan 2.2 모델은 허깅페이스(Hugging Face), 깃허브(GitHub), 알리바바 클라우드 오픈소스 커뮤니티 모델스코프(ModelScope)에서 누구나 무료로 다운로드할 수 있다.

누적 540만 건 다운로드 기록한 오픈소스 기여

알리바바는 글로벌 오픈소스 커뮤니티에 기여하는 주요 기술 기업으로, 지난 2월에는 Wan2.1 시리즈의 4가지 모델을, 5월에는 영상 생성·편집 통합 모델 Wan2.1-VACE(Video All-in-one Creation and Editing)를 각각 오픈소스로 공개한 바 있다.

현재까지 해당 모델들은 허깅페이스와 모델스코프에서 누적 540만 건 이상의 다운로드를 기록하며 높은 관심을 받고 있다.

AI MoE Wan2.2 알리바바

허민혜

플래텀 중국 연구소장 / 편견 없는 시각으로 중국의 정치·경제·사회 현상을 관찰하고, 객관적인 분석을 통해 현지 상황을 이해하려 노력합니다.

허민혜

텍스트·이미지·하이브리드까지 3개 모델 통합

연산 소모 50% 절감하는 이중 전문가 시스템

시네마틱 프롬프트로 미적 요소 세분화 제어

일반 GPU에서도 수 분 내 720p 영상 생성

누적 540만 건 다운로드 기록한 오픈소스 기여

허민혜

댓글

Leave a Comment

✨ 많이 본 기사

💌 플래텀 뉴스레터 구독

개인정보 수집 및 이용

딥브레인AI, 스마트 관광·AI 심리상담사 등 AI 휴먼 서비스 본격화

Platum

앤트로픽, 벤자민 맨 방한해 국내 AI 스타트업과 교류… 클로드 활용 경험 공유

김문선

AI가 AI와 협상하는 시대, 브랜드는 무엇을 준비해야 하나

손요한

모바일 때 3년 늦었다…AI 전환은 가장 빠르게

손요한

알리바바, 세계 최초 MoE 기반 영상 생성 모델 ‘Wan2.2’ 오픈소스 공개

허민혜

텍스트·이미지·하이브리드까지 3개 모델 통합

연산 소모 50% 절감하는 이중 전문가 시스템

시네마틱 프롬프트로 미적 요소 세분화 제어

일반 GPU에서도 수 분 내 720p 영상 생성

누적 540만 건 다운로드 기록한 오픈소스 기여

허민혜

댓글

Leave a Comment

✨ 많이 본 기사

💌 플래텀 뉴스레터 구독

개인정보 수집 및 이용

관련 기사

딥브레인AI, 스마트 관광·AI 심리상담사 등 AI 휴먼 서비스 본격화

Platum

앤트로픽, 벤자민 맨 방한해 국내 AI 스타트업과 교류… 클로드 활용 경험 공유

김문선

AI가 AI와 협상하는 시대, 브랜드는 무엇을 준비해야 하나

손요한

모바일 때 3년 늦었다…AI 전환은 가장 빠르게

손요한