글로벌

알리바바, 디지털 휴먼 영상 생성 오픈소스 모델 ‘Wan2.2-S2V’ 공개

단일 사진과 음성으로 영화급 아바타 구현, 다양한 해상도 지원

알리바바가 디지털 휴먼 영상 제작을 위한 최신 오픈소스 모델 ‘Wan2.2-S2V(Speech-to-Video)’를 27일 공개했다. 이 모델은 인물 사진 한 장과 음성 파일만으로 영화 수준의 아바타를 구현해 실제처럼 대화하고 노래하며 연기할 수 있게 한다.

‘Wan2.2-S2V’는 알리바바 ‘Wan2.2’ 영상 생성 시리즈에 포함된 모델로, 얼굴 클로즈업부터 상반신, 전신까지 다양한 화면 구도의 캐릭터 영상을 제작할 수 있다. 프롬프트 지시에 따라 동작과 배경 요소를 자동으로 생성해 제작자가 의도한 스토리와 디자인을 정밀하게 구현한다.

이 모델은 첨단 음성 기반 애니메이션 기술을 통해 자연스러운 대화부터 음악 공연까지 사실감 있는 캐릭터 연기를 구현하며, 한 장면에서 여러 캐릭터를 매끄럽게 처리한다. 만화풍과 동물, 스타일화된 캐릭터 등 다양한 아바타 제작도 지원한다.

전문 제작자의 다양한 요구를 반영해 480P와 720P 해상도를 지원한다. 이를 통해 전문적·창의적 기준을 충족하는 고품질 영상을 구현할 수 있으며, 소셜미디어 콘텐츠부터 프레젠테이션까지 폭넓게 활용할 수 있다.

‘Wan2.2-S2V’는 텍스트 기반 전체 동작과 음성 기반 세부 움직임을 결합해 기존의 토킹 헤드(talking head) 애니메이션을 뛰어넘는다. 복잡한 상황에서도 자연스럽고 풍부한 캐릭터 동작을 구현할 수 있다.

이 모델의 핵심 혁신은 혁신적인 프레임 처리 기술이다. 임의의 길이를 가진 이전 프레임들을 하나의 압축된 잠재 표현으로 압축함으로써 연산 부담을 크게 줄인다. 이러한 접근 방식을 통해 안정적인 긴 영상 생성이 가능해졌으며, 장편 애니메이션 콘텐츠 제작의 핵심 과제를 해결했다.

알리바바 연구팀은 영화·방송 제작 환경에 맞춘 대규모 음성·영상 데이터셋을 구축하고 다중 해상도 학습 기법을 적용했다. 이를 통해 모델의 성능이 한층 강화됐으며, 세로형 숏폼 콘텐츠부터 전통적인 가로 영화·TV 영상까지 다양한 형식을 유연하게 지원한다.

‘Wan2.2-S2V’ 모델은 허깅페이스(Hugging Face), 깃허브(GitHub), 알리바바 클라우드 오픈소스 커뮤니티 ‘모델스코프(ModelScope)’에서 다운로드할 수 있다. 알리바바는 올해 2월 ‘Wan2.1’ 모델과 7월 ‘Wan2.2’ 모델을 공개한 바 있으며, 현재까지 ‘Wan’ 시리즈는 허깅페이스와 모델스코프에서 690만 회 이상 다운로드됐다.

플래텀 중국 연구소장 / 편견 없는 시각으로 중국의 정치·경제·사회 현상을 관찰하고, 객관적인 분석을 통해 현지 상황을 이해하려 노력합니다.

댓글

Leave a Comment


관련 기사

글로벌

알리바바, 지능형 콕핏 및 AI글래스 공개

글로벌

알리바바, 에이전틱 AI 코딩 모델 ‘Qwen3-Coder’ 오픈소스 공개

글로벌

알리바바, 세계 최초 MoE 기반 영상 생성 모델 ‘Wan2.2’ 오픈소스 공개

글로벌

알리바바 클라우드, 싱가포르 AI 센터 설립으로 글로벌 주도권 확보 나서