글로벌

알리바바, 생성형 AI ‘Wan 2.6’ 공개… “내 얼굴·목소리 그대로 입힌다”

알리바바가 사용자의 외모와 목소리를 유지한 채 새로운 상황의 영상을 만들어내는 차세대 비주얼 생성 AI 모델을 선보였다.

알리바바는 17일 비주얼 생성 모델의 최신 버전인 ‘Wan 2.6’ 시리즈를 공개했다. 이번 버전은 기존 모델의 성능을 전반적으로 개선하고, 영상 제작의 난제였던 캐릭터 및 음성의 일관성을 유지하는 기술을 탑재한 것이 특징이다.

이번 시리즈에서 가장 주목되는 기능은 ‘Wan2.6-R2V(Reference to Video)’ 모델이다. 이 기술은 사용자가 인물의 외모와 목소리가 담긴 참조(Reference) 영상을 업로드한 뒤 텍스트 명령어를 입력하면, 동일한 캐릭터가 주인공으로 등장하는 새로운 장면을 생성해 준다.

기존 영상 생성 AI가 장면이 바뀔 때마다 인물의 생김새가 미묘하게 달라지는 한계가 있었던 반면, Wan 2.6은 원본의 시각적 특징과 음성을 유지한다. 단일 인물뿐만 아니라 동물, 사물, 혹은 여러 주체가 등장하는 영상에서도 일관성을 지원한다. 알리바바 측은 이 기술이 숏폼 드라마 제작 등 연속적인 스토리텔링이 필요한 분야에서 활용도가 높을 것으로 보고 있다.

기존의 텍스트-영상(T2V), 이미지-영상(I2V) 모델도 기능이 강화됐다.

주요 개선 사항으로는 여러 장면이 이어져도 시각적 톤을 유지하는 ‘지능형 멀티샷(Multi-shot)’ 기능, 오디오와 입모양 등을 맞추는 오디오-비주얼 동기화, 오디오를 기반으로 영상을 만드는 기능 등이 포함됐다. 영상 출력 길이는 최대 15초로 늘어나, 기존보다 호흡이 긴 콘텐츠 제작이 가능해졌다.

이미지 생성 영역에서는 텍스트와 이미지를 교차 출력(Interleaved)하는 기능을 통해 논리적인 서사 전개를 지원하며, 복잡한 중국어 및 영어 프롬프트에 대한 이해도를 높여 사용자의 의도를 보다 정확히 반영하도록 설계됐다.

사용자는 알리바바 클라우드의 AI 개발 플랫폼 ‘모델스튜디오(Model Studio)’와 Wan 공식 웹사이트를 통해 해당 모델을 이용할 수 있으며, 향후 알리바바의 AI 애플리케이션 ‘큐원(Qwen)’에도 해당 기능이 통합될 예정이다.

플래텀 중국 연구소장 / 편견 없는 시각으로 중국의 정치·경제·사회 현상을 관찰하고, 객관적인 분석을 통해 현지 상황을 이해하려 노력합니다.

댓글

댓글 남기기


관련 기사

글로벌

딥시크·유니트리 배출한 항저우, 10년 전부터 준비했다

스타트업

리콘랩스, 생성형 AI 통합 디자인 플랫폼 ‘젠프레소’ 공식 출시

글로벌

[중국 비즈니스 트렌드&동향] 중국 테크가 치르는 성숙의 대가

글로벌

앤트로픽, 차세대 AI 모델 ‘클로드 오퍼스 4.5’ 공개… 코딩 및 에이전트 성능 강화