본문 바로가기
카테고리 없음

“영상 AI가 여기까지 왔다고?” WAN 2.6 모델 사용해보기

by joa8947 2025. 12. 22.
반응형

알리바바(Alibaba Group)는 인공지능(AI) 비주얼 생성 모델의 최신 버전인 ‘완 2,6(Wan 2.6)’ 시리즈를 17일 공개하였습니다.

달라진점, 일관성을 유지할수 있는 기능

Wan2.6-R2V(Reference to Video), 사용자가 외모와 목소리가 포함된 캐릭터 참조 영상을 업로드한 뒤 텍스트 프롬프트를 입력하면, 동일한 캐릭터가 주인공으로 등장하는 새로운 장면을 생동감 있게 생성할수 있습니다. 또한 기존 i2v, t2v 사용가능하며, 멀티모달(multimodal) 참조 생성 기술을 기반 으로 스토리텔링을 보다 쉽게 구성할수 있습니다. 한번 생성하는데 최대 15초를 한번에 생성가능해졌습니다.

“내가 만든 캐릭터가 다른 상황으로 자연스럽게 이어지는 영상”을

AI가 알아서 만들어 준다는 의미죠.



왜 이게 중요한가

기존 대부분의 AI 영상 모델은

텍스트 프롬프트나 정지 이미지 하나만으로

‘움직이는 클립’을 생성합니다. 하지만 이 방식은 다음과 같은 문제가 있었죠:

 

캐릭터 얼굴이 장면마다 달라 보인다
움직임이 부자연스럽다
영상 전체 흐름이 이어지지 않는다

 

그러나 WAN 2.6부터는 바로 이 부분이 해결 방향에 들어섭니다.

참조 기반 영상 생성은

📍 캐릭터 정체성 유지

📍 목소리·외모·움직임 특징 보존

📍 멀티샷 스토리텔링 (장면 전환의 흐름)

등을 동시에 잡아 줍니다.

즉, 지금까지는 “장면 하나만 잘 나오면 만족”이었다면,

이제는 “연속된 서사를 만들어내는 AI”로 진화한다는 말입니다.


 

 



멀티모달로 확장된 세대 이동

WAN 2.6은 단일 기능이 아닙니다.

이미지→영상(Text-to-Video), 이미지→영상(Image-to-Video)에 이어

참조 기반(Reference-to-Video)을 포함한 멀티모달 AI 비디오 모델입니다.

주요 특징을 정리하면 다음과 같습니다:

Reference 기반 영상 생성 — 업로드된 영상의 캐릭터/목소리/스타일을 유지하는 생성

1080p 고해상도, 15초 출력 지원 — 전문 콘텐츠 제작도 가능

오디오-비주얼 동기화 (Native A/V Sync) — 입모양·음악·음성까지 자동 정렬

지능형 멀티샷 스토리텔링 — 여러 장면을 연속적으로 하나의 영상처럼 생성

이 모든 것이

“단발성 짤 영상”이 아니라

“구조화된 영상 생성”을 목표로 하고 있다는 점이 특별합니다.

 

 

Brunch Brother 맨투맨 셋업 브런치 드로잉 : 조아몰 - 로마네 공식 온라인 파트너

조아몰(JOAMALL)은 로마네(ROMANE) 공식 온라인 파트너입니다. 꾸미고, 쓰고, 선물하는 즐거움! 감성 문구, 디자이너 굿즈, 일러스트 소품까지. 정품만을 빠르고 안전하게 배송합니다.

joamall25.imweb.me

 

적용 가능성이 기대되는 분야들

WAN 2.6은 다음과 같은 분야에서 특히 강점이 있습니다.

 

숏폼 콘텐츠 제작자 — TikTok/Reels 등
브랜드 광고/프로모션 영상
스토리 중심의 영상 프레임 제작
교육/해설 콘텐츠 자동 생성
AR/VR 스토리텔링 영상 베이스
기존에는 영상 기획과 편집이 별도의 기술이었지만,
이제는 AI가 초기 구조까지 자동화해 줄 수 있는 수준으로 진입했습니다.

 

 

 

향후 시장 영향과 기대

WAN 2.6 공개 자체가

단순한 모델 업데이트가 아닙니다.

AI 영상이

‘노바툴(Novelty Tool)’ → ‘실사용 도구(Production Tool)’로

완전히 넘어가는 분기점으로 보입니다.

영상 퀄리티가 높아지고

오디오까지 동기화되며

영상 전체 흐름을 이해하는 수준에 온 지금,

앞으로는

“AI가 영상의 전체 구조와 장면을 설계한다”는 아이디어가

그냥 실험이 아니라 일상적 작업 방식으로 자리잡을 가능성이 높습니다.

wan2.6 은 해당 사이트에서 이용해 보실수 있습니다.

https://artlist.io/

https://www.joypix.ai/app/ko/wan-ai/wan-2.6/

 

반응형