使用 Wan 2.6,轻松将文本和图片变成视频。支持精准口型同步、多角色对话和创建您的专属虚拟人!
暂无历史记录
生成失败
Wan 是由阿里巴巴集团通义实验室开发的开源 AI 视频生成模型系列。Wan 系列是阿里巴巴在多模态 AI 领域的旗舰产品,能够将文本提示、图片和参考视频转化为高质量且动作真实、画面一致的视频内容。
当前版本:Wan 2.6(2025年12月)
最近更新时间:2025年12月
Wan 2.6 在 2.5 版本发布后不久上线,重点提升了多模态融合和创意控制能力。本次更新针对之前版本的关键局限进行了优化,并新增了更适合复杂内容制作的新功能。
原生音频生成升级:音质较 Wan 2.5 明显提升,发音更自然,但在语音真实感上仍略逊于 Veo 3 和 Sora 2 等高端竞品
时长扩展:支持最长 15 秒的 1080P 视频片段,可拼接多个片段生成更长内容
角色参考系统:可上传最多三个视频角色参考,保证不同时代视频生成的一致性 (注意:此功能暂未在 Somake 平台开放)
个人虚拟人创建:录制多角度人脸和语音样本,生成属于自己的专属 AI 形象 (注意:此功能暂未在 Somake 平台开放)
多角色对话:清晰呈现多角色交流,无语音重叠困扰
场景与服饰控制:通过提示词即可改变角色服饰和环境场景
流畅动作表现:视频输出具备逼真的镜头效果,如缩放和虚化,动作丝滑自然
角色形象和声音有时与参考素材不完全一致——人脸和声音偶尔有差异
多角色复杂动作场景(如打斗)易出现画面瑕疵和变形
二次元风格视频生成效果较写实风格为弱
部分功能偶有不稳定,包括输出语种偶尔出现混乱
有时会出现意外或超现实元素,这是当前文本生成视频 AI 的共性挑战
版本 | 主要能力 | 最长时长 | 最高分辨率 | 音频支持 |
|---|---|---|---|---|
Wan 2.1 | 文本转视频、图片转视频、画面文字生成 | 5 秒 | 720P | 不支持 |
Wan 2.2 | 效率提升、集成 VACE、开源 | 5 秒 | 720P | 不支持 |
Wan 2.5 | 音画同步、动作增强 | 10 秒 | 1080P | 基础 |
Wan 2.6 | 多镜头叙事、角色参考、自定义虚拟人 | 15 秒 | 1080P | 原生音画表现增强 |
快速社交广告:需要一个能吸引眼球的 10 秒 Instagram 短视频?只要输入 “一只新款运动鞋飞溅水花镜头,画面有电影感,节奏感强”,几分钟就能获得专业级的广告片。
产品可视化:随心创作任何场景下的产品展示视频。例如 “我们的新款咖啡杯摆放在温馨、细雨中的巴黎咖啡馆桌上,蒸汽袅袅升起”。
历史场景可视化:老师可以快速生成片段:“一队罗马士兵在森林中行军,低角度拍摄”,让课堂变得更生动有趣。
科学原理讲解:学生可用视频辅助说明复杂知识,比如:“一段穿越植物细胞的动画,展示线粒体如何工作”。
快速剧本分镜:将剧本中的场景即时可视化,提前测试氛围和画面构图,节省时间与制作成本。
独特视觉特效 (VFX):生成极具梦幻感或超现实抽象的背景视觉,这些画面在现实中难以拍摄。
多镜头叙事提示词模板
一个电影感的【类型】场景。
镜头1:【远景/中景/特写】,描述场景、角色及动作。
镜头2:镜头角度,描述转场及新内容。
镜头3:镜头角度,描述结尾或高潮瞬间。
画面风格:【写实/电影感/美术风】。光线:【自然/戏剧/柔光】。
角色参考最佳实践
角色参考视频选择正面清晰光线画面
创建个人虚拟人时推荐录制多角度素材视频
角色参考建议最多上传 3 个,保证一致性最佳
匹配语音时请上传无杂音的清晰音频样本
人脸和声音复现会有细微差异,建议多次生成比对
表现优秀:对白场景、访谈镜头、单角色突出、简单互动、多角色对话
谨慎使用:多角色动作、打斗编排、快速运动场面
尽量避免或有瑕疵:复杂动漫风、群体动态大场面
当你的输入较简单或希望画面更丰富时,可开启提示词扩充,系统会自动添加描述细节,优化画面内容、风格和整体效果。
问题:语音听起来生硬或不自然 → 解决方法:这是 Wan 2.6 当前的限制。如果对语音还原要求较高,建议视频生成后单独录制或合成音频。
问题:出现意外角色或超现实画面 → 解决方法:文本生成视频常有 AI 瑕疵,可简化提示词、减少角色或元素数量后再次生成。使用前请仔细检查输出结果。
问题:动作场景容易变形或失真 → 解决方法:多角色复杂动作是已知弱项。建议将动态场景分解为简单镜头,每段聚焦 1-2 个角色,避免编排复杂的打斗。
问题:动漫风格画面效果较差 → 解决方法:Wan 2.6 在二次元画面生成方面较弱。开发动漫内容可尝试其他模型,或优先使用写实类提示词。
问题:输出内容语种出错 → 解决方法:偶有语言不一致情况,请在提示词明确指定目标语种,如有误请重新生成。
界面操作极为简单,人人都能快速生成专业视觉内容——只需描述你想要的效果,几秒钟即可生成。
图片和视频生成全程在同一平台搞定,从创意到成品,工作流程顺畅高效。
付费用户享有创作内容的完整商业使用权,用于广告、推广、客户项目都毫无压力。
完全不需要!这正是平台最大的优点。所有复杂处理都由我们的服务器完成,你只需有个能联网浏览网页的设备即可开始创作。
当然可以!平台上生成的视频归你所有,无论是用于营销推广、带货视频、还是你的商业 YouTube 频道,都可以放心商用。
Wan 2.6 是阿里巴巴推出的开源 AI 视频生成模型,可将文本、图片或参考视频转化为视频。具备多镜头叙事、原生音画同步和角色一致性工具,单段输出最长可达 15 秒,最高支持 1080P。
相比 Wan 2.5,音频质量显著提升,已经接近主流高端模型,但语音的自然度仍比 Veo 3 和 Sora 2 略逊一筹,偶尔会有机械感。