Somake AI

Wan

Wan 2.7 是一款会‘思考’的 AI 视频创作工具!支持首尾帧控制、视频编辑及九宫格分镜输入,轻松生成带同步音效的电影级大片。

示例
0/2000
设置
时长
分辨率
宽高比
Multi Shots

Wan 是什么

Wan 是由阿里巴巴集团通义实验室开发的开源 AI 视频生成模型系列。Wan 系列代表了阿里巴巴在多模态 AI 领域的核心成果,旨在将文本提示词、图像和参考视频转化为具有真实动态表现和视觉一致性的高质量视频内容。

Wan 2.7 于 2026 年 4 月发布,它从一个单纯的生成模型显著扩展为一个功能更全的视频制作工具包——增加了帧级控制、基于指令的视频编辑以及内置的“思考”推理层。无论您是正在制作广告创意的营销人员,还是在进行场景预演的电影制作人,该版本提供的实用工具都能解决实际生产中的痛点。您可以在 Somake AI 的左侧面板中选择当前的最新版或早期的 Wan 版本。

当前版本:Wan 2.7(2026 年 4 月)


快速概览

属性详情
模型版本Wan 2.7
开发商阿里巴巴集团 —— 通义实验室
发布日期2026 年 4 月
核心优势首尾帧控制、视频对视频编辑、思维链推理
适用人群营销人员、教育工作者、独立电影人、自媒体创作者

Wan 2.7 —— 最新更新

Wan 2.7 将 Wan 系列从标准的生成模型扩展为更全面的视频制作套件。此版本引入了帧级精度控制、通过文本指令编辑现有素材的能力,以及用于实现更精准构图的内置推理引擎。

Wan 2.7 的主要改进:

  • 首尾帧生成:指定一个起始帧和一个结束帧,模型会自动计算并生成连接两者的平滑动作和逻辑过渡。

  • 视频对视频编辑 (Video-to-Video):上传现有的视频片段,并使用自然语言指令修改风格、环境或光影,同时保留原始的动作结构。

  • 九宫格图生视频:将 3×3 的九宫格分镜脚本转化为一段连续且连贯的视频叙事。

  • 思维链推理(思考模式):内置的推理层可确保更准确地理解提示词,带来更强的构图结构,并能清晰地渲染 12 种语言的文字。

  • 改进的主体引用:更好的身份锁定功能,可确保角色和物体在不同帧之间保持高度一致。(注意:某些高级多引用功能可能尚未在所有第三方平台上启用。)

上一个版本亮点 (Wan 2.6):

以下功能在 Wan 2.6(2025 年 12 月)中引入,并继续作为模型能力的一部分保留:

  • 多角色对话及清晰的语音分离

  • 角色引用系统(最多支持 3 个引用)—— Somake 暂未上线

  • 通过面部和语音样本创建个人化形象 —— Somake 暂未上线

  • 通过提示词控制环境和服装

  • 原生音视频同步


客观优缺点分析

✅ 优势(截至 v2.7 版本):

  • “思考模式”产生的构图明显更准确,文字渲染更清晰

  • 九宫格分镜输入衔接了策划与制作流程

  • 保持开源特性,为开发者提供了灵活的自定义部署空间

  • 继承了 2.5/2.6 版本的原生音视频同步功能

⚠️ 局限性(截至 v2.7 版本):

  • 人声表现力和情感化音频仍落后于 Veo 3 和 Sora 2 等顶尖闭源竞争对手

  • 包含多个角色的复杂动作序列仍可能产生视觉瑕疵

  • 与写实风格相比,二次元风格的视频生成能力依旧较弱 —— 这一点自 Wan 2.6 以来尚未得到显著改善

  • 输出中偶尔仍会出现语言部匹配的情况,尽管频率比之前的版本有所降低


最佳使用场景

面向营销人员和小型企业

  • 快速制作社媒广告: 想为 Instagram 制作一条 10 秒的抢眼视频?只需输入:“一张新款运动鞋溅起水花的动态画面,电影感,高能量”,几分钟内即可获得专业级的广告素材。

  • 产品视觉化: 在任何想象得到的场景中展示您的产品。例如:“放在洒满斜阳的桌子上的咖啡杯,背景是清冷雨后的巴黎咖啡馆,热气腾升。”

  • 前后对比序列: 利用首尾帧控制来制作精确的产品转变视频 —— 非常适合护肤品、装修或美食制作内容的展示。

面向教育工作者和学生

  • 历史视觉化: 老师可以生成一段“罗马士兵穿过森林,低角度拍摄”的片段,让课堂教学更具沉浸感。

  • 解析科学原理: 学生可以制作视频来解释复杂的主题,比如“穿越植物细胞的动画旅程,展示线粒体的工作过程。”

面向艺术家和独立电影人

  • 快速原型制作: 将剧本中的场景快速视觉化,以测试氛围和构图效果,节省宝贵的时间和资源。九宫格分镜输入让这一过程尤其高效。

  • 独特视觉特效 (VFX): 生成超现实的、梦幻般的序列或抽象的背景视觉效果,这些效果在现实生活中拍摄成本极高甚至无法实现。

  • 后期风格尝试: 使用视频对视频编辑功能,在正式进入手动编辑前,对现有素材测试不同的调色、光影条件或环境变化。

竞品对比:Wan 2.7 对标市场主流模型

特性Wan 2.7Veo 3.1Sora 2
最大分辨率1080P4K1080P
最长时长15 秒8 秒20 秒
音频真实度可用,略带机械感业界顶尖出色,自然
是否开源
视频编辑支持不支持性能不支持
文本渲染优秀优秀一般
价格免费 (开源项目) / 个人平台订阅昂贵昂贵

各有所长:

  • Wan 2.7 对于需要开源灵活性、帧级控制以及低成本视频编辑能力的个人用户来说是最佳选择。

  • Veo 3.1 在音频真实度和分辨率方面领先 —— 如果语音质量至关重要且预算充足,选择它更好。

  • Sora 2 提供更长的单段剪辑和非常自然的音频,适合较长的叙事序列。

您可以在 Somake AI 上将 Wan 2.7 与包括可灵 (Kling) 和 Seedance 在内的这些模型进行并排对比,无需切换不同平台。


Wan 2.6 高级提示词技巧

多镜头叙事提示词模板

电影感 [风格类型] 场景。
镜头 1:[全景/中景/特写] 镜头,[描述场景、角色和动作]。
镜头 2:[摄像机角度],[描述过渡和新焦点]。
镜头 3:[摄像机角度],[描述结局或最终时刻]。
风格:[写真/电影感/风格化]。光影:[自然光/戏剧化/柔光]。

首尾帧提示词模板

电影感 [风格类型] 场景。
起始帧:[描述起始构图、角色和光影]。
动作/过渡:[描述动态、运镜方式以及互动过程]。
结束帧:[描述最终画面状态]。
风格:[写真/电影感/风格化]。文本渲染:“[在引号中填入需要出现在屏幕上的文字]”。

提示词增强

当您的输入非常简单或想要更丰富的画面细节时,请开启“提示词增强”功能。系统会自动添加描述性元素,以改善输出中的构图、风格一致性和视觉连贯性。


常见问题及解决方案

问题:配音听起来有机械感或不自然
→ 解决方案:截至 Wan 2.7 版本,这仍然是一个技术局限。对于需要高度真实或情感丰富的配音项目,建议使用导出的视频画面,再另行搭配生成的或录制的音频。

问题:出现了预料之外的角色或超现实元素
→ 解决方案:虽然 Wan 2.7 的思考模式减少了这类瑕疵,但在提示词内容过载时仍可能发生。建议简化提示词并重新生成。

问题:动作场景有视觉扭曲
→ 解决方案:多角色的复杂动作序列是已知弱项。建议将动态场景拆分为更简单的镜头,并使用“首尾帧”功能来精确控制动作的起始和终点。

问题:标牌或衣服上的文字重叠乱码
→ 解决方案:Wan 2.7 通过思考模式大幅改进了 12 种语言的文本渲染。如果文字依旧乱码,请确保在提示词中用引号括起所需文字,并避免混合互相矛盾的参考图。

为什么选择 Somake 作为您的 AI 视频创作引擎?

1

无需技术门槛

本地运行 Wan 2.7 对硬件有极高要求。Somake AI 通过云端托管该模型,让您突破硬件限制,通过直观的网页界面即可轻松生成视频。

2

全能创意套件

在同一个平台上搞定图像和视频生成,实现从灵感原型到最终产出的流畅工作流。您可以在此处对比 Wan 2.7 与可灵 (Kling)、Seedance、PixVerse 等顶尖模型,省去多平台跳转的麻烦。

3

商用授权权利

付费订阅用户拥有作品的完整商用权,可以轻松地将生成的视频用于广告、营销活动以及客户项目。

常见问题 (FAQ)