Q3 会自动生成音频吗？

是的。对话、音效和背景音乐会自动作为生成结果的一部分。无需单独创作音频。

支持哪些语言？

目前支持中文、英文和日文的对话生成以及视频内文本呈现。

Q2 侧重于多参考图的一致性。Q3 则增加了时长、原生音频、智能剪辑和文本渲染功能。

没问题。Q3 在处理复杂物理模拟和多主体互动方面表现优异，画面稳定性极高。

表现非常出色。Vidu 以其优秀的 2D 一致性和流畅的风格化动画表现而闻名。

使用 Vidu Q3 轻松生成 16 秒 AI 视频，自带同步对话、特效音及背景音乐。支持智能剪辑、1080p 高清输出及多语言翻译，让创意秒变大片。

示例

Vidu 是由生数科技与清华大学联合研发的一系列 AI 视频生成模型。

不同于以往版本（如 Vidu 1.0 和 1.5）需要分别处理画面和音频的后期制作，Vidu Q3 是一款“全能型”生成引擎。

当前版本：Vidu Q3

仅需一次操作，即可生成长达 16 秒的同步视频，包含人物对话、环境音效和背景音乐。完全无需后期配音。

Vidu Q3 可以根据你的剧本自动切换视角和场景。比如一段对话场景，可以从全景拉开序幕，在关键时刻切入特写，最后回到中景——这一切只需一段提示词即可实现。

该模型精通专业的摄像语言：推镜头、平移、跟拍、环绕视角以及希区柯克变焦。每一帧画面都像是经过专业导演精心设计的。

像写电影简报一样构建你的提示词：

[主体] + [动作] + [场景] + [镜头] + [音频]

示例：

一位穿着红大衣的年轻女子走在夜晚雨后的东京小巷里。
霓虹灯招牌倒映在湿滑的路面上。她停下脚步，抬头微笑。
镜头：远景跟拍，随后切换到脸部特写。
音频：下雨的环境音，远处的车流声，轻柔的钢琴背景音乐。
对话（英文）：她低声说道："Finally, I'm home."

运用镜头术语：多使用 "dolly zoom"（滑动变焦）、"low-angle tracking"（低角度跟拍）或 "orbit 360°"（360度环绕）等词汇
添加音频提示：加入类似 [SFX: glass shattering]（玻璃破碎声）或 [BGM: suspenseful orchestral]（悬疑管弦乐）的指令
掌握智能剪辑控制：明确描述场景步调，或者指定 "continuous single take, no cuts"（长镜头一镜到底，无剪辑）
文本呈现：屏幕上的文字建议保持在 5 个单词以内，并在提示词中注明准确文字
多语言设定：指定语言和情感基调，以获得最佳的对口型效果