Q3 會自動生成聲音嗎？

是的。對話、音效與背景音樂會隨著影片自動生成，無需另外製作音軌。

目前支援哪些語言？

目前對話生成與影片內文字渲染均支援中文、英文和日文。

Q2 重點在於多圖參考的一致性；Q3 則增加了影片長度、原生音訊合成、智慧剪輯與文字渲染功能。

可以。Q3 在處理複雜物理運動和多主體互動方面表現出色，穩定性極高。

表現卓越。Vidu 以高水準的二維一致性與流暢的風格化動畫生成而聞名。

使用 Vidu Q3 生成 16 秒長度的高畫質 AI 影片，具備自動對對話、環境音效與背景音樂同步功能。支援智慧剪輯與 1080p 輸出，輕鬆跨越語言障礙。

範例

Vidu 是由生数科技與清華大學共同研發的 AI 影片生成模型系列。

不同於 Vidu 1.0 和 1.5 需要將畫面生成與音訊後製分開處理，最新的 Vidu Q3 是一款「全能型」生成引擎。

目前版本：Vidu Q3

只需一次指令，即可生成長達 16 秒且同步配備對話、音效與背景音樂的高畫質影片，完全不需要任何音訊後製。

Vidu Q3 會自動根據情節需求切換視角與場景。例如一段對話場景，它能從全景開始，在關鍵時刻切換至近鏡特寫，最後再回到中景——這一切都能透過單一提示詞達成。

該模型精通專業攝影語言：包括推鏡 (Push-ins)、平移 (Pans)、跟拍 (Tracking shots)、環繞鏡頭 (Orbit) 以及希區考克變焦 (Dolly zooms)，讓每一幀畫面都具備導演運鏡的專業感。

請像寫電影簡報一樣編寫提示詞：

[主體] + [動作] + [環境設定] + [鏡頭選擇] + [音效需求]

範例：

一名穿著紅色外套的年輕女子，在夜晚走過潮濕多雨的東京小巷。
霓虹燈招牌倒映在濕漉漉的路面上。她停下腳步，抬頭微笑。
鏡頭：全景跟拍，隨後切換至臉部近鏡特寫。
音效：雨聲環境音、遠處的車流聲、輕柔的鋼琴背景音樂。
對話（英文）：她低聲說著 "Finally, I'm home."

專業運鏡術語：嘗試使用 "dolly zoom"、"low-angle tracking" 或 "orbit 360°" 等專業詞彙。
音效提示：在指令中加入 [SFX: glass shattering] (玻璃碎裂聲) 或 [BGM: suspenseful orchestral] (懸疑管弦樂) 等標籤。
智慧剪輯控制：明確描述場景節奏，或註明 "continuous single take, no cuts" (一鏡到底，無剪輯)。
文字呈現：建議將畫面文字控制在 5 個單字以內，並在指令中寫出精確內容。
多語言設定：指定語言及情緒語調，能獲得最佳的對嘴效果。