Q3は音声を自動生成しますか？

はい。セリフ、効果音、BGMは動画生成の一部として同時に作成されます。別途、音声データを用意する必要はありません。

対応している言語は？

セリフおよび動画内テキストの生成において、中国語、英語、日本語に対応しています。

Q2とQ3の違いは何ですか？

Q2は複数画像の参照による一貫性に特化しています。Q3ではさらに、再生時間の延長、ネイティブ音声生成、スマートカット、テキスト表示などの機能が追加されました。

Q3でアクションシーンは作れますか？

はい。Q3は複雑な物理演算や複数の被写体が絡むアクションシーンにおいて、高い安定性と表現力を発揮します。

Q3はアニメ制作に向いていますか？

非常に得意としています。Viduは2Dアニメの一貫性と、滑らかなアニメーション表現に定評があります。

Vidu

Vidu Q3なら、セリフ、効果音、BGMが同期した最長16秒のAI動画を生成。スマートカット機能や1080pの高画質出力、多言語対応で、誰でも簡単にクリエイティブな映像制作が楽しめます。

サンプル

Vidu AI ジェネレーター

Viduは、生数科技（Shengshu Technology）と清華大学によって開発されたAI動画生成モデルシリーズです。

映像生成と音声の後付け作業を別々に行う必要があった従来のモデル（Vidu 1.0および1.5）とは異なり、Vidu Q3はすべてを一台でこなす「オールインワン」の生成エンジンへと進化しました。

現在のバージョン：Vidu Q3

Vidu Q3の主な特徴

ネイティブな映像・音声合成

セリフ、効果音、BGMが同期した最長16秒の動画を、一度の操作で生成できます。後からの音声編集作業はもう必要ありません。

マルチショット・ストーリーテリング

Vidu Q3は、ストーリーに合わせて視点や場所を自動的に切り替えます。一つのプロンプトを入力するだけで、会話シーンをロングショットで始め、重要な場面でアップに切り替え、再びミディアムショットに戻すといった高度な演出が可能です。

映画のようなインテリジェントなカメラワーク

このモデルは、プッシュイン、パン、トラッキング、オービット（回転）、ドリーズームといった、プロ仕様のカメラ言語を理解しています。一つ一つのフレームが、まるで監督によって演出されたかのような仕上がりになります。

Vidu Q3の最適な活用シーン

ショートストーリー制作：16秒の再生時間とスマートカット機能により、テンポの良いミニストーリーを完結させることができます。
製品紹介：BGMや効果音が統合されているため、そのまま広告として公開できるレベルの商用動画を作成できます。
アニメ＆スタイルアニメーション：業界トップクラスの2D一貫性を持ち、キャラクターの動きも非常に滑らかです。
多言語キャンペーン：音声のネイティブ生成により、リップシンク（口の動き）を含めたローカライズ作業が簡単になります。
ゲーム開発・企画資料：参照画像（リファレンス画像）をサポートしているため、プロト動画全体でビジュアルイメージを保つことができます。

プロンプトガイド

プロンプトは、映画の企画書のように構成するのがコツです：

[主語] ＋ [アクション] ＋ [シチュエーション] ＋ [カメラワーク] ＋ [音声]

例：

「夜の東京、雨に濡れた路地裏を赤いコートの若い女性が歩いている。」
「濡れた路面にネオンサインが反射している。彼女は立ち止まり、空を見上げて微笑む。」
カメラ：ワイドなトラッキングショットから、彼女の顔のアップに切り替える。
音声：雨の音、遠くを走る車の音、静かなピアノのBGM。
セリフ（英語）：彼女が『ついに、帰ってきたわ（Finally, I'm home.）』とささやく。

パワーユーザー向けのコツ

カメラ用語を使う："dolly zoom"（ドリーズーム）、"low-angle tracking"（ローアングル・トラッキング）、"orbit 360°"（360度回転）などの用語を使いましょう。
音声の指示：[SFX: glass shattering]（ガラスの割れる音）や [BGM: suspenseful orchestral]（サスペンス調のオーケストラ）のように指定します。
スマートカットの制御：シーンの区切りを明示的に説明するか、あるいは "continuous single take, no cuts"（カットなしのワンカット撮影）と指定します。
テキスト表示：画面内のテキストは5単語以内に抑え、プロンプト内で正確な綴りを指定してください。
多言語対応：最適なリップシンクを実現するために、使用する言語と感情のトーンを指定しましょう。