Seedance AI Video Generator
Seedance
ブログに戻る
Features2026年3月6日7 分で読みました

Veo 3.1 の詳細: ビデオへの参照、ネイティブ オーディオ、および高速か品質かの決定

Google の Veo 3.1 では、3 つの異なる生成モードとネイティブ オーディオ パイプラインが導入されました。各モード、いつ使用するか、必要なクレジット数について知っておくべきことはすべてここにあります。

Veo 3.1 の違い

Google が Veo 3 をリリースしたとき、それは印象的でした。しかし、Veo 3.1 は別物です。主なアーキテクチャの変化は、単一のテキストからビデオへのパイプラインから、それぞれが異なるクリエイター ワークフロー向けに設計された 3 つの異なるモードを備えたマルチモーダル生成システムに移行することです。最上位のネイティブ オーディオ合成と高速/品質階層分割を重ねることで、今日の市場で最も汎用性の高い AI ビデオ モデルが得られます。

3 つの生成モードの説明

1.テキスト → ビデオ

クラシック モード。詳細なプロンプトを作成すると、モデルは同期した周囲の音声 (群衆の騒音、風、音楽、足音、すべて自動生成) とともに映画のようなビデオを約 8 秒間レンダリングします。 Veo 3.1 がこの点で優れているのは、その迅速な理解がディレクターの言葉に合わせて微調整されているためです。「ドリーイン」、「ダッチ アングル」、「ラック フォーカス」、「ゴールデン アワー」などの用語はすべて正しく解釈されます。

プロのヒント: 一貫して映画のような結果を得るには、プロンプトを [主題 + アクション] + [カメラの移動] + [照明] + [ムード/スタイル] として構成します。

2.画像 → ビデオ (最初のフレーム + オプションの最後のフレーム)

開始画像 (最初のフレーム) をアップロードすると、モデルがそれをアニメーション化して完全なビデオ クリップを作成します。オプションで、2 番目の画像を最後のフレームとして指定します。Veo 3.1 は、2 つのフレーム間の滑らかで物理学を意識したトランジションを補間します。これはストーリーボード作成にとって大きな変革です。写真家は、編集ソフトウェアを使用せずに、任意の 2 つの重要なショットをプロレベルのトランジションに変えることができます。

  • 最初のフレームのみ: モデルは、開始フレームの後の動きの方向を創造的に自由に決めることができます。
  • 最初と最後のフレーム: モーションは 2 つの画像を橋渡しするように制限されます。商品の紹介、タイムラプス、劇的なトランジションに最適です。

3.参考→動画(キャラクターロック)

これは、映画制作コミュニティが最も興奮しているモードです。 1 ~ 3 枚の参照画像 (顔写真、衣装の写真、製品の静止画) をアップロードすると、Veo 3.1 はそれらの視覚的アイデンティティを生成されたビデオにロックします。あなたのキャラクターがクリップの途中で別の誰かに変身することはありません。ブランド広告やキャラクター主導の短編映画にとって、これは変革をもたらします。

注: リファレンス モードは現在、高速 レベル (47 クレジット) でのみ利用可能です。品質モードのサポートはロードマップにあります。

高速 vs 品質: どちらを選択すべきですか?

両方の層で、ネイティブ オーディオを含む約 8 秒のクリップが生成されます。違いは、解像度、テクスチャの詳細、レンダリングの忠実度です。

  • 高速 (47 クレジット): コンセプトの検証、ソーシャル メディア コンテンツ、プロンプトの反復処理に最適です。出力はシャープでクリーンですが、細かいディテール (布地の質感、髪の束、複雑な照明の反射) はわずかに柔らかくなります。 2 分以内にレンダリングされます。
  • 品質 (193 クレジット): 放送グレード。すべてのフレームは、1080p のフルズームでの精査に耐えます。映画のような被写界深度、正確な鏡面ハイライト、複雑な背景の詳細​​はすべて忠実にレンダリングされます。これは、最終成果物、クライアントのプレゼンテーション、大画面に表示されるコンテンツに使用します。

ネイティブ オーディオ: どれくらい優れていますか?

Veo 3.1 のオーディオ生成は、驚くほど状況に応じて行われます。石畳の上に雨が降っているシーンでは、音声によるプロンプトは表示されずに、雨の音、遠くの雷鳴、石の壁からの微妙な反響音が生成されます。話すキャラクターを追加すると、Veo 3.1 は適切なリップシンクと音声テクスチャを生成します (ただし、特定のダイアログにはテキスト音声プロンプトが必要です)。時折時代錯誤的な音や会話がわずかに同期していないなど、完璧ではありませんが、周囲の雰囲気としては、後から追加する AI 生成の音声よりも優れています。

はじめに

3 つの Veo 3.1 モードはすべて、プラットフォームで利用できます。まずはコンセプトを検証するためにテキスト → ビデオ ファースト (47 クレジット) から始めて、 最終的な納品のために 品質 に進みます。ブランドやキャラクター主導の作品にはリファレンス モードを試してください。その結果はあなたを驚かせるでしょう。

アイデアを資産に変える準備はできていますか?

マッチングビデオワークフローを使用して、このコンセプトを洗練されたクリップに変えます。

生成を開始する