01 / 会話の創造
自然言語ビデオ編集
次の変更を記述するだけで、シーン、オブジェクト、カメラ、モーション、スタイル、マテリアルを編集できます。
Gemini Omni Flash は、テキスト、画像、オーディオ、ビデオを高品質の AI ビデオに変換し、自然言語で一度に 1 つの命令ずつ編集するための、Google の新しいマルチモーダル作成モデルです。
Gemini Omni Flash は、テキスト、画像、オーディオ、ビデオを高品質の AI ビデオに変換し、自然言語で一度に 1 つの命令ずつ編集するための、Google の新しいマルチモーダル作成モデルです。
01 / 会話の創造
次の変更を記述するだけで、シーン、オブジェクト、カメラ、モーション、スタイル、マテリアルを編集できます。
02 / 任意の入力
個別の AI ツールを切り替えるのではなく、複数のリファレンスを 1 つのまとまった出力に結合します。
03 / シーンメモリー
各編集は前回の編集に基づいて行われ、キャラクター、物理学、視覚的コンテキストの一貫性を保つのに役立ちます。
04 / 世界の知識
科学、文化、歴史に対するGeminiの理解を活用して、説明文や意味のあるシーンを作成します。
05 / 物理学
重力、運動エネルギー、液体の波紋、照明のリズム、反射面などの効果を生成します。
06 / 責任あるAI
個人のアバター動画と AI が生成したコンテンツの透明性は、Google の責任ある AI スタックを通じてサポートされています。
Gemini Omni の公式サンプルでは、短い自然言語プロンプトを通じてソース ビデオをどのように変換できるかを示しています。以下のビデオ コンポーネントは、再生可能なデモのプレースホルダーです。公開時にローカル MP4 ファイルを公式ライセンスされたアセットに置き換えます。
泡で彫刻を作ります。
人が鏡に触れると、鏡が液体のように美しく波打ち、人の腕が反射鏡素材に変わります。
Gemini Omni の例では、オブジェクト変換、再帰的シーン ロジック、および同期アクションを 1 つのプロンプトに組み合わせています。
部屋の照明を暗くします。手の上を追跡して浮かぶガラス球の中に黒と白の市松模様の部屋を置きます。その中には、球を保持している同じ手の再帰表現が含まれており、部屋の無限の再帰を作成します。カメラがゆっくりと球体に近づき、ビデオ ループが作成されます。
Gemini Omni は生成指示の一部としてオーディオ キューを使用し、音楽やインタラクションと同期した視覚的なイベントを作成できます。
音楽に合わせてアパートの照明が点灯し始める。
シダの葉に触れたときに同期するハープの音を追加します。葉の構造をすべて半透明の 3D 生物発光植物に似せるように変更し、その周りを生物発光するホタルが飛び回り、プレイすると反応します。
Gemini Omni は、物理的直観や説明可能な概念など、Gemini の実世界の知識に基づいたビデオ生成として位置付けられています。
連鎖反応スタイルのトラック上でビー玉が高速で転がり、スムーズなショットが連続します。
タンパク質の折り畳みのクレイメーションの説明者。すべてが粘土で作られており、手を使わず、ストップモーションで正確です。
Gemini Omni スタイルのプロンプトを、垂直型ソーシャル クリップ、クリエイター アバター、説明者、リミックス ビデオ、短いプロモーション アセットに使用します。
自分のデジタル アバターを使用してビデオを作成すると、生成されたクリップが自分らしく見え、聞こえるようになります。パーソナライズされたお知らせ、ソーシャル ストーリーテリング、短い形式のコンテンツに使用します。
Gemini Omni のランディング ページの説明では、ワークフローの圧縮、つまり個別のツールが減り、マルチモーダルな参照が増え、自然言語の反復が容易になることを強調する必要があります。
Step 1
AI ビデオ モデル領域から Gemini オムニ スタイルのマルチモーダル ビデオ生成を選択します。
Step 2
最終的なクリップをガイドするためのプロンプトと、画像、ビデオ、オーディオなどのオプションの参照を追加します。
Step 3
結果をプレビューし、自然言語で編集し、ソーシャル プラットフォームにエクスポートします。