Gemini Omni AI 视频生成器

Gemini Omni AI 视频生成器

Gemini Omni Flash 是 Google 全新的多模式创作模型,用于将文本、图像、音频和视频转换为高质量的 AI 视频,然后通过自然语言进行编辑,一次一条指令。

  • 自然语言视频编辑: 通过简单地描述下一个变化来编辑场景、对象、相机、动作、风格和材质。
  • 文本、图像、音频和视频: 将多个参考文献合并为一个有凝聚力的输出,而不是在单独的人工智能工具之间切换。
  • 多圈一致性: 每次编辑都建立在上一次编辑的基础上,帮助角色、物理和视觉环境保持连贯。
  • 以知识为基础的讲故事: 利用Gemini对科学、文化和历史的理解来创建解释器和有意义的场景。
  • 精确的运动和材料: 生成涉及重力、动能、液体波纹、灯光节奏和反射表面的效果。
  • Avatar + SynthID 透明度: 个人头像视频和人工智能生成的内容透明度通过谷歌负责任的人工智能堆栈支持。
  • 通过对话编辑视频: Gemini Omni 官方示例展示了如何通过简短的自然语言提示转换源视频。下面的视频组件是可播放的演示占位符;发布时将本地 MP4 文件替换为官方授权资源。
  • 高级提示口译: Gemini Omni 示例将对象转换、递归场景逻辑和同步操作合并到一个提示中。
  • 原生音频场景生成: Gemini Omni 可以使用音频提示作为生成指令的一部分,创建与音乐或交互同步的视觉事件。
  • 世界知识与物理: Gemini Omni 的定位是基于 Gemini 现实世界知识的视频生成,包括物理直觉和可解释的概念。
  1. 选择型号: 从 AI 视频模型区域选择 Gemini Omni 风格的多模态视频生成。
  2. 输入详细信息: 添加提示和可选参考(例如图像、视频或音频)来指导最终剪辑。
  3. 生成您的视频: 预览结果,使用自然语言进行编辑并导出到社交平台。
Google I/O 2026 · 多模态 AI 视频

Gemini Omni AI 视频生成器

Gemini Omni Flash 是 Google 全新的多模式创作模型,用于将文本、图像、音频和视频转换为高质量的 AI 视频,然后通过自然语言进行编辑,一次一条指令。

探索用例

是什么让 Gemini Omni 与众不同

01 / 对话创作

自然语言视频编辑

通过简单地描述下一个变化来编辑场景、对象、相机、动作、风格和材质。

02 / 任意输入

文本、图像、音频和视频

将多个参考文献合并为一个有凝聚力的输出,而不是在单独的人工智能工具之间切换。

03 / 场景记忆

多圈一致性

每次编辑都建立在上一次编辑的基础上,帮助角色、物理和视觉环境保持连贯。

04 / 世界知识

以知识为基础的讲故事

利用Gemini对科学、文化和历史的理解来创建解释器和有意义的场景。

05 / 物理

精确的运动和材料

生成涉及重力、动能、液体波纹、灯光节奏和反射表面的效果。

06 / 负责任的人工智能

Avatar + SynthID 透明度

个人头像视频和人工智能生成的内容透明度通过谷歌负责任的人工智能堆栈支持。

通过对话编辑视频

Gemini Omni 官方示例展示了如何通过简短的自然语言提示转换源视频。下面的视频组件是可播放的演示占位符;发布时将本地 MP4 文件替换为官方授权资源。

Prompt

用气泡制作雕塑。

输出视频
Prompt

当人触摸镜子时,使镜子像液体一样产生美丽的波纹,人的手臂变成反光镜面材料。

输出视频

高级提示口译

Gemini Omni 示例将对象转换、递归场景逻辑和同步操作合并到一个提示中。

Prompt

把房间里的灯光调暗。将一个黑白棋盘房间放入一个玻璃球体中,该玻璃球体在手上方浮动跟踪,其中包含同一只手握住球体的递归表示,从而创建无限递归的房间。摄像机慢慢靠近球体,形成视频循环。

输出视频

原生音频场景生成

Gemini Omni 可以使用音频提示作为生成指令的一部分,创建与音乐或交互同步的视觉事件。

Prompt

公寓的灯光随着音乐同步亮起。

输出视频
Prompt

添加与我触摸每片蕨叶时同步的竖琴声音。将叶子结构更改为类似于半透明 3D 生物发光植物生命,生物发光萤火虫在其周围飞舞,在我玩耍时做出反应。

输出视频

世界知识与物理

Gemini Omni 的定位是基于 Gemini 现实世界知识的视频生成,包括物理直觉和可解释的概念。

Prompt

弹珠在连锁反应式轨道上快速滚动,连续流畅射击。

输出视频
Prompt

蛋白质折叠的粘土动画讲解器,一切都是粘土做的,无需动手,定格,准确。

输出视频

适合社交的电影内容

使用 Gemini Omni 风格的提示来制作垂直社交剪辑、创作者头像、解释者、混音视频和简短的促销资产。

Prompt

使用您自己的数字化身创建视频,使生成的剪辑看起来和听起来都像您。将其用于个性化公告、社交故事讲述和简短内容。

输出视频

Gemini Omni 与传统 AI 视频工作流程

Gemini Omni 的登陆页面叙述应突出工作流程压缩:更少的单独工具、更多的多模式引用和更容易的自然语言迭代。

尺寸
传统工作流程
Gemini全方位
矩阵1
独立的文本到图像、图像到视频、口型同步和视频编辑工具
多式联运创作模式家族之一
矩阵2
工具之间的手动参考传输
文本、图像、视频和音频引用连贯一致
矩阵3
每个生成步骤的一致性损失更多
带场景记忆的对话式编辑
矩阵3
场景级编辑的更难提示迭代
适用于视频生成、混音、讲解和头像内容

如何在 Collart 上使用 Gemini Omni

Step 1

选择型号

从 AI 视频模型区域选择 Gemini Omni 风格的多模态视频生成。

Step 2

输入详细信息

添加提示和可选参考(例如图像、视频或音频)来指导最终剪辑。

Step 3

生成您的视频

预览结果,使用自然语言进行编辑并导出到社交平台。

常见问题解答

将您的想法转化为令人惊叹的视觉效果

立即生成