¿Qué es Gemini Omni Flash?

Gemini Omni Flash es el primer modelo de la familia Gemini Omni de Google, que comienza con la generación de video y la edición de video conversacional.

¿Qué diferencia a Gemini Omni de Veo u otros modelos de vídeo?

El ángulo de la página principal es el flujo de trabajo multimodal: Gemini Omni puede combinar imágenes, audio, video y texto como entrada, luego generar y refinar videos a través del lenguaje natural.

¿Puede Gemini Omni utilizar audio como entrada?

El artículo de Google muestra ejemplos que utilizan ritmos musicales y referencias de audio, al tiempo que señala que solo se admiten referencias de voz para que se inicie el audio y que se implementarán más tipos de entrada de audio más adelante.

¿Puedo utilizar los vídeos de presentación en producción?

Este HTML ahora hace referencia a enlaces MP4 remotos de Google Cloud Storage utilizados en los ejemplos de anuncios oficiales de Gemini Omni. Mantenga la atribución y verifique los derechos de uso antes del lanzamiento de producción.

¿Existe una API Gemini Omni?

Google dice que las API para desarrolladores y clientes empresariales llegarán en las próximas semanas, por lo que la copia de producción debe utilizar una redacción segura para la disponibilidad hasta que se confirme el acceso a su cuenta.

Generador de vídeo Gemini Omni AI

Google I/O 2026 · Vídeo de IA multimodal

Generador de vídeo Gemini Omni AI

Gemini Omni Flash es el nuevo modelo de creación multimodal de Google para convertir texto, imágenes, audio y videos en videos de IA de alta calidad y luego editarlos mediante lenguaje natural, una instrucción a la vez.

Explorar casos de uso

¿Qué hace que Gemini Omni sea diferente?

01 / Creación conversacional

Edición de vídeo en lenguaje natural

Edite escenas, objetos, cámaras, movimientos, estilos y materiales simplemente describiendo el próximo cambio.

02 / Cualquier entrada

Texto, imagen, audio y vídeo

Combine múltiples referencias en una salida coherente en lugar de cambiar entre herramientas de IA separadas.

03 / Memoria de escena

Consistencia de múltiples vueltas

Cada edición se basa en la anterior, lo que ayuda a que los personajes, la física y el contexto visual se mantengan coherentes.

04 / Conocimiento mundial

Narración basada en el conocimiento

Cree explicaciones y escenas significativas utilizando la comprensión de Gemini sobre la ciencia, la cultura y la historia.

05 / Física

Movimiento y materiales precisos

Genera efectos que involucran gravedad, energía cinética, ondas de líquido, ritmo de iluminación y superficies reflectantes.

06 / IA responsable

Transparencia Avatar + SynthID

Los vídeos de avatares personales y la transparencia del contenido generado por IA son compatibles con la pila de IA responsable de Google.

Editar vídeos a través de la conversación

Los ejemplos oficiales de Gemini Omni muestran cómo se puede transformar un vídeo fuente mediante breves indicaciones en lenguaje natural. Los componentes de vídeo siguientes son marcadores de posición de demostración reproducibles; reemplace los archivos MP4 locales con activos con licencia oficial al publicar.

Prompt

Haz la escultura con burbujas.

Vídeo de salida

Prompt

Cuando la persona toca el espejo, haz que el espejo se ondula maravillosamente como un líquido y el brazo de la persona se convierte en un material de espejo reflectante.

Vídeo de salida

Interpretación rápida avanzada

Los ejemplos de Gemini Omni combinan transformación de objetos, lógica de escena recursiva y acción sincronizada en un solo mensaje.

Prompt

Atenúa las luces de la habitación. Coloque una habitación de tablero de ajedrez en blanco y negro dentro de una esfera de vidrio que flota siguiendo sobre la mano, en su interior contiene una representación recursiva de la misma mano sosteniendo la esfera, creando una infinita recursividad de habitaciones. La cámara se acerca lentamente a la esfera, creando un bucle de vídeo.

Vídeo de salida

Generación de escenas de audio nativo

Gemini Omni puede utilizar señales de audio como parte de la instrucción de generación, creando eventos visuales sincronizados con la música o la interacción.

Prompt

Las luces de los apartamentos empiezan a encenderse al ritmo de la música.

Vídeo de salida

Prompt

Agregue sonidos de arpa sincronizados cuando toco cada hoja de helecho. Cambia la estructura de la hoja para que se parezca a una planta bioluminiscente en 3D semitranslúcida, con luciérnagas bioluminiscentes volando a su alrededor que reaccionan mientras juego.

Vídeo de salida

Conocimiento mundial y física

Gemini Omni se posiciona como generación de video basada en el conocimiento del mundo real de Gemini, incluida la intuición física y conceptos explicables.

Prompt

Una canica rodando rápidamente en una pista estilo reacción en cadena, disparo continuo y suave.

Vídeo de salida

Prompt

Explicación con plastilina del plegamiento de proteínas, todo está hecho de arcilla, sin manos, stop motion, preciso.

Vídeo de salida

Contenido cinematográfico apto para redes sociales

Utilice indicaciones estilo Gemini Omni para clips sociales verticales, avatares de creadores, explicaciones, videos remezclados y activos promocionales cortos.

Prompt

Crea vídeos con tu propio avatar digital para que el clip generado se vea y suene como tú. Úselo para anuncios personalizados, narraciones sociales y contenido breve.

Vídeo de salida

Flujo de trabajo de vídeo Gemini Omni frente a IA tradicional

La narrativa de la página de destino de Gemini Omni debería resaltar la compresión del flujo de trabajo: menos herramientas separadas, más referencias multimodales y una iteración del lenguaje natural más sencilla.

Dimensión

Flujo de trabajo tradicional

Gemini Omni Dirección

Matriz 1

Herramientas separadas de conversión de texto a imagen, imagen a video, sincronización de labios y edición de video

Una familia de modelos de creación multimodal

Matriz 2

Transferencia manual de referencia entre herramientas.

Referencias de texto, imagen, vídeo y audio en un flujo cohesivo

Matriz 3

Más pérdida de coherencia en cada paso de generación

Edición conversacional con memoria de escena.

Matriz 3

Iteración de avisos más difícil para ediciones a nivel de escena

Adecuado para generación de videos, remezclas, explicaciones y contenido de avatar.

Cómo utilizar Gemini Omni en Collart

Step 1

Seleccionar modelo

Elija la generación de video multimodal estilo Gemini Omni en el área del modelo de video AI.

Step 2

Detalles de entrada

Agregue un mensaje y referencias opcionales, como imágenes, videos o audio, para guiar el clip final.

Step 3

Genera tu vídeo

Obtenga una vista previa del resultado, edítelo con lenguaje natural y exporte para plataformas sociales.

Generar ahora

Preguntas frecuentes

Convierta sus ideas en imágenes impresionantes

Generar ahora