Google presenta Veo, un generador de vídeo HD impulsado por IA que podría rivalizar con Sora

Acercarse / Las imágenes fijas se toman de vídeos creados por Google Veo.

Google/Bing Edwards

Google anunció el martes en Google I/O 2024 Vista, un nuevo modelo de síntesis de video de IA que puede crear videos de alta resolución a partir de texto, imágenes o indicaciones de video, similar a Sora de OpenAI. Puede crear vídeos de 1080p que duren más de un minuto y editar vídeos a partir de instrucciones escritas, pero aún no se ha lanzado para su uso generalizado.

Según se informa, Veo incluye la capacidad de editar videos existentes usando comandos de texto, mantener la coherencia visual en todos los fotogramas, crear secuencias de video de hasta 60 segundos de duración y más de un mensaje o una serie de mensajes que conforman una narrativa. La compañía dice que puede crear escenas detalladas y aplicar efectos cinematográficos como lapsos de tiempo, tomas aéreas y varios estilos visuales.

Desde el lanzamiento de DALL-E 2 en abril de 2022, hemos visto una muestra de nuevos montajes fotográficos y de video que tienen como objetivo permitir que cualquiera que pueda escribir una descripción escrita cree una foto o un video detallado. Aunque ninguna de las tecnologías está completamente optimizada, los generadores de imágenes y videos de IA son cada vez más capaces.

En febrero, cubrimos una vista previa del generador de video Sora de OpenAI, que muchos en ese momento creían que representaba la mejor composición de video impulsada por IA que la industria tenía para ofrecer. Impresionó tanto a Tyler Perry que detuvo las ampliaciones de su estudio de cine. Sin embargo, hasta la fecha, OpenAI no ha proporcionado acceso público a la herramienta, sino que ha limitado su uso a un grupo selecto de evaluadores.

Ahora, a primera vista, Veo de Google parece ser capaz de producir vídeos similares a los que ha logrado Sora. No lo hemos probado nosotros mismos, por lo que solo podemos ver videos de demostración seleccionados proporcionados por la empresa. En su sitio web. Esto significa que cualquiera que lo vea debe tomar las afirmaciones de Google con cautela, porque los resultados de la creación pueden no ser los típicos.

Los videos típicos de Veo incluyen un vaquero a caballo, una toma rápida en una calle suburbana, un kebab asado a la parrilla, un lapso de tiempo de la apertura de un girasol y más. Claramente existe una ausencia de una representación detallada de los humanos, lo que históricamente ha sido difícil de crear para los modelos de imágenes y videos impulsados por IA sin distorsiones obvias.

Google dice que Veo se basa en los modelos de creación de videos anteriores de la compañía, incluidos Generative Query Network (GQN), DVD-GAN e Imagen-Video. vinakiWalt, VideoPoet y Lumière. Para mejorar la calidad y la eficiencia, los datos de capacitación de Veo incluyen comentarios en video más detallados y utilizan representaciones de video «latentes» comprimidas. Para mejorar la calidad de la creación de videos de Veo, Google ha incluido subtítulos más detallados para los videos utilizados para entrenar a Veo, lo que permite a la IA interpretar las indicaciones con mayor precisión.

Veo también parece notable porque admite comandos de realización de películas: “Dado un comando de entrada de video y un comando de edición, como agregar un kayak a una toma aérea de una costa, Veo puede aplicar ese comando al video sin procesar y crear un nuevo video editado. ”, dice la empresa.

Si bien las demostraciones parecen impresionantes a primera vista (especialmente en comparación con Will Smith comiendo espaguetis), Google reconoce la dificultad de crear un vídeo de IA. «Mantener la coherencia visual puede ser un desafío para los modelos de creación de vídeos», escribió la empresa. «Los personajes, objetos o incluso escenas enteras pueden parpadear, saltar o cambiar inesperadamente entre fotogramas, alterando tu experiencia visual».

Google ha tratado de mitigar estos inconvenientes con “convertidores sofisticados de propagación latente”, que son básicamente charlas de marketing sin sentido y sin detalles. Pero la empresa tiene suficiente confianza en el modelo que es. Trabajando con el actor Donald Glover y su estudio, Gilga, para crear una película explicativa generada por IA que se estrenará pronto.

Inicialmente, Veo estará disponible para creadores seleccionados a través de él. Efectos de vídeo, una nueva herramienta experimental disponible en AI Test Kitchen de Google, labs.google. Los creadores pueden unirse a la lista de espera de VideoFX para obtener acceso a las funciones de Veo en las próximas semanas. Google planea integrar algunas de las capacidades de Veo en YouTube Shorts y otros productos en el futuro.

Aún no hay información sobre dónde obtuvo Google los datos de entrenamiento de Veo (si tuviéramos que adivinar, es probable que YouTube esté involucrado). Pero Google dice que está adoptando un enfoque «responsable» con Veo. Según la empresa, “los vídeos creados por Veo tienen marcas de agua con ID de síntesisnuestra herramienta de vanguardia para marcar con marcas de agua e identificar contenido generado por IA, pasándolo por filtros de seguridad y controles de preservación que ayudan a mitigar los riesgos de privacidad, derechos de autor y sesgos”.

Google presenta Veo, un generador de vídeo HD impulsado por IA que podría rivalizar con Sora

Vito Gil

Leave A Comment Cancelar la respuesta

Entradas recientes

Páginas