El modelo VLOGGER AI de Google puede crear avatares de vídeo a partir de fotos: ¿qué podría salir mal?
La comunidad de inteligencia artificial (IA) se ha vuelto tan buena produciendo gifs falsos (echemos un vistazo a Sora de OpenAI, presentado el mes pasado, con sus fantásticos vuelos de fantasía) que uno tiene que hacerse una pregunta intelectual y práctica: ¿Qué? ¿Qué debemos hacer con todos estos vídeos?
también: OpenAI presenta su modelo de conversión de texto a vídeo y los resultados son sorprendentes. Échale un vistazo por ti mismo
Controlarlos con nuestra herramienta VLOGGER, respondieron esta semana el investigador de Google Enrique Corona y sus colegas. VLOGGER puede crear videos HD de personas hablando basándose en una sola imagen. Lo más importante es que VLOGGER puede animar videos basándose en una muestra de voz, lo que significa que la tecnología puede animar videos como una imagen controlada de una persona: un «avatar» de alta resolución.
Esta herramienta puede permitir todo tipo de creatividad. En un nivel más simple, el equipo de Corona sugiere que VLOGGER podría tener un gran impacto en los avatares de la mesa de ayuda porque los humanos que hablan artificialmente y de aspecto más realista pueden «cultivar la empatía». Señalan que la tecnología podría «permitir casos de uso completamente nuevos, como una mejor comunicación en línea, educación o asistentes virtuales personales».
VLOGGER también podría llevar a nuevas fronteras en los deepfakes, imágenes realistas que dicen y hacen cosas que una persona real nunca haría. El Equipo Corona tiene la intención de considerar los impactos sociales de VLOGGER en el material de apoyo complementario. Sin embargo, este material no está disponible. En la página de GitHub del proyecto. ZDNET se acercó a Corona para preguntarle sobre materiales de apoyo, pero no había recibido respuesta al momento de la publicación.
también: A medida que proliferan los agentes de IA, los riesgos también aumentan, dicen los científicos
Como se describe en el documento técnico, «VLOGGER: Difusión multimodal para la síntesis de avatares incorporados», el equipo de Corona pretende ir más allá de las imprecisiones de los avatares de última generación. «Crear vídeos realistas de humanos sigue siendo complejo y está plagado de artefactos», escribió el equipo de Corona.
El equipo notó que los avatares en el video a menudo cortaban el cuerpo y las manos, mostrando solo la cara. VLOGGER puede mostrar torsos completos con movimientos de las manos. Otras herramientas suelen tener variaciones limitadas en las expresiones faciales o poses, y solo proporcionan una sincronización de labios rudimentaria. VLOGGER puede crear “vídeos de alta resolución del movimiento de la cabeza y la parte superior del cuerpo”. […] Presenta expresiones faciales y gestos muy diversos” y es “la primera forma de generar humanos animados y parlantes a partir de la entrada del habla”.
Como explicó el equipo de investigación, “es específicamente la automatización y el realismo conductual lo que [are] Lo que buscamos en este trabajo: VLOGGER es una interfaz multimodal para un agente conversacional encarnado, equipada con audio y representación visual animada, que presenta expresiones faciales complejas y un mayor nivel de movimiento corporal, y está diseñada para respaldar conversaciones naturales con el ser humano. usuario.»
VLOGGER reúne algunas tendencias recientes en aprendizaje profundo.
Multimedia reúne los muchos modos que las herramientas de inteligencia artificial pueden ingerir y sintetizar, incluidos texto, audio, imágenes y video.
Los modelos de lenguaje grandes, como el GPT-4 de OpenAI, permiten utilizar el lenguaje natural como entrada para guiar acciones de todo tipo, ya sea crear párrafos de texto, una canción o una imagen.
Los investigadores también han encontrado muchas formas de crear imágenes y vídeos realistas en los últimos años mejorando la «difusión». Este término proviene de la física molecular y se refiere a cómo a medida que aumenta la temperatura, las moléculas de una sustancia pasan de estar muy concentradas en un área a estar más dispersas. Por analogía, los bits de información digital pueden considerarse “dispersos” cuanto más incoherentes se vuelven con el ruido digital.
también: Al pasar a Gemini, descubrirá que la IA de código abierto tiene sus propios trucos de vídeo
La IA de implementación introduce ruido en la imagen y reconstruye la imagen original para entrenar la red neuronal para encontrar las reglas mediante las cuales se generó. La difusión es la raíz de la creación de excelentes imágenes en Stable Diffusion de Stability AI y DALL-E de OpenAI. También es la forma en que OpenAI crea excelentes videos en Sora.
Para VLOGGER, el equipo de Corona entrenó una red neuronal para asociar la voz de un hablante con cuadros de video individuales de ese hablante. El equipo combinó un proceso de implementación para reconstruir un cuadro de video a partir de audio utilizando otra innovación reciente, el transformador.
El convertidor utiliza un método de atención para predecir fotogramas de vídeo basándose en fotogramas que ocurrieron en el pasado, junto con el audio. Al predecir acciones, la red neuronal aprende a representar movimientos precisos de las manos y del cuerpo y expresiones faciales, cuadro por cuadro, en sincronía con el sonido.
El paso final es utilizar predicciones de esa primera red neuronal para luego impulsar la generación de fotogramas de vídeo de alta resolución utilizando una segunda red neuronal que también utiliza difusión. Este segundo paso también representa una nota alta en los datos.
también: La IA generativa falla en esta habilidad tan común del pensamiento humano
Para crear imágenes de alta resolución, el equipo de Corona compiló MENTOR, un conjunto de datos de 800.000 «identidades» a partir de vídeos de personas hablando. MENTOR consta de 2200 horas de vídeo, que según el equipo es “el conjunto de datos más grande utilizado hasta la fecha en términos de identidades y duración” y es diez veces más grande que conjuntos de datos similares anteriores.
Los autores descubrieron que podían mejorar este proceso mediante un paso de seguimiento llamado «ajuste fino». Al enviar un vídeo completo a VLOGGER, después de haber sido “preentrenados” en MENTOR, pueden capturar de manera más realista las idiosincrasias del movimiento de la cabeza de una persona, como el parpadeo: “Al ajustar nuestro modelo de difusión usando más datos, en un solo video». Para un sujeto, VLOGGER puede aprender cómo capturar mejor la identidad, como cuando una imagen de referencia muestra los ojos cerrados, un proceso al que el equipo se refiere como «personalización».
El punto más importante de este enfoque (conectar predicciones en una sola red neuronal con imágenes de alta resolución, y lo que hace que VLOGGER sea emocionante) es que el software no solo crea un video, como lo hace Sora. VLOGGER asocia este video con acciones y expresiones controlables. Los vídeos realistas se pueden manipular tal como aparecen, como marionetas.
también: El CEO de Nvidia, Jensen Huang, presenta la familia de chipsets «Blackwell» de próxima generación en el GTC
«Nuestro objetivo es cerrar la brecha entre los recientes esfuerzos de síntesis de video, que pueden crear videos dinámicos sin controlar la identidad o la pose, y los métodos de generación de imágenes controlables», escribió el equipo de Corona.
Un VLOGGER no sólo puede ser un avatar controlado por voz, sino que también puede realizar funciones de edición, como cambiar la boca o los ojos de la persona que habla. Por ejemplo, la persona predeterminada que parpadea mucho en un vídeo se puede cambiar para que parpadee poco o nada. El método de hablar con la boca ancha se puede reducir a un movimiento más distintivo de los labios.
Ahora que hemos alcanzado un nuevo estado de progreso en la simulación humana, la pregunta que el equipo de Corona no abordó es qué debería esperar el mundo de cualquier uso indebido de la tecnología. Es fácil imaginar a figuras políticas diciendo algo completamente catastrófico sobre la inminente guerra nuclear, por ejemplo.
Presumiblemente, la siguiente etapa en este juego de avatar serán las redes neuronales, como 'Prueba de Voight-Kampf“En la película Blade Runner, puede ayudar a la comunidad a descubrir cuáles son oradores reales y cuáles son simplemente falsos con una moral notablemente vibrante.