Inteligencia de datos generativa

Usuarios cautivados por la herramienta de imagen a vídeo de Microsoft – VASA-

Fecha:

Mientras continúa la carrera por la supremacía de la IA, Microsoft ahora quiere transformar los retratos de las personas en caras parlantes o videos con su última herramienta, VASA-1.

Según un artículo de investigación del gigante tecnológico, Microsoft está llevando la carrera de la IA a otro nivel, con VASA 1, marco para crear caras parlantes realistas de personajes virtuales con habilidades afectivas visuales (VAS), todo a partir de un retrato.

Lea también: La industria de los videojuegos se apresura a sindicalizarse en torno a la IA

De retratos a caras parlantes

Aunque aún no está disponible para el público, la herramienta toma una sola fotografía de retrato y audio de voz y produce un video de cara parlante hiperrealista con sincronización precisa de audio de labios, comportamiento facial realista y movimientos naturalistas de la cabeza generados en tiempo real.

La herramienta aún se encuentra en la etapa de vista previa de la investigación con el equipo de investigación de Microsoft y los videos de demostración "lucen impresionantes".

Si bien empresas como Nvidia y Runway ya tienen tecnología similar de movimiento de cabeza y sincronización de labios, VASA-1 parece "ser de una calidad y realismo mucho mayor", lo que reduce los artefactos en la boca, según La guía de Tom.

Además, este enfoque de la animación basada en audio también es como el reciente IA de blogger modelo de Google Research.

Según Microsoft, si bien todas las imágenes de los ejemplos de demostración son sintéticas creadas por Dall-E, VASA-1 aún puede animar una imagen real.

La demostración muestra a diferentes personas hablando con movimientos casi naturales, expresiones faciales y movimientos oculares, “sin artefactos alrededor de la parte superior e inferior de la boca que se ven en otras herramientas”.

Tampoco requiere una imagen de estilo retrato mirando hacia adelante para que funcione.

VASA-1 hizo que la gente hablara

Los entusiastas de la IA ya parecen enamorados de la tecnología que la describen como “salvaje” y “loca” en la plataforma X.

"Las mejoras que estamos obteniendo entre cada lanzamiento son increíbles". dijo Linus Ekenstam.

Otros opinan que el mundo está presenciando un “cambio sísmico en la forma en que se crea el contenido mediático” y en cómo se consume.

"Esto es alucinante, el realismo es de primer nivel", dijo otro entusiasta identificado como Sam.

Aunque otros reconocen las capacidades de la herramienta, también piensan que es un poco irresponsable por parte de Microsoft introducir una herramienta que puede ser fácilmente manipulada para falsificaciones electorales.

“Es una locura dejar esto justo antes de las elecciones”. escribí Rowan Cheung en la plataforma X.

Otro usuario Evan Kirstel comentó con una severa advertencia: "VASA-1 de Microsoft Research cambia las reglas del juego, ya que crea videos hiperrealistas generados por IA a partir de solo una foto y audio".

“Las posibilidades son infinitas, desde revivir leyendas del cine clásico hasta medios personalizados. Pero estemos alerta a los riesgos de deepfake”.

El mundo ya ha visto una afluencia de deepfakes electorales en los que las voces o imágenes de los políticos han sido manipuladas utilizando inteligencia artificial para difundir propaganda. Alrededor de un tercio de la población mundial irá a las urnas este año.

Sin embargo, los investigadores de Microsoft han indicado que esto es sólo para demostración y actualmente no hay planes para un lanzamiento público o ponerlo a disposición de los desarrolladores.

¿Cómo funciona VASA-1?

Según Tom's Guide, los propios investigadores están sorprendidos por la capacidad del modelo para "sincronizar perfectamente los labios con una canción, reflejando las palabras del cantante sin problemas a pesar de que no se utiliza música en el conjunto de datos de entrenamiento".

Además, VASA-1 manejó diferentes estilos de imágenes, incluidos retratos históricos como el famoso Mona Lisa.

La herramienta podría usarse en juegos gracias a sus capacidades avanzadas de sincronización de labios. Esto, han dicho los expertos, podría cambiar las reglas del juego para la inmersión.

Además, la tecnología puede ser fundamental para crear avatares para vídeos de redes sociales, como en el caso de empresas como Synthesia y HeyGen.

Las producciones de películas y vídeos musicales basadas en IA también pueden aprovechar la tecnología VASA-1 para obtener vídeos más realistas.

Hay posibilidades de que, dado que Microsoft tiene participación en OpenAI, VASA-1 pueda ser parte de un “futuro Copilot”. Sora integración."

punto_img

Información más reciente

punto_img

Habla con nosotros!

¡Hola! ¿Le puedo ayudar en algo?