Intelligence de données générative

Les utilisateurs séduits par l'outil Image to Video de Microsoft – VASA-

Date :

Alors que la course à la suprématie de l'IA se poursuit, Microsoft souhaite désormais transformer les portraits des gens en visages parlants ou en vidéos grâce à son dernier outil, VASA-1.

Selon un document de recherche du géant de la technologie, Microsoft porte la course à l'IA à un autre niveau, avec VAS 1, cadre permettant de créer des visages parlants réalistes de personnages virtuels dotés de compétences affectives visuelles (VAS), le tout à partir d'un portrait.

A lire également: L’industrie du jeu vidéo se précipite pour se syndiquer face à l’IA

Des portraits aux visages parlants

Bien qu'il ne soit pas encore disponible au public, l'outil prend une seule photo de portrait et un son vocal et produit une vidéo de visage parlant hyperréaliste avec une synchronisation audio labiale précise, un comportement facial réaliste et des mouvements de tête naturalistes générés en temps réel.

L’outil est encore au stade de prévisualisation de la recherche avec l’équipe Microsoft Research, et les vidéos de démonstration « semblent impressionnantes ».

Alors que des sociétés comme Nvidia et Runway disposent déjà d'une technologie similaire de mouvement de tête et de synchronisation labiale, VASA-1 semble « être d'une qualité et d'un réalisme bien supérieurs », ce qui réduit les artefacts buccaux, selon Tom's Guide.

De plus, cette approche de l'animation audio ressemble également à la récente IA du vlogueur modèle par Google Research.

Selon Microsoft, même si toutes les images des exemples de démonstration sont synthétiques créées par Dall-E, VASA-1 peut toujours animer une image réelle.

La démo montre différentes personnes parlant avec des mouvements, des expressions faciales et des yeux presque naturels, « sans artefacts autour du haut et du bas de la bouche vus dans d’autres outils ».

Il ne nécessite pas non plus d’image de style portrait face vers l’avant pour fonctionner.

VASA-1 a fait parler les gens

Déjà, les passionnés d’IA semblent séduits par la technologie la décrivant comme « sauvage » et « folle » sur la plateforme X.

« Les améliorations que nous obtenons entre chaque version sont incroyables » a affirmé Valérie Plante. Linus Ekenstam.

D'autres estiment que le monde est témoin d'un « changement sismique dans la manière dont le contenu médiatique est créé » et dont il est consommé.

"C'est époustouflant, le réalisme est excellent", a déclaré un autre passionné identifié comme étant Sam.

Bien que d'autres reconnaissent les capacités de l'outil, ils pensent également qu'il est un peu irresponsable de la part de Microsoft d'introduire un outil facilement manipulable pour deepfakes électoraux.

"C'est fou d'abandonner ça juste avant les élections" écrit Rowan Cheung sur la plateforme X.

Un autre utilisateur Evan Kirstel a commenté avec un avertissement sévère : « Le VASA-1 de Microsoft Research change la donne, créant des vidéos hyper réalistes générées par l'IA à partir d'une simple photo et d'un son. »

« Les possibilités sont infinies, de la renaissance des légendes classiques du cinéma aux médias personnalisés. Mais restons vigilants face aux risques de deepfake.»

Le monde a déjà été témoin d’un afflux de contrefaçons électorales dans lesquelles les voix ou les images de politiciens ont été manipulées à l’aide de l’IA pour diffuser de la propagande. Environ un tiers de la population mondiale se rendra aux urnes cette année.

Cependant, les chercheurs de Microsoft ont indiqué qu'il s'agissait uniquement d'une démonstration et qu'il n'est actuellement pas prévu de le publier publiquement ou de le mettre à la disposition des développeurs.

Comment VASA-1 fonctionne-t-il ?

Selon Tom's Guide, les chercheurs eux-mêmes sont surpris de la capacité du modèle à « synchroniser parfaitement les lèvres d'une chanson, reflétant sans problème les paroles du chanteur, même si aucune musique n'est utilisée dans l'ensemble de données d'entraînement ».

De plus, VASA-1 a géré différents styles d'image, y compris les portraits historiques comme le célèbre Mona Lisa.

L’outil pourrait être utilisé dans les jeux grâce à ses capacités avancées de synchronisation labiale. Selon les experts, cela pourrait changer la donne en matière d’immersion.

De plus, la technologie peut jouer un rôle déterminant dans la création d’avatars pour les vidéos des réseaux sociaux, comme dans le cas d’entreprises comme Synthesia et HeyGen.

Les productions de films et de vidéoclips basés sur l'IA peuvent également tirer parti de la technologie VASA-1 pour des vidéos plus réalistes.

Il y a des chances qu'avec la participation de Microsoft dans OpenAI, VASA-1 puisse faire partie d'un « futur Copilot » Sora l'intégration."

spot_img

Dernières informations

spot_img

Discutez avec nous

Salut! Comment puis-je t'aider?