Generative Datenintelligenz

Benutzer sind vom Image-to-Video-Tool von Microsoft begeistert – VASA-

Datum:

Während der Wettlauf um die KI-Vorherrschaft weitergeht, möchte Microsoft mit seinem neuesten Tool VASA-1 nun Porträtbilder von Menschen in sprechende Gesichter oder Videos verwandeln.

Laut einem Forschungsbericht des Technologieriesen hebt Microsoft den KI-Wettlauf auf eine neue Ebene Vasa 1, Rahmen zur Erstellung lebensechter sprechender Gesichter virtueller Charaktere mit visuell-affektiven Fähigkeiten (VAS), alles aus einem Porträt.

Lies auch: Die Videospielindustrie strebt nach einer gewerkschaftlichen Organisierung im Bereich der KI

Von Porträts bis hin zu sprechenden Gesichtern

Obwohl es der Öffentlichkeit noch nicht zugänglich ist, nimmt das Tool ein einziges Porträtfoto und Sprachaudio auf und produziert ein hyperrealistisches sprechendes Gesichtsvideo mit präziser Lippen-Audio-Synchronisierung, lebensechtem Gesichtsverhalten und in Echtzeit generierten naturalistischen Kopfbewegungen.

Das Tool befindet sich beim Microsoft Research-Team noch in der Forschungsvorschauphase und die Demovideos „sehen beeindruckend aus“.

Während Unternehmen wie Nvidia und Runway bereits über eine ähnliche Kopfbewegungs- und Lippensynchronisationstechnologie verfügen, scheint VASA-1 „von viel höherer Qualität und Realismus zu sein“, was laut Aussage Mundartefakte reduziert Tom's Guide.

Darüber hinaus ähnelt dieser Ansatz für audiogesteuerte Animationen auch dem jüngsten Vlogger-KI Modell von Google Research.

Laut Microsoft sind zwar alle Bilder in den Demonstrationsbeispielen synthetisch von Dall-E erstellt, VASA-1 kann jedoch dennoch ein echtes Bild animieren.

Die Demo zeigt verschiedene Personen, die mit fast natürlichen Bewegungen, Gesichtsausdrücken und Augenbewegungen sprechen – „keine Artefakte rund um den oberen und unteren Mundbereich, die bei anderen Tools zu sehen sind.“

Es ist auch kein Porträtbild mit der Vorderseite nach vorne erforderlich, damit es funktioniert.

VASA-1 brachte die Leute zum Reden

Schon jetzt scheinen KI-Enthusiasten von der Technologie begeistert zu sein und beschreiben sie auf der X-Plattform als „wild“ und „verrückt“.

„Die Verbesserungen, die wir zwischen den einzelnen Veröffentlichungen erzielen, sind unglaublich“ sagte Linus Ekenstam.

Andere sind der Ansicht, dass die Welt einen „seismischen Wandel in der Art und Weise erlebt, wie Medieninhalte erstellt werden“ und wie sie konsumiert werden.

„Das ist überwältigend, der Realismus ist erstklassig“, sagte ein anderer Enthusiast namens Sam.

Obwohl andere die Fähigkeiten des Tools erkennen, halten sie es auch für etwas unverantwortlich von Microsoft, ein Tool einzuführen, das leicht manipuliert werden kann Wahl-Deepfakes.

„Ich wäre wild, das direkt vor der Wahl fallen zu lassen“ schrieb Rowan Cheung auf der X-Plattform.

Ein anderer Benutzer Evan Kirstel kommentierte mit einer strengen Warnung: „VASA-1 von Microsoft Research ist ein Game-Changer, der hyperrealistische KI-generierte Videos aus nur einem Foto und Audio erstellt.“

„Die Möglichkeiten sind endlos, von der Wiederbelebung klassischer Kinolegenden bis hin zu personalisierten Medien. Aber bleiben wir wachsam gegenüber Deepfake-Risiken.“

Weltweit hat es bereits eine Flut von Deepfakes zu Wahlen gegeben, bei denen die Stimmen oder Bilder von Politikern mithilfe von KI manipuliert wurden, um Propaganda zu verbreiten. Etwa ein Drittel der Weltbevölkerung nimmt dieses Jahr an Wahlen teil.

Die Forscher von Microsoft haben jedoch darauf hingewiesen, dass dies nur zu Demonstrationszwecken dient und es derzeit keine Pläne für eine öffentliche Veröffentlichung oder Bereitstellung für Entwickler gibt.

Wie funktioniert VASA-1?

Laut Tom's Guide sind die Forscher selbst überrascht über die Fähigkeit des Modells, „sich perfekt mit den Lippen eines Liedes zu synchronisieren und die Worte des Sängers ohne Probleme wiederzugeben, obwohl im Trainingsdatensatz keine Musik verwendet wird“.

Darüber hinaus verarbeitete VASA-1 verschiedene Bildstile, darunter auch historische Porträts wie berühmte Porträts Mona Lisa.

Das Tool könnte aufgrund seiner fortschrittlichen Lippensynchronisationsfähigkeiten im Gaming-Bereich eingesetzt werden. Experten sagen, dass dies die Immersion grundlegend verändern könnte.

Darüber hinaus kann die Technologie bei der Erstellung von Avataren für Social-Media-Videos hilfreich sein, wie im Fall von Firmen wie Synthesia und HeyGen.

Auch KI-basierte Filme und Musikvideoproduktionen können die VASA-1-Technologie für realistischere Videos nutzen.

Da Microsoft an OpenAI beteiligt ist, besteht die Möglichkeit, dass VASA-1 Teil eines „zukünftigen Copiloten“ sein könnte Sora Integration."

spot_img

Neueste Intelligenz

spot_img

Chat mit uns

Hallo! Wie kann ich dir helfen?