Intelligenza generativa dei dati

Utenti colpiti dallo strumento Image to Video di Microsoft – VASA-

Data:

Mentre la corsa per la supremazia dell'intelligenza artificiale continua, Microsoft ora vuole trasformare i ritratti delle persone in volti o video parlanti con il suo ultimo strumento, VASA-1.

Secondo un documento di ricerca del colosso tecnologico, Microsoft sta portando la corsa all’intelligenza artificiale a un altro livello VAS 1, framework per creare volti parlanti realistici di personaggi virtuali con abilità visuo-affettive (VAS), il tutto da un ritratto.

Leggi anche: L’industria dei videogiochi corre verso la sindacalizzazione sull’intelligenza artificiale

Dai ritratti ai volti parlanti

Sebbene non sia ancora disponibile al pubblico, lo strumento scatta una singola foto di ritratto e audio vocale e produce un video iperrealistico del volto parlante con precisa sincronizzazione labiale-audio, comportamento facciale realistico e movimenti naturali della testa generati in tempo reale.

Lo strumento è ancora in fase di anteprima della ricerca con il team di ricerca di Microsoft e i video dimostrativi “sembrano impressionanti”.

Mentre aziende come Nvidia e Runway hanno già una tecnologia simile per il movimento della testa e la sincronizzazione labiale, VASA-1 sembra "essere di qualità e realismo molto più elevati", il che riduce gli artefatti della bocca, secondo Guida di Tom.

Inoltre, anche questo approccio all'animazione guidata dall'audio è simile al recente IA del vlogger modello di Google Research.

Secondo Microsoft, mentre tutte le immagini negli esempi dimostrativi sono sintetiche create da Dall-E, VASA-1 può comunque animare un'immagine reale.

La demo mostra diverse persone che parlano con movimenti, espressioni facciali e movimenti oculari quasi naturali, “nessun artefatto attorno alla parte superiore e inferiore della bocca riscontrato in altri strumenti”.

Inoltre, non richiede un'immagine in stile ritratto rivolta in avanti affinché funzioni.

VASA-1 ha fatto parlare la gente

Gli appassionati di intelligenza artificiale sembrano già colpiti dalla tecnologia che la descrive come “selvaggia” e “folle” sulla piattaforma X.

"I miglioramenti che otteniamo tra ogni versione sono incredibili," disse Linus Ekenstam.

Altri sono del parere che il mondo stia assistendo a un “cambiamento sismico nel modo in cui vengono creati i contenuti multimediali” e nel modo in cui vengono consumati.

"È strabiliante, il realismo è di prim'ordine", ha detto un altro appassionato identificato come Sam.

Sebbene altri riconoscano le capacità dello strumento, pensano anche che sia un po' irresponsabile da parte di Microsoft introdurre uno strumento che può essere facilmente manipolato per deepfake elettorali.

"Sarebbe selvaggio lasciar perdere questa cosa proprio prima delle elezioni", ha scritto Rowan Cheung sulla piattaforma X.

Un altro utente Evan Kirstel ha commentato con un severo avvertimento: "VASA-1 di Microsoft Research è un punto di svolta, creando video iperrealistici generati dall'intelligenza artificiale semplicemente da una foto e un audio."

“Le possibilità sono infinite, dal rilancio delle leggende del cinema classico ai media personalizzati. Ma restiamo attenti ai rischi del deepfake.”

Il mondo ha già assistito a un afflusso di deepfake elettorali in cui le voci o le immagini dei politici sono state manipolate utilizzando l’intelligenza artificiale per diffondere la propaganda. Quest’anno circa un terzo della popolazione mondiale si recherà alle urne.

Tuttavia, i ricercatori di Microsoft hanno indicato che si tratta solo di una dimostrazione e attualmente non ci sono piani per un rilascio pubblico o per renderlo disponibile agli sviluppatori.

Come funziona VASA-1?

Secondo Tom's Guide, i ricercatori stessi sono sorpresi dalla capacità del modello di "sincronizzare perfettamente le labbra con una canzone, riflettendo le parole del cantante senza problemi nonostante non venga utilizzata musica nel set di dati di addestramento".

Inoltre, VASA-1 ha gestito diversi stili di immagine, inclusi i ritratti storici come quelli famosi Mona Lisa.

Lo strumento potrebbe essere utilizzato nei giochi grazie alle sue avanzate capacità di sincronizzazione labiale. Questo, hanno detto gli esperti, potrebbe essere un punto di svolta per l’immersione.

Inoltre, la tecnologia può essere determinante nella creazione di avatar per i video dei social media, come nel caso di aziende come Synthesia e HeyGen.

Anche i film e le produzioni di video musicali basati sull'intelligenza artificiale possono sfruttare la tecnologia VASA-1 per video più realistici.

Ci sono possibilità che, con Microsoft che ha una partecipazione in OpenAI, VASA-1 possa far parte di un “futuro Copilot Sora integrazione."

spot_img

L'ultima intelligenza

spot_img

Parla con noi

Ciao! Come posso aiutarla?