Inteligența generativă a datelor

Utilizatori încântați de instrumentul Microsoft Image to Video – VASA-

Data:

Pe măsură ce cursa pentru supremația AI continuă, Microsoft dorește acum să transforme portretele oamenilor în fețe sau videoclipuri vorbitoare cu cel mai recent instrument al său, VASA-1.

Potrivit unui document de cercetare al gigantului tehnologic, Microsoft duce cursa AI la un alt nivel, cu VASA 1, cadru pentru crearea unor chipuri reale care vorbesc ale personajelor virtuale cu abilități vizuale afective (VAS), toate dintr-un portret.

De asemenea, se va citi: Industria jocurilor video se grăbește să se unească prin AI

De la portrete la fețe vorbitoare

Deși nu este încă disponibil publicului, instrumentul realizează o singură fotografie portret și sunet de vorbire și produce un videoclip hiper-realist cu fața vorbitoare, cu sincronizare audio-buze precisă, comportament facial real și mișcări naturaliste ale capului generate în timp real.

Instrumentul este încă în stadiul de previzualizare a cercetării cu echipa Microsoft Research, iar videoclipurile demonstrative „par impresionante”.

În timp ce companii precum Nvidia și Runway au deja tehnologie similară de mișcare a capului și de sincronizare a buzelor, VASA-1 pare „a fi de o calitate și un realism mult mai ridicate”, ceea ce reduce artefactele gurii, potrivit Ghidul lui Tom.

În plus, această abordare a animației bazate pe audio este, de asemenea, ca cea recentă Vlogger AI model de Google Research.

Potrivit Microsoft, în timp ce toate imaginile din exemplele demonstrative sunt sintetice create de Dall-E, VASA-1 poate încă anima o imagine reală.

Demo-ul arată diferiți oameni care vorbesc cu mișcări aproape naturale, expresii faciale, mișcări ale ochilor „fără artefacte în jurul sus și în jos a gurii văzute în alte instrumente”.

De asemenea, nu necesită o imagine în stil portret cu fața înainte pentru ca acesta să funcționeze.

VASA-1 a făcut oamenii să vorbească

Deja, pasionații de inteligență artificială par încântați de tehnologia care o descrie drept „sălbatică” și „nebună” pe platforma X.

„Îmbunătățirile pe care le obținem între fiecare lansare sunt incredibile.” a spus Linus Ekenstam.

Alții sunt de părere că lumea este martoră la o „schimbare seismică a modului în care este creat conținutul media” și a modului în care este consumat.

„Acesta este uimitor, realismul este de top”, a spus un alt entuziast identificat ca Sam.

Deși alții recunosc abilitățile instrumentului, ei cred, de asemenea, că este puțin iresponsabil din partea Microsoft să introducă un instrument care poate fi ușor manipulat pentru deepfakes electorale.

„Salbatic să renunț la asta chiar înainte de alegeri”, scris Rowan Cheung pe platforma X.

Un alt utilizator Evan Kirstel a comentat cu un avertisment sever: „VASA-1 de la Microsoft Research este un schimbător de joc, creând videoclipuri hiperrealiste generate de inteligență artificială doar dintr-o fotografie și sunet”.

„Posibilitățile sunt nesfârșite, de la revigorarea legendelor cinematografiei clasice până la medii personalizate. Dar să fim atenți la riscurile false profunde.”

Deja, lumea a văzut un aflux de deepfake electorale în care vocile sau imaginile politicienilor au fost manipulate folosind AI pentru a răspândi propagandă. Aproximativ o treime din populația globală merge la vot anul acesta.

Cu toate acestea, cercetătorii de la Microsoft au indicat că acest lucru este doar pentru demonstrație și în prezent nu există planuri pentru o lansare publică sau pentru a o pune la dispoziție dezvoltatorilor.

Cum funcționează VASA-1?

Potrivit Tom's Guide, cercetătorii înșiși sunt surprinși de capacitatea modelului de a „sincroniza perfect buzele cu un cântec, reflectând fără probleme cuvintele cântărețului, în ciuda faptului că nu este folosită muzică în setul de date de antrenament”.

În plus, VASA-1 a gestionat diferite stiluri de imagine, inclusiv portrete istorice precum celebrele Mona Lisa.

Instrumentul ar putea fi folosit în jocuri pe partea din spate a abilităților sale avansate de sincronizare a buzelor. Acest lucru, au spus experții, ar putea schimba jocul pentru imersiune.

În plus, tehnologia poate fi esențială în crearea de avataruri pentru videoclipurile din rețelele sociale, ca în cazul unor firme precum Synthesia și HeyGen.

Filmele și producțiile video muzicale bazate pe inteligență artificială pot, de asemenea, să folosească tehnologia VASA-1 pentru videoclipuri mai realiste.

Există șanse ca Microsoft deținând o acțiune în OpenAI, VASA-1 ar putea face parte dintr-un „viitor copilot”. Sora integrare."

spot_img

Ultimele informații

spot_img

Chat cu noi

Bună! Cu ce ​​​​vă pot ajuta?