Generativ dataintelligens

Brukere rammet av Microsofts bilde til videoverktøy – VASA-

Dato:

Mens kappløpet om AI-overherredømme fortsetter, ønsker Microsoft nå å forvandle folks portrettbilder til snakkende ansikter eller videoer med sitt nyeste verktøy, VASA-1.

I følge en forskningsartikkel fra teknologigiganten tar Microsoft AI-kappløpet til et annet nivå, med VASA 1, rammeverk for å skape naturtro snakkende ansikter til virtuelle karakterer med visuelle affektive ferdigheter (VAS), alt fra et portrett.

Les også: Videospillindustrien skynder seg å unionisere over AI

Fra portretter til snakkende ansikter

Selv om det ennå ikke er tilgjengelig for publikum, tar verktøyet et enkelt portrettbilde og talelyd og produserer en hyperrealistisk snakkende ansiktsvideo med presis leppe-lydsynkronisering, naturtro ansiktsatferd og naturalistiske hodebevegelser generert i sanntid.

Verktøyet er fortsatt på forhåndsvisningsstadiet med Microsoft Research-teamet, og demovideoene "ser imponerende ut."

Mens selskaper som Nvidia og Runway allerede har lignende hodebevegelser og leppesynkroniseringsteknologi, ser VASA-1 ut til å være "av mye høyere kvalitet og realisme", noe som reduserer munnartefakter, ifølge Tom's Guide.

I tillegg er denne tilnærmingen til lyddrevet animasjon også som den siste Vlogger AI modell av Google Research.

Ifølge Microsoft, mens alle bildene i demonstrasjonseksemplene er syntetiske laget av Dall-E, kan VASA-1 fortsatt animere et ekte bilde.

Demoen viser forskjellige mennesker som snakker med nesten naturlige bevegelser, ansiktsuttrykk, øyebevegelser "ingen artefakter rundt toppen og bunnen av munnen sett i andre verktøy."

Det krever heller ikke et bilde i portrettstil med ansiktet forover for at det skal fungere.

VASA-1 fikk folk til å snakke

Allerede synes AI-entusiaster slått av teknologien som beskriver den som "vill" og "sinnsyk" på X-plattformen.

"Forbedringene vi får mellom hver utgivelse er utrolige," sa Linus Ekenstam.

Andre mener at verden er vitne til et "seismisk skifte i måten medieinnhold lages på" og hvordan det konsumeres.

"Dette er utrolig, realismen er på topp," sa en annen entusiast identifisert som Sam.

Selv om andre anerkjenner verktøyets evner, synes de også det er litt uansvarlig fra Microsofts side å introdusere et verktøy som enkelt kan manipuleres for dypfalske valg.

«Vill å droppe dette rett før valget» skrev Rowan Cheung på X-plattformen.

En annen bruker Evan Kirstel kommenterte med en streng advarsel: "Microsoft Researchs VASA-1 er en spillskifter, og lager hyperrealistiske AI-genererte videoer fra bare et bilde og lyd."

"Mulighetene er uendelige, fra å gjenopplive klassiske kinolegender til personlige medier. Men la oss være på vakt mot dypfalske risikoer.»

Allerede har verden sett en tilstrømning av valgdeepfakes der politikernes stemmer eller bilder har blitt manipulert ved å bruke AI for å spre propaganda. Omtrent en tredjedel av verdens befolkning går til meningsmålinger i år.

Forskerne ved Microsoft har imidlertid antydet at dette kun er for demonstrasjon, og det er foreløpig ingen planer om en offentlig utgivelse eller å gjøre den tilgjengelig for utviklere.

Hvordan fungerer VASA-1?

I følge Tom's Guide er forskerne selv overrasket over modellens evne til å "perfekt leppesynkronisere til en sang, og reflektere ordene fra sangeren uten problemer til tross for at ingen musikk brukes i treningsdatasettet."

I tillegg håndterte VASA-1 forskjellige bildestiler, inkludert de historiske portrettene som de berømte Mona Lisa.

Verktøyet kan brukes i spill på baksiden av dets avanserte leppesynkroniseringsevner. Dette, har eksperter sagt, kan være en game changer for fordypning.

I tillegg kan teknologien være med på å lage avatarer for sosiale medievideoer, som i tilfellet med firmaer som Synthesia og HeyGen.

AI-baserte filmer og musikkvideoproduksjoner kan også utnytte VASA-1-teknologi for mer realistiske videoer.

Det er sjanser for at med Microsoft som har en eierandel i OpenAI, kan VASA-1 være en del av en "fremtidig Copilot Sora integrering."

spot_img

Siste etterretning

spot_img

Chat med oss

Hei der! Hvordan kan jeg hjelpe deg?