Kecerdasan Data Generatif

Pengguna Terpesona oleh Alat Gambar ke Video Microsoft – VASA-

Tanggal:

Seiring dengan berlanjutnya persaingan untuk supremasi AI, Microsoft kini ingin mengubah gambar potret seseorang menjadi wajah atau video yang berbicara dengan alat terbarunya, VASA-1.

Menurut makalah penelitian raksasa teknologi tersebut, Microsoft membawa perlombaan AI ke tingkat yang lebih tinggi, dengan VASA 1, kerangka kerja untuk menciptakan wajah bicara karakter virtual yang nyata dengan keterampilan afektif visual (VAS), semuanya dari potret.

Baca juga: Industri Video Game Terburu-buru Bersatu Karena AI

Dari potret hingga wajah yang berbicara

Meskipun belum tersedia untuk umum, alat ini mengambil satu foto potret dan audio ucapan serta menghasilkan video wajah berbicara yang sangat realistis dengan sinkronisasi audio bibir yang presisi, perilaku wajah yang hidup, dan gerakan kepala naturalistik yang dihasilkan secara real-time.

Alat ini masih dalam tahap pratinjau penelitian dengan tim Microsoft Research, dan video demo “terlihat mengesankan.”

Meskipun perusahaan seperti Nvidia dan Runway sudah memiliki teknologi pergerakan kepala dan sinkronisasi bibir yang serupa, VASA-1 tampaknya “memiliki kualitas dan realisme yang jauh lebih tinggi,” yang mengurangi artefak mulut, menurut Tom's Guide.

Selain itu, pendekatan terhadap animasi berbasis audio ini juga sama seperti pendekatan terkini Vlogger AI model oleh Riset Google.

Menurut Microsoft, meskipun semua gambar dalam contoh demonstrasi adalah sintetis yang dibuat oleh Dall-E, VASA-1 masih dapat menganimasikan gambar nyata.

Demo tersebut menunjukkan orang-orang yang berbeda berbicara dengan gerakan yang hampir alami, ekspresi wajah, gerakan mata “tidak ada artefak di bagian atas dan bawah mulut yang terlihat pada alat lain.”

Ini juga tidak memerlukan gambar gaya potret menghadap ke depan agar bisa berfungsi.

VASA-1 membuat orang berbicara

Para penggemar AI tampaknya sudah terpesona oleh teknologi yang menggambarkannya sebagai “liar” dan “gila” pada platform X.

“Peningkatan yang kami dapatkan di setiap rilis sungguh luar biasa,” tersebut Linus Ekenstam.

Yang lain berpandangan bahwa dunia sedang menyaksikan “pergeseran besar dalam cara konten media dibuat” dan bagaimana konten tersebut dikonsumsi.

“Ini luar biasa, realismenya luar biasa,” kata penggemar lain yang diidentifikasi sebagai Sam.

Meskipun orang lain mengakui kemampuan alat ini, mereka juga menganggap Microsoft tidak bertanggung jawab jika memperkenalkan alat yang dapat dengan mudah dimanipulasi. deepfake pemilu.

“Sungguh liar jika hal ini dibatalkan sebelum pemilu,” menulis Rowan Cheung di platform X.

Pengguna lain Evan Kirstel berkomentar dengan peringatan keras: “VASA-1 dari Microsoft Research adalah terobosan baru, menciptakan video hiper-realistis yang dihasilkan AI hanya dari foto dan audio.”

“Kemungkinannya tidak terbatas, mulai dari menghidupkan kembali legenda sinema klasik hingga media yang dipersonalisasi. Namun mari kita tetap waspada terhadap risiko deepfake.”

Saat ini, dunia telah menyaksikan masuknya deepfake (pemalsuan informasi) pemilu di mana suara atau gambar politisi dimanipulasi menggunakan AI untuk menyebarkan propaganda. Sekitar sepertiga populasi global akan mengikuti pemilu tahun ini.

Namun, para peneliti di Microsoft telah mengindikasikan bahwa ini hanya untuk demonstrasi dan saat ini tidak ada rencana untuk merilisnya ke publik atau menyediakannya bagi pengembang.

Bagaimana cara kerja VASA-1?

Menurut Tom's Guide, para peneliti sendiri terkejut dengan kemampuan model tersebut untuk “menyinkronkan bibir dengan sempurna ke sebuah lagu, mencerminkan kata-kata dari penyanyinya tanpa masalah meskipun tidak ada musik yang digunakan dalam kumpulan data pelatihan.”

Selain itu, VASA-1 menangani gaya gambar yang berbeda termasuk potret sejarah seperti yang terkenal Mona Lisa.

Alat ini dapat digunakan dalam bermain game berkat kemampuan sinkronisasi bibir yang canggih. Hal ini, kata para ahli, bisa menjadi terobosan baru.

Selain itu, teknologi ini dapat berperan penting dalam menciptakan avatar untuk video media sosial, seperti halnya dengan perusahaan seperti Synthesia dan HeyGen.

Produksi film dan video musik berbasis AI juga dapat memanfaatkan teknologi VASA-1 untuk menghasilkan video yang lebih realistis.

Ada kemungkinan bahwa dengan kepemilikan Microsoft di OpenAI, VASA-1 dapat menjadi bagian dari “Copilot masa depan sora integrasi."

tempat_img

Intelijen Terbaru

tempat_img

Hubungi kami

Hai, yang di sana! Apa yang bisa saya bantu?