ในขณะที่การแข่งขันเพื่อชิงความเป็นใหญ่ด้าน AI ยังคงดำเนินต่อไป ขณะนี้ Microsoft ต้องการเปลี่ยนรูปภาพบุคคลให้เป็นใบหน้าพูดคุยหรือวิดีโอด้วยเครื่องมือล่าสุด VASA-1
ตามรายงานการวิจัยของยักษ์ใหญ่ด้านเทคโนโลยี Microsoft กำลังยกระดับการแข่งขัน AI ไปอีกระดับหนึ่งด้วย วาซ่า 1กรอบสำหรับการสร้างใบหน้าพูดได้เหมือนจริงของตัวละครเสมือนพร้อมทักษะการมองเห็น (VAS) ทั้งหมดนี้มาจากภาพบุคคล
อ่านเพิ่มเติม: อุตสาหกรรมวิดีโอเกมเร่งรีบเพื่อรวมตัวกันผ่าน AI
จากภาพบุคคลไปจนถึงใบหน้าที่พูดได้
แม้ว่าจะยังไม่เปิดให้บริการแก่สาธารณะ แต่เครื่องมือนี้จะถ่ายภาพบุคคลและเสียงคำพูดเพียงภาพเดียว และสร้างวิดีโอใบหน้าพูดได้สมจริงมากพร้อมการซิงค์เสียงริมฝีปากที่แม่นยำ พฤติกรรมใบหน้าที่เหมือนจริง และการเคลื่อนไหวของศีรษะที่เป็นธรรมชาติที่สร้างขึ้นแบบเรียลไทม์
เครื่องมือนี้ยังอยู่ในขั้นตอนการแสดงตัวอย่างการวิจัยร่วมกับทีมวิจัยของ Microsoft และวิดีโอสาธิต “ดูน่าประทับใจ”
ในขณะที่บริษัทต่างๆ เช่น Nvidia และ Runway มีการเคลื่อนไหวศีรษะและเทคโนโลยีลิปซิงค์ที่คล้ายคลึงกันอยู่แล้ว VASA-1 ดูเหมือนจะ "มีคุณภาพและความสมจริงที่สูงกว่ามาก" ซึ่งจะช่วยลดสิ่งแปลกปลอมในปาก คู่มือของ Tom.
นอกจากนี้ วิธีการใช้ภาพเคลื่อนไหวที่ขับเคลื่อนด้วยเสียงนี้ก็เหมือนกับแนวทางล่าสุดเช่นกัน วีล็อกเกอร์เอไอ แบบจำลองโดยการวิจัยของ Google
จากข้อมูลของ Microsoft แม้ว่าภาพทั้งหมดในตัวอย่างการสาธิตจะสังเคราะห์ขึ้นโดย Dall-E แต่ VASA-1 ยังสามารถทำให้ภาพจริงเคลื่อนไหวได้
การสาธิตนี้แสดงให้เห็นว่าผู้คนต่างๆ พูดคุยด้วยการเคลื่อนไหวที่แทบจะเป็นธรรมชาติ การแสดงออกทางสีหน้า การเคลื่อนไหวของดวงตา “ไม่เห็นสิ่งแปลกปลอมบริเวณด้านบนและด้านล่างของปากในเครื่องมืออื่นๆ”
นอกจากนี้ยังไม่ต้องใช้รูปภาพสไตล์แนวตั้งแบบหันหน้าเข้าหากันจึงจะทำงานได้
Microsoft เพิ่งเปิดตัว VASA-1
เป็นโมเดล AI ใหม่ที่สามารถเปลี่ยนรูปภาพ 1 รูปและเสียง 1 ชิ้นให้กลายเป็น Deepfake ของมนุษย์ที่เหมือนจริงได้อย่างเต็มที่
เถื่อนที่จะทิ้งสิ่งนี้ไว้ก่อนการเลือกตั้ง 😬pic.twitter.com/MuLkZVOKRM
— โรวัน เฉิง (@rowancheung) April 18, 2024
VASA-1 ทำให้ผู้คนพูดคุยกัน
ดูเหมือนว่าผู้ที่ชื่นชอบ AI จะประทับใจกับเทคโนโลยีที่อธิบายว่ามัน “บ้า” และ “บ้า” บนแพลตฟอร์ม X
“การปรับปรุงที่เราได้รับระหว่างแต่ละรุ่นนั้นน่าทึ่งมาก” กล่าวว่า ลินัส เอเกนสตัม.
คนอื่นๆ มองว่าโลกกำลังเผชิญกับ "การเปลี่ยนแปลงครั้งใหญ่ในวิธีสร้างเนื้อหาสื่อ" และวิธีการบริโภคเนื้อหาดังกล่าว
“มันน่าทึ่งมาก ความสมจริงนั้นยอดเยี่ยมมาก” ผู้ที่ชื่นชอบอีกคนที่ชื่อแซมกล่าว
แม้ว่าคนอื่นจะรับรู้ถึงความสามารถของเครื่องมือนี้ แต่พวกเขายังคิดว่า Microsoft ขาดความรับผิดชอบเล็กน้อยที่จะแนะนำเครื่องมือที่สามารถจัดการได้อย่างง่ายดาย การปลอมแปลงการเลือกตั้ง.
“ป่าที่จะยกเลิกสิ่งนี้ก่อนการเลือกตั้ง” เขียน โรวัน เฉิง บนแพลตฟอร์ม X
ผู้ใช้รายอื่น อีวาน เคิร์สเทล แสดงความคิดเห็นพร้อมคำเตือนที่เข้มงวด: “VASA-1 ของ Microsoft Research เป็นตัวเปลี่ยนเกม โดยสร้างวิดีโอที่สร้างโดย AI ที่สมจริงเกินจริงจากเพียงภาพถ่ายและเสียง”
“ความเป็นไปได้ไม่มีที่สิ้นสุด ตั้งแต่การฟื้นฟูตำนานภาพยนตร์คลาสสิกไปจนถึงสื่อเฉพาะบุคคล แต่เราควรตื่นตัวต่อความเสี่ยงจากการปลอมแปลงอย่างลึกซึ้ง”
โลกได้เห็นการหลั่งไหลของ Deepfakes ในการเลือกตั้ง โดยที่เสียงหรือภาพของนักการเมืองถูกบิดเบือนโดยใช้ AI เพื่อเผยแพร่โฆษณาชวนเชื่อ ประมาณหนึ่งในสามของประชากรโลกจะไปลงคะแนนเสียงในปีนี้
อย่างไรก็ตาม นักวิจัยจาก Microsoft ระบุว่านี่เป็นเพียงการสาธิตเท่านั้น และขณะนี้ยังไม่มีแผนที่จะเผยแพร่สู่สาธารณะหรือเปิดให้นักพัฒนาใช้งานได้
VASA-1 ทำงานอย่างไร?
ตามรายงานของ Tom's Guide นักวิจัยเองก็ประหลาดใจกับความสามารถของโมเดลในการ "ลิปซิงค์กับเพลงได้อย่างสมบูรณ์แบบ สะท้อนเนื้อร้องจากนักร้องได้โดยไม่มีปัญหา แม้ว่าจะไม่มีการใช้เพลงในชุดข้อมูลการฝึกอบรมก็ตาม"
นอกจากนี้ VASA-1 ยังจัดการสไตล์ภาพที่แตกต่างกัน รวมถึงภาพบุคคลในประวัติศาสตร์เช่นเดียวกับภาพที่มีชื่อเสียง ลิซ่าโมนา.
เครื่องมือนี้สามารถใช้ในการเล่นเกมโดยใช้ความสามารถลิปซิงค์ขั้นสูง ผู้เชี่ยวชาญกล่าวว่าสิ่งนี้อาจเป็นตัวเปลี่ยนเกมสำหรับการดื่มด่ำ
นอกจากนี้ เทคโนโลยีนี้ยังเป็นเครื่องมือในการสร้างอวาตาร์สำหรับวิดีโอโซเชียลมีเดีย เช่น ในกรณีของบริษัทอย่าง Synthesia และ HeyGen
การผลิตภาพยนตร์และมิวสิกวิดีโอที่ใช้ AI ยังสามารถใช้ประโยชน์จากเทคโนโลยี VASA-1 เพื่อวิดีโอที่สมจริงยิ่งขึ้น
มีโอกาสที่ Microsoft จะมีส่วนร่วมใน OpenAI แล้ว VASA-1 อาจเป็นส่วนหนึ่งของ "Copilot ในอนาคต" โซระ บูรณาการ”
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://metanews.com/enthusiasts-smitten-by-image-to-video-tool-vasa-1/