ความฉลาดทางข้อมูลเชิงกำเนิด

ผู้ใช้ประทับใจโดยเครื่องมือ Image to Video ของ Microsoft - VASA-

วันที่:

ในขณะที่การแข่งขันเพื่อชิงความเป็นใหญ่ด้าน AI ยังคงดำเนินต่อไป ขณะนี้ Microsoft ต้องการเปลี่ยนรูปภาพบุคคลให้เป็นใบหน้าพูดคุยหรือวิดีโอด้วยเครื่องมือล่าสุด VASA-1

ตามรายงานการวิจัยของยักษ์ใหญ่ด้านเทคโนโลยี Microsoft กำลังยกระดับการแข่งขัน AI ไปอีกระดับหนึ่งด้วย วาซ่า 1กรอบสำหรับการสร้างใบหน้าพูดได้เหมือนจริงของตัวละครเสมือนพร้อมทักษะการมองเห็น (VAS) ทั้งหมดนี้มาจากภาพบุคคล

อ่านเพิ่มเติม: อุตสาหกรรมวิดีโอเกมเร่งรีบเพื่อรวมตัวกันผ่าน AI

จากภาพบุคคลไปจนถึงใบหน้าที่พูดได้

แม้ว่าจะยังไม่เปิดให้บริการแก่สาธารณะ แต่เครื่องมือนี้จะถ่ายภาพบุคคลและเสียงคำพูดเพียงภาพเดียว และสร้างวิดีโอใบหน้าพูดได้สมจริงมากพร้อมการซิงค์เสียงริมฝีปากที่แม่นยำ พฤติกรรมใบหน้าที่เหมือนจริง และการเคลื่อนไหวของศีรษะที่เป็นธรรมชาติที่สร้างขึ้นแบบเรียลไทม์

เครื่องมือนี้ยังอยู่ในขั้นตอนการแสดงตัวอย่างการวิจัยร่วมกับทีมวิจัยของ Microsoft และวิดีโอสาธิต “ดูน่าประทับใจ”

ในขณะที่บริษัทต่างๆ เช่น Nvidia และ Runway มีการเคลื่อนไหวศีรษะและเทคโนโลยีลิปซิงค์ที่คล้ายคลึงกันอยู่แล้ว VASA-1 ดูเหมือนจะ "มีคุณภาพและความสมจริงที่สูงกว่ามาก" ซึ่งจะช่วยลดสิ่งแปลกปลอมในปาก คู่มือของ Tom.

นอกจากนี้ วิธีการใช้ภาพเคลื่อนไหวที่ขับเคลื่อนด้วยเสียงนี้ก็เหมือนกับแนวทางล่าสุดเช่นกัน วีล็อกเกอร์เอไอ แบบจำลองโดยการวิจัยของ Google

จากข้อมูลของ Microsoft แม้ว่าภาพทั้งหมดในตัวอย่างการสาธิตจะสังเคราะห์ขึ้นโดย Dall-E แต่ VASA-1 ยังสามารถทำให้ภาพจริงเคลื่อนไหวได้

การสาธิตนี้แสดงให้เห็นว่าผู้คนต่างๆ พูดคุยด้วยการเคลื่อนไหวที่แทบจะเป็นธรรมชาติ การแสดงออกทางสีหน้า การเคลื่อนไหวของดวงตา “ไม่เห็นสิ่งแปลกปลอมบริเวณด้านบนและด้านล่างของปากในเครื่องมืออื่นๆ”

นอกจากนี้ยังไม่ต้องใช้รูปภาพสไตล์แนวตั้งแบบหันหน้าเข้าหากันจึงจะทำงานได้

VASA-1 ทำให้ผู้คนพูดคุยกัน

ดูเหมือนว่าผู้ที่ชื่นชอบ AI จะประทับใจกับเทคโนโลยีที่อธิบายว่ามัน “บ้า” และ “บ้า” บนแพลตฟอร์ม X

“การปรับปรุงที่เราได้รับระหว่างแต่ละรุ่นนั้นน่าทึ่งมาก” กล่าวว่า ลินัส เอเกนสตัม.

คนอื่นๆ มองว่าโลกกำลังเผชิญกับ "การเปลี่ยนแปลงครั้งใหญ่ในวิธีสร้างเนื้อหาสื่อ" และวิธีการบริโภคเนื้อหาดังกล่าว

“มันน่าทึ่งมาก ความสมจริงนั้นยอดเยี่ยมมาก” ผู้ที่ชื่นชอบอีกคนที่ชื่อแซมกล่าว

แม้ว่าคนอื่นจะรับรู้ถึงความสามารถของเครื่องมือนี้ แต่พวกเขายังคิดว่า Microsoft ขาดความรับผิดชอบเล็กน้อยที่จะแนะนำเครื่องมือที่สามารถจัดการได้อย่างง่ายดาย การปลอมแปลงการเลือกตั้ง.

“ป่าที่จะยกเลิกสิ่งนี้ก่อนการเลือกตั้ง” เขียน โรวัน เฉิง บนแพลตฟอร์ม X

ผู้ใช้รายอื่น อีวาน เคิร์สเทล แสดงความคิดเห็นพร้อมคำเตือนที่เข้มงวด: “VASA-1 ของ Microsoft Research เป็นตัวเปลี่ยนเกม โดยสร้างวิดีโอที่สร้างโดย AI ที่สมจริงเกินจริงจากเพียงภาพถ่ายและเสียง”

“ความเป็นไปได้ไม่มีที่สิ้นสุด ตั้งแต่การฟื้นฟูตำนานภาพยนตร์คลาสสิกไปจนถึงสื่อเฉพาะบุคคล แต่เราควรตื่นตัวต่อความเสี่ยงจากการปลอมแปลงอย่างลึกซึ้ง”

โลกได้เห็นการหลั่งไหลของ Deepfakes ในการเลือกตั้ง โดยที่เสียงหรือภาพของนักการเมืองถูกบิดเบือนโดยใช้ AI เพื่อเผยแพร่โฆษณาชวนเชื่อ ประมาณหนึ่งในสามของประชากรโลกจะไปลงคะแนนเสียงในปีนี้

อย่างไรก็ตาม นักวิจัยจาก Microsoft ระบุว่านี่เป็นเพียงการสาธิตเท่านั้น และขณะนี้ยังไม่มีแผนที่จะเผยแพร่สู่สาธารณะหรือเปิดให้นักพัฒนาใช้งานได้

VASA-1 ทำงานอย่างไร?

ตามรายงานของ Tom's Guide นักวิจัยเองก็ประหลาดใจกับความสามารถของโมเดลในการ "ลิปซิงค์กับเพลงได้อย่างสมบูรณ์แบบ สะท้อนเนื้อร้องจากนักร้องได้โดยไม่มีปัญหา แม้ว่าจะไม่มีการใช้เพลงในชุดข้อมูลการฝึกอบรมก็ตาม"

นอกจากนี้ VASA-1 ยังจัดการสไตล์ภาพที่แตกต่างกัน รวมถึงภาพบุคคลในประวัติศาสตร์เช่นเดียวกับภาพที่มีชื่อเสียง ลิซ่าโมนา.

เครื่องมือนี้สามารถใช้ในการเล่นเกมโดยใช้ความสามารถลิปซิงค์ขั้นสูง ผู้เชี่ยวชาญกล่าวว่าสิ่งนี้อาจเป็นตัวเปลี่ยนเกมสำหรับการดื่มด่ำ

นอกจากนี้ เทคโนโลยีนี้ยังเป็นเครื่องมือในการสร้างอวาตาร์สำหรับวิดีโอโซเชียลมีเดีย เช่น ในกรณีของบริษัทอย่าง Synthesia และ HeyGen

การผลิตภาพยนตร์และมิวสิกวิดีโอที่ใช้ AI ยังสามารถใช้ประโยชน์จากเทคโนโลยี VASA-1 เพื่อวิดีโอที่สมจริงยิ่งขึ้น

มีโอกาสที่ Microsoft จะมีส่วนร่วมใน OpenAI แล้ว VASA-1 อาจเป็นส่วนหนึ่งของ "Copilot ในอนาคต" โซระ บูรณาการ”

จุด_img

ข่าวกรองล่าสุด

จุด_img

แชทกับเรา

สวัสดี! ฉันจะช่วยคุณได้อย่างไร?