همانطور که رقابت برای برتری هوش مصنوعی ادامه دارد، مایکروسافت اکنون میخواهد با جدیدترین ابزار خود، VASA-1، تصاویر پرتره افراد را به چهرههای سخنگو یا ویدیو تبدیل کند.
بر اساس یک مقاله تحقیقاتی توسط این غول فناوری، مایکروسافت رقابت هوش مصنوعی را به سطح دیگری می برد VASA 1چارچوبی برای ایجاد چهرههای سخنگو واقعی از شخصیتهای مجازی با مهارتهای عاطفی بصری (VAS)، همه از یک پرتره.
همچنین بخوانید: صنعت بازیهای ویدیویی به اتحاد با هوش مصنوعی عجله دارند
از پرتره گرفته تا چهره های سخنگو
اگرچه این ابزار هنوز در دسترس عموم نیست، اما این ابزار یک عکس پرتره و صدای گفتار می گیرد و یک ویدیوی حرف زدن فوق واقعی با همگام سازی صدای لبی دقیق، رفتار واقعی صورت، و حرکات طبیعی سر تولید شده در زمان واقعی تولید می کند.
این ابزار هنوز در مرحله پیشنمایش تحقیقاتی با تیم تحقیقاتی مایکروسافت است و ویدیوهای آزمایشی «تأثیرگذار به نظر میرسند».
در حالی که شرکت هایی مانند Nvidia و Runway در حال حاضر دارای فناوری حرکت سر و همگام سازی لب مشابهی هستند، به نظر می رسد VASA-1 "کیفیت و واقع گرایی بسیار بالاتری دارد" که باعث کاهش مصنوعات دهان می شود. راهنمای تام.
علاوه بر این، این رویکرد به انیمیشن های صوتی نیز مانند اخیر است Vlogger AI مدل توسط Google Research.
به گفته مایکروسافت، در حالی که تمام تصاویر در نمونه های نمایشی مصنوعی ساخته شده توسط Dall-E هستند، VASA-1 هنوز هم می تواند یک تصویر واقعی را متحرک کند.
این نسخه ی نمایشی افراد مختلف را نشان می دهد که با حرکات تقریباً طبیعی، حالات چهره، حرکات چشم صحبت می کنند «هیچ اثری در اطراف بالا و پایین دهان که در ابزارهای دیگر دیده نمی شود».
همچنین برای کار کردن به یک تصویر به سبک پرتره رو به جلو نیاز ندارد.
مایکروسافت به تازگی VASA-1 را معرفی کرده است.
این یک مدل هوش مصنوعی جدید است که می تواند 1 عکس و 1 قطعه صدا را به یک دیپ فیک کاملا واقعی انسان تبدیل کند.
وحشی است که این را درست قبل از انتخابات رها کنید 😬pic.twitter.com/MuLkZVOKRM
— روآن چونگ (@rowancheung) آوریل 18، 2024
VASA-1 مردم را وادار به صحبت کرد
در حال حاضر، به نظر می رسد که علاقه مندان به هوش مصنوعی تحت تأثیر این فناوری که آن را به عنوان "وحشی" و "دیوانه" در پلتفرم X توصیف می کند، تحت تأثیر قرار گرفته اند.
"پیشرفت هایی که ما بین هر نسخه دریافت می کنیم باورنکردنی است." گفت: لینوس اکنستام
دیگران بر این عقیده هستند که جهان شاهد «تغییر لرزهای در نحوه ایجاد محتوای رسانهای» و نحوه مصرف آن است.
یکی دیگر از علاقه مندان به نام سام گفت: «این شگفت انگیز است، واقع گرایی درجه یک است.
اگرچه دیگران توانایی های این ابزار را می شناسند، اما فکر می کنند که معرفی ابزاری که به راحتی قابل دستکاری است از سوی مایکروسافت کمی غیرمسئولانه است. دیپ فیک های انتخاباتی.
"وحشی است که این را درست قبل از انتخابات کنار بگذارم." نوشت روآن چونگ در پلتفرم X.
کاربر دیگر ایوان کرستل با یک هشدار جدی اظهار داشت: "VASA-1 تحقیقاتی مایکروسافت یک تغییر دهنده بازی است که ویدئوهای تولید شده توسط هوش مصنوعی فوق واقعی را فقط از یک عکس و صدا ایجاد می کند."
امکانات بی پایان هستند، از احیای افسانه های سینمای کلاسیک تا رسانه های شخصی سازی شده. اما بیایید نسبت به خطرات دیپ فیک هوشیار بمانیم.»
در حال حاضر، جهان شاهد هجوم دیپفیکهای انتخاباتی بوده است که در آن صداها یا تصاویر سیاستمداران با استفاده از هوش مصنوعی برای گسترش تبلیغات دستکاری شده است. حدود یک سوم از جمعیت جهان امسال در نظرسنجی شرکت می کنند.
با این حال، محققان مایکروسافت نشان داده اند که این فقط برای نمایش است و در حال حاضر هیچ برنامه ای برای انتشار عمومی یا در دسترس قرار دادن آن برای توسعه دهندگان وجود ندارد.
VASA-1 چگونه کار می کند؟
به گفته Tom's Guide، خود محققان از توانایی مدل برای "همگام سازی کامل با یک آهنگ، انعکاس کلمات خواننده بدون مشکل، علیرغم استفاده از موسیقی در مجموعه داده آموزشی، شگفت زده شده اند."
علاوه بر این، VASA-1 سبک های مختلف تصویر از جمله پرتره های تاریخی مانند عکس های معروف را مدیریت می کند مونا لیزا.
این ابزار را می توان در بازی با قابلیت های پیشرفته همگام سازی لب استفاده کرد. کارشناسان گفته اند که این می تواند یک تغییر دهنده بازی برای غوطه وری باشد.
علاوه بر این، این فناوری میتواند در ایجاد آواتار برای ویدیوهای رسانههای اجتماعی، مانند شرکتهایی مانند Synthesia و HeyGen، مفید باشد.
فیلمها و موزیک ویدیوهای مبتنی بر هوش مصنوعی نیز میتوانند از فناوری VASA-1 برای ویدیوهای واقعیتر استفاده کنند.
این احتمال وجود دارد که با داشتن سهام مایکروسافت در OpenAI، VASA-1 بتواند بخشی از یک Copilot آینده باشد. سو ادغام."
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://metanews.com/enthusiasts-smitten-by-image-to-video-tool-vasa-1/