هوش داده های تولیدی

کاربران توسط ابزار تصویر به ویدئو مایکروسافت هجوم می‌آورند - VASA-

تاریخ:

همانطور که رقابت برای برتری هوش مصنوعی ادامه دارد، مایکروسافت اکنون می‌خواهد با جدیدترین ابزار خود، VASA-1، تصاویر پرتره افراد را به چهره‌های سخنگو یا ویدیو تبدیل کند.

بر اساس یک مقاله تحقیقاتی توسط این غول فناوری، مایکروسافت رقابت هوش مصنوعی را به سطح دیگری می برد VASA 1چارچوبی برای ایجاد چهره‌های سخنگو واقعی از شخصیت‌های مجازی با مهارت‌های عاطفی بصری (VAS)، همه از یک پرتره.

همچنین بخوانید: صنعت بازی‌های ویدیویی به اتحاد با هوش مصنوعی عجله دارند

از پرتره گرفته تا چهره های سخنگو

اگرچه این ابزار هنوز در دسترس عموم نیست، اما این ابزار یک عکس پرتره و صدای گفتار می گیرد و یک ویدیوی حرف زدن فوق واقعی با همگام سازی صدای لبی دقیق، رفتار واقعی صورت، و حرکات طبیعی سر تولید شده در زمان واقعی تولید می کند.

این ابزار هنوز در مرحله پیش‌نمایش تحقیقاتی با تیم تحقیقاتی مایکروسافت است و ویدیوهای آزمایشی «تأثیرگذار به نظر می‌رسند».

در حالی که شرکت هایی مانند Nvidia و Runway در حال حاضر دارای فناوری حرکت سر و همگام سازی لب مشابهی هستند، به نظر می رسد VASA-1 "کیفیت و واقع گرایی بسیار بالاتری دارد" که باعث کاهش مصنوعات دهان می شود. راهنمای تام.

علاوه بر این، این رویکرد به انیمیشن های صوتی نیز مانند اخیر است Vlogger AI مدل توسط Google Research.

به گفته مایکروسافت، در حالی که تمام تصاویر در نمونه های نمایشی مصنوعی ساخته شده توسط Dall-E هستند، VASA-1 هنوز هم می تواند یک تصویر واقعی را متحرک کند.

این نسخه ی نمایشی افراد مختلف را نشان می دهد که با حرکات تقریباً طبیعی، حالات چهره، حرکات چشم صحبت می کنند «هیچ اثری در اطراف بالا و پایین دهان که در ابزارهای دیگر دیده نمی شود».

همچنین برای کار کردن به یک تصویر به سبک پرتره رو به جلو نیاز ندارد.

VASA-1 مردم را وادار به صحبت کرد

در حال حاضر، به نظر می رسد که علاقه مندان به هوش مصنوعی تحت تأثیر این فناوری که آن را به عنوان "وحشی" و "دیوانه" در پلتفرم X توصیف می کند، تحت تأثیر قرار گرفته اند.

"پیشرفت هایی که ما بین هر نسخه دریافت می کنیم باورنکردنی است." گفت: لینوس اکنستام

دیگران بر این عقیده هستند که جهان شاهد «تغییر لرزه‌ای در نحوه ایجاد محتوای رسانه‌ای» و نحوه مصرف آن است.

یکی دیگر از علاقه مندان به نام سام گفت: «این شگفت انگیز است، واقع گرایی درجه یک است.

اگرچه دیگران توانایی های این ابزار را می شناسند، اما فکر می کنند که معرفی ابزاری که به راحتی قابل دستکاری است از سوی مایکروسافت کمی غیرمسئولانه است. دیپ فیک های انتخاباتی.

"وحشی است که این را درست قبل از انتخابات کنار بگذارم." نوشت روآن چونگ در پلتفرم X.

کاربر دیگر ایوان کرستل با یک هشدار جدی اظهار داشت: "VASA-1 تحقیقاتی مایکروسافت یک تغییر دهنده بازی است که ویدئوهای تولید شده توسط هوش مصنوعی فوق واقعی را فقط از یک عکس و صدا ایجاد می کند."

امکانات بی پایان هستند، از احیای افسانه های سینمای کلاسیک تا رسانه های شخصی سازی شده. اما بیایید نسبت به خطرات دیپ فیک هوشیار بمانیم.»

در حال حاضر، جهان شاهد هجوم دیپ‌فیک‌های انتخاباتی بوده است که در آن صداها یا تصاویر سیاستمداران با استفاده از هوش مصنوعی برای گسترش تبلیغات دستکاری شده است. حدود یک سوم از جمعیت جهان امسال در نظرسنجی شرکت می کنند.

با این حال، محققان مایکروسافت نشان داده اند که این فقط برای نمایش است و در حال حاضر هیچ برنامه ای برای انتشار عمومی یا در دسترس قرار دادن آن برای توسعه دهندگان وجود ندارد.

VASA-1 چگونه کار می کند؟

به گفته Tom's Guide، خود محققان از توانایی مدل برای "همگام سازی کامل با یک آهنگ، انعکاس کلمات خواننده بدون مشکل، علیرغم استفاده از موسیقی در مجموعه داده آموزشی، شگفت زده شده اند."

علاوه بر این، VASA-1 سبک های مختلف تصویر از جمله پرتره های تاریخی مانند عکس های معروف را مدیریت می کند مونا لیزا.

این ابزار را می توان در بازی با قابلیت های پیشرفته همگام سازی لب استفاده کرد. کارشناسان گفته اند که این می تواند یک تغییر دهنده بازی برای غوطه وری باشد.

علاوه بر این، این فناوری می‌تواند در ایجاد آواتار برای ویدیوهای رسانه‌های اجتماعی، مانند شرکت‌هایی مانند Synthesia و HeyGen، مفید باشد.

فیلم‌ها و موزیک ویدیوهای مبتنی بر هوش مصنوعی نیز می‌توانند از فناوری VASA-1 برای ویدیوهای واقعی‌تر استفاده کنند.

این احتمال وجود دارد که با داشتن سهام مایکروسافت در OpenAI، VASA-1 بتواند بخشی از یک Copilot آینده باشد. سو ادغام."

نقطه_img

جدیدترین اطلاعات

نقطه_img

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟