אינטליגנציה של נתונים גנרטיביים

משתמשים שנפגעו על ידי כלי תמונה לווידאו של מיקרוסופט - VASA-

תאריך:

בעוד המירוץ לעליונות בינה מלאכותית נמשך, מיקרוסופט רוצה כעת להפוך תמונות דיוקן של אנשים לפרצופים מדברים או לסרטונים עם הכלי האחרון שלה, VASA-1.

על פי מאמר מחקר של ענקית הטכנולוגיה, מיקרוסופט לוקחת את מירוץ הבינה המלאכותית לרמה אחרת, עם VASA 1, מסגרת ליצירת פרצופים מדברים כמו חיים של דמויות וירטואליות עם כישורי רגש חזותיים (VAS), הכל מתוך דיוקן.

גם לקרוא: תעשיית משחקי הווידאו ממהרת להתאגד באמצעות AI

מדיוקנאות ועד פרצופים מדברים

למרות שהוא עדיין לא זמין לציבור, הכלי לוקח צילום דיוקן בודד ואודיו דיבור ומפיק סרטון פנים מדברים היפר-מציאותי עם סנכרון שפתיים מדויק, התנהגות פנים אמיתית ותנועות ראש טבעיות שנוצרות בזמן אמת.

הכלי עדיין בשלב התצוגה המקדימה של המחקר עם צוות המחקר של מיקרוסופט, וסרטוני ההדגמה "נראים מרשימים".

בעוד שלחברות כמו Nvidia ו-Runway יש כבר טכנולוגיית תנועת ראש וסנכרון שפתיים דומים, נראה ש-VASA-1 הוא "מאיכות וריאליזם הרבה יותר גבוה", מה שמפחית חפצי פה, לפי מדריך של טום.

בנוסף, גישה זו לאנימציה מונעת אודיו היא גם כמו האחרונה Vlogger AI דגם של Google Research.

לדברי מיקרוסופט, בעוד שכל התמונות בדוגמאות ההדגמה הן סינתטיות שנוצרו על ידי Dall-E, VASA-1 עדיין יכול להנפיש תמונה אמיתית.

ההדגמה מראה אנשים שונים מדברים בתנועות כמעט טבעיות, הבעות פנים, תנועות עיניים "ללא חפצים סביב החלק העליון והתחתון של הפה הנראים בכלים אחרים."

זה גם לא דורש תמונה בסגנון דיוקן עם הפנים קדימה כדי שזה יעבוד.

VASA-1 גרמה לאנשים לדבר

כבר עכשיו, נראה שחובבי בינה מלאכותית נפעמת מהטכנולוגיה שמתארת ​​אותה כ"פרועה" ו"משוגעת" בפלטפורמת X.

"השיפורים שאנו מקבלים בין כל מהדורה הם מדהימים," אמר לינוס אקנסטם.

אחרים סבורים שהעולם עד ל"שינוי סיסמי באופן שבו תוכן מדיה נוצר" ובאופן בו הוא נצרך.

"זה מרגש, הריאליזם הוא מהשורה הראשונה", אמר חובב אחר שזוהה כסם.

למרות שאחרים מכירים ביכולות של הכלי, הם גם חושבים שזה קצת חוסר אחריות מצד מיקרוסופט להציג כלי שניתן לתמרן בקלות עבור זיופים עמוקים בבחירות.

"פרוע לשחרר את זה ממש לפני הבחירות", כתב רואן צ'ונג בפלטפורמת X.

משתמש אחר אוון קירסטל הגיב באזהרה חמורה: "ה-VASA-1 של מיקרוסופט ריסרץ' הוא מחליף משחקים, יוצר סרטונים היפר-ריאליסטיים שנוצרו בינה מלאכותית מתמונה ואודיו בלבד."

"האפשרויות הן אינסופיות, מהחייאת אגדות קולנוע קלאסיות ועד מדיה מותאמת אישית. אבל בואו נישאר ערניים לסיכונים בזיוף עמוק".

כבר היום, העולם ראה זרימה של זיופים עמוקים בבחירות שבהן קולות או תמונות של פוליטיקאים עברו מניפולציות באמצעות AI כדי להפיץ תעמולה. כשליש מאוכלוסיית העולם הולכים השנה לבחירות.

עם זאת, החוקרים במיקרוסופט ציינו שזה רק להדגמה ואין כרגע תוכניות לפרסום פומבי או להנגיש אותו למפתחים.

כיצד פועל VASA-1?

לפי Tom's Guide, החוקרים עצמם מופתעים מהיכולת של המודל "לסנכרן ליפסינכרן מושלם לשיר, המשקף את המילים מהזמר ללא בעיה למרות שלא נעשה שימוש במוזיקה במערך האימון".

בנוסף, VASA-1 טיפל בסגנונות תמונה שונים כולל הפורטרטים ההיסטוריים כמו המפורסמים מונה ליזה.

הכלי יכול לשמש במשחקים על גב יכולות השפתיים המתקדמות שלו. זה, אמרו מומחים, יכול להיות מחליף משחק לטבילה.

בנוסף, הטכנולוגיה יכולה להיות מכרעת ביצירת אווטרים עבור סרטוני מדיה חברתית, כמו במקרה של חברות כמו Synthesia ו- HeyGen.

סרטים מבוססי בינה מלאכותית והפקות קליפים יכולים גם למנף את טכנולוגיית VASA-1 לסרטונים מציאותיים יותר.

ישנם סיכויים שעם החזקה של מיקרוסופט ב-OpenAI, VASA-1 יכול להיות חלק מ"טייס עתידי" סורה שילוב."

ספוט_ימג

המודיעין האחרון

ספוט_ימג

דבר איתנו

שלום שם! איך אני יכול לעזור לך?