אינטליגנציה של נתונים גנרטיביים

Nielsen Sports רואה הפחתה של 75% בעלויות בניתוח וידאו עם נקודות קצה מרובי דגמים של Amazon SageMaker | שירותי האינטרנט של אמזון

תאריך:

זהו פוסט אורח שנכתב יחד עם תמיר רובינסקי ואביעד אראניאס מ-Niselen Sports.

נילסן ספורט מעצב את המדיה והתוכן בעולם כמובילה עולמית בתובנות קהל, נתונים וניתוחים. באמצעות ההבנה שלנו של אנשים והתנהגויותיהם בכל הערוצים והפלטפורמות, אנו מעצימים את הלקוחות שלנו עם אינטליגנציה עצמאית ופועלת כך שיוכלו להתחבר ולתקשר עם הקהלים שלהם - עכשיו ובעתיד.

בניילסן ספורט, המשימה שלנו היא לספק ללקוחות שלנו - מותגים ובעלי זכויות - את היכולת למדוד את ההחזר על ההשקעה (ROI) והאפקטיביות של קמפיין פרסום חסות ספורט בכל הערוצים, כולל טלוויזיה, מקוון, מדיה חברתית ו אפילו עיתונים, ולספק מיקוד מדויק ברמה המקומית, הלאומית והבינלאומית.

בפוסט זה, אנו מתארים כיצד נילסן ספורט ביצעה מודרניזציה של מערכת שמריצה אלפי דגמי למידת מכונה (ML) שונים בייצור על ידי שימוש אמזון SageMaker נקודות קצה מרובות מודלים (MMEs) והפחתת העלות התפעולית והפיננסית ב-75%.

אתגרים עם פילוח וידאו בערוץ

הטכנולוגיה שלנו מבוססת על בינה מלאכותית (AI) ובמיוחד ראייה ממוחשבת (CV), המאפשרת לנו לעקוב אחר חשיפת המותג ולזהות את מיקומו בצורה מדויקת. לדוגמה, אנו מזהים אם המותג מופיע על באנר או חולצה. בנוסף, אנו מזהים את מיקום המותג על הפריט, כגון הפינה העליונה של שלט או השרוול. האיור הבא מציג דוגמה למערכת התיוג שלנו.

דוגמה למערכת תיוג נילסן

כדי להבין את אתגרי קנה המידה והעלות שלנו, הבה נסתכל על מספרים מייצגים. מדי חודש אנו מזהים למעלה מ-120 מיליון הופעות מותג בערוצים שונים, והמערכת חייבת לתמוך בזיהוי של למעלה מ-100,000 מותגים ווריאציות של מותגים שונים. בנינו את אחד ממסדי הנתונים הגדולים ביותר של הופעות מותג בעולם עם למעלה מ-6 מיליארד נקודות נתונים.

תהליך הערכת המדיה שלנו כולל מספר שלבים, כפי שמתואר באיור הבא:

  1. ראשית, אנו מקליטים אלפי ערוצים ברחבי העולם באמצעות מערכת הקלטה בינלאומית.
  2. אנו מזרימים את התכנים בשילוב עם לוח השידורים (מדריך תכנות אלקטרוני) לשלב הבא, שהוא פילוח והפרדה בין שידורי המשחק עצמם לבין תכנים או פרסומות אחרים.
  3. אנו מבצעים ניטור מדיה, שבו אנו מוסיפים מטא נתונים נוספים לכל קטע, כגון תוצאות הליגה, קבוצות רלוונטיות ושחקנים.
  4. אנו מבצעים ניתוח חשיפה של נראות המותגים ולאחר מכן משלבים את המידע על הקהל כדי לחשב את הערכת הקמפיין.
  5. המידע נמסר ללקוח על ידי לוח מחוונים או דוחות אנליסטים. האנליסט מקבל גישה ישירה לנתונים הגולמיים או דרך מחסן הנתונים שלנו.

שלבי הערכת מדיה

מכיוון שאנו פועלים בקנה מידה של למעלה מאלף ערוצים ועשרות אלפי שעות וידאו בשנה, עלינו להיות בעלת מערכת אוטומציה ניתנת להרחבה לתהליך הניתוח. הפתרון שלנו מפלח אוטומטית את השידור ויודע לבודד את הסרטונים הרלוונטיים משאר התוכן.

אנו עושים זאת באמצעות אלגוריתמים ומודלים ייעודיים שפותחו על ידינו לניתוח המאפיינים הספציפיים של הערוצים.

בסך הכל, אנו מפעילים אלפי דגמים שונים בייצור כדי לתמוך במשימה זו, שהיא יקרה, כרוכה בתקורה תפעולית ונוטה לשגיאות ואיטית. לקח חודשים להביא דגמים עם ארכיטקטורת מודלים חדשה לייצור.

זה המקום שבו רצינו לחדש ולעצב מחדש את המערכת שלנו.

קנה מידה חסכוני עבור מודלים של קורות חיים באמצעות SageMaker MMEs

קשה היה לבדוק, לשנות ולתחזק את מערכת פילוח הווידאו הוותיקה שלנו. חלק מהאתגרים כוללים עבודה עם מסגרת ML ישנה, ​​תלות הדדית בין רכיבים וזרימת עבודה שקשה לייעל אותה. הסיבה לכך היא שהתבססנו על RabbitMQ עבור הצינור, שהיה פתרון ממלכתי. כדי לנפות באגים ברכיב אחד, כגון חילוץ תכונות, היינו צריכים לבדוק את כל הצינור.

התרשים הבא ממחיש את הארכיטקטורה הקודמת.

ארכיטקטורה קודמת

כחלק מהניתוח שלנו, זיהינו צווארי בקבוק בביצועים כמו הפעלת דגם בודד על מכונה, שהראתה ניצול GPU נמוך של 30-40%. גילינו גם ריצות צינור ואלגוריתמי תזמון לא יעילים עבור המודלים.

לכן, החלטנו לבנות ארכיטקטורת ריבוי דיירים חדשה המבוססת על SageMaker, שתטמיע שיפורי אופטימיזציה של ביצועים, תתמוך בגדלי אצווה דינמיים ותפעיל מספר דגמים בו-זמנית.

כל הפעלה של זרימת העבודה מכוונת לקבוצת סרטונים. אורכו של כל סרטון הוא בין 30-90 דקות, ולכל קבוצה יש יותר מחמישה דגמים להפעיל.

הבה נבחן דוגמה: סרטון יכול להיות באורך של 60 דקות, מורכב מ-3,600 תמונות, וכל תמונה צריכה להסיק על ידי שלושה דגמי ML שונים בשלב הראשון. עם SageMaker MMEs, אנו יכולים להריץ אצווה של 12 תמונות במקביל, והאצווה המלאה מסתיימת תוך פחות מ-2 שניות. ביום רגיל, יש לנו יותר מ-20 קבוצות של סרטונים, וביום סוף שבוע עמוס, אנחנו יכולים לקבל יותר מ-100 קבוצות של סרטונים.

התרשים הבא מציג את הארכיטקטורה החדשה והפשוטה שלנו באמצעות SageMaker MME.

ארכיטקטורה פשוטה באמצעות SageMaker MME

תוצאות

עם הארכיטקטורה החדשה, השגנו רבות מהתוצאות הרצויות שלנו וכמה יתרונות בלתי נראים על פני הארכיטקטורה הישנה:

  • זמן ריצה טוב יותר - על ידי הגדלת גדלי אצווה (12 סרטונים במקביל) והרצת דגמים מרובים במקביל (חמישה דגמים במקביל), צמצמנו את זמן הריצה הכולל של הצינור ב-33%, משעה אחת ל-1 דקות.
  • תשתית משופרת – עם SageMaker, שדרגנו את התשתית הקיימת שלנו, ואנחנו משתמשים כעת במופעי AWS חדשים יותר עם GPUs חדשים יותר כגון g5.xlarge. אחד היתרונות הגדולים מהשינוי הוא שיפור הביצועים המיידי משימוש באופטימיזציות של TorchScript ו-CUDA.
  • שימוש אופטימלי בתשתית - באמצעות נקודת קצה אחת שיכולה לארח מספר דגמים, נוכל להפחית הן את מספר נקודות הקצה והן את מספר המכונות שעלינו לתחזק, וגם להגדיל את הניצול של מכונה בודדת וה-GPU שלה. עבור משימה ספציפית עם חמישה סרטונים, אנו משתמשים כעת רק בחמש מכונות של מופעי g5, מה שנותן לנו תועלת של 75% בעלות מהפתרון הקודם. עבור עומס עבודה טיפוסי במהלך היום, אנו משתמשים בנקודת קצה אחת עם מכונה אחת של g5.xlarge עם ניצול GPU של יותר מ-80%. לשם השוואה, לפתרון הקודם היה פחות מ-40% ניצול.
  • הגברת הזריזות והפרודוקטיביות – השימוש ב- SageMaker איפשר לנו להשקיע פחות זמן בהעברת מודלים ויותר זמן בשיפור האלגוריתמים והמודלים המרכזיים שלנו. זה הגדיל את הפרודוקטיביות של צוותי ההנדסה ומדעי הנתונים שלנו. כעת אנו יכולים לחקור ולפרוס מודל ML חדש תוך פחות מ-7 ימים, במקום יותר מחודש קודם לכן. זהו שיפור של 1% במהירות ובתכנון.
  • איכות וביטחון טובים יותר - עם יכולות בדיקת SageMaker A/B, אנו יכולים לפרוס את הדגמים שלנו בצורה הדרגתית ולהיות מסוגלים לחזור בבטחה לאחור. מחזור החיים המהיר יותר לייצור גם הגביר את הדיוק והתוצאות של דגמי ה-ML שלנו.

האיור הבא מציג את ניצול ה-GPU שלנו עם הארכיטקטורה הקודמת (30-ניצול של 40% GPU).

ניצול GPU עם הארכיטקטורה הקודמת

האיור הבא מציג את ניצול ה-GPU שלנו עם הארכיטקטורה הפשוטה החדשה (90% ניצול GPU).

ניצול GPU עם הארכיטקטורה החדשה והמפושטת

סיכום

בפוסט זה, שיתפנו כיצד נילסן ספורט שיפרה מערכת המרצת אלפי דגמים שונים בייצור על ידי שימוש ב-MME של SageMaker והפחיתה את העלות התפעולית והכספית שלהם ב-75%.

לקריאה נוספת, עיין בדברים הבאים:


על הכותבים

איתן סלעאיתן סלע הוא ארכיטקט פתרונות מומחה בינה מלאכותית ולמידת מכונה עם שירותי האינטרנט של אמזון. הוא עובד עם לקוחות AWS כדי לספק הדרכה וסיוע טכני, ועוזר להם לבנות ולהפעיל פתרונות בינה מלאכותית ו-Machine Learning ב-AWS. בזמנו הפנוי, איתן נהנה לרוץ ולקרוא את המאמרים האחרונים של למידת מכונה.

גל גולדמןגל גולדמן הוא מהנדס תוכנה בכיר וארכיטקט פתרונות בכיר ארגוני ב-AWS עם תשוקה לפתרונות חדישים. הוא מתמחה ופיתח שירותים ופתרונות מבוזרים רבים של Machine Learning. גל מתמקדת גם בסיוע ללקוחות AWS להאיץ ולהתגבר על האתגרים ההנדסיים וה-Generative AI שלהם.

טל פנצ'קטל פנצ'ק הוא מנהל פיתוח עסקי בכיר לבינה מלאכותית ולמידת מכונה עם שירותי האינטרנט של אמזון. כמומחה BD, הוא אחראי להגדלת האימוץ, הניצול וההכנסות עבור שירותי AWS. הוא אוסף את צרכי הלקוחות והתעשייה ומשתף פעולה עם צוותי מוצר של AWS כדי לחדש, לפתח ולספק פתרונות AWS.

תמיר רובינסקיתמיר רובינסקי מוביל הנדסת מו"פ גלובלית ב-Nielsen Sports, מביאה ניסיון רב בבניית מוצרים חדשניים וניהול צוותים בעלי ביצועים גבוהים. עבודתו שינתה את הערכת המדיה של חסות ספורט באמצעות פתרונות חדשניים המונעים בינה מלאכותית.

אביעד אראניאסאביעד אראניאס הוא ראש צוות של MLOps וארכיטקט ניתוח ספורט של Nielsen שמתמחה ביצירת צינורות מורכבים לניתוח סרטוני אירועי ספורט על פני ערוצים רבים. הוא מצטיין בבנייה ובפריסה של מודלים של למידה עמוקה לטיפול בנתונים בקנה מידה גדול ביעילות. בזמנו הפנוי הוא נהנה לאפות פיצות נפוליטניות טעימות.

ספוט_ימג

המודיעין האחרון

ספוט_ימג