אינטליגנציה של נתונים גנרטיביים

בניית צינור למידה פעיל להערה אוטומטית של תמונות עם שירותי AWS | שירותי האינטרנט של אמזון

תאריך:

פוסט זה בבלוג נכתב בשיתוף עם קרוליין צ'ונג מ- Veoneer.

Veoneer היא חברת אלקטרוניקה עולמית לרכב ומובילה עולמית במערכות בטיחות אלקטרוניות לרכב. הם מציעים מערכות בקרת ריסון מהטובות מסוגה וסיפקו למעלה ממיליארד יחידות בקרה אלקטרוניות וחיישני ריסוק ליצרני רכב ברחבי העולם. החברה ממשיכה להתבסס על היסטוריה של 1 שנה של פיתוח בטיחות רכב, המתמחה בחומרה ומערכות מתקדמות שמונעות אירועי תנועה ומצמצמות תאונות.

חישה בתא רכב (ICS) הוא מרחב מתפתח המשתמש בשילוב של מספר סוגים של חיישנים כמו מצלמות ומכ"ם, ואלגוריתמים מבוססי בינה מלאכותית (AI) ואלגוריתמים למידת מכונה (ML) לשיפור הבטיחות ושיפור חווית הרכיבה. בניית מערכת כזו יכולה להיות משימה מורכבת. מפתחים צריכים להוסיף הערות ידנית לכמויות גדולות של תמונות למטרות הדרכה ובדיקה. זה מאוד גוזל זמן ודורש משאבים. זמן האספקה ​​של משימה כזו הוא מספר שבועות. יתר על כן, חברות צריכות להתמודד עם נושאים כגון תוויות לא עקביות עקב טעויות אנוש.

AWS מתמקדת בסיוע לך להגביר את מהירות הפיתוח שלך ולהוזיל את העלויות שלך עבור בניית מערכות כאלה באמצעות ניתוחים מתקדמים כמו ML. החזון שלנו הוא להשתמש ב-ML להערה אוטומטית, לאפשר הדרכה מחדש של מודלים בטיחותיים, ולהבטיח מדדי ביצועים עקביים ואמינים. בפוסט זה, אנו משתפים כיצד, על ידי שיתוף פעולה עם ארגון המומחים העולמי של אמזון וה- מרכז חדשנות בינה מלאכותית, פיתחנו צינור למידה פעיל עבור תיבות תוחמות ראש תמונה בתא וביאור נקודות מפתח. הפתרון מפחית את העלות ביותר מ-90%, מאיץ את תהליך ההערות משבועות לשעות מבחינת זמן האספקה, ומאפשר שימוש חוזר למשימות תיוג נתונים דומות של ML.

סקירת פתרונות

למידה פעילה היא גישת ML הכוללת תהליך איטרטיבי של בחירה והערה של הנתונים האינפורמטיביים ביותר כדי להכשיר מודל. בהינתן קבוצה קטנה של נתונים מסומנים וקבוצה גדולה של נתונים ללא תווית, למידה אקטיבית משפרת את ביצועי המודל, מפחיתה את מאמץ התיוג ומשלבת מומחיות אנושית לתוצאות חזקות. בפוסט זה, אנו בונים צינור למידה פעיל להערות תמונה עם שירותי AWS.

התרשים הבא מדגים את המסגרת הכוללת של צינור הלמידה הפעילה שלנו. צינור התיוג לוקח תמונות מ-an שירות אחסון פשוט של אמזון (Amazon S3) דלי ומוציא תמונות מוערות בשיתוף דגמי ML ומומחיות אנושית. צינור ההדרכה מעבד נתונים מראש ומשתמש בהם כדי להכשיר מודלים של ML. המודל הראשוני מוגדר ומאומן על קבוצה קטנה של נתונים מתויגים ידנית, והוא ישמש בצנרת התיוג. ניתן לחזור על צינור התיוג וצינור ההדרכה בהדרגה עם נתונים מסומנים יותר כדי לשפר את ביצועי המודל.

זרימת עבודה של תיוג אוטומטי

בצנרת התיוג, א אמזון S3 הודעת אירוע מופעל כאשר אצווה חדשה של תמונות נכנסת ל-Unlabeled Datastore S3, מפעילה את צינור התיוג. המודל מייצר את תוצאות ההסקה על התמונות החדשות. פונקציית שיפוט מותאמת בוחרת חלקים מהנתונים על סמך ציון בטחון ההסקה או פונקציות אחרות המוגדרות על ידי המשתמש. נתונים אלה, עם תוצאות ההסקה שלהם, נשלחים לעבודת תיוג אנושית האמת של אמזון SageMaker נוצר על ידי הצינור. תהליך התיוג האנושי מסייע בהוספת הערות לנתונים, והתוצאות ששונו משולבות עם שאר הנתונים המוערים האוטומטיים, שבהם ניתן להשתמש מאוחר יותר על ידי צינור ההדרכה.

אימון מחדש של מודל מתרחש בצנרת ההדרכה, שבה אנו משתמשים במערך הנתונים המכיל את הנתונים המסומנים על ידי אדם כדי לאמן מחדש את המודל. נוצר קובץ מניפסט כדי לתאר היכן מאוחסנים הקבצים, ואותו מודל ראשוני מאומן מחדש על הנתונים החדשים. לאחר ההכשרה מחדש, המודל החדש מחליף את המודל הראשוני, והאיטרציה הבאה של צינור הלמידה הפעילה מתחילה.

פריסת מודלים

גם צינור התיוג וגם צינור ההדרכה נפרסים על קוד צינור AWS. בניית קוד AWS מופעים משמשים ליישום, שהוא גמיש ומהיר עבור כמות קטנה של נתונים. כאשר יש צורך במהירות, אנו משתמשים אמזון SageMaker נקודות קצה המבוססות על מופע ה-GPU להקצאת משאבים נוספים לתמיכה והאצת התהליך.

ניתן להפעיל את צינור ההכשרה מחדש של המודל כאשר יש מערך נתונים חדש או כאשר ביצועי המודל זקוקים לשיפור. משימה קריטית אחת בצנרת ההכשרה מחדש היא לקבל את מערכת בקרת הגרסאות הן עבור נתוני ההדרכה והן עבור המודל. למרות ששירותי AWS כגון אמזון יש את תכונת בקרת הגרסאות המשולבת, אשר הופכת את הצינור לפשוט ליישום, מודלים מותאמים דורשים רישום מטא נתונים או כלי בקרת גרסאות נוספים.

זרימת העבודה כולה מיושמת באמצעות ה ערכת פיתוח ענן AWS (AWS CDK) ליצירת רכיבי AWS נחוצים, כולל הרכיבים הבאים:

  • שני תפקידים עבור משרות CodePipeline ו- SageMaker
  • שתי עבודות CodePipeline, שמתזמרות את זרימת העבודה
  • שני דלי S3 עבור חפצי הקוד של הצינורות
  • דלי S3 אחד לתיוג מניפסט העבודה, מערכי הנתונים והדגמים
  • עיבוד מקדים ואחרי עיבוד AWS למבדה פונקציות עבור משרות התיוג של SageMaker Ground Truth

ערימות AWS CDK מודולריות מאוד וניתנות לשימוש חוזר במשימות שונות. ניתן להחליף את ההדרכה, קוד ההסקה ותבנית SageMaker Ground Truth עבור כל תרחישי למידה אקטיביים דומים.

אימון מודל

אימון מודל כולל שתי משימות: ביאור תיבת תוחמת ראש והערת נקודות מפתח אנושיות. אנו מציגים את שניהם בחלק זה.

הערת תיבת תוחמת ראש

הערת תיבה תוחמת ראש היא משימה לחזות את מיקומה של תיבה תוחמת של ראש האדם בתמונה. אנו משתמשים ב- תוויות מותאמות אישית של Amazon Rekognition דגם להערות תיבת תוחמת ראש. הבאים מחברת מדגם מספק מדריך שלב אחר שלב כיצד להכשיר מודל של זיהוי תוויות מותאמות אישית באמצעות SageMaker.

ראשית עלינו להכין את הנתונים כדי להתחיל את ההדרכה. אנו יוצרים קובץ מניפסט עבור ההדרכה וקובץ מניפסט עבור מערך הנתונים של הבדיקה. קובץ מניפסט מכיל מספר פריטים, שכל אחד מהם מיועד לתמונה. להלן דוגמה לקובץ המניפסט, הכולל את נתיב התמונה, הגודל והביאורים:

{
    "source-ref": "s3://mlsl-sandox/rekognition_images/train/IMS_00000_00_000_000_R2_1900_01_01_00000_compressed_front_tof_amp_000.jpeg",
    "bounding-box-attribute-name": {
        "image_size": [{
                "width": 640,
                "height": 480,
                "depth": 3
            }
        ],
        "annotations": [{
                "class_id": 1,
                "top": 189,
                "left": 209,
                "width": 97,
                "height": 121
            }
        ]
    },
    "bounding-box-attribute-name-metadata": {
        "objects": [{
                "confidence": 1
            }
        ],
        "class-map": {
            "1": "Head"
        },
        "type": "groundtruth/object-detection",
        "human-annotated": "yes",
        "creation-date": "2023-04-07T20:04:42",
        "job-name": "testjob"
    }
}

באמצעות קובצי המניפסט, אנו יכולים לטעון מערכי נתונים למודל של Rekognition Custom Labels לצורך הדרכה ובדיקה. איטרנו את המודל עם כמויות שונות של נתוני אימון ובדקנו אותו על אותן 239 תמונות שלא נראו. במבחן זה, ה mAP_50 הציון עלה מ-0.33 עם 114 תמונות אימון ל-0.95 עם 957 תמונות אימון. צילום המסך הבא מציג את מדדי הביצועים של דגם ה-Rekognition Custom Labels הסופי, אשר מניב ביצועים מעולים במונחים של ציון F1, דיוק וזכירה.

עוד בדקנו את המודל על מערך נתונים שמור שיש בו 1,128 תמונות. המודל מנבא באופן עקבי תחזיות מדויקות של תיבות תוחמות על הנתונים הבלתי נראים, ומניב mAP_50 של 94.9%. הדוגמה הבאה מציגה תמונה עם הערות אוטומטיות עם תיבה תוחמת ראש.

הערת נקודות מפתח

הערת נקודות מפתח מייצרת מיקומים של נקודות מפתח, כולל עיניים, אוזניים, אף, פה, צוואר, כתפיים, מרפקים, פרקי כף היד, ירכיים וקרסוליים. בנוסף לחיזוי המיקום, יש צורך בנראות של כל נקודה כדי לחזות במשימה הספציפית הזו, עבורה אנו מעצבים שיטה חדשה.

עבור הערת נקודות מפתח, אנו משתמשים ב-a דגם Yolo 8 Pose על SageMaker כדגם הראשוני. תחילה אנו מכינים את הנתונים להדרכה, כולל הפקת קבצי תווית וקובץ תצורה yaml בהתאם לדרישות של Yolo. לאחר הכנת הנתונים, אנו מאמנים את המודל ושומרים חפצים, כולל קובץ משקלות הדגם. עם קובץ משקולות הדגם המיומן, נוכל להוסיף הערות לתמונות החדשות.

בשלב האימון, כל הנקודות המסומנות עם מיקומים, כולל נקודות גלויות ונקודות חסומות, משמשות לאימון. לכן, מודל זה כברירת מחדל מספק את המיקום והביטחון של החיזוי. באיור הבא, סף ביטחון גדול (סף ראשי) ליד 0.6 מסוגל לחלק את הנקודות הנראות או חסומות לעומת מחוץ לנקודות המבט של המצלמה. עם זאת, נקודות חסומות ונקודות גלויות אינן מופרדות על ידי הביטחון, מה שאומר שהביטחון החזוי אינו שימושי לניבוי הראות.

כדי לקבל את חיזוי הראות, אנו מציגים מודל נוסף מאומן על מערך הנתונים המכיל רק נקודות גלויות, לא כולל שתי נקודות חסומות ומחוץ לנקודות המבט של המצלמה. האיור הבא מציג את התפלגות הנקודות בעלות ראות שונה. ניתן להפריד בין נקודות גלויות לנקודות אחרות בדגם הנוסף. אנו יכולים להשתמש בסף (סף נוסף) ליד 0.6 כדי לקבל את הנקודות הנראות לעין. על ידי שילוב שני המודלים הללו, אנו מתכננים שיטה לניבוי המיקום והראות.

תחילה מנבא נקודת מפתח על ידי המודל הראשי עם מיקום וביטחון ראשי, לאחר מכן אנו מקבלים את חיזוי הביטחון הנוסף מהמודל הנוסף. לאחר מכן, הנראות שלו מסווגת כך:

  • גלוי, אם הביטחון העיקרי שלו גדול מהסף הראשי שלו, והביטחון הנוסף שלו גדול מהסף הנוסף
  • חסום, אם הביטחון העיקרי שלו גדול מהסף הראשי שלו, והביטחון הנוסף שלו קטן או שווה לסף הנוסף
  • מחוץ לסקירת המצלמה, אם אחרת

דוגמה להערת נקודות מפתח מוצגת בתמונה הבאה, כאשר סימנים מוצקים הם נקודות גלויות וסימנים חלולים הם נקודות חסומות. מחוץ לנקודות הביקורת של המצלמה אינן מוצגות.

מבוסס על התקן OKS ההגדרה במערך הנתונים של MS-COCO, השיטה שלנו מסוגלת להשיג mAP_50​ של 98.4% במערך הנתונים הבלתי נראה לבדיקה. מבחינת נראות, השיטה מניבה דיוק סיווג של 79.2% על אותו מערך נתונים.

תיוג אנושי והסבה מחדש

למרות שהמודלים משיגים ביצועים מעולים בנתוני בדיקה, עדיין קיימות אפשרויות לטעות בנתונים חדשים בעולם האמיתי. תיוג אנושי הוא התהליך לתיקון טעויות אלה לשיפור ביצועי המודל באמצעות אימון מחדש. תכננו פונקציית שיפוט ששילבה את ערך הביטחון שיוצא מדגמי ה-ML עבור הפלט של כל התיבה התוחמת ראש או נקודות המפתח. אנו משתמשים בניקוד הסופי כדי לזהות את הטעויות הללו ואת התמונות המסומנות בתווית גרועה כתוצאה מכך, שיש לשלוח לתהליך התיוג האנושי.

בנוסף לתמונות עם תווית גרועות, חלק קטן מהתמונות נבחר באקראי לתיוג אנושי. תמונות אלה עם תווית אנושית מתווספות לגרסה הנוכחית של ערכת האימונים לצורך אימון מחדש, שיפור ביצועי המודל ודיוק ההערות הכולל.

ביישום, אנו משתמשים ב- SageMaker Ground Truth עבור תיוג אנושי תהליך. SageMaker Ground Truth מספק ממשק משתמש ידידותי ואינטואיטיבי לתיוג נתונים. צילום המסך הבא מדגים עבודת תיוג של SageMaker Ground Truth עבור הערת תיבת תוחמת ראש.

צילום המסך הבא מדגים עבודת תיוג של SageMaker Ground Truth לביאור נקודות מפתח.

עלות, מהירות ושימוש חוזר

עלות ומהירות הם היתרונות העיקריים של השימוש בפתרון שלנו בהשוואה לתיוג אנושי, כפי שמוצג בטבלאות הבאות. אנו משתמשים בטבלאות אלה כדי לייצג את החיסכון בעלויות והאצות המהירות. באמצעות מופע ה-GPU המואץ של SageMaker ml.g4dn.xlarge, עלות האימון וההסקה לכל החיים ב-100,000 תמונות נמוכה ב-99% מהעלות של תיוג אנושי, בעוד שהמהירות מהירה פי 10-10,000 מהתיוג האנושי, תלוי ב- מְשִׁימָה.

הטבלה הראשונה מסכמת את מדדי ביצועי העלות.

מספר סימוכין mAP_50 מבוסס על 1,128 תמונות בדיקה עלות הדרכה מבוססת על 100,000 תמונות עלות הסקה מבוססת על 100,000 תמונות הפחתת עלויות בהשוואה להערה אנושית זמן הסקה מבוסס על 100,000 תמונות האצת זמן בהשוואה להערה אנושית
תיבת תוחמת ראש זיהוי 0.949 $4 $22 99% פחות 5.5 h ימים
יולו נקודות מפתח 0.984 $27.20 * 10 דולר 99.9% פחות דקות שבועות

הטבלה הבאה מסכמת את מדדי הביצועים.

משימת ביאור mAP_50 (%) עלות הדרכה ($) עלות מסקנות ($) זמן מסקנות
תיבה תוחמת ראש 94.9 4 22 שעות 5.5
נקודות מפתח 98.4 27 10 דקות 5

יתר על כן, הפתרון שלנו מספק שימוש חוזר למשימות דומות. פיתוחי תפיסת מצלמה עבור מערכות אחרות כמו מערכת סיוע לנהג מתקדמת (ADAS) ומערכות בתוך תא נוסעים יכולים גם הם לאמץ את הפתרון שלנו.

<br> סיכום

בפוסט זה, הראינו כיצד לבנות צינור למידה פעיל להערה אוטומטית של תמונות בתוך תא הנוסעים תוך שימוש בשירותי AWS. אנו מדגימים את העוצמה של ML, המאפשרת לך לבצע אוטומציה ולזרז את תהליך ההערות, ואת הגמישות של המסגרת המשתמשת במודלים הנתמכים על ידי שירותי AWS או מותאמים אישית ב- SageMaker. עם Amazon S3, SageMaker, Lambda ו- SageMaker Ground Truth, תוכלו לייעל את אחסון הנתונים, הערות, הדרכה ופריסה, ולהשיג שימוש חוזר תוך הפחתת עלויות באופן משמעותי. על ידי הטמעת פתרון זה, חברות רכב יכולות להיות זריזות וחסכוניות יותר על ידי שימוש באנליטיקה מתקדמת מבוססת ML כגון הערת תמונה אוטומטית.

התחל היום ופתח את הכוח של שירותי AWS ולמידת מכונה עבור מקרי שימוש בחישה בתא הרכב שלך!


על הכותבים

Yanxiang Yu הוא מדען יישומי ב-Amazon Generative AI Innovation Center. עם למעלה מ-9 שנות ניסיון בבניית פתרונות בינה מלאכותית ולמידת מכונה ליישומים תעשייתיים, הוא מתמחה בבינה מלאכותית, ראייה ממוחשבת ומידול סדרות זמן.

טיאני מאו הוא מדען יישומי ב-AWS הממוקם מאזור שיקגו. יש לו 5+ שנות ניסיון בבניית פתרונות למידת מכונה ולמידה עמוקה והוא מתמקד בראייה ממוחשבת ולמידת חיזוק עם משוב אנושי. הוא נהנה לעבוד עם לקוחות כדי להבין את האתגרים שלהם ולפתור אותם על ידי יצירת פתרונות חדשניים באמצעות שירותי AWS.

יאנרו שיאו הוא מדען יישומי במרכז החדשנות של Amazon Generative AI, שם הוא בונה פתרונות AI/ML לבעיות עסקיות בעולם האמיתי של לקוחות. הוא עבד בכמה תחומים, כולל ייצור, אנרגיה וחקלאות. יאנרו השיג את הדוקטורט שלו. במדעי המחשב מאוניברסיטת אולד דומיניון.

פול ג'ורג ' הוא מוביל מוצר מיומן עם למעלה מ-15 שנות ניסיון בטכנולוגיות רכב. הוא מיומן בהובלת צוותי ניהול מוצר, אסטרטגיה, יציאה לשוק והנדסת מערכות. הוא הדגר והשיק מספר מוצרי חישה ותפיסה חדשים ברחבי העולם. ב-AWS, הוא מוביל אסטרטגיה ויציאה לשוק עבור עומסי עבודה של רכב אוטונומי.

קרוליין צ'ונג היא מנהלת הנדסה ב- Veoneer (נרכשה על ידי Magna International), יש לה למעלה מ-14 שנות ניסיון בפיתוח מערכות חישה ותפיסה. כיום היא מובילה תוכניות קדם-פיתוח של חישת פנים ב-Magna International ומנהלת צוות של מהנדסי ראייה ממוחשבת ומדעני נתונים.

ספוט_ימג

המודיעין האחרון

ספוט_ימג