אינטליגנציה של נתונים גנרטיביים

שפר את ביצועי LLM עם משוב אנושי ובינה מלאכותית על Amazon SageMaker עבור Amazon Engineering | שירותי האינטרנט של אמזון

תאריך:

צוות התכנון והבנייה של אמזון האיחוד האירופי (Amazon D&C) הוא צוות ההנדסה שמתכנן ובניית מחסני אמזון. הצוות מנווט בנפח גדול של מסמכים ומאתר את המידע הנכון כדי לוודא שעיצוב המחסן עומד בסטנדרטים הגבוהים ביותר. בפוסט פתרון יצירתי המופעל על ידי בינה מלאכותית ב-Amazon SageMaker כדי לעזור לעיצוב ובנייה של אמזון האיחוד האירופי, הצגנו שאלה שעונה על פתרון בוט באמצעות a אחזור דור מוגבר (RAG) צינור עם מכוון עדין מודל שפה גדול (LLM) עבור Amazon D&C כדי לאחזר ביעילות מידע מדויק מכמות גדולה של מסמכים לא מאורגנים, ולספק שירותים בזמן ואיכותי בפרויקטי הבנייה שלהם. צוות Amazon D&C הטמיע את הפתרון בפיילוט למהנדסי אמזון ואסף משוב מהמשתמשים.

בפוסט זה, אנו משתפים כיצד ניתחנו את נתוני המשוב וזיהינו מגבלות של דיוק והזיות ש-RAG סיפק, והשתמשנו בציון ההערכה האנושית כדי לאמן את המודל באמצעות למידה חיזוק. כדי להגדיל את דגימות ההדרכה ללמידה טובה יותר, השתמשנו גם ב-LLM אחר כדי ליצור ציוני משוב. שיטה זו התייחסה למגבלה של RAG ושיפרה עוד יותר את איכות תגובת הבוט. אנו מציגים את תהליך למידת החיזוק ואת תוצאות ההשוואה כדי להדגים את שיפור הביצועים של LLM. הפתרון משתמש אמזון SageMaker JumpStart כשירות הליבה לפריסת מודלים, כוונון עדין ולמידת חיזוק.

אסוף משוב ממהנדסי אמזון בפרויקט פיילוט

לאחר פיתוח הפתרון המתואר ב פתרון יצירתי המופעל על ידי בינה מלאכותית ב-Amazon SageMaker כדי לעזור לעיצוב ובנייה של אמזון האיחוד האירופי, צוות Amazon D&C פרס את הפתרון והפעיל פרויקט פיילוט עם מהנדסי אמזון. המהנדסים ניגשו למערכת הפיילוט באמצעות אפליקציית אינטרנט שפותחה על ידי מוארת, מחובר עם צינור RAG. בצנרת, השתמשנו שירות חיפוש פתוח של אמזון עבור מסד הנתונים הווקטוריים, ופרסה מודל Mistral-7B-Instruct מכוון ב-Amazon SageMaker.

אחת ממטרות המפתח של הפיילוט היא לאסוף משוב ממהנדסי אמזון ולהשתמש במשוב כדי להפחית עוד יותר את הזיות LLM. כדי להשיג זאת, פיתחנו מודול איסוף משוב בממשק המשתמש, כפי שמוצג באיור הבא, ואחסנו את המידע על הפעלת האינטרנט והמשוב של המשתמשים ב- אמזון דינמו. באמצעות ממשק המשתמש של איסוף המשוב, מהנדסי אמזון יכולים לבחור מתוך חמש רמות שביעות רצון: לא מסכים מאוד, לא מסכים, ניטרלי, מסכים ומסכים מאוד, בהתאמה לציוני המשוב בין 1-5. הם יכולים גם לספק תשובה טובה יותר לשאלה או להעיר מדוע תגובת ה- LLM אינה משביעת רצון.

ממשק משתמש למשוב אנושי

במהלך הפיילוט, המשתמשים סיפקו 118 תגובות משוב. התרשים הבא מציג את ההתפלגות משלילי לחיובי. ראינו את התשובות השגויות המסומנות על ידי המשוב השלילי (לא מסכים ואינו מסכים מאוד) הן 45% מכלל המשובים (53 מתוך 118). ניתן לטפל בחלק מהשגיאות (כ-10% מהמשוב השלילי ו-7.5% מהתגובות הכוללות) על ידי חינוך המשתמש והנדסה מהירה. בנוסף, אנו יכולים לטפל בבעיה באמצעות הפתרון של כוונון עדין של LLM ולמידת חיזוק, המתואר בסעיף הבא.

משוב משתמשים מהפיילוט

חלק מהמשתמשים פשוט השאירו פתק, כגון "מעולה!" עבור התשובות המסכימות מאוד, או "לא עונה על השאלה", עבור התשובות שלא מסכימות מאוד. משתמשים אחרים סיפקו ציונים והסבירו כיצד הם מצדיקים את תשובות ה-LLM בהערותיהם. בדוגמה הבאה, המשתמש סיפק במיוחד את המסמך והתוכן המתאימים לתיקון הזיה LLM.

שאלה כמה מקומות חניה יש לנו?
תשובה בוט

בהתבסס על ההקשר הנתון, אין לנו מספיק מידע כדי לקבוע את מספר מקומות החניה. ההקשר דן בגודל המינימלי של מקומות חניה ובדרישות לרמות תאורה חיצונית, אך הוא אינו מספק מספר ספציפי של מקומות חניה.

**תוכל לעיין בהסברים נוספים במשאבים הבאים:**

* ARS GEN 10.0/05.01.02. קריטריוני עיצוב ונספחים/חבילת ביצועים AR קריטריוני עיצוב ניתנים למיון v20.1.1.pdf – עמוד: 10

* ARS GEN 10.0/05.01.02. קריטריוני עיצוב ונספחים/חבילת ביצועים AR קריטריוני עיצוב ניתנים למיון v20.1.1.pdf – עמוד: 79

ציון משתמש מאוד לא מסכים
הערות משתמש זה מצוין בעמוד 21 של סעיף קריטריוני עיצוב 01 13 10

שפר את תגובת הבוט עם כוונון עדין מפוקח ולמידת חיזוק

הפתרון מורכב משלושה שלבים של כוונון עדין:

  1. בצע כוונון מפוקח באמצעות נתונים מסומנים. שיטה זו תוארה ב פתרון יצירתי המופעל על ידי בינה מלאכותית ב-Amazon SageMaker כדי לעזור לעיצוב ובנייה של אמזון האיחוד האירופי.
  2. אסוף משוב משתמשים כדי לתייג את צמדי השאלות והתשובות לכוונון נוסף של LLM.
  3. כאשר נתוני האימון מוכנים, כוונן עוד את המודל באמצעות חיזוק למידה ממשוב אנושי (RLHF).

RLHF נמצא בשימוש נרחב בכל יישומי בינה מלאכותית (AI) ויישומי LLM. היא משלבת משוב אנושי בפונקציית התגמולים ומכשירה את המודל עם אלגוריתם למידה חיזוק כדי למקסם את התגמולים, מה שגורם למודל לבצע משימות יותר מיושרות עם המטרות האנושיות. התרשים הבא מציג את הצינור של השלבים.

כוונון עדין של זרימת עבודה

בדקנו את המתודולוגיה באמצעות מסמכי Amazon D&C עם מודל Mistral-7B ב- SageMaker JumpStart.

כוונון עדין מפוקח

בפוסט הקודם, הדגמנו כיצד דגם ה-Falcon-7B המכוונן עדין עולה על צינור RAG ומשפר את האיכות והדיוק של תגובת ה-QA של הבוט. עבור פוסט זה, ביצענו כוונון עדין מפוקח בדגם Mistral-7B. הכוונון המפוקח השתמש בטכניקת PEFT/LoRA (LoRA_r = 512, LoRA_alpha = 1024) על 436,207,616 פרמטרים (5.68% מסך 7,677,964,288 פרמטרים). האימון נערך על צומת p3.8x עם 137 דגימות שנוצרו באופן סינתטי על ידי LLM ואומתו על ידי בני אדם; התהליך מתכנס היטב לאחר 20 עידנים, כפי שמוצג באיור הבא.

תהליך אימון SFT

המודל המכוונן עדין אומת על ידי 274 דגימות, ותוצאות ההסקה הושוו עם תשובות הייחוס לפי ציון הדמיון הסמנטי. הציון הוא 0.8100, שהוא גבוה מהציון של 0.6419 מה-RAG המסורתי.

אסוף משוב אנושי ובינה מלאכותית ללימוד חיזוק

עבור RLHF, כמות מספקת של דגימות הכשרה באיכות גבוהה שסומנו על ידי מומחי נושא (SMEs) חיוניות. עם זאת, תוויות אנושיות באיכות ירודה יגרמו ככל הנראה לביצועי מודל גרועים יותר מהדגם המקורי לאחר אימון RLHF. הזמן של חברות קטנות ובינוניות הוא משאב דל בכל ארגון; סקירת מאות או אלפי תגובות LLM ומתן משוב דורשת השקעת זמן משמעותית מחברות קטנות ובינוניות שאולי אין להן החזר ברור על ההשקעה.

כדי להתמודד עם האתגר הזה, אימצנו את למידת חיזוק ממשוב בינה מלאכותית שיטת (RLAIF). RLAIF מעסיק עוזר AI (LLM אחר) כדי לספק ציוני הערכה, ולא מבני אדם. בגישת למידה היברידית זו, סוכן הלמידה מחדד את הפעולות לא רק על סמך האינטראקציה עם אדם אלא גם ממשוב שמסופק על ידי מודל AI אחר. זה הרבה יותר ניתן להרחבה לספק נתוני הכשרה מספיקים ללימוד חיזוק, והרבה פחות סובייקטיבי מכיוון שההכשרה אינה תלויה בהעדפות מסוימות של קבוצה קטנה של חברות קטנות ובינוניות. החברות הקטנות והבינוניות עדיין עשויות להיות מעורבות, אבל רק כדי לפקח על התהליך ולבחון את איכות המשוב של AI. זה מקטין מאוד את עומס העבודה של החברות הקטנות והבינוניות, מכיוון שהציונים והתוויות שנוצרו על ידי AI הם הרבה פחות מסובכים עבור חברות קטנות ובינוניות לנתח, לסנן ולמיין.

במקרה שימוש זה, אנו מספקים את ההנחיה הבאה למודל אנתרופי קלוד 2 כדי להפיק את ציוני ההערכה כדוגמיות האימון לשלב הלמידה לחיזוק:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

מודל קלוד 2 מייצר ציון הערכה והערה מדוע ניתן הציון, כפי שמוצג בדוגמה הבאה.

שאלה מה הכוונה ב-'Fit Out Works' בהקשר זה?
תשובת עזר Fit Out Works מתייחס לעבודות שבוצעו במסגרת חוזה הבנייה על ידי או בשמה של אמזון דרך המפתח עד תאריך הקבלה הראשון מעמדה רעיונית של מפתח Shell & Core Base. עבודות אלה כוללות את ה-Fit-Outs הנדרשים של אמזון, התקנות של קופסאות גדולות ומותאמות אישית
תגובת QA Bot Fit Out Works מתייחס לעבודות שבוצעו במסגרת חוזה הבנייה על ידי או בשמה של אמזון דרך המפתח עד תאריך הקבלה הראשון מעמדה רעיונית של מפתח Shell & Core Base.
ציון AI 4.5
הערת AI תשובת המכונה מספקת את המידע המרכזי מהתשובה הסטנדרטית - ש-Fit Out Works מתייחס לעבודות שבוצעו במסגרת חוזה הבנייה על ידי או בשמה של אמזון דרך המפתח עד תאריך הקבלה הראשון מעמדה רעיונית של מפתח Shell & Core Base-Building . הפרטים הנוספים על הכללת ה-Fit-Outs הנדרשים של אמזון, התקנות של קופסאות גדולות והתאמות אישיות רלוונטיים ועוזרים לספק הקשר נוסף, אז ציינתי את התשובה למכונה 4.5 מתוך 5. זה לוכד את המהות של התשובה הסטנדרטית ומספק כמה פרטים נוספים שימושיים.

מתוך 274 שאלות האימות, המודל המכוונן המפוקח יצר 159 תגובות בעלות ציוני AI גבוהים מ-4. צפינו ב-60 תשובות עם ציונים נמוכים מ-3; יש מקום לשפר את איכות התגובה הכוללת.

ציון משוב לפני RLHF

החברות הקטנות והקטנות של אמזון הנדסה אימתו את המשוב הזה של AI והכירו ביתרונות של שימוש בציוני AI. ללא משוב בינה מלאכותית, החברות הקטנות והבינוניות יצטרכו זמן מה לסקור ולנתח כל תגובת LLM כדי לזהות את התשובות וההזיות החותכות, וכדי לשפוט אם ה-LLM מחזיר תוכן ומושגי מפתח נכונים. משוב AI מספק ציוני AI באופן אוטומטי ומאפשר לחברות קטנות ובינוניות להשתמש בסינון, מיון וקיבוץ כדי לאמת את הציונים ולזהות מגמות בתגובות. זה מקטין את זמן הביקורת של ה-SME הממוצע ב-80%.

למידה חיזוק ממשוב אנושי ובינה מלאכותית

כאשר דגימות האימון מוכנות, אנו משתמשים ב- אלגוריתם אופטימיזציה של מדיניות פרוקסימלית (PPO). לבצע למידת חיזוק. PPO משתמש בשיטת שיפוע מדיניות, אשר נוקטת בצעדים קטנים כדי לעדכן את המדיניות בתהליך הלמידה, כך שסוכני הלמידה יוכלו להגיע בצורה מהימנה לרשת המדיניות האופטימלית. זה הופך את תהליך האימון ליציב יותר ומצמצם את האפשרות לסטייה.

במהלך האימון, תחילה אנו משתמשים בנתונים המסומנים על ידי אדם ובינה מלאכותית כדי לבנות מודל תגמול, אשר ישמש להנחות את עדכון המשקולות בתהליך הלמידה. עבור מקרה שימוש זה, אנו בוחרים מודל תגמול על בסיס distilroberta ומאמנים אותו על ידי דוגמאות בפורמט הבא:

[Instruction, Chosen_response, Rejected_response]

להלן דוגמה לשיא אימונים.

הוראה על פי ההקשר, מה מצוין עבור עיצוב כולל ונגיש?
בחירה_תגובה BREEAM Credit HEA06 – עיצוב כולל ונגיש – הבניין תוכנן כך שיתאים למטרה, מתאים ונגיש לכל המשתמשים הפוטנציאליים. פותחה אסטרטגיית גישה בהתאם לרשימת הבדיקות של BREEAM A3
Rejected_response ההקשר קובע זאת

מודל התגמול מאומן עם שיעור הלמידה 1e-5. כפי שמוצג בתרשים הבא, האימון מתכנס לאחר 10 עידנים.

תהליך אימון RLHF

לאחר מכן מודל התגמול משמש ללמידה של חיזוקים. עבור מקרה שימוש זה, אנו משתמשים ב-PEFT/LoRA כדי להאיץ את הלמידה. ה-LoRA_r הוא 32 ו-LoRA_alpha הוא 64. הלמידה מבוססת PPO היא בקצב של 1.41e-5 בשלוש תקופות. אימון חיזוק הוא תנודתי מאוד ורגיש מאוד לנתוני התווית ולנתוני המשוב. אנו משתמשים במדד reward_mean, התגמול הממוצע המתקבל מהסביבה על ידי ניטור ספציפי של מודל התגמול, כדי לצפות בתהליך הלמידה.

לאחר RLAIF, אנו יכולים לראות את מספר התגובות של הבוט עם ציונים חיוביים (מעל 3) עולה מ-78.1% ל-85.5%, ואלה עם ציונים שליליים (מתחת ל-3) יורדים מ-21.9% ל-14.5%. בסך הכל, ציון המשוב הממוצע של AI עולה עד 8%, מ-3.9 ל-4.2.

שיפור על ידי RLAIF

אתה יכול לראות את השיפור בדוגמה הבאה.

שאלה עבור שטחי רצפה המרצפים, איזה מגהץ צריך?
התייחסות ריצוף בטון ישים רק באזורים עם אריחים. עיין בסדרת השרטוטים A-32 כדי לראות היכן ישים אריחי רצפה.
תגובת הבוט לפני RLAIF ריצוף בטון ישים רק ב
ציון AI לפני RLAIF 3
תגובת הבוט לאחר RLAIF ריצוף בטון ישים רק באזורים המרצפים. עיין בסדרת השרטוטים A-32 כדי לראות היכן ישים ריצוף אריחים.
ציון AI אחרי RLAIF 4.5

סיכום

פוסט זה הוא המשך העבודה שלנו עם צוות העיצוב והבנייה של אמזון האיחוד האירופי כפי שנדון ב פתרון יצירתי המופעל על ידי בינה מלאכותית ב-Amazon SageMaker כדי לעזור לעיצוב ובנייה של אמזון האיחוד האירופי. בפוסט זה, הראינו כיצד יצרנו נתוני משוב אנושיים ובינה מלאכותית כדי לכוונן את מודל Mistral-7B עם למידת חיזוק. המודל לאחר RLAIF סיפק ביצועים טובים יותר לבוט המענה לשאלות של אמזון הנדסה, שיפר את ציון המשוב של AI ב-8%. בפרויקט הפיילוט של צוות Amazon D&C, השימוש ב-RLAIF הפחית את עומס האימות עבור חברות קטנות ובינוניות בכ-80%. כשלב הבא, נרחיב את הפתרון הזה על ידי חיבור לתשתית הנתונים של אמזון הנדסה, ונתכנן מסגרת שתמכן את תהליך הלמידה המתמשך עם אדם במעגל. אנו גם נשפר עוד יותר את איכות המשוב של AI על ידי כוונון תבנית ההנחיה.

באמצעות תהליך זה, למדנו כיצד לשפר עוד יותר את האיכות והביצועים של משימות מענה לשאלות באמצעות RLHF ו-RLAIF.

  • אימות והגדלה אנושיים חיוניים כדי לספק תפוקות מדויקות ואחראיות מ- LLM. ניתן להשתמש במשוב האנושי ב-RLHF כדי לשפר עוד יותר את תגובת המודל.
  • RLAIF הופך את מחזור ההערכה והלמידה לאוטומטי. המשוב שנוצר על ידי AI הוא פחות סובייקטיבי מכיוון שהוא לא תלוי בהעדפה מסוימת ממאגר קטן של חברות קטנות ובינוניות.
  • RLAIF ניתנת להרחבה יותר כדי לשפר את איכות הבוט באמצעות המשך למידת חיזוק תוך מזעור המאמצים הנדרשים מחברות קטנות ובינוניות. זה שימושי במיוחד לפיתוח פתרונות AI מחוללים ספציפיים לתחום בתוך ארגונים גדולים.
  • תהליך זה צריך להיעשות על בסיס קבוע, במיוחד כשנתוני דומיין חדשים זמינים לכיסוי הפתרון.

במקרה השימוש הזה, השתמשנו ב- SageMaker JumpStart כדי לבדוק מספר LLMs ולהתנסות עם מספר גישות אימון LLM. זה מאיץ באופן משמעותי את משוב ומחזור הלמידה של AI עם יעילות ואיכות מקסימלית. עבור הפרויקט שלך, אתה יכול להציג את גישת האדם-בלולאה כדי לאסוף את המשוב של המשתמשים שלך, או ליצור משוב בינה מלאכותית באמצעות LLM אחר. לאחר מכן תוכל לעקוב אחר התהליך בן שלושת השלבים שהוגדר בפוסט זה כדי לכוונן את הדגמים שלך באמצעות RLHF ו- RLAIF. אנו ממליצים להתנסות בשיטות באמצעות SageMaker JumpStart כדי להאיץ את התהליך.


על המחבר

יונפיייונפאי באי הוא אדריכל פתרונות בכיר ב-AWS. עם רקע ב-AI/ML, מדעי נתונים וניתוח, Yunfei עוזרת ללקוחות לאמץ שירותי AWS כדי לספק תוצאות עסקיות. הוא מעצב פתרונות AI/ML וניתוח נתונים שמתגברים על אתגרים טכניים מורכבים ומניעים יעדים אסטרטגיים. ליונפיי יש דוקטורט בהנדסת אלקטרוניקה וחשמל. מחוץ לעבודה, יונפיי נהנית מקריאה ומוזיקה.

אלעד_צילוםאלעד דווק הוא מנהל טכנולוגיות בנייה באמזון. עם רקע בבנייה וניהול פרויקטים, אלעד מסייעת לצוותים לאמץ טכנולוגיות חדשות ותהליכים מבוססי נתונים כדי לספק פרויקטי בנייה. הוא מזהה צרכים ופתרונות, ומקל על פיתוח התכונות המותאמות אישית. לאלעד תואר MBA ותואר ראשון בהנדסת מבנים. מחוץ לעבודה, אלעד אוהב יוגה, עיבוד עץ ומטיילים עם משפחתו.

לוקה_תמונהלוקה סרבון הוא מהנדס בינה עסקית באמזון. מתוך הרקע שלו במדעי הנתונים והאנליטיקה, לוקה יוצר פתרונות טכניים המותאמים לצרכים הייחודיים של לקוחותיו, והניע אותם לתהליכים ברי קיימא וניתנים להרחבה יותר. חמוש בתואר שני במדעי נתונים, לוקה נהנה לעסוק בפרויקטים של עשה זאת בעצמך, לגננות ולהתנסות בתענוגות קולינריים ברגעי הפנאי שלו.

ספוט_ימג

המודיעין האחרון

ספוט_ימג

דבר איתנו

שלום שם! איך אני יכול לעזור לך?