אינטליגנציה של נתונים גנרטיביים

הערך את יכולות סיכום הטקסט של LLMs לקבלת החלטות משופרות ב-AWS | שירותי האינטרנט של אמזון

תאריך:

ארגונים בכל תעשיות משתמשים בסיכום טקסט אוטומטי כדי לטפל בצורה יעילה יותר בכמויות אדירות של מידע ולקבל החלטות טובות יותר. במגזר הפיננסי, בנקי השקעות מתמצים את דוחות הרווחים לנקודות מפתח כדי לנתח במהירות את הביצועים הרבעוניים. חברות מדיה משתמשות בסיכום כדי לפקח על חדשות ומדיה חברתית כך שעיתונאים יכולים לכתוב במהירות סיפורים על נושאים מתפתחים. סוכנויות ממשלתיות מסכמות מסמכי מדיניות ודוחות ארוכים כדי לעזור לקובעי המדיניות לקבוע אסטרטגיה ולתעדף יעדים.

על ידי יצירת גרסאות דחוסות של מסמכים ארוכים ומורכבים, טכנולוגיית הסיכום מאפשרת למשתמשים להתמקד בתוכן הבולט ביותר. זה מוביל להבנה טובה יותר ושמירת מידע קריטי. החיסכון בזמן מאפשר לבעלי עניין לסקור יותר חומר בפחות זמן, ולקבל פרספקטיבה רחבה יותר. עם הבנה משופרת ותובנות מסונתזות יותר, ארגונים יכולים לקבל החלטות אסטרטגיות מושכלות יותר, להאיץ מחקר, לשפר את הפרודוקטיביות ולהגדיל את השפעתם. כוח הטרנספורמציה של יכולות סיכום מתקדמות רק ימשיך לגדול ככל שתעשיות נוספות יאמצו בינה מלאכותית (AI) כדי לרתום זרמי מידע על גדותיו.

בפוסט זה, אנו בוחנים גישות מובילות להערכת דיוק הסיכום באופן אובייקטיבי, כולל מדדי ROUGE, METEOR ו-BERTScore. הבנת החוזקות והחולשות של טכניקות אלו יכולה לעזור להנחות את מאמצי הבחירה והשיפור. המטרה הכוללת של פוסט זה היא לבטל את המידה של הערכת סיכום כדי לעזור לצוותים לשפר את ביצועי השוואת ביצועים על יכולת קריטית זו כאשר הם מבקשים למקסם את הערך.

סוגי סיכום

ניתן לחלק את הסיכום לשני סוגים עיקריים: סיכום מופשט וסיכום מופשט. שתי הגישות שואפות לרכז פיסות טקסט ארוכות לצורות קצרות יותר, וללכוד את המידע הקריטי ביותר או המהות של התוכן המקורי, אך הן עושות זאת בדרכים שונות מהותית.

סיכום חילוץ כולל זיהוי וחילוץ של ביטויי מפתח, משפטים או קטעים מהטקסט המקורי מבלי לשנות אותם. המערכת בוחרת חלקים מהטקסט הנחשבים הכי אינפורמטיביים או מייצגים של המכלול. סיכום מיצוי שימושי אם הדיוק הוא קריטי והסיכום צריך לשקף את המידע המדויק מהטקסט המקורי. אלה יכולים להיות מקרי שימוש כמו הדגשת תנאים משפטיים ספציפיים, חובות וזכויות המפורטים בתנאי השימוש. הטכניקות הנפוצות ביותר המשמשות לסיכום מיצוי הן תדירות מסמכים הפוכה בתדר (TF-IDF), ניקוד משפטי, אלגוריתם דירוג טקסט ולמידת מכונה מפוקחת (ML).

סיכום מופשט הולך צעד קדימה על ידי יצירת ביטויים ומשפטים חדשים שלא היו בטקסט המקורי, בעצם פרפרזה ועיבוי של התוכן המקורי. גישה זו דורשת הבנה מעמיקה יותר של הטקסט, מכיוון שה-AI צריך לפרש את המשמעות ואז לבטא אותה בצורה חדשה ותמציתית. מודלים של שפה גדולה (LLMs) מתאימים ביותר לסיכום מופשט מכיוון שדגמי השנאים משתמשים במנגנוני קשב כדי להתמקד בחלקים רלוונטיים של טקסט הקלט בעת יצירת סיכומים. מנגנון הקשב מאפשר למודל להקצות משקלים שונים למילים או אסימונים שונים ברצף הקלט, ומאפשר לו ללכוד תלות ארוכת טווח ומידע רלוונטי מבחינה הקשרית.

בנוסף לשני הסוגים העיקריים הללו, ישנן גישות היברידיות המשלבות שיטות מיצוי ומופשטות. גישות אלו עשויות להתחיל עם סיכום חילוץ כדי לזהות את התוכן החשוב ביותר ולאחר מכן להשתמש בטכניקות מופשטות כדי לשכתב או לתמצת את התוכן לסיכום שוטף.

האתגר

מציאת השיטה האופטימלית להערכת איכות הסיכום נותרה אתגר פתוח. ככל שארגונים מסתמכים יותר ויותר על סיכום טקסט אוטומטי כדי לזקק מידע מפתח ממסמכים, גדל הצורך בטכניקות סטנדרטיות למדידת דיוק הסיכום. באופן אידיאלי, מדדי הערכה אלו יכמתו עד כמה סיכומים שנוצרו על ידי מכונה מחלצים את התוכן הבולט ביותר מטקסטי המקור ומציגים סיכומים קוהרנטיים המשקפים את המשמעות וההקשר המקוריים.

עם זאת, פיתוח מתודולוגיות הערכה חזקות לסיכום טקסט מציג קשיים:

  • סיכומי עזר שנכתבו על ידי אדם המשמשים להשוואה מראים לעתים קרובות שונות גבוהה המבוססת על קביעות סובייקטיביות של חשיבות
  • היבטים ניואנסים של איכות סיכום כמו שטף, קריאה וקוהרנטיות מתגלים כקשים לכימות תוכניתית
  • מגוון רחב קיים בין שיטות סיכום מאלגוריתמים סטטיסטיים לרשתות עצביות, מה שמקשה על השוואות ישירות

מחקר מכוון ריקול להערכת תמצית (ROUGE)

מדדי ROUGE, כגון ROUGE-N ו- ROUGE-L, ממלאים תפקיד מכריע בהערכת האיכות של סיכומים שנוצרו על ידי מכונה בהשוואה לסיכומי עזר שנכתבו על ידי אדם. מדדים אלו מתמקדים בהערכת החפיפה בין התוכן של סיכומים שנוצרו על ידי מכונה וסיכומים שנוצרו על ידי אדם על ידי ניתוח n-גרמים, שהם קבוצות של מילים או אסימונים. לדוגמה, ROUGE-1 מעריך את ההתאמה של מילים בודדות (אוניגרמות), בעוד ROUGE-2 מחשיב זוגות של מילים (ביגרמות). בנוסף, ROUGE-N מעריך את הרצף המשותף הארוך ביותר של מילים בין שני הטקסטים, מה שמאפשר גמישות בסדר המילים.

כדי להמחיש זאת, שקול את הדוגמאות הבאות:

  • מדד ROGUE-1 – ROUGE-1 מעריך את החפיפה של אוניגרמים (מילים בודדות) בין סיכום שנוצר לסיכום התייחסות. לדוגמה, אם סיכום הפניה מכיל את "השועל החום הקפיצה המהירה", והסיכום שנוצר הוא "השועל החום קופץ במהירות", המדד ROUGE-1 יחשב "חום", "שועל" ו"קפיצות" כחפיפה אוניגרמים. ROUGE-1 מתמקד בנוכחות של מילים בודדות בסיכומים, ומודד עד כמה הסיכום שנוצר לוכד את מילות המפתח מסיכום ההפניה.
  • מדד ROGUE-2 – ROUGE-2 מעריך את החפיפה של ביגרמות (זוגות של מילים סמוכות) בין סיכום שנוצר לסיכום התייחסות. לדוגמה, אם בסיכום ההתייחסות יש "החתול ישן", והסיכום שנוצר קורא "חתול ישן", ROUGE-2 יזהה את "החתול הוא" ו"ישן" כביגרמה חופפת. ROUGE-2 מספק תובנה עד כמה הסיכום שנוצר שומר על הרצף וההקשר של צמדי מילים בהשוואה לסיכום ההפניה.
  • מדד ROUGE-N – ROUGE-N הוא צורה מוכללת שבה N מייצג כל מספר, המאפשר הערכה המבוססת על n-גרם (רצפים של N מילים). בהתחשב ב-N=3, אם סיכום ההתייחסות מציין "השמש זורחת בבהירות", והסיכום שנוצר הוא "שמש זורחת בבהירות", ROUGE-3 יזהה את "שמש זורחת בבהירות" כטריגרם תואם. ROUGE-N מציעה גמישות להערכת סיכומים על סמך אורכים שונים של רצפי מילים, ומספקת הערכה מקיפה יותר של חפיפת תוכן.

דוגמאות אלו ממחישות כיצד מדדי ROUGE-1, ROUGE-2 ו- ROUGE-N פועלים בהערכת משימות סיכום אוטומטי או תרגום מכונה על ידי השוואת סיכומים שנוצרו עם סיכומי עזר המבוססים על רמות שונות של רצפי מילים.

חשב ציון ROUGE-N

אתה יכול להשתמש בשלבים הבאים כדי לחשב ציון ROUGE-N:

  1. הפוך את הסיכום שנוצר ואת סיכום ההפניה למילים בודדות או אסימונים באמצעות שיטות אסימון בסיסיות כמו פיצול על ידי רווח לבן או ספריות עיבוד שפה טבעית (NLP).
  2. צור n-גרם (רצפים רציפים של N מילים) הן מהסיכום שנוצר והן מסיכום ההפניה.
  3. ספור את מספר n-גרם החופפים בין הסיכום שנוצר לסיכום ההפניה.
  4. חשב דיוק, זכירה וציון F1:
    • דיוק – מספר n-גרם החופפים חלקי המספר הכולל של n-גרם בסיכום שנוצר.
    • להיזכר – מספר n-גרם החופפים חלקי המספר הכולל של n-גרם בסיכום ההתייחסות.
    • ציון F1 – הממוצע ההרמוני של דיוק והיזכרות, מחושב כ- (2 * דיוק * היזכרות) / (דיוק + היזכרות).
  5. ציון F1 המצטבר המתקבל מחישוב דיוק, היזכרות וציון F1 עבור כל שורה במערך הנתונים נחשב לציון ROUGE-N.

מגבלות

ל-ROGUE יש את המגבלות הבאות:

  • התמקדות צרה בחפיפה מילונית - הרעיון המרכזי מאחורי ROUGE הוא להשוות את הסיכום שנוצר על ידי המערכת למערכת של סיכומים או סיכומים שנוצרו על ידי אדם, ולמדוד את החפיפה המילונית ביניהם. פירוש הדבר של ROUGE יש התמקדות צרה מאוד בדמיון ברמת המילה. הוא למעשה לא מעריך משמעות סמנטית, קוהרנטיות או קריאות של הסיכום. מערכת יכולה להשיג ציוני ROUGE גבוהים על ידי חילוץ משפטים מילה במילה מהטקסט המקורי, מבלי ליצור סיכום קוהרנטי או תמציתי.
  • חוסר רגישות לפרפרזה – מכיוון ש-ROUGE מסתמך על התאמה מילונית, הוא לא יכול לזהות שוויון סמנטי בין מילים וביטויים. לכן, פרפרזה ושימוש במילים נרדפות יובילו לרוב לציוני ROUGE נמוכים יותר, גם אם המשמעות נשמרת. הדבר פוגע במערכות שמפרפרזות או מסכמות בצורה מופשטת.
  • חוסר הבנה סמנטית – ROUGE לא מעריך אם המערכת באמת הבינה את המשמעויות והמושגים בטקסט המקורי. סיכום יכול להשיג חפיפה מילונית גבוהה עם הפניות, תוך החמצה של הרעיונות העיקריים או הכיל אי עקביות עובדתית. ROUGE לא היה מזהה את הבעיות האלה.

מתי להשתמש ב- ROUGE

ROUGE הוא פשוט ומהיר לחישוב. השתמש בו בתור בסיס או נקודת ביצוע לאיכות סיכום הקשורה לבחירת תוכן. מדדי ROUGE משמשים בצורה היעילה ביותר בתרחישים הכוללים משימות סיכום מופשטות, הערכת סיכום אוטומטית, הערכות של LLMs וניתוחים השוואתיים של גישות סיכום שונות. על ידי שימוש במדדי ROUGE בהקשרים אלה, בעלי עניין יכולים להעריך כמותית את האיכות והיעילות של תהליכי יצירת סיכום.

מדד להערכת תרגום עם הזמנה מפורשת (METEOR)

אחד האתגרים העיקריים בהערכת מערכות סיכום הוא הערכת עד כמה הסיכום שנוצר זורם בצורה לוגית, במקום רק לבחור מילים וביטויים רלוונטיים מטקסט המקור. הוצאת מילות מפתח ומשפטים רלוונטיים בלבד אינה מייצרת בהכרח סיכום קוהרנטי ומגובש. הסיכום צריך לזרום בצורה חלקה ולחבר רעיונות באופן הגיוני, גם אם הם לא מוצגים באותו סדר כמו המסמך המקורי.

הגמישות של התאמה על-ידי הקטנת מילים לצורת השורש או הבסיס שלהן (לדוגמה, לאחר גזירה, מילים כמו "ריצה", "רץ" ו"רץ" הופכות כולן ל"ריצה") ומילים נרדפות פירושן מטאור מתאם טוב יותר עם שיפוטים אנושיים באיכות סיכום. זה יכול לזהות אם תוכן חשוב נשמר, גם אם הניסוח שונה. זהו יתרון מרכזי על פני מדדים מבוססי n-גרם כמו ROUGE, שמחפשים רק התאמות אסימונים מדויקות. METEOR גם נותן ציונים גבוהים יותר לסיכומים המתמקדים בתוכן הבולט ביותר מההפניה. ציונים נמוכים יותר ניתנים למידע חוזר או לא רלוונטי. זה מתיישב היטב עם מטרת הסיכום לשמור על התוכן החשוב ביותר בלבד. METEOR הוא מדד בעל משמעות סמנטית שיכול להתגבר על כמה מהמגבלות של התאמת n-gram להערכת סיכום טקסט. שילוב של מילים נרדפות ומילים נרדפות מאפשר הערכה טובה יותר של חפיפת מידע ודיוק התוכן.

כדי להמחיש זאת, שקול את הדוגמאות הבאות:

סיכום התייחסות: עלים נושרים במהלך הסתיו.

סיכום 1 שנוצר: עלים נושרים בסתיו.

סיכום 2 שנוצר: עלים ירוקים בקיץ.

המילים שמתאימות בין ההפניה לסיכום 1 שנוצר מודגשות:

סיכום התייחסות: עוזב ליפול במהלך הסתיו.

סיכום 1 שנוצר: עוזב לְשַׁלשֵׁל ליפול.

למרות ש"סתיו" ו"סתיו" הם אסימונים שונים, METEOR מזהה אותם כמילים נרדפות באמצעות התאמת המילים הנרדפות שלו. "נפילה" ו"נפילה" מזוהים כהתאמה עם גבעולים. עבור סיכום 2 שנוצר, אין התאמות לסיכום ההתייחסות מלבד "עלים", כך שסיכום זה יקבל ציון METEOR נמוך בהרבה. ככל שהתאמות משמעותיות יותר מבחינה סמנטית, כך ציון METEOR גבוה יותר. זה מאפשר ל- METEOR להעריך טוב יותר את התוכן והדיוק של סיכומים בהשוואה להתאמת n-gram פשוטה.

חשב ציון METEOR

השלם את השלבים הבאים כדי לחשב ציון METEOR:

  1. הפוך את הסיכום שנוצר ואת סיכום ההפניה למילים בודדות או אסימונים באמצעות שיטות אסימון בסיסיות כמו פיצול לפי רווח לבן או ספריות NLP.
  2. חשב את הדיוק, הזכירה והניקוד של ממוצע ה-F, מתן משקל רב יותר לזכירה מאשר דיוק.
  3. החל קנס על התאמות מדויקות כדי למנוע הדגשת יתר. העונש נבחר על סמך מאפייני מערך הנתונים, דרישות המשימות והאיזון בין דיוק לזכירה. הפחת את העונש הזה מהניקוד F-ממוצע שחושב בשלב 2.
  4. חשב את ציון ה-F עבור צורות גבעול (הפחתת מילים לצורת הבסיס או השורש שלהן) ומילים נרדפות עבור unigrams במידת האפשר. צברו זאת עם ציון ממוצע F שחושב קודם לכן כדי לקבל את ציון METEOR הסופי. ציון METEOR נע בין 0-1, כאשר 0 מציין שאין דמיון בין הסיכום שנוצר לסיכום ההתייחסות, ו-1 מציין יישור מושלם. בדרך כלל, ציוני הסיכום נופלים בין 0-0.6.

מגבלות

בעת שימוש במדד METEOR להערכת משימות סיכום, עשויים להתעורר מספר אתגרים:

  • מורכבות סמנטית – הדגש של METEOR על דמיון סמנטי יכול להתקשה ללכוד את המשמעויות וההקשר הניואנסים במשימות סיכום מורכבות, שעלולות להוביל לאי דיוקים בהערכה.
  • שונות התייחסות - שונות בסיכומי הפניה שנוצרו על ידי אדם יכולה להשפיע על ציוני METEOR, מכיוון שהבדלים בתוכן הפניות עשויים להשפיע על הערכת סיכומים שנוצרו על ידי מכונה.
  • המגוון הלשוני – היעילות של METEOR עשויה להשתנות בין השפות בשל וריאציות לשוניות, הבדלי תחביר וניואנסים סמנטיים, מה שמציב אתגרים בהערכות סיכום רב לשוני.
  • אי התאמה באורך – הערכת סיכומים באורכים משתנים יכולה להיות מאתגרת עבור METEOR, מכיוון שפערים באורך בהשוואה לסיכום ההתייחסות עלולים לגרום לקנסות או לאי דיוקים בהערכה.
  • כוונון פרמטרים – אופטימיזציה של הפרמטרים של METEOR עבור מערכי נתונים שונים ומשימות סיכום עשויה להיות גוזלת זמן ודורשת כוונון קפדני כדי לוודא שהמדד מספק הערכות מדויקות.
  • הטיית הערכה – קיים סיכון להטיית הערכה עם METEOR אם לא מותאם או מכויל כראוי עבור תחומי סיכום או משימות ספציפיות. זה עלול להוביל לתוצאות מוטות ולהשפיע על מהימנות תהליך ההערכה.

על ידי מודעות לאתגרים אלה והתחשבות בהם בעת השימוש ב- METEOR כמדד למשימות סיכום, חוקרים ועוסקים יכולים לנווט במגבלות פוטנציאליות ולקבל החלטות מושכלות יותר בתהליכי ההערכה שלהם.

מתי להשתמש ב- METEOR

METEOR משמש בדרך כלל כדי להעריך אוטומטית את האיכות של סיכומי טקסט. עדיף להשתמש ב- METEOR כמדד הערכה כאשר יש חשיבות לסדר הרעיונות, המושגים או הישויות בסיכום. METEOR שוקל את הסדר ומתאים n-גרם בין הסיכום שנוצר לסיכומי הפניה. זה מתגמל סיכומים המשמרים מידע רציף. שלא כמו מדדים כמו ROUGE, המסתמכים על חפיפה של n-גרם עם סיכומי התייחסות, METEOR מתאים גבעולים, מילים נרדפות ופראפראזות. METEOR עובד טוב יותר כאשר יכולות להיות מספר דרכים נכונות לסיכום הטקסט המקורי. METEOR משלבת מילים נרדפות של WordNet ואסימוני גבעולים בעת התאמת n-grams. בקיצור, סיכומים דומים מבחינה סמנטית אך משתמשים במילים או ניסוחים שונים עדיין יקבלו ציון טוב. ל- METEOR יש עונש מובנה לסיכומים עם n-גרמים חוזרים. לכן, הוא מונע מיצוי מילה במילה או חוסר הפשטה. METEOR היא בחירה טובה כאשר דמיון סמנטי, סדר רעיונות וניסוח שוטף חשובים לשיפוט איכות הסיכום. זה פחות מתאים למשימות שבהן חשוב רק חפיפה מילונית עם סיכומי התייחסות.

BERTScore

מדדים מילוניים ברמת פני השטח כמו ROUGE ו- METEOR מעריכים מערכות סיכום על ידי השוואת חפיפת המילים בין סיכום מועמד לסיכום התייחסות. עם זאת, הם מסתמכים במידה רבה על התאמת מחרוזת מדויקת בין מילים וביטויים. משמעות הדבר היא שהם עלולים לפספס קווי דמיון סמנטיים בין מילים וביטויים בעלי צורות פנים שונות אך משמעויות בסיסיות דומות. על ידי הסתמכות רק על התאמת פני השטח, מדדים אלה עשויים לזלזל באיכותם של סיכומי מערכת המשתמשים במילים נרדפות או בפרפראזה של מושגים באופן שונה מסיכומי עזר. שני סיכומים יכולים להעביר מידע כמעט זהה אך לקבל ציונים נמוכים ברמת פני השטח בשל הבדלי אוצר מילים.

BERTScore היא דרך להעריך באופן אוטומטי עד כמה סיכום טוב על ידי השוואתו לסיכום התייחסות שנכתב על ידי אדם. הוא משתמש ב-BERT, טכניקת NLP פופולרית, כדי להבין את המשמעות וההקשר של מילים בסיכום המועמד ובסיכום ההתייחסות. באופן ספציפי, הוא מסתכל על כל מילה או אסימון בסיכום המועמד ומוצא את המילה הדומה ביותר בסיכום ההתייחסות בהתבסס על הטבעות BERT, שהן ייצוגים וקטוריים של המשמעות וההקשר של כל מילה. הוא מודד את הדמיון באמצעות דמיון קוסינוס, אשר אומר כמה קרובים הוקטורים זה לזה. עבור כל מילה בסיכום המועמד, היא מוצאת את המילה הכי קשורה בסיכום ההתייחסות תוך שימוש בהבנת השפה של BERT. הוא משווה את כל קווי הדמיון הללו על פני הסיכום כולו כדי לקבל ציון כולל של עד כמה סיכום המועמד דומה מבחינה סמנטית לסיכום ההתייחסות. ככל שהמילים והמשמעויות שנלכדו על ידי BERT דומות יותר, כך ה-BERTScore גבוה יותר. זה מאפשר לה להעריך באופן אוטומטי את האיכות של סיכום שנוצר על ידי השוואתו להתייחסות אנושית מבלי להזדקק להערכה אנושית בכל פעם.

כדי להמחיש זאת, דמיינו שיש לכם סיכום שנוצר על ידי מכונה: "השועל החום המהיר קופץ מעל הכלב העצלן." כעת, הבה נבחן תקציר עזר שנוצר על ידי אדם: "שועל חום מהיר מזנק מעל כלב ישן."

חשב BERTScore

השלם את השלבים הבאים כדי לחשב BERTScore:

  1. BERTScore משתמש בהטמעות קונטקסטואליות כדי לייצג כל אסימון הן במשפטים המועמדים (שיוצרים על ידי מכונה) והן במשפטי ההתייחסות (ביצירה אנושית). הטבעות קונטקסטואליות הן סוג של ייצוג מילים ב-NLP אשר לוכד את המשמעות של מילה בהתבסס על ההקשר שלה בתוך משפט או טקסט. שלא כמו הטבעות מילים מסורתיות שמקצות וקטור קבוע לכל מילה ללא קשר להקשר שלה, הטבעות הקשריות מחשיבות את המילים שמסביב כמייצרות ייצוג ייחודי לכל מילה בהתאם לאופן השימוש בה במשפט ספציפי.
  2. לאחר מכן המדד מחשב את הדמיון בין כל אסימון במשפט המועמד עם כל אסימון במשפט ההתייחסות באמצעות דמיון קוסינוס. דמיון קוסינוס עוזר לנו לכמת את הקשר הדוק בין שתי קבוצות נתונים על ידי התמקדות בכיוון שהם מצביעים במרחב רב-ממדי, מה שהופך אותו לכלי בעל ערך עבור משימות כמו אלגוריתמי חיפוש, NLP ומערכות המלצות.
  3. על ידי השוואת ההטמעות ההקשריות וציוני הדמיון המחשוב עבור כל האסימונים, BERTScore מייצר הערכה מקיפה הלוכדת את הרלוונטיות הסמנטית וההקשר של הסיכום שנוצר בהשוואה להתייחסות שנוצרה על ידי אדם.
  4. הפלט הסופי של BERTScore מספק ציון דמיון המשקף עד כמה הסיכום שנוצר על ידי מכונה מתיישר עם סיכום ההתייחסות מבחינת משמעות והקשר.

למעשה, BERTScore חורג ממדדים מסורתיים על ידי התחשבות בניואנסים הסמנטיים וההקשר של משפטים, ומציעה הערכה מתוחכמת יותר המשקפת מקרוב את השיפוט האנושי. גישה מתקדמת זו משפרת את הדיוק והאמינות של הערכת משימות סיכום, מה שהופך את BERTScore לכלי בעל ערך בהערכת מערכות יצירת טקסט.

מגבלות:

למרות ש-BERTScore מציע יתרונות משמעותיים בהערכת משימות סיכום, הוא מגיע גם עם מגבלות מסוימות שצריך לקחת בחשבון:

  • אינטנסיביות חישובית - BERTScore יכולה להיות אינטנסיבית מבחינה חישובית בשל הסתמכותו על מודלים של שפה מאומנים מראש כמו BERT. זה יכול להוביל לזמני הערכה ארוכים יותר, במיוחד בעת עיבוד כמויות גדולות של נתוני טקסט.
  • תלות בדגמים שהוכשרו מראש – האפקטיביות של BERTScore תלויה מאוד באיכות והרלוונטיות של מודל השפה המיומן מראש בשימוש. בתרחישים שבהם המודל שהוכשר מראש עשוי שלא ללכוד כראוי את הניואנסים של הטקסט, תוצאות ההערכה עשויות להיות מושפעות.
  • בקרת מערכות ותקשורת - קנה מידה של BERTScore עבור מערכי נתונים גדולים או יישומים בזמן אמת יכול להיות מאתגר בשל הדרישות החישוביות שלו. יישום BERTScore בסביבות ייצור עשוי לדרוש אסטרטגיות אופטימיזציה כדי לספק ביצועים יעילים.
  • ספציפיות של דומיין – הביצועים של BERTScore עשויים להשתנות בין תחומים שונים או סוגי טקסט מיוחדים. התאמת המדד לתחומים או למשימות ספציפיות עשויה לדרוש כוונון עדין או התאמות כדי לייצר הערכות מדויקות.
  • פירוש - למרות ש-BERTScore מספקת הערכה מקיפה המבוססת על הטבעות הקשריות, פירוש הסיבות הספציפיות מאחורי ציוני הדמיון שנוצרו עבור כל אסימון עשוי להיות מורכב ויכול לדרוש ניתוח נוסף.
  • הערכה ללא הפניות – למרות ש-BERTScore מפחיתה את ההסתמכות על סיכומי עזר לצורך הערכה, ייתכן שגישה נטולת הפניות זו לא תופסת במלואה את כל ההיבטים של איכות הסיכום, במיוחד בתרחישים שבהם הפניות שנוצרו על ידי אדם חיוניות להערכת הרלוונטיות והקוהרנטיות של התוכן.

הכרה במגבלות אלו יכולה לעזור לך לקבל החלטות מושכלות בעת השימוש ב-BERTScore כמדד להערכת משימות סיכום, ולספק הבנה מאוזנת של החוזקות והאילוצים שלה.

מתי להשתמש ב-BERTScore

BERTScore יכול להעריך את איכות סיכום הטקסט על ידי השוואת סיכום שנוצר לסיכום התייחסות. הוא משתמש ברשתות עצביות כמו BERT כדי למדוד דמיון סמנטי מעבר להתאמה מדויקת של מילים או ביטויים בלבד. זה הופך את BERTScore לשימושי מאוד כאשר נאמנות סמנטית שמירה על מלוא המשמעות והתוכן היא קריטית עבור משימת הסיכום שלך. BERTScore ייתן ציונים גבוהים יותר לסיכומים המעבירים את אותו מידע כמו סיכום ההפניה, גם אם הם משתמשים במילים ובמבנה משפטים שונים. השורה התחתונה היא ש-BERTScore אידיאלי למשימות סיכום שבהן שמירה על המשמעות הסמנטית המלאה לא רק מילות מפתח או נושאים היא חיונית. הניקוד העצבי המתקדם שלו מאפשר לו להשוות משמעות מעבר להתאמת מילים ברמת פני השטח. זה הופך אותו למתאים למקרים שבהם הבדלים עדינים בניסוח יכולים לשנות באופן מהותי את המשמעות וההשלכות הכוללות. BERTScore, בפרט, מצטיין בלכידת דמיון סמנטי, שהוא חיוני להערכת האיכות של סיכומים מופשטים כמו אלה המופקים על ידי מודלים של Retrieval Augmented Generation (RAG).

מסגרות להערכת מודלים

מסגרות הערכת מודל חיוניות לאמוד מדויק של הביצועים של מודלי סיכום שונים. מסגרות אלו מסייעות בהשוואת מודלים, מספקות קוהרנטיות בין סיכומים שנוצרו לתוכן המקור, ואיתור ליקויים בשיטות הערכה. על ידי ביצוע הערכות יסודיות ומידוד עקבי, מסגרות אלו מעודדות מחקר של סיכום טקסט על ידי תמיכה בפרקטיקות הערכה סטנדרטיות ומאפשרות השוואת מודלים רב-גונית.

ב-AWS, ה ספריית FMEval בתוך אמזון סייג מייקר להבהיר מייעל את ההערכה והבחירה של מודלי יסוד (FMs) עבור משימות כמו סיכום טקסט, מענה לשאלות וסיווג. זה מסמיך אותך להעריך FMs על סמך מדדים כגון דיוק, חוסן, יצירתיות, הטיה ורעילות, ותומך הן בהערכות אוטומטיות והן בהערכות אנושיות עבור LLMs. עם הערכות מבוססות ממשק משתמש או פרוגרמטיות, FMEval מייצרת דוחות מפורטים עם הדמיות כדי לכמת סיכוני מודל כמו אי דיוקים, רעילות או הטיה, ועוזרת לארגונים להתיישר עם הנחיות הבינה המלאכותית האחראית שלהם. בחלק זה, אנו מדגימים כיצד להשתמש בספריית FMEval.

הערך את קלוד v2 על דיוק הסיכום באמצעות Amazon Bedrock

קטע הקוד הבא הוא דוגמה ליצירת אינטראקציה עם המודל של קלוד האנתרופי באמצעות קוד Python:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

במילים פשוטות, קוד זה מבצע את הפעולות הבאות:

  1. ייבא את הספריות הדרושות, כולל json, כדי לעבוד עם נתוני JSON.
  2. הגדר את מזהה הדגם בתור anthropic.claude-v2 והגדר את סוג התוכן עבור הבקשה.
  3. צור prompt_data משתנה המבנה את נתוני הקלט עבור מודל קלוד. במקרה זה, הוא שואל את השאלה "מי זה ברק אובמה?" ומצפה לתגובה מהדגם.
  4. בנה אובייקט JSON בשם body הכולל את נתוני ההנחיה, וציין פרמטרים נוספים כמו המספר המרבי של אסימונים להפקה.
  5. הפעל את המודל של קלוד באמצעות bedrock_runtime.invoke_model עם הפרמטרים המוגדרים.
  6. נתח את התגובה מהמודל, חלץ את ההשלמה (טקסט שנוצר) והדפיס אותו.

הפוך בטוח AWS זהות וניהול גישה תפקיד (IAM) המשויך ל- סטודיו SageMaker של אמזון לפרופיל המשתמש יש גישה ל סלע אמזון מודלים המופעלים. מתייחס דוגמאות למדיניות מבוססת-זהות עבור אמזון להדרכה על שיטות עבודה מומלצות ודוגמאות של מדיניות מבוססת זהות עבור Amazon Bedrock.

שימוש בספריית FMEval כדי להעריך את הפלט המסוכם של קלוד

אנו משתמשים בקוד הבא כדי להעריך את הפלט המסוכם:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

בקטע הקוד הקודם, כדי להעריך סיכום טקסט באמצעות ספריית FMEval, אנו משלימים את השלבים הבאים:

  1. צור ModelRunner לבצע הזמנה ב-LLM שלך. ספריית FMEval מספקת תמיכה מובנית עבור אמזון SageMaker נקודות קצה ו אמזון SageMaker JumpStart לימודי תואר שני. אתה יכול גם להאריך את ModelRunner ממשק עבור כל LLMs המתארח בכל מקום.
  2. שימוש נתמך eval_algorithms כמו רעילות, סיכום, דיוק, סמנטיקה וחוסן, בהתבסס על צרכי ההערכה שלך.
  3. התאם אישית את פרמטרי תצורת ההערכה למקרה השימוש הספציפי שלך.
  4. השתמש באלגוריתם ההערכה עם מערכי נתונים מובנים או מותאמים אישית כדי להעריך את מודל ה-LLM שלך. מערך הנתונים המשמש במקרה זה מקורו מהבאים הבאים GitHub ריפו.

עיין ב מדריך למפתחים ודוגמאות לשימוש מפורט באלגוריתמי הערכה.

הטבלה הבאה מסכמת את תוצאות ההערכה.

דגם _קלט model_output target_output הפקודה ציונים ציון_מטאור rouge_score bert_score
ג'ון אדוארד
0 בייטס, לשעבר מספאלדינג, לינקו…..
אני לא יכול לקבוע שום דבר סופי
פסקי דין, כמו ה...
לשעבר
שוטר משטרת לינקולנשייר נשא או…
בן אדם: ג'ון
אדוארד בייטס, לשעבר מ-Spalding...
[{'name': 'meteor', 'value':
0.101010101010101â € |
0.10101 0 0.557155
23 אוקטובר 2015
עודכן לאחרונה ב
17:44 BST|לא זה...
הנה כמה נקודות מפתח על הוריקן/טרופ.. הוריקן פטרישיה דורגה כקטגוריה... בן אדם: 23
אוקטובר 2015 עדכון אחרון בשעה 17:44
ב ...
[{'name': meteor', "value':
0.102339181286549 ..
0.102339 0.018265 0.441421
פרארי הופיעה בעמדה לאתגר את... להלן נקודות המפתח מהמאמר: תשע... לואיס המילטון הגיע בסערה לפול פוזישן ב... אנושי: פרארי הופיעה בעמדה לאתגר... [{'name': 'meteor', 'value':
0.322543352601156â € |
0.322543 0.078212 0.606487
השחקן יליד באת', 28, עשה 36
מראה…
אוקיי, הרשו לי לסכם את נקודות המפתח:/nin- E….. ניופורט גוונט דרקונים מספר שמונה אד ג'קסון אנושי: השחקן יליד באת', 28, עשה 36 א... [{'name': 'meteor', 'value':
0105740181268882â € |
0.10574 0.012987 0.539488
חולשות באופן שבו עכברים החליפו נתונים עם c... להלן נקודות המפתח שאספתי מתוך א... האקרים יכולים לקבל גישה לבית ו אנושי:
חולשות ב
עכברי השבעה החליפו נתונים
[{'name': 'meteor', 'value':
0.201048289433848â € |
0.201048 0.021858 0.526947

בדוק את המדגם מחברה לפרטים נוספים על הערכת הסיכום שעליה דנו בפוסט זה.

סיכום

ROUGE, METEOR ו-BERTScore מודדים כולם את האיכות של סיכומים שנוצרו על ידי מכונה, אך מתמקדים בהיבטים שונים כמו חפיפה מילונית, שטף או דמיון סמנטי. הקפד לבחור את המדד שמתאים למה שמגדיר "טוב" עבור מקרה השימוש הספציפי שלך לסיכום. אתה יכול גם להשתמש בשילוב של מדדים. זה מספק הערכה מעוגלת יותר ושומר מפני חולשות פוטנציאליות של כל מדד בודד. עם המדידות הנכונות, אתה יכול לשפר באופן איטרטיבי את המסכמים שלך כדי לעמוד בכל רעיון הדיוק החשוב ביותר.

בנוסף, הערכת FM ו- LLM נחוצה כדי להיות מסוגל לייצר מודלים אלה בקנה מידה. עם FMEval, אתה מקבל סט עצום של אלגוריתמים מובנים על פני משימות NLP רבות, אך גם כלי ניתן להרחבה וגמיש להערכות בקנה מידה גדול של המודלים, מערכי הנתונים והאלגוריתמים שלך. כדי להגדיל, אתה יכול להשתמש בחבילה זו בצינורות ה-LLMOps שלך כדי להעריך מספר מודלים. למידע נוסף על FMEval ב-AWS וכיצד להשתמש בו ביעילות, עיין ב השתמש ב- SageMaker Clarify כדי להעריך מודלים של שפות גדולות. להבנה נוספת ותובנות לגבי היכולות של SageMaker Clarify בהערכת FMs, ראה אמזון SageMaker Clarify מקל על הערכה ובחירת דגמי יסוד.


על הכותבים


דינש קומאר סוברמאני הוא אדריכל פתרונות בכיר שבסיסו באדינבורו, סקוטלנד. הוא מתמחה בבינה מלאכותית ולמידת מכונה, והוא חבר בקהילת השטח הטכני באמזון. Dinesh עובדת בשיתוף פעולה הדוק עם לקוחות ממשלת בריטניה המרכזית כדי לפתור את הבעיות שלהם באמצעות שירותי AWS. מחוץ לעבודה, דינש נהנה לבלות זמן איכות עם משפחתו, לשחק שח ולחקור מגוון מגוון של מוזיקה.


פראנב שארמה היא מובילה של AWS המניעה יוזמות טכנולוגיה ושינוי עסקי ברחבי אירופה, המזרח התיכון ואפריקה. יש לו ניסיון בתכנון והפעלת פלטפורמות בינה מלאכותית בייצור התומכות במיליוני לקוחות ומספקות תוצאות עסקיות. הוא שיחק בתפקידי מנהיגות טכנולוגיה ואנשים עבור ארגוני שירותים פיננסיים גלובליים. מחוץ לעבודה, הוא אוהב לקרוא, לשחק טניס עם בנו ולראות סרטים.

ספוט_ימג

המודיעין האחרון

ספוט_ימג

דבר איתנו

שלום שם! איך אני יכול לעזור לך?