ذكاء البيانات التوليدية

قم بتقييم إمكانيات تلخيص النص لـ LLM لتحسين عملية اتخاذ القرار على AWS | خدمات الويب الأمازون

التاريخ:

تستخدم المؤسسات عبر الصناعات التلخيص التلقائي للنص للتعامل بشكل أكثر كفاءة مع كميات هائلة من المعلومات واتخاذ قرارات أفضل. في القطاع المالي، تقوم البنوك الاستثمارية بتكثيف تقارير الأرباح وصولاً إلى الوجبات الرئيسية لتحليل الأداء ربع السنوي بسرعة. تستخدم شركات الإعلام التلخيص لمراقبة الأخبار ووسائل التواصل الاجتماعي حتى يتمكن الصحفيون من كتابة القصص بسرعة حول القضايا النامية. تقوم الوكالات الحكومية بتلخيص وثائق وتقارير السياسة المطولة لمساعدة صناع السياسات على وضع الاستراتيجيات وتحديد أولويات الأهداف.

من خلال إنشاء إصدارات مكثفة من المستندات الطويلة والمعقدة، تمكن تقنية التلخيص المستخدمين من التركيز على المحتوى الأكثر بروزًا. وهذا يؤدي إلى فهم أفضل والاحتفاظ بالمعلومات الهامة. يتيح توفير الوقت لأصحاب المصلحة مراجعة المزيد من المواد في وقت أقل، والحصول على منظور أوسع. ومن خلال الفهم المعزز والرؤى الأكثر تركيبًا، يمكن للمؤسسات اتخاذ قرارات استراتيجية مستنيرة بشكل أفضل، وتسريع البحث، وتحسين الإنتاجية، وزيادة تأثيرها. سوف تستمر القوة التحويلية لقدرات التلخيص المتقدمة في النمو مع اعتماد المزيد من الصناعات للذكاء الاصطناعي (AI) لتسخير تدفقات المعلومات الفائضة.

في هذا المنشور، نستكشف الأساليب الرائدة لتقييم دقة التلخيص بشكل موضوعي، بما في ذلك مقاييس ROUGE وMETEOR وBERTScore. إن فهم نقاط القوة والضعف في هذه التقنيات يمكن أن يساعد في توجيه جهود الاختيار والتحسين. الهدف العام لهذا المنشور هو إزالة الغموض عن تقييم التلخيص لمساعدة الفرق على قياس الأداء بشكل أفضل في هذه القدرة المهمة أثناء سعيهم لتحقيق أقصى قدر من القيمة.

أنواع التلخيص

يمكن تقسيم التلخيص عمومًا إلى نوعين رئيسيين: التلخيص الاستخراجي والتلخيص المجرد. يهدف كلا الأسلوبين إلى تكثيف أجزاء طويلة من النص في أشكال أقصر، والتقاط المعلومات الأكثر أهمية أو جوهر المحتوى الأصلي، لكنهما يفعلان ذلك بطرق مختلفة بشكل أساسي.

يتضمن التلخيص الاستخراجي تحديد واستخراج العبارات أو الجمل أو الأجزاء الرئيسية من النص الأصلي دون تغييرها. يختار النظام أجزاء من النص تعتبر أكثر إفادة أو تمثيلاً للكل. يكون التلخيص الاستخراجي مفيدًا إذا كانت الدقة أمرًا بالغ الأهمية ويجب أن يعكس الملخص المعلومات الدقيقة من النص الأصلي. يمكن أن تكون هذه حالات استخدام مثل تسليط الضوء على مصطلحات قانونية والتزامات وحقوق محددة موضحة في شروط الاستخدام. الأساليب الأكثر شيوعًا المستخدمة في التلخيص الاستخراجي هي تكرار المصطلح معكوس تكرار المستند (TF-IDF)، وسجل الجملة، وخوارزمية ترتيب النص، والتعلم الآلي الخاضع للإشراف (ML).

يذهب التلخيص التجريدي إلى أبعد من ذلك من خلال إنشاء عبارات وجمل جديدة لم تكن موجودة في النص الأصلي، وذلك من خلال إعادة صياغة المحتوى الأصلي وتكثيفه. يتطلب هذا النهج فهمًا أعمق للنص، لأن الذكاء الاصطناعي يحتاج إلى تفسير المعنى ثم التعبير عنه في شكل جديد وموجز. تعتبر نماذج اللغة الكبيرة (LLMs) هي الأنسب للتلخيص التجريدي لأن نماذج المحولات تستخدم آليات الانتباه للتركيز على الأجزاء ذات الصلة من نص الإدخال عند إنشاء الملخصات. تسمح آلية الانتباه للنموذج بتعيين أوزان مختلفة لكلمات أو رموز مختلفة في تسلسل الإدخال، مما يمكّنه من التقاط التبعيات طويلة المدى والمعلومات ذات الصلة بالسياق.

بالإضافة إلى هذين النوعين الأساسيين، هناك أساليب هجينة تجمع بين الأساليب الاستخراجية والتجريدية. قد تبدأ هذه الأساليب بالتلخيص الاستخراجي لتحديد المحتوى الأكثر أهمية ثم استخدام التقنيات التجريدية لإعادة كتابة هذا المحتوى أو تكثيفه في ملخص سلس.

التحدي

إن العثور على الطريقة المثلى لتقييم جودة الملخص يظل تحديًا مفتوحًا. مع اعتماد المؤسسات بشكل متزايد على تلخيص النص التلقائي لاستخلاص المعلومات الأساسية من المستندات، تتزايد الحاجة إلى تقنيات موحدة لقياس دقة التلخيص. من الناحية المثالية، ستحدد مقاييس التقييم هذه مدى جودة الملخصات التي يتم إنشاؤها آليًا في استخراج المحتوى الأكثر بروزًا من النصوص المصدر وتقديم ملخصات متماسكة تعكس المعنى والسياق الأصليين.

ومع ذلك، فإن تطوير منهجيات تقييم قوية لتلخيص النص يمثل صعوبات:

  • غالبًا ما تظهر الملخصات المرجعية التي كتبها الإنسان والمستخدمة للمقارنة تباينًا كبيرًا بناءً على التحديدات الذاتية للأهمية
  • يصعب قياس الجوانب الدقيقة لجودة الملخص مثل الطلاقة وسهولة القراءة والتماسك برمجيًا
  • يوجد تباين واسع عبر طرق التلخيص بدءًا من الخوارزميات الإحصائية وحتى الشبكات العصبية، مما يؤدي إلى تعقيد المقارنات المباشرة

الدراسة البديلة الموجهة نحو الاستدعاء لتقييم التسجيل (ROUGE)

مقاييس روجتلعب مثل ROUGE-N وROUGE-L دورًا حاسمًا في تقييم جودة الملخصات التي يتم إنشاؤها آليًا مقارنة بالملخصات المرجعية المكتوبة بواسطة الإنسان. تركز هذه المقاييس على تقييم التداخل بين محتوى الملخصات التي تم إنشاؤها آليًا وتلك التي صنعها الإنسان من خلال تحليل n-grams، وهي مجموعات من الكلمات أو الرموز المميزة. على سبيل المثال، يقوم ROUGE-1 بتقييم تطابق الكلمات الفردية (أحاديات)، في حين يأخذ ROUGE-2 في الاعتبار أزواج الكلمات (bigrams). بالإضافة إلى ذلك، يقوم ROUGE-N بتقييم أطول تسلسل مشترك للكلمات بين النصين، مما يسمح بالمرونة في ترتيب الكلمات.

ولتوضيح ذلك خذ الأمثلة التالية:

  • مقياس ROGUE-1 - يقوم ROUGE-1 بتقييم تداخل الوحدات الأحادية (الكلمات المفردة) بين الملخص الذي تم إنشاؤه والملخص المرجعي. على سبيل المثال، إذا كان ملخص مرجعي يحتوي على "الثعلب البني السريع يقفز"، وكان الملخص الذي تم إنشاؤه هو "الثعلب البني يقفز بسرعة"، فسيعتبر مقياس ROUGE-1 أن "البني" و"الثعلب" و"القفزات" متداخلة com.unigrams. يركز ROUGE-1 على وجود كلمات فردية في الملخصات، وقياس مدى جودة الملخص الذي تم إنشاؤه في التقاط الكلمات الرئيسية من الملخص المرجعي.
  • مقياس ROGUE-2 - يقوم ROUGE-2 بتقييم تداخل الصور الكبيرة (أزواج من الكلمات المتجاورة) بين الملخص الذي تم إنشاؤه والملخص المرجعي. على سبيل المثال، إذا كان ملخص المرجع يحتوي على "القطة نائمة"، وكان الملخص الذي تم إنشاؤه يقرأ "قطة نائمة"، فإن ROUGE-2 سيحدد "قطة نائمة" و"نائمة" باعتبارهما بيجرام متداخلين. يوفر ROUGE-2 نظرة ثاقبة حول مدى جودة احتفاظ الملخص الذي تم إنشاؤه بتسلسل وسياق أزواج الكلمات مقارنة بالملخص المرجعي.
  • مقياس ROUGE-N - ROUGE-N هو شكل معمم حيث تمثل N أي رقم، مما يسمح بالتقييم على أساس n-grams (تسلسلات من الكلمات N). بالنظر إلى N=3، إذا كان الملخص المرجعي ينص على "الشمس مشرقة بشكل مشرق"، وكان الملخص الذي تم إنشاؤه هو "الشمس مشرقة بشكل مشرق"، فإن ROUGE-3 سوف يتعرف على "الشمس مشرقة بشكل مشرق" كثلاثي مخطط مطابق. يوفر ROUGE-N المرونة لتقييم الملخصات بناءً على أطوال مختلفة لتسلسلات الكلمات، مما يوفر تقييمًا أكثر شمولاً لتداخل المحتوى.

توضح هذه الأمثلة كيفية عمل مقاييس ROUGE-1 وROUGE-2 وROUGE-N في تقييم التلخيص التلقائي أو مهام الترجمة الآلية من خلال مقارنة الملخصات التي تم إنشاؤها مع الملخصات المرجعية استنادًا إلى مستويات مختلفة من تسلسلات الكلمات.

حساب درجة ROUGE-N

يمكنك استخدام الخطوات التالية لحساب درجة ROUGE-N:

  1. قم بترميز الملخص الذي تم إنشاؤه والملخص المرجعي إلى كلمات فردية أو رموز مميزة باستخدام طرق الترميز الأساسية مثل التقسيم حسب المسافات البيضاء أو مكتبات معالجة اللغة الطبيعية (NLP).
  2. قم بإنشاء n-grams (تسلسلات متجاورة من الكلمات N) من كل من الملخص الذي تم إنشاؤه والملخص المرجعي.
  3. حساب عدد الجرامات المتداخلة بين الملخص الذي تم إنشاؤه والملخص المرجعي.
  4. حساب الدقة والاستدعاء ودرجة F1:
    • دقة – عدد الجرامات n المتداخلة مقسومًا على إجمالي عدد الجرامات n في الملخص الذي تم إنشاؤه.
    • تذكر – عدد جرامات n المتداخلة مقسومًا على إجمالي عدد جرامات n في الملخص المرجعي.
    • نتيجة F1 – الوسط التوافقي للدقة والاستذكار ويحسب بـ (2 * الدقة * الاستذكار) / (الدقة + الاستدعاء).
  5. تعتبر مجموع نقاط F1 التي تم الحصول عليها من حساب الدقة والاستدعاء ودرجة F1 لكل صف في مجموعة البيانات بمثابة درجة ROUGE-N.

القيود

لدى ROGUE القيود التالية:

  • التركيز الضيق على التداخل المعجمي - الفكرة الأساسية وراء ROUGE هي مقارنة الملخص الذي ينشئه النظام بمجموعة من المراجع أو الملخصات التي أنشأها الإنسان، وقياس التداخل المعجمي بينها. وهذا يعني أن ROUGE لديها تركيز ضيق جدًا على التشابه على مستوى الكلمات. إنه لا يقوم في الواقع بتقييم المعنى الدلالي أو التماسك أو سهولة قراءة الملخص. يمكن للنظام تحقيق درجات عالية من ROUGE ببساطة عن طريق استخراج الجمل كلمة بكلمة من النص الأصلي، دون إنشاء ملخص متماسك أو موجز.
  • عدم الحساسية لإعادة الصياغة - نظرًا لأن ROUGE يعتمد على المطابقة المعجمية، فإنه لا يمكنه اكتشاف التكافؤ الدلالي بين الكلمات والعبارات. ولذلك، فإن إعادة الصياغة واستخدام المرادفات غالبًا ما يؤدي إلى انخفاض درجات ROUGE، حتى لو تم الحفاظ على المعنى. وهذا يعيب الأنظمة التي تعيد الصياغة أو تلخص بطريقة مجردة.
  • عدم وجود الفهم الدلالي – لا يقوم ROUGE بتقييم ما إذا كان النظام قد فهم حقًا المعاني والمفاهيم الموجودة في النص الأصلي. يمكن أن يحقق الملخص تداخلًا معجميًا عاليًا مع المراجع، بينما يفتقد الأفكار الرئيسية أو يحتوي على تناقضات واقعية. ROUGE لن يحدد هذه المشكلات.

متى تستخدم ROUGE

ROUGE بسيط وسريع الحساب. استخدمه كخط أساس أو معيار لجودة الملخص المتعلق باختيار المحتوى. يتم استخدام مقاييس ROUGE بشكل أكثر فعالية في السيناريوهات التي تتضمن مهام التلخيص التجريدي، وتقييم التلخيص التلقائي، وتقييمات LLMs، والتحليلات المقارنة لأساليب التلخيص المختلفة. وباستخدام مقاييس ROUGE في هذه السياقات، يمكن لأصحاب المصلحة إجراء تقييم كمي لجودة وفعالية عمليات إنشاء الملخص.

مقياس تقييم الترجمة ذات الترتيب الصريح (METEOR)

أحد التحديات الرئيسية في تقييم أنظمة التلخيص هو تقييم مدى تدفق الملخص الناتج بشكل منطقي، بدلاً من مجرد اختيار الكلمات والعبارات ذات الصلة من النص المصدر. إن مجرد استخراج الكلمات الرئيسية والجمل ذات الصلة لا ينتج بالضرورة ملخصًا متماسكًا ومتماسكًا. يجب أن يتدفق الملخص بسلاسة ويربط الأفكار بشكل منطقي، حتى لو لم يتم تقديمها بنفس ترتيب المستند الأصلي.

مرونة المطابقة عن طريق اختزال الكلمات إلى جذرها أو شكلها الأساسي (على سبيل المثال، بعد الاشتقاق، تصبح كلمات مثل "تشغيل" و"تشغيل" و"تشغيل" جميعها "تشغيل") والمرادفات تعني METEOR يرتبط بشكل أفضل مع الأحكام البشرية ذات جودة التلخيص. يمكنه تحديد ما إذا كان المحتوى المهم محفوظًا، حتى لو اختلفت الصياغة. هذه ميزة رئيسية مقارنة بالمقاييس المستندة إلى n-gram مثل ROUGE، والتي تبحث فقط عن التطابقات الدقيقة للرموز. يمنح METEOR أيضًا درجات أعلى للملخصات التي تركز على المحتوى الأكثر بروزًا من المرجع. يتم إعطاء درجات أقل للمعلومات المتكررة أو غير ذات الصلة. يتوافق هذا جيدًا مع هدف التلخيص للاحتفاظ بالمحتوى الأكثر أهمية فقط. METEOR هو مقياس ذو معنى دلالي يمكنه التغلب على بعض القيود المفروضة على مطابقة n-gram لتقييم تلخيص النص. يسمح دمج الاشتقاق والمرادفات بتقييم أفضل لتداخل المعلومات ودقة المحتوى.

ولتوضيح ذلك خذ الأمثلة التالية:

ملخص المرجع: سقوط الأوراق خلال فصل الخريف.

الملخص الذي تم إنشاؤه 1: سقوط الأوراق في الخريف.

الملخص الذي تم إنشاؤه 2: الأوراق خضراء في الصيف.

يتم تمييز الكلمات التي تتطابق بين المرجع والملخص الذي تم إنشاؤه 1:

ملخص المرجع: الأوراق تقع خلال فصل الخريف.

الملخص الذي تم إنشاؤه 1: الأوراق انخفاض في تقع.

على الرغم من أن "الخريف" و"الخريف" هما رمزان مختلفان، إلا أن METEOR يتعرف عليهما كمرادفين من خلال مطابقة المرادفات الخاصة به. يتم تحديد "السقوط" و"السقوط" على أنهما تطابقان. بالنسبة للملخص 2 الذي تم إنشاؤه، لا توجد تطابقات مع الملخص المرجعي إلى جانب "الأوراق"، لذلك سيحصل هذا الملخص على درجة METEOR أقل بكثير. كلما زادت التطابقات ذات المغزى الدلالي، زادت نتيجة METEOR. يسمح هذا لـ METEOR بتقييم محتوى الملخصات ودقتها بشكل أفضل مقارنةً بمطابقة n-gram البسيطة.

حساب نقاط METEOR

أكمل الخطوات التالية لحساب نتيجة METEOR:

  1. قم بترميز الملخص الذي تم إنشاؤه والملخص المرجعي إلى كلمات فردية أو رموز مميزة باستخدام طرق الترميز الأساسية مثل التقسيم حسب المسافات البيضاء أو مكتبات البرمجة اللغوية العصبية.
  2. احسب دقة unigram، والاستدعاء، ودرجة F-mean، مما يعطي وزنًا أكبر للاستدعاء أكثر من الدقة.
  3. قم بتطبيق عقوبة على المطابقات التامة لتجنب المبالغة في التأكيد عليها. يتم اختيار العقوبة بناءً على خصائص مجموعة البيانات ومتطلبات المهمة والتوازن بين الدقة والاستدعاء. اطرح هذه العقوبة من درجة متوسط ​​F المحسوبة في الخطوة 2.
  4. احسب درجة F-mean للأشكال الجذعية (اختزال الكلمات إلى شكلها الأساسي أو الجذري) ومرادفات للأحاديات حيثما أمكن ذلك. اجمع هذا مع درجة F-mean المحسوبة مسبقًا للحصول على النتيجة النهائية للنيزك. تتراوح درجة METEOR من 0 إلى 1، حيث يشير 0 إلى عدم وجود تشابه بين الملخص الذي تم إنشاؤه وملخص المرجع، ويشير 1 إلى المحاذاة المثالية. عادةً ما تقع درجات التلخيص بين 0-0.6.

القيود

عند استخدام مقياس METEOR لتقييم مهام التلخيص، قد تنشأ عدة تحديات:

  • التعقيد الدلالي – إن تركيز METEOR على التشابه الدلالي يمكن أن يواجه صعوبة في التقاط المعاني الدقيقة والسياق في مهام التلخيص المعقدة، مما قد يؤدي إلى عدم دقة في التقييم.
  • التقلب المرجعي - يمكن أن يؤثر التباين في الملخصات المرجعية التي ينشئها الإنسان على درجات METEOR، لأن الاختلافات في المحتوى المرجعي قد تؤثر على تقييم الملخصات التي ينشئها الإنسان.
  • تنوع اللغويات - قد تختلف فعالية METEOR عبر اللغات بسبب الاختلافات اللغوية، والاختلافات النحوية، والفروق الدقيقة في الدلالات، مما يشكل تحديات في تقييمات التلخيص متعدد اللغات.
  • تناقض الطول - يمكن أن يشكل تقييم الملخصات ذات الأطوال المختلفة تحديًا بالنسبة لـ METEOR، لأن التناقضات في الطول مقارنة بالملخص المرجعي قد تؤدي إلى فرض عقوبات أو عدم دقة في التقييم.
  • ضبط المعلمة - قد يستغرق تحسين معلمات METEOR لمجموعات البيانات ومهام التلخيص المختلفة وقتًا طويلاً ويتطلب ضبطًا دقيقًا للتأكد من أن المقياس يوفر تقييمات دقيقة.
  • تحيز التقييم - هناك خطر تحيز التقييم مع METEOR إذا لم يتم ضبطه أو معايرته بشكل صحيح لمجالات أو مهام تلخيص محددة. يمكن أن يؤدي هذا إلى نتائج منحرفة ويؤثر على موثوقية عملية التقييم.

من خلال إدراك هذه التحديات وأخذها في الاعتبار عند استخدام METEOR كمقياس لمهام التلخيص، يمكن للباحثين والممارسين التغلب على القيود المحتملة واتخاذ قرارات أكثر استنارة في عمليات التقييم الخاصة بهم.

متى تستخدم النيزك

يُستخدم METEOR بشكل شائع لتقييم جودة الملخصات النصية تلقائيًا. يُفضل استخدام METEOR كمقياس تقييم عندما يكون ترتيب الأفكار أو المفاهيم أو الكيانات في الملخص مهمًا. يأخذ METEOR الترتيب ويطابق n-grams بين الملخص الذي تم إنشاؤه والملخصات المرجعية. إنه يكافئ الملخصات التي تحافظ على المعلومات المتسلسلة. على عكس المقاييس مثل ROUGE، التي تعتمد على تداخل n-grams مع ملخصات مرجعية، فإن METEOR يطابق الأصول والمرادفات وإعادة الصياغة. يعمل METEOR بشكل أفضل عندما يكون هناك عدة طرق صحيحة لتلخيص النص الأصلي. يتضمن METEOR مرادفات WordNet والرموز المميزة عند مطابقة n-grams. باختصار، الملخصات المتشابهة من الناحية الدلالية ولكنها تستخدم كلمات أو عبارات مختلفة ستظل تحقق نتائج جيدة. يحتوي METEOR على عقوبة مضمنة للملخصات ذات جرامات n المتكررة. لذلك، فهو لا يشجع على الاستخراج كلمة بكلمة أو عدم التجريد. يعد METEOR اختيارًا جيدًا عندما يكون التشابه الدلالي وترتيب الأفكار والصياغة بطلاقة أمرًا مهمًا للحكم على جودة الملخص. وهو أقل ملاءمة للمهام التي يكون فيها التداخل المعجمي فقط مع الملخصات المرجعية مهمًا.

بيرتسكور

تقوم المقاييس المعجمية على مستوى السطح مثل ROUGE وMETEOR بتقييم أنظمة التلخيص من خلال مقارنة تداخل الكلمات بين ملخص المرشح وملخص مرجعي. ومع ذلك، فإنها تعتمد بشكل كبير على مطابقة السلسلة الدقيقة بين الكلمات والعبارات. وهذا يعني أنهم قد يفتقدون أوجه التشابه الدلالية بين الكلمات والعبارات التي لها أشكال سطحية مختلفة ولكن معاني أساسية متشابهة. من خلال الاعتماد فقط على المطابقة السطحية، قد تقلل هذه المقاييس من جودة ملخصات النظام التي تستخدم كلمات مترادفة أو تعيد صياغة المفاهيم بشكل مختلف عن الملخصات المرجعية. يمكن أن ينقل ملخصان معلومات متطابقة تقريبًا ولكنهما يحصلان على درجات منخفضة على المستوى السطحي بسبب اختلافات المفردات.

بيرتسكور هي طريقة لتقييم مدى جودة الملخص تلقائيًا من خلال مقارنته بملخص مرجعي كتبه الإنسان. يستخدم BERT، وهو أسلوب شائع في البرمجة اللغوية العصبية، لفهم معنى وسياق الكلمات في ملخص المرشح وملخص المراجع. على وجه التحديد، فإنه ينظر إلى كل كلمة أو رمز مميز في ملخص المرشح ويجد الكلمة الأكثر تشابهًا في ملخص المرجع استنادًا إلى تضمينات BERT، وهي تمثيلات متجهة لمعنى وسياق كل كلمة. فهو يقيس التشابه باستخدام تشابه جيب التمام، الذي يوضح مدى قرب المتجهات من بعضها البعض. بالنسبة لكل كلمة في ملخص المرشح، فإنه يجد الكلمة الأكثر صلة في ملخص المرجع باستخدام فهم BERT للغة. فهو يقارن جميع أوجه التشابه بين الكلمات عبر الملخص بأكمله للحصول على درجة إجمالية لمدى التشابه الدلالي بين ملخص المرشح والملخص المرجعي. كلما كانت الكلمات والمعاني التي التقطها بيرت أكثر تشابها، كلما ارتفعت درجة بيرت. وهذا يسمح لها بتقييم جودة الملخص الذي تم إنشاؤه تلقائيًا من خلال مقارنته بمرجع بشري دون الحاجة إلى تقييم بشري في كل مرة.

لتوضيح ذلك، تخيل أن لديك ملخصًا تم إنشاؤه آليًا: "يقفز الثعلب البني السريع فوق الكلب الكسول". الآن، دعونا نفكر في ملخص مرجعي من صنع الإنسان: "ثعلب بني سريع يقفز فوق ناب نائم".

حساب بيرتسكور

أكمل الخطوات التالية لحساب BERTScore:

  1. يستخدم BERTScore عمليات التضمين السياقية لتمثيل كل رمز مميز في كل من الجمل المرشحة (التي تم إنشاؤها بواسطة الآلة) والجمل المرجعية (التي صنعها الإنسان). التضمين السياقي هو نوع من تمثيل الكلمات في البرمجة اللغوية العصبية الذي يلتقط معنى الكلمة بناءً على سياقها داخل الجملة أو النص. على عكس عمليات تضمين الكلمات التقليدية التي تقوم بتعيين ناقل ثابت لكل كلمة بغض النظر عن سياقها، فإن عمليات التضمين السياقي تأخذ في الاعتبار الكلمات المحيطة لتوليد تمثيل فريد لكل كلمة اعتمادًا على كيفية استخدامها في جملة معينة.
  2. يقوم المقياس بعد ذلك بحساب التشابه بين كل رمز مميز في الجملة المرشحة مع كل رمز مميز في الجملة المرجعية باستخدام تشابه جيب التمام. يساعدنا تشابه جيب التمام على تحديد مدى الارتباط الوثيق بين مجموعتين من البيانات من خلال التركيز على الاتجاه الذي تشير إليه في مساحة متعددة الأبعاد، مما يجعلها أداة قيمة لمهام مثل خوارزميات البحث ومعالجة اللغات الطبيعية وأنظمة التوصية.
  3. من خلال مقارنة التضمينات السياقية ودرجات التشابه الحاسوبية لجميع الرموز المميزة، تقوم BERTScore بإنشاء تقييم شامل يلتقط الصلة الدلالية وسياق الملخص الذي تم إنشاؤه مقارنة بالمرجع الذي صنعه الإنسان.
  4. يوفر مخرج BERTScore النهائي درجة تشابه تعكس مدى توافق الملخص الذي تم إنشاؤه آليًا مع الملخص المرجعي من حيث المعنى والسياق.

في جوهره، يتجاوز BERTScore المقاييس التقليدية من خلال النظر في الفروق الدلالية وسياق الجمل، ويقدم تقييمًا أكثر تطورًا يعكس الحكم البشري عن كثب. يعزز هذا النهج المتقدم دقة وموثوقية تقييم مهام التلخيص، مما يجعل BERTScore أداة قيمة في تقييم أنظمة إنشاء النص.

القيود:

على الرغم من أن BERTScore يقدم مزايا كبيرة في تقييم مهام التلخيص، إلا أنه يأتي أيضًا مع بعض القيود التي يجب أخذها في الاعتبار:

  • الكثافة الحسابية – يمكن أن يكون BERTScore مكثفًا حسابيًا نظرًا لاعتماده على نماذج لغوية مدربة مسبقًا مثل BERT. يمكن أن يؤدي ذلك إلى أوقات تقييم أطول، خاصة عند معالجة كميات كبيرة من البيانات النصية.
  • الاعتماد على النماذج المدربة مسبقاً - تعتمد فعالية BERTScore بشكل كبير على جودة وأهمية نموذج اللغة المستخدم المدرب مسبقًا. في السيناريوهات التي قد لا يلتقط فيها النموذج المُدرب مسبقًا الفروق الدقيقة في النص بشكل كافٍ، قد تتأثر نتائج التقييم.
  • التدرجية - قد يكون توسيع نطاق BERTScore لمجموعات البيانات الكبيرة أو التطبيقات في الوقت الفعلي أمرًا صعبًا بسبب متطلباته الحسابية. قد يتطلب تنفيذ BERTScore في بيئات الإنتاج استراتيجيات تحسين لتوفير أداء فعال.
  • خصوصية المجال – قد يختلف أداء BERTScore عبر مجالات مختلفة أو أنواع نصية متخصصة. قد يتطلب تكييف المقياس مع مجالات أو مهام محددة ضبطًا دقيقًا أو تعديلات لإنتاج تقييمات دقيقة.
  • التفسير - على الرغم من أن BERTScore يوفر تقييمًا شاملاً يعتمد على التضمين السياقي، فإن تفسير الأسباب المحددة وراء درجات التشابه الناتجة لكل رمز يمكن أن يكون معقدًا وقد يتطلب تحليلًا إضافيًا.
  • تقييم بدون مراجع - على الرغم من أن BERTScore يقلل من الاعتماد على الملخصات المرجعية للتقييم، فإن هذا النهج الخالي من المراجع قد لا يستوعب بشكل كامل جميع جوانب جودة التلخيص، لا سيما في السيناريوهات التي تكون فيها المراجع التي وضعها الإنسان ضرورية لتقييم أهمية المحتوى وتماسكه.

يمكن أن يساعدك الاعتراف بهذه القيود في اتخاذ قرارات مستنيرة عند استخدام BERTScore كمقياس لتقييم مهام التلخيص، مما يوفر فهمًا متوازنًا لنقاط قوته وقيوده.

متى تستخدم بيرتسكور

يمكن لـ BERTScore تقييم جودة تلخيص النص من خلال مقارنة الملخص الذي تم إنشاؤه بملخص مرجعي. ويستخدم الشبكات العصبية مثل BERT لقياس التشابه الدلالي بما يتجاوز مجرد مطابقة الكلمات أو العبارات. وهذا يجعل BERTScore مفيدًا جدًا عندما يكون الإخلاص الدلالي الذي يحافظ على المعنى الكامل والمحتوى أمرًا بالغ الأهمية لمهمة التلخيص الخاصة بك. سيعطي BERTScore درجات أعلى للملخصات التي تنقل نفس المعلومات مثل الملخص المرجعي، حتى لو كانت تستخدم كلمات وهياكل جمل مختلفة. خلاصة القول هي أن BERTScore مثالي لمهام التلخيص حيث يعد الاحتفاظ بالمعنى الدلالي الكامل وليس فقط الكلمات الرئيسية أو المواضيع أمرًا حيويًا. يتيح لها التسجيل العصبي المتقدم مقارنة المعنى بما يتجاوز مطابقة الكلمات على مستوى السطح. وهذا يجعلها مناسبة للحالات التي يمكن أن تؤدي فيها الاختلافات الدقيقة في الصياغة إلى تغيير المعنى العام والآثار المترتبة عليه بشكل كبير. تتفوق BERTScore، على وجه الخصوص، في التقاط التشابه الدلالي، وهو أمر بالغ الأهمية لتقييم جودة الملخصات التجريدية مثل تلك التي تنتجها نماذج الجيل المعزز للاسترجاع (RAG).

أطر التقييم النموذجية

تعد أطر التقييم النموذجية ضرورية لقياس أداء نماذج التلخيص المختلفة بدقة. تعتبر هذه الأطر مفيدة في مقارنة النماذج، وتوفير التماسك بين الملخصات التي تم إنشاؤها ومحتوى المصدر، وتحديد أوجه القصور في أساليب التقييم. من خلال إجراء تقييمات شاملة وقياس متسق، تدفع هذه الأطر أبحاث تلخيص النص من خلال الدعوة إلى ممارسات التقييم الموحدة وتمكين مقارنات النماذج متعددة الأوجه.

في AWS ، يعد ملف مكتبة FMEval في غضون توضيح Amazon SageMaker يبسط تقييم واختيار النماذج الأساسية (FMs) لمهام مثل تلخيص النص والإجابة على الأسئلة والتصنيف. إنه يمكّنك من تقييم FMs بناءً على مقاييس مثل الدقة والقوة والإبداع والتحيز والسمية، ودعم كل من التقييمات الآلية والتقييمات البشرية لـ LLMs. من خلال التقييمات المستندة إلى واجهة المستخدم أو التقييمات الآلية، يقوم FMEval بإنشاء تقارير مفصلة مع تصورات لتحديد مخاطر النموذج مثل عدم الدقة أو السمية أو التحيز، مما يساعد المؤسسات على التوافق مع إرشادات الذكاء الاصطناعي التوليدية المسؤولة الخاصة بها. في هذا القسم، نوضح كيفية استخدام مكتبة FMEval.

قم بتقييم Claude v2 من حيث دقة التلخيص باستخدام Amazon Bedrock

يعد مقتطف الكود التالي مثالاً لكيفية التفاعل مع نموذج Anthropic Claude باستخدام كود Python:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

بعبارات بسيطة، يقوم هذا الكود بتنفيذ الإجراءات التالية:

  1. استيراد المكتبات اللازمة، بما في ذلك jsonللعمل مع بيانات JSON.
  2. حدد معرف النموذج كـ anthropic.claude-v2 وتعيين نوع المحتوى للطلب.
  3. إنشاء prompt_data المتغير الذي يبني البيانات المدخلة لنموذج كلود. وفي هذه الحالة يطرح السؤال "من هو باراك أوباما؟" ويتوقع الرد من النموذج.
  4. أنشئ كائن JSON باسم body يتضمن بيانات المطالبة، وحدد معلمات إضافية مثل الحد الأقصى لعدد الرموز المميزة التي سيتم إنشاؤها.
  5. استدعاء نموذج كلود باستخدام bedrock_runtime.invoke_model مع المعلمات المحددة.
  6. تحليل الاستجابة من النموذج، واستخراج الإكمال (النص الذي تم إنشاؤه)، وطباعته.

تأكد من أن إدارة الهوية والوصول AWS (IAM) الدور المرتبط بـ أمازون ساجميكر ستوديو ملف تعريف المستخدم لديه حق الوصول إلى أمازون بيدروك النماذج التي يتم استدعاؤها تشير إلى أمثلة على السياسات القائمة على الهوية لـ Amazon Bedrock للحصول على إرشادات حول أفضل الممارسات وأمثلة السياسات القائمة على الهوية في Amazon Bedrock.

استخدام مكتبة FMEval لتقييم المخرجات الملخصة من كلود

نستخدم الكود التالي لتقييم الناتج الملخص:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

في مقتطف التعليمات البرمجية السابق، لتقييم تلخيص النص باستخدام مكتبة FMEval، نكمل الخطوات التالية:

  1. إنشاء ModelRunner لأداء الاحتجاج على LLM الخاص بك. توفر مكتبة FMEval دعمًا مدمجًا لـ الأمازون SageMaker نقاط النهاية و أمازون سيج ميكر جومب ستارت ماجستير في القانون. يمكنك أيضًا تمديد ModelRunner واجهة لأي LLMs مستضافة في أي مكان.
  2. استخدام المدعومة eval_algorithms مثل السمية والتلخيص والدقة والدلالية والمتانة، بناءً على احتياجات التقييم الخاصة بك.
  3. قم بتخصيص معلمات تكوين التقييم لحالة الاستخدام المحددة الخاصة بك.
  4. استخدم خوارزمية التقييم مع مجموعات البيانات المضمنة أو المخصصة لتقييم نموذج LLM الخاص بك. مجموعة البيانات المستخدمة في هذه الحالة مصدرها ما يلي جيثب ريبو.

الرجوع إلى دليل المطور والأمثلة للاستخدام التفصيلي لخوارزميات التقييم.

ويلخص الجدول التالي نتائج التقييم.

_إدخال النموذج model_output target_output موجه عشرات meteor_score rouge_score bert_score
جون إدوارد
0 بيتس، سابقًا في سبالدينج، لينكو .....
لا أستطيع تقديم أي شيء نهائي
الأحكام، كما…
سابق
قام ضابط شرطة لينكولنشاير…
الإنسان: جون
إدوارد بيتس، سابقًا في سبالدينج…
[{'اسم': 'نيزك'، 'قيمة':
0.101010101010101 ...
0.10101 0 0.557155
١٩ أكتوبر ٢٠٢٣
آخر تحديث في
17:44 بتوقيت جرينتش|لا...
فيما يلي بعض النقاط الرئيسية حول الإعصار / التروب. تم تصنيف إعصار باتريشيا على أنه فئة ... الإنسان: 23
أكتوبر 2015 آخر تحديث الساعة 17:44
ب…
[{'الاسم': نيزك'، "القيمة':
0.102339181286549 ..
0.102339 0.018265 0.441421
وبدا فيراري في وضع يسمح له بتحدي الأمم المتحدة ... فيما يلي النقاط الرئيسية من المقال:nin… لويس هاميلتون ينطلق من المركز الأول في سباق... الإنسان: ظهر فيراري في وضع يسمح له بالتحدي ... [{'اسم': 'نيزك'، 'قيمة':
0.322543352601156 ...
0.322543 0.078212 0.606487
اللاعب المولود في باث، 28 عامًا، حقق 36 هدفًا
يظهر…
حسنًا، دعني ألخص النقاط الرئيسية:/nin-E….. نيوبورت جوينت دراغونز رقم ثمانية إد جاكسون الإنسان: اللاعب المولود في باث، 28 عامًا، حقق 36 هدفًا... [{'اسم': 'نيزك'، 'قيمة':
0105740181268882 ...
0.10574 0.012987 0.539488
نقاط الضعف في الطريقة التي تبادلت بها الفئران البيانات مع... فيما يلي النقاط الرئيسية التي جمعتها من… يمكن للقراصنة الوصول إلى المنزل و الإنسان:
نقاط الضعف في
تبادلت الفئران البيانات
[{'اسم': 'نيزك'، 'قيمة':
0.201048289433848 ...
0.201048 0.021858 0.526947

تحقق من العينة مفكرة لمزيد من التفاصيل حول تقييم التلخيص الذي ناقشناه في هذا المنشور.

وفي الختام

تقيس كل من ROUGE وMETEOR وBERTScore جودة الملخصات التي يتم إنشاؤها آليًا، ولكنها تركز على جوانب مختلفة مثل التداخل المعجمي أو الطلاقة أو التشابه الدلالي. تأكد من تحديد المقياس الذي يتوافق مع ما يحدد "جيد" لحالة استخدام التلخيص المحددة الخاصة بك. يمكنك أيضًا استخدام مجموعة من المقاييس. وهذا يوفر تقييمًا أكثر شمولاً ويحمي من نقاط الضعف المحتملة في أي مقياس فردي. باستخدام القياسات الصحيحة، يمكنك تحسين الملخصات بشكل متكرر لتلبية أي فكرة تتعلق بالدقة الأكثر أهمية.

بالإضافة إلى ذلك، يعد تقييم FM وLLM ضروريًا لتكون قادرًا على إنتاج هذه النماذج على نطاق واسع. باستخدام FMEval، يمكنك الحصول على مجموعة واسعة من الخوارزميات المضمنة عبر العديد من مهام البرمجة اللغوية العصبية (NLP)، ولكنها أيضًا أداة مرنة وقابلة للتطوير لإجراء تقييمات واسعة النطاق للنماذج ومجموعات البيانات والخوارزميات الخاصة بك. للارتقاء، يمكنك استخدام هذه الحزمة في مسارات LLMOps الخاصة بك من أجل تقييم نماذج متعددة. لمعرفة المزيد حول FMEval في AWS وكيفية استخدامه بفعالية، راجع استخدم SageMaker Clarify لتقييم نماذج اللغات الكبيرة. لمزيد من الفهم والرؤى حول قدرات SageMaker Clarify في تقييم FMs، راجع Amazon SageMaker Clarify يجعل من السهل تقييم واختيار نماذج الأساس.


حول المؤلف


دينيش كومار سوبراماني هو أحد كبار مهندسي الحلول ومقره في إدنبرة، اسكتلندا. وهو متخصص في الذكاء الاصطناعي والتعلم الآلي، وهو عضو في المجتمع الميداني التقني في أمازون. يعمل Dinesh بشكل وثيق مع عملاء الحكومة المركزية في المملكة المتحدة لحل مشكلاتهم باستخدام خدمات AWS. خارج العمل، يستمتع دينيش بقضاء وقت ممتع مع عائلته ولعب الشطرنج واستكشاف مجموعة متنوعة من الموسيقى.


براناف شارما هي شركة رائدة في AWS تقود مبادرات التكنولوجيا وتحويل الأعمال في جميع أنحاء أوروبا والشرق الأوسط وأفريقيا. يتمتع بخبرة في تصميم وتشغيل منصات الذكاء الاصطناعي في الإنتاج التي تدعم ملايين العملاء وتحقق نتائج الأعمال. لقد لعب أدوارًا قيادية في مجال التكنولوجيا والأفراد في مؤسسات الخدمات المالية العالمية. خارج العمل، يحب القراءة ولعب التنس مع ابنه ومشاهدة الأفلام.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة

الدردشة معنا

أهلاً! كيف يمكنني مساعدك؟