هوش داده های تولیدی

ارزیابی قابلیت‌های خلاصه‌سازی متن LLM برای تصمیم‌گیری پیشرفته در AWS | خدمات وب آمازون

تاریخ:

سازمان‌ها در سراسر صنایع از خلاصه‌سازی خودکار متن استفاده می‌کنند تا به طور موثرتر حجم وسیعی از اطلاعات را مدیریت کنند و تصمیمات بهتری بگیرند. در بخش مالی، بانک‌های سرمایه‌گذاری گزارش‌های سود را به نکات کلیدی خلاصه می‌کنند تا به سرعت عملکرد سه ماهه را تجزیه و تحلیل کنند. شرکت‌های رسانه‌ای از خلاصه‌سازی برای نظارت بر اخبار و رسانه‌های اجتماعی استفاده می‌کنند تا روزنامه‌نگاران بتوانند به سرعت درباره موضوعات در حال توسعه داستان بنویسند. سازمان‌های دولتی اسناد و گزارش‌های خط مشی طولانی را خلاصه می‌کنند تا به سیاست‌گذاران در استراتژی‌بندی و اولویت‌بندی اهداف کمک کنند.

با ایجاد نسخه های فشرده اسناد طولانی و پیچیده، فناوری خلاصه سازی کاربران را قادر می سازد تا بر برجسته ترین محتوا تمرکز کنند. این منجر به درک بهتر و حفظ اطلاعات مهم می شود. صرفه جویی در زمان به ذینفعان اجازه می دهد تا مطالب بیشتری را در زمان کمتری مرور کنند و دیدگاه وسیع تری به دست آورند. با درک بهتر و بینش های ترکیبی تر، سازمان ها می توانند تصمیمات استراتژیک آگاهانه تری اتخاذ کنند، تحقیقات را تسریع بخشند، بهره وری را بهبود بخشند و تأثیر خود را افزایش دهند. قدرت دگرگون‌کننده قابلیت‌های خلاصه‌سازی پیشرفته تنها زمانی رشد می‌کند که صنایع بیشتری از هوش مصنوعی (AI) برای مهار جریان‌های اطلاعاتی سرریز استفاده می‌کنند.

در این پست، ما رویکردهای پیشرو برای ارزیابی عینی دقت خلاصه‌سازی، از جمله معیارهای ROUGE، METEOR و BERTScore را بررسی می‌کنیم. درک نقاط قوت و ضعف این تکنیک ها می تواند به هدایت تلاش های انتخاب و بهبود کمک کند. هدف کلی این پست ابهام زدایی از ارزیابی خلاصه سازی است تا به تیم ها کمک کند تا عملکرد بهتری را در مورد این قابلیت حیاتی معیار قرار دهند زیرا به دنبال به حداکثر رساندن ارزش هستند.

انواع خلاصه سازی

خلاصه‌سازی را می‌توان به دو نوع عمده تقسیم کرد: خلاصه‌سازی استخراجی و خلاصه‌سازی انتزاعی. هدف هر دو رویکرد این است که تکه های طولانی متن را به اشکال کوتاه تر متراکم کنند و حیاتی ترین اطلاعات یا ماهیت محتوای اصلی را به دست آورند، اما آنها این کار را به روش های اساسی متفاوت انجام می دهند.

خلاصه سازی استخراجی شامل شناسایی و استخراج عبارات، جملات یا بخش های کلیدی از متن اصلی بدون تغییر آنهاست. این سیستم بخش هایی از متن را انتخاب می کند که آموزنده ترین یا نماینده کل است. اگر دقت مهم باشد و خلاصه نیاز به منعکس کردن اطلاعات دقیق از متن اصلی داشته باشد، خلاصه‌سازی استخراجی مفید است. این موارد می تواند موارد استفاده از جمله برجسته کردن شرایط قانونی خاص، تعهدات و حقوق ذکر شده در شرایط استفاده باشد. رایج‌ترین تکنیک‌های مورد استفاده برای خلاصه‌سازی استخراجی عبارت‌اند از فرکانس سند معکوس فرکانس (TF-IDF)، امتیازدهی جمله، الگوریتم رتبه‌بندی متن، و یادگیری ماشین نظارت شده (ML).

خلاصه نویسی انتزاعی با ایجاد عبارات و جملات جدیدی که در متن اصلی نبودند، یک قدم فراتر می رود و اساساً محتوای اصلی را ترجمه و فشرده می کند. این رویکرد مستلزم درک عمیق‌تری از متن است، زیرا هوش مصنوعی باید معنا را تفسیر کند و سپس آن را به شکلی جدید و مختصر بیان کند. مدل‌های زبان بزرگ (LLM) برای خلاصه‌سازی انتزاعی مناسب‌تر هستند، زیرا مدل‌های ترانسفورماتور از مکانیسم‌های توجه برای تمرکز بر بخش‌های مرتبط متن ورودی هنگام تولید خلاصه‌ها استفاده می‌کنند. مکانیسم توجه به مدل اجازه می‌دهد تا وزن‌های متفاوتی را به کلمات یا نشانه‌های مختلف در توالی ورودی اختصاص دهد، و آن را قادر می‌سازد تا وابستگی‌های دوربرد و اطلاعات مرتبط با زمینه را بگیرد.

علاوه بر این دو نوع اولیه، رویکردهای ترکیبی وجود دارد که روش‌های استخراجی و انتزاعی را ترکیب می‌کنند. این رویکردها ممکن است با خلاصه‌سازی استخراجی برای شناسایی مهم‌ترین محتوا شروع شوند و سپس از تکنیک‌های انتزاعی برای بازنویسی یا فشرده‌سازی آن محتوا در یک خلاصه روان استفاده کنند.

چالش

یافتن روش بهینه برای ارزیابی کیفیت خلاصه یک چالش باز است. از آنجایی که سازمان ها به طور فزاینده ای به خلاصه سازی خودکار متن برای استخراج اطلاعات کلیدی از اسناد متکی هستند، نیاز به تکنیک های استاندارد برای اندازه گیری دقت خلاصه سازی افزایش می یابد. در حالت ایده‌آل، این معیارهای ارزیابی می‌توانند کمیت کنند که خلاصه‌های تولید شده توسط ماشین چگونه برجسته‌ترین محتوا را از متون منبع استخراج می‌کنند و خلاصه‌های منسجمی را ارائه می‌دهند که معنی و زمینه اصلی را منعکس می‌کند.

با این حال، توسعه روش‌های ارزیابی قوی برای خلاصه‌سازی متن مشکلاتی را به همراه دارد:

  • خلاصه‌های مرجع نوشته شده توسط انسان که برای مقایسه استفاده می‌شوند، اغلب بر اساس تعیین‌های ذهنی اهمیت، تنوع بالایی را نشان می‌دهند.
  • کمیت کردن جنبه های متفاوت کیفیت خلاصه مانند روان بودن، خوانایی و انسجام دشوار است.
  • تنوع گسترده ای در روش های خلاصه سازی از الگوریتم های آماری تا شبکه های عصبی وجود دارد که مقایسه مستقیم را پیچیده می کند.

مطالعه فراخوان گرا برای ارزیابی Gisting (ROUGE)

معیارهای ROUGEمانند ROUGE-N و ROUGE-L، نقش مهمی در ارزیابی کیفیت خلاصه های تولید شده توسط ماشین در مقایسه با خلاصه های مرجع نوشته شده توسط انسان دارند. این معیارها بر ارزیابی همپوشانی بین محتوای خلاصه‌های تولید شده توسط ماشین و انسان با تجزیه و تحلیل n-gram، که گروه‌هایی از کلمات یا نشانه‌ها هستند، تمرکز دارند. به عنوان مثال، ROUGE-1 تطابق کلمات فردی (unigrams) را ارزیابی می کند، در حالی که ROUGE-2 جفت کلمات (bigrams) را در نظر می گیرد. علاوه بر این، ROUGE-N طولانی‌ترین دنباله مشترک کلمات را بین دو متن ارزیابی می‌کند و امکان انعطاف‌پذیری در ترتیب کلمات را فراهم می‌کند.

برای نشان دادن این موضوع به مثال های زیر توجه کنید:

  • متریک ROGUE-1 - ROUGE-1 همپوشانی یونیگرام ها (تک کلمه) را بین یک خلاصه تولید شده و یک خلاصه مرجع ارزیابی می کند. برای مثال، اگر خلاصه مرجع حاوی «روباه قهوه‌ای سریع می‌پرد» و خلاصه تولید شده «روباه قهوه‌ای سریع می‌پرد» باشد، معیار ROUGE-1 «قهوه‌ای»، «روباه» و «پرش» را به‌عنوان همپوشانی در نظر می‌گیرد. یک گرم ROUGE-1 بر حضور تک تک کلمات در خلاصه‌ها تمرکز می‌کند، و اندازه‌گیری می‌کند که خلاصه تولید شده چقدر کلمات کلیدی را از خلاصه مرجع دریافت می‌کند.
  • متریک ROGUE-2 - ROUGE-2 همپوشانی بیگرام ها (جفت کلمات مجاور) را بین یک خلاصه تولید شده و یک خلاصه مرجع ارزیابی می کند. به عنوان مثال، اگر خلاصه مرجع دارای «گربه خواب است» باشد، و خلاصه تولید شده به عنوان «گربه در خواب است» باشد، ROUGE-2 «گربه است» و «در حال خواب است» را به عنوان یک بیگرام همپوشانی شناسایی می کند. ROUGE-2 بینشی را در مورد اینکه چگونه خلاصه تولید شده به خوبی توالی و زمینه جفت کلمات را در مقایسه با خلاصه مرجع حفظ می کند، ارائه می دهد.
  • معیار ROUGE-N - ROUGE-N یک شکل تعمیم یافته است که در آن N هر عددی را نشان می دهد و امکان ارزیابی بر اساس n-گرم (توالی از N کلمه) را فراهم می کند. با در نظر گرفتن N=3، اگر خلاصه مرجع بیان کند که "خورشید به شدت می درخشد" و خلاصه تولید شده "خورشید درخشان است"، ROUGE-3 "تابش شدید خورشید" را به عنوان یک سه خط منطبق تشخیص می دهد. ROUGE-N انعطاف پذیری را برای ارزیابی خلاصه ها بر اساس طول های مختلف دنباله کلمات ارائه می دهد و ارزیابی جامع تری از همپوشانی محتوا ارائه می دهد.

این مثال‌ها نحوه عملکرد معیارهای ROUGE-1، ROUGE-2 و ROUGE-N را در ارزیابی کارهای خلاصه‌سازی خودکار یا ترجمه ماشینی با مقایسه خلاصه‌های تولید شده با خلاصه‌های مرجع بر اساس سطوح مختلف دنباله‌های کلمات، نشان می‌دهند.

یک امتیاز ROUGE-N را محاسبه کنید

برای محاسبه امتیاز ROUGE-N می توانید از مراحل زیر استفاده کنید:

  1. خلاصه تولید شده و خلاصه مرجع را با استفاده از روش‌های نشانه‌سازی اولیه مانند تقسیم بر اساس فضای خالی یا کتابخانه‌های پردازش زبان طبیعی (NLP) به کلمات یا نشانه‌ها تبدیل کنید.
  2. n-گرم (دنباله های پیوسته از N کلمه) را هم از خلاصه تولید شده و هم از خلاصه مرجع تولید کنید.
  3. تعداد n-گرم های همپوشانی بین خلاصه تولید شده و خلاصه مرجع را بشمارید.
  4. محاسبه دقت، یادآوری و امتیاز F1:
    • دقت - تعداد n گرم همپوشانی تقسیم بر تعداد کل n گرم در خلاصه تولید شده.
    • به یاد بیاورید - تعداد n-گرم های همپوشانی تقسیم بر تعداد کل n- گرم در خلاصه مرجع.
    • امتیاز F1 – میانگین هارمونیک دقت و فراخوان، محاسبه شده به صورت (2 * دقت * فراخوان) / (دقت + فراخوان).
  5. مجموع امتیاز F1 حاصل از محاسبه دقت، یادآوری و امتیاز F1 برای هر ردیف در مجموعه داده به عنوان امتیاز ROUGE-N در نظر گرفته می شود.

محدودیت ها

ROGUE دارای محدودیت های زیر است:

  • تمرکز محدود بر همپوشانی واژگانی - ایده اصلی پشت ROUGE مقایسه خلاصه تولید شده توسط سیستم با مجموعه ای از خلاصه های مرجع یا ایجاد شده توسط انسان و اندازه گیری همپوشانی واژگانی بین آنها است. این بدان معنی است که ROUGE تمرکز بسیار محدودی بر شباهت سطح کلمه دارد. در واقع معنای معنایی، انسجام یا خوانایی خلاصه را ارزیابی نمی کند. یک سیستم می تواند با استخراج جملات کلمه به کلمه از متن اصلی، بدون ایجاد خلاصه ای منسجم یا مختصر، به نمرات ROUGE بالایی دست یابد.
  • عدم حساسیت به نقل قول - از آنجایی که ROUGE بر تطابق واژگانی متکی است، نمی تواند معادل معنایی بین کلمات و عبارات را تشخیص دهد. بنابراین، بازنویسی و استفاده از مترادف ها اغلب منجر به کاهش امتیاز ROUGE می شود، حتی اگر معنی حفظ شود. این امر سیستم‌هایی را که به شیوه‌ای انتزاعی ترجمه یا خلاصه می‌کنند، مضر است.
  • عدم درک معنایی - ROUGE ارزیابی نمی کند که آیا سیستم واقعاً معانی و مفاهیم موجود در متن اصلی را درک کرده است یا خیر. خلاصه می‌تواند به هم‌پوشانی واژگانی بالایی با مراجع دست یابد، در حالی که ایده‌های اصلی را از دست داده یا حاوی ناسازگاری‌های واقعی باشد. ROUGE این مسائل را شناسایی نمی کند.

زمان استفاده از ROUGE

ROUGE ساده و سریع محاسبه می شود. از آن به عنوان پایه یا معیار برای کیفیت خلاصه مربوط به انتخاب محتوا استفاده کنید. معیارهای ROUGE به طور مؤثر در سناریوهایی که شامل وظایف خلاصه انتزاعی، ارزیابی خلاصه خودکار، ارزیابی LLMها، و تجزیه و تحلیل مقایسه ای رویکردهای خلاصه سازی مختلف است، استفاده می شود. با استفاده از معیارهای ROUGE در این زمینه ها، ذینفعان می توانند کیفیت و اثربخشی فرآیندهای تولید خلاصه را به صورت کمی ارزیابی کنند.

معیار برای ارزیابی ترجمه با ترتیب صریح (METEOR)

یکی از چالش‌های عمده در ارزیابی سیستم‌های خلاصه‌سازی، ارزیابی اینکه خلاصه تولید شده چقدر به‌طور منطقی جریان می‌یابد، به جای انتخاب کلمات و عبارات مرتبط از متن منبع است. استخراج ساده کلمات کلیدی و جملات مرتبط لزوماً یک خلاصه منسجم و منسجم ایجاد نمی کند. خلاصه باید روان جریان داشته باشد و ایده ها را به طور منطقی به هم مرتبط کند، حتی اگر به همان ترتیب سند اصلی ارائه نشده باشند.

انعطاف پذیری تطبیق با کاهش کلمات به ریشه یا شکل پایه آنها (به عنوان مثال، پس از stemming، کلماتی مانند "running"، "runs" و "ran" همگی به "run" تبدیل می شوند) و مترادف ها به معنای شهاب با قضاوت های انسانی با کیفیت خلاصه ارتباط بهتری دارد. می تواند تشخیص دهد که آیا محتوای مهم حفظ شده است، حتی اگر عبارت متفاوت باشد. این یک مزیت کلیدی نسبت به معیارهای مبتنی بر n-gram مانند ROUGE است که فقط به دنبال تطابق دقیق توکن هستند. METEOR همچنین به خلاصه‌هایی که بر برجسته‌ترین محتوای مرجع تمرکز دارند، امتیاز بیشتری می‌دهد. نمرات کمتری به اطلاعات تکراری یا نامربوط داده می شود. این به خوبی با هدف خلاصه سازی برای حفظ مهم ترین مطالب مطابقت دارد. METEOR یک معیار معنادار معنایی است که می تواند بر برخی از محدودیت های تطبیق n-gram برای ارزیابی خلاصه سازی متن غلبه کند. ترکیب ریشه ها و مترادف ها امکان ارزیابی بهتر همپوشانی اطلاعات و دقت محتوا را فراهم می کند.

برای نشان دادن این موضوع به مثال های زیر توجه کنید:

خلاصه مرجع: برگها در پاییز می ریزند.

خلاصه تولید شده 1: ریزش برگها در پاییز

خلاصه تولید شده 2: برگها در تابستان سبز می شوند.

کلماتی که بین مرجع و خلاصه تولید شده 1 مطابقت دارند برجسته می شوند:

خلاصه مرجع: برگ سقوط در طول پاییز

خلاصه تولید شده 1: برگ رها کردن سقوط.

اگرچه "پاییز" و "پاییز" نشانه های متفاوتی هستند، METEOR آنها را از طریق تطبیق مترادف خود به عنوان مترادف تشخیص می دهد. "سقوط" و "سقوط" به عنوان یک کبریت ساقه ای شناسایی می شوند. برای خلاصه تولید شده 2، هیچ منطبقی با خلاصه مرجع به جز "برگ ها" وجود ندارد، بنابراین این خلاصه امتیاز METEOR بسیار پایین تری دریافت می کند. هر چه منطبقات معنادارتر باشد، امتیاز METEOR بالاتر است. این به METEOR اجازه می دهد تا محتوا و دقت خلاصه ها را در مقایسه با تطبیق ساده n-gram بهتر ارزیابی کند.

یک امتیاز METEOR را محاسبه کنید

مراحل زیر را برای محاسبه امتیاز METEOR انجام دهید:

  1. خلاصه تولید شده و خلاصه مرجع را با استفاده از روش‌های نشانه‌سازی اولیه مانند تقسیم بر اساس فضای خالی یا کتابخانه‌های NLP به کلمات یا نشانه‌های جداگانه تبدیل کنید.
  2. دقت یک گرمی، فراخوانی و میانگین امتیاز F را محاسبه کنید، که وزن بیشتری را به یادآوری می دهد تا دقت.
  3. برای پرهیز از تاکید بیش از حد، برای مسابقات دقیق جریمه اعمال کنید. جریمه بر اساس ویژگی های مجموعه داده، الزامات کار، و تعادل بین دقت و یادآوری انتخاب می شود. این جریمه را از میانگین امتیاز F محاسبه شده در مرحله 2 کم کنید.
  4. امتیاز F-mean را برای فرم‌های ریشه‌دار (کاهش کلمات به شکل پایه یا ریشه) و مترادف‌ها برای تک‌گرم‌ها در صورت امکان محاسبه کنید. این را با امتیاز F-mean محاسبه شده قبلی جمع کنید تا امتیاز نهایی METEOR را بدست آورید. امتیاز METEOR از 0 تا 1 متغیر است، جایی که 0 نشان دهنده عدم شباهت بین خلاصه تولید شده و خلاصه مرجع است و 1 نشان دهنده تراز کامل است. به طور معمول، نمرات خلاصه بین 0-0.6 قرار می گیرند.

محدودیت ها

هنگام استفاده از متریک METEOR برای ارزیابی وظایف خلاصه، چندین چالش ممکن است ایجاد شود:

  • پیچیدگی معنایی - تأکید METEOR بر شباهت معنایی ممکن است برای به دست آوردن معانی ظریف و زمینه در وظایف خلاصه‌سازی پیچیده با مشکل مواجه شود که به طور بالقوه منجر به عدم دقت در ارزیابی می‌شود.
  • تنوع مرجع - تنوع در خلاصه های مرجع تولید شده توسط انسان می تواند بر نمرات METEOR تأثیر بگذارد، زیرا تفاوت در محتوای مرجع ممکن است بر ارزیابی خلاصه های تولید شده توسط ماشین تأثیر بگذارد.
  • تنوع زبانی - اثربخشی METEOR ممکن است در بین زبان‌ها به دلیل تنوع زبانی، تفاوت‌های نحوی، و تفاوت‌های معنایی متفاوت باشد، که چالش‌هایی را در ارزیابی‌های خلاصه‌سازی چند زبانه ایجاد می‌کند.
  • اختلاف طول - ارزیابی خلاصه‌هایی با طول‌های مختلف می‌تواند برای METEOR چالش برانگیز باشد، زیرا اختلاف در طول در مقایسه با خلاصه مرجع ممکن است منجر به جریمه یا عدم دقت در ارزیابی شود.
  • تنظیم پارامتر - بهینه‌سازی پارامترهای METEOR برای مجموعه‌های داده مختلف و وظایف خلاصه‌سازی می‌تواند زمان‌بر باشد و نیاز به تنظیم دقیق دارد تا مطمئن شوید که متریک ارزیابی‌های دقیقی را ارائه می‌کند.
  • سوگیری ارزیابی - اگر به درستی برای حوزه‌ها یا وظایف خلاصه‌سازی خاص تنظیم یا کالیبره نشده باشد، خطر سوگیری ارزیابی با METEOR وجود دارد. این به طور بالقوه می تواند منجر به نتایج منحرف شود و بر قابلیت اطمینان فرآیند ارزیابی تأثیر بگذارد.

با آگاهی از این چالش‌ها و در نظر گرفتن آن‌ها هنگام استفاده از METEOR به عنوان معیاری برای خلاصه‌سازی وظایف، محققان و متخصصان می‌توانند محدودیت‌های بالقوه را مرور کنند و تصمیمات آگاهانه‌تری در فرآیندهای ارزیابی خود بگیرند.

زمان استفاده از METEOR

METEOR معمولاً برای ارزیابی خودکار کیفیت خلاصه‌های متن استفاده می‌شود. ترجیحاً استفاده از METEOR به عنوان معیار ارزیابی زمانی که ترتیب ایده‌ها، مفاهیم یا موجودیت‌ها در خلاصه مهم است. METEOR ترتیب را در نظر می گیرد و n-gram را بین خلاصه تولید شده و خلاصه مرجع مطابقت می دهد. به خلاصه هایی که اطلاعات متوالی را حفظ می کنند، پاداش می دهد. بر خلاف معیارهایی مانند ROUGE که بر همپوشانی n-gram با خلاصه‌های مرجع تکیه می‌کنند، METEOR با ساقه‌ها، مترادف‌ها و نقل قول‌ها مطابقت دارد. METEOR زمانی بهتر کار می کند که بتوان چندین روش صحیح برای خلاصه کردن متن اصلی وجود داشته باشد. METEOR هنگام تطبیق n-گرم، مترادف‌های WordNet و نشانه‌های ریشه‌دار را در خود جای می‌دهد. به طور خلاصه، خلاصه‌هایی که از نظر معنایی مشابه هستند اما از کلمات یا عبارات متفاوتی استفاده می‌کنند، همچنان امتیاز خوبی خواهند داشت. METEOR یک جریمه داخلی برای خلاصه هایی با n-گرم تکراری دارد. بنابراین، از استخراج کلمه به کلمه یا عدم انتزاع جلوگیری می کند. هنگامی که شباهت معنایی، ترتیب ایده ها و عبارت روان برای قضاوت در مورد کیفیت خلاصه مهم هستند، METEOR انتخاب خوبی است. برای کارهایی که فقط همپوشانی واژگانی با خلاصه های مرجع مهم است، کمتر مناسب است.

BERTScore

معیارهای واژگانی سطح سطحی مانند ROUGE و METEOR سیستم های خلاصه سازی را با مقایسه همپوشانی کلمه بین خلاصه نامزد و خلاصه مرجع ارزیابی می کنند. با این حال، آنها به شدت بر تطابق رشته دقیق بین کلمات و عبارات متکی هستند. این بدان معنی است که آنها ممکن است شباهت های معنایی بین کلمات و عباراتی را که اشکال سطحی متفاوتی دارند اما معانی زیربنایی مشابهی دارند، از دست بدهند. تنها با تکیه بر تطابق سطحی، این معیارها ممکن است کیفیت خلاصه‌های سیستمی را که از کلمات مترادف یا مفاهیم ترجمه متفاوت از خلاصه‌های مرجع استفاده می‌کنند، دست کم بگیرند. دو خلاصه می توانند اطلاعات تقریباً یکسانی را منتقل کنند اما به دلیل تفاوت در واژگان، نمرات سطح پایینی را دریافت می کنند.

BERTScore روشی برای ارزیابی خودکار خوب بودن یک خلاصه با مقایسه آن با خلاصه مرجع نوشته شده توسط یک انسان است. از BERT، یک تکنیک محبوب NLP، برای درک معنی و بافت کلمات در خلاصه نامزد و خلاصه مرجع استفاده می کند. به طور خاص، به هر کلمه یا نشانه در خلاصه نامزد نگاه می‌کند و شبیه‌ترین کلمه را در خلاصه مرجع بر اساس جاسازی‌های BERT، که نمایش‌های برداری معنا و بافت هر کلمه هستند، پیدا می‌کند. شباهت را با استفاده از شباهت کسینوس اندازه گیری می کند، که نشان می دهد بردارها چقدر به یکدیگر نزدیک هستند. برای هر کلمه در خلاصه نامزد، مرتبط ترین کلمه را در خلاصه مرجع با استفاده از درک زبان BERT پیدا می کند. همه این شباهت‌های کلمه را در کل خلاصه مقایسه می‌کند تا به یک نمره کلی از شباهت معنایی خلاصه نامزد به خلاصه مرجع برسد. هر چه کلمات و معانی گرفته شده توسط BERT مشابه تر باشند، امتیاز BERTS بالاتر است. این به آن اجازه می دهد تا به طور خودکار کیفیت یک خلاصه تولید شده را با مقایسه آن با یک مرجع انسانی بدون نیاز به ارزیابی انسانی در هر بار ارزیابی کند.

برای نشان دادن این موضوع، تصور کنید که یک خلاصه ماشینی دارید: «روباه قهوه‌ای سریع از روی سگ تنبل می‌پرد». اکنون، بیایید یک خلاصه مرجع ساخته شده توسط انسان را در نظر بگیریم: "روباه قهوه ای سریع از روی سگی که خوابیده می پرد."

BERTScore را محاسبه کنید

مراحل زیر را برای محاسبه امتیاز BERTS انجام دهید:

  1. BERTScore از جاسازی‌های متنی برای نشان دادن هر نشانه در جملات نامزد (ماشین‌سازی) و مرجع (ساخته شده توسط انسان) استفاده می‌کند. تعبیه‌های متنی نوعی نمایش کلمه در NLP است که معنای یک کلمه را بر اساس بافت آن در یک جمله یا متن نشان می‌دهد. برخلاف تعبیه‌های سنتی کلمه که یک بردار ثابت را به هر کلمه بدون توجه به بافت آن اختصاص می‌دهند، جاسازی‌های متنی کلمات اطراف را برای ایجاد یک نمایش منحصر به فرد برای هر کلمه بسته به نحوه استفاده از آن در یک جمله خاص در نظر می‌گیرند.
  2. سپس متریک شباهت بین هر نشانه در جمله نامزد را با هر نشانه در جمله مرجع با استفاده از شباهت کسینوس محاسبه می کند. شباهت کسینوس به ما کمک می کند تا با تمرکز بر جهتی که در یک فضای چند بعدی نشان می دهند، ارتباط نزدیکی بین دو مجموعه داده را کمی کنیم و آن را به ابزاری ارزشمند برای کارهایی مانند الگوریتم های جستجو، NLP و سیستم های توصیه تبدیل کنیم.
  3. با مقایسه تعبیه‌های متنی و محاسبه امتیازات شباهت برای همه نشانه‌ها، BERTScore یک ارزیابی جامع ایجاد می‌کند که ارتباط معنایی و زمینه خلاصه تولید شده را در مقایسه با مرجع ساخته شده توسط انسان نشان می‌دهد.
  4. خروجی نهایی BERTScore یک امتیاز شباهت را ارائه می دهد که نشان می دهد چگونه خلاصه تولید شده توسط ماشین با خلاصه مرجع از نظر معنا و زمینه هماهنگ است.

در اصل، BERTScore با در نظر گرفتن ظرایف معنایی و بافت جملات، فراتر از معیارهای سنتی است و ارزیابی پیچیده‌تری ارائه می‌کند که قضاوت انسان را از نزدیک منعکس می‌کند. این رویکرد پیشرفته دقت و قابلیت اطمینان ارزیابی وظایف خلاصه‌سازی را افزایش می‌دهد و BERTScore را به ابزاری ارزشمند در ارزیابی سیستم‌های تولید متن تبدیل می‌کند.

محدودیت ها:

اگرچه BERTScore مزایای قابل توجهی در ارزیابی وظایف خلاصه‌سازی ارائه می‌دهد، اما با محدودیت‌های خاصی نیز همراه است که باید در نظر گرفته شوند:

  • شدت محاسباتی – BERTScore به دلیل اتکا به مدل های زبانی از پیش آموزش دیده مانند BERT می تواند از نظر محاسباتی فشرده باشد. این می‌تواند منجر به زمان‌های ارزیابی طولانی‌تر شود، به‌ویژه هنگام پردازش حجم زیادی از داده‌های متنی.
  • وابستگی به مدل های از پیش آموزش دیده - اثربخشی BERTScore به شدت به کیفیت و ارتباط مدل زبانی از پیش آموزش دیده استفاده شده بستگی دارد. در سناریوهایی که مدل از پیش آموزش دیده ممکن است به اندازه کافی تفاوت های ظریف متن را درک نکند، نتایج ارزیابی ممکن است تحت تاثیر قرار گیرد.
  • مقیاس پذیری - مقیاس بندی BERTScore برای مجموعه داده های بزرگ یا برنامه های کاربردی بلادرنگ به دلیل نیازهای محاسباتی آن می تواند چالش برانگیز باشد. اجرای BERTScore در محیط های تولید ممکن است به استراتژی های بهینه سازی برای ارائه عملکرد کارآمد نیاز داشته باشد.
  • ویژگی دامنه - عملکرد BERTScore ممکن است در دامنه های مختلف یا انواع متن تخصصی متفاوت باشد. انطباق معیار برای حوزه‌ها یا وظایف خاص ممکن است نیاز به تنظیم دقیق یا تنظیمات برای تولید ارزیابی‌های دقیق داشته باشد.
  • تفسیر – اگرچه BERTScore یک ارزیابی جامع بر اساس تعبیه‌های زمینه‌ای ارائه می‌کند، تفسیر دلایل خاص پشت نمرات شباهت ایجاد شده برای هر توکن می‌تواند پیچیده باشد و ممکن است نیاز به تجزیه و تحلیل بیشتری داشته باشد.
  • ارزیابی بدون مرجع – اگرچه BERTScore اتکا به خلاصه های مرجع برای ارزیابی را کاهش می دهد، این رویکرد بدون مرجع ممکن است به طور کامل تمام جنبه های کیفیت خلاصه سازی را در بر نگیرد، به ویژه در سناریوهایی که منابع ساخته شده توسط انسان برای ارزیابی ارتباط و انسجام محتوا ضروری است.

تصدیق این محدودیت‌ها می‌تواند به شما کمک کند هنگام استفاده از BERTScore به‌عنوان معیاری برای ارزیابی وظایف خلاصه‌سازی، تصمیم‌های آگاهانه بگیرید و درک متعادلی از نقاط قوت و محدودیت‌های آن ارائه دهید.

زمان استفاده از BERTScore

BERTScore می تواند کیفیت خلاصه سازی متن را با مقایسه خلاصه تولید شده با خلاصه مرجع ارزیابی کند. از شبکه های عصبی مانند BERT برای اندازه گیری شباهت معنایی فراتر از تطبیق دقیق کلمه یا عبارت استفاده می کند. این باعث می‌شود BERTScore زمانی بسیار مفید باشد که وفاداری معنایی حفظ معنا و محتوا برای کار خلاصه‌سازی شما حیاتی است. BERTScore به خلاصه‌هایی که اطلاعات مشابهی را با خلاصه مرجع منتقل می‌کنند، امتیاز بالاتری می‌دهد، حتی اگر از کلمات و ساختار جملات متفاوتی استفاده کنند. نکته اصلی این است که BERTScore برای کارهای خلاصه‌سازی ایده‌آل است که در آن حفظ معنای معنایی کامل نه فقط کلمات کلیدی یا موضوعات حیاتی است. امتیازدهی عصبی پیشرفته آن به آن اجازه می دهد تا معنی را فراتر از تطبیق کلمه در سطح سطح مقایسه کند. این آن را برای مواردی مناسب می‌سازد که تفاوت‌های ظریف در جمله‌بندی می‌تواند به طور قابل‌توجهی معنا و مفاهیم کلی را تغییر دهد. BERTScore، به ویژه، در گرفتن شباهت معنایی، که برای ارزیابی کیفیت خلاصه‌های انتزاعی مانند آنچه توسط مدل‌های Retrieval Augmented Generation (RAG) تولید می‌شود، بسیار مهم است.

چارچوب های ارزیابی مدل

چارچوب‌های ارزیابی مدل برای سنجش دقیق عملکرد مدل‌های خلاصه‌سازی مختلف ضروری هستند. این چارچوب‌ها در مقایسه مدل‌ها، ایجاد انسجام بین خلاصه‌های تولید شده و محتوای منبع، و مشخص کردن کاستی‌ها در روش‌های ارزیابی ابزاری هستند. این چارچوب‌ها با انجام ارزیابی‌های کامل و محک‌گذاری مداوم، تحقیقات خلاصه‌سازی متن را با حمایت از شیوه‌های ارزیابی استاندارد و امکان مقایسه مدل‌های چندوجهی را پیش می‌برند.

در AWS، کتابخانه FMEval در داخل Amazon SageMaker Clarify ارزیابی و انتخاب مدل‌های پایه (FM) را برای کارهایی مانند خلاصه‌سازی متن، پاسخ به سؤال و طبقه‌بندی ساده می‌کند. این به شما امکان می دهد FM ها را بر اساس معیارهایی مانند دقت، استحکام، خلاقیت، سوگیری و سمیت ارزیابی کنید و از ارزیابی های خودکار و انسان در حلقه برای LLM ها پشتیبانی می کند. FMEval با ارزیابی‌های مبتنی بر رابط کاربری یا برنامه‌ریزی‌شده، گزارش‌های دقیقی را همراه با تجسم‌سازی برای تعیین کمیت ریسک‌های مدل مانند نادرستی، سمیت یا سوگیری ایجاد می‌کند و به سازمان‌ها کمک می‌کند تا با دستورالعمل‌های هوش مصنوعی مولد مسئول خود هماهنگ شوند. در این بخش نحوه استفاده از کتابخانه FMEval را نشان می دهیم.

Claude v2 را در دقت خلاصه سازی با استفاده از Amazon Bedrock ارزیابی کنید

قطعه کد زیر نمونه ای از نحوه تعامل با مدل Anthropic Claude با استفاده از کد پایتون است:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

به زبان ساده، این کد اقدامات زیر را انجام می دهد:

  1. وارد کردن کتابخانه های لازم، از جمله json، برای کار با داده های JSON.
  2. شناسه مدل را به عنوان تعریف کنید anthropic.claude-v2 و نوع محتوا را برای درخواست تنظیم کنید.
  3. ایجاد یک prompt_data متغیری که داده های ورودی مدل کلود را ساختار می دهد. در این مورد، این سوال را مطرح می کند که "باراک اوباما کیست؟" و از مدل انتظار پاسخ دارد.
  4. یک شی JSON به نام body بسازید که شامل داده‌های اعلان است و پارامترهای اضافی مانند حداکثر تعداد نشانه‌ها را برای تولید مشخص کنید.
  5. با استفاده از مدل کلود فراخوانی کنید bedrock_runtime.invoke_model با پارامترهای تعریف شده
  6. پاسخ را از مدل تجزیه کنید، تکمیل (متن تولید شده) را استخراج کنید و آن را چاپ کنید.

اطمینان حاصل کنید که هویت AWS و مدیریت دسترسی (IAM) نقش مرتبط با Amazon SageMaker Studio نمایه کاربر به بستر آمازون مدل های در حال فراخوانی رجوع شود به نمونه های سیاست مبتنی بر هویت برای Amazon Bedrock برای راهنمایی در مورد بهترین شیوه ها و نمونه هایی از سیاست های مبتنی بر هویت برای Amazon Bedrock.

استفاده از کتابخانه FMEval برای ارزیابی خروجی خلاصه شده از کلود

برای ارزیابی خروجی خلاصه شده از کد زیر استفاده می کنیم:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

در قطعه کد قبلی، برای ارزیابی خلاصه سازی متن با استفاده از کتابخانه FMEval، مراحل زیر را تکمیل می کنیم:

  1. ایجاد یک ModelRunner برای انجام فراخوانی در LLM خود. کتابخانه FMEval پشتیبانی داخلی برای آمازون SageMaker نقاط پایانی و Amazon SageMaker JumpStart LLMs. شما همچنین می توانید تمدید کنید ModelRunner رابط برای هر LLM که در هر جایی میزبانی می شود.
  2. استفاده از پشتیبانی eval_algorithms مانند سمیت، خلاصه سازی، دقت، معنایی و استحکام، بر اساس نیازهای ارزیابی شما.
  3. پارامترهای پیکربندی ارزیابی را برای مورد استفاده خاص خود سفارشی کنید.
  4. از الگوریتم ارزیابی با مجموعه داده های داخلی یا سفارشی برای ارزیابی مدل LLM خود استفاده کنید. مجموعه داده های مورد استفاده در این مورد از موارد زیر تهیه شده است GitHub repo.

به راهنمای توسعه دهنده و مثال ها برای استفاده دقیق از الگوریتم های ارزیابی

جدول زیر به طور خلاصه نتایج ارزیابی را نشان می دهد.

مدل _ورودی مدل_خروجی هدف_خروجی سریع نمرات شهاب_امتیاز rouge_score bert_score
جان ادوارد
0 بیتس، سابقاً از اسپالدینگ، لینکو…..
نمی توانم قطعی کنم
قضاوت ها، همانطور که…
سابق
افسر پلیس لینکلن شایر حامل…
انسان: جان
ادوارد بیتس، سابقاً از اسپالدینگ…
[{'name': 'شهاب'، 'ارزش':
0.101010101010101 ...
0.10101 0 0.557155
23 اکتبر 2015
آخرین به روزرسانی در
17:44 BST|nIt'…
در اینجا چند نکته کلیدی در مورد طوفان / تروپ وجود دارد. طوفان پاتریشیا به عنوان یک طبقه بندی رتبه بندی شده است… انسان: 23
اکتبر 2015 آخرین به روز رسانی در 17:44
ب…
[{'name': شهاب سنگ، "ارزش":
0.102339181286549 ..
0.102339 0.018265 0.441421
فراری در موقعیتی ظاهر شد که بتواند به چالش بکشد… در اینجا نکات کلیدی از مقاله آمده است: nin… لوئیس همیلتون به جایگاه قطبی در… Human: فراری در موقعیتی ظاهر شد که می توانست به چالش بکشد… [{'name': 'شهاب'، 'ارزش':
0.322543352601156 ...
0.322543 0.078212 0.606487
بازیکن 28 ساله بات زاده 36 ساله شده است
ظاهر…
خوب، بگذارید نکات کلیدی را خلاصه کنم:/nin- E….. نیوپورت گونت اژدها شماره هشت اد جکسون Human: بازیکن 28 ساله بات زاده، 36 سال ساخته است… [{'name': 'شهاب'، 'ارزش':
0105740181268882 ...
0.10574 0.012987 0.539488
نقاط ضعف در روش مبادله داده‌ها توسط موش‌ها با c… در اینجا نکات کلیدی است که من از یک… هکرها می توانند به خانه و انسان:
نقاط ضعف در
موش های swar داده ها را مبادله کردند
[{'name': 'شهاب'، 'ارزش':
0.201048289433848 ...
0.201048 0.021858 0.526947

نمونه را بررسی کنید دفتر یادداشت برای جزئیات بیشتر در مورد ارزیابی خلاصه که در این پست بحث کردیم.

نتیجه

ROUGE، METEOR، و BERTScore همگی کیفیت خلاصه‌های تولید شده توسط ماشین را اندازه‌گیری می‌کنند، اما بر جنبه‌های مختلف مانند همپوشانی واژگانی، روانی، یا شباهت معنایی تمرکز می‌کنند. اطمینان حاصل کنید که معیاری را انتخاب کنید که با آنچه «خوب» را برای مورد استفاده از خلاصه سازی خاص شما تعریف می کند، همسو باشد. همچنین می توانید از ترکیبی از معیارها استفاده کنید. این یک ارزیابی جامع تری ارائه می دهد و از ضعف های بالقوه هر معیار فردی محافظت می کند. با اندازه‌گیری‌های مناسب، می‌توانید به‌طور مکرر خلاصه‌کننده‌های خود را بهبود ببخشید تا به هر مفهومی از دقت که بیشتر اهمیت دارد، پاسخ دهید.

علاوه بر این، ارزیابی FM و LLM برای تولید این مدل ها در مقیاس ضروری است. با FMEval، شما مجموعه وسیعی از الگوریتم‌های داخلی را در بسیاری از وظایف NLP دریافت می‌کنید، اما همچنین ابزاری مقیاس‌پذیر و انعطاف‌پذیر برای ارزیابی‌های مقیاس بزرگ مدل‌ها، مجموعه‌های داده و الگوریتم‌های خود را دریافت می‌کنید. برای افزایش مقیاس، می توانید از این بسته در خطوط لوله LLMOps خود استفاده کنید چندین مدل را ارزیابی کنید. برای کسب اطلاعات بیشتر در مورد FMEval در AWS و نحوه استفاده موثر از آن، مراجعه کنید برای ارزیابی مدل های زبان بزرگ از SageMaker Clarify استفاده کنید. برای درک بیشتر و بینش در مورد قابلیت های SageMaker Clarify در ارزیابی FM ها، نگاه کنید به Amazon SageMaker Clarify ارزیابی و انتخاب مدل های پایه را آسان تر می کند.


درباره نویسنده


دینش کومار سوبرامانی یک معمار ارشد راه حل مستقر در ادینبورگ، اسکاتلند است. او در هوش مصنوعی و یادگیری ماشین تخصص دارد و عضو انجمن حوزه فنی در آمازون است. Dinesh از نزدیک با مشتریان دولت مرکزی انگلستان همکاری می کند تا مشکلات آنها را با استفاده از خدمات AWS حل کند. دینش خارج از محل کار، از گذراندن زمان با کیفیت با خانواده، بازی شطرنج و کاوش در طیف متنوعی از موسیقی لذت می برد.


پراناو شارما یک رهبر AWS است که ابتکارات فناوری و تحول کسب و کار را در سراسر اروپا، خاورمیانه و آفریقا هدایت می کند. او در طراحی و اجرای پلتفرم های هوش مصنوعی در تولید که از میلیون ها مشتری پشتیبانی می کند و نتایج کسب و کار را ارائه می دهد، تجربه دارد. او نقش های رهبری فناوری و افراد را برای سازمان های خدمات مالی جهانی ایفا کرده است. خارج از محل کار، او دوست دارد بخواند، با پسرش تنیس بازی کند و فیلم ببیند.

نقطه_img

جدیدترین اطلاعات

نقطه_img

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟