سازمانها در سراسر صنایع از خلاصهسازی خودکار متن استفاده میکنند تا به طور موثرتر حجم وسیعی از اطلاعات را مدیریت کنند و تصمیمات بهتری بگیرند. در بخش مالی، بانکهای سرمایهگذاری گزارشهای سود را به نکات کلیدی خلاصه میکنند تا به سرعت عملکرد سه ماهه را تجزیه و تحلیل کنند. شرکتهای رسانهای از خلاصهسازی برای نظارت بر اخبار و رسانههای اجتماعی استفاده میکنند تا روزنامهنگاران بتوانند به سرعت درباره موضوعات در حال توسعه داستان بنویسند. سازمانهای دولتی اسناد و گزارشهای خط مشی طولانی را خلاصه میکنند تا به سیاستگذاران در استراتژیبندی و اولویتبندی اهداف کمک کنند.
با ایجاد نسخه های فشرده اسناد طولانی و پیچیده، فناوری خلاصه سازی کاربران را قادر می سازد تا بر برجسته ترین محتوا تمرکز کنند. این منجر به درک بهتر و حفظ اطلاعات مهم می شود. صرفه جویی در زمان به ذینفعان اجازه می دهد تا مطالب بیشتری را در زمان کمتری مرور کنند و دیدگاه وسیع تری به دست آورند. با درک بهتر و بینش های ترکیبی تر، سازمان ها می توانند تصمیمات استراتژیک آگاهانه تری اتخاذ کنند، تحقیقات را تسریع بخشند، بهره وری را بهبود بخشند و تأثیر خود را افزایش دهند. قدرت دگرگونکننده قابلیتهای خلاصهسازی پیشرفته تنها زمانی رشد میکند که صنایع بیشتری از هوش مصنوعی (AI) برای مهار جریانهای اطلاعاتی سرریز استفاده میکنند.
در این پست، ما رویکردهای پیشرو برای ارزیابی عینی دقت خلاصهسازی، از جمله معیارهای ROUGE، METEOR و BERTScore را بررسی میکنیم. درک نقاط قوت و ضعف این تکنیک ها می تواند به هدایت تلاش های انتخاب و بهبود کمک کند. هدف کلی این پست ابهام زدایی از ارزیابی خلاصه سازی است تا به تیم ها کمک کند تا عملکرد بهتری را در مورد این قابلیت حیاتی معیار قرار دهند زیرا به دنبال به حداکثر رساندن ارزش هستند.
انواع خلاصه سازی
خلاصهسازی را میتوان به دو نوع عمده تقسیم کرد: خلاصهسازی استخراجی و خلاصهسازی انتزاعی. هدف هر دو رویکرد این است که تکه های طولانی متن را به اشکال کوتاه تر متراکم کنند و حیاتی ترین اطلاعات یا ماهیت محتوای اصلی را به دست آورند، اما آنها این کار را به روش های اساسی متفاوت انجام می دهند.
خلاصه سازی استخراجی شامل شناسایی و استخراج عبارات، جملات یا بخش های کلیدی از متن اصلی بدون تغییر آنهاست. این سیستم بخش هایی از متن را انتخاب می کند که آموزنده ترین یا نماینده کل است. اگر دقت مهم باشد و خلاصه نیاز به منعکس کردن اطلاعات دقیق از متن اصلی داشته باشد، خلاصهسازی استخراجی مفید است. این موارد می تواند موارد استفاده از جمله برجسته کردن شرایط قانونی خاص، تعهدات و حقوق ذکر شده در شرایط استفاده باشد. رایجترین تکنیکهای مورد استفاده برای خلاصهسازی استخراجی عبارتاند از فرکانس سند معکوس فرکانس (TF-IDF)، امتیازدهی جمله، الگوریتم رتبهبندی متن، و یادگیری ماشین نظارت شده (ML).
خلاصه نویسی انتزاعی با ایجاد عبارات و جملات جدیدی که در متن اصلی نبودند، یک قدم فراتر می رود و اساساً محتوای اصلی را ترجمه و فشرده می کند. این رویکرد مستلزم درک عمیقتری از متن است، زیرا هوش مصنوعی باید معنا را تفسیر کند و سپس آن را به شکلی جدید و مختصر بیان کند. مدلهای زبان بزرگ (LLM) برای خلاصهسازی انتزاعی مناسبتر هستند، زیرا مدلهای ترانسفورماتور از مکانیسمهای توجه برای تمرکز بر بخشهای مرتبط متن ورودی هنگام تولید خلاصهها استفاده میکنند. مکانیسم توجه به مدل اجازه میدهد تا وزنهای متفاوتی را به کلمات یا نشانههای مختلف در توالی ورودی اختصاص دهد، و آن را قادر میسازد تا وابستگیهای دوربرد و اطلاعات مرتبط با زمینه را بگیرد.
علاوه بر این دو نوع اولیه، رویکردهای ترکیبی وجود دارد که روشهای استخراجی و انتزاعی را ترکیب میکنند. این رویکردها ممکن است با خلاصهسازی استخراجی برای شناسایی مهمترین محتوا شروع شوند و سپس از تکنیکهای انتزاعی برای بازنویسی یا فشردهسازی آن محتوا در یک خلاصه روان استفاده کنند.
چالش
یافتن روش بهینه برای ارزیابی کیفیت خلاصه یک چالش باز است. از آنجایی که سازمان ها به طور فزاینده ای به خلاصه سازی خودکار متن برای استخراج اطلاعات کلیدی از اسناد متکی هستند، نیاز به تکنیک های استاندارد برای اندازه گیری دقت خلاصه سازی افزایش می یابد. در حالت ایدهآل، این معیارهای ارزیابی میتوانند کمیت کنند که خلاصههای تولید شده توسط ماشین چگونه برجستهترین محتوا را از متون منبع استخراج میکنند و خلاصههای منسجمی را ارائه میدهند که معنی و زمینه اصلی را منعکس میکند.
با این حال، توسعه روشهای ارزیابی قوی برای خلاصهسازی متن مشکلاتی را به همراه دارد:
- خلاصههای مرجع نوشته شده توسط انسان که برای مقایسه استفاده میشوند، اغلب بر اساس تعیینهای ذهنی اهمیت، تنوع بالایی را نشان میدهند.
- کمیت کردن جنبه های متفاوت کیفیت خلاصه مانند روان بودن، خوانایی و انسجام دشوار است.
- تنوع گسترده ای در روش های خلاصه سازی از الگوریتم های آماری تا شبکه های عصبی وجود دارد که مقایسه مستقیم را پیچیده می کند.
مطالعه فراخوان گرا برای ارزیابی Gisting (ROUGE)
معیارهای ROUGEمانند ROUGE-N و ROUGE-L، نقش مهمی در ارزیابی کیفیت خلاصه های تولید شده توسط ماشین در مقایسه با خلاصه های مرجع نوشته شده توسط انسان دارند. این معیارها بر ارزیابی همپوشانی بین محتوای خلاصههای تولید شده توسط ماشین و انسان با تجزیه و تحلیل n-gram، که گروههایی از کلمات یا نشانهها هستند، تمرکز دارند. به عنوان مثال، ROUGE-1 تطابق کلمات فردی (unigrams) را ارزیابی می کند، در حالی که ROUGE-2 جفت کلمات (bigrams) را در نظر می گیرد. علاوه بر این، ROUGE-N طولانیترین دنباله مشترک کلمات را بین دو متن ارزیابی میکند و امکان انعطافپذیری در ترتیب کلمات را فراهم میکند.
برای نشان دادن این موضوع به مثال های زیر توجه کنید:
- متریک ROGUE-1 - ROUGE-1 همپوشانی یونیگرام ها (تک کلمه) را بین یک خلاصه تولید شده و یک خلاصه مرجع ارزیابی می کند. برای مثال، اگر خلاصه مرجع حاوی «روباه قهوهای سریع میپرد» و خلاصه تولید شده «روباه قهوهای سریع میپرد» باشد، معیار ROUGE-1 «قهوهای»، «روباه» و «پرش» را بهعنوان همپوشانی در نظر میگیرد. یک گرم ROUGE-1 بر حضور تک تک کلمات در خلاصهها تمرکز میکند، و اندازهگیری میکند که خلاصه تولید شده چقدر کلمات کلیدی را از خلاصه مرجع دریافت میکند.
- متریک ROGUE-2 - ROUGE-2 همپوشانی بیگرام ها (جفت کلمات مجاور) را بین یک خلاصه تولید شده و یک خلاصه مرجع ارزیابی می کند. به عنوان مثال، اگر خلاصه مرجع دارای «گربه خواب است» باشد، و خلاصه تولید شده به عنوان «گربه در خواب است» باشد، ROUGE-2 «گربه است» و «در حال خواب است» را به عنوان یک بیگرام همپوشانی شناسایی می کند. ROUGE-2 بینشی را در مورد اینکه چگونه خلاصه تولید شده به خوبی توالی و زمینه جفت کلمات را در مقایسه با خلاصه مرجع حفظ می کند، ارائه می دهد.
- معیار ROUGE-N - ROUGE-N یک شکل تعمیم یافته است که در آن N هر عددی را نشان می دهد و امکان ارزیابی بر اساس n-گرم (توالی از N کلمه) را فراهم می کند. با در نظر گرفتن N=3، اگر خلاصه مرجع بیان کند که "خورشید به شدت می درخشد" و خلاصه تولید شده "خورشید درخشان است"، ROUGE-3 "تابش شدید خورشید" را به عنوان یک سه خط منطبق تشخیص می دهد. ROUGE-N انعطاف پذیری را برای ارزیابی خلاصه ها بر اساس طول های مختلف دنباله کلمات ارائه می دهد و ارزیابی جامع تری از همپوشانی محتوا ارائه می دهد.
این مثالها نحوه عملکرد معیارهای ROUGE-1، ROUGE-2 و ROUGE-N را در ارزیابی کارهای خلاصهسازی خودکار یا ترجمه ماشینی با مقایسه خلاصههای تولید شده با خلاصههای مرجع بر اساس سطوح مختلف دنبالههای کلمات، نشان میدهند.
یک امتیاز ROUGE-N را محاسبه کنید
برای محاسبه امتیاز ROUGE-N می توانید از مراحل زیر استفاده کنید:
- خلاصه تولید شده و خلاصه مرجع را با استفاده از روشهای نشانهسازی اولیه مانند تقسیم بر اساس فضای خالی یا کتابخانههای پردازش زبان طبیعی (NLP) به کلمات یا نشانهها تبدیل کنید.
- n-گرم (دنباله های پیوسته از N کلمه) را هم از خلاصه تولید شده و هم از خلاصه مرجع تولید کنید.
- تعداد n-گرم های همپوشانی بین خلاصه تولید شده و خلاصه مرجع را بشمارید.
- محاسبه دقت، یادآوری و امتیاز F1:
- دقت - تعداد n گرم همپوشانی تقسیم بر تعداد کل n گرم در خلاصه تولید شده.
- به یاد بیاورید - تعداد n-گرم های همپوشانی تقسیم بر تعداد کل n- گرم در خلاصه مرجع.
- امتیاز F1 – میانگین هارمونیک دقت و فراخوان، محاسبه شده به صورت (2 * دقت * فراخوان) / (دقت + فراخوان).
- مجموع امتیاز F1 حاصل از محاسبه دقت، یادآوری و امتیاز F1 برای هر ردیف در مجموعه داده به عنوان امتیاز ROUGE-N در نظر گرفته می شود.
محدودیت ها
ROGUE دارای محدودیت های زیر است:
- تمرکز محدود بر همپوشانی واژگانی - ایده اصلی پشت ROUGE مقایسه خلاصه تولید شده توسط سیستم با مجموعه ای از خلاصه های مرجع یا ایجاد شده توسط انسان و اندازه گیری همپوشانی واژگانی بین آنها است. این بدان معنی است که ROUGE تمرکز بسیار محدودی بر شباهت سطح کلمه دارد. در واقع معنای معنایی، انسجام یا خوانایی خلاصه را ارزیابی نمی کند. یک سیستم می تواند با استخراج جملات کلمه به کلمه از متن اصلی، بدون ایجاد خلاصه ای منسجم یا مختصر، به نمرات ROUGE بالایی دست یابد.
- عدم حساسیت به نقل قول - از آنجایی که ROUGE بر تطابق واژگانی متکی است، نمی تواند معادل معنایی بین کلمات و عبارات را تشخیص دهد. بنابراین، بازنویسی و استفاده از مترادف ها اغلب منجر به کاهش امتیاز ROUGE می شود، حتی اگر معنی حفظ شود. این امر سیستمهایی را که به شیوهای انتزاعی ترجمه یا خلاصه میکنند، مضر است.
- عدم درک معنایی - ROUGE ارزیابی نمی کند که آیا سیستم واقعاً معانی و مفاهیم موجود در متن اصلی را درک کرده است یا خیر. خلاصه میتواند به همپوشانی واژگانی بالایی با مراجع دست یابد، در حالی که ایدههای اصلی را از دست داده یا حاوی ناسازگاریهای واقعی باشد. ROUGE این مسائل را شناسایی نمی کند.
زمان استفاده از ROUGE
ROUGE ساده و سریع محاسبه می شود. از آن به عنوان پایه یا معیار برای کیفیت خلاصه مربوط به انتخاب محتوا استفاده کنید. معیارهای ROUGE به طور مؤثر در سناریوهایی که شامل وظایف خلاصه انتزاعی، ارزیابی خلاصه خودکار، ارزیابی LLMها، و تجزیه و تحلیل مقایسه ای رویکردهای خلاصه سازی مختلف است، استفاده می شود. با استفاده از معیارهای ROUGE در این زمینه ها، ذینفعان می توانند کیفیت و اثربخشی فرآیندهای تولید خلاصه را به صورت کمی ارزیابی کنند.
معیار برای ارزیابی ترجمه با ترتیب صریح (METEOR)
یکی از چالشهای عمده در ارزیابی سیستمهای خلاصهسازی، ارزیابی اینکه خلاصه تولید شده چقدر بهطور منطقی جریان مییابد، به جای انتخاب کلمات و عبارات مرتبط از متن منبع است. استخراج ساده کلمات کلیدی و جملات مرتبط لزوماً یک خلاصه منسجم و منسجم ایجاد نمی کند. خلاصه باید روان جریان داشته باشد و ایده ها را به طور منطقی به هم مرتبط کند، حتی اگر به همان ترتیب سند اصلی ارائه نشده باشند.
انعطاف پذیری تطبیق با کاهش کلمات به ریشه یا شکل پایه آنها (به عنوان مثال، پس از stemming، کلماتی مانند "running"، "runs" و "ran" همگی به "run" تبدیل می شوند) و مترادف ها به معنای شهاب با قضاوت های انسانی با کیفیت خلاصه ارتباط بهتری دارد. می تواند تشخیص دهد که آیا محتوای مهم حفظ شده است، حتی اگر عبارت متفاوت باشد. این یک مزیت کلیدی نسبت به معیارهای مبتنی بر n-gram مانند ROUGE است که فقط به دنبال تطابق دقیق توکن هستند. METEOR همچنین به خلاصههایی که بر برجستهترین محتوای مرجع تمرکز دارند، امتیاز بیشتری میدهد. نمرات کمتری به اطلاعات تکراری یا نامربوط داده می شود. این به خوبی با هدف خلاصه سازی برای حفظ مهم ترین مطالب مطابقت دارد. METEOR یک معیار معنادار معنایی است که می تواند بر برخی از محدودیت های تطبیق n-gram برای ارزیابی خلاصه سازی متن غلبه کند. ترکیب ریشه ها و مترادف ها امکان ارزیابی بهتر همپوشانی اطلاعات و دقت محتوا را فراهم می کند.
برای نشان دادن این موضوع به مثال های زیر توجه کنید:
خلاصه مرجع: برگها در پاییز می ریزند.
خلاصه تولید شده 1: ریزش برگها در پاییز
خلاصه تولید شده 2: برگها در تابستان سبز می شوند.
کلماتی که بین مرجع و خلاصه تولید شده 1 مطابقت دارند برجسته می شوند:
خلاصه مرجع: برگ سقوط در طول پاییز
خلاصه تولید شده 1: برگ رها کردن سقوط.
اگرچه "پاییز" و "پاییز" نشانه های متفاوتی هستند، METEOR آنها را از طریق تطبیق مترادف خود به عنوان مترادف تشخیص می دهد. "سقوط" و "سقوط" به عنوان یک کبریت ساقه ای شناسایی می شوند. برای خلاصه تولید شده 2، هیچ منطبقی با خلاصه مرجع به جز "برگ ها" وجود ندارد، بنابراین این خلاصه امتیاز METEOR بسیار پایین تری دریافت می کند. هر چه منطبقات معنادارتر باشد، امتیاز METEOR بالاتر است. این به METEOR اجازه می دهد تا محتوا و دقت خلاصه ها را در مقایسه با تطبیق ساده n-gram بهتر ارزیابی کند.
یک امتیاز METEOR را محاسبه کنید
مراحل زیر را برای محاسبه امتیاز METEOR انجام دهید:
- خلاصه تولید شده و خلاصه مرجع را با استفاده از روشهای نشانهسازی اولیه مانند تقسیم بر اساس فضای خالی یا کتابخانههای NLP به کلمات یا نشانههای جداگانه تبدیل کنید.
- دقت یک گرمی، فراخوانی و میانگین امتیاز F را محاسبه کنید، که وزن بیشتری را به یادآوری می دهد تا دقت.
- برای پرهیز از تاکید بیش از حد، برای مسابقات دقیق جریمه اعمال کنید. جریمه بر اساس ویژگی های مجموعه داده، الزامات کار، و تعادل بین دقت و یادآوری انتخاب می شود. این جریمه را از میانگین امتیاز F محاسبه شده در مرحله 2 کم کنید.
- امتیاز F-mean را برای فرمهای ریشهدار (کاهش کلمات به شکل پایه یا ریشه) و مترادفها برای تکگرمها در صورت امکان محاسبه کنید. این را با امتیاز F-mean محاسبه شده قبلی جمع کنید تا امتیاز نهایی METEOR را بدست آورید. امتیاز METEOR از 0 تا 1 متغیر است، جایی که 0 نشان دهنده عدم شباهت بین خلاصه تولید شده و خلاصه مرجع است و 1 نشان دهنده تراز کامل است. به طور معمول، نمرات خلاصه بین 0-0.6 قرار می گیرند.
محدودیت ها
هنگام استفاده از متریک METEOR برای ارزیابی وظایف خلاصه، چندین چالش ممکن است ایجاد شود:
- پیچیدگی معنایی - تأکید METEOR بر شباهت معنایی ممکن است برای به دست آوردن معانی ظریف و زمینه در وظایف خلاصهسازی پیچیده با مشکل مواجه شود که به طور بالقوه منجر به عدم دقت در ارزیابی میشود.
- تنوع مرجع - تنوع در خلاصه های مرجع تولید شده توسط انسان می تواند بر نمرات METEOR تأثیر بگذارد، زیرا تفاوت در محتوای مرجع ممکن است بر ارزیابی خلاصه های تولید شده توسط ماشین تأثیر بگذارد.
- تنوع زبانی - اثربخشی METEOR ممکن است در بین زبانها به دلیل تنوع زبانی، تفاوتهای نحوی، و تفاوتهای معنایی متفاوت باشد، که چالشهایی را در ارزیابیهای خلاصهسازی چند زبانه ایجاد میکند.
- اختلاف طول - ارزیابی خلاصههایی با طولهای مختلف میتواند برای METEOR چالش برانگیز باشد، زیرا اختلاف در طول در مقایسه با خلاصه مرجع ممکن است منجر به جریمه یا عدم دقت در ارزیابی شود.
- تنظیم پارامتر - بهینهسازی پارامترهای METEOR برای مجموعههای داده مختلف و وظایف خلاصهسازی میتواند زمانبر باشد و نیاز به تنظیم دقیق دارد تا مطمئن شوید که متریک ارزیابیهای دقیقی را ارائه میکند.
- سوگیری ارزیابی - اگر به درستی برای حوزهها یا وظایف خلاصهسازی خاص تنظیم یا کالیبره نشده باشد، خطر سوگیری ارزیابی با METEOR وجود دارد. این به طور بالقوه می تواند منجر به نتایج منحرف شود و بر قابلیت اطمینان فرآیند ارزیابی تأثیر بگذارد.
با آگاهی از این چالشها و در نظر گرفتن آنها هنگام استفاده از METEOR به عنوان معیاری برای خلاصهسازی وظایف، محققان و متخصصان میتوانند محدودیتهای بالقوه را مرور کنند و تصمیمات آگاهانهتری در فرآیندهای ارزیابی خود بگیرند.
زمان استفاده از METEOR
METEOR معمولاً برای ارزیابی خودکار کیفیت خلاصههای متن استفاده میشود. ترجیحاً استفاده از METEOR به عنوان معیار ارزیابی زمانی که ترتیب ایدهها، مفاهیم یا موجودیتها در خلاصه مهم است. METEOR ترتیب را در نظر می گیرد و n-gram را بین خلاصه تولید شده و خلاصه مرجع مطابقت می دهد. به خلاصه هایی که اطلاعات متوالی را حفظ می کنند، پاداش می دهد. بر خلاف معیارهایی مانند ROUGE که بر همپوشانی n-gram با خلاصههای مرجع تکیه میکنند، METEOR با ساقهها، مترادفها و نقل قولها مطابقت دارد. METEOR زمانی بهتر کار می کند که بتوان چندین روش صحیح برای خلاصه کردن متن اصلی وجود داشته باشد. METEOR هنگام تطبیق n-گرم، مترادفهای WordNet و نشانههای ریشهدار را در خود جای میدهد. به طور خلاصه، خلاصههایی که از نظر معنایی مشابه هستند اما از کلمات یا عبارات متفاوتی استفاده میکنند، همچنان امتیاز خوبی خواهند داشت. METEOR یک جریمه داخلی برای خلاصه هایی با n-گرم تکراری دارد. بنابراین، از استخراج کلمه به کلمه یا عدم انتزاع جلوگیری می کند. هنگامی که شباهت معنایی، ترتیب ایده ها و عبارت روان برای قضاوت در مورد کیفیت خلاصه مهم هستند، METEOR انتخاب خوبی است. برای کارهایی که فقط همپوشانی واژگانی با خلاصه های مرجع مهم است، کمتر مناسب است.
BERTScore
معیارهای واژگانی سطح سطحی مانند ROUGE و METEOR سیستم های خلاصه سازی را با مقایسه همپوشانی کلمه بین خلاصه نامزد و خلاصه مرجع ارزیابی می کنند. با این حال، آنها به شدت بر تطابق رشته دقیق بین کلمات و عبارات متکی هستند. این بدان معنی است که آنها ممکن است شباهت های معنایی بین کلمات و عباراتی را که اشکال سطحی متفاوتی دارند اما معانی زیربنایی مشابهی دارند، از دست بدهند. تنها با تکیه بر تطابق سطحی، این معیارها ممکن است کیفیت خلاصههای سیستمی را که از کلمات مترادف یا مفاهیم ترجمه متفاوت از خلاصههای مرجع استفاده میکنند، دست کم بگیرند. دو خلاصه می توانند اطلاعات تقریباً یکسانی را منتقل کنند اما به دلیل تفاوت در واژگان، نمرات سطح پایینی را دریافت می کنند.
BERTScore روشی برای ارزیابی خودکار خوب بودن یک خلاصه با مقایسه آن با خلاصه مرجع نوشته شده توسط یک انسان است. از BERT، یک تکنیک محبوب NLP، برای درک معنی و بافت کلمات در خلاصه نامزد و خلاصه مرجع استفاده می کند. به طور خاص، به هر کلمه یا نشانه در خلاصه نامزد نگاه میکند و شبیهترین کلمه را در خلاصه مرجع بر اساس جاسازیهای BERT، که نمایشهای برداری معنا و بافت هر کلمه هستند، پیدا میکند. شباهت را با استفاده از شباهت کسینوس اندازه گیری می کند، که نشان می دهد بردارها چقدر به یکدیگر نزدیک هستند. برای هر کلمه در خلاصه نامزد، مرتبط ترین کلمه را در خلاصه مرجع با استفاده از درک زبان BERT پیدا می کند. همه این شباهتهای کلمه را در کل خلاصه مقایسه میکند تا به یک نمره کلی از شباهت معنایی خلاصه نامزد به خلاصه مرجع برسد. هر چه کلمات و معانی گرفته شده توسط BERT مشابه تر باشند، امتیاز BERTS بالاتر است. این به آن اجازه می دهد تا به طور خودکار کیفیت یک خلاصه تولید شده را با مقایسه آن با یک مرجع انسانی بدون نیاز به ارزیابی انسانی در هر بار ارزیابی کند.
برای نشان دادن این موضوع، تصور کنید که یک خلاصه ماشینی دارید: «روباه قهوهای سریع از روی سگ تنبل میپرد». اکنون، بیایید یک خلاصه مرجع ساخته شده توسط انسان را در نظر بگیریم: "روباه قهوه ای سریع از روی سگی که خوابیده می پرد."
BERTScore را محاسبه کنید
مراحل زیر را برای محاسبه امتیاز BERTS انجام دهید:
- BERTScore از جاسازیهای متنی برای نشان دادن هر نشانه در جملات نامزد (ماشینسازی) و مرجع (ساخته شده توسط انسان) استفاده میکند. تعبیههای متنی نوعی نمایش کلمه در NLP است که معنای یک کلمه را بر اساس بافت آن در یک جمله یا متن نشان میدهد. برخلاف تعبیههای سنتی کلمه که یک بردار ثابت را به هر کلمه بدون توجه به بافت آن اختصاص میدهند، جاسازیهای متنی کلمات اطراف را برای ایجاد یک نمایش منحصر به فرد برای هر کلمه بسته به نحوه استفاده از آن در یک جمله خاص در نظر میگیرند.
- سپس متریک شباهت بین هر نشانه در جمله نامزد را با هر نشانه در جمله مرجع با استفاده از شباهت کسینوس محاسبه می کند. شباهت کسینوس به ما کمک می کند تا با تمرکز بر جهتی که در یک فضای چند بعدی نشان می دهند، ارتباط نزدیکی بین دو مجموعه داده را کمی کنیم و آن را به ابزاری ارزشمند برای کارهایی مانند الگوریتم های جستجو، NLP و سیستم های توصیه تبدیل کنیم.
- با مقایسه تعبیههای متنی و محاسبه امتیازات شباهت برای همه نشانهها، BERTScore یک ارزیابی جامع ایجاد میکند که ارتباط معنایی و زمینه خلاصه تولید شده را در مقایسه با مرجع ساخته شده توسط انسان نشان میدهد.
- خروجی نهایی BERTScore یک امتیاز شباهت را ارائه می دهد که نشان می دهد چگونه خلاصه تولید شده توسط ماشین با خلاصه مرجع از نظر معنا و زمینه هماهنگ است.
در اصل، BERTScore با در نظر گرفتن ظرایف معنایی و بافت جملات، فراتر از معیارهای سنتی است و ارزیابی پیچیدهتری ارائه میکند که قضاوت انسان را از نزدیک منعکس میکند. این رویکرد پیشرفته دقت و قابلیت اطمینان ارزیابی وظایف خلاصهسازی را افزایش میدهد و BERTScore را به ابزاری ارزشمند در ارزیابی سیستمهای تولید متن تبدیل میکند.
محدودیت ها:
اگرچه BERTScore مزایای قابل توجهی در ارزیابی وظایف خلاصهسازی ارائه میدهد، اما با محدودیتهای خاصی نیز همراه است که باید در نظر گرفته شوند:
- شدت محاسباتی – BERTScore به دلیل اتکا به مدل های زبانی از پیش آموزش دیده مانند BERT می تواند از نظر محاسباتی فشرده باشد. این میتواند منجر به زمانهای ارزیابی طولانیتر شود، بهویژه هنگام پردازش حجم زیادی از دادههای متنی.
- وابستگی به مدل های از پیش آموزش دیده - اثربخشی BERTScore به شدت به کیفیت و ارتباط مدل زبانی از پیش آموزش دیده استفاده شده بستگی دارد. در سناریوهایی که مدل از پیش آموزش دیده ممکن است به اندازه کافی تفاوت های ظریف متن را درک نکند، نتایج ارزیابی ممکن است تحت تاثیر قرار گیرد.
- مقیاس پذیری - مقیاس بندی BERTScore برای مجموعه داده های بزرگ یا برنامه های کاربردی بلادرنگ به دلیل نیازهای محاسباتی آن می تواند چالش برانگیز باشد. اجرای BERTScore در محیط های تولید ممکن است به استراتژی های بهینه سازی برای ارائه عملکرد کارآمد نیاز داشته باشد.
- ویژگی دامنه - عملکرد BERTScore ممکن است در دامنه های مختلف یا انواع متن تخصصی متفاوت باشد. انطباق معیار برای حوزهها یا وظایف خاص ممکن است نیاز به تنظیم دقیق یا تنظیمات برای تولید ارزیابیهای دقیق داشته باشد.
- تفسیر – اگرچه BERTScore یک ارزیابی جامع بر اساس تعبیههای زمینهای ارائه میکند، تفسیر دلایل خاص پشت نمرات شباهت ایجاد شده برای هر توکن میتواند پیچیده باشد و ممکن است نیاز به تجزیه و تحلیل بیشتری داشته باشد.
- ارزیابی بدون مرجع – اگرچه BERTScore اتکا به خلاصه های مرجع برای ارزیابی را کاهش می دهد، این رویکرد بدون مرجع ممکن است به طور کامل تمام جنبه های کیفیت خلاصه سازی را در بر نگیرد، به ویژه در سناریوهایی که منابع ساخته شده توسط انسان برای ارزیابی ارتباط و انسجام محتوا ضروری است.
تصدیق این محدودیتها میتواند به شما کمک کند هنگام استفاده از BERTScore بهعنوان معیاری برای ارزیابی وظایف خلاصهسازی، تصمیمهای آگاهانه بگیرید و درک متعادلی از نقاط قوت و محدودیتهای آن ارائه دهید.
زمان استفاده از BERTScore
BERTScore می تواند کیفیت خلاصه سازی متن را با مقایسه خلاصه تولید شده با خلاصه مرجع ارزیابی کند. از شبکه های عصبی مانند BERT برای اندازه گیری شباهت معنایی فراتر از تطبیق دقیق کلمه یا عبارت استفاده می کند. این باعث میشود BERTScore زمانی بسیار مفید باشد که وفاداری معنایی حفظ معنا و محتوا برای کار خلاصهسازی شما حیاتی است. BERTScore به خلاصههایی که اطلاعات مشابهی را با خلاصه مرجع منتقل میکنند، امتیاز بالاتری میدهد، حتی اگر از کلمات و ساختار جملات متفاوتی استفاده کنند. نکته اصلی این است که BERTScore برای کارهای خلاصهسازی ایدهآل است که در آن حفظ معنای معنایی کامل نه فقط کلمات کلیدی یا موضوعات حیاتی است. امتیازدهی عصبی پیشرفته آن به آن اجازه می دهد تا معنی را فراتر از تطبیق کلمه در سطح سطح مقایسه کند. این آن را برای مواردی مناسب میسازد که تفاوتهای ظریف در جملهبندی میتواند به طور قابلتوجهی معنا و مفاهیم کلی را تغییر دهد. BERTScore، به ویژه، در گرفتن شباهت معنایی، که برای ارزیابی کیفیت خلاصههای انتزاعی مانند آنچه توسط مدلهای Retrieval Augmented Generation (RAG) تولید میشود، بسیار مهم است.
چارچوب های ارزیابی مدل
چارچوبهای ارزیابی مدل برای سنجش دقیق عملکرد مدلهای خلاصهسازی مختلف ضروری هستند. این چارچوبها در مقایسه مدلها، ایجاد انسجام بین خلاصههای تولید شده و محتوای منبع، و مشخص کردن کاستیها در روشهای ارزیابی ابزاری هستند. این چارچوبها با انجام ارزیابیهای کامل و محکگذاری مداوم، تحقیقات خلاصهسازی متن را با حمایت از شیوههای ارزیابی استاندارد و امکان مقایسه مدلهای چندوجهی را پیش میبرند.
در AWS، کتابخانه FMEval در داخل Amazon SageMaker Clarify ارزیابی و انتخاب مدلهای پایه (FM) را برای کارهایی مانند خلاصهسازی متن، پاسخ به سؤال و طبقهبندی ساده میکند. این به شما امکان می دهد FM ها را بر اساس معیارهایی مانند دقت، استحکام، خلاقیت، سوگیری و سمیت ارزیابی کنید و از ارزیابی های خودکار و انسان در حلقه برای LLM ها پشتیبانی می کند. FMEval با ارزیابیهای مبتنی بر رابط کاربری یا برنامهریزیشده، گزارشهای دقیقی را همراه با تجسمسازی برای تعیین کمیت ریسکهای مدل مانند نادرستی، سمیت یا سوگیری ایجاد میکند و به سازمانها کمک میکند تا با دستورالعملهای هوش مصنوعی مولد مسئول خود هماهنگ شوند. در این بخش نحوه استفاده از کتابخانه FMEval را نشان می دهیم.
Claude v2 را در دقت خلاصه سازی با استفاده از Amazon Bedrock ارزیابی کنید
قطعه کد زیر نمونه ای از نحوه تعامل با مدل Anthropic Claude با استفاده از کد پایتون است:
به زبان ساده، این کد اقدامات زیر را انجام می دهد:
- وارد کردن کتابخانه های لازم، از جمله
json
، برای کار با داده های JSON. - شناسه مدل را به عنوان تعریف کنید
anthropic.claude-v2
و نوع محتوا را برای درخواست تنظیم کنید. - ایجاد یک
prompt_data
متغیری که داده های ورودی مدل کلود را ساختار می دهد. در این مورد، این سوال را مطرح می کند که "باراک اوباما کیست؟" و از مدل انتظار پاسخ دارد. - یک شی JSON به نام body بسازید که شامل دادههای اعلان است و پارامترهای اضافی مانند حداکثر تعداد نشانهها را برای تولید مشخص کنید.
- با استفاده از مدل کلود فراخوانی کنید
bedrock_runtime.invoke_model
با پارامترهای تعریف شده - پاسخ را از مدل تجزیه کنید، تکمیل (متن تولید شده) را استخراج کنید و آن را چاپ کنید.
اطمینان حاصل کنید که هویت AWS و مدیریت دسترسی (IAM) نقش مرتبط با Amazon SageMaker Studio نمایه کاربر به بستر آمازون مدل های در حال فراخوانی رجوع شود به نمونه های سیاست مبتنی بر هویت برای Amazon Bedrock برای راهنمایی در مورد بهترین شیوه ها و نمونه هایی از سیاست های مبتنی بر هویت برای Amazon Bedrock.
استفاده از کتابخانه FMEval برای ارزیابی خروجی خلاصه شده از کلود
برای ارزیابی خروجی خلاصه شده از کد زیر استفاده می کنیم:
در قطعه کد قبلی، برای ارزیابی خلاصه سازی متن با استفاده از کتابخانه FMEval، مراحل زیر را تکمیل می کنیم:
- ایجاد یک
ModelRunner
برای انجام فراخوانی در LLM خود. کتابخانه FMEval پشتیبانی داخلی برای آمازون SageMaker نقاط پایانی و Amazon SageMaker JumpStart LLMs. شما همچنین می توانید تمدید کنیدModelRunner
رابط برای هر LLM که در هر جایی میزبانی می شود. - استفاده از پشتیبانی
eval_algorithms
مانند سمیت، خلاصه سازی، دقت، معنایی و استحکام، بر اساس نیازهای ارزیابی شما. - پارامترهای پیکربندی ارزیابی را برای مورد استفاده خاص خود سفارشی کنید.
- از الگوریتم ارزیابی با مجموعه داده های داخلی یا سفارشی برای ارزیابی مدل LLM خود استفاده کنید. مجموعه داده های مورد استفاده در این مورد از موارد زیر تهیه شده است GitHub repo.
به راهنمای توسعه دهنده و مثال ها برای استفاده دقیق از الگوریتم های ارزیابی
جدول زیر به طور خلاصه نتایج ارزیابی را نشان می دهد.
مدل _ورودی | مدل_خروجی | هدف_خروجی | سریع | نمرات | شهاب_امتیاز | rouge_score | bert_score |
جان ادوارد 0 بیتس، سابقاً از اسپالدینگ، لینکو….. |
نمی توانم قطعی کنم قضاوت ها، همانطور که… |
سابق افسر پلیس لینکلن شایر حامل… |
انسان: جان ادوارد بیتس، سابقاً از اسپالدینگ… |
[{'name': 'شهاب'، 'ارزش': 0.101010101010101 ... |
0.10101 | 0 | 0.557155 |
23 اکتبر 2015 آخرین به روزرسانی در 17:44 BST|nIt'… |
در اینجا چند نکته کلیدی در مورد طوفان / تروپ وجود دارد. | طوفان پاتریشیا به عنوان یک طبقه بندی رتبه بندی شده است… | انسان: 23 اکتبر 2015 آخرین به روز رسانی در 17:44 ب… |
[{'name': شهاب سنگ، "ارزش": 0.102339181286549 .. |
0.102339 | 0.018265 | 0.441421 |
فراری در موقعیتی ظاهر شد که بتواند به چالش بکشد… | در اینجا نکات کلیدی از مقاله آمده است: nin… | لوئیس همیلتون به جایگاه قطبی در… | Human: فراری در موقعیتی ظاهر شد که می توانست به چالش بکشد… | [{'name': 'شهاب'، 'ارزش': 0.322543352601156 ... |
0.322543 | 0.078212 | 0.606487 |
بازیکن 28 ساله بات زاده 36 ساله شده است ظاهر… |
خوب، بگذارید نکات کلیدی را خلاصه کنم:/nin- E….. | نیوپورت گونت اژدها شماره هشت اد جکسون | Human: بازیکن 28 ساله بات زاده، 36 سال ساخته است… | [{'name': 'شهاب'، 'ارزش': 0105740181268882 ... |
0.10574 | 0.012987 | 0.539488 |
نقاط ضعف در روش مبادله دادهها توسط موشها با c… | در اینجا نکات کلیدی است که من از یک… | هکرها می توانند به خانه و | انسان: نقاط ضعف در موش های swar داده ها را مبادله کردند |
[{'name': 'شهاب'، 'ارزش': 0.201048289433848 ... |
0.201048 | 0.021858 | 0.526947 |
نمونه را بررسی کنید دفتر یادداشت برای جزئیات بیشتر در مورد ارزیابی خلاصه که در این پست بحث کردیم.
نتیجه
ROUGE، METEOR، و BERTScore همگی کیفیت خلاصههای تولید شده توسط ماشین را اندازهگیری میکنند، اما بر جنبههای مختلف مانند همپوشانی واژگانی، روانی، یا شباهت معنایی تمرکز میکنند. اطمینان حاصل کنید که معیاری را انتخاب کنید که با آنچه «خوب» را برای مورد استفاده از خلاصه سازی خاص شما تعریف می کند، همسو باشد. همچنین می توانید از ترکیبی از معیارها استفاده کنید. این یک ارزیابی جامع تری ارائه می دهد و از ضعف های بالقوه هر معیار فردی محافظت می کند. با اندازهگیریهای مناسب، میتوانید بهطور مکرر خلاصهکنندههای خود را بهبود ببخشید تا به هر مفهومی از دقت که بیشتر اهمیت دارد، پاسخ دهید.
علاوه بر این، ارزیابی FM و LLM برای تولید این مدل ها در مقیاس ضروری است. با FMEval، شما مجموعه وسیعی از الگوریتمهای داخلی را در بسیاری از وظایف NLP دریافت میکنید، اما همچنین ابزاری مقیاسپذیر و انعطافپذیر برای ارزیابیهای مقیاس بزرگ مدلها، مجموعههای داده و الگوریتمهای خود را دریافت میکنید. برای افزایش مقیاس، می توانید از این بسته در خطوط لوله LLMOps خود استفاده کنید چندین مدل را ارزیابی کنید. برای کسب اطلاعات بیشتر در مورد FMEval در AWS و نحوه استفاده موثر از آن، مراجعه کنید برای ارزیابی مدل های زبان بزرگ از SageMaker Clarify استفاده کنید. برای درک بیشتر و بینش در مورد قابلیت های SageMaker Clarify در ارزیابی FM ها، نگاه کنید به Amazon SageMaker Clarify ارزیابی و انتخاب مدل های پایه را آسان تر می کند.
درباره نویسنده
دینش کومار سوبرامانی یک معمار ارشد راه حل مستقر در ادینبورگ، اسکاتلند است. او در هوش مصنوعی و یادگیری ماشین تخصص دارد و عضو انجمن حوزه فنی در آمازون است. Dinesh از نزدیک با مشتریان دولت مرکزی انگلستان همکاری می کند تا مشکلات آنها را با استفاده از خدمات AWS حل کند. دینش خارج از محل کار، از گذراندن زمان با کیفیت با خانواده، بازی شطرنج و کاوش در طیف متنوعی از موسیقی لذت می برد.
پراناو شارما یک رهبر AWS است که ابتکارات فناوری و تحول کسب و کار را در سراسر اروپا، خاورمیانه و آفریقا هدایت می کند. او در طراحی و اجرای پلتفرم های هوش مصنوعی در تولید که از میلیون ها مشتری پشتیبانی می کند و نتایج کسب و کار را ارائه می دهد، تجربه دارد. او نقش های رهبری فناوری و افراد را برای سازمان های خدمات مالی جهانی ایفا کرده است. خارج از محل کار، او دوست دارد بخواند، با پسرش تنیس بازی کند و فیلم ببیند.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://aws.amazon.com/blogs/machine-learning/evaluate-the-text-summarization-capabilities-of-llms-for-enhanced-decision-making-on-aws/