एडब्ल्यूएस पर बेहतर निर्णय लेने के लिए एलएलएम की पाठ सारांश क्षमताओं का मूल्यांकन करें | अमेज़ॅन वेब सेवाएँ

विभिन्न उद्योगों के संगठन बड़ी मात्रा में जानकारी को अधिक कुशलता से संभालने और बेहतर निर्णय लेने के लिए स्वचालित पाठ सारांश का उपयोग कर रहे हैं। वित्तीय क्षेत्र में, निवेश बैंक तिमाही प्रदर्शन का तेजी से विश्लेषण करने के लिए मुख्य निष्कर्षों के आधार पर आय रिपोर्ट को संक्षिप्त करते हैं। मीडिया कंपनियाँ समाचारों और सोशल मीडिया पर नज़र रखने के लिए सारांशीकरण का उपयोग करती हैं ताकि पत्रकार विकासशील मुद्दों पर तुरंत कहानियाँ लिख सकें। सरकारी एजेंसियां नीति निर्माताओं को रणनीति बनाने और लक्ष्यों को प्राथमिकता देने में मदद करने के लिए लंबे नीति दस्तावेजों और रिपोर्टों का सारांश तैयार करती हैं।

लंबे, जटिल दस्तावेज़ों के संक्षिप्त संस्करण बनाकर, सारांशीकरण तकनीक उपयोगकर्ताओं को सबसे प्रमुख सामग्री पर ध्यान केंद्रित करने में सक्षम बनाती है। इससे महत्वपूर्ण जानकारी की बेहतर समझ और उसे बनाए रखने में मदद मिलती है। समय की बचत हितधारकों को व्यापक परिप्रेक्ष्य प्राप्त करते हुए, कम समय में अधिक सामग्री की समीक्षा करने की अनुमति देती है। बेहतर समझ और अधिक संश्लेषित अंतर्दृष्टि के साथ, संगठन बेहतर सूचित रणनीतिक निर्णय ले सकते हैं, अनुसंधान में तेजी ला सकते हैं, उत्पादकता में सुधार कर सकते हैं और अपना प्रभाव बढ़ा सकते हैं। उन्नत सारांशीकरण क्षमताओं की परिवर्तनकारी शक्ति केवल बढ़ती रहेगी क्योंकि अधिक उद्योग प्रचुर मात्रा में सूचना धाराओं का उपयोग करने के लिए कृत्रिम बुद्धिमत्ता (एआई) को अपनाएंगे।

इस पोस्ट में, हम ROUGE मेट्रिक्स, METEOR और BERTScore सहित वस्तुनिष्ठ रूप से सारांश सटीकता का मूल्यांकन करने के लिए प्रमुख दृष्टिकोण तलाशते हैं। इन तकनीकों की ताकत और कमजोरियों को समझने से चयन और सुधार प्रयासों को निर्देशित करने में मदद मिल सकती है। इस पोस्ट का समग्र लक्ष्य सारांश मूल्यांकन को स्पष्ट करना है ताकि टीमों को इस महत्वपूर्ण क्षमता पर बेहतर बेंचमार्क प्रदर्शन में मदद मिल सके क्योंकि वे मूल्य को अधिकतम करना चाहते हैं।

संक्षेपण के प्रकार

सारांशीकरण को आम तौर पर दो मुख्य प्रकारों में विभाजित किया जा सकता है: निष्कर्षात्मक सारांशीकरण और अमूर्त सारांशीकरण। दोनों दृष्टिकोणों का उद्देश्य पाठ के लंबे टुकड़ों को छोटे रूपों में संक्षिप्त करना, मूल सामग्री की सबसे महत्वपूर्ण जानकारी या सार को पकड़ना है, लेकिन वे मौलिक रूप से अलग-अलग तरीकों से ऐसा करते हैं।

निष्कर्षण संक्षेपण में मूल पाठ से प्रमुख वाक्यांशों, वाक्यों या खंडों को बिना बदले उन्हें पहचानना और निकालना शामिल है। सिस्टम पाठ के उन हिस्सों का चयन करता है जिन्हें संपूर्ण जानकारीपूर्ण या प्रतिनिधि माना जाता है। यदि सटीकता महत्वपूर्ण है और सारांश को मूल पाठ से सटीक जानकारी प्रतिबिंबित करने की आवश्यकता है तो निष्कर्षात्मक सारांश उपयोगी है। ये उपयोग की शर्तों में उल्लिखित विशिष्ट कानूनी शर्तों, दायित्वों और अधिकारों को उजागर करने जैसे उपयोग के मामले हो सकते हैं। निष्कर्षण संक्षेपण के लिए उपयोग की जाने वाली सबसे आम तकनीकें शब्द आवृत्ति-व्युत्क्रम दस्तावेज़ आवृत्ति (टीएफ-आईडीएफ), वाक्य स्कोरिंग, टेक्स्ट रैंक एल्गोरिदम और पर्यवेक्षित मशीन लर्निंग (एमएल) हैं।

सारगर्भित सारांश नए वाक्यांशों और वाक्यों को उत्पन्न करके एक कदम आगे बढ़ता है जो मूल पाठ में नहीं थे, मूल रूप से मूल सामग्री को संक्षिप्त और संक्षिप्त करते हैं। इस दृष्टिकोण के लिए पाठ की गहरी समझ की आवश्यकता होती है, क्योंकि एआई को अर्थ की व्याख्या करने और फिर इसे एक नए, संक्षिप्त रूप में व्यक्त करने की आवश्यकता होती है। बड़े भाषा मॉडल (एलएलएम) अमूर्त सारांश के लिए सबसे उपयुक्त हैं क्योंकि ट्रांसफार्मर मॉडल सारांश उत्पन्न करते समय इनपुट पाठ के प्रासंगिक भागों पर ध्यान केंद्रित करने के लिए ध्यान तंत्र का उपयोग करते हैं। ध्यान तंत्र मॉडल को इनपुट अनुक्रम में अलग-अलग शब्दों या टोकन के लिए अलग-अलग भार निर्दिष्ट करने की अनुमति देता है, जिससे यह लंबी दूरी की निर्भरता और प्रासंगिक रूप से प्रासंगिक जानकारी को पकड़ने में सक्षम होता है।

इन दो प्राथमिक प्रकारों के अलावा, ऐसे संकर दृष्टिकोण भी हैं जो निष्कर्षण और अमूर्त तरीकों को जोड़ते हैं। ये दृष्टिकोण सबसे महत्वपूर्ण सामग्री की पहचान करने के लिए निष्कर्षात्मक सारांश के साथ शुरू हो सकते हैं और फिर उस सामग्री को एक धाराप्रवाह सारांश में फिर से लिखने या संक्षिप्त करने के लिए अमूर्त तकनीकों का उपयोग कर सकते हैं।

चुनौती

सारांश गुणवत्ता का मूल्यांकन करने के लिए इष्टतम तरीका ढूँढना एक खुली चुनौती बनी हुई है। जैसे-जैसे संगठन दस्तावेजों से मुख्य जानकारी प्राप्त करने के लिए स्वचालित पाठ सारांश पर भरोसा कर रहे हैं, सारांश सटीकता को मापने के लिए मानकीकृत तकनीकों की आवश्यकता बढ़ती जा रही है। आदर्श रूप से, ये मूल्यांकन मेट्रिक्स यह निर्धारित करेंगे कि मशीन-जनित सारांश स्रोत पाठ से सबसे प्रमुख सामग्री को कितनी अच्छी तरह निकालते हैं और मूल अर्थ और संदर्भ को दर्शाते हुए सुसंगत सारांश प्रस्तुत करते हैं।

हालाँकि, पाठ सारांश के लिए मजबूत मूल्यांकन पद्धति विकसित करना कठिनाइयाँ प्रस्तुत करता है:

तुलना के लिए उपयोग किए जाने वाले मानव-लिखित संदर्भ सारांश अक्सर महत्व के व्यक्तिपरक निर्धारण के आधार पर उच्च परिवर्तनशीलता प्रदर्शित करते हैं
सारांश गुणवत्ता के सूक्ष्म पहलुओं जैसे प्रवाह, पठनीयता और सुसंगतता को प्रोग्रामेटिक रूप से निर्धारित करना मुश्किल साबित होता है
सांख्यिकीय एल्गोरिदम से लेकर तंत्रिका नेटवर्क तक संक्षेपण विधियों में व्यापक भिन्नता मौजूद है, जो प्रत्यक्ष तुलना को जटिल बनाती है

गिस्टिंग मूल्यांकन के लिए रिकॉल-ओरिएंटेड अंडरस्टडी (रूज)

रूज मेट्रिक्स, जैसे ROUGE-N और ROUGE-L, मानव-लिखित संदर्भ सारांशों की तुलना में मशीन-जनित सारांशों की गुणवत्ता का मूल्यांकन करने में महत्वपूर्ण भूमिका निभाते हैं। ये मेट्रिक्स एन-ग्राम, जो शब्दों या टोकन के समूह हैं, का विश्लेषण करके मशीन-जनित और मानव-निर्मित सारांश की सामग्री के बीच ओवरलैप का आकलन करने पर ध्यान केंद्रित करते हैं। उदाहरण के लिए, ROUGE-1 व्यक्तिगत शब्दों (यूनिग्राम) के मिलान का मूल्यांकन करता है, जबकि ROUGE-2 शब्दों के जोड़े (बिगग्राम) पर विचार करता है। इसके अतिरिक्त, ROUGE-N दो पाठों के बीच शब्दों के सबसे लंबे सामान्य अनुक्रम का आकलन करता है, जिससे शब्द क्रम में लचीलेपन की अनुमति मिलती है।

इसे स्पष्ट करने के लिए, निम्नलिखित उदाहरणों पर विचार करें:

दुष्ट-1 मीट्रिक - ROUGE-1 उत्पन्न सारांश और संदर्भ सारांश के बीच यूनीग्राम (एकल शब्द) के ओवरलैप का मूल्यांकन करता है। उदाहरण के लिए, यदि किसी संदर्भ सारांश में "तेज भूरी लोमड़ी कूदती है" और उत्पन्न सारांश "भूरी लोमड़ी तेजी से कूदती है" है, तो ROUGE-1 मीट्रिक "भूरा," "लोमड़ी," और "छलांग" को ओवरलैपिंग के रूप में मानेगा। यूनीग्राम. ROUGE-1 सारांश में अलग-अलग शब्दों की उपस्थिति पर ध्यान केंद्रित करता है, यह मापता है कि उत्पन्न सारांश संदर्भ सारांश से मुख्य शब्दों को कितनी अच्छी तरह पकड़ता है।
दुष्ट-2 मीट्रिक - ROUGE-2 एक उत्पन्न सारांश और एक संदर्भ सारांश के बीच बिग्राम (आसन्न शब्दों के जोड़े) के ओवरलैप का आकलन करता है। उदाहरण के लिए, यदि संदर्भ सारांश में "बिल्ली सो रही है" है और उत्पन्न सारांश में लिखा है "एक बिल्ली सो रही है," ROUGE-2 ओवरलैपिंग बिग्राम के रूप में "बिल्ली है" और "सो रही है" की पहचान करेगा। ROUGE-2 यह जानकारी प्रदान करता है कि संदर्भ सारांश की तुलना में उत्पन्न सारांश शब्द जोड़े के अनुक्रम और संदर्भ को कितनी अच्छी तरह बनाए रखता है।
रूज-एन मीट्रिक - रूज-एन एक सामान्यीकृत रूप है जहां एन किसी भी संख्या का प्रतिनिधित्व करता है, जो एन-ग्राम (एन शब्दों के अनुक्रम) के आधार पर मूल्यांकन की अनुमति देता है। N=3 को ध्यान में रखते हुए, यदि संदर्भ सारांश में कहा गया है कि "सूरज चमक रहा है," और उत्पन्न सारांश "सूरज चमक रहा है" है, तो ROUGE-3 एक मिलान ट्रिग्राम के रूप में "चमकदार चमकते सूरज" को पहचान लेगा। रूज-एन शब्द अनुक्रमों की विभिन्न लंबाई के आधार पर सारांश का मूल्यांकन करने के लिए लचीलापन प्रदान करता है, जो सामग्री ओवरलैप का अधिक व्यापक मूल्यांकन प्रदान करता है।

ये उदाहरण दर्शाते हैं कि कैसे ROUGE-1, ROUGE-2 और ROUGE-N मेट्रिक्स शब्द अनुक्रमों के विभिन्न स्तरों के आधार पर उत्पन्न सारांशों की संदर्भ सारांशों के साथ तुलना करके स्वचालित सारांशीकरण या मशीन अनुवाद कार्यों का मूल्यांकन करने में कार्य करते हैं।

रूज-एन स्कोर की गणना करें

रूज-एन स्कोर की गणना के लिए आप निम्नलिखित चरणों का उपयोग कर सकते हैं:

व्हाइटस्पेस या प्राकृतिक भाषा प्रसंस्करण (एनएलपी) पुस्तकालयों द्वारा विभाजन जैसी बुनियादी टोकननाइजेशन विधियों का उपयोग करके उत्पन्न सारांश और संदर्भ सारांश को अलग-अलग शब्दों या टोकन में टोकनाइज़ करें।
उत्पन्न सारांश और संदर्भ सारांश दोनों से एन-ग्राम (एन शब्दों के सन्निहित अनुक्रम) उत्पन्न करें।
उत्पन्न सारांश और संदर्भ सारांश के बीच ओवरलैपिंग एन-ग्राम की संख्या की गणना करें।
सटीकता, रिकॉल और F1 स्कोर की गणना करें:
- शुद्धता - उत्पन्न सारांश में ओवरलैपिंग एन-ग्राम की संख्या को एन-ग्राम की कुल संख्या से विभाजित किया गया है।
- वापस बुलाना - संदर्भ सारांश में ओवरलैपिंग एन-ग्राम की संख्या को एन-ग्राम की कुल संख्या से विभाजित किया गया है।
- एफ 1 का स्कोर - परिशुद्धता और रिकॉल का हार्मोनिक माध्य, (2 * परिशुद्धता * रिकॉल) / (परिशुद्धता + रिकॉल) के रूप में गणना की जाती है।
डेटासेट में प्रत्येक पंक्ति के लिए सटीकता, रिकॉल और F1 स्कोर की गणना से प्राप्त कुल F1 स्कोर को ROUGE-N स्कोर माना जाता है।

सीमाओं

दुष्ट की निम्नलिखित सीमाएँ हैं:

शाब्दिक ओवरलैप पर संकीर्ण फोकस - ROUGE के पीछे मुख्य विचार सिस्टम-जनरेटेड सारांश की तुलना संदर्भ या मानव-निर्मित सारांश के सेट से करना है, और उनके बीच शाब्दिक ओवरलैप को मापना है। इसका मतलब यह है कि ROUGE का शब्द-स्तरीय समानता पर बहुत ही सीमित ध्यान है। यह वास्तव में सारांश के अर्थ संबंधी अर्थ, सुसंगतता या पठनीयता का मूल्यांकन नहीं करता है। एक प्रणाली सुसंगत या संक्षिप्त सारांश उत्पन्न किए बिना, मूल पाठ से केवल शब्द-दर-शब्द वाक्य निकालकर उच्च रूज स्कोर प्राप्त कर सकती है।
व्याख्या के प्रति असंवेदनशीलता - क्योंकि ROUGE शाब्दिक मिलान पर निर्भर करता है, यह शब्दों और वाक्यांशों के बीच अर्थ संबंधी तुल्यता का पता नहीं लगा सकता है। इसलिए, पर्यायवाची शब्दों की व्याख्या और उपयोग अक्सर रूज स्कोर को कम कर देगा, भले ही अर्थ संरक्षित हो। यह उन प्रणालियों को नुकसान पहुँचाता है जो अमूर्त तरीके से व्याख्या या सारांश प्रस्तुत करती हैं।
अर्थ संबंधी समझ का अभाव - ROUGE यह मूल्यांकन नहीं करता है कि सिस्टम ने मूल पाठ के अर्थों और अवधारणाओं को वास्तव में समझा है या नहीं। एक सारांश संदर्भों के साथ उच्च शाब्दिक ओवरलैप प्राप्त कर सकता है, जबकि मुख्य विचारों को गायब कर सकता है या तथ्यात्मक विसंगतियों को शामिल कर सकता है। ROUGE इन मुद्दों की पहचान नहीं करेगा।

रूज का उपयोग कब करें

ROUGE गणना करने में सरल और तेज़ है। सामग्री चयन से संबंधित सारांश गुणवत्ता के लिए इसे आधार रेखा या बेंचमार्क के रूप में उपयोग करें। रूज मेट्रिक्स को अमूर्त सारांश कार्यों, स्वचालित सारांश मूल्यांकन, एलएलएम के आकलन और विभिन्न सारांश दृष्टिकोणों के तुलनात्मक विश्लेषण से जुड़े परिदृश्यों में सबसे प्रभावी ढंग से नियोजित किया जाता है। इन संदर्भों में ROUGE मेट्रिक्स का उपयोग करके, हितधारक सारांश पीढ़ी प्रक्रियाओं की गुणवत्ता और प्रभावशीलता का मात्रात्मक मूल्यांकन कर सकते हैं।

स्पष्ट आदेश के साथ अनुवाद के मूल्यांकन के लिए मीट्रिक (METEOR)

संक्षेपण प्रणालियों के मूल्यांकन में प्रमुख चुनौतियों में से एक यह आकलन करना है कि स्रोत पाठ से केवल प्रासंगिक शब्दों और वाक्यांशों का चयन करने के बजाय उत्पन्न सारांश तार्किक रूप से कितनी अच्छी तरह प्रवाहित होता है। केवल प्रासंगिक कीवर्ड और वाक्यों को निकालने से एक सुसंगत और सामंजस्यपूर्ण सारांश तैयार नहीं होता है। सारांश सुचारू रूप से प्रवाहित होना चाहिए और विचारों को तार्किक रूप से जोड़ना चाहिए, भले ही वे मूल दस्तावेज़ के समान क्रम में प्रस्तुत न किए गए हों।

शब्दों को उनके मूल या आधार रूप में छोटा करके मिलान की लचीलापन (उदाहरण के लिए, स्टेमिंग के बाद, "रनिंग," "रन" और "रन" जैसे शब्द सभी "रन" बन जाते हैं) और समानार्थी शब्द का अर्थ है उल्का सारांश गुणवत्ता के मानवीय निर्णयों के साथ बेहतर संबंध रखता है। यह पहचान सकता है कि महत्वपूर्ण सामग्री संरक्षित है या नहीं, भले ही शब्दांकन भिन्न हो। यह ROUGE जैसे एन-ग्राम आधारित मेट्रिक्स पर एक महत्वपूर्ण लाभ है, जो केवल सटीक टोकन मिलान की तलाश करता है। METEOR उन सारांशों को भी उच्च अंक देता है जो संदर्भ से सबसे प्रमुख सामग्री पर ध्यान केंद्रित करते हैं। दोहराई जाने वाली या अप्रासंगिक जानकारी को कम अंक दिए जाते हैं। यह केवल सबसे महत्वपूर्ण सामग्री को बनाए रखने के सारांशीकरण के लक्ष्य के साथ अच्छी तरह से संरेखित है। METEOR एक अर्थपूर्ण रूप से सार्थक मीट्रिक है जो पाठ सारांश के मूल्यांकन के लिए एन-ग्राम मिलान की कुछ सीमाओं को पार कर सकता है। स्टेमिंग और पर्यायवाची शब्दों का समावेश सूचना ओवरलैप और सामग्री सटीकता के बेहतर मूल्यांकन की अनुमति देता है।

इसे स्पष्ट करने के लिए, निम्नलिखित उदाहरणों पर विचार करें:

संदर्भ सारांश: पतझड़ के दौरान पत्तियाँ झड़ जाती हैं।

उत्पन्न सारांश 1: पतझड़ में पत्तियाँ झड़ जाती हैं।

उत्पन्न सारांश 2: ग्रीष्म ऋतु में पत्तियाँ हरी हो जाती हैं।

संदर्भ और उत्पन्न सारांश 1 के बीच मेल खाने वाले शब्दों को हाइलाइट किया गया है:

संदर्भ सारांश: पत्ते पड़ना शरद ऋतु के दौरान.

उत्पन्न सारांश 1: पत्ते झांकना पड़ना.

भले ही "पतन" और "शरद ऋतु" अलग-अलग टोकन हैं, METEOR अपने पर्यायवाची मिलान के माध्यम से उन्हें समानार्थी शब्द के रूप में पहचानता है। "गिरना" और "गिरना" को एक तने हुए मेल के रूप में पहचाना जाता है। जेनरेट किए गए सारांश 2 के लिए, "पत्तियों" के अलावा संदर्भ सारांश के साथ कोई मिलान नहीं है, इसलिए इस सारांश को बहुत कम METEOR स्कोर प्राप्त होगा। शब्दार्थ की दृष्टि से जितने अधिक सार्थक मिलान होंगे, METEOR स्कोर उतना ही अधिक होगा। यह साधारण एन-ग्राम मिलान की तुलना में METEOR को सारांश की सामग्री और सटीकता का बेहतर मूल्यांकन करने की अनुमति देता है।

METEOR स्कोर की गणना करें

METEOR स्कोर की गणना करने के लिए निम्नलिखित चरणों को पूरा करें:

व्हाइटस्पेस या एनएलपी लाइब्रेरी द्वारा विभाजन जैसी बुनियादी टोकननाइजेशन विधियों का उपयोग करके उत्पन्न सारांश और संदर्भ सारांश को अलग-अलग शब्दों या टोकन में टोकनाइज़ करें।
यूनीग्राम परिशुद्धता, रिकॉल और एफ-मीन स्कोर की गणना करें, परिशुद्धता की तुलना में रिकॉल को अधिक महत्व दें।
सटीक मिलानों पर अधिक ज़ोर देने से बचने के लिए जुर्माना लगाएं। दंड का चयन डेटासेट विशेषताओं, कार्य आवश्यकताओं और सटीकता और रिकॉल के बीच संतुलन के आधार पर किया जाता है। चरण 2 में गणना किए गए एफ-मीन स्कोर से इस दंड को घटाएं।
स्टेम किए गए रूपों के लिए एफ-मीन स्कोर की गणना करें (शब्दों को उनके आधार या मूल रूप में कम करना) और जहां लागू हो, यूनिग्राम के लिए समानार्थक शब्द। अंतिम METEOR स्कोर प्राप्त करने के लिए इसे पहले परिकलित F-मीन स्कोर के साथ जोड़ें। METEOR स्कोर 0-1 के बीच होता है, जहां 0 उत्पन्न सारांश और संदर्भ सारांश के बीच कोई समानता नहीं दर्शाता है, और 1 सही संरेखण को इंगित करता है। आमतौर पर, सारांश स्कोर 0-0.6 के बीच आते हैं।

सीमाओं

सारांश कार्यों के मूल्यांकन के लिए METEOR मीट्रिक को नियोजित करते समय, कई चुनौतियाँ उत्पन्न हो सकती हैं:

शब्दार्थ जटिलता - शब्दार्थ समानता पर METEOR का जोर जटिल सारांश कार्यों में सूक्ष्म अर्थों और संदर्भ को पकड़ने के लिए संघर्ष कर सकता है, जिससे संभावित रूप से मूल्यांकन में अशुद्धियाँ हो सकती हैं।
संदर्भ परिवर्तनशीलता - मानव-जनित संदर्भ सारांशों में परिवर्तनशीलता METEOR स्कोर को प्रभावित कर सकती है, क्योंकि संदर्भ सामग्री में अंतर मशीन-जनित सारांशों के मूल्यांकन को प्रभावित कर सकता है।
भाषिक विभिन्नता - METEOR की प्रभावशीलता भाषाई विविधताओं, वाक्यविन्यास अंतर और अर्थ संबंधी बारीकियों के कारण विभिन्न भाषाओं में भिन्न हो सकती है, जिससे बहुभाषी सारांश मूल्यांकन में चुनौतियाँ पैदा होती हैं।
लंबाई की विसंगति - अलग-अलग लंबाई के सारांश का मूल्यांकन करना METEOR के लिए चुनौतीपूर्ण हो सकता है, क्योंकि संदर्भ सारांश की तुलना में लंबाई में विसंगतियों के परिणामस्वरूप दंड या मूल्यांकन में अशुद्धियाँ हो सकती हैं।
पैरामीटर ट्यूनिंग - विभिन्न डेटासेट और सारांश कार्यों के लिए METEOR के मापदंडों को अनुकूलित करना समय लेने वाला हो सकता है और यह सुनिश्चित करने के लिए सावधानीपूर्वक ट्यूनिंग की आवश्यकता होती है कि मीट्रिक सटीक मूल्यांकन प्रदान करता है।
मूल्यांकन पूर्वाग्रह - यदि विशिष्ट सारांश डोमेन या कार्यों के लिए ठीक से समायोजित या कैलिब्रेट नहीं किया गया तो METEOR के साथ मूल्यांकन पूर्वाग्रह का खतरा है। इससे संभावित रूप से विषम परिणाम आ सकते हैं और मूल्यांकन प्रक्रिया की विश्वसनीयता प्रभावित हो सकती है।

इन चुनौतियों से अवगत होकर और संक्षेपण कार्यों के लिए एक मीट्रिक के रूप में METEOR का उपयोग करते समय उन पर विचार करके, शोधकर्ता और व्यवसायी संभावित सीमाओं को पार कर सकते हैं और अपनी मूल्यांकन प्रक्रियाओं में अधिक सूचित निर्णय ले सकते हैं।

METEOR का उपयोग कब करें

METEOR का उपयोग आमतौर पर पाठ सारांश की गुणवत्ता का स्वचालित रूप से मूल्यांकन करने के लिए किया जाता है। जब सारांश में विचारों, अवधारणाओं या संस्थाओं का क्रम मायने रखता है तो मूल्यांकन मीट्रिक के रूप में METEOR का उपयोग करना बेहतर होता है। METEOR क्रम पर विचार करता है और उत्पन्न सारांश और संदर्भ सारांश के बीच n-ग्राम का मिलान करता है। यह उन सारांशों को पुरस्कृत करता है जो अनुक्रमिक जानकारी को संरक्षित करते हैं। ROUGE जैसे मेट्रिक्स के विपरीत, जो संदर्भ सारांश के साथ एन-ग्राम के ओवरलैप पर निर्भर करता है, METEOR तने, समानार्थक शब्द और पैराफ्रेश से मेल खाता है। METEOR तब बेहतर काम करता है जब मूल पाठ को सारांशित करने के कई सही तरीके हो सकते हैं। एन-ग्राम का मिलान करते समय METEOR वर्डनेट पर्यायवाची और स्टेमड टोकन को शामिल करता है। संक्षेप में, ऐसे सारांश जो शब्दार्थ की दृष्टि से समान हैं लेकिन अलग-अलग शब्दों या वाक्यांशों का उपयोग करते हैं, फिर भी अच्छा स्कोर करेंगे। METEOR में दोहराव वाले एन-ग्राम वाले सारांश के लिए एक अंतर्निहित जुर्माना है। इसलिए, यह शब्द-दर-शब्द निष्कर्षण या अमूर्तता की कमी को हतोत्साहित करता है। जब सारांश गुणवत्ता को परखने के लिए शब्दार्थ समानता, विचारों का क्रम और धाराप्रवाह वाक्यांशीकरण महत्वपूर्ण हो तो METEOR एक अच्छा विकल्प है। यह उन कार्यों के लिए कम उपयुक्त है जहां केवल संदर्भ सारांश के साथ शाब्दिक ओवरलैप मायने रखता है।

बर्टस्कोर

ROUGE और METEOR जैसे सतह-स्तरीय शाब्दिक उपाय उम्मीदवार सारांश और संदर्भ सारांश के बीच शब्द ओवरलैप की तुलना करके सारांश प्रणालियों का मूल्यांकन करते हैं। हालाँकि, वे शब्दों और वाक्यांशों के बीच सटीक स्ट्रिंग मिलान पर बहुत अधिक भरोसा करते हैं। इसका मतलब यह है कि वे उन शब्दों और वाक्यांशों के बीच अर्थ संबंधी समानता को भूल सकते हैं जिनके सतही रूप अलग-अलग हैं लेकिन अंतर्निहित अर्थ समान हैं। केवल सतही मिलान पर भरोसा करके, ये मेट्रिक्स सिस्टम सारांशों की गुणवत्ता को कम आंक सकते हैं जो संदर्भ सारांशों से भिन्न पर्यायवाची शब्दों या पैराफ़्रेज़ अवधारणाओं का उपयोग करते हैं। दो सारांश लगभग समान जानकारी दे सकते हैं लेकिन शब्दावली अंतर के कारण कम सतह-स्तर के स्कोर प्राप्त करते हैं।

बर्टस्कोर यह किसी मानव द्वारा लिखे गए संदर्भ सारांश से तुलना करके स्वचालित रूप से मूल्यांकन करने का एक तरीका है कि सारांश कितना अच्छा है। यह उम्मीदवार सारांश और संदर्भ सारांश में शब्दों के अर्थ और संदर्भ को समझने के लिए BERT, एक लोकप्रिय एनएलपी तकनीक का उपयोग करता है। विशेष रूप से, यह उम्मीदवार सारांश में प्रत्येक शब्द या टोकन को देखता है और बीईआरटी एम्बेडिंग के आधार पर संदर्भ सारांश में सबसे समान शब्द ढूंढता है, जो प्रत्येक शब्द के अर्थ और संदर्भ के वेक्टर प्रतिनिधित्व हैं। यह कोसाइन समानता का उपयोग करके समानता को मापता है, जो बताता है कि वैक्टर एक दूसरे के कितने करीब हैं। उम्मीदवार सारांश में प्रत्येक शब्द के लिए, यह BERT की भाषा की समझ का उपयोग करके संदर्भ सारांश में सबसे अधिक संबंधित शब्द ढूंढता है। यह समग्र स्कोर प्राप्त करने के लिए संपूर्ण सारांश में इन सभी शब्द समानताओं की तुलना करता है कि उम्मीदवार सारांश संदर्भ सारांश के साथ शब्दार्थ रूप से कितना समान है। BERT द्वारा कैप्चर किए गए शब्द और अर्थ जितने अधिक समान होंगे, BERTSस्कोर उतना ही अधिक होगा। यह इसे हर बार मानव मूल्यांकन की आवश्यकता के बिना मानव संदर्भ से तुलना करके उत्पन्न सारांश की गुणवत्ता का स्वचालित रूप से मूल्यांकन करने की अनुमति देता है।

इसे स्पष्ट करने के लिए, कल्पना करें कि आपके पास एक मशीन-जनित सारांश है: "त्वरित भूरी लोमड़ी आलसी कुत्ते के ऊपर से छलांग लगाती है।" अब, आइए मानव-निर्मित संदर्भ सारांश पर विचार करें: "एक तेज़ भूरी लोमड़ी सोते हुए कुत्ते के ऊपर से छलांग लगाती है।"

बर्टस्कोर की गणना करें

BERTScore की गणना करने के लिए निम्नलिखित चरणों को पूरा करें:

BERTScore उम्मीदवार (मशीन-जनरेटेड) और संदर्भ (मानव-निर्मित) वाक्य दोनों में प्रत्येक टोकन का प्रतिनिधित्व करने के लिए प्रासंगिक एम्बेडिंग का उपयोग करता है। प्रासंगिक एम्बेडिंग एनएलपी में एक प्रकार का शब्द प्रतिनिधित्व है जो एक वाक्य या पाठ के भीतर उसके संदर्भ के आधार पर किसी शब्द के अर्थ को पकड़ता है। पारंपरिक शब्द एम्बेडिंग के विपरीत, जो प्रत्येक शब्द को उसके संदर्भ की परवाह किए बिना एक निश्चित वेक्टर प्रदान करता है, प्रासंगिक एम्बेडिंग प्रत्येक शब्द के लिए एक अद्वितीय प्रतिनिधित्व उत्पन्न करने के लिए आसपास के शब्दों पर विचार करता है, जो इस बात पर निर्भर करता है कि किसी विशिष्ट वाक्य में इसका उपयोग कैसे किया जाता है।
फिर मीट्रिक कोसाइन समानता का उपयोग करके संदर्भ वाक्य में प्रत्येक टोकन के साथ उम्मीदवार वाक्य में प्रत्येक टोकन के बीच समानता की गणना करता है। कोसाइन समानता हमें यह मापने में मदद करती है कि डेटा के दो सेट एक बहु-आयामी स्थान में इंगित दिशा पर ध्यान केंद्रित करके कितने निकट से संबंधित हैं, जिससे यह खोज एल्गोरिदम, एनएलपी और अनुशंसा प्रणाली जैसे कार्यों के लिए एक मूल्यवान उपकरण बन जाता है।
सभी टोकन के लिए प्रासंगिक एम्बेडिंग और समानता स्कोर की गणना करके, BERTScore एक व्यापक मूल्यांकन उत्पन्न करता है जो मानव-निर्मित संदर्भ की तुलना में उत्पन्न सारांश की अर्थ संबंधी प्रासंगिकता और संदर्भ को पकड़ता है।
अंतिम BERTScore आउटपुट एक समानता स्कोर प्रदान करता है जो दर्शाता है कि मशीन-जनरेटेड सारांश अर्थ और संदर्भ के संदर्भ में संदर्भ सारांश के साथ कितनी अच्छी तरह संरेखित है।

संक्षेप में, BERTScore वाक्यों की अर्थ संबंधी बारीकियों और संदर्भ पर विचार करके पारंपरिक मेट्रिक्स से आगे निकल जाता है, और अधिक परिष्कृत मूल्यांकन की पेशकश करता है जो मानवीय निर्णय को बारीकी से दर्शाता है। यह उन्नत दृष्टिकोण सारांश कार्यों के मूल्यांकन की सटीकता और विश्वसनीयता को बढ़ाता है, जिससे BERTScore पाठ निर्माण प्रणालियों का आकलन करने में एक मूल्यवान उपकरण बन जाता है।

सीमाएं:

हालाँकि BERTScore सारांश कार्यों के मूल्यांकन में महत्वपूर्ण लाभ प्रदान करता है, यह कुछ सीमाओं के साथ भी आता है जिन पर विचार करने की आवश्यकता है:

कम्प्यूटेशनल तीव्रता - BERT जैसे पूर्व-प्रशिक्षित भाषा मॉडल पर निर्भरता के कारण BERTScore कम्प्यूटेशनल रूप से गहन हो सकता है। इससे मूल्यांकन में अधिक समय लग सकता है, विशेषकर बड़ी मात्रा में टेक्स्ट डेटा संसाधित करते समय।
पूर्व-प्रशिक्षित मॉडलों पर निर्भरता - BERTScore की प्रभावशीलता उपयोग किए गए पूर्व-प्रशिक्षित भाषा मॉडल की गुणवत्ता और प्रासंगिकता पर अत्यधिक निर्भर है। ऐसे परिदृश्यों में जहां पूर्व-प्रशिक्षित मॉडल पाठ की बारीकियों को पर्याप्त रूप से नहीं पकड़ सकता है, मूल्यांकन परिणाम प्रभावित हो सकते हैं।
अनुमापकता - बड़े डेटासेट या वास्तविक समय अनुप्रयोगों के लिए BERTScore को स्केल करना इसकी कम्प्यूटेशनल मांगों के कारण चुनौतीपूर्ण हो सकता है। उत्पादन परिवेश में BERTScore को लागू करने के लिए कुशल प्रदर्शन प्रदान करने के लिए अनुकूलन रणनीतियों की आवश्यकता हो सकती है।
डोमेन विशिष्टता - BERTScore का प्रदर्शन विभिन्न डोमेन या विशेष पाठ प्रकारों में भिन्न हो सकता है। विशिष्ट डोमेन या कार्यों के लिए मीट्रिक को अनुकूलित करने के लिए सटीक मूल्यांकन उत्पन्न करने के लिए फाइन-ट्यूनिंग या समायोजन की आवश्यकता हो सकती है।
विवेचनीयता - हालांकि BERTScore प्रासंगिक एम्बेडिंग के आधार पर एक व्यापक मूल्यांकन प्रदान करता है, प्रत्येक टोकन के लिए उत्पन्न समानता स्कोर के पीछे विशिष्ट कारणों की व्याख्या करना जटिल हो सकता है और अतिरिक्त विश्लेषण की आवश्यकता हो सकती है।
संदर्भ-मुक्त मूल्यांकन - हालांकि BERTScore मूल्यांकन के लिए संदर्भ सारांशों पर निर्भरता को कम करता है, यह संदर्भ-मुक्त दृष्टिकोण संक्षेपण गुणवत्ता के सभी पहलुओं को पूरी तरह से पकड़ नहीं सकता है, खासकर उन परिदृश्यों में जहां सामग्री प्रासंगिकता और सुसंगतता का आकलन करने के लिए मानव-निर्मित संदर्भ आवश्यक हैं।

इन सीमाओं को स्वीकार करने से आपको सारांश कार्यों के मूल्यांकन के लिए एक मीट्रिक के रूप में BERTScore का उपयोग करते समय सूचित निर्णय लेने में मदद मिल सकती है, जो इसकी ताकत और बाधाओं की संतुलित समझ प्रदान करता है।

BERTScore का उपयोग कब करें

BERTScore उत्पन्न सारांश की संदर्भ सारांश से तुलना करके पाठ सारांश की गुणवत्ता का मूल्यांकन कर सकता है। यह सटीक शब्द या वाक्यांश मिलान से परे अर्थ संबंधी समानता को मापने के लिए BERT जैसे तंत्रिका नेटवर्क का उपयोग करता है। यह BERTScore को बहुत उपयोगी बनाता है जब आपके सारांश कार्य के लिए पूर्ण अर्थ और सामग्री को संरक्षित करने वाली सिमेंटिक निष्ठा महत्वपूर्ण होती है। BERTScore उन सारांशों को उच्च अंक देगा जो संदर्भ सारांश के समान जानकारी देते हैं, भले ही वे अलग-अलग शब्दों और वाक्य संरचनाओं का उपयोग करते हों। लब्बोलुआब यह है कि BERTScore संक्षेपण कार्यों के लिए आदर्श है जहां केवल कीवर्ड या विषय ही नहीं बल्कि पूर्ण अर्थ अर्थ को बनाए रखना महत्वपूर्ण है। इसकी उन्नत तंत्रिका स्कोरिंग इसे सतह-स्तरीय शब्द मिलान से परे अर्थ की तुलना करने की अनुमति देती है। यह इसे उन मामलों के लिए उपयुक्त बनाता है जहां शब्दों में सूक्ष्म अंतर समग्र अर्थ और निहितार्थ को काफी हद तक बदल सकता है। BERTScore, विशेष रूप से, सिमेंटिक समानता को पकड़ने में उत्कृष्टता प्राप्त करता है, जो रिट्रीवल ऑगमेंटेड जेनरेशन (RAG) मॉडल द्वारा उत्पादित अमूर्त सारांशों की गुणवत्ता का आकलन करने के लिए महत्वपूर्ण है।

मॉडल मूल्यांकन ढाँचे

विभिन्न सारांश मॉडलों के प्रदर्शन का सटीक आकलन करने के लिए मॉडल मूल्यांकन ढाँचे आवश्यक हैं। ये ढाँचे मॉडलों की तुलना करने, उत्पन्न सारांश और स्रोत सामग्री के बीच सामंजस्य प्रदान करने और मूल्यांकन विधियों में कमियों को इंगित करने में सहायक हैं। गहन मूल्यांकन और लगातार बेंचमार्किंग करके, ये रूपरेखाएँ मानकीकृत मूल्यांकन प्रथाओं की वकालत करके और बहुआयामी मॉडल तुलनाओं को सक्षम करके पाठ सारांश अनुसंधान को आगे बढ़ाती हैं।

AWS में, एफएमईवल लाइब्रेरी अंदर अमेज़न SageMaker स्पष्ट करें पाठ सारांशीकरण, प्रश्न उत्तर और वर्गीकरण जैसे कार्यों के लिए आधार मॉडल (एफएम) के मूल्यांकन और चयन को सुव्यवस्थित करता है। यह आपको एलएलएम के लिए स्वचालित और मानव-इन-द-लूप मूल्यांकन दोनों का समर्थन करते हुए सटीकता, मजबूती, रचनात्मकता, पूर्वाग्रह और विषाक्तता जैसे मैट्रिक्स के आधार पर एफएम का मूल्यांकन करने का अधिकार देता है। यूआई-आधारित या प्रोग्रामेटिक मूल्यांकन के साथ, एफएमईवल अशुद्धि, विषाक्तता या पूर्वाग्रह जैसे मॉडल जोखिमों को मापने के लिए विज़ुअलाइज़ेशन के साथ विस्तृत रिपोर्ट तैयार करता है, जिससे संगठनों को उनके जिम्मेदार जेनरेटिव एआई दिशानिर्देशों के साथ संरेखित करने में मदद मिलती है। इस अनुभाग में, हम प्रदर्शित करते हैं कि FMEval लाइब्रेरी का उपयोग कैसे करें।

अमेज़ॅन बेडरॉक का उपयोग करके सारांश सटीकता पर क्लाउड v2 का मूल्यांकन करें

निम्नलिखित कोड स्निपेट इस बात का उदाहरण है कि पायथन कोड का उपयोग करके एंथ्रोपिक क्लाउड मॉडल के साथ कैसे इंटरैक्ट किया जाए:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

सरल शब्दों में, यह कोड निम्नलिखित क्रियाएं करता है:

सहित आवश्यक पुस्तकालयों को आयात करें json, JSON डेटा के साथ काम करने के लिए।
मॉडल आईडी को इस प्रकार परिभाषित करें anthropic.claude-v2 और अनुरोध के लिए सामग्री प्रकार सेट करें।
बनाओ prompt_data वेरिएबल जो क्लाउड मॉडल के लिए इनपुट डेटा को संरचित करता है। इस मामले में, यह प्रश्न पूछता है "बराक ओबामा कौन हैं?" और मॉडल से प्रतिक्रिया की अपेक्षा करता है।
बॉडी नामक JSON ऑब्जेक्ट का निर्माण करें जिसमें प्रॉम्प्ट डेटा शामिल हो, और उत्पन्न करने के लिए टोकन की अधिकतम संख्या जैसे अतिरिक्त पैरामीटर निर्दिष्ट करें।
का उपयोग करके क्लाउड मॉडल का आह्वान करें bedrock_runtime.invoke_model परिभाषित मापदंडों के साथ.
मॉडल से प्रतिक्रिया को पार्स करें, पूर्णता (उत्पन्न पाठ) निकालें, और उसका प्रिंट आउट लें।

सुनिश्चित करें AWS पहचान और अभिगम प्रबंधन (IAM) से जुड़ी भूमिका अमेज़ॅन सैजमेकर स्टूडियो उपयोगकर्ता प्रोफ़ाइल तक पहुंच है अमेज़ॅन बेडरॉक मॉडलों का आह्वान किया जा रहा है। को देखें अमेज़ॅन बेडरॉक के लिए पहचान-आधारित नीति उदाहरण अमेज़ॅन बेडरॉक के लिए सर्वोत्तम प्रथाओं और पहचान-आधारित नीतियों के उदाहरणों पर मार्गदर्शन के लिए।

क्लाउड से सारांशित आउटपुट का मूल्यांकन करने के लिए FMEval लाइब्रेरी का उपयोग करना

सारांशित आउटपुट का मूल्यांकन करने के लिए हम निम्नलिखित कोड का उपयोग करते हैं:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

पिछले कोड स्निपेट में, FMEval लाइब्रेरी का उपयोग करके पाठ सारांश का मूल्यांकन करने के लिए, हम निम्नलिखित चरणों को पूरा करते हैं:

बनाओ ModelRunner अपने एलएलएम पर मंगलाचरण करने के लिए। FMEval लाइब्रेरी इसके लिए अंतर्निहित समर्थन प्रदान करती है अमेज़न SageMaker समापन बिंदु और अमेज़न SageMaker जम्पस्टार्ट एलएलएम। आप इसे बढ़ा भी सकते हैं ModelRunner कहीं भी होस्ट किए गए किसी भी एलएलएम के लिए इंटरफ़ेस।
समर्थित उपयोग करें eval_algorithms जैसे आपकी मूल्यांकन आवश्यकताओं के आधार पर विषाक्तता, सारांश, सटीकता, अर्थ और मजबूती।
अपने विशिष्ट उपयोग के मामले के लिए मूल्यांकन कॉन्फ़िगरेशन मापदंडों को अनुकूलित करें।
अपने एलएलएम मॉडल का मूल्यांकन करने के लिए अंतर्निहित या कस्टम डेटासेट के साथ मूल्यांकन एल्गोरिदम का उपयोग करें। इस मामले में प्रयुक्त डेटासेट निम्नलिखित से प्राप्त किया गया है गीथहब रेपो.

को देखें डेवलपर गाइड और उदाहरण मूल्यांकन एल्गोरिदम के विस्तृत उपयोग के लिए।

निम्न तालिका मूल्यांकन के परिणामों का सारांश प्रस्तुत करती है।

मॉडल _इनपुट	मॉडल_आउटपुट	लक्ष्य_आउटपुट	शीघ्र	स्कोर	उल्का_स्कोर	रूज_स्कोर	bert_score
जॉन एडवर्ड 0 बेट्स, पूर्व में स्पाल्डिंग, लिंको...	मैं कोई निश्चित नहीं कर सकता निर्णय, जैसा कि…	एक पूर्व लिंकनशायर पुलिस अधिकारी को ले जाया गया...	मानव: जॉन एडवर्ड बेट्स, पूर्व में स्पाल्डिंग के...	[{'नाम': 'उल्का', 'मान': 0.101010101010101 ...	0.10101	0	0.557155
23 अक्टूबर 2015 अंतिम बार अपडेट किया गया 17:44 BST\|nIt'...	यहां तूफान/ट्रॉप के बारे में कुछ मुख्य बिंदु दिए गए हैं..	तूफान पेट्रीसिया को एक श्रेणी के रूप में दर्जा दिया गया है...	मानव: 23 अक्टूबर 2015 अंतिम बार 17:44 बजे अपडेट किया गया बी ...	[{'नाम': उल्का', "मान': 0.102339181286549 ..	0.102339	0.018265	0.441421
फेरारी संयुक्त राष्ट्र को चुनौती देने की स्थिति में दिखाई दी...	यहां लेख के मुख्य बिंदु दिए गए हैं: नौ...	लुईस हैमिल्टन पोल पोजीशन पर पहुंच गए...	मानव: फेरारी चुनौती देने की स्थिति में दिखाई दी...	[{'नाम': 'उल्का', 'मान': 0.322543352601156 ...	0.322543	0.078212	0.606487
बाथ में जन्मे 28 वर्षीय खिलाड़ी ने 36 रन बनाए हैं प्रकटन…	ठीक है, मुझे मुख्य बिंदुओं को संक्षेप में बताने दीजिए:/निन-ई...	न्यूपोर्ट ग्वेंट ड्रैगन्स नंबर आठ एड जैक्सन	मानव: 28 वर्षीय बाथ-जन्मे खिलाड़ी ने 36 रन बनाए हैं...	[{'नाम': 'उल्का', 'मान': 0105740181268882 ...	0.10574	0.012987	0.539488
जिस तरह से चूहों ने सी के साथ डेटा की अदला-बदली की उसमें कमजोरियाँ…	यहां वे मुख्य बिंदु हैं जो मैंने एकत्र किए हैं…	हैकर्स घर तक पहुंच प्राप्त कर सकते हैं और	मानव: में कमजोरियाँ स्वार चूहों ने डेटा की अदला-बदली की	[{'नाम': 'उल्का', 'मान': 0.201048289433848 ...	0.201048	0.021858	0.526947

नमूना जांचें नोटबुक सारांश मूल्यांकन के बारे में अधिक जानकारी के लिए जिस पर हमने इस पोस्ट में चर्चा की है।

निष्कर्ष

ROUGE, METEOR, और BERTScore सभी मशीन-जनित सारांशों की गुणवत्ता को मापते हैं, लेकिन शाब्दिक ओवरलैप, प्रवाह, या अर्थ संबंधी समानता जैसे विभिन्न पहलुओं पर ध्यान केंद्रित करते हैं। उस मीट्रिक का चयन करना सुनिश्चित करें जो आपके विशिष्ट सारांश उपयोग के मामले के लिए "अच्छा" परिभाषित करता है। आप मेट्रिक्स के संयोजन का भी उपयोग कर सकते हैं. यह अधिक सर्वांगीण मूल्यांकन प्रदान करता है और किसी भी व्यक्तिगत मीट्रिक की संभावित कमजोरियों से बचाता है। सही माप के साथ, आप सटीकता की जो भी धारणा सबसे अधिक मायने रखती है, उसे पूरा करने के लिए अपने सारांश में पुनरावृत्तीय रूप से सुधार कर सकते हैं।

इसके अतिरिक्त, इन मॉडलों को बड़े पैमाने पर उत्पादित करने में सक्षम होने के लिए एफएम और एलएलएम मूल्यांकन आवश्यक है। FMEval के साथ, आपको कई एनएलपी कार्यों में अंतर्निहित एल्गोरिदम का एक विशाल सेट मिलता है, लेकिन आपके अपने मॉडल, डेटासेट और एल्गोरिदम के बड़े पैमाने पर मूल्यांकन के लिए एक स्केलेबल और लचीला टूल भी मिलता है। बड़े पैमाने पर करने के लिए, आप इस पैकेज का उपयोग अपनी एलएलएमओपीएस पाइपलाइनों में कर सकते हैं एकाधिक मॉडलों का मूल्यांकन करें. AWS में FMEval के बारे में और इसे प्रभावी ढंग से उपयोग करने के तरीके के बारे में अधिक जानने के लिए, देखें बड़े भाषा मॉडल का मूल्यांकन करने के लिए SageMaker Clarify का उपयोग करें. एफएम के मूल्यांकन में सेजमेकर क्लेरिफाई की क्षमताओं के बारे में अधिक समझ और अंतर्दृष्टि के लिए, देखें Amazon SageMaker Clarify फाउंडेशन मॉडल का मूल्यांकन और चयन करना आसान बनाता है.

लेखक के बारे में

दिनेश कुमार सुब्रमणि एडिनबर्ग, स्कॉटलैंड में स्थित एक वरिष्ठ समाधान वास्तुकार हैं। वह कृत्रिम बुद्धिमत्ता और मशीन लर्निंग में माहिर हैं, और अमेज़ॅन में तकनीकी क्षेत्र समुदाय के सदस्य हैं। दिनेश AWS सेवाओं का उपयोग करके उनकी समस्याओं को हल करने के लिए यूके केंद्र सरकार के ग्राहकों के साथ मिलकर काम करते हैं। काम के अलावा, दिनेश को अपने परिवार के साथ गुणवत्तापूर्ण समय बिताना, शतरंज खेलना और विविध प्रकार के संगीत की खोज करना पसंद है।

प्रणव शर्मा पूरे यूरोप, मध्य पूर्व और अफ्रीका में प्रौद्योगिकी और व्यापार परिवर्तन की पहल करने वाला AWS नेता है। उनके पास उत्पादन में कृत्रिम बुद्धिमत्ता प्लेटफार्मों को डिजाइन करने और चलाने का अनुभव है जो लाखों ग्राहकों का समर्थन करते हैं और व्यावसायिक परिणाम प्रदान करते हैं। उन्होंने वैश्विक वित्तीय सेवा संगठनों के लिए प्रौद्योगिकी और लोगों के नेतृत्व की भूमिकाएँ निभाई हैं। काम के अलावा, उन्हें पढ़ना, अपने बेटे के साथ टेनिस खेलना और फिल्में देखना पसंद है।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/machine-learning/evaluate-the-text-summarization-capabilities-of-llms-for-enhanced-decision-making-on-aws/

जनरेटिव डेटा इंटेलिजेंस

AWS पर बेहतर निर्णय लेने के लिए एलएलएम की पाठ सारांश क्षमताओं का मूल्यांकन करें | अमेज़न वेब सेवाएँ

संक्षेपण के प्रकार

चुनौती

गिस्टिंग मूल्यांकन के लिए रिकॉल-ओरिएंटेड अंडरस्टडी (रूज)

रूज-एन स्कोर की गणना करें

सीमाओं

रूज का उपयोग कब करें

स्पष्ट आदेश के साथ अनुवाद के मूल्यांकन के लिए मीट्रिक (METEOR)

METEOR स्कोर की गणना करें

सीमाओं

METEOR का उपयोग कब करें

बर्टस्कोर

बर्टस्कोर की गणना करें

सीमाएं:

BERTScore का उपयोग कब करें

मॉडल मूल्यांकन ढाँचे

अमेज़ॅन बेडरॉक का उपयोग करके सारांश सटीकता पर क्लाउड v2 का मूल्यांकन करें

क्लाउड से सारांशित आउटपुट का मूल्यांकन करने के लिए FMEval लाइब्रेरी का उपयोग करना

निष्कर्ष

लेखक के बारे में

अमेरिकी डॉलर के चढ़ने से येन की रैली फीकी पड़ गई - मार्केटपल्स

नवीनतम खुफिया

यही कारण है कि यह क्रिप्टो विश्लेषक मानता है कि बिटकॉइन 'प्राइम बाय ज़ोन' में है

अधिक पढ़ें

अपने विदेशी मुद्रा ब्रोकर को चुनने की कला में महारत हासिल करना: एक व्यापक मार्गदर्शिका

एथेरियम (ईटीएच) व्हेल ने ईटीएच बर्न रेट के वार्षिक निचले स्तर पर पहुंचने के कारण अपनी होल्डिंग्स को बेच दिया

व्यवसायों को तेज़ भुगतान की सुविधा प्रदान करने के लिए वीज़ा और जेपी मॉर्गन ने साझेदारी की

हमारे साथ चैट करें