AWS پر بہتر فیصلہ سازی کے لیے LLMs کی متنی خلاصہ کی صلاحیتوں کا اندازہ کریں | ایمیزون ویب سروسز

تمام صنعتوں کی تنظیمیں معلومات کی وسیع مقدار کو زیادہ مؤثر طریقے سے سنبھالنے اور بہتر فیصلے کرنے کے لیے خودکار متن کا خلاصہ استعمال کر رہی ہیں۔ مالیاتی شعبے میں، سرمایہ کاری کے بینک سہ ماہی کارکردگی کا تیزی سے تجزیہ کرنے کے لیے آمدنی کی رپورٹوں کو اہم ٹیک ویز تک کم کرتے ہیں۔ میڈیا کمپنیاں خبروں اور سوشل میڈیا کی نگرانی کے لیے خلاصہ کا استعمال کرتی ہیں تاکہ صحافی ترقی پذیر مسائل پر تیزی سے کہانیاں لکھ سکیں۔ حکومتی ایجنسیاں پالیسی سازوں کو حکمت عملی بنانے اور اہداف کو ترجیح دینے میں مدد کرنے کے لیے طویل پالیسی دستاویزات اور رپورٹس کا خلاصہ کرتی ہیں۔

طویل، پیچیدہ دستاویزات کے گاڑھا ورژن بنا کر، خلاصہ ٹیکنالوجی صارفین کو سب سے نمایاں مواد پر توجہ مرکوز کرنے کے قابل بناتی ہے۔ یہ اہم معلومات کی بہتر فہم اور برقراری کی طرف جاتا ہے۔ وقت کی بچت اسٹیک ہولڈرز کو ایک وسیع تناظر حاصل کرتے ہوئے کم وقت میں زیادہ مواد کا جائزہ لینے کی اجازت دیتی ہے۔ بہتر تفہیم اور زیادہ ترکیب شدہ بصیرت کے ساتھ، تنظیمیں بہتر باخبر اسٹریٹجک فیصلے کر سکتی ہیں، تحقیق کو تیز کر سکتی ہیں، پیداواری صلاحیت کو بہتر بنا سکتی ہیں اور اپنے اثرات کو بڑھا سکتی ہیں۔ اعلی درجے کی خلاصہ کی صلاحیتوں کی تبدیلی کی طاقت صرف اس وقت بڑھتی رہے گی جب زیادہ صنعتیں مصنوعی ذہانت (AI) کو اپناتی ہیں تاکہ معلومات کے بہتے ہوئے سلسلے کو استعمال کیا جاسکے۔

اس پوسٹ میں، ہم خلاصہ کی درستگی کو معروضی طور پر جانچنے کے لیے سرکردہ طریقوں کی تلاش کرتے ہیں، بشمول ROUGE میٹرکس، METEOR، اور BERTScore۔ ان تکنیکوں کی طاقتوں اور کمزوریوں کو سمجھنے سے انتخاب اور بہتری کی کوششوں کی رہنمائی میں مدد مل سکتی ہے۔ اس پوسٹ کا مجموعی مقصد ٹیموں کو اس اہم صلاحیت پر بہتر بینچ مارک کارکردگی میں مدد کرنے کے لیے خلاصہ کی تشخیص کو غیر واضح کرنا ہے کیونکہ وہ قدر کو زیادہ سے زیادہ کرنا چاہتے ہیں۔

خلاصہ کی اقسام

خلاصہ کو عام طور پر دو اہم اقسام میں تقسیم کیا جاسکتا ہے: استخراجی خلاصہ اور خلاصہ خلاصہ۔ دونوں طریقوں کا مقصد متن کے لمبے ٹکڑوں کو مختصر شکلوں میں گاڑھا کرنا ہے، اور اصل مواد کی انتہائی اہم معلومات یا جوہر کو حاصل کرنا ہے، لیکن وہ ایسا بنیادی طور پر مختلف طریقوں سے کرتے ہیں۔

استخراجی خلاصہ میں بنیادی فقروں، جملوں، یا حصوں کو تبدیل کیے بغیر ان کی شناخت اور نکالنا شامل ہے۔ سسٹم متن کے کچھ حصوں کا انتخاب کرتا ہے جسے سب سے زیادہ معلوماتی یا پورے کا نمائندہ سمجھا جاتا ہے۔ استخراجی خلاصہ مفید ہے اگر درستگی اہم ہے اور خلاصہ کو اصل متن سے صحیح معلومات کی عکاسی کرنے کی ضرورت ہے۔ یہ استعمال کے معاملات ہو سکتے ہیں جیسے استعمال کی شرائط میں بیان کردہ مخصوص قانونی شرائط، ذمہ داریوں اور حقوق کو اجاگر کرنا۔ ایکسٹریکٹیو سمریائزیشن کے لیے استعمال ہونے والی سب سے عام تکنیک اصطلاحی فریکوئنسی-انورس دستاویز فریکوئنسی (TF-IDF)، جملہ اسکورنگ، ٹیکسٹ رینک الگورتھم، اور زیر نگرانی مشین لرننگ (ML) ہیں۔

تجریدی خلاصہ نئے فقرے اور جملے تیار کرکے ایک قدم آگے بڑھتا ہے جو اصل متن میں نہیں تھے، بنیادی طور پر اصل مواد کو بیان کرتے ہوئے اور کم کرتے ہیں۔ اس نقطہ نظر کے لیے متن کی گہری تفہیم کی ضرورت ہے، کیونکہ AI کو معنی کی تشریح کرنے اور پھر اسے ایک نئی، جامع شکل میں بیان کرنے کی ضرورت ہے۔ بڑے لینگوئج ماڈل (LLMs) تجریدی خلاصہ کے لیے بہترین موزوں ہیں کیونکہ ٹرانسفارمر ماڈل سمری تیار کرتے وقت ان پٹ ٹیکسٹ کے متعلقہ حصوں پر توجہ مرکوز کرنے کے لیے توجہ کا طریقہ کار استعمال کرتے ہیں۔ توجہ کا طریقہ کار ماڈل کو ان پٹ ترتیب میں مختلف الفاظ یا ٹوکنز کو مختلف وزن تفویض کرنے کی اجازت دیتا ہے، جس سے یہ طویل فاصلے تک انحصار اور سیاق و سباق سے متعلقہ معلومات کو حاصل کرنے کے قابل بناتا ہے۔

ان دو بنیادی اقسام کے علاوہ، ہائبرڈ طریقے ہیں جو نکالنے اور تجریدی طریقوں کو یکجا کرتے ہیں۔ یہ نقطہ نظر سب سے اہم مواد کی شناخت کے لیے نکالنے والے خلاصے کے ساتھ شروع ہو سکتے ہیں اور پھر اس مواد کو ایک روانی کے خلاصے میں دوبارہ لکھنے یا کم کرنے کے لیے تجریدی تکنیکوں کا استعمال کر سکتے ہیں۔

للکار

خلاصہ کے معیار کو جانچنے کے لیے بہترین طریقہ تلاش کرنا ایک کھلا چیلنج ہے۔ چونکہ تنظیمیں دستاویزات سے کلیدی معلومات کو نکالنے کے لیے خودکار متن کے خلاصے پر تیزی سے انحصار کرتی ہیں، خلاصہ کی درستگی کی پیمائش کرنے کے لیے معیاری تکنیکوں کی ضرورت بڑھ جاتی ہے۔ مثالی طور پر، یہ تشخیصی میٹرکس اس بات کا اندازہ لگائے گا کہ مشین سے تیار کردہ خلاصے ماخذ کے متن سے کس حد تک نمایاں مواد نکالتے ہیں اور اصل معنی اور سیاق و سباق کی عکاسی کرنے والے مربوط خلاصے پیش کرتے ہیں۔

تاہم، متن کے خلاصے کے لیے مضبوط تشخیصی طریقہ کار تیار کرنا مشکلات پیش کرتا ہے:

انسانی تصنیف کردہ حوالہ جات کے خلاصے جو تقابل کے لیے استعمال ہوتے ہیں اکثر اہمیت کے ساپیکش عزم کی بنیاد پر اعلیٰ تغیرات کو ظاہر کرتے ہیں۔
خلاصہ معیار کے اہم پہلوؤں جیسے روانی، پڑھنے کی اہلیت، اور ہم آہنگی پروگرام کے لحاظ سے مقدار درست کرنا مشکل ثابت ہوتا ہے۔
اعداد و شمار کے الگورتھم سے نیورل نیٹ ورکس تک خلاصہ کے طریقوں میں وسیع تغیر موجود ہے، براہ راست موازنہ کو پیچیدہ بناتا ہے۔

Gisting Evaluation کے لیے Recal Oriented Understudy (ROUGE)

ROUGE میٹرکسجیسے کہ ROUGE-N اور ROUGE-L، انسانی تحریری حوالہ جات کے مقابلے مشین سے تیار کردہ خلاصوں کے معیار کا جائزہ لینے میں ایک اہم کردار ادا کرتے ہیں۔ یہ میٹرکس مشین سے تیار کردہ اور انسانوں کے تیار کردہ خلاصوں کے مواد کے درمیان n-grams، جو کہ الفاظ یا ٹوکن کے گروپ ہوتے ہیں، کا تجزیہ کرتے ہوئے اوورلیپ کا اندازہ لگانے پر توجہ مرکوز کرتے ہیں۔ مثال کے طور پر، ROUGE-1 انفرادی الفاظ (unigrams) کے میچ کا اندازہ کرتا ہے، جب کہ ROUGE-2 الفاظ کے جوڑے (bigrams) پر غور کرتا ہے۔ مزید برآں، ROUGE-N الفاظ کی ترتیب میں لچک پیدا کرنے کی اجازت دیتے ہوئے، دونوں عبارتوں کے درمیان الفاظ کے سب سے طویل مشترکہ تسلسل کا اندازہ لگاتا ہے۔

اس کی وضاحت کے لیے درج ذیل مثالوں پر غور کریں:

ROGUE-1 میٹرک - ROUGE-1 تیار کردہ خلاصہ اور حوالہ کے خلاصے کے درمیان یونیگرامس (واحد الفاظ) کے اوورلیپ کا جائزہ لیتا ہے۔ مثال کے طور پر، اگر کسی حوالہ کے خلاصے میں "The Quick Brown fox jumps" ہے اور پیدا کردہ خلاصہ ہے "The Brown Fox تیزی سے چھلانگ لگاتا ہے،" ROUGE-1 میٹرک "براؤن،" "لومڑی" اور "جمپس" کو اوور لیپنگ سمجھے گا۔ یونی گرام ROUGE-1 خلاصہ میں انفرادی الفاظ کی موجودگی پر توجہ مرکوز کرتا ہے، اس بات کی پیمائش کرتا ہے کہ تخلیق کردہ خلاصہ حوالہ کے خلاصے کے کلیدی الفاظ کو کتنی اچھی طرح سے پکڑتا ہے۔
ROGUE-2 میٹرک – ROUGE-2 پیدا کردہ خلاصہ اور حوالہ کے خلاصے کے درمیان بگگرامس (ملحقہ الفاظ کے جوڑے) کے اوورلیپ کا اندازہ لگاتا ہے۔ مثال کے طور پر، اگر حوالہ کے خلاصے میں "بلی سو رہی ہے" ہے اور تیار کردہ خلاصہ پڑھتا ہے "ایک بلی سو رہی ہے،" ROUGE-2 "بلی ہے" اور "سو رہی ہے" کو اوور لیپنگ بگگرام کے طور پر شناخت کرے گا۔ ROUGE-2 اس بات کی بصیرت فراہم کرتا ہے کہ حوالہ کے خلاصے کے مقابلے میں تیار کردہ خلاصہ الفاظ کے جوڑوں کی ترتیب اور سیاق و سباق کو کتنی اچھی طرح سے برقرار رکھتا ہے۔
ROUGE-N میٹرک - ROUGE-N ایک عمومی شکل ہے جہاں N کسی بھی نمبر کی نمائندگی کرتا ہے، n-grams (N الفاظ کی ترتیب) کی بنیاد پر تشخیص کی اجازت دیتا ہے۔ N=3 پر غور کرتے ہوئے، اگر حوالہ کا خلاصہ بیان کرتا ہے کہ "سورج چمک رہا ہے،" اور تیار کردہ خلاصہ "سورج چمک رہا ہے،" ROUGE-3 "سورج چمکتا ہوا چمک" کو ایک مماثل ٹریگرام کے طور پر پہچانے گا۔ ROUGE-N مختلف طوالت کے الفاظ کی ترتیب کی بنیاد پر خلاصوں کا جائزہ لینے کے لیے لچک پیش کرتا ہے، جو مواد کے اوورلیپ کا زیادہ جامع جائزہ فراہم کرتا ہے۔

یہ مثالیں واضح کرتی ہیں کہ کس طرح ROUGE-1، ROUGE-2، اور ROUGE-N میٹرکس خودکار خلاصہ یا مشینی ترجمے کے کاموں کا جائزہ لینے میں لفظی ترتیب کی مختلف سطحوں پر مبنی حوالہ جات کے خلاصوں کے ساتھ موازنہ کرتے ہوئے کام کرتے ہیں۔

ROUGE-N سکور کا حساب لگائیں۔

آپ ROUGE-N سکور کا حساب لگانے کے لیے درج ذیل اقدامات استعمال کر سکتے ہیں:

وائٹ اسپیس یا نیچرل لینگویج پروسیسنگ (NLP) لائبریریوں کے ذریعے تقسیم کرنے جیسے بنیادی ٹوکنائزیشن کے طریقوں کا استعمال کرتے ہوئے تیار کردہ خلاصہ اور حوالہ کے خلاصے کو انفرادی الفاظ یا ٹوکنز میں ٹوکنائز کریں۔
تیار کردہ خلاصہ اور حوالہ خلاصہ دونوں سے n-گرامس (N الفاظ کے ملحقہ ترتیب) بنائیں۔
تیار کردہ خلاصہ اور حوالہ کے خلاصے کے درمیان اوور لیپنگ n-grams کی تعداد شمار کریں۔
درستگی، یاد، اور F1 سکور کا حساب لگائیں:
- صحت سے متعلق – اوور لیپنگ n-grams کی تعداد کو جنریٹڈ سمری میں n-grams کی کل تعداد سے تقسیم کیا جاتا ہے۔
- یاد رکھیں - حوالہ کے خلاصے میں n-grams کی کل تعداد سے تقسیم شدہ n-grams کی تعداد۔
- F1 سکور - درستگی اور یاد کا ہارمونک وسط، جس کا حساب (2 * precision * recall) / (precision + recall) کے طور پر کیا جاتا ہے۔
ڈیٹا سیٹ میں ہر قطار کے لیے درستگی، یاد کرنے، اور F1 سکور کا حساب لگانے سے حاصل کردہ مجموعی F1 سکور کو ROUGE-N سکور سمجھا جاتا ہے۔

حدود

ROGUE کی درج ذیل حدود ہیں:

لغوی اوورلیپ پر توجہ مرکوز کریں۔ - ROUGE کے پیچھے بنیادی خیال یہ ہے کہ سسٹم کے ذریعے تیار کردہ خلاصے کا حوالہ کے ایک سیٹ یا انسانی تخلیق کردہ خلاصوں سے موازنہ کریں، اور ان کے درمیان لغوی اوورلیپ کی پیمائش کریں۔ اس کا مطلب ہے کہ لفظ کی سطح کی مماثلت پر ROUGE کی توجہ بہت کم ہے۔ یہ اصل میں سمری کے معنی، ہم آہنگی، یا پڑھنے کی اہلیت کا اندازہ نہیں کرتا ہے۔ ایک نظام ایک مربوط یا جامع خلاصہ بنائے بغیر، اصل متن سے لفظ بہ لفظ جملے نکال کر اعلی ROUGE اسکور حاصل کر سکتا ہے۔
پیرافراسنگ کے لئے غیر حساسیت – چونکہ ROUGE لغوی ملاپ پر انحصار کرتا ہے، اس لیے یہ الفاظ اور فقروں کے درمیان معنوی مساوات کا پتہ نہیں لگا سکتا۔ لہٰذا، مترادفات اور مترادفات کا استعمال اکثر ROUGE کے اسکور کو کم کرنے کا باعث بنے گا، خواہ معنی کو محفوظ رکھا جائے۔ یہ ان نظاموں کو نقصان پہنچاتا ہے جو خلاصہ یا خلاصہ انداز میں بیان کرتے ہیں۔
معنوی تفہیم کا فقدان – ROUGE اس بات کا اندازہ نہیں لگاتا کہ آیا سسٹم نے اصل متن کے معنی اور تصورات کو صحیح معنوں میں سمجھا ہے۔ ایک خلاصہ حوالہ جات کے ساتھ اعلی لغوی اوورلیپ حاصل کر سکتا ہے، جب کہ مرکزی خیالات کی کمی ہو یا حقیقت میں تضادات ہوں۔ ROUGE ان مسائل کی نشاندہی نہیں کرے گا۔

ROUGE کب استعمال کریں۔

ROUGE حساب لگانا آسان اور تیز ہے۔ مواد کے انتخاب سے متعلق سمری کوالٹی کے لیے اسے بیس لائن یا بینچ مارک کے طور پر استعمال کریں۔ ROUGE میٹرکس سب سے زیادہ مؤثر طریقے سے ایسے منظرناموں میں استعمال کیے جاتے ہیں جن میں خلاصہ کے خلاصے کے کام، خودکار خلاصہ کی تشخیص، LLMs کے جائزے، اور مختلف خلاصہ کے طریقوں کے تقابلی تجزیے شامل ہیں۔ ان سیاق و سباق میں ROUGE میٹرکس کا استعمال کرتے ہوئے، اسٹیک ہولڈرز سمری جنریشن کے عمل کے معیار اور تاثیر کا مقداری جائزہ لے سکتے ہیں۔

واضح ترتیب کے ساتھ ترجمہ کی تشخیص کے لیے میٹرک (METEOR)

خلاصہ کے نظام کا جائزہ لینے میں ایک بڑا چیلنج اس بات کا اندازہ لگانا ہے کہ ماخذ کے متن سے صرف متعلقہ الفاظ اور فقرے منتخب کرنے کے بجائے تخلیق کردہ خلاصہ منطقی طور پر کتنی اچھی طرح سے چلتا ہے۔ صرف متعلقہ مطلوبہ الفاظ اور جملوں کو نکالنے سے ضروری نہیں کہ ایک مربوط اور مربوط خلاصہ پیدا ہو۔ خلاصہ آسانی سے جاری ہونا چاہئے اور نظریات کو منطقی طور پر جوڑنا چاہئے، چاہے وہ اصل دستاویز کی طرح ہی پیش نہ ہوں۔

الفاظ کو ان کی جڑ یا بنیادی شکل میں کم کرکے ملاپ کی لچک (مثال کے طور پر، اسٹیمنگ کے بعد، "رننگ،" "رنز،" اور "رن" جیسے الفاظ سبھی "رن" بن جاتے ہیں) اور مترادفات کا مطلب ہے الکا خلاصہ معیار کے انسانی فیصلوں کے ساتھ بہتر تعلق رکھتا ہے۔ یہ شناخت کر سکتا ہے کہ آیا اہم مواد محفوظ ہے، چاہے الفاظ مختلف ہوں۔ یہ ROUGE جیسے n-gram پر مبنی میٹرکس پر ایک اہم فائدہ ہے، جو صرف ٹوکن کے عین مطابق مماثلتیں تلاش کرتے ہیں۔ METEOR ان خلاصوں کو اعلی اسکور بھی دیتا ہے جو حوالہ کے سب سے نمایاں مواد پر فوکس کرتے ہیں۔ بار بار یا غیر متعلقہ معلومات کو کم اسکور دیا جاتا ہے۔ یہ صرف سب سے اہم مواد رکھنے کے لیے خلاصہ کے مقصد کے ساتھ اچھی طرح سے ہم آہنگ ہے۔ METEOR ایک معنوی لحاظ سے معنی خیز میٹرک ہے جو متن کے خلاصے کا جائزہ لینے کے لیے n-gram مماثلت کی کچھ حدود کو دور کر سکتا ہے۔ اسٹیمنگ اور مترادفات کو شامل کرنے سے معلومات کے اوورلیپ اور مواد کی درستگی کا بہتر اندازہ لگایا جاسکتا ہے۔

اس کی وضاحت کے لیے درج ذیل مثالوں پر غور کریں:

حوالہ کا خلاصہ: پتے موسم خزاں کے دوران گرتے ہیں۔

تخلیق کردہ خلاصہ 1: خزاں میں پتے گرتے ہیں۔

تخلیق کردہ خلاصہ 2: موسم گرما میں سبز پتے۔

حوالہ جات اور تخلیق کردہ خلاصہ 1 کے درمیان مماثل الفاظ کو نمایاں کیا گیا ہے:

حوالہ کا خلاصہ: چھوڑ جاتا ہے گر موسم خزاں کے دوران.

تخلیق کردہ خلاصہ 1: چھوڑ جاتا ہے میں چھوڑ گر.

اگرچہ "زوال" اور "خزاں" مختلف ٹوکن ہیں، METEOR اپنے مترادف مماثلت کے ذریعے انہیں مترادفات کے طور پر پہچانتا ہے۔ "ڈراپ" اور "فال" کی شناخت ایک اسٹیمڈ میچ کے طور پر کی گئی ہے۔ جنریٹڈ سمری 2 کے لیے، "لیویز" کے علاوہ حوالہ جات کے خلاصے کے ساتھ کوئی مماثلت نہیں ہے، اس لیے یہ خلاصہ بہت کم METEOR سکور حاصل کرے گا۔ معنوی لحاظ سے جتنے زیادہ معنی خیز میچ ہوں گے، METEOR اسکور اتنا ہی زیادہ ہوگا۔ یہ METEOR کو سادہ n-gram مماثلت کے مقابلے میں مواد اور خلاصوں کی درستگی کا بہتر انداز میں جائزہ لینے کی اجازت دیتا ہے۔

METEOR سکور کا حساب لگائیں۔

METEOR سکور کا حساب لگانے کے لیے درج ذیل مراحل کو مکمل کریں:

بنیادی ٹوکنائزیشن کے طریقوں جیسے وائٹ اسپیس یا NLP لائبریریوں کے ذریعے تقسیم کرنا استعمال کرتے ہوئے تیار کردہ خلاصہ اور حوالہ کے خلاصے کو انفرادی الفاظ یا ٹوکنز میں ٹوکنائز کریں۔
unigram precision، recall، اور F-mean سکور کا حساب لگائیں، اور precision کے مقابلے میں یاد کرنے کو زیادہ اہمیت دیتے ہیں۔
ان پر زیادہ زور دینے سے بچنے کے لیے عین میچوں کے لیے جرمانہ لگائیں۔ جرمانے کا انتخاب ڈیٹاسیٹ کی خصوصیات، کام کی ضروریات، اور درستگی اور یاد کرنے کے درمیان توازن کی بنیاد پر کیا جاتا ہے۔ اس جرمانے کو مرحلہ 2 میں شمار کیے گئے F-مین اسکور سے گھٹائیں۔
اسٹیمڈ فارمز (الفاظ کو ان کی بنیاد یا جڑ کی شکل میں کم کرنا) اور جہاں قابل اطلاق ہو وہاں یونیگرام کے مترادفات کے لیے F-مین اسکور کا حساب لگائیں۔ حتمی METEOR سکور حاصل کرنے کے لیے اس کو پہلے حساب کیے گئے F-مین اسکور کے ساتھ جمع کریں۔ METEOR سکور کی رینج 0–1 ہے، جہاں 0 پیدا کردہ خلاصہ اور حوالہ کے خلاصے کے درمیان کوئی مماثلت نہیں ظاہر کرتا ہے، اور 1 کامل سیدھ کی نشاندہی کرتا ہے۔ عام طور پر، خلاصہ کے اسکور 0-0.6 کے درمیان آتے ہیں۔

حدود

خلاصہ کے کاموں کا جائزہ لینے کے لیے METEOR میٹرک کا استعمال کرتے وقت، کئی چیلنجز پیدا ہو سکتے ہیں:

معنوی پیچیدگی - معنوی مماثلت پر METEOR کا زور پیچیدہ خلاصہ کے کاموں میں اہم معانی اور سیاق و سباق کو حاصل کرنے کے لیے جدوجہد کر سکتا ہے، جو ممکنہ طور پر تشخیص میں غلطیاں پیدا کر سکتا ہے۔
حوالہ تغیر - انسانی تخلیق کردہ حوالہ جات کے خلاصوں میں تغیر METEOR اسکورز کو متاثر کر سکتا ہے، کیونکہ حوالہ کے مواد میں فرق مشین سے تیار کردہ خلاصوں کی تشخیص کو متاثر کر سکتا ہے۔
لسانی تنوع۔ - لسانی تغیرات، نحوی اختلافات، اور معنوی باریکیوں کی وجہ سے METEOR کی تاثیر مختلف زبانوں میں مختلف ہو سکتی ہے، جو کثیر لسانی خلاصہ کی تشخیص میں چیلنجز پیش کرتی ہے۔
لمبائی میں تضاد - مختلف طوالت کے خلاصوں کا اندازہ لگانا METEOR کے لیے مشکل ہو سکتا ہے، کیونکہ حوالہ کے خلاصے کے مقابلے لمبائی میں تضادات کے نتیجے میں جرمانے یا تشخیص میں غلطی ہو سکتی ہے۔
پیرامیٹر ٹیوننگ - مختلف ڈیٹاسیٹس اور خلاصہ کے کاموں کے لیے METEOR کے پیرامیٹرز کو بہتر بنانا وقت طلب ہو سکتا ہے اور اس بات کو یقینی بنانے کے لیے کہ میٹرک درست تشخیص فراہم کرتا ہے، اس کے لیے محتاط ٹیوننگ کی ضرورت ہوتی ہے۔
تشخیص کا تعصب - METEOR کے ساتھ تشخیصی تعصب کا خطرہ ہے اگر مخصوص خلاصہ ڈومینز یا کاموں کے لیے مناسب طریقے سے ایڈجسٹ یا کیلیبریٹ نہیں کیا گیا ہے۔ یہ ممکنہ طور پر متزلزل نتائج کا باعث بن سکتا ہے اور تشخیص کے عمل کی وشوسنییتا کو متاثر کر سکتا ہے۔

ان چیلنجوں سے آگاہ ہو کر اور METEOR کو خلاصہ کے کاموں کے لیے میٹرک کے طور پر استعمال کرتے وقت ان پر غور کرنے سے، محققین اور پریکٹیشنرز ممکنہ حدود کو نیویگیٹ کر سکتے ہیں اور اپنے تشخیصی عمل میں زیادہ باخبر فیصلے کر سکتے ہیں۔

METEOR کب استعمال کریں۔

METEOR کا استعمال عام طور پر متن کے خلاصوں کے معیار کو خود بخود جانچنے کے لیے کیا جاتا ہے۔ METEOR کو ایک تشخیصی میٹرک کے طور پر استعمال کرنا افضل ہے جب خلاصہ کے معاملات میں خیالات، تصورات، یا اداروں کی ترتیب کو اہمیت دی جائے۔ METEOR ترتیب پر غور کرتا ہے اور تیار کردہ خلاصے اور حوالہ جات کے درمیان n-گرام سے میل کھاتا ہے۔ یہ ان خلاصوں کو انعام دیتا ہے جو ترتیب وار معلومات کو محفوظ رکھتے ہیں۔ ROUGE جیسی میٹرکس کے برعکس، جو حوالہ کے خلاصوں کے ساتھ n-grams کے اوورلیپ پر انحصار کرتے ہیں، METEOR تنوں، مترادفات اور پیرا فریسز سے میل کھاتا ہے۔ METEOR بہتر کام کرتا ہے جب اصل متن کا خلاصہ کرنے کے متعدد درست طریقے ہو سکتے ہیں۔ METEOR WordNet کے مترادفات اور اسٹیمڈ ٹوکنز کو شامل کرتا ہے جب n-grams سے مماثل ہوں۔ مختصراً، وہ خلاصے جو معنوی طور پر ملتے جلتے ہیں لیکن مختلف الفاظ یا فقرے استعمال کرتے ہیں پھر بھی اچھا اسکور کریں گے۔ METEOR میں دہرائے جانے والے n-grams کے ساتھ خلاصوں کے لیے بلٹ ان پینلٹی ہے۔ لہذا، یہ لفظ بہ لفظ نکالنے یا تجرید کی کمی کی حوصلہ شکنی کرتا ہے۔ METEOR ایک اچھا انتخاب ہے جب لفظی مماثلت، خیالات کی ترتیب، اور روانی سے عبارتیں خلاصہ کے معیار کو جانچنے کے لیے اہم ہوں۔ یہ ان کاموں کے لیے کم مناسب ہے جہاں حوالہ کے خلاصوں کے ساتھ صرف لغوی اوورلیپ اہمیت رکھتا ہے۔

BERTScore

سطحی سطح کے لغوی اقدامات جیسے ROUGE اور METEOR امیدواروں کے خلاصے اور حوالہ کے خلاصے کے درمیان لفظ اوورلیپ کا موازنہ کرکے خلاصہ نظام کا جائزہ لیتے ہیں۔ تاہم، وہ الفاظ اور فقروں کے درمیان عین مطابق سٹرنگ مماثلت پر بہت زیادہ انحصار کرتے ہیں۔ اس کا مطلب ہے کہ وہ الفاظ اور فقروں کے درمیان معنوی مماثلت سے محروم ہوسکتے ہیں جن کی سطحی شکلیں مختلف ہیں لیکن ایک جیسے بنیادی معنی ہیں۔ صرف سطح کی مماثلت پر انحصار کرتے ہوئے، یہ میٹرکس سسٹم کے خلاصوں کے معیار کو کم کر سکتے ہیں جو مترادف الفاظ یا پیرا فریز تصورات کو حوالہ کے خلاصوں سے مختلف طریقے سے استعمال کرتے ہیں۔ دو خلاصے تقریباً ایک جیسی معلومات فراہم کر سکتے ہیں لیکن الفاظ کے فرق کی وجہ سے کم سطحی اسکور حاصل کرتے ہیں۔

BERTScore یہ خود بخود اندازہ لگانے کا ایک طریقہ ہے کہ خلاصہ کتنا اچھا ہے اس کا موازنہ کسی انسان کے ذریعہ لکھے گئے حوالہ کے خلاصے سے کر کے۔ یہ امیدوار کے خلاصے اور حوالہ کے خلاصے میں الفاظ کے معنی اور سیاق و سباق کو سمجھنے کے لیے BERT، ایک مقبول NLP تکنیک کا استعمال کرتا ہے۔ خاص طور پر، یہ امیدوار کے خلاصے میں ہر ایک لفظ یا ٹوکن کو دیکھتا ہے اور BERT ایمبیڈنگز کی بنیاد پر حوالہ کے خلاصے میں سب سے زیادہ ملتا جلتا لفظ تلاش کرتا ہے، جو ہر لفظ کے معنی اور سیاق و سباق کی ویکٹر نمائندگی ہیں۔ یہ کوزائن مماثلت کا استعمال کرتے ہوئے مماثلت کی پیمائش کرتا ہے، جو بتاتا ہے کہ ویکٹر ایک دوسرے کے کتنے قریب ہیں۔ امیدوار کے خلاصے میں ہر لفظ کے لیے، یہ BERT کی زبان کی سمجھ کو استعمال کرتے ہوئے حوالہ کے خلاصے میں سب سے زیادہ متعلقہ لفظ تلاش کرتا ہے۔ یہ ان تمام الفاظ کی مماثلتوں کا پورے خلاصے میں موازنہ کرتا ہے تاکہ مجموعی اسکور حاصل کیا جا سکے کہ امیدوار کا خلاصہ حوالہ کے خلاصے سے کتنی مماثلت رکھتا ہے۔ BERT کے ذریعے پکڑے گئے الفاظ اور معنی جتنے زیادہ ملتے جلتے ہوں گے، BERTScore اتنا ہی زیادہ ہوگا۔ یہ اسے ہر بار انسانی تشخیص کی ضرورت کے بغیر کسی انسانی حوالہ سے موازنہ کرکے تخلیق کردہ سمری کے معیار کا خود بخود جائزہ لینے کی اجازت دیتا ہے۔

اس کی وضاحت کرنے کے لیے، تصور کریں کہ آپ کے پاس مشین سے تیار کردہ خلاصہ ہے: "تیز بھوری لومڑی سست کتے پر چھلانگ لگاتی ہے۔" اب، آئیے ایک انسانی تیار کردہ حوالہ جات پر غور کریں: "ایک تیز بھوری لومڑی سوئے ہوئے کینائن پر چھلانگ لگاتی ہے۔"

BERTScore کا حساب لگائیں۔

BERTScore کا حساب لگانے کے لیے درج ذیل مراحل کو مکمل کریں:

BERTScore امیدوار (مشین سے تیار کردہ) اور حوالہ (انسانی تیار کردہ) جملوں دونوں میں ہر ٹوکن کی نمائندگی کرنے کے لیے سیاق و سباق کے ساتھ سرایت کا استعمال کرتا ہے۔ سیاق و سباق کی سرایت NLP میں لفظ کی نمائندگی کی ایک قسم ہے جو کسی جملے یا متن کے اندر اس کے سیاق و سباق کی بنیاد پر لفظ کے معنی کو پکڑتی ہے۔ روایتی لفظ ایمبیڈنگز کے برعکس جو ہر لفظ کو اس کے سیاق و سباق سے قطع نظر ایک مقررہ ویکٹر تفویض کرتے ہیں، سیاق و سباق سے متعلق سرایتیں ارد گرد کے الفاظ پر غور کرتی ہیں تاکہ ہر لفظ کے لیے ایک منفرد نمائندگی پیدا کی جاسکے اس پر منحصر ہے کہ اسے کسی مخصوص جملے میں کیسے استعمال کیا جاتا ہے۔
میٹرک پھر کوزائن مماثلت کا استعمال کرتے ہوئے ریفرنس جملے میں ہر ٹوکن کے ساتھ امیدوار کے جملے میں ہر ٹوکن کے درمیان مماثلت کا حساب لگاتا ہے۔ کوزائن مماثلت ہمیں اس بات کا اندازہ لگانے میں مدد کرتی ہے کہ ڈیٹا کے دو سیٹ کتنے قریب سے متعلق ہیں اس سمت پر توجہ مرکوز کرتے ہوئے جو وہ کثیر جہتی جگہ کی طرف اشارہ کرتے ہیں، اسے تلاش کے الگورتھم، NLP، اور سفارشی نظام جیسے کاموں کے لیے ایک قیمتی ٹول بناتا ہے۔
تمام ٹوکنز کے لیے سیاق و سباق سے متعلق سرایت اور کمپیوٹنگ مماثلت کے اسکورز کا موازنہ کرکے، BERTScore ایک جامع تشخیص تیار کرتا ہے جو انسان کے تیار کردہ حوالہ کے مقابلے میں تخلیق کردہ خلاصہ کی معنوی مطابقت اور سیاق و سباق کو حاصل کرتا ہے۔
حتمی BERTScore آؤٹ پٹ ایک مماثلت کا اسکور فراہم کرتا ہے جو اس بات کی عکاسی کرتا ہے کہ مشین سے تیار کردہ خلاصہ معنی اور سیاق و سباق کے لحاظ سے حوالہ کے خلاصے کے ساتھ کتنی اچھی طرح سے ہم آہنگ ہے۔

خلاصہ یہ ہے کہ BERTScore جملوں کی معنوی باریکیوں اور سیاق و سباق پر غور کرتے ہوئے روایتی میٹرکس سے آگے بڑھتا ہے، ایک زیادہ نفیس تشخیص پیش کرتا ہے جو انسانی فیصلے کو قریب سے آئینہ دار کرتا ہے۔ یہ جدید نقطہ نظر خلاصہ کے کاموں کا جائزہ لینے کی درستگی اور وشوسنییتا کو بڑھاتا ہے، BERTScore کو ٹیکسٹ جنریشن سسٹمز کا اندازہ لگانے میں ایک قابل قدر ٹول بناتا ہے۔

حدود:

اگرچہ BERTScore خلاصہ کے کاموں کا جائزہ لینے میں اہم فوائد پیش کرتا ہے، لیکن یہ کچھ حدود کے ساتھ بھی آتا ہے جن پر غور کرنے کی ضرورت ہے:

کمپیوٹیشنل شدت - BERT جیسے پہلے سے تربیت یافتہ لینگویج ماڈلز پر انحصار کرنے کی وجہ سے BERTScore کمپیوٹیشنل طور پر گہرا ہو سکتا ہے۔ یہ طویل تشخیص کے اوقات کا باعث بن سکتا ہے، خاص طور پر جب ٹیکسٹ ڈیٹا کی بڑی مقدار پر کارروائی کی جائے۔
پہلے سے تربیت یافتہ ماڈلز پر انحصار - BERTScore کی تاثیر کا انحصار پہلے سے تربیت یافتہ زبان کے ماڈل کے معیار اور مطابقت پر ہے۔ ایسے حالات میں جہاں پہلے سے تربیت یافتہ ماڈل متن کی باریکیوں کو مناسب طریقے سے حاصل نہیں کر سکتا، تشخیص کے نتائج متاثر ہو سکتے ہیں۔
اسکیل ایبلٹی - بڑے ڈیٹا سیٹس یا ریئل ٹائم ایپلی کیشنز کے لیے BERTScore کو اسکیل کرنا اس کے کمپیوٹیشنل مطالبات کی وجہ سے مشکل ہو سکتا ہے۔ پیداواری ماحول میں BERTScore کو لاگو کرنے کے لیے موثر کارکردگی فراہم کرنے کے لیے اصلاح کی حکمت عملیوں کی ضرورت پڑ سکتی ہے۔
ڈومین کی خصوصیت - BERTScore کی کارکردگی مختلف ڈومینز یا مخصوص متن کی اقسام میں مختلف ہو سکتی ہے۔ میٹرک کو مخصوص ڈومینز یا کاموں کے مطابق ڈھالنے کے لیے درست تشخیص پیدا کرنے کے لیے ٹھیک ٹیوننگ یا ایڈجسٹمنٹ کی ضرورت پڑ سکتی ہے۔
تشریحی صلاحیت - اگرچہ BERTScore سیاق و سباق کی بنیاد پر ایک جامع تشخیص فراہم کرتا ہے، لیکن ہر ٹوکن کے لیے بنائے گئے مماثلت کے اسکورز کے پیچھے مخصوص وجوہات کی تشریح پیچیدہ ہو سکتی ہے اور اس کے لیے اضافی تجزیہ کی ضرورت پڑ سکتی ہے۔
حوالہ سے پاک تشخیص - اگرچہ BERTScore تشخیص کے لیے حوالہ جات کے خلاصوں پر انحصار کو کم کرتا ہے، لیکن یہ حوالہ سے پاک نقطہ نظر خلاصہ کے معیار کے تمام پہلوؤں کو مکمل طور پر گرفت میں نہیں لے سکتا، خاص طور پر ایسے منظرناموں میں جہاں مواد کی مطابقت اور ہم آہنگی کا اندازہ لگانے کے لیے انسانی تیار کردہ حوالہ جات ضروری ہیں۔

ان حدود کو تسلیم کرنے سے آپ کو باخبر فیصلے کرنے میں مدد مل سکتی ہے جب BERTScore کو خلاصہ کے کاموں کا جائزہ لینے کے لیے میٹرک کے طور پر استعمال کریں، اس کی طاقتوں اور رکاوٹوں کی متوازن تفہیم فراہم کریں۔

BERTScore کب استعمال کریں۔

BERTScore ایک تیار کردہ خلاصے کا حوالہ کے خلاصے سے موازنہ کر کے متن کے خلاصے کے معیار کا اندازہ لگا سکتا ہے۔ یہ BERT جیسے عصبی نیٹ ورکس کا استعمال کرتا ہے تاکہ محض لفظ یا فقرے کی مماثلت سے ہٹ کر معنوی مماثلت کی پیمائش کی جاسکے۔ یہ BERTScore کو بہت مفید بناتا ہے جب مکمل معنی اور مواد کو محفوظ رکھنا آپ کے خلاصہ کے کام کے لیے اہم ہے۔ BERTScore ان خلاصوں کو اعلی اسکور دے گا جو حوالہ کے خلاصے کے طور پر ایک ہی معلومات فراہم کرتے ہیں، چاہے وہ مختلف الفاظ اور جملے کی ساخت استعمال کریں۔ سب سے اہم بات یہ ہے کہ BERTScore خلاصہ کے کاموں کے لیے مثالی ہے جہاں صرف کلیدی الفاظ یا عنوانات ہی نہیں بلکہ مکمل معنوی معنی کو برقرار رکھنا ضروری ہے۔ اس کی اعلی درجے کی اعصابی اسکورنگ اسے سطحی سطح کے الفاظ کی مماثلت سے باہر معنی کا موازنہ کرنے کی اجازت دیتی ہے۔ یہ ان صورتوں کے لیے موزوں بناتا ہے جہاں الفاظ میں لطیف فرق مجموعی معنی اور مضمرات کو کافی حد تک تبدیل کر سکتے ہیں۔ BERTScore، خاص طور پر، معنوی مماثلت کو حاصل کرنے میں مہارت رکھتا ہے، جو کہ تجریدی خلاصوں کے معیار کا جائزہ لینے کے لیے بہت اہم ہے جیسا کہ Retrieval Augmented Generation (RAG) ماڈلز کے ذریعے تیار کیا گیا ہے۔

ماڈل کی تشخیص کے فریم ورک

مختلف سمریائزیشن ماڈلز کی کارکردگی کو درست طریقے سے جانچنے کے لیے ماڈل کی تشخیص کے فریم ورک ضروری ہیں۔ یہ فریم ورک ماڈلز کا موازنہ کرنے، تخلیق کردہ خلاصوں اور ماخذ کے مواد کے درمیان ہم آہنگی فراہم کرنے، اور تشخیص کے طریقوں میں خامیوں کی نشاندہی کرنے میں اہم کردار ادا کرتے ہیں۔ مکمل جائزوں اور مسلسل بینچ مارکنگ کے ذریعے، یہ فریم ورک معیاری تشخیصی طریقوں کی وکالت کرتے ہوئے اور کثیر جہتی ماڈل کے موازنہ کو قابل بنا کر متن کے خلاصے کی تحقیق کو آگے بڑھاتے ہیں۔

AWS میں، FMEval لائبریری کے اندر ایمیزون سیج میکر واضح کریں۔ متن کا خلاصہ، سوال کے جوابات، اور درجہ بندی جیسے کاموں کے لیے فاؤنڈیشن ماڈلز (FMs) کی تشخیص اور انتخاب کو ہموار کرتا ہے۔ یہ آپ کو درستگی، مضبوطی، تخلیقی صلاحیت، تعصب، اور زہریلے پن جیسے میٹرکس کی بنیاد پر FMs کا جائزہ لینے کے لیے بااختیار بناتا ہے، جو LLMs کے لیے خودکار اور انسانی طور پر لوپ دونوں تشخیصات کی حمایت کرتا ہے۔ UI پر مبنی یا پروگرامی تشخیص کے ساتھ، FMEval ماڈل کے خطرات جیسے غلطیاں، زہریلے پن، یا تعصب کو کم کرنے کے لیے تصورات کے ساتھ تفصیلی رپورٹس تیار کرتا ہے، جس سے تنظیموں کو ان کے ذمہ دار پیدا کرنے والے AI رہنما خطوط کے ساتھ ہم آہنگ ہونے میں مدد ملتی ہے۔ اس سیکشن میں، ہم FMEval لائبریری کو استعمال کرنے کا طریقہ دکھاتے ہیں۔

Amazon Bedrock کا استعمال کرتے ہوئے خلاصہ کی درستگی پر Claude v2 کا اندازہ کریں۔

درج ذیل کوڈ کا ٹکڑا اس بات کی ایک مثال ہے کہ Python کوڈ کا استعمال کرتے ہوئے Anthropic Claude ماڈل کے ساتھ کیسے تعامل کیا جائے:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

سادہ الفاظ میں، یہ کوڈ درج ذیل اعمال انجام دیتا ہے:

بشمول ضروری لائبریریاں درآمد کریں۔ json، JSON ڈیٹا کے ساتھ کام کرنے کے لیے۔
ماڈل ID کی وضاحت کریں بطور anthropic.claude-v2 اور درخواست کے لیے مواد کی قسم سیٹ کریں۔
ایک تخلیق کریں prompt_data متغیر جو کلاڈ ماڈل کے لیے ان پٹ ڈیٹا کو تشکیل دیتا ہے۔ اس معاملے میں، یہ سوال پوچھتا ہے "باراک اوباما کون ہے؟" اور ماڈل سے جواب کی توقع ہے۔
ایک JSON آبجیکٹ نامی باڈی بنائیں جس میں پرامپٹ ڈیٹا شامل ہو، اور اضافی پیرامیٹرز کی وضاحت کریں جیسے ٹوکنز کی زیادہ سے زیادہ تعداد جنریٹ کرنے کے لیے۔
استعمال کرتے ہوئے کلاڈ ماڈل کو طلب کریں۔ bedrock_runtime.invoke_model متعین پیرامیٹرز کے ساتھ۔
ماڈل سے جواب کو پارس کریں، تکمیل (تخلیق شدہ متن) کو نکالیں، اور اسے پرنٹ کریں۔

یقینی بنائیں کہ AWS شناخت اور رسائی کا انتظام (IAM) کے ساتھ وابستہ کردار ایمیزون سیج میکر اسٹوڈیو صارف پروفائل تک رسائی حاصل ہے۔ ایمیزون بیڈرک ماڈلز کی درخواست کی جا رہی ہے۔ کا حوالہ دیتے ہیں ایمیزون بیڈرک کے لیے شناخت پر مبنی پالیسی کی مثالیں۔ ایمیزون بیڈرک کے لیے شناخت پر مبنی پالیسیوں کے بہترین طریقوں اور مثالوں پر رہنمائی کے لیے۔

Claude سے خلاصہ شدہ آؤٹ پٹ کا جائزہ لینے کے لیے FMEval لائبریری کا استعمال

ہم خلاصہ آؤٹ پٹ کا اندازہ کرنے کے لیے درج ذیل کوڈ کا استعمال کرتے ہیں:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

پچھلے کوڈ کے ٹکڑوں میں، FMEval لائبریری کا استعمال کرتے ہوئے متن کے خلاصے کی جانچ کرنے کے لیے، ہم درج ذیل مراحل کو مکمل کرتے ہیں:

ایک تخلیق کریں ModelRunner اپنے LLM پر درخواست کرنے کے لیے۔ FMEval لائبریری اس کے لیے بلٹ ان سپورٹ فراہم کرتی ہے۔ ایمیزون سیج میکر اختتامی نقطہ اور ایمیزون سیج میکر جمپ اسٹارٹ ایل ایل ایمز آپ توسیع بھی کر سکتے ہیں۔ ModelRunner کسی بھی LLMs کے لیے انٹرفیس جو کہیں بھی ہوسٹ کی جاتی ہے۔
تعاون یافتہ استعمال کریں۔ eval_algorithms آپ کی تشخیص کی ضروریات پر مبنی زہریلا، خلاصہ، درستگی، سیمنٹک، اور مضبوطی کی طرح۔
اپنے مخصوص استعمال کے کیس کے لیے تشخیص کی ترتیب کے پیرامیٹرز کو حسب ضرورت بنائیں۔
اپنے LLM ماڈل کا اندازہ کرنے کے لیے پہلے سے موجود یا حسب ضرورت ڈیٹا سیٹس کے ساتھ تشخیصی الگورتھم کا استعمال کریں۔ اس معاملے میں استعمال ہونے والا ڈیٹاسیٹ درج ذیل سے حاصل کیا گیا ہے۔ GitHub repo.

ملاحظہ کریں ڈویلپر گائیڈ اور مثالیں۔ تشخیصی الگورتھم کے تفصیلی استعمال کے لیے۔

درج ذیل جدول میں تشخیص کے نتائج کا خلاصہ کیا گیا ہے۔

ماڈل _input	ماڈل_آؤٹ پٹ	ہدف_آؤٹ پٹ	پرامپٹ	اسکور	meteor_score	rouge_score	bert_score
جان ایڈورڈ 0 بیٹس، پہلے اسپالڈنگ، لنکو کے...	میں کوئی حتمی بات نہیں کر سکتا فیصلے، جیسا کہ…	ایک سابق لنکن شائر پولیس افسر نے…	انسان: جان ایڈورڈ بیٹس، جو پہلے اسپالڈنگ کے…	[{'name': 'meteor', 'value': 0.101010101010101 ...	0.10101	0	0.557155
23 اکتوبر 2015 آخری اپ ڈیٹ 17:44 BST\|nIt'…	سمندری طوفان/ٹراپ کے بارے میں کچھ اہم نکات یہ ہیں۔	سمندری طوفان پیٹریسیا کو ایک زمرے کے طور پر درجہ دیا گیا ہے…	انسان: 23 اکتوبر 2015 آخری بار 17:44 پر اپ ڈیٹ کیا گیا۔ ب…	[{'name': meteor', “value': 0.102339181286549 ..	0.102339	0.018265	0.441421
فیراری اقوام متحدہ کو چیلنج کرنے کی پوزیشن میں نظر آئی…	مضمون کے اہم نکات یہ ہیں: nin…	لیوس ہیملٹن نے پول پوزیشن پر حملہ کیا…	انسان: فراری چیلنج کرنے کی پوزیشن میں نظر آئی…	[{'name': 'meteor', 'value': 0.322543352601156 ...	0.322543	0.078212	0.606487
28 سالہ باتھ میں پیدا ہونے والے کھلاڑی نے 36 رنز بنائے ظاہر ہونا…	ٹھیک ہے، میں اہم نکات کا خلاصہ کرتا ہوں:/nin- E…..	نیوپورٹ گوینٹ ڈریگن نمبر آٹھ ایڈ جیکسن	انسان: غسل میں پیدا ہونے والے 28 سالہ کھلاڑی نے 36…	[{'name': 'meteor', 'value': 0105740181268882 ...	0.10574	0.012987	0.539488
چوہوں نے ڈیٹا کو سی کے ساتھ تبدیل کرنے کے طریقے میں کمزوریاں…	یہاں وہ اہم نکات ہیں جو میں نے ایک سے جمع کیے ہیں…	ہیکرز گھر تک رسائی حاصل کر سکتے ہیں۔	انسان: میں کمزوریاں سوار چوہوں نے ڈیٹا کو تبدیل کیا۔	[{'name': 'meteor', 'value': 0.201048289433848 ...	0.201048	0.021858	0.526947

نمونہ چیک کریں۔ نوٹ بک خلاصہ تشخیص کے بارے میں مزید تفصیلات کے لئے جس پر ہم نے اس پوسٹ میں تبادلہ خیال کیا ہے۔

نتیجہ

ROUGE، METEOR، اور BERTScore سبھی مشین سے تیار کردہ خلاصوں کے معیار کی پیمائش کرتے ہیں، لیکن مختلف پہلوؤں پر توجہ مرکوز کرتے ہیں جیسے لغوی اوورلیپ، روانی، یا لفظی مماثلت۔ اس میٹرک کو منتخب کرنا یقینی بنائیں جو آپ کے مخصوص خلاصہ کے استعمال کے معاملے کے لیے "اچھے" کی تعریف کے مطابق ہو۔ آپ میٹرکس کا مجموعہ بھی استعمال کر سکتے ہیں۔ یہ زیادہ اچھی طرح سے تشخیص فراہم کرتا ہے اور کسی بھی انفرادی میٹرک کی ممکنہ کمزوریوں سے حفاظت کرتا ہے۔ درست پیمائش کے ساتھ، آپ اپنے خلاصے کو بار بار بہتر کر سکتے ہیں تاکہ درستگی کے کسی بھی تصور کو پورا کیا جا سکے۔

مزید برآں، ان ماڈلز کو پیمانے پر تیار کرنے کے لیے FM اور LLM کی تشخیص ضروری ہے۔ FMEval کے ساتھ، آپ کو بہت سے NLP کاموں میں بلٹ ان الگورتھم کا ایک وسیع سیٹ ملتا ہے، بلکہ آپ کے اپنے ماڈلز، ڈیٹا سیٹس، اور الگورتھم کی بڑے پیمانے پر تشخیص کے لیے ایک قابل توسیع اور لچکدار ٹول بھی ملتا ہے۔ پیمانہ بڑھانے کے لیے، آپ اس پیکیج کو اپنی LLMOps پائپ لائنوں میں استعمال کر سکتے ہیں۔ متعدد ماڈلز کا جائزہ لیں۔. AWS میں FMEval کے بارے میں مزید جاننے کے لیے اور اسے مؤثر طریقے سے استعمال کرنے کے طریقے سے رجوع کریں۔ بڑے لینگویج ماڈلز کا جائزہ لینے کے لیے SageMaker Clarify کا استعمال کریں۔. FMs کی تشخیص میں SageMaker Clarify کی صلاحیتوں کے بارے میں مزید تفہیم اور بصیرت کے لیے، دیکھیں Amazon SageMaker Clarify فاؤنڈیشن ماڈلز کا جائزہ لینا اور منتخب کرنا آسان بناتا ہے۔.

مصنفین کے بارے میں

دنیش کمار سبرامانی ایڈنبرا، سکاٹ لینڈ میں مقیم ایک سینئر سولیوشن آرکیٹیکٹ ہیں۔ وہ مصنوعی ذہانت اور مشین لرننگ میں مہارت رکھتا ہے، اور Amazon میں ٹیکنیکل فیلڈ کمیونٹی کا رکن ہے۔ AWS خدمات کا استعمال کرتے ہوئے ان کے مسائل حل کرنے کے لیے دنیش UK کی مرکزی حکومت کے صارفین کے ساتھ مل کر کام کرتا ہے۔ کام سے باہر، دنیش اپنے خاندان کے ساتھ معیاری وقت گزارنے، شطرنج کھیلنے، اور موسیقی کی متنوع رینج کو تلاش کرنے میں لطف اندوز ہوتا ہے۔

پرناؤ شرما یورپ، مشرق وسطیٰ اور افریقہ میں AWS رہنما ڈرائیونگ ٹیکنالوجی اور کاروباری تبدیلی کے اقدامات ہیں۔ اس کے پاس پروڈکشن میں مصنوعی ذہانت کے پلیٹ فارم کو ڈیزائن کرنے اور چلانے کا تجربہ ہے جو لاکھوں صارفین کی مدد کرتے ہیں اور کاروباری نتائج فراہم کرتے ہیں۔ انہوں نے عالمی مالیاتی خدمات کی تنظیموں کے لیے ٹیکنالوجی اور لوگوں کی قیادت کے کردار ادا کیے ہیں۔ کام سے باہر، وہ پڑھنا، اپنے بیٹے کے ساتھ ٹینس کھیلنا اور فلمیں دیکھنا پسند کرتا ہے۔

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://aws.amazon.com/blogs/machine-learning/evaluate-the-text-summarization-capabilities-of-llms-for-enhanced-decision-making-on-aws/

جنریٹیو ڈیٹا انٹیلی جنس

AWS پر بہتر فیصلہ سازی کے لیے LLMs کی متنی خلاصہ کی صلاحیتوں کا جائزہ لیں | ایمیزون ویب سروسز

خلاصہ کی اقسام

للکار

Gisting Evaluation کے لیے Recal Oriented Understudy (ROUGE)

ROUGE-N سکور کا حساب لگائیں۔

حدود

ROUGE کب استعمال کریں۔

واضح ترتیب کے ساتھ ترجمہ کی تشخیص کے لیے میٹرک (METEOR)

METEOR سکور کا حساب لگائیں۔

حدود

METEOR کب استعمال کریں۔

BERTScore

BERTScore کا حساب لگائیں۔

حدود:

BERTScore کب استعمال کریں۔

ماڈل کی تشخیص کے فریم ورک

Amazon Bedrock کا استعمال کرتے ہوئے خلاصہ کی درستگی پر Claude v2 کا اندازہ کریں۔

Claude سے خلاصہ شدہ آؤٹ پٹ کا جائزہ لینے کے لیے FMEval لائبریری کا استعمال

نتیجہ

مصنفین کے بارے میں

CFTC Chair Says ‘Another Cycle of Enforcement Actions’ Coming As Crypto Enters New Phase of Asset Appreciation – The Daily Hodl

سیاست اور کرپٹو کے چوراہے کی تلاش: ٹرمپ بٹ کوائن NFTs اور ڈیجیٹل میں میم اسٹاکس اور اسمارٹ منی انویسٹمنٹ کا عروج۔

تازہ ترین انٹیلی جنس

ٹرمپ بٹ کوائن این ایف ٹیز اور رابن ہڈ کی ریونیو ریلی: کرپٹو انویسٹمنٹس اور مارکیٹ کی نقل و حرکت کی متحرک دنیا میں تشریف لے جانا

ٹرمپ بٹ کوائن NFTs سے لے کر رابن ہڈ کے ریونیو میں اضافے تک: کرپٹو کرنسی اور اسٹاک ٹریڈنگ کی متحرک دنیا میں تشریف لے جانا

ٹرمپ بٹ کوائن NFTs سے لے کر رابن ہڈ کے اضافے تک: کرپٹو کرنسی اور اسٹاک ٹریڈنگ کی متحرک دنیا میں تشریف لے جانا

ٹرمپ بٹ کوائن NFTs سے لے کر رابن ہڈ کے ریکارڈ ریونیو تک: ارتقا پذیر کرپٹو لینڈ اسکیپ کو نیویگیٹنگ

ٹرمپ Bitcoin NFTs سے Meme اسٹاک سرجز تک: کرپٹو کے متحرک زمین کی تزئین اور مارکیٹ کے رجحانات میں ایک غوطہ

ٹرمپ NFTs سے لے کر Robinhood's Rebound تک: کرپٹو سرمایہ کاری اور مارکیٹ کے رجحانات کی متحرک دنیا میں تشریف لے جانا

ہمارے ساتھ بات چیت