জেনারেটিভ ডেটা ইন্টেলিজেন্স

AWS-এ বর্ধিত সিদ্ধান্ত গ্রহণের জন্য LLM-এর পাঠ্য সংক্ষিপ্তকরণ ক্ষমতা মূল্যায়ন করুন | আমাজন ওয়েব সার্ভিসেস

তারিখ:

শিল্প জুড়ে সংস্থাগুলি আরও দক্ষতার সাথে বিপুল পরিমাণ তথ্য পরিচালনা করতে এবং আরও ভাল সিদ্ধান্ত নিতে স্বয়ংক্রিয় পাঠ্য সংক্ষিপ্তকরণ ব্যবহার করছে। আর্থিক খাতে, বিনিয়োগ ব্যাঙ্কগুলি ত্রৈমাসিক কার্যকারিতা দ্রুত বিশ্লেষণ করার জন্য মূল টেকওয়েতে আয়ের প্রতিবেদনগুলিকে সংকুচিত করে। মিডিয়া সংস্থাগুলি সংবাদ এবং সোশ্যাল মিডিয়া নিরীক্ষণের জন্য সারসংক্ষেপ ব্যবহার করে যাতে সাংবাদিকরা দ্রুত উন্নয়নশীল বিষয়গুলিতে গল্প লিখতে পারে। সরকারী সংস্থাগুলি নীতিনির্ধারকদের কৌশল নির্ধারণ এবং লক্ষ্যগুলিকে অগ্রাধিকার দিতে সাহায্য করার জন্য দীর্ঘ নীতি নথি এবং প্রতিবেদনগুলি সংক্ষিপ্ত করে।

দীর্ঘ, জটিল নথির ঘনীভূত সংস্করণ তৈরি করে, সংক্ষিপ্তকরণ প্রযুক্তি ব্যবহারকারীদের সবচেয়ে গুরুত্বপূর্ণ বিষয়বস্তুর উপর ফোকাস করতে সক্ষম করে। এটি সমালোচনামূলক তথ্যের আরও ভাল বোঝার এবং ধরে রাখার দিকে পরিচালিত করে। সময় সঞ্চয় স্টেকহোল্ডারদের একটি বিস্তৃত দৃষ্টিকোণ অর্জন করে, কম সময়ে আরও উপাদান পর্যালোচনা করার অনুমতি দেয়। বর্ধিত বোঝাপড়া এবং আরও সংশ্লেষিত অন্তর্দৃষ্টি সহ, সংস্থাগুলি আরও ভাল অবহিত কৌশলগত সিদ্ধান্ত নিতে পারে, গবেষণাকে ত্বরান্বিত করতে পারে, উত্পাদনশীলতা উন্নত করতে পারে এবং তাদের প্রভাব বাড়াতে পারে। উন্নত সংক্ষিপ্তকরণ ক্ষমতার রূপান্তরকারী শক্তি কেবলমাত্র ক্রমবর্ধমান হতে থাকবে কারণ আরও শিল্প কৃত্রিম বুদ্ধিমত্তা (AI) অবলম্বন করে উপচে পড়া তথ্যের প্রবাহকে কাজে লাগাতে।

এই পোস্টে, আমরা ROUGE মেট্রিক্স, METEOR, এবং BERTScore সহ উদ্দেশ্যমূলকভাবে সারাংশের নির্ভুলতা মূল্যায়নের জন্য নেতৃস্থানীয় পন্থাগুলি অন্বেষণ করি। এই কৌশলগুলির শক্তি এবং দুর্বলতাগুলি বোঝা নির্বাচন এবং উন্নতির প্রচেষ্টাকে গাইড করতে সহায়তা করতে পারে। এই পোস্টের সামগ্রিক লক্ষ্য হল সারসংক্ষেপ মূল্যায়নকে রহস্যময় করা যাতে দলগুলিকে এই গুরুত্বপূর্ণ ক্ষমতার উপর আরও ভাল বেঞ্চমার্ক পারফরম্যান্স করতে সাহায্য করে কারণ তারা মান সর্বাধিক করতে চায়।

সারসংক্ষেপের প্রকারভেদ

সংক্ষিপ্তকরণকে সাধারণত দুটি প্রধান প্রকারে ভাগ করা যায়: নিষ্কাশনমূলক সংক্ষিপ্তকরণ এবং বিমূর্ত সংক্ষিপ্তকরণ। উভয় পন্থাই মূল বিষয়বস্তুর সবচেয়ে গুরুত্বপূর্ণ তথ্য বা সারমর্মকে ক্যাপচার করে টেক্সটের দীর্ঘ অংশকে সংক্ষিপ্ত আকারে সংকুচিত করার লক্ষ্য রাখে, কিন্তু তারা তা মৌলিকভাবে ভিন্ন উপায়ে করে।

নিষ্কাশনমূলক সংক্ষিপ্তকরণের মধ্যে মূল বাক্যাংশ, বাক্য বা অংশগুলিকে পরিবর্তন না করে চিহ্নিত করা এবং বের করা জড়িত। সিস্টেম পাঠ্যের অংশগুলিকে সবচেয়ে তথ্যপূর্ণ বা সমগ্রের প্রতিনিধি হিসাবে বিবেচনা করে। নিষ্কাশনমূলক সংক্ষিপ্তকরণ উপযোগী যদি নির্ভুলতা সমালোচনামূলক হয় এবং সারাংশে মূল পাঠ্য থেকে সঠিক তথ্য প্রতিফলিত করা প্রয়োজন। এগুলি নির্দিষ্ট আইনি শর্তাবলী, বাধ্যবাধকতা এবং ব্যবহারের শর্তাবলীতে বর্ণিত অধিকারগুলিকে হাইলাইট করার মতো ব্যবহারের ক্ষেত্রে হতে পারে। এক্সট্র্যাক্টিভ সারসংক্ষেপের জন্য ব্যবহৃত সবচেয়ে সাধারণ কৌশলগুলি হল শব্দ ফ্রিকোয়েন্সি-ইনভার্স ডকুমেন্ট ফ্রিকোয়েন্সি (TF-IDF), বাক্য স্কোরিং, টেক্সট র‌্যাঙ্ক অ্যালগরিদম এবং সুপারভাইজড মেশিন লার্নিং (ML)।

বিমূর্ত সারাংশ নতুন বাক্যাংশ এবং বাক্য তৈরি করে যা মূল পাঠ্যে ছিল না, মূলত মূল বিষয়বস্তুকে প্যারাফ্রেজিং এবং ঘনীভূত করার মাধ্যমে আরও এক ধাপ এগিয়ে যায়। এই পদ্ধতির জন্য পাঠ্যের গভীরতর বোঝার প্রয়োজন, কারণ AI এর অর্থ ব্যাখ্যা করতে হবে এবং তারপরে এটি একটি নতুন, সংক্ষিপ্ত আকারে প্রকাশ করতে হবে। বৃহৎ ভাষার মডেল (LLMs) বিমূর্ত সারসংক্ষেপের জন্য সবচেয়ে উপযুক্ত কারণ ট্রান্সফরমার মডেলগুলি সারাংশ তৈরি করার সময় ইনপুট পাঠ্যের প্রাসঙ্গিক অংশগুলিতে ফোকাস করার জন্য মনোযোগের প্রক্রিয়া ব্যবহার করে। মনোযোগের প্রক্রিয়া মডেলটিকে ইনপুট ক্রমানুসারে বিভিন্ন শব্দ বা টোকেনগুলিতে বিভিন্ন ওজন নির্ধারণ করতে দেয়, এটি দীর্ঘ-পরিসীমা নির্ভরতা এবং প্রাসঙ্গিকভাবে প্রাসঙ্গিক তথ্য ক্যাপচার করতে সক্ষম করে।

এই দুটি প্রাথমিক প্রকারের পাশাপাশি, হাইব্রিড পদ্ধতি রয়েছে যা নিষ্কাশন এবং বিমূর্ত পদ্ধতিকে একত্রিত করে। এই পন্থাগুলি সবচেয়ে গুরুত্বপূর্ণ বিষয়বস্তু সনাক্ত করতে নিষ্কাশনমূলক সারসংক্ষেপ দিয়ে শুরু হতে পারে এবং তারপর সেই বিষয়বস্তুটিকে একটি সাবলীল সারাংশে পুনঃলিখন বা ঘনীভূত করার জন্য বিমূর্ত কৌশল ব্যবহার করতে পারে।

চ্যালেঞ্জ

সারাংশের গুণমান মূল্যায়ন করার জন্য সর্বোত্তম পদ্ধতি খুঁজে পাওয়া একটি উন্মুক্ত চ্যালেঞ্জ। যেহেতু সংস্থাগুলি নথি থেকে মূল তথ্য পাতন করার জন্য স্বয়ংক্রিয় পাঠ্য সংক্ষিপ্তসারের উপর ক্রমবর্ধমান নির্ভর করে, তাই সংক্ষিপ্তকরণের নির্ভুলতা পরিমাপের জন্য প্রমিত কৌশলগুলির প্রয়োজন বৃদ্ধি পায়। আদর্শভাবে, এই মূল্যায়ন মেট্রিকগুলি কতটা ভালভাবে মেশিন দ্বারা তৈরি সারাংশগুলি উত্স পাঠ্য থেকে সর্বাধিক গুরুত্বপূর্ণ বিষয়বস্তু বের করে এবং মূল অর্থ এবং প্রসঙ্গ প্রতিফলিত করে বর্তমান সুসংহত সারাংশগুলিকে পরিমাপ করবে।

যাইহোক, পাঠ্য সংক্ষিপ্তকরণের জন্য শক্তিশালী মূল্যায়ন পদ্ধতি বিকাশ করা অসুবিধাগুলি উপস্থাপন করে:

  • তুলনার জন্য ব্যবহৃত মানব-রচিত রেফারেন্স সারাংশগুলি প্রায়ই গুরুত্বের বিষয়গত নির্ধারণের উপর ভিত্তি করে উচ্চ পরিবর্তনশীলতা প্রদর্শন করে
  • সাবলীলতা, পঠনযোগ্যতা এবং সমন্বয়ের মতো সারসংক্ষেপের মানের সূক্ষ্ম দিকগুলি প্রোগ্রামগতভাবে পরিমাপ করা কঠিন বলে প্রমাণিত হয়
  • পরিসংখ্যানগত অ্যালগরিদম থেকে নিউরাল নেটওয়ার্ক পর্যন্ত সারসংক্ষেপ পদ্ধতি জুড়ে বিস্তৃত বৈচিত্র বিদ্যমান, সরাসরি তুলনা জটিল করে তোলে

রিকল ওরিয়েন্টেড আন্ডারস্টাডি ফর জিস্টিং ইভালুয়েশন (ROUGE)

ROUGE মেট্রিক্স, যেমন ROUGE-N এবং ROUGE-L, মানব-লিখিত রেফারেন্স সারাংশের তুলনায় মেশিন দ্বারা তৈরি সারাংশের গুণমান মূল্যায়নে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে। এই মেট্রিক্সগুলি এন-গ্রাম বিশ্লেষণ করে মেশিন-উত্পাদিত এবং মানব-নির্মিত সারাংশের বিষয়বস্তুর মধ্যে ওভারল্যাপ মূল্যায়নের উপর ফোকাস করে, যা শব্দ বা টোকেনের গোষ্ঠী। উদাহরণস্বরূপ, ROUGE-1 পৃথক শব্দের (ইউনিগ্রাম) মিলকে মূল্যায়ন করে, যেখানে ROUGE-2 শব্দের জোড়া (বিগ্রাম) বিবেচনা করে। অতিরিক্তভাবে, ROUGE-N দুটি পাঠ্যের মধ্যে শব্দের দীর্ঘতম সাধারণ অনুক্রমের মূল্যায়ন করে, যা শব্দ ক্রমে নমনীয়তার জন্য অনুমতি দেয়।

এটি ব্যাখ্যা করার জন্য, নিম্নলিখিত উদাহরণগুলি বিবেচনা করুন:

  • ROGUE-1 মেট্রিক – ROUGE-1 উৎপন্ন সারাংশ এবং একটি রেফারেন্স সারাংশের মধ্যে ইউনিগ্রামের (একক শব্দ) ওভারল্যাপ মূল্যায়ন করে। উদাহরণস্বরূপ, যদি একটি রেফারেন্স সারাংশে "দ্রুত ব্রাউন ফক্স জাম্পস" থাকে এবং জেনারেট করা সারাংশটি হয় "দা ব্রাউন ফক্স দ্রুত লাফ দেয়", ROUGE-1 মেট্রিক "বাদামী," "ফক্স" এবং "জাম্পস" কে ওভারল্যাপিং হিসাবে বিবেচনা করবে ইউনিগ্রাম ROUGE-1 সারাংশে পৃথক শব্দের উপস্থিতির উপর দৃষ্টি নিবদ্ধ করে, উত্পন্ন সারাংশ রেফারেন্স সারাংশ থেকে মূল শব্দগুলিকে কতটা ভালভাবে ক্যাপচার করে তা পরিমাপ করে।
  • ROGUE-2 মেট্রিক – ROUGE-2 একটি উৎপন্ন সারাংশ এবং একটি রেফারেন্স সারাংশের মধ্যে বিগগ্রামের (সংলগ্ন শব্দের জোড়া) ওভারল্যাপ মূল্যায়ন করে। উদাহরণস্বরূপ, যদি রেফারেন্স সারাংশে "বিড়াল ঘুমোচ্ছে" থাকে এবং তৈরি করা সারাংশটি "একটি বিড়াল ঘুমোচ্ছে", তাহলে ROUGE-2 একটি ওভারল্যাপিং বিগ্রাম হিসাবে "বিড়ালটি" এবং "ঘুমছে" চিহ্নিত করবে। ROUGE-2 রেফারেন্স সারাংশের তুলনায় উত্পন্ন সারাংশ কতটা ভালোভাবে শব্দ জোড়ার ক্রম এবং প্রসঙ্গ বজায় রাখে তার অন্তর্দৃষ্টি প্রদান করে।
  • ROUGE-N মেট্রিক – ROUGE-N হল একটি সাধারণ রূপ যেখানে N যেকোন সংখ্যার প্রতিনিধিত্ব করে, n-গ্রামের (N শব্দের ক্রম) উপর ভিত্তি করে মূল্যায়নের অনুমতি দেয়। N=3 বিবেচনা করে, যদি রেফারেন্স সারাংশে বলা হয় "সূর্য উজ্জ্বলভাবে জ্বলছে," এবং উত্পন্ন সারাংশ হল "সূর্য উজ্জ্বলভাবে জ্বলছে", ROUGE-3 একটি মিলিত ট্রিগ্রাম হিসাবে "সূর্য উজ্জ্বলভাবে জ্বলছে" চিনবে। ROUGE-N বিভিন্ন দৈর্ঘ্যের শব্দ অনুক্রমের উপর ভিত্তি করে সারাংশ মূল্যায়ন করার জন্য নমনীয়তা প্রদান করে, যা বিষয়বস্তু ওভারল্যাপের আরও ব্যাপক মূল্যায়ন প্রদান করে।

এই উদাহরণগুলি ব্যাখ্যা করে যে কীভাবে ROUGE-1, ROUGE-2, এবং ROUGE-N মেট্রিক্সগুলি বিভিন্ন স্তরের শব্দ ক্রমগুলির উপর ভিত্তি করে উত্পন্ন সারাংশের সাথে রেফারেন্স সারাংশের তুলনা করে স্বয়ংক্রিয় সংক্ষিপ্তকরণ বা মেশিন অনুবাদের কাজগুলি মূল্যায়নে কাজ করে।

একটি ROUGE-N স্কোর গণনা করুন

আপনি একটি ROUGE-N স্কোর গণনা করতে নিম্নলিখিত পদক্ষেপগুলি ব্যবহার করতে পারেন:

  1. হোয়াইটস্পেস বা ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) লাইব্রেরি দ্বারা বিভক্ত করার মতো মৌলিক টোকেনাইজেশন পদ্ধতি ব্যবহার করে তৈরি করা সারাংশ এবং রেফারেন্স সারাংশকে পৃথক শব্দ বা টোকেনে টোকেনাইজ করুন।
  2. উৎপন্ন সারাংশ এবং রেফারেন্স সারাংশ উভয় থেকে n-গ্রাম (N শব্দের সংলগ্ন ক্রম) তৈরি করুন।
  3. উৎপন্ন সারাংশ এবং রেফারেন্স সারাংশের মধ্যে ওভারল্যাপিং n-গ্রামের সংখ্যা গণনা করুন।
  4. নির্ভুলতা, প্রত্যাহার এবং F1 স্কোর গণনা করুন:
    • স্পষ্টতা – উৎপন্ন সারাংশে n-গ্রামের মোট সংখ্যা দ্বারা ভাগ করা ওভারল্যাপিং n-গ্রামের সংখ্যা।
    • প্রত্যাহার - রেফারেন্স সারাংশে n-গ্রামের মোট সংখ্যা দ্বারা ভাগ করা ওভারল্যাপিং n-গ্রামের সংখ্যা।
    • F1 স্কোর - নির্ভুলতা এবং স্মরণের হারমোনিক গড়, হিসাবে গণনা করা হয় (2 * নির্ভুলতা * রিকল) / (নির্ভুলতা + প্রত্যাহার)।
  5. ডেটাসেটের প্রতিটি সারির জন্য নির্ভুলতা, প্রত্যাহার এবং F1 স্কোর গণনা থেকে প্রাপ্ত মোট F1 স্কোরকে ROUGE-N স্কোর হিসাবে বিবেচনা করা হয়।

সীমাবদ্ধতা

ROGUE এর নিম্নলিখিত সীমাবদ্ধতা রয়েছে:

  • আভিধানিক ওভারল্যাপের উপর সংকীর্ণ ফোকাস – ROUGE-এর পিছনে মূল ধারণা হল সিস্টেম-উত্পন্ন সারাংশকে রেফারেন্সের সেট বা মানব-সৃষ্ট সারাংশের সাথে তুলনা করা এবং তাদের মধ্যে আভিধানিক ওভারল্যাপ পরিমাপ করা। এর অর্থ হল ROUGE-এর শব্দ-স্তরের মিলের উপর খুব সংকীর্ণ ফোকাস রয়েছে। এটি আসলে সারাংশের শব্দার্থিক অর্থ, সুসংগততা বা পাঠযোগ্যতার মূল্যায়ন করে না। একটি সিস্টেম একটি সুসংগত বা সংক্ষিপ্ত সারাংশ তৈরি না করে, মূল পাঠ্য থেকে শব্দের জন্য শব্দের বাক্য বের করে উচ্চ ROUGE স্কোর অর্জন করতে পারে।
  • প্যারাফ্রেজিংয়ের প্রতি সংবেদনশীলতা – যেহেতু ROUGE আভিধানিক মিলের উপর নির্ভর করে, এটি শব্দ এবং বাক্যাংশের মধ্যে শব্দার্থিক সমতা সনাক্ত করতে পারে না। অতএব, অর্থ সংরক্ষিত থাকলেও, প্যারাফ্রেজিং এবং প্রতিশব্দের ব্যবহার প্রায়ই কম ROUGE স্কোর নিয়ে যায়। এটি একটি বিমূর্ত উপায়ে প্যারাফ্রেজ বা সারসংক্ষেপ করা সিস্টেমগুলিকে অসুবিধা করে।
  • শব্দার্থক বোঝার অভাব - ROUGE মূল্যায়ন করে না যে সিস্টেমটি প্রকৃত পাঠ্যের অর্থ এবং ধারণাগুলি বুঝতে পেরেছিল কিনা৷ একটি সারাংশ রেফারেন্সের সাথে উচ্চ আভিধানিক ওভারল্যাপ অর্জন করতে পারে, যেখানে মূল ধারণাগুলি অনুপস্থিত থাকে বা বাস্তবগত অসঙ্গতি থাকে। ROUGE এই সমস্যাগুলি চিহ্নিত করবে না।

কখন ROUGE ব্যবহার করবেন

ROUGE হিসাব করা সহজ এবং দ্রুত। বিষয়বস্তু নির্বাচন সম্পর্কিত সারাংশ মানের জন্য এটি একটি বেসলাইন বা বেঞ্চমার্ক হিসাবে ব্যবহার করুন। বিমূর্ত সংক্ষিপ্তকরণ কার্য, স্বয়ংক্রিয় সংক্ষিপ্তকরণ মূল্যায়ন, এলএলএম-এর মূল্যায়ন এবং বিভিন্ন সংক্ষিপ্তকরণ পদ্ধতির তুলনামূলক বিশ্লেষণের সাথে জড়িত পরিস্থিতিতে ROUGE মেট্রিক্স সবচেয়ে কার্যকরভাবে নিযুক্ত করা হয়। এই প্রসঙ্গে ROUGE মেট্রিক্স ব্যবহার করে, স্টেকহোল্ডাররা সারাংশ তৈরির প্রক্রিয়াগুলির গুণমান এবং কার্যকারিতা পরিমাণগতভাবে মূল্যায়ন করতে পারে।

স্পষ্ট আদেশের সাথে অনুবাদের মূল্যায়নের জন্য মেট্রিক (METEOR)

সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের একটি প্রধান চ্যালেঞ্জ হল উৎস পাঠ্য থেকে প্রাসঙ্গিক শব্দ এবং বাক্যাংশ নির্বাচন করার পরিবর্তে উত্পন্ন সারাংশ কতটা ভালভাবে যৌক্তিকভাবে প্রবাহিত হয় তা মূল্যায়ন করা। কেবল প্রাসঙ্গিক কীওয়ার্ড এবং বাক্যগুলি নিষ্কাশন করা অগত্যা একটি সুসংগত এবং সমন্বিত সারাংশ তৈরি করে না। সারাংশটি মসৃণভাবে প্রবাহিত হওয়া উচিত এবং যৌক্তিকভাবে ধারণাগুলিকে সংযুক্ত করা উচিত, এমনকি যদি সেগুলি মূল নথির মতো একই ক্রমে উপস্থাপন করা না হয়।

শব্দগুলিকে তাদের মূল বা বেস ফর্মে হ্রাস করে মেলার নমনীয়তা (উদাহরণস্বরূপ, স্টেমিংয়ের পরে, "দৌড়ানো", "রান" এবং "রান" এর মতো শব্দগুলি সব "রান" হয়ে যায়) এবং সমার্থক শব্দের অর্থ উল্কা সংক্ষিপ্ত মানের মানুষের বিচারের সাথে আরও ভাল সম্পর্কযুক্ত। শব্দের ভিন্নতা থাকলেও গুরুত্বপূর্ণ বিষয়বস্তু সংরক্ষিত আছে কিনা তা চিহ্নিত করতে পারে। এটি ROUGE-এর মতো n-গ্রাম ভিত্তিক মেট্রিকগুলির উপর একটি মূল সুবিধা, যা শুধুমাত্র সঠিক টোকেন মিলগুলি সন্ধান করে৷ METEOR সারাংশগুলিতেও উচ্চ স্কোর দেয় যা রেফারেন্স থেকে সবচেয়ে গুরুত্বপূর্ণ বিষয়বস্তুর উপর ফোকাস করে। পুনরাবৃত্তিমূলক বা অপ্রাসঙ্গিক তথ্যের জন্য নিম্ন স্কোর দেওয়া হয়। এটি শুধুমাত্র সবচেয়ে গুরুত্বপূর্ণ বিষয়বস্তু রাখার জন্য সারসংক্ষেপের লক্ষ্যের সাথে সারিবদ্ধ করে। METEOR হল একটি শব্দার্থগতভাবে অর্থপূর্ণ মেট্রিক যা পাঠ্য সংক্ষিপ্তকরণের মূল্যায়নের জন্য n-গ্রাম মিলের কিছু সীমাবদ্ধতা অতিক্রম করতে পারে। স্টেমিং এবং প্রতিশব্দের অন্তর্ভুক্তি তথ্য ওভারল্যাপ এবং বিষয়বস্তু নির্ভুলতার আরও ভাল মূল্যায়নের অনুমতি দেয়।

এটি ব্যাখ্যা করার জন্য, নিম্নলিখিত উদাহরণগুলি বিবেচনা করুন:

রেফারেন্স সারাংশ: শরৎকালে পাতা পড়ে।

উত্পন্ন সারাংশ 1: শরত্কালে পাতা ঝরে পড়ে।

উত্পন্ন সারাংশ 2: গ্রীষ্মে সবুজ পাতা।

রেফারেন্স এবং উত্পন্ন সারাংশ 1 এর মধ্যে মেলে এমন শব্দগুলি হাইলাইট করা হয়েছে:

রেফারেন্স সারাংশ: পাতার পতন শরতের সময়

উত্পন্ন সারাংশ 1: পাতার dropুকুন পতন.

যদিও "পতন" এবং "শরৎ" ভিন্ন টোকেন, METEOR তাদের সমার্থক শব্দ হিসেবে স্বীকৃতি দেয়। "ড্রপ" এবং "পতন" একটি স্টেমড মিল হিসাবে চিহ্নিত করা হয়। জেনারেট করা সারাংশ 2-এর জন্য, রেফারেন্স সারাংশের সাথে "লিভস" ছাড়া কোন মিল নেই, তাই এই সারাংশটি অনেক কম METEOR স্কোর পাবে। যত বেশি শব্দার্থগতভাবে অর্থপূর্ণ মিল, METEOR স্কোর তত বেশি। এটি METEOR কে সহজ এন-গ্রাম মিলের তুলনায় সারাংশের বিষয়বস্তু এবং নির্ভুলতা আরও ভালভাবে মূল্যায়ন করতে দেয়।

একটি METEOR স্কোর গণনা করুন

একটি METEOR স্কোর গণনা করতে নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. হোয়াইটস্পেস বা NLP লাইব্রেরি দ্বারা বিভক্ত করার মতো মৌলিক টোকেনাইজেশন পদ্ধতি ব্যবহার করে তৈরি করা সারাংশ এবং রেফারেন্স সারাংশকে পৃথক শব্দ বা টোকেনে টোকেনাইজ করুন।
  2. ইউনিগ্রাম নির্ভুলতা, প্রত্যাহার, এবং F-মান স্কোর গণনা করুন, নির্ভুলতার চেয়ে স্মরণে বেশি গুরুত্ব দেয়।
  3. তাদের অতিরিক্ত জোর এড়াতে সঠিক ম্যাচের জন্য একটি পেনাল্টি প্রয়োগ করুন। ডেটাসেটের বৈশিষ্ট্য, কাজের প্রয়োজনীয়তা এবং নির্ভুলতা এবং প্রত্যাহার মধ্যে ভারসাম্যের উপর ভিত্তি করে জরিমানাটি বেছে নেওয়া হয়। ধাপ 2 এ গণনা করা F-মান স্কোর থেকে এই শাস্তি বিয়োগ করুন।
  4. স্টেমড ফর্মের জন্য F-মান স্কোর গণনা করুন (শব্দগুলিকে তাদের বেস বা রুট ফর্মে হ্রাস করা) এবং যেখানে প্রযোজ্য সেখানে ইউনিগ্রামের প্রতিশব্দ। চূড়ান্ত METEOR স্কোর পেতে পূর্বের গণনাকৃত F-মান স্কোরের সাথে এটিকে একত্রিত করুন। METEOR স্কোরের রেঞ্জ 0-1, যেখানে 0 উৎপন্ন সারাংশ এবং রেফারেন্স সারাংশের মধ্যে কোন মিল নির্দেশ করে না এবং 1 নিখুঁত প্রান্তিককরণ নির্দেশ করে। সাধারণত, সারসংক্ষেপ স্কোর 0-0.6 এর মধ্যে পড়ে।

সীমাবদ্ধতা

সংক্ষিপ্তকরণ কার্যগুলি মূল্যায়নের জন্য METEOR মেট্রিক নিয়োগ করার সময়, বেশ কয়েকটি চ্যালেঞ্জ দেখা দিতে পারে:

  • শব্দার্থগত জটিলতা – METEOR এর শব্দার্থিক মিলের উপর জোর দেওয়া জটিল সংক্ষিপ্তকরণের কাজগুলিতে সূক্ষ্ম অর্থ এবং প্রসঙ্গ ক্যাপচার করতে সংগ্রাম করতে পারে, সম্ভাব্য মূল্যায়নে ভুলের দিকে নিয়ে যায়।
  • রেফারেন্স পরিবর্তনশীলতা - মানব-উত্পাদিত রেফারেন্স সারাংশের পরিবর্তনশীলতা METEOR স্কোরকে প্রভাবিত করতে পারে, কারণ রেফারেন্স বিষয়বস্তুর পার্থক্য মেশিন দ্বারা তৈরি সারাংশের মূল্যায়নকে প্রভাবিত করতে পারে।
  • ভাষাগত বৈচিত্র্য – METEOR-এর কার্যকারিতা ভাষাগত ভিন্নতা, বাক্য গঠনের পার্থক্য এবং শব্দার্থগত সূক্ষ্মতার কারণে বিভিন্ন ভাষায় পরিবর্তিত হতে পারে, যা বহুভাষিক সংক্ষিপ্তকরণ মূল্যায়নে চ্যালেঞ্জ তৈরি করে।
  • দৈর্ঘ্যের অমিল - বিভিন্ন দৈর্ঘ্যের সারাংশের মূল্যায়ন করা METEOR-এর জন্য চ্যালেঞ্জিং হতে পারে, কারণ রেফারেন্স সারাংশের তুলনায় দৈর্ঘ্যের অসঙ্গতির ফলে মূল্যায়নে জরিমানা বা ভুল হতে পারে।
  • প্যারামিটার টিউনিং - বিভিন্ন ডেটাসেট এবং সংক্ষিপ্তকরণের কাজগুলির জন্য METEOR-এর পরামিতিগুলিকে অপ্টিমাইজ করা সময়সাপেক্ষ হতে পারে এবং মেট্রিকটি সঠিক মূল্যায়ন প্রদান করে তা নিশ্চিত করার জন্য যত্নশীল টিউনিংয়ের প্রয়োজন।
  • মূল্যায়ন পক্ষপাত - নির্দিষ্ট সংক্ষিপ্তসার ডোমেন বা কাজের জন্য সঠিকভাবে সামঞ্জস্য বা ক্যালিব্রেট করা না হলে METEOR-এর সাথে মূল্যায়ন পক্ষপাতের ঝুঁকি রয়েছে। এটি সম্ভাব্যভাবে তির্যক ফলাফলের দিকে পরিচালিত করতে পারে এবং মূল্যায়ন প্রক্রিয়ার নির্ভরযোগ্যতাকে প্রভাবিত করতে পারে।

এই চ্যালেঞ্জগুলি সম্পর্কে সচেতন হয়ে এবং সংক্ষিপ্তকরণের কাজের জন্য মেট্রিক হিসাবে METEOR ব্যবহার করার সময় সেগুলি বিবেচনা করে, গবেষক এবং অনুশীলনকারীরা সম্ভাব্য সীমাবদ্ধতাগুলি নেভিগেট করতে পারেন এবং তাদের মূল্যায়ন প্রক্রিয়াগুলিতে আরও সচেতন সিদ্ধান্ত নিতে পারেন।

কখন METEOR ব্যবহার করবেন

METEOR সাধারণত স্বয়ংক্রিয়ভাবে পাঠ্যের সারাংশের গুণমান মূল্যায়ন করতে ব্যবহৃত হয়। সংক্ষিপ্ত বিষয়গুলিতে ধারণা, ধারণা বা সত্তার ক্রম যখন মূল্যায়ন মেট্রিক হিসাবে METEOR ব্যবহার করা বাঞ্ছনীয়। METEOR ক্রম বিবেচনা করে এবং উত্পন্ন সারাংশ এবং রেফারেন্স সারাংশের মধ্যে n-গ্রাম মেলে। এটি সারাংশকে পুরস্কৃত করে যা ক্রমিক তথ্য সংরক্ষণ করে। ROUGE-এর মতো মেট্রিক্সের বিপরীতে, যা রেফারেন্স সারাংশের সাথে n-গ্রামের ওভারল্যাপের উপর নির্ভর করে, METEOR কান্ড, সমার্থক শব্দ এবং প্যারাফ্রেজের সাথে মেলে। METEOR ভাল কাজ করে যখন মূল পাঠ্যের সংক্ষিপ্তসারের একাধিক সঠিক উপায় থাকতে পারে। METEOR WordNet প্রতিশব্দ এবং স্টেমড টোকেনগুলিকে অন্তর্ভুক্ত করে যখন n-গ্রামের সাথে মিলে যায়। সংক্ষেপে, সারাংশ যেগুলি শব্দার্থগতভাবে একই রকম তবে ভিন্ন শব্দ বা বাক্যাংশ ব্যবহার করে এখনও ভাল স্কোর করবে। METEOR এর পুনরাবৃত্তিমূলক n-গ্রাম সহ সারাংশের জন্য অন্তর্নির্মিত শাস্তি রয়েছে। অতএব, এটি শব্দের জন্য শব্দ নিষ্কাশন বা বিমূর্তকরণের অভাবকে নিরুৎসাহিত করে। METEOR একটি ভাল পছন্দ যখন শব্দার্থগত সাদৃশ্য, ধারণার ক্রম, এবং সাবলীল বাক্যাংশ সারাংশের গুণমান বিচার করার জন্য গুরুত্বপূর্ণ। এটি এমন কাজের জন্য কম উপযুক্ত যেখানে শুধুমাত্র রেফারেন্স সারাংশের সাথে আভিধানিক ওভারল্যাপ গুরুত্বপূর্ণ।

BERTScore

সারফেস-লেভেল আভিধানিক পরিমাপ যেমন ROUGE এবং METEOR একটি প্রার্থীর সারাংশ এবং একটি রেফারেন্স সারাংশের মধ্যে শব্দ ওভারল্যাপ তুলনা করে সারসংক্ষেপ সিস্টেমের মূল্যায়ন করে। যাইহোক, তারা শব্দ এবং বাক্যাংশের মধ্যে সঠিক স্ট্রিং মিলের উপর খুব বেশি নির্ভর করে। এর অর্থ হল তারা শব্দ এবং বাক্যাংশগুলির মধ্যে শব্দার্থিক মিলগুলি মিস করতে পারে যেগুলির পৃষ্ঠের বিভিন্ন রূপ রয়েছে তবে একই অন্তর্নিহিত অর্থ রয়েছে। শুধুমাত্র পৃষ্ঠের মিলের উপর নির্ভর করে, এই মেট্রিক্সগুলি সিস্টেম সারাংশের গুণমানকে অবমূল্যায়ন করতে পারে যা রেফারেন্স সারাংশ থেকে ভিন্নভাবে সমার্থক শব্দ বা প্যারাফ্রেজ ধারণাগুলি ব্যবহার করে। দুটি সারাংশ প্রায় অভিন্ন তথ্য জানাতে পারে কিন্তু শব্দভান্ডারের পার্থক্যের কারণে নিম্ন পৃষ্ঠ-স্তরের স্কোর পায়।

BERTScore একটি মানুষের দ্বারা লিখিত একটি রেফারেন্স সারাংশের সাথে তুলনা করে একটি সারাংশ কতটা ভাল তা স্বয়ংক্রিয়ভাবে মূল্যায়ন করার একটি উপায়। প্রার্থীর সারাংশ এবং রেফারেন্স সারাংশে শব্দের অর্থ এবং প্রসঙ্গ বোঝার জন্য এটি BERT, একটি জনপ্রিয় NLP কৌশল ব্যবহার করে। বিশেষত, এটি প্রার্থীর সারাংশে প্রতিটি শব্দ বা টোকেন দেখে এবং BERT এম্বেডিংয়ের উপর ভিত্তি করে রেফারেন্স সারাংশে সবচেয়ে অনুরূপ শব্দ খুঁজে পায়, যা প্রতিটি শব্দের অর্থ এবং প্রসঙ্গের ভেক্টর উপস্থাপনা। এটি কোসাইন সাদৃশ্য ব্যবহার করে সাদৃশ্য পরিমাপ করে, যা বলে যে ভেক্টরগুলি একে অপরের কতটা কাছাকাছি। প্রার্থীর সারাংশের প্রতিটি শব্দের জন্য, এটি BERT-এর ভাষা বোঝার মাধ্যমে রেফারেন্স সারাংশে সবচেয়ে সম্পর্কিত শব্দ খুঁজে পায়। প্রার্থীর সারাংশ রেফারেন্স সারাংশের সাথে কতটা শব্দার্থগতভাবে মিল রয়েছে তার সামগ্রিক স্কোর পেতে এটি পুরো সারাংশ জুড়ে এই সমস্ত শব্দের মিলের তুলনা করে। BERT দ্বারা ক্যাপচার করা শব্দ এবং অর্থের মিল যত বেশি, BERTScore তত বেশি। এটি প্রতিটি সময় মানুষের মূল্যায়নের প্রয়োজন ছাড়াই এটিকে একটি মানব রেফারেন্সের সাথে তুলনা করে একটি উত্পন্ন সারাংশের গুণমান স্বয়ংক্রিয়ভাবে মূল্যায়ন করতে দেয়।

এটিকে ব্যাখ্যা করার জন্য, কল্পনা করুন যে আপনার কাছে একটি যন্ত্র-উত্পাদিত সারাংশ রয়েছে: "দ্রুত বাদামী শিয়াল অলস কুকুরের উপর ঝাঁপ দেয়।" এখন, আসুন একটি মানব-নির্মিত রেফারেন্স সারাংশ বিবেচনা করা যাক: "একটি দ্রুত বাদামী শিয়াল একটি ঘুমন্ত কুকুরের উপর লাফাচ্ছে।"

একটি BERTScore গণনা করুন

একটি BERTScore গণনা করতে নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. BERTScore প্রার্থী (মেশিন-উত্পাদিত) এবং রেফারেন্স (মানব-নির্মিত) বাক্য উভয় ক্ষেত্রেই প্রতিটি টোকেন উপস্থাপন করতে প্রাসঙ্গিক এম্বেডিং ব্যবহার করে। প্রাসঙ্গিক এম্বেডিং হল NLP-তে এক ধরনের শব্দ উপস্থাপনা যা একটি বাক্য বা পাঠ্যের মধ্যে তার প্রসঙ্গের উপর ভিত্তি করে একটি শব্দের অর্থ ক্যাপচার করে। প্রথাগত শব্দ এমবেডিংগুলির বিপরীতে যা প্রতিটি শব্দের প্রসঙ্গ নির্বিশেষে একটি নির্দিষ্ট ভেক্টর বরাদ্দ করে, প্রাসঙ্গিক এম্বেডিংগুলি একটি নির্দিষ্ট বাক্যে কীভাবে ব্যবহৃত হয় তার উপর নির্ভর করে প্রতিটি শব্দের জন্য একটি অনন্য উপস্থাপনা তৈরি করতে আশেপাশের শব্দগুলিকে বিবেচনা করে।
  2. মেট্রিক তারপর কোসাইন সাদৃশ্য ব্যবহার করে রেফারেন্স বাক্যে প্রতিটি টোকেনের সাথে প্রার্থী বাক্যে প্রতিটি টোকেনের মধ্যে সাদৃশ্য গণনা করে। কোসাইন সাদৃশ্য আমাদের মাল্টি-ডাইমেনশনাল স্পেসে যে দিক নির্দেশ করে তার উপর ফোকাস করে ডেটার দুটি সেট কতটা ঘনিষ্ঠভাবে সম্পর্কিত তা পরিমাপ করতে সাহায্য করে, এটি অনুসন্ধান অ্যালগরিদম, এনএলপি এবং সুপারিশ সিস্টেমের মতো কাজের জন্য একটি মূল্যবান হাতিয়ার করে তোলে।
  3. সমস্ত টোকেনের জন্য প্রাসঙ্গিক এম্বেডিং এবং কম্পিউটিং সাদৃশ্য স্কোর তুলনা করে, BERTScore একটি ব্যাপক মূল্যায়ন তৈরি করে যা মানব-নির্মিত রেফারেন্সের তুলনায় জেনারেট করা সারাংশের শব্দার্থগত প্রাসঙ্গিকতা এবং প্রসঙ্গ ক্যাপচার করে।
  4. চূড়ান্ত BERTScore আউটপুট একটি সাদৃশ্য স্কোর প্রদান করে যা প্রতিফলিত করে যে মেশিন-উত্পাদিত সারাংশ অর্থ এবং প্রসঙ্গের পরিপ্রেক্ষিতে রেফারেন্স সারাংশের সাথে কতটা সারিবদ্ধ।

সংক্ষেপে, BERTScore শব্দার্থগত সূক্ষ্মতা এবং বাক্যের প্রেক্ষাপট বিবেচনা করে প্রথাগত মেট্রিক্সের বাইরে চলে যায়, আরও পরিশীলিত মূল্যায়নের প্রস্তাব দেয় যা মানুষের বিচারকে ঘনিষ্ঠভাবে প্রতিফলিত করে। এই উন্নত পদ্ধতিটি সংক্ষিপ্তকরণ কার্যের মূল্যায়নের নির্ভুলতা এবং নির্ভরযোগ্যতা বাড়ায়, যা BERTScore কে পাঠ্য প্রজন্মের সিস্টেমের মূল্যায়নের একটি মূল্যবান হাতিয়ার করে তোলে।

সীমাবদ্ধতা:

যদিও BERTScore সংক্ষিপ্তকরণের কাজগুলি মূল্যায়নের ক্ষেত্রে উল্লেখযোগ্য সুবিধা প্রদান করে, এটি কিছু সীমাবদ্ধতার সাথেও আসে যা বিবেচনা করা প্রয়োজন:

  • কম্পিউটেশনাল তীব্রতা - BERT-এর মতো প্রাক-প্রশিক্ষিত ভাষা মডেলের উপর নির্ভর করার কারণে BERTScore গণনামূলকভাবে নিবিড় হতে পারে। এর ফলে মূল্যায়নের সময় বেশি হতে পারে, বিশেষ করে যখন টেক্সট ডেটার বড় ভলিউম প্রক্রিয়া করা হয়।
  • প্রাক-প্রশিক্ষিত মডেলের উপর নির্ভরতা – BERTScore-এর কার্যকারিতা ব্যবহৃত প্রাক-প্রশিক্ষিত ভাষা মডেলের গুণমান এবং প্রাসঙ্গিকতার উপর অত্যন্ত নির্ভরশীল। এমন পরিস্থিতিতে যেখানে প্রাক-প্রশিক্ষিত মডেল পাঠ্যের সূক্ষ্মতাগুলি যথাযথভাবে ক্যাপচার করতে পারে না, মূল্যায়নের ফলাফল প্রভাবিত হতে পারে।
  • স্কেলেবিলিটি - বড় ডেটাসেট বা রিয়েল-টাইম অ্যাপ্লিকেশনের জন্য BERTScore স্কেল করা তার গণনাগত চাহিদার কারণে চ্যালেঞ্জিং হতে পারে। উৎপাদন পরিবেশে BERTScore প্রয়োগ করার জন্য দক্ষ কর্মক্ষমতা প্রদানের জন্য অপ্টিমাইজেশন কৌশল প্রয়োজন হতে পারে।
  • ডোমেনের নির্দিষ্টতা - BERTScore-এর কর্মক্ষমতা বিভিন্ন ডোমেন বা বিশেষায়িত টেক্সট প্রকারভেদে পরিবর্তিত হতে পারে। নির্দিষ্ট ডোমেন বা কাজের সাথে মেট্রিক মানিয়ে নেওয়ার জন্য সঠিক মূল্যায়ন তৈরি করতে সূক্ষ্ম-টিউনিং বা সামঞ্জস্যের প্রয়োজন হতে পারে।
  • ব্যাখ্যাযোগ্যতা – যদিও BERTScore প্রাসঙ্গিক এম্বেডিংয়ের উপর ভিত্তি করে একটি ব্যাপক মূল্যায়ন প্রদান করে, প্রতিটি টোকেনের জন্য উত্পন্ন সাদৃশ্য স্কোরের পিছনে নির্দিষ্ট কারণ ব্যাখ্যা করা জটিল হতে পারে এবং অতিরিক্ত বিশ্লেষণের প্রয়োজন হতে পারে।
  • রেফারেন্স-মুক্ত মূল্যায়ন – যদিও BERTScore মূল্যায়নের জন্য রেফারেন্স সারাংশের উপর নির্ভরতা কমায়, এই রেফারেন্স-মুক্ত পদ্ধতিটি সারসংক্ষেপের মানের সমস্ত দিক সম্পূর্ণরূপে ক্যাপচার করতে পারে না, বিশেষ করে এমন পরিস্থিতিতে যেখানে মানব-নির্মিত রেফারেন্সগুলি বিষয়বস্তুর প্রাসঙ্গিকতা এবং সুসংগততা মূল্যায়নের জন্য অপরিহার্য।

এই সীমাবদ্ধতাগুলি স্বীকার করা আপনাকে সংক্ষিপ্তকরণের কাজগুলি মূল্যায়ন করার জন্য মেট্রিক হিসাবে BERTScore ব্যবহার করার সময়, এর শক্তি এবং সীমাবদ্ধতাগুলির একটি ভারসাম্যপূর্ণ উপলব্ধি প্রদান করার সময় আপনাকে জ্ঞাত সিদ্ধান্ত নিতে সাহায্য করতে পারে।

কখন BERTScore ব্যবহার করবেন

BERTScore একটি রেফারেন্স সারাংশের সাথে উত্পন্ন সারাংশের তুলনা করে পাঠ্য সারাংশের গুণমান মূল্যায়ন করতে পারে। এটি সঠিক শব্দ বা বাক্যাংশের মিলের বাইরে শব্দার্থিক সাদৃশ্য পরিমাপ করতে BERT-এর মতো নিউরাল নেটওয়ার্ক ব্যবহার করে। এটি BERTScore কে খুবই উপযোগী করে তোলে যখন শব্দার্থগত বিশ্বস্ততা সম্পূর্ণ অর্থ এবং বিষয়বস্তু সংরক্ষণ করা আপনার সারসংক্ষেপের কাজের জন্য গুরুত্বপূর্ণ। BERTScore সারাংশগুলিকে উচ্চতর স্কোর দেবে যা রেফারেন্স সারাংশের মতো একই তথ্য প্রকাশ করে, এমনকি যদি তারা বিভিন্ন শব্দ এবং বাক্য গঠন ব্যবহার করে। মূল কথা হল BERTScore সংক্ষিপ্তকরণ কাজের জন্য আদর্শ যেখানে শুধুমাত্র কীওয়ার্ড বা বিষয় নয় সম্পূর্ণ শব্দার্থিক অর্থ বজায় রাখা গুরুত্বপূর্ণ। এর উন্নত নিউরাল স্কোরিং এটিকে পৃষ্ঠ-স্তরের শব্দ মিলের বাইরে অর্থ তুলনা করতে দেয়। এটি এমন ক্ষেত্রে উপযুক্ত করে তোলে যেখানে শব্দের সূক্ষ্ম পার্থক্যগুলি সামগ্রিক অর্থ এবং প্রভাবকে উল্লেখযোগ্যভাবে পরিবর্তন করতে পারে। BERTScore, বিশেষ করে, শব্দার্থগত সাদৃশ্য ক্যাপচার করতে পারদর্শী, যেটি Retrieval Augmented Generation (RAG) মডেল দ্বারা উত্পাদিত মত বিমূর্ত সারাংশের গুণমান মূল্যায়নের জন্য অত্যন্ত গুরুত্বপূর্ণ।

মডেল মূল্যায়ন কাঠামো

মডেল মূল্যায়ন ফ্রেমওয়ার্কগুলি বিভিন্ন সারাংশ মডেলের কর্মক্ষমতা সঠিকভাবে পরিমাপ করার জন্য অপরিহার্য। এই ফ্রেমওয়ার্কগুলি মডেলের তুলনা করতে, উত্পন্ন সারাংশ এবং উত্স বিষয়বস্তুর মধ্যে সমন্বয় প্রদান এবং মূল্যায়ন পদ্ধতিতে ঘাটতিগুলি চিহ্নিত করতে সহায়ক। পুঙ্খানুপুঙ্খ মূল্যায়ন এবং সামঞ্জস্যপূর্ণ বেঞ্চমার্কিং পরিচালনার মাধ্যমে, এই কাঠামোগুলি প্রমিত মূল্যায়ন অনুশীলনের সমর্থন করে এবং বহুমুখী মডেল তুলনা সক্ষম করে পাঠ্য সংক্ষিপ্তকরণ গবেষণাকে এগিয়ে নিয়ে যায়।

এডব্লিউএস, দ FMEval লাইব্রেরি মধ্যে আমাজন সেজমেকার স্পষ্ট করুন পাঠ্য সংক্ষিপ্তকরণ, প্রশ্নের উত্তর এবং শ্রেণীবিভাগের মতো কাজের জন্য ভিত্তি মডেলের (এফএম) মূল্যায়ন এবং নির্বাচনকে স্ট্রীমলাইন করে। এটি আপনাকে নির্ভুলতা, দৃঢ়তা, সৃজনশীলতা, পক্ষপাত এবং বিষাক্ততার মতো মেট্রিক্সের উপর ভিত্তি করে FM মূল্যায়ন করার ক্ষমতা দেয়, যা এলএলএম-এর জন্য স্বয়ংক্রিয় এবং মানব-ইন-দ্য-লুপ মূল্যায়নকে সমর্থন করে। UI-ভিত্তিক বা প্রোগ্রাম্যাটিক মূল্যায়নের সাথে, FMEval মডেলের ঝুঁকি যেমন ভুলতা, বিষাক্ততা বা পক্ষপাতের পরিমাণ নির্ণয় করতে ভিজ্যুয়ালাইজেশন সহ বিশদ প্রতিবেদন তৈরি করে, যা সংস্থাগুলিকে তাদের দায়ী জেনারেটিভ AI নির্দেশিকাগুলির সাথে সারিবদ্ধ হতে সহায়তা করে। এই বিভাগে, আমরা প্রদর্শন করি কিভাবে FMEval লাইব্রেরি ব্যবহার করতে হয়।

অ্যামাজন বেডরক ব্যবহার করে সংক্ষিপ্তকরণের নির্ভুলতার উপর Claude v2 মূল্যায়ন করুন

নিম্নলিখিত কোড স্নিপেটটি পাইথন কোড ব্যবহার করে অ্যানথ্রপিক ক্লড মডেলের সাথে কীভাবে ইন্টারঅ্যাক্ট করতে হয় তার একটি উদাহরণ:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

সহজ শর্তে, এই কোড নিম্নলিখিত ক্রিয়া সম্পাদন করে:

  1. সহ প্রয়োজনীয় লাইব্রেরি আমদানি করুন json, JSON ডেটা নিয়ে কাজ করতে।
  2. মডেল আইডি হিসাবে সংজ্ঞায়িত করুন anthropic.claude-v2 এবং অনুরোধের জন্য বিষয়বস্তুর ধরন সেট করুন।
  3. একটা তৈরি কর prompt_data পরিবর্তনশীল যা Claude মডেলের জন্য ইনপুট ডেটা গঠন করে। এই ক্ষেত্রে, এটি প্রশ্ন জিজ্ঞাসা করে "বারাক ওবামা কে?" এবং মডেল থেকে একটি প্রতিক্রিয়া আশা.
  4. একটি JSON অবজেক্ট নামক বডি তৈরি করুন যাতে প্রম্পট ডেটা অন্তর্ভুক্ত থাকে এবং অতিরিক্ত প্যারামিটার নির্দিষ্ট করুন যেমন সর্বোচ্চ সংখ্যক টোকেন তৈরি করতে হবে।
  5. ব্যবহার করে Claude মডেল আহ্বান করুন bedrock_runtime.invoke_model সংজ্ঞায়িত পরামিতি সহ।
  6. মডেল থেকে প্রতিক্রিয়া পার্স করুন, সমাপ্তি (জেনারেট করা পাঠ্য) বের করুন এবং এটি মুদ্রণ করুন।

নিশ্চিত করুন এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট (IAM) এর সাথে যুক্ত ভূমিকা অ্যামাজন সেজমেকার স্টুডিও ব্যবহারকারীর প্রোফাইলে অ্যাক্সেস আছে আমাজন বেডরক মডেল আহ্বান করা হচ্ছে। নির্দেশ করে অ্যামাজন বেডরকের জন্য পরিচয়-ভিত্তিক নীতি উদাহরণ অ্যামাজন বেডরকের জন্য সর্বোত্তম অভ্যাস এবং পরিচয়-ভিত্তিক নীতির উদাহরণগুলির জন্য নির্দেশিকা।

Claude থেকে সংক্ষিপ্ত আউটপুট মূল্যায়ন করতে FMEval লাইব্রেরি ব্যবহার করে

সংক্ষিপ্ত আউটপুট মূল্যায়ন করতে আমরা নিম্নলিখিত কোড ব্যবহার করি:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

পূর্ববর্তী কোড স্নিপেটে, FMEval লাইব্রেরি ব্যবহার করে পাঠ্য সংক্ষিপ্তকরণের মূল্যায়ন করতে, আমরা নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করি:

  1. একটা তৈরি কর ModelRunner আপনার এলএলএম-এ আহ্বান করতে। FMEval লাইব্রেরি এর জন্য অন্তর্নির্মিত সমর্থন প্রদান করে আমাজন সেজমেকার শেষ বিন্দু এবং আমাজন সেজমেকার জাম্পস্টার্ট এলএলএম এছাড়াও আপনি প্রসারিত করতে পারেন ModelRunner যেকোনো জায়গায় হোস্ট করা যেকোনো এলএলএম-এর জন্য ইন্টারফেস।
  2. সমর্থিত ব্যবহার করুন eval_algorithms আপনার মূল্যায়নের প্রয়োজনের উপর ভিত্তি করে বিষাক্ততা, সংক্ষিপ্তকরণ, নির্ভুলতা, শব্দার্থিক, এবং দৃঢ়তা।
  3. আপনার নির্দিষ্ট ব্যবহারের ক্ষেত্রে মূল্যায়ন কনফিগারেশন পরামিতি কাস্টমাইজ করুন।
  4. আপনার LLM মডেলের মূল্যায়ন করতে বিল্ট-ইন বা কাস্টম ডেটাসেট সহ মূল্যায়ন অ্যালগরিদম ব্যবহার করুন। এই ক্ষেত্রে ব্যবহৃত ডেটাসেটটি নিম্নলিখিত থেকে নেওয়া হয়েছে গিটহুব রেপো.

পড়ুন বিকাশকারী গাইড এবং উদাহরণ মূল্যায়ন অ্যালগরিদমের বিস্তারিত ব্যবহারের জন্য।

নিম্নলিখিত সারণী মূল্যায়নের ফলাফলের সংক্ষিপ্ত বিবরণ দেয়।

মডেল _ইনপুট মডেল_আউটপুট লক্ষ্য_আউটপুট প্রম্পট স্কোর meteor_score রুজ_স্কোর bert_score
জন এডওয়ার্ড
0 বেটস, পূর্বে স্প্যাল্ডিং, লিঙ্কো...
আমি কোনো নির্দিষ্ট করতে পারি না
রায়, যেমন…
সাবেক
লিঙ্কনশায়ার পুলিশ অফিসার বহন করেছেন…
মানুষ: জন
এডওয়ার্ড বেটস, পূর্বে স্পালডিং এর…
[{'নাম': 'উল্কা', 'মান':
0.101010101010101 ...
0.10101 0 0.557155
23 অক্টোবর 2015
সর্বশেষ আপডেট
17:44 BST|nIt'...
হারিকেন/ট্রপ সম্পর্কে এখানে কিছু মূল বিষয় রয়েছে.. হারিকেন প্যাট্রিসিয়াকে একটি বিভাগ হিসাবে রেট করা হয়েছে... মানুষ: 23
অক্টোবর 2015 17:44 এ সর্বশেষ আপডেট করা হয়েছে
খ…
[{'নাম': উল্কা', "মান':
0.102339181286549 ..
0.102339 0.018265 0.441421
ফেরারি আনকে চ্যালেঞ্জ করার অবস্থানে উপস্থিত হয়েছিল... এখানে নিবন্ধটির মূল পয়েন্টগুলি রয়েছে: nin… লুইস হ্যামিল্টন পোল পজিশনে ঝড় তুলেছেন… মানব: ফেরারি চ্যালেঞ্জ করার অবস্থানে উপস্থিত হয়েছিল... [{'নাম': 'উল্কা', 'মান':
0.322543352601156 ...
0.322543 0.078212 0.606487
28 বছর বয়সী বাথ-জন্ম খেলোয়াড় 36 করেছেন
উপস্থিত…
ঠিক আছে, আমাকে মূল পয়েন্টগুলি সংক্ষিপ্ত করতে দিন:/nin- E….. নিউপোর্ট গোয়েন্ট ড্রাগনস নম্বর আট এড জ্যাকসন মানব: বাথ-জন্ম প্লেয়ার, 28, করেছেন 36 একটি… [{'নাম': 'উল্কা', 'মান':
0105740181268882 ...
0.10574 0.012987 0.539488
ইঁদুর সি এর সাথে ডেটা অদলবদল করার উপায়ে দুর্বলতা… এখানে মূল পয়েন্টগুলি যা আমি একটি থেকে সংগ্রহ করেছি… হ্যাকাররা বাড়িতে প্রবেশ করতে পারে এবং হিউম্যান:
মধ্যে দুর্বলতা
swar ইঁদুর তথ্য অদলবদল
[{'নাম': 'উল্কা', 'মান':
0.201048289433848 ...
0.201048 0.021858 0.526947

নমুনা দেখুন নোটবই সংক্ষিপ্তকরণ মূল্যায়ন সম্পর্কে আরও বিশদের জন্য যা আমরা এই পোস্টে আলোচনা করেছি।

উপসংহার

ROUGE, METEOR, এবং BERTScore সবই মেশিন-উত্পাদিত সারাংশের গুণমান পরিমাপ করে, কিন্তু আভিধানিক ওভারল্যাপ, সাবলীলতা বা শব্দার্থগত মিলের মতো বিভিন্ন দিকগুলিতে ফোকাস করে। আপনার নির্দিষ্ট সারাংশ ব্যবহারের ক্ষেত্রে "ভাল" সংজ্ঞায়িত করার সাথে সারিবদ্ধ মেট্রিকটি নির্বাচন করা নিশ্চিত করুন। আপনি মেট্রিক্সের সংমিশ্রণও ব্যবহার করতে পারেন। এটি একটি আরও ভাল বৃত্তাকার মূল্যায়ন প্রদান করে এবং যেকোনো পৃথক মেট্রিকের সম্ভাব্য দুর্বলতা থেকে রক্ষা করে। সঠিক পরিমাপের সাহায্যে, আপনি আপনার সারসংক্ষেপকে পুনরাবৃত্তভাবে উন্নত করতে পারেন যাতে নির্ভুলতার কোন ধারণা সবচেয়ে বেশি গুরুত্বপূর্ণ।

অতিরিক্তভাবে, এই মডেলগুলিকে স্কেলে উৎপাদন করতে সক্ষম হওয়ার জন্য FM এবং LLM মূল্যায়ন প্রয়োজন। FMEval-এর সাথে, আপনি অনেক NLP টাস্ক জুড়ে বিল্ট-ইন অ্যালগরিদমের একটি বিশাল সেট পাবেন, তবে আপনার নিজের মডেল, ডেটাসেট এবং অ্যালগরিদমের বড় আকারের মূল্যায়নের জন্য একটি মাপযোগ্য এবং নমনীয় টুলও পাবেন। স্কেল আপ করতে, আপনি আপনার LLMOps পাইপলাইনে এই প্যাকেজটি ব্যবহার করতে পারেন একাধিক মডেল মূল্যায়ন. AWS-এ FMEval এবং কীভাবে এটি কার্যকরভাবে ব্যবহার করা যায় সে সম্পর্কে আরও জানতে, পড়ুন বড় ভাষার মডেল মূল্যায়ন করতে SageMaker Clarify ব্যবহার করুন. FM-এর মূল্যায়নে SageMaker Clarify-এর ক্ষমতা সম্পর্কে আরও বোঝার এবং অন্তর্দৃষ্টির জন্য, দেখুন অ্যামাজন সেজমেকার ক্ল্যারিফাই ফাউন্ডেশন মডেলগুলির মূল্যায়ন এবং নির্বাচন করা সহজ করে তোলে.


লেখক সম্পর্কে


দীনেশ কুমার সুব্রামণি স্কটল্যান্ডের এডিনবার্গে অবস্থিত একজন সিনিয়র সলিউশন আর্কিটেক্ট। তিনি কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং-এ বিশেষজ্ঞ, এবং আমাজনে প্রযুক্তিগত ক্ষেত্র সম্প্রদায়ের সদস্য। AWS পরিষেবা ব্যবহার করে তাদের সমস্যা সমাধানের জন্য দীনেশ যুক্তরাজ্যের কেন্দ্রীয় সরকারের গ্রাহকদের সাথে ঘনিষ্ঠভাবে কাজ করে। কাজের বাইরে, দীনেশ তার পরিবারের সাথে মানসম্পন্ন সময় কাটাতে, দাবা খেলা এবং বিভিন্ন ধরনের সঙ্গীত অন্বেষণ করতে পছন্দ করেন।


প্রণব শর্মা ইউরোপ, মধ্যপ্রাচ্য এবং আফ্রিকা জুড়ে প্রযুক্তি এবং ব্যবসায়িক রূপান্তর উদ্যোগের ড্রাইভিং একটি AWS নেতা। তার উৎপাদনে কৃত্রিম বুদ্ধিমত্তা প্ল্যাটফর্ম ডিজাইন এবং চালানোর অভিজ্ঞতা রয়েছে যা লক্ষ লক্ষ গ্রাহককে সমর্থন করে এবং ব্যবসায়িক ফলাফল প্রদান করে। তিনি গ্লোবাল ফিনান্সিয়াল সার্ভিসেস সংস্থাগুলির জন্য প্রযুক্তি এবং জনগণের নেতৃত্বের ভূমিকা পালন করেছেন। কাজের বাইরে, তিনি পড়তে, ছেলের সাথে টেনিস খেলতে এবং সিনেমা দেখতে পছন্দ করেন।

স্পট_আইএমজি

সর্বশেষ বুদ্ধিমত্তা

স্পট_আইএমজি

আমাদের সাথে খোস গল্প কর

হাই সেখানে! আপনাকে কিভাবে সাহায্য করতে পারি?