ജനറേറ്റീവ് ഡാറ്റ ഇന്റലിജൻസ്

AWS-ൽ മെച്ചപ്പെടുത്തിയ തീരുമാനമെടുക്കുന്നതിന് LLM-കളുടെ ടെക്സ്റ്റ് സംഗ്രഹ കഴിവുകൾ വിലയിരുത്തുക | ആമസോൺ വെബ് സേവനങ്ങൾ

തീയതി:

വ്യവസായങ്ങളിലുടനീളമുള്ള ഓർഗനൈസേഷനുകൾ, വിപുലമായ അളവിലുള്ള വിവരങ്ങൾ കൂടുതൽ കാര്യക്ഷമമായി കൈകാര്യം ചെയ്യുന്നതിനും മികച്ച തീരുമാനങ്ങൾ എടുക്കുന്നതിനും സ്വയമേവയുള്ള വാചക സംഗ്രഹം ഉപയോഗിക്കുന്നു. സാമ്പത്തിക മേഖലയിൽ, നിക്ഷേപ ബാങ്കുകൾ ത്രൈമാസ പ്രകടനത്തെ ദ്രുതഗതിയിൽ വിശകലനം ചെയ്യുന്നതിനായി പ്രധാന ടേക്ക്അവേകളിലേക്ക് വരുമാന റിപ്പോർട്ടുകൾ ചുരുക്കുന്നു. വാർത്തകളും സോഷ്യൽ മീഡിയകളും നിരീക്ഷിക്കാൻ മീഡിയ കമ്പനികൾ സംഗ്രഹം ഉപയോഗിക്കുന്നു, അതിനാൽ പത്രപ്രവർത്തകർക്ക് വികസ്വര വിഷയങ്ങളിൽ കഥകൾ വേഗത്തിൽ എഴുതാനാകും. നയരൂപകർത്താക്കളെ ലക്ഷ്യങ്ങൾ തന്ത്രമാക്കാനും മുൻഗണന നൽകാനും സഹായിക്കുന്നതിന് സർക്കാർ ഏജൻസികൾ ദൈർഘ്യമേറിയ നയ രേഖകളും റിപ്പോർട്ടുകളും സംഗ്രഹിക്കുന്നു.

ദൈർഘ്യമേറിയതും സങ്കീർണ്ണവുമായ പ്രമാണങ്ങളുടെ ഘനീഭവിച്ച പതിപ്പുകൾ സൃഷ്ടിക്കുന്നതിലൂടെ, സംഗ്രഹ സാങ്കേതികവിദ്യ ഉപയോക്താക്കളെ ഏറ്റവും പ്രധാനപ്പെട്ട ഉള്ളടക്കത്തിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കാൻ പ്രാപ്തമാക്കുന്നു. ഇത് നിർണായക വിവരങ്ങൾ നന്നായി മനസ്സിലാക്കുന്നതിനും നിലനിർത്തുന്നതിനും ഇടയാക്കുന്നു. സമയലാഭം, വിശാല വീക്ഷണം നേടിക്കൊണ്ട് കുറഞ്ഞ സമയത്തിനുള്ളിൽ കൂടുതൽ കാര്യങ്ങൾ അവലോകനം ചെയ്യാൻ പങ്കാളികളെ അനുവദിക്കുന്നു. മെച്ചപ്പെട്ട ധാരണയും കൂടുതൽ സമന്വയിപ്പിച്ച സ്ഥിതിവിവരക്കണക്കുകളും ഉപയോഗിച്ച്, ഓർഗനൈസേഷനുകൾക്ക് മെച്ചപ്പെട്ട വിവരമുള്ള തന്ത്രപരമായ തീരുമാനങ്ങൾ എടുക്കാനും ഗവേഷണം ത്വരിതപ്പെടുത്താനും ഉൽപ്പാദനക്ഷമത മെച്ചപ്പെടുത്താനും അവയുടെ സ്വാധീനം വർദ്ധിപ്പിക്കാനും കഴിയും. കവിഞ്ഞൊഴുകുന്ന വിവര സ്ട്രീമുകൾ പ്രയോജനപ്പെടുത്തുന്നതിന് കൂടുതൽ വ്യവസായങ്ങൾ ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസ് (AI) സ്വീകരിക്കുന്നതിനാൽ വിപുലമായ സംഗ്രഹീകരണ ശേഷികളുടെ പരിവർത്തന ശക്തി വർദ്ധിച്ചുകൊണ്ടിരിക്കും.

ഈ പോസ്റ്റിൽ, ROUGE മെട്രിക്‌സ്, METEOR, BERTScore എന്നിവയുൾപ്പെടെ സംഗ്രഹ കൃത്യത വസ്തുനിഷ്ഠമായി വിലയിരുത്തുന്നതിനുള്ള മുൻനിര സമീപനങ്ങൾ ഞങ്ങൾ പര്യവേക്ഷണം ചെയ്യുന്നു. ഈ സങ്കേതങ്ങളുടെ ശക്തിയും ബലഹീനതയും മനസ്സിലാക്കുന്നത് തിരഞ്ഞെടുക്കുന്നതിനും മെച്ചപ്പെടുത്തുന്നതിനുമുള്ള ശ്രമങ്ങളെ നയിക്കാൻ സഹായിക്കും. മൂല്യം വർദ്ധിപ്പിക്കാൻ ശ്രമിക്കുന്ന ടീമുകളെ ഈ നിർണായക ശേഷിയിൽ മികച്ച ബെഞ്ച്മാർക്ക് പ്രകടനം നടത്താൻ സഹായിക്കുന്നതിന് സംഗ്രഹ മൂല്യനിർണ്ണയം ഡീമിസ്റ്റിഫൈ ചെയ്യുക എന്നതാണ് ഈ പോസ്റ്റിൻ്റെ മൊത്തത്തിലുള്ള ലക്ഷ്യം.

സംഗ്രഹത്തിൻ്റെ തരങ്ങൾ

സംഗ്രഹത്തെ സാധാരണയായി രണ്ട് പ്രധാന തരങ്ങളായി തിരിക്കാം: എക്സ്ട്രാക്റ്റീവ് സംഗ്രഹീകരണം, അമൂർത്തമായ സംഗ്രഹം. രണ്ട് സമീപനങ്ങളും ദൈർഘ്യമേറിയ വാചകങ്ങളെ ചെറിയ രൂപങ്ങളാക്കി ചുരുക്കി, ഏറ്റവും നിർണായകമായ വിവരങ്ങളോ യഥാർത്ഥ ഉള്ളടക്കത്തിൻ്റെ സത്തയോ പിടിച്ചെടുക്കാൻ ലക്ഷ്യമിടുന്നു, പക്ഷേ അവ അടിസ്ഥാനപരമായി വ്യത്യസ്തമായ രീതിയിലാണ് ചെയ്യുന്നത്.

എക്‌സ്‌ട്രാക്റ്റീവ് സംഗ്രഹീകരണം എന്നത് യഥാർത്ഥ വാചകത്തിൽ നിന്ന് പ്രധാന ശൈലികൾ, വാക്യങ്ങൾ അല്ലെങ്കിൽ സെഗ്‌മെൻ്റുകൾ മാറ്റാതെ തന്നെ തിരിച്ചറിയുകയും എക്‌സ്‌ട്രാക്റ്റുചെയ്യുകയും ചെയ്യുന്നു. ടെക്‌സ്‌റ്റിൻ്റെ ഏറ്റവും കൂടുതൽ വിവരദായകമോ അല്ലെങ്കിൽ മൊത്തത്തിലുള്ള പ്രതിനിധിയോ ആയി കണക്കാക്കുന്ന ഭാഗങ്ങൾ സിസ്റ്റം തിരഞ്ഞെടുക്കുന്നു. കൃത്യത നിർണായകമാണെങ്കിൽ, സംഗ്രഹം യഥാർത്ഥ വാചകത്തിൽ നിന്നുള്ള കൃത്യമായ വിവരങ്ങൾ പ്രതിഫലിപ്പിക്കേണ്ടതുണ്ടെങ്കിൽ എക്സ്ട്രാക്റ്റീവ് സംഗ്രഹീകരണം ഉപയോഗപ്രദമാണ്. ഉപയോഗ നിബന്ധനകളിൽ വിവരിച്ചിരിക്കുന്ന നിർദ്ദിഷ്‌ട നിയമ നിബന്ധനകൾ, ബാധ്യതകൾ, അവകാശങ്ങൾ എന്നിവ ഹൈലൈറ്റ് ചെയ്യുന്നത് പോലുള്ള ഉപയോഗ കേസുകൾ ഇവയാകാം. എക്സ്ട്രാക്റ്റീവ് സംഗ്രഹീകരണത്തിനായി ഉപയോഗിക്കുന്ന ഏറ്റവും സാധാരണമായ ടെക്നിക്കുകൾ ടേം ഫ്രീക്വൻസി-ഇൻവേഴ്സ് ഡോക്യുമെൻ്റ് ഫ്രീക്വൻസി (ടിഎഫ്-ഐഡിഎഫ്), വാക്യ സ്കോറിംഗ്, ടെക്സ്റ്റ് റാങ്ക് അൽഗോരിതം, സൂപ്പർവൈസ്ഡ് മെഷീൻ ലേണിംഗ് (എംഎൽ) എന്നിവയാണ്.

യഥാർത്ഥ വാചകത്തിൽ ഇല്ലാത്ത പുതിയ ശൈലികളും വാക്യങ്ങളും സൃഷ്ടിച്ചുകൊണ്ട് അമൂർത്ത സംഗ്രഹം ഒരു പടി കൂടി മുന്നോട്ട് പോകുന്നു, അടിസ്ഥാനപരമായി യഥാർത്ഥ ഉള്ളടക്കം പാരാഫ്രേസ് ചെയ്യുകയും ഘനീഭവിക്കുകയും ചെയ്യുന്നു. ഈ സമീപനത്തിന് ടെക്‌സ്‌റ്റിനെക്കുറിച്ച് ആഴത്തിലുള്ള ധാരണ ആവശ്യമാണ്, കാരണം AI അർത്ഥം വ്യാഖ്യാനിക്കുകയും പുതിയതും സംക്ഷിപ്തവുമായ രൂപത്തിൽ പ്രകടിപ്പിക്കുകയും വേണം. സംഗ്രഹങ്ങൾ സൃഷ്‌ടിക്കുമ്പോൾ ഇൻപുട്ട് ടെക്‌സ്‌റ്റിൻ്റെ പ്രസക്ത ഭാഗങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കാൻ ട്രാൻസ്‌ഫോർമർ മോഡലുകൾ ശ്രദ്ധാകേന്ദ്രങ്ങൾ ഉപയോഗിക്കുന്നതിനാൽ വലിയ ഭാഷാ മോഡലുകൾ (LLMs) അമൂർത്തമായ സംഗ്രഹത്തിന് ഏറ്റവും അനുയോജ്യമാണ്. ഇൻപുട്ട് സീക്വൻസിലുള്ള വ്യത്യസ്ത വാക്കുകൾ അല്ലെങ്കിൽ ടോക്കണുകൾക്ക് വ്യത്യസ്ത ഭാരം നൽകുന്നതിന് ശ്രദ്ധാ സംവിധാനം മോഡലിനെ അനുവദിക്കുന്നു, ഇത് ദീർഘദൂര ഡിപൻഡൻസികളും സന്ദർഭോചിതമായ പ്രസക്തമായ വിവരങ്ങളും ക്യാപ്‌ചർ ചെയ്യാൻ പ്രാപ്‌തമാക്കുന്നു.

ഈ രണ്ട് പ്രാഥമിക തരങ്ങൾക്ക് പുറമേ, എക്സ്ട്രാക്റ്റീവ്, അമൂർത്തമായ രീതികൾ സംയോജിപ്പിക്കുന്ന ഹൈബ്രിഡ് സമീപനങ്ങളുണ്ട്. ഈ സമീപനങ്ങൾ ഏറ്റവും പ്രധാനപ്പെട്ട ഉള്ളടക്കം തിരിച്ചറിയുന്നതിനായി എക്സ്ട്രാക്റ്റീവ് സംഗ്രഹത്തിൽ ആരംഭിച്ചേക്കാം, തുടർന്ന് ആ ഉള്ളടക്കം ഒരു സുഗമമായ സംഗ്രഹത്തിലേക്ക് മാറ്റിയെഴുതുന്നതിനോ ചുരുക്കുന്നതിനോ അമൂർത്തമായ സാങ്കേതിക വിദ്യകൾ ഉപയോഗിക്കാം.

ആ വെല്ലുവിളി

സംഗ്രഹ ഗുണനിലവാരം വിലയിരുത്തുന്നതിനുള്ള ഒപ്റ്റിമൽ രീതി കണ്ടെത്തുന്നത് ഒരു തുറന്ന വെല്ലുവിളിയായി തുടരുന്നു. പ്രമാണങ്ങളിൽ നിന്നുള്ള പ്രധാന വിവരങ്ങൾ വാറ്റിയെടുക്കാൻ ഓർഗനൈസേഷനുകൾ ഓട്ടോമാറ്റിക് ടെക്സ്റ്റ് സംഗ്രഹത്തെ കൂടുതലായി ആശ്രയിക്കുന്നതിനാൽ, സംഗ്രഹത്തിൻ്റെ കൃത്യത അളക്കുന്നതിനുള്ള സ്റ്റാൻഡേർഡ് ടെക്നിക്കുകളുടെ ആവശ്യകത വർദ്ധിക്കുന്നു. മെഷീൻ സൃഷ്‌ടിച്ച സംഗ്രഹങ്ങൾ ഉറവിട ഗ്രന്ഥങ്ങളിൽ നിന്നും യഥാർത്ഥ അർത്ഥത്തെയും സന്ദർഭത്തെയും പ്രതിഫലിപ്പിക്കുന്ന സമന്വയ സംഗ്രഹങ്ങളിൽ നിന്നും ഏറ്റവും പ്രധാനപ്പെട്ട ഉള്ളടക്കം എത്ര നന്നായി വേർതിരിച്ചെടുക്കുന്നു എന്ന് ഈ മൂല്യനിർണ്ണയ മെട്രിക്‌സ് കണക്കാക്കും.

എന്നിരുന്നാലും, വാചക സംഗ്രഹത്തിനായി ശക്തമായ മൂല്യനിർണ്ണയ രീതികൾ വികസിപ്പിക്കുന്നത് ബുദ്ധിമുട്ടുകൾ നൽകുന്നു:

  • താരതമ്യത്തിനായി ഉപയോഗിക്കുന്ന മനുഷ്യ-രചയിതാവ് റഫറൻസ് സംഗ്രഹങ്ങൾ പലപ്പോഴും പ്രാധാന്യത്തിൻ്റെ ആത്മനിഷ്ഠമായ നിർണ്ണയങ്ങളെ അടിസ്ഥാനമാക്കി ഉയർന്ന വ്യതിയാനം കാണിക്കുന്നു.
  • സംക്ഷിപ്ത ഗുണമേന്മയുടെ ഒഴുക്ക്, വായനാക്ഷമത, യോജിപ്പ് എന്നിവ പോലുള്ള സൂക്ഷ്മമായ വശങ്ങൾ പ്രോഗ്രമാറ്റിക്കായി കണക്കാക്കാൻ പ്രയാസമാണെന്ന് തെളിയിക്കുന്നു
  • സ്റ്റാറ്റിസ്റ്റിക്കൽ അൽഗോരിതങ്ങൾ മുതൽ ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ വരെയുള്ള സംഗ്രഹ രീതികളിൽ വ്യാപകമായ വ്യത്യാസം നിലനിൽക്കുന്നു, ഇത് നേരിട്ടുള്ള താരതമ്യങ്ങളെ സങ്കീർണ്ണമാക്കുന്നു.

Gisting Evaluation (ROUGE) എന്നതിനായുള്ള തിരിച്ചുവിളി-ഓറിയൻ്റഡ് അണ്ടർസ്റ്റഡി

ROUGE മെട്രിക്കുകൾ, ROUGE-N, ROUGE-L എന്നിവ മനുഷ്യരെഴുതിയ റഫറൻസ് സംഗ്രഹങ്ങളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ യന്ത്രം സൃഷ്ടിച്ച സംഗ്രഹങ്ങളുടെ ഗുണനിലവാരം വിലയിരുത്തുന്നതിൽ നിർണായക പങ്ക് വഹിക്കുന്നു. പദങ്ങളുടെയോ ടോക്കണുകളുടെയോ ഗ്രൂപ്പായ n-grams വിശകലനം ചെയ്തുകൊണ്ട് യന്ത്രം സൃഷ്‌ടിച്ചതും മനുഷ്യൻ സൃഷ്‌ടിച്ചതുമായ സംഗ്രഹങ്ങളുടെ ഉള്ളടക്കം തമ്മിലുള്ള ഓവർലാപ്പ് വിലയിരുത്തുന്നതിൽ ഈ അളവുകൾ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു. ഉദാഹരണത്തിന്, ROUGE-1 വ്യക്തിഗത പദങ്ങളുടെ (യൂണിഗ്രാം) പൊരുത്തത്തെ വിലയിരുത്തുന്നു, അതേസമയം ROUGE-2 ജോഡി പദങ്ങൾ (ബിഗ്രാമുകൾ) പരിഗണിക്കുന്നു. കൂടാതെ, ROUGE-N രണ്ട് ടെക്സ്റ്റുകൾക്കിടയിലുള്ള പദങ്ങളുടെ ഏറ്റവും ദൈർഘ്യമേറിയ പൊതുവായ തുടർച്ചയെ വിലയിരുത്തുന്നു, ഇത് പദ ക്രമത്തിൽ വഴക്കം നൽകുന്നു.

ഇത് വ്യക്തമാക്കുന്നതിന്, ഇനിപ്പറയുന്ന ഉദാഹരണങ്ങൾ പരിഗണിക്കുക:

  • ROGUE-1 മെട്രിക് – ജനറേറ്റ് ചെയ്ത സംഗ്രഹത്തിനും റഫറൻസ് സംഗ്രഹത്തിനും ഇടയിലുള്ള യൂണിഗ്രാമുകളുടെ (ഒറ്റ വാക്കുകൾ) ഓവർലാപ്പ് ROUGE-1 വിലയിരുത്തുന്നു. ഉദാഹരണത്തിന്, ഒരു റഫറൻസ് സംഗ്രഹത്തിൽ "ദി ക്വിക്ക് ബ്രൗൺ ഫോക്സ് ജമ്പ്സ്" അടങ്ങിയിരിക്കുന്നുവെങ്കിൽ, ജനറേറ്റ് ചെയ്ത സംഗ്രഹം "തവിട്ട് കുറുക്കൻ വേഗത്തിൽ ചാടുന്നു" ആണെങ്കിൽ, ROUGE-1 മെട്രിക് "തവിട്ട്", "കുറുക്കൻ", "ജമ്പ്സ്" എന്നിവ ഓവർലാപ്പിംഗ് ആയി കണക്കാക്കും. യൂണിഗ്രാം. ROUGE-1 സംഗ്രഹങ്ങളിലെ വ്യക്തിഗത പദങ്ങളുടെ സാന്നിധ്യത്തിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു, റഫറൻസ് സംഗ്രഹത്തിൽ നിന്നുള്ള പ്രധാന പദങ്ങളെ ജനറേറ്റ് ചെയ്ത സംഗ്രഹം എത്ര നന്നായി പിടിച്ചെടുക്കുന്നു എന്ന് അളക്കുന്നു.
  • ROGUE-2 മെട്രിക് – ജനറേറ്റ് ചെയ്ത സംഗ്രഹവും റഫറൻസ് സംഗ്രഹവും തമ്മിലുള്ള ബിഗ്രാം (അടുത്തുള്ള പദങ്ങളുടെ ജോഡി) ഓവർലാപ്പ് ROUGE-2 വിലയിരുത്തുന്നു. ഉദാഹരണത്തിന്, റഫറൻസ് സംഗ്രഹത്തിൽ "പൂച്ച ഉറങ്ങുന്നു" എന്നും ജനറേറ്റ് ചെയ്ത സംഗ്രഹത്തിൽ "ഒരു പൂച്ച ഉറങ്ങുന്നു" എന്നും എഴുതിയാൽ ROUGE-2 "പൂച്ചയാണ്" എന്നും "ഉറങ്ങുന്നു" എന്നും ഒരു ഓവർലാപ്പിംഗ് ബിഗ്രാം ആയി തിരിച്ചറിയും. റഫറൻസ് സംഗ്രഹവുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ ജനറേറ്റ് ചെയ്ത സംഗ്രഹം പദ ജോഡികളുടെ ക്രമവും സന്ദർഭവും എത്ര നന്നായി പരിപാലിക്കുന്നു എന്നതിനെക്കുറിച്ചുള്ള ഉൾക്കാഴ്ച ROUGE-2 നൽകുന്നു.
  • ROUGE-N മെട്രിക് - ROUGE-N എന്നത് ഒരു സാമാന്യവൽക്കരിച്ച രൂപമാണ്, അവിടെ N ഏത് സംഖ്യയെയും പ്രതിനിധീകരിക്കുന്നു, ഇത് n-ഗ്രാമുകളെ അടിസ്ഥാനമാക്കിയുള്ള മൂല്യനിർണ്ണയം അനുവദിക്കുന്നു (N പദങ്ങളുടെ ക്രമം). N=3 പരിഗണിക്കുമ്പോൾ, റഫറൻസ് സംഗ്രഹം "സൂര്യൻ തെളിച്ചമുള്ളതായി പ്രകാശിക്കുന്നു" എന്നും ജനറേറ്റുചെയ്‌ത സംഗ്രഹം "സൂര്യൻ തെളിച്ചമുള്ളതായി പ്രകാശിക്കുന്നു" എന്നും പ്രസ്താവിച്ചാൽ, ROUGE-3 "സൂര്യൻ തിളങ്ങുന്നു" എന്നത് പൊരുത്തപ്പെടുന്ന ട്രിഗ്രാമായി തിരിച്ചറിയും. ഉള്ളടക്ക ഓവർലാപ്പിൻ്റെ കൂടുതൽ സമഗ്രമായ വിലയിരുത്തൽ നൽകിക്കൊണ്ട് വ്യത്യസ്ത ദൈർഘ്യമുള്ള പദ ശ്രേണികളെ അടിസ്ഥാനമാക്കി സംഗ്രഹങ്ങൾ വിലയിരുത്തുന്നതിനുള്ള വഴക്കം ROUGE-N വാഗ്ദാനം ചെയ്യുന്നു.

വ്യത്യസ്ത തലത്തിലുള്ള പദ ശ്രേണികളെ അടിസ്ഥാനമാക്കി ജനറേറ്റ് ചെയ്ത സംഗ്രഹങ്ങളെ റഫറൻസ് സംഗ്രഹങ്ങളുമായി താരതമ്യം ചെയ്തുകൊണ്ട് ഓട്ടോമാറ്റിക് സംഗ്രഹീകരണം അല്ലെങ്കിൽ മെഷീൻ വിവർത്തന ജോലികൾ വിലയിരുത്തുന്നതിൽ ROUGE-1, ROUGE-2, ROUGE-N മെട്രിക്‌സ് എങ്ങനെ പ്രവർത്തിക്കുന്നുവെന്ന് ഈ ഉദാഹരണങ്ങൾ വ്യക്തമാക്കുന്നു.

ഒരു ROUGE-N സ്കോർ കണക്കാക്കുക

ഒരു ROUGE-N സ്കോർ കണക്കാക്കാൻ നിങ്ങൾക്ക് ഇനിപ്പറയുന്ന ഘട്ടങ്ങൾ ഉപയോഗിക്കാം:

  1. വൈറ്റ്‌സ്‌പേസ് അല്ലെങ്കിൽ നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (എൻഎൽപി) ലൈബ്രറികൾ വഴി വിഭജിക്കുന്നത് പോലുള്ള അടിസ്ഥാന ടോക്കണൈസേഷൻ രീതികൾ ഉപയോഗിച്ച് സൃഷ്‌ടിച്ച സംഗ്രഹവും റഫറൻസ് സംഗ്രഹവും വ്യക്തിഗത പദങ്ങളിലേക്കോ ടോക്കണുകളിലേക്കോ ടോക്കണൈസ് ചെയ്യുക.
  2. സൃഷ്ടിച്ച സംഗ്രഹത്തിൽ നിന്നും റഫറൻസ് സംഗ്രഹത്തിൽ നിന്നും n-ഗ്രാമുകൾ (N പദങ്ങളുടെ തുടർച്ചയായ ശ്രേണികൾ) സൃഷ്ടിക്കുക.
  3. സൃഷ്ടിച്ച സംഗ്രഹത്തിനും റഫറൻസ് സംഗ്രഹത്തിനും ഇടയിൽ ഓവർലാപ്പുചെയ്യുന്ന n-ഗ്രാമുകളുടെ എണ്ണം എണ്ണുക.
  4. കൃത്യത, തിരിച്ചുവിളിക്കൽ, F1 സ്കോർ എന്നിവ കണക്കാക്കുക:
    • കൃതത – ഓവർലാപ്പുചെയ്യുന്ന n-ഗ്രാമുകളുടെ എണ്ണം ജനറേറ്റുചെയ്‌ത സംഗ്രഹത്തിലെ മൊത്തം n-ഗ്രാമുകളുടെ എണ്ണം കൊണ്ട് ഹരിക്കുന്നു.
    • ഓർമ്മിക്കുക – ഓവർലാപ്പുചെയ്യുന്ന n-ഗ്രാമുകളുടെ എണ്ണം റഫറൻസ് സംഗ്രഹത്തിലെ മൊത്തം n-ഗ്രാമുകളുടെ എണ്ണം കൊണ്ട് ഹരിക്കുന്നു.
    • F1 സ്കോർ – കൃത്യതയുടെയും തിരിച്ചുവിളിയുടെയും ഹാർമോണിക് ശരാശരി, (2 * കൃത്യത * തിരിച്ചുവിളിക്കൽ) / (കൃത്യത + തിരിച്ചുവിളിക്കൽ) ആയി കണക്കാക്കുന്നു.
  5. ഡാറ്റാസെറ്റിലെ ഓരോ വരിയുടെയും കൃത്യത, തിരിച്ചുവിളിക്കൽ, F1 സ്കോർ എന്നിവ കണക്കാക്കുന്നതിൽ നിന്ന് ലഭിച്ച മൊത്തം F1 സ്കോർ ROUGE-N സ്കോർ ആയി കണക്കാക്കപ്പെടുന്നു.

പരിമിതികൾ

ROGUE ന് ഇനിപ്പറയുന്ന പരിമിതികളുണ്ട്:

  • ലെക്സിക്കൽ ഓവർലാപ്പിൽ ഇടുങ്ങിയ ഫോക്കസ് – ROUGE-ന് പിന്നിലെ പ്രധാന ആശയം, സിസ്റ്റം സൃഷ്ടിച്ച സംഗ്രഹത്തെ ഒരു കൂട്ടം റഫറൻസുകളുമായോ മനുഷ്യർ സൃഷ്‌ടിച്ച സംഗ്രഹങ്ങളുമായോ താരതമ്യം ചെയ്യുകയും അവയ്‌ക്കിടയിലുള്ള ലെക്സിക്കൽ ഓവർലാപ്പ് അളക്കുകയും ചെയ്യുക എന്നതാണ്. ഇതിനർത്ഥം ROUGE ന് പദ-തല സമാനതയിൽ വളരെ ഇടുങ്ങിയ ശ്രദ്ധയുണ്ടെന്നാണ്. സംഗ്രഹത്തിൻ്റെ സെമാൻ്റിക് അർത്ഥം, സമന്വയം അല്ലെങ്കിൽ വായനാക്ഷമത എന്നിവ ഇത് യഥാർത്ഥത്തിൽ വിലയിരുത്തുന്നില്ല. യോജിച്ചതോ സംക്ഷിപ്തമായതോ ആയ ഒരു സംഗ്രഹം സൃഷ്ടിക്കാതെ, യഥാർത്ഥ വാചകത്തിൽ നിന്ന് വാക്യങ്ങൾ ഓരോ വാക്കിനും വേർതിരിച്ചെടുക്കുന്നതിലൂടെ ഒരു സിസ്റ്റത്തിന് ഉയർന്ന ROUGE സ്കോറുകൾ നേടാനാകും.
  • പരാവർത്തനത്തോടുള്ള സംവേദനക്ഷമത – ROUGE ലെക്സിക്കൽ പൊരുത്തത്തെ ആശ്രയിക്കുന്നതിനാൽ, അതിന് വാക്കുകളും ശൈലികളും തമ്മിലുള്ള സെമാൻ്റിക് തുല്യത കണ്ടെത്താൻ കഴിയില്ല. അതിനാൽ, അർത്ഥം സംരക്ഷിച്ചിട്ടുണ്ടെങ്കിലും, പരാവർത്തനവും പര്യായപദങ്ങളുടെ ഉപയോഗവും പലപ്പോഴും കുറഞ്ഞ ROUGE സ്കോറുകളിലേക്ക് നയിക്കും. ഇത് അമൂർത്തമായ രീതിയിൽ സംഗ്രഹിക്കുന്നതോ സംഗ്രഹിക്കുന്നതോ ആയ സിസ്റ്റങ്ങളെ ദോഷകരമായി ബാധിക്കുന്നു.
  • സെമാൻ്റിക് ധാരണയുടെ അഭാവം – യഥാർത്ഥ വാചകത്തിലെ അർത്ഥങ്ങളും ആശയങ്ങളും സിസ്റ്റം ശരിക്കും മനസ്സിലാക്കിയിട്ടുണ്ടോ എന്ന് ROUGE വിലയിരുത്തുന്നില്ല. പ്രധാന ആശയങ്ങൾ നഷ്‌ടപ്പെടുമ്പോൾ അല്ലെങ്കിൽ വസ്തുതാപരമായ പൊരുത്തക്കേടുകൾ അടങ്ങിയിരിക്കുമ്പോൾ, ഒരു സംഗ്രഹത്തിന് റഫറൻസുകൾക്കൊപ്പം ഉയർന്ന ലെക്സിക്കൽ ഓവർലാപ്പ് നേടാൻ കഴിയും. ROUGE ഈ പ്രശ്നങ്ങൾ തിരിച്ചറിയില്ല.

എപ്പോൾ ROUGE ഉപയോഗിക്കണം

ROUGE കണക്കുകൂട്ടാൻ ലളിതവും വേഗമേറിയതുമാണ്. ഉള്ളടക്കം തിരഞ്ഞെടുക്കുന്നതുമായി ബന്ധപ്പെട്ട സംഗ്രഹ ഗുണമേന്മയ്ക്കായി ഇത് ഒരു അടിസ്ഥാന അല്ലെങ്കിൽ മാനദണ്ഡമായി ഉപയോഗിക്കുക. അമൂർത്തമായ സംഗ്രഹീകരണ ജോലികൾ, സ്വയമേവയുള്ള സംഗ്രഹ മൂല്യനിർണ്ണയം, LLM-കളുടെ വിലയിരുത്തലുകൾ, വ്യത്യസ്ത സംഗ്രഹ സമീപനങ്ങളുടെ താരതമ്യ വിശകലനങ്ങൾ എന്നിവ ഉൾപ്പെടുന്ന സാഹചര്യങ്ങളിലാണ് ROUGE മെട്രിക്‌സ് ഏറ്റവും ഫലപ്രദമായി ഉപയോഗിക്കുന്നത്. ഈ സന്ദർഭങ്ങളിൽ ROUGE മെട്രിക്‌സ് ഉപയോഗിക്കുന്നതിലൂടെ, സംഗ്രഹ ജനറേഷൻ പ്രക്രിയകളുടെ ഗുണനിലവാരവും ഫലപ്രാപ്തിയും സ്‌റ്റേക്ക്‌ഹോൾഡർമാർക്ക് അളവ്പരമായി വിലയിരുത്താനാകും.

വ്യക്തമായ ക്രമം (METEOR) ഉള്ള വിവർത്തനത്തിൻ്റെ മൂല്യനിർണ്ണയത്തിനുള്ള മെട്രിക്

സംഗ്രഹ സംവിധാനങ്ങൾ വിലയിരുത്തുന്നതിലെ പ്രധാന വെല്ലുവിളികളിലൊന്ന്, ഉറവിട വാചകത്തിൽ നിന്ന് പ്രസക്തമായ വാക്കുകളും ശൈലികളും തിരഞ്ഞെടുക്കുന്നതിനുപകരം, സൃഷ്ടിച്ച സംഗ്രഹം എത്രത്തോളം യുക്തിസഹമായി ഒഴുകുന്നു എന്ന് വിലയിരുത്തുക എന്നതാണ്. പ്രസക്തമായ കീവേഡുകളും വാക്യങ്ങളും ലളിതമായി എക്‌സ്‌ട്രാക്റ്റുചെയ്യുന്നത് യോജിച്ചതും സംയോജിതവുമായ ഒരു സംഗ്രഹം ഉണ്ടാക്കണമെന്നില്ല. യഥാർത്ഥ പ്രമാണത്തിൻ്റെ അതേ ക്രമത്തിൽ അവതരിപ്പിച്ചിട്ടില്ലെങ്കിലും, സംഗ്രഹം സുഗമമായി ഒഴുകുകയും ആശയങ്ങളെ യുക്തിസഹമായി ബന്ധിപ്പിക്കുകയും വേണം.

പദങ്ങളെ അവയുടെ റൂട്ടിലേക്കോ അടിസ്ഥാന രൂപത്തിലേക്കോ ചുരുക്കി പൊരുത്തപ്പെടുത്തുന്നതിനുള്ള വഴക്കം (ഉദാഹരണത്തിന്, സ്റ്റെമ്മിംഗിന് ശേഷം, “ഓട്ടം,” “റൺസ്,” “റൺ” തുടങ്ങിയ പദങ്ങളെല്ലാം “റൺ” ആയി മാറുന്നു) കൂടാതെ പര്യായങ്ങൾ അർത്ഥമാക്കുന്നു മെറ്റോർ സംഗ്രഹ ഗുണനിലവാരത്തിൻ്റെ മാനുഷിക വിധികളുമായി നന്നായി ബന്ധപ്പെട്ടിരിക്കുന്നു. പദങ്ങൾ വ്യത്യസ്തമാണെങ്കിലും, പ്രധാനപ്പെട്ട ഉള്ളടക്കം സംരക്ഷിക്കപ്പെട്ടിട്ടുണ്ടോ എന്ന് ഇതിന് തിരിച്ചറിയാൻ കഴിയും. കൃത്യമായ ടോക്കൺ പൊരുത്തങ്ങൾക്കായി മാത്രം നോക്കുന്ന ROUGE പോലെയുള്ള n-gram അടിസ്ഥാനമാക്കിയുള്ള മെട്രിക്കുകളെ അപേക്ഷിച്ച് ഇത് ഒരു പ്രധാന നേട്ടമാണ്. റഫറൻസിൽ നിന്നുള്ള ഏറ്റവും പ്രധാനപ്പെട്ട ഉള്ളടക്കത്തിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്ന സംഗ്രഹങ്ങൾക്ക് METEOR ഉയർന്ന സ്കോറുകളും നൽകുന്നു. ആവർത്തിച്ചുള്ള അല്ലെങ്കിൽ അപ്രസക്തമായ വിവരങ്ങൾക്ക് കുറഞ്ഞ സ്കോറുകൾ നൽകുന്നു. ഏറ്റവും പ്രധാനപ്പെട്ട ഉള്ളടക്കം മാത്രം നിലനിർത്തുന്നതിനുള്ള സംഗ്രഹം എന്ന ലക്ഷ്യവുമായി ഇത് നന്നായി യോജിക്കുന്നു. ടെക്‌സ്‌റ്റ് സംഗ്രഹം വിലയിരുത്തുന്നതിനുള്ള എൻ-ഗ്രാം പൊരുത്തത്തിൻ്റെ ചില പരിമിതികളെ മറികടക്കാൻ കഴിയുന്ന അർത്ഥവത്തായ മെട്രിക്കാണ് METEOR. സ്റ്റെമ്മിംഗിൻ്റെയും പര്യായപദങ്ങളുടെയും സംയോജനം വിവരങ്ങളുടെ ഓവർലാപ്പിൻ്റെയും ഉള്ളടക്ക കൃത്യതയുടെയും മികച്ച വിലയിരുത്തലിന് അനുവദിക്കുന്നു.

ഇത് വ്യക്തമാക്കുന്നതിന്, ഇനിപ്പറയുന്ന ഉദാഹരണങ്ങൾ പരിഗണിക്കുക:

റഫറൻസ് സംഗ്രഹം: ശരത്കാലത്തിലാണ് ഇലകൾ വീഴുന്നത്.

സൃഷ്ടിച്ച സംഗ്രഹം 1: വീഴുമ്പോൾ ഇലകൾ വീഴുന്നു.

സൃഷ്ടിച്ച സംഗ്രഹം 2: വേനൽക്കാലത്ത് ഇലകൾ പച്ചയായി വളരുന്നു.

റഫറൻസും സൃഷ്‌ടിച്ച സംഗ്രഹവും 1-നും തമ്മിൽ പൊരുത്തപ്പെടുന്ന വാക്കുകൾ ഹൈലൈറ്റ് ചെയ്‌തിരിക്കുന്നു:

റഫറൻസ് സംഗ്രഹം: ഇലകൾ വീഴ്ച ശരത്കാലത്ത്.

സൃഷ്ടിച്ച സംഗ്രഹം 1: ഇലകൾ ഡ്രോപ്പ് ഇൻ വീഴ്ച.

"വീഴ്ച", "ശരത്കാലം" എന്നിവ വ്യത്യസ്‌ത ടോക്കണുകളാണെങ്കിലും, METEOR അതിൻ്റെ പര്യായപദങ്ങളുടെ പൊരുത്തത്തിലൂടെ അവയെ പര്യായങ്ങളായി തിരിച്ചറിയുന്നു. "ഡ്രോപ്പ്", "ഫാൾ" എന്നിവ ഒരു സ്റ്റെംഡ് മാച്ച് ആയി തിരിച്ചറിയപ്പെടുന്നു. സൃഷ്‌ടിച്ച സംഗ്രഹം 2-ന്, "ഇലകൾ" കൂടാതെ റഫറൻസ് സംഗ്രഹവുമായി പൊരുത്തങ്ങളൊന്നുമില്ല, അതിനാൽ ഈ സംഗ്രഹത്തിന് വളരെ കുറഞ്ഞ METEOR സ്‌കോർ ലഭിക്കും. കൂടുതൽ അർത്ഥവത്തായ പൊരുത്തങ്ങൾ, METEOR സ്കോർ ഉയർന്നതാണ്. ലളിതമായ n-gram പൊരുത്തപ്പെടുത്തലിനെ അപേക്ഷിച്ച് സംഗ്രഹങ്ങളുടെ ഉള്ളടക്കവും കൃത്യതയും നന്നായി വിലയിരുത്താൻ ഇത് METEOR-നെ അനുവദിക്കുന്നു.

ഒരു METEOR സ്കോർ കണക്കാക്കുക

ഒരു METEOR സ്കോർ കണക്കാക്കാൻ ഇനിപ്പറയുന്ന ഘട്ടങ്ങൾ പൂർത്തിയാക്കുക:

  1. വൈറ്റ്‌സ്‌പേസ് അല്ലെങ്കിൽ എൻഎൽപി ലൈബ്രറികൾ വഴി വിഭജിക്കുന്നത് പോലുള്ള അടിസ്ഥാന ടോക്കണൈസേഷൻ രീതികൾ ഉപയോഗിച്ച് സൃഷ്‌ടിച്ച സംഗ്രഹവും റഫറൻസ് സംഗ്രഹവും വ്യക്തിഗത പദങ്ങളിലേക്കോ ടോക്കണുകളിലേക്കോ ടോക്കണൈസ് ചെയ്യുക.
  2. യൂണിഗ്രാം പ്രിസിഷൻ, റീകോൾ, എഫ്-മീൻ സ്കോർ എന്നിവ കണക്കാക്കുക, കൃത്യതയേക്കാൾ തിരിച്ചുവിളിക്കാൻ കൂടുതൽ വെയിറ്റേജ് നൽകുന്നു.
  3. കൃത്യമായ പൊരുത്തങ്ങൾ അമിതമായി ഊന്നിപ്പറയുന്നത് ഒഴിവാക്കാൻ പെനാൽറ്റി പ്രയോഗിക്കുക. ഡാറ്റാസെറ്റ് സവിശേഷതകൾ, ടാസ്‌ക് ആവശ്യകതകൾ, കൃത്യതയും തിരിച്ചുവിളിയും തമ്മിലുള്ള ബാലൻസ് എന്നിവയെ അടിസ്ഥാനമാക്കിയാണ് പിഴ തിരഞ്ഞെടുക്കുന്നത്. ഘട്ടം 2-ൽ കണക്കാക്കിയ എഫ്-മീൻ സ്‌കോറിൽ നിന്ന് ഈ പെനാൽറ്റി കുറയ്ക്കുക.
  4. സ്റ്റെംഡ് ഫോമുകൾക്കായുള്ള എഫ്-മീൻ സ്കോർ (പദങ്ങളെ അവയുടെ അടിസ്ഥാന അല്ലെങ്കിൽ റൂട്ട് രൂപത്തിലേക്ക് കുറയ്ക്കുന്നു), യുണിഗ്രാമുകൾക്കുള്ള പര്യായപദങ്ങൾ എന്നിവ കണക്കാക്കുക. അന്തിമ METEOR സ്കോർ ലഭിക്കുന്നതിന് മുമ്പ് കണക്കാക്കിയ F-മൻ സ്കോർ ഉപയോഗിച്ച് ഇത് സമാഹരിക്കുക. METEOR സ്‌കോർ 0-1 വരെയാണ്, ഇവിടെ 0 എന്നത് സൃഷ്‌ടിച്ച സംഗ്രഹവും റഫറൻസ് സംഗ്രഹവും തമ്മിൽ സാമ്യമില്ലെന്നും 1 തികഞ്ഞ വിന്യാസത്തെ സൂചിപ്പിക്കുന്നു. സാധാരണഗതിയിൽ, സംഗ്രഹ സ്കോറുകൾ 0-0.6 ന് ഇടയിലാണ്.

പരിമിതികൾ

സംഗ്രഹ ജോലികൾ വിലയിരുത്തുന്നതിന് METEOR മെട്രിക് ഉപയോഗിക്കുമ്പോൾ, നിരവധി വെല്ലുവിളികൾ ഉയർന്നേക്കാം:

  • സെമാൻ്റിക് സങ്കീർണ്ണത – സെമാൻ്റിക് സമാനതയിൽ മെറ്റിയോറിൻ്റെ ഊന്നൽ സങ്കീർണ്ണമായ സംഗ്രഹ ജോലികളിൽ സൂക്ഷ്മമായ അർത്ഥങ്ങളും സന്ദർഭങ്ങളും ഉൾക്കൊള്ളാൻ പാടുപെടും, ഇത് മൂല്യനിർണ്ണയത്തിലെ അപാകതകളിലേക്ക് നയിച്ചേക്കാം.
  • റഫറൻസ് വേരിയബിളിറ്റി - മനുഷ്യൻ സൃഷ്‌ടിച്ച റഫറൻസ് സംഗ്രഹങ്ങളിലെ വ്യതിയാനം METEOR സ്‌കോറുകളെ ബാധിക്കും, കാരണം റഫറൻസ് ഉള്ളടക്കത്തിലെ വ്യത്യാസങ്ങൾ മെഷീൻ സൃഷ്‌ടിച്ച സംഗ്രഹങ്ങളുടെ മൂല്യനിർണ്ണയത്തെ ബാധിച്ചേക്കാം.
  • ഭാഷാപരമായ വൈവിധ്യം - ഭാഷാപരമായ വ്യതിയാനങ്ങൾ, വാക്യഘടന വ്യത്യാസങ്ങൾ, സെമാൻ്റിക് സൂക്ഷ്മതകൾ എന്നിവ കാരണം METEOR ൻ്റെ ഫലപ്രാപ്തി വ്യത്യസ്തമായേക്കാം, ഇത് ബഹുഭാഷാ സംഗ്രഹ മൂല്യനിർണ്ണയത്തിൽ വെല്ലുവിളികൾ ഉയർത്തുന്നു.
  • ദൈർഘ്യ വ്യത്യാസം - റഫറൻസ് സംഗ്രഹവുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ ദൈർഘ്യത്തിലുള്ള പൊരുത്തക്കേടുകൾ മൂല്യനിർണ്ണയത്തിലെ പിഴവുകളോ കൃത്യതകളോ ഉണ്ടാക്കിയേക്കാമെന്നതിനാൽ, വ്യത്യസ്ത ദൈർഘ്യങ്ങളുടെ സംഗ്രഹങ്ങൾ വിലയിരുത്തുന്നത് METEOR-ന് വെല്ലുവിളിയാകാം.
  • പാരാമീറ്റർ ട്യൂണിംഗ് - വ്യത്യസ്‌ത ഡാറ്റാസെറ്റുകൾക്കും സംഗ്രഹീകരണ ജോലികൾക്കുമായി METEOR-ൻ്റെ പാരാമീറ്ററുകൾ ഒപ്റ്റിമൈസ് ചെയ്യുന്നത് സമയമെടുക്കും കൂടാതെ മെട്രിക് കൃത്യമായ വിലയിരുത്തലുകൾ നൽകുന്നുവെന്ന് ഉറപ്പാക്കാൻ ശ്രദ്ധാപൂർവമായ ട്യൂണിംഗ് ആവശ്യമാണ്.
  • മൂല്യനിർണ്ണയ പക്ഷപാതം - നിർദ്ദിഷ്ട സംഗ്രഹ ഡൊമെയ്‌നുകൾക്കോ ​​ടാസ്‌ക്കുകൾക്കോ ​​വേണ്ടി ശരിയായി ക്രമീകരിക്കുകയോ കാലിബ്രേറ്റ് ചെയ്യുകയോ ചെയ്തില്ലെങ്കിൽ METEOR-മായി മൂല്യനിർണ്ണയ പക്ഷപാതിത്വത്തിന് സാധ്യതയുണ്ട്. ഇത് തെറ്റായ ഫലങ്ങളിലേക്ക് നയിക്കുകയും മൂല്യനിർണ്ണയ പ്രക്രിയയുടെ വിശ്വാസ്യതയെ ബാധിക്കുകയും ചെയ്യും.

ഈ വെല്ലുവിളികളെക്കുറിച്ച് ബോധവാന്മാരായിരിക്കുന്നതിലൂടെയും സംഗ്രഹ ജോലികൾക്കുള്ള മെട്രിക് ആയി METEOR ഉപയോഗിക്കുമ്പോൾ അവ പരിഗണിക്കുന്നതിലൂടെയും ഗവേഷകർക്കും പരിശീലകർക്കും സാധ്യതയുള്ള പരിമിതികൾ നാവിഗേറ്റ് ചെയ്യാനും അവരുടെ മൂല്യനിർണ്ണയ പ്രക്രിയകളിൽ കൂടുതൽ അറിവോടെയുള്ള തീരുമാനങ്ങൾ എടുക്കാനും കഴിയും.

METEOR എപ്പോൾ ഉപയോഗിക്കണം

ടെക്സ്റ്റ് സംഗ്രഹങ്ങളുടെ ഗുണനിലവാരം സ്വയമേവ വിലയിരുത്തുന്നതിന് METEOR സാധാരണയായി ഉപയോഗിക്കുന്നു. സംഗ്രഹ വിഷയങ്ങളിൽ ആശയങ്ങളുടെയോ ആശയങ്ങളുടെയോ എൻ്റിറ്റികളുടെയോ ക്രമം കണക്കിലെടുക്കുമ്പോൾ METEOR ഒരു മൂല്യനിർണ്ണയ മെട്രിക് ആയി ഉപയോഗിക്കുന്നതാണ് അഭികാമ്യം. METEOR ക്രമം പരിഗണിക്കുകയും സൃഷ്‌ടിച്ച സംഗ്രഹവും റഫറൻസ് സംഗ്രഹങ്ങളും തമ്മിലുള്ള n-ഗ്രാമുകളുമായി പൊരുത്തപ്പെടുകയും ചെയ്യുന്നു. തുടർച്ചയായ വിവരങ്ങൾ സംരക്ഷിക്കുന്ന സംഗ്രഹങ്ങൾക്ക് ഇത് പ്രതിഫലം നൽകുന്നു. റഫറൻസ് സംഗ്രഹങ്ങളുള്ള n-ഗ്രാമുകളുടെ ഓവർലാപ്പിനെ ആശ്രയിക്കുന്ന ROUGE പോലുള്ള മെട്രിക്കുകളിൽ നിന്ന് വ്യത്യസ്തമായി, METEOR കാണ്ഡം, പര്യായങ്ങൾ, പാരാഫ്രേസുകൾ എന്നിവയുമായി പൊരുത്തപ്പെടുന്നു. ഒറിജിനൽ ടെക്‌സ്‌റ്റ് സംഗ്രഹിക്കുന്നതിന് ഒന്നിലധികം ശരിയായ വഴികൾ ഉണ്ടാകുമ്പോൾ METEOR നന്നായി പ്രവർത്തിക്കുന്നു. METEOR, n-grams പൊരുത്തപ്പെടുത്തുമ്പോൾ WordNet പര്യായങ്ങളും സ്റ്റെംഡ് ടോക്കണുകളും ഉൾക്കൊള്ളുന്നു. ചുരുക്കത്തിൽ, അർത്ഥപരമായി സാമ്യമുള്ളതും എന്നാൽ വ്യത്യസ്ത പദങ്ങളോ ശൈലികളോ ഉപയോഗിക്കുന്ന സംഗ്രഹങ്ങൾ ഇപ്പോഴും നന്നായി സ്കോർ ചെയ്യും. ആവർത്തിച്ചുള്ള n-ഗ്രാമുകളുള്ള സംഗ്രഹങ്ങൾക്ക് METEOR-ന് ഒരു ബിൽറ്റ്-ഇൻ പിഴയുണ്ട്. അതിനാൽ, ഇത് വാക്കിന് വാക്കിന് വേർതിരിച്ചെടുക്കൽ അല്ലെങ്കിൽ അമൂർത്തതയുടെ അഭാവം നിരുത്സാഹപ്പെടുത്തുന്നു. സംഗ്രഹ ഗുണനിലവാരം വിലയിരുത്തുന്നതിന് അർത്ഥപരമായ സമാനത, ആശയങ്ങളുടെ ക്രമം, ഒഴുക്കുള്ള പദപ്രയോഗം എന്നിവ പ്രധാനമാകുമ്പോൾ METEOR ഒരു നല്ല തിരഞ്ഞെടുപ്പാണ്. റഫറൻസ് സംഗ്രഹങ്ങളുള്ള ലെക്സിക്കൽ ഓവർലാപ്പ് മാത്രം പ്രാധാന്യമുള്ള ടാസ്‌ക്കുകൾക്ക് ഇത് അനുയോജ്യമല്ല.

BERTScore

ROUGE, METEOR എന്നിവ പോലുള്ള ഉപരിതല-തല ലെക്സിക്കൽ അളവുകൾ ഒരു സ്ഥാനാർത്ഥി സംഗ്രഹവും ഒരു റഫറൻസ് സംഗ്രഹവും തമ്മിലുള്ള പദ ഓവർലാപ്പിനെ താരതമ്യം ചെയ്തുകൊണ്ട് സംഗ്രഹ സംവിധാനങ്ങളെ വിലയിരുത്തുന്നു. എന്നിരുന്നാലും, വാക്കുകളും ശൈലികളും തമ്മിലുള്ള കൃത്യമായ സ്ട്രിംഗ് പൊരുത്തപ്പെടുത്തലിനെ അവർ വളരെയധികം ആശ്രയിക്കുന്നു. വ്യത്യസ്‌ത ഉപരിതല രൂപങ്ങളുള്ളതും എന്നാൽ സമാനമായ അടിസ്ഥാന അർത്ഥങ്ങളുള്ളതുമായ പദങ്ങളും ശൈലികളും തമ്മിലുള്ള അർത്ഥപരമായ സമാനതകൾ അവർക്ക് നഷ്ടമായേക്കാം എന്നാണ് ഇതിനർത്ഥം. ഉപരിതല പൊരുത്തത്തെ മാത്രം ആശ്രയിക്കുന്നതിലൂടെ, റഫറൻസ് സംഗ്രഹങ്ങളിൽ നിന്ന് വ്യത്യസ്തമായി പര്യായപദങ്ങളോ പാരാഫ്രേസ് ആശയങ്ങളോ ഉപയോഗിക്കുന്ന സിസ്റ്റം സംഗ്രഹങ്ങളുടെ ഗുണനിലവാരത്തെ ഈ മെട്രിക്‌സ് കുറച്ചുകാണിച്ചേക്കാം. രണ്ട് സംഗ്രഹങ്ങൾക്ക് ഏതാണ്ട് സമാനമായ വിവരങ്ങൾ നൽകാനാകുമെങ്കിലും പദാവലി വ്യത്യാസങ്ങൾ കാരണം കുറഞ്ഞ ഉപരിതല-ലെവൽ സ്കോറുകൾ ലഭിക്കും.

BERTScore ഒരു മനുഷ്യൻ എഴുതിയ ഒരു റഫറൻസ് സംഗ്രഹവുമായി താരതമ്യം ചെയ്തുകൊണ്ട് ഒരു സംഗ്രഹം എത്ര മികച്ചതാണെന്ന് സ്വയമേവ വിലയിരുത്തുന്നതിനുള്ള ഒരു മാർഗമാണ്. സ്ഥാനാർത്ഥി സംഗ്രഹത്തിലും റഫറൻസ് സംഗ്രഹത്തിലും വാക്കുകളുടെ അർത്ഥവും സന്ദർഭവും മനസ്സിലാക്കാൻ ഇത് BERT എന്ന ജനപ്രിയ NLP സാങ്കേതികത ഉപയോഗിക്കുന്നു. പ്രത്യേകമായി, ഇത് കാൻഡിഡേറ്റ് സംഗ്രഹത്തിലെ ഓരോ വാക്കും ടോക്കണും നോക്കുകയും ഓരോ വാക്കിൻ്റെയും അർത്ഥത്തിൻ്റെയും സന്ദർഭത്തിൻ്റെയും വെക്റ്റർ പ്രതിനിധാനങ്ങളായ BERT എംബെഡിംഗുകളെ അടിസ്ഥാനമാക്കിയുള്ള റഫറൻസ് സംഗ്രഹത്തിൽ ഏറ്റവും സമാനമായ വാക്ക് കണ്ടെത്തുകയും ചെയ്യുന്നു. ഇത് കോസൈൻ സാമ്യം ഉപയോഗിച്ച് സമാനത അളക്കുന്നു, ഇത് വെക്‌ടറുകൾ പരസ്പരം എത്ര അടുത്താണെന്ന് പറയുന്നു. കാൻഡിഡേറ്റ് സംഗ്രഹത്തിലെ ഓരോ വാക്കിനും, BERT-ൻ്റെ ഭാഷാ ധാരണ ഉപയോഗിച്ച് റഫറൻസ് സംഗ്രഹത്തിൽ ഏറ്റവും ബന്ധപ്പെട്ട പദം കണ്ടെത്തുന്നു. കാൻഡിഡേറ്റ് സംഗ്രഹം റഫറൻസ് സംഗ്രഹവുമായി എത്രത്തോളം സാമ്യമുള്ളതാണ് എന്നതിൻ്റെ മൊത്തത്തിലുള്ള സ്കോർ ലഭിക്കുന്നതിന് ഇത് മുഴുവൻ സംഗ്രഹത്തിലുടനീളമുള്ള ഈ പദ സാമ്യതകളെല്ലാം താരതമ്യം ചെയ്യുന്നു. BERT ക്യാപ്‌ചർ ചെയ്‌ത വാക്കുകളും അർത്ഥങ്ങളും കൂടുതൽ സമാനമാണ്, BERTScore ഉയർന്നതാണ്. ഓരോ തവണയും മാനുഷിക മൂല്യനിർണ്ണയം ആവശ്യമില്ലാതെ ഒരു മാനുഷിക റഫറൻസുമായി താരതമ്യപ്പെടുത്തി സൃഷ്ടിച്ച സംഗ്രഹത്തിൻ്റെ ഗുണനിലവാരം സ്വയമേവ വിലയിരുത്താൻ ഇത് അനുവദിക്കുന്നു.

ഇത് വ്യക്തമാക്കുന്നതിന്, നിങ്ങൾക്ക് ഒരു യന്ത്രം സൃഷ്ടിച്ച ഒരു സംഗ്രഹം ഉണ്ടെന്ന് സങ്കൽപ്പിക്കുക: "വേഗത്തിലുള്ള തവിട്ട് കുറുക്കൻ മടിയനായ നായയ്ക്ക് മുകളിലൂടെ ചാടുന്നു." ഇപ്പോൾ, മനുഷ്യൻ തയ്യാറാക്കിയ ഒരു റഫറൻസ് സംഗ്രഹം പരിഗണിക്കാം: "വേഗതയിലുള്ള തവിട്ട് കുറുക്കൻ ഉറങ്ങുന്ന നായയുടെ മുകളിലൂടെ കുതിക്കുന്നു."

ഒരു BERTScore കണക്കാക്കുക

ഒരു BERTScore കണക്കാക്കാൻ ഇനിപ്പറയുന്ന ഘട്ടങ്ങൾ പൂർത്തിയാക്കുക:

  1. കാൻഡിഡേറ്റ് (മെഷീൻ-ജനറേറ്റഡ്), റഫറൻസ് (മനുഷ്യ-നിർമ്മിത) വാക്യങ്ങളിൽ ഓരോ ടോക്കണും പ്രതിനിധീകരിക്കുന്നതിന് BERTScore സന്ദർഭോചിതമായ ഉൾച്ചേർക്കലുകൾ ഉപയോഗിക്കുന്നു. ഒരു വാക്യത്തിനോ വാചകത്തിനോ ഉള്ളിലെ സന്ദർഭത്തെ അടിസ്ഥാനമാക്കി ഒരു പദത്തിൻ്റെ അർത്ഥം പിടിച്ചെടുക്കുന്ന NLP-യിലെ ഒരു തരം പദ പ്രാതിനിധ്യമാണ് സന്ദർഭോചിതമായ ഉൾച്ചേർക്കലുകൾ. ഓരോ വാക്കിനും അതിൻ്റെ സന്ദർഭം കണക്കിലെടുക്കാതെ ഒരു നിശ്ചിത വെക്റ്റർ നൽകുന്ന പരമ്പരാഗത പദ എംബെഡ്ഡിംഗുകളിൽ നിന്ന് വ്യത്യസ്തമായി, ഒരു നിർദ്ദിഷ്ട വാക്യത്തിൽ എങ്ങനെ ഉപയോഗിക്കുന്നു എന്നതിനെ ആശ്രയിച്ച് ഓരോ പദത്തിനും ഒരു തനതായ പ്രാതിനിധ്യം സൃഷ്ടിക്കുന്നതിന് ചുറ്റുമുള്ള പദങ്ങളെ സാന്ദർഭിക ഉൾച്ചേർക്കലുകൾ പരിഗണിക്കുന്നു.
  2. കാൻഡിഡേറ്റ് വാക്യത്തിലെ ഓരോ ടോക്കണും റഫറൻസ് വാക്യത്തിലെ ഓരോ ടോക്കണും തമ്മിലുള്ള സാമ്യം കോസൈൻ സമാനത ഉപയോഗിച്ച് മെട്രിക് കണക്കാക്കുന്നു. ഒരു മൾട്ടി-ഡൈമൻഷണൽ സ്‌പെയ്‌സിൽ അവർ ചൂണ്ടിക്കാണിക്കുന്ന ദിശയിൽ ഫോക്കസ് ചെയ്‌ത് രണ്ട് സെറ്റ് ഡാറ്റകൾ എത്രത്തോളം ബന്ധപ്പെട്ടിരിക്കുന്നുവെന്ന് കണക്കാക്കാൻ കോസൈൻ സാമ്യം ഞങ്ങളെ സഹായിക്കുന്നു, ഇത് തിരയൽ അൽഗോരിതങ്ങൾ, എൻഎൽപി, ശുപാർശ സംവിധാനങ്ങൾ എന്നിവ പോലുള്ള ടാസ്‌ക്കുകൾക്കുള്ള വിലയേറിയ ഉപകരണമാക്കി മാറ്റുന്നു.
  3. എല്ലാ ടോക്കണുകൾക്കുമുള്ള സാന്ദർഭിക ഉൾച്ചേർക്കലുകളും കംപ്യൂട്ടിംഗ് സമാനത സ്‌കോറുകളും താരതമ്യം ചെയ്യുന്നതിലൂടെ, മനുഷ്യൻ തയ്യാറാക്കിയ റഫറൻസുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ സൃഷ്ടിച്ച സംഗ്രഹത്തിൻ്റെ അർത്ഥപരമായ പ്രസക്തിയും സന്ദർഭവും ഉൾക്കൊള്ളുന്ന ഒരു സമഗ്രമായ വിലയിരുത്തൽ BERTScore സൃഷ്ടിക്കുന്നു.
  4. അവസാന BERTScore ഔട്ട്പുട്ട്, മെഷീൻ സൃഷ്ടിച്ച സംഗ്രഹം അർത്ഥത്തിൻ്റെയും സന്ദർഭത്തിൻ്റെയും അടിസ്ഥാനത്തിൽ റഫറൻസ് സംഗ്രഹവുമായി എത്രത്തോളം യോജിക്കുന്നു എന്ന് പ്രതിഫലിപ്പിക്കുന്ന ഒരു സമാനത സ്കോർ നൽകുന്നു.

സാരാംശത്തിൽ, BERTScore വാക്യങ്ങളുടെ അർത്ഥപരമായ സൂക്ഷ്മതകളും സന്ദർഭവും പരിഗണിച്ച് പരമ്പരാഗത അളവുകൾക്കപ്പുറത്തേക്ക് പോകുന്നു, മനുഷ്യൻ്റെ വിധിന്യായത്തെ സൂക്ഷ്മമായി പ്രതിഫലിപ്പിക്കുന്ന കൂടുതൽ സങ്കീർണ്ണമായ വിലയിരുത്തൽ വാഗ്ദാനം ചെയ്യുന്നു. ഈ നൂതന സമീപനം സംഗ്രഹ ജോലികൾ വിലയിരുത്തുന്നതിൻ്റെ കൃത്യതയും വിശ്വാസ്യതയും വർദ്ധിപ്പിക്കുന്നു, ടെക്സ്റ്റ് ജനറേഷൻ സിസ്റ്റങ്ങളെ വിലയിരുത്തുന്നതിൽ BERTScore-നെ ഒരു മൂല്യവത്തായ ഉപകരണമാക്കി മാറ്റുന്നു.

പരിമിതികളും:

സംഗ്രഹ ജോലികൾ വിലയിരുത്തുന്നതിൽ BERTScore കാര്യമായ നേട്ടങ്ങൾ വാഗ്ദാനം ചെയ്യുന്നുണ്ടെങ്കിലും, അത് പരിഗണിക്കേണ്ട ചില പരിമിതികളോടും കൂടിയാണ് വരുന്നത്:

  • കമ്പ്യൂട്ടേഷണൽ തീവ്രത – BERT പോലെയുള്ള പ്രീ-പരിശീലനം ലഭിച്ച ഭാഷാ മോഡലുകളെ ആശ്രയിക്കുന്നതിനാൽ BERTScore-ന് കമ്പ്യൂട്ടേഷണൽ തീവ്രതയുള്ളതാണ്. ഇത് കൂടുതൽ മൂല്യനിർണ്ണയ സമയങ്ങളിലേക്ക് നയിച്ചേക്കാം, പ്രത്യേകിച്ചും വലിയ അളവിലുള്ള ടെക്സ്റ്റ് ഡാറ്റ പ്രോസസ്സ് ചെയ്യുമ്പോൾ.
  • മുൻകൂട്ടി പരിശീലിപ്പിച്ച മോഡലുകളെ ആശ്രയിക്കുക - BERTScore-ൻ്റെ ഫലപ്രാപ്തി, ഉപയോഗിച്ചിരിക്കുന്ന മുൻകൂട്ടി പരിശീലിപ്പിച്ച ഭാഷാ മോഡലിൻ്റെ ഗുണനിലവാരത്തെയും പ്രസക്തിയെയും ആശ്രയിച്ചിരിക്കുന്നു. മുൻകൂട്ടി പരിശീലിപ്പിച്ച മോഡൽ വാചകത്തിൻ്റെ സൂക്ഷ്മതകൾ വേണ്ടത്ര പിടിച്ചെടുക്കാൻ കഴിയാത്ത സാഹചര്യങ്ങളിൽ, മൂല്യനിർണ്ണയ ഫലങ്ങളെ ബാധിച്ചേക്കാം.
  • സ്കേലബിളിറ്റി - വലിയ ഡാറ്റാസെറ്റുകൾക്കോ ​​തത്സമയ ആപ്ലിക്കേഷനുകൾക്കോ ​​വേണ്ടിയുള്ള BERTScore സ്കെയിലിംഗ് അതിൻ്റെ കമ്പ്യൂട്ടേഷണൽ ആവശ്യങ്ങൾ കാരണം വെല്ലുവിളി നിറഞ്ഞതാണ്. ഉൽപ്പാദന പരിതസ്ഥിതികളിൽ BERTScore നടപ്പിലാക്കുന്നതിന് കാര്യക്ഷമമായ പ്രകടനം നൽകുന്നതിന് ഒപ്റ്റിമൈസേഷൻ തന്ത്രങ്ങൾ ആവശ്യമായി വന്നേക്കാം.
  • ഡൊമെയ്ൻ പ്രത്യേകത - BERTScore-ൻ്റെ പ്രകടനം വ്യത്യസ്ത ഡൊമെയ്‌നുകളിലോ പ്രത്യേക ടെക്‌സ്‌റ്റ് തരങ്ങളിലോ വ്യത്യാസപ്പെടാം. നിർദ്ദിഷ്ട ഡൊമെയ്‌നുകളിലേക്കോ ടാസ്‌ക്കുകളിലേക്കോ മെട്രിക് പൊരുത്തപ്പെടുത്തുന്നതിന് കൃത്യമായ മൂല്യനിർണ്ണയങ്ങൾ നടത്തുന്നതിന് മികച്ച ട്യൂണിംഗ് അല്ലെങ്കിൽ ക്രമീകരണങ്ങൾ ആവശ്യമായി വന്നേക്കാം.
  • വ്യാഖ്യാനം - BERTScore സന്ദർഭോചിതമായ ഉൾച്ചേർക്കലുകളെ അടിസ്ഥാനമാക്കി സമഗ്രമായ ഒരു വിലയിരുത്തൽ നൽകുന്നുണ്ടെങ്കിലും, ഓരോ ടോക്കണിനും സൃഷ്ടിക്കുന്ന സമാനത സ്‌കോറുകൾക്ക് പിന്നിലെ നിർദ്ദിഷ്ട കാരണങ്ങൾ വ്യാഖ്യാനിക്കുന്നത് സങ്കീർണ്ണവും കൂടുതൽ വിശകലനം ആവശ്യമായി വന്നേക്കാം.
  • റഫറൻസ് രഹിത മൂല്യനിർണ്ണയം – BERTScore മൂല്യനിർണ്ണയത്തിനുള്ള റഫറൻസ് സംഗ്രഹങ്ങളെ ആശ്രയിക്കുന്നത് കുറയ്ക്കുന്നുണ്ടെങ്കിലും, ഈ റഫറൻസ് രഹിത സമീപനം സംഗ്രഹ ഗുണനിലവാരത്തിൻ്റെ എല്ലാ വശങ്ങളും പൂർണ്ണമായി പിടിച്ചെടുക്കാനിടയില്ല, പ്രത്യേകിച്ചും ഉള്ളടക്കത്തിൻ്റെ പ്രസക്തിയും യോജിപ്പും വിലയിരുത്തുന്നതിന് മനുഷ്യൻ തയ്യാറാക്കിയ റഫറൻസുകൾ അനിവാര്യമായ സാഹചര്യങ്ങളിൽ.

ഈ പരിമിതികൾ അംഗീകരിക്കുന്നത്, BERTScore ഒരു മെട്രിക് ആയി ഉപയോഗിക്കുമ്പോൾ, അതിൻ്റെ ശക്തികളെയും പരിമിതികളെയും കുറിച്ച് സമതുലിതമായ ധാരണ നൽകിക്കൊണ്ട്, സംഗ്രഹം ടാസ്ക്കുകൾ വിലയിരുത്തുന്നതിനുള്ള ഒരു മെട്രിക് ആയി ഉപയോഗിക്കുമ്പോൾ അറിവുള്ള തീരുമാനങ്ങൾ എടുക്കാൻ നിങ്ങളെ സഹായിക്കും.

എപ്പോൾ BERTScore ഉപയോഗിക്കണം

ഒരു ജനറേറ്റഡ് സംഗ്രഹം ഒരു റഫറൻസ് സംഗ്രഹവുമായി താരതമ്യം ചെയ്തുകൊണ്ട് BERTScore-ന് വാചക സംഗ്രഹത്തിൻ്റെ ഗുണനിലവാരം വിലയിരുത്താനാകും. കൃത്യമായ പദമോ പദസമുച്ചയമോ പൊരുത്തപ്പെടുത്തുന്നതിന് അപ്പുറം സെമാൻ്റിക് സമാനത അളക്കാൻ ഇത് BERT പോലുള്ള ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ ഉപയോഗിക്കുന്നു. പൂർണ്ണമായ അർത്ഥവും ഉള്ളടക്കവും കാത്തുസൂക്ഷിക്കുന്ന സെമാൻ്റിക് ഫിഡിലിറ്റി നിങ്ങളുടെ സംഗ്രഹീകരണ ടാസ്‌ക്കിന് നിർണായകമാകുമ്പോൾ ഇത് BERTScore-നെ വളരെ ഉപയോഗപ്രദമാക്കുന്നു. വ്യത്യസ്ത പദങ്ങളും വാക്യഘടനകളും ഉപയോഗിച്ചാലും, റഫറൻസ് സംഗ്രഹത്തിൻ്റെ അതേ വിവരങ്ങൾ നൽകുന്ന സംഗ്രഹങ്ങൾക്ക് BERTScore ഉയർന്ന സ്കോറുകൾ നൽകും. കീവേഡുകളോ വിഷയങ്ങളോ മാത്രമല്ല, പൂർണ്ണമായ സെമാൻ്റിക് അർത്ഥം നിലനിർത്തുന്നത് സുപ്രധാനമായ സംഗ്രഹ ജോലികൾക്ക് BERTScore അനുയോജ്യമാണ് എന്നതാണ് ഏറ്റവും പ്രധാന കാര്യം. അതിൻ്റെ വിപുലമായ ന്യൂറൽ സ്‌കോറിംഗ് ഉപരിതല-ലെവൽ പദ പൊരുത്തത്തിനപ്പുറം അർത്ഥം താരതമ്യം ചെയ്യാൻ അനുവദിക്കുന്നു. വാക്കുകളിലെ സൂക്ഷ്മമായ വ്യത്യാസങ്ങൾ മൊത്തത്തിലുള്ള അർത്ഥത്തിലും പ്രത്യാഘാതങ്ങളിലും കാര്യമായ മാറ്റം വരുത്തുന്ന സന്ദർഭങ്ങളിൽ ഇത് അനുയോജ്യമാക്കുന്നു. റിട്രീവൽ ഓഗ്‌മെൻ്റഡ് ജനറേഷൻ (RAG) മോഡലുകൾ നിർമ്മിക്കുന്നത് പോലെയുള്ള അമൂർത്ത സംഗ്രഹങ്ങളുടെ ഗുണനിലവാരം വിലയിരുത്തുന്നതിന് നിർണ്ണായകമായ സെമാൻ്റിക് സമാനത പകർത്തുന്നതിൽ BERTScore, പ്രത്യേകിച്ചും, മികവ് പുലർത്തുന്നു.

മോഡൽ മൂല്യനിർണ്ണയ ചട്ടക്കൂടുകൾ

വിവിധ സംഗ്രഹ മാതൃകകളുടെ പ്രകടനം കൃത്യമായി അളക്കുന്നതിന് മോഡൽ മൂല്യനിർണ്ണയ ചട്ടക്കൂടുകൾ അത്യന്താപേക്ഷിതമാണ്. ഈ ചട്ടക്കൂടുകൾ മോഡലുകളെ താരതമ്യം ചെയ്യുന്നതിനും സൃഷ്ടിച്ച സംഗ്രഹങ്ങൾക്കും ഉറവിട ഉള്ളടക്കത്തിനും ഇടയിൽ യോജിപ്പുണ്ടാക്കുന്നതിനും മൂല്യനിർണ്ണയ രീതികളിലെ പോരായ്മകൾ കണ്ടെത്തുന്നതിനും സഹായകമാണ്. സമഗ്രമായ വിലയിരുത്തലുകളും സ്ഥിരമായ ബെഞ്ച്മാർക്കിംഗും നടത്തുന്നതിലൂടെ, സ്റ്റാൻഡേർഡ് മൂല്യനിർണ്ണയ രീതികൾ വാദിച്ചും ബഹുമുഖ മാതൃകാ താരതമ്യങ്ങൾ പ്രാപ്തമാക്കിയും ഈ ചട്ടക്കൂടുകൾ വാചക സംഗ്രഹ ഗവേഷണത്തെ മുന്നോട്ട് നയിക്കുന്നു.

AWS-ൽ, ദി FMEval ലൈബ്രറി ഉള്ളിൽ ആമസോൺ സേജ് മേക്കർ വ്യക്തമാക്കുക ടെക്‌സ്‌റ്റ് സംഗ്രഹം, ചോദ്യത്തിന് ഉത്തരം നൽകൽ, വർഗ്ഗീകരണം തുടങ്ങിയ ജോലികൾക്കായുള്ള അടിസ്ഥാന മോഡലുകളുടെ (എഫ്എം) മൂല്യനിർണ്ണയവും തിരഞ്ഞെടുപ്പും കാര്യക്ഷമമാക്കുന്നു. LLM-കൾക്കായുള്ള ഓട്ടോമേറ്റഡ്, ഹ്യൂമൻ-ഇൻ-ദി-ലൂപ്പ് മൂല്യനിർണ്ണയങ്ങളെ പിന്തുണയ്ക്കുന്ന, കൃത്യത, ദൃഢത, സർഗ്ഗാത്മകത, പക്ഷപാതം, വിഷാംശം തുടങ്ങിയ അളവുകോലുകളെ അടിസ്ഥാനമാക്കി FM-കൾ വിലയിരുത്താൻ ഇത് നിങ്ങളെ പ്രാപ്തരാക്കുന്നു. UI-അധിഷ്‌ഠിതമോ പ്രോഗ്രമാറ്റിക് മൂല്യനിർണ്ണയങ്ങളോടെ, കൃത്യതയില്ലായ്മ, വിഷാംശം, അല്ലെങ്കിൽ പക്ഷപാതം തുടങ്ങിയ മോഡൽ അപകടസാധ്യതകൾ കണക്കാക്കാൻ FMEval വിശദമായ റിപ്പോർട്ടുകൾ ദൃശ്യവൽക്കരണത്തോടെ സൃഷ്ടിക്കുന്നു, ഇത് ഓർഗനൈസേഷനുകളെ അവരുടെ ഉത്തരവാദിത്ത ജനറേറ്റീവ് AI മാർഗ്ഗനിർദ്ദേശങ്ങളുമായി യോജിപ്പിക്കാൻ സഹായിക്കുന്നു. ഈ വിഭാഗത്തിൽ, FMEval ലൈബ്രറി എങ്ങനെ ഉപയോഗിക്കാമെന്ന് ഞങ്ങൾ കാണിക്കുന്നു.

ആമസോൺ ബെഡ്‌റോക്ക് ഉപയോഗിച്ച് സംഗ്രഹ കൃത്യതയെക്കുറിച്ച് ക്ലോഡ് v2 വിലയിരുത്തുക

പൈത്തൺ കോഡ് ഉപയോഗിച്ച് ആന്ത്രോപിക് ക്ലോഡ് മോഡലുമായി എങ്ങനെ ഇടപെടാം എന്നതിൻ്റെ ഒരു ഉദാഹരണമാണ് ഇനിപ്പറയുന്ന കോഡ് സ്‌നിപ്പെറ്റ്:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

ലളിതമായി പറഞ്ഞാൽ, ഈ കോഡ് ഇനിപ്പറയുന്ന പ്രവർത്തനങ്ങൾ ചെയ്യുന്നു:

  1. ഉൾപ്പെടെ ആവശ്യമായ ലൈബ്രറികൾ ഇറക്കുമതി ചെയ്യുക json, JSON ഡാറ്റയുമായി പ്രവർത്തിക്കാൻ.
  2. മോഡൽ ഐഡി ഇങ്ങനെ നിർവചിക്കുക anthropic.claude-v2 അഭ്യർത്ഥനയ്ക്കായി ഉള്ളടക്ക തരം സജ്ജമാക്കുക.
  3. സൃഷ്ടിക്കുക prompt_data ക്ലോഡ് മോഡലിന് വേണ്ടിയുള്ള ഇൻപുട്ട് ഡാറ്റ രൂപപ്പെടുത്തുന്ന വേരിയബിൾ. ഈ സാഹചര്യത്തിൽ, "ആരാണ് ബരാക് ഒബാമ?" എന്ന ചോദ്യം ചോദിക്കുന്നു. മോഡലിൽ നിന്ന് പ്രതികരണം പ്രതീക്ഷിക്കുന്നു.
  4. പ്രോംപ്റ്റ് ഡാറ്റ ഉൾപ്പെടുന്ന ബോഡി എന്ന് പേരുള്ള ഒരു JSON ഒബ്‌ജക്റ്റ് നിർമ്മിക്കുക, കൂടാതെ ജനറേറ്റുചെയ്യേണ്ട ടോക്കണുകളുടെ പരമാവധി എണ്ണം പോലുള്ള അധിക പാരാമീറ്ററുകൾ വ്യക്തമാക്കുക.
  5. ഉപയോഗിച്ച് ക്ലോഡ് മോഡൽ അഭ്യർത്ഥിക്കുക bedrock_runtime.invoke_model നിർവചിച്ച പാരാമീറ്ററുകൾക്കൊപ്പം.
  6. മോഡലിൽ നിന്നുള്ള പ്രതികരണം പാഴ്‌സ് ചെയ്യുക, പൂർത്തീകരണം (ജനറേറ്റ് ചെയ്‌ത വാചകം) എക്‌സ്‌ട്രാക്‌റ്റ് ചെയ്‌ത് പ്രിൻ്റ് ഔട്ട് ചെയ്യുക.

ഉറപ്പാക്കുക AWS ഐഡന്റിറ്റി, ആക്സസ് മാനേജുമെന്റ് (IAM) റോളുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു ആമസോൺ സേജ് മേക്കർ സ്റ്റുഡിയോ ഉപയോക്തൃ പ്രൊഫൈലിലേക്ക് ആക്സസ് ഉണ്ട് ആമസോൺ ബെഡ്റോക്ക് മോഡലുകൾ അഭ്യർത്ഥിക്കുന്നു. റഫർ ചെയ്യുക ആമസോൺ ബെഡ്‌റോക്കിനുള്ള ഐഡൻ്റിറ്റി അടിസ്ഥാനമാക്കിയുള്ള നയ ഉദാഹരണങ്ങൾ ആമസോൺ ബെഡ്‌റോക്കിനുള്ള ഐഡൻ്റിറ്റി അധിഷ്‌ഠിത നയങ്ങളുടെ മികച്ച പ്രവർത്തനങ്ങളെയും ഉദാഹരണങ്ങളെയും കുറിച്ചുള്ള മാർഗ്ഗനിർദ്ദേശത്തിനായി.

ക്ലോഡിൽ നിന്നുള്ള സംഗ്രഹിച്ച ഔട്ട്പുട്ട് വിലയിരുത്താൻ FMEval ലൈബ്രറി ഉപയോഗിക്കുന്നു

സംഗ്രഹിച്ച ഔട്ട്പുട്ട് വിലയിരുത്തുന്നതിന് ഞങ്ങൾ ഇനിപ്പറയുന്ന കോഡ് ഉപയോഗിക്കുന്നു:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

മുമ്പത്തെ കോഡ് സ്‌നിപ്പറ്റിൽ, FMEval ലൈബ്രറി ഉപയോഗിച്ച് വാചക സംഗ്രഹം വിലയിരുത്തുന്നതിന്, ഞങ്ങൾ ഇനിപ്പറയുന്ന ഘട്ടങ്ങൾ പൂർത്തിയാക്കുന്നു:

  1. സൃഷ്ടിക്കുക ModelRunner നിങ്ങളുടെ LLM-ൽ അഭ്യർത്ഥന നടത്താൻ. FMEval ലൈബ്രറി ബിൽറ്റ്-ഇൻ പിന്തുണ നൽകുന്നു ആമസോൺ സേജ് മേക്കർ അവസാന പോയിൻ്റുകളും ആമസോൺ സേജ് മേക്കർ ജമ്പ്സ്റ്റാർട്ട് എൽ.എൽ.എം. നിങ്ങൾക്ക് നീട്ടാനും കഴിയും ModelRunner എവിടെയും ഹോസ്റ്റുചെയ്തിരിക്കുന്ന എല്ലാ LLM-കൾക്കുമുള്ള ഇൻ്റർഫേസ്.
  2. പിന്തുണയുള്ളത് ഉപയോഗിക്കുക eval_algorithms നിങ്ങളുടെ മൂല്യനിർണ്ണയ ആവശ്യങ്ങളെ അടിസ്ഥാനമാക്കി വിഷാംശം, സംഗ്രഹം, കൃത്യത, അർത്ഥം, കരുത്ത് എന്നിവ പോലെ.
  3. നിങ്ങളുടെ നിർദ്ദിഷ്ട ഉപയോഗ കേസിനായി മൂല്യനിർണ്ണയ കോൺഫിഗറേഷൻ പാരാമീറ്ററുകൾ ഇഷ്ടാനുസൃതമാക്കുക.
  4. നിങ്ങളുടെ LLM മോഡൽ വിലയിരുത്തുന്നതിന് ബിൽറ്റ്-ഇൻ അല്ലെങ്കിൽ ഇഷ്‌ടാനുസൃത ഡാറ്റാസെറ്റുകൾ ഉപയോഗിച്ച് മൂല്യനിർണ്ണയ അൽഗോരിതം ഉപയോഗിക്കുക. ഈ കേസിൽ ഉപയോഗിക്കുന്ന ഡാറ്റാസെറ്റ് ഇനിപ്പറയുന്നതിൽ നിന്ന് ഉറവിടമാണ് ഗിറ്റ്ഹബ് റെപ്പോ.

റഫര് ചെയ്യുക ഡെവലപ്പർ ഗൈഡും ഉദാഹരണങ്ങളും മൂല്യനിർണ്ണയ അൽഗോരിതങ്ങളുടെ വിശദമായ ഉപയോഗത്തിന്.

ഇനിപ്പറയുന്ന പട്ടിക മൂല്യനിർണ്ണയ ഫലങ്ങൾ സംഗ്രഹിക്കുന്നു.

മോഡൽ _ഇൻപുട്ട് മോഡൽ_ഔട്ട്‌പുട്ട് ലക്ഷ്യം_ഔട്ട്പുട്ട് പ്രോംപ്റ്റ് സ്കോറുകൾ ഉൽക്കാ_സ്കോർ റൂജ്_സ്കോർ ബെർട്ട്_സ്കോർ
ജോൺ എഡ്വേഡ്
0 ബേറ്റ്സ്, മുമ്പ് സ്പാൽഡിംഗ്, ലിങ്കോ…..
എനിക്ക് നിർണ്ണായകമായി ഒന്നും പറയാൻ കഴിയില്ല
വിധികൾ, പോലെ...
ഒരു മുൻ
ലിങ്കൺഷയർ പോലീസ് ഉദ്യോഗസ്ഥൻ കൊണ്ടുപോയി...
മനുഷ്യൻ: ജോൺ
എഡ്വേർഡ് ബേറ്റ്സ്, മുമ്പ് സ്പാൽഡിംഗ്…
[{'name': 'meteor', 'value':
0.101010101010101 ...
0.10101 0 0.557155
23 ഒക്ടോബർ 2015
അവസാനം അപ്ഡേറ്റ് ചെയ്തത്
17:44 BST|nIt'...
ചുഴലിക്കാറ്റ്/ട്രോപ്പ് സംബന്ധിച്ച ചില പ്രധാന പോയിൻ്റുകൾ ഇതാ.. പട്രീഷ്യ ചുഴലിക്കാറ്റ് ഒരു വിഭാഗമായി റേറ്റുചെയ്‌തു… മനുഷ്യൻ: 23
ഒക്ടോബർ 2015 അവസാനം 17:44 ന് അപ്ഡേറ്റ് ചെയ്തു
ബി…
[{'name': meteor', "value':
0.102339181286549 ..
0.102339 0.018265 0.441421
അൺ വെല്ലുവിളിക്കുന്ന ഒരു സ്ഥാനത്താണ് ഫെരാരി പ്രത്യക്ഷപ്പെട്ടത്… ലേഖനത്തിൽ നിന്നുള്ള പ്രധാന പോയിൻ്റുകൾ ഇതാ: nin… ലൂയിസ് ഹാമിൽട്ടൺ പോൾ പൊസിഷനിലേക്ക് കുതിച്ചു… മനുഷ്യൻ: ഫെരാരി ആഞ്ഞടിക്കുന്ന അവസ്ഥയിൽ പ്രത്യക്ഷപ്പെട്ടു... [{'name': 'meteor', 'value':
0.322543352601156 ...
0.322543 0.078212 0.606487
28 കാരനായ ബാത്ത്-ബോൺ താരം 36 റൺസ് നേടി
പ്രത്യക്ഷപ്പെടുന്നു…
ശരി, ഞാൻ പ്രധാന പോയിൻ്റുകൾ സംഗ്രഹിക്കട്ടെ:/nin- E….. ന്യൂപോർട്ട് ഗ്വെൻ്റ് ഡ്രാഗൺസ് എട്ടാം നമ്പർ എഡ് ജാക്സൺ മനുഷ്യൻ: ബാത്ത്-ബോൺ പ്ലെയർ, 28, 36 ആക്കി… [{'name': 'meteor', 'value':
0105740181268882 ...
0.10574 0.012987 0.539488
സി ഉപയോഗിച്ച് എലികൾ ഡാറ്റ സ്വാപ്പ് ചെയ്യുന്നതിലെ പോരായ്മകൾ... ഇതിൽ നിന്ന് ഞാൻ ശേഖരിച്ച പ്രധാന പോയിൻ്റുകൾ ഇതാ… ഹാക്കർമാർക്ക് വീട്ടിലേക്കും പ്രവേശനത്തിലേക്കും പ്രവേശനം നേടാം മനുഷ്യൻ:
ലെ ബലഹീനതകൾ
swar എലികൾ ഡാറ്റ മാറ്റി
[{'name': 'meteor', 'value':
0.201048289433848 ...
0.201048 0.021858 0.526947

സാമ്പിൾ പരിശോധിക്കുക നോട്ടുബുക്ക് ഈ പോസ്റ്റിൽ ഞങ്ങൾ ചർച്ച ചെയ്ത സംഗ്രഹ മൂല്യനിർണ്ണയത്തെക്കുറിച്ചുള്ള കൂടുതൽ വിശദാംശങ്ങൾക്ക്.

തീരുമാനം

ROUGE, METEOR, BERTScore എന്നിവയെല്ലാം മെഷീൻ സൃഷ്‌ടിച്ച സംഗ്രഹങ്ങളുടെ ഗുണനിലവാരം അളക്കുന്നു, എന്നാൽ ലെക്സിക്കൽ ഓവർലാപ്പ്, ഫ്ലൂൻസി അല്ലെങ്കിൽ സെമാൻ്റിക് സമാനത തുടങ്ങിയ വ്യത്യസ്ത വശങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു. നിങ്ങളുടെ നിർദ്ദിഷ്ട സംഗ്രഹീകരണ ഉപയോഗ കേസിൽ "നല്ലത്" എന്ന് നിർവചിക്കുന്ന മെട്രിക് തിരഞ്ഞെടുക്കുന്നത് ഉറപ്പാക്കുക. നിങ്ങൾക്ക് മെട്രിക്കുകളുടെ സംയോജനവും ഉപയോഗിക്കാം. ഇത് കൂടുതൽ കൃത്യമായ മൂല്യനിർണ്ണയം നൽകുകയും ഏതെങ്കിലും വ്യക്തിഗത മെട്രിക്കിൻ്റെ സാധ്യതയുള്ള ബലഹീനതകളിൽ നിന്ന് സംരക്ഷിക്കുകയും ചെയ്യുന്നു. ശരിയായ അളവുകൾ ഉപയോഗിച്ച്, കൃത്യതയുടെ ഏറ്റവും പ്രധാനപ്പെട്ട ആശയം നിറവേറ്റുന്നതിന് നിങ്ങളുടെ സംഗ്രഹങ്ങളെ നിങ്ങൾക്ക് ആവർത്തിച്ച് മെച്ചപ്പെടുത്താൻ കഴിയും.

കൂടാതെ, ഈ മോഡലുകൾ സ്കെയിലിൽ നിർമ്മിക്കാൻ FM, LLM മൂല്യനിർണ്ണയം ആവശ്യമാണ്. FMEval ഉപയോഗിച്ച്, നിങ്ങൾക്ക് നിരവധി NLP ടാസ്‌ക്കുകളിലുടനീളം ബിൽറ്റ്-ഇൻ അൽഗോരിതങ്ങളുടെ ഒരു കൂട്ടം ലഭിക്കും, മാത്രമല്ല നിങ്ങളുടെ സ്വന്തം മോഡലുകൾ, ഡാറ്റാസെറ്റുകൾ, അൽഗരിതങ്ങൾ എന്നിവയുടെ വലിയ തോതിലുള്ള മൂല്യനിർണ്ണയത്തിനുള്ള സ്കേലബിൾ, ഫ്ലെക്സിബിൾ ടൂൾ കൂടിയുണ്ട്. വർദ്ധിപ്പിക്കുന്നതിന്, നിങ്ങളുടെ LLMOps പൈപ്പ്ലൈനുകളിൽ ഈ പാക്കേജ് ഉപയോഗിക്കാം ഒന്നിലധികം മോഡലുകൾ വിലയിരുത്തുക. AWS-ലെ FMEval-നെക്കുറിച്ചും അത് എങ്ങനെ ഫലപ്രദമായി ഉപയോഗിക്കാമെന്നതിനെക്കുറിച്ചും കൂടുതലറിയാൻ, റഫർ ചെയ്യുക വലിയ ഭാഷാ മോഡലുകൾ വിലയിരുത്താൻ SageMaker Clarify ഉപയോഗിക്കുക. FM-കൾ വിലയിരുത്തുന്നതിൽ SageMaker ക്ലാരിഫൈയുടെ കഴിവുകളെക്കുറിച്ചുള്ള കൂടുതൽ മനസ്സിലാക്കലിനും ഉൾക്കാഴ്ചകൾക്കും, കാണുക ആമസോൺ സേജ് മേക്കർ ക്ലാരിഫൈ ഫൗണ്ടേഷൻ മോഡലുകൾ വിലയിരുത്തുന്നതും തിരഞ്ഞെടുക്കുന്നതും എളുപ്പമാക്കുന്നു.


രചയിതാക്കളെക്കുറിച്ച്


ദിനേശ് കുമാർ സുബ്രഹ്മണി സ്കോട്ട്ലൻഡിലെ എഡിൻബർഗ് ആസ്ഥാനമായുള്ള ഒരു മുതിർന്ന സൊല്യൂഷൻ ആർക്കിടെക്റ്റാണ്. ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസ്, മെഷീൻ ലേണിംഗ് എന്നിവയിൽ വൈദഗ്ദ്ധ്യം നേടിയ അദ്ദേഹം ആമസോണിലെ ടെക്നിക്കൽ ഫീൽഡ് കമ്മ്യൂണിറ്റിയിൽ അംഗമാണ്. AWS സേവനങ്ങൾ ഉപയോഗിച്ച് അവരുടെ പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നതിനായി ദിനേശ് യുകെ സെൻട്രൽ ഗവൺമെൻ്റ് ഉപഭോക്താക്കളുമായി അടുത്ത് പ്രവർത്തിക്കുന്നു. ജോലിക്ക് പുറത്ത്, ദിനേശ് തൻ്റെ കുടുംബത്തോടൊപ്പം ഗുണനിലവാരമുള്ള സമയം ചെലവഴിക്കുകയും ചെസ്സ് കളിക്കുകയും വൈവിധ്യമാർന്ന സംഗീതം പര്യവേക്ഷണം ചെയ്യുകയും ചെയ്യുന്നു.


പ്രണവ് ശർമ്മ യൂറോപ്പ്, മിഡിൽ ഈസ്റ്റ്, ആഫ്രിക്ക എന്നിവിടങ്ങളിൽ ഉടനീളം ഡ്രൈവിംഗ് സാങ്കേതികവിദ്യയും ബിസിനസ് പരിവർത്തന സംരംഭങ്ങളും ഒരു AWS നേതാവാണ്. ദശലക്ഷക്കണക്കിന് ഉപഭോക്താക്കളെ പിന്തുണയ്ക്കുകയും ബിസിനസ്സ് ഫലങ്ങൾ നൽകുകയും ചെയ്യുന്ന നിർമ്മാണത്തിൽ ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസ് പ്ലാറ്റ്‌ഫോമുകൾ രൂപകൽപ്പന ചെയ്യുന്നതിലും പ്രവർത്തിപ്പിക്കുന്നതിലും അദ്ദേഹത്തിന് പരിചയമുണ്ട്. ഗ്ലോബൽ ഫിനാൻഷ്യൽ സർവീസസ് ഓർഗനൈസേഷനുകൾക്കായി ടെക്നോളജി, പീപ്പിൾ ലീഡർഷിപ്പ് റോളുകൾ അദ്ദേഹം വഹിച്ചിട്ടുണ്ട്. ജോലിക്ക് പുറത്ത്, അവൻ വായിക്കാനും മകനോടൊപ്പം ടെന്നീസ് കളിക്കാനും സിനിമ കാണാനും ഇഷ്ടപ്പെടുന്നു.

സ്പോട്ട്_ഐഎംജി

ഏറ്റവും പുതിയ ഇന്റലിജൻസ്

സ്പോട്ട്_ഐഎംജി

ഞങ്ങളുമായി ചാറ്റുചെയ്യുക

ഹേയ്, അവിടെയുണ്ടോ! എനിക്ക് നിങ്ങളെ എങ്ങനെ സഹായിക്കാനാകും?