ജനറേറ്റീവ് ഡാറ്റ ഇന്റലിജൻസ്

സാമ്പത്തിക ഡൊമെയ്‌നുകൾക്കായുള്ള കാര്യക്ഷമമായ തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ് LLM-കൾ | ആമസോൺ വെബ് സേവനങ്ങൾ

തീയതി:

വലിയ ഭാഷാ മോഡലുകൾ (LLM-കൾ) സാധാരണയായി ഡൊമെയ്ൻ അജ്ഞ്ഞേയവാദികളായ പൊതുവായി ലഭ്യമായ വലിയ ഡാറ്റാസെറ്റുകളിൽ പരിശീലിപ്പിക്കപ്പെടുന്നു. ഉദാഹരണത്തിന്, മെറ്റയുടെ ലാമ പോലുള്ള ഡാറ്റാസെറ്റുകളിൽ മോഡലുകൾ പരിശീലിപ്പിക്കപ്പെടുന്നു കോമൺ ക്രോൾ, C4, വിക്കിപീഡിയ, ഒപ്പം ArXiv. ഈ ഡാറ്റാസെറ്റുകൾ വിശാലമായ വിഷയങ്ങളും ഡൊമെയ്‌നുകളും ഉൾക്കൊള്ളുന്നു. തത്ഫലമായുണ്ടാകുന്ന മോഡലുകൾ ടെക്‌സ്‌റ്റ് ജനറേഷൻ, എൻ്റിറ്റി റെക്കഗ്‌നിഷൻ തുടങ്ങിയ പൊതുവായ ജോലികൾക്ക് അതിശയകരമാംവിധം നല്ല ഫലങ്ങൾ നൽകുന്നുണ്ടെങ്കിലും, ഡൊമെയ്ൻ-നിർദ്ദിഷ്‌ട ഡാറ്റാസെറ്റുകൾ ഉപയോഗിച്ച് പരിശീലിപ്പിച്ച മോഡലുകൾക്ക് LLM പ്രകടനം കൂടുതൽ മെച്ചപ്പെടുത്താൻ കഴിയുമെന്നതിന് തെളിവുകളുണ്ട്. ഉദാഹരണത്തിന്, ഉപയോഗിച്ച പരിശീലന ഡാറ്റ ബ്ലൂംബെർഗ് ജിപിടി സാമ്പത്തിക വാർത്തകൾ, ഫയലിംഗുകൾ, മറ്റ് സാമ്പത്തിക സാമഗ്രികൾ എന്നിവയുൾപ്പെടെ 51% ഡൊമെയ്ൻ-നിർദ്ദിഷ്ട പ്രമാണങ്ങളാണ്. സാമ്പത്തിക-നിർദ്ദിഷ്‌ട ടാസ്‌ക്കുകളിൽ പരീക്ഷിക്കുമ്പോൾ, നോൺ-ഡൊമെയ്ൻ-നിർദ്ദിഷ്‌ട ഡാറ്റാസെറ്റുകളിൽ പരിശീലിപ്പിച്ച LLM-കളെ ഫലമായുണ്ടാകുന്ന LLM മറികടക്കുന്നു. യുടെ രചയിതാക്കൾ ബ്ലൂംബെർഗ് ജിപിടി അഞ്ച് സാമ്പത്തിക ജോലികളിൽ നാലെണ്ണം പരീക്ഷിച്ച മറ്റെല്ലാ മോഡലുകളേക്കാളും അവരുടെ മോഡൽ മികച്ചതാണെന്ന് നിഗമനം ചെയ്തു. ബ്ലൂംബെർഗിൻ്റെ ഇൻ്റേണൽ ഫിനാൻഷ്യൽ ടാസ്‌ക്കുകൾക്കായി വിശാലമായ മാർജിനിൽ പരീക്ഷിച്ചപ്പോൾ മോഡൽ ഇതിലും മികച്ച പ്രകടനം നൽകി-60 പോയിൻ്റ് മെച്ചം (100-ൽ). എന്നതിലെ സമഗ്രമായ മൂല്യനിർണ്ണയ ഫലങ്ങളെക്കുറിച്ച് നിങ്ങൾക്ക് കൂടുതലറിയാൻ കഴിയുമെങ്കിലും പേപ്പർ, ഇനിപ്പറയുന്ന സാമ്പിൾ ഇതിൽ നിന്ന് പിടിച്ചെടുത്തു ബ്ലൂംബെർഗ് ജിപിടി ഫിനാൻഷ്യൽ ഡൊമെയ്ൻ-നിർദ്ദിഷ്ട ഡാറ്റ ഉപയോഗിച്ച് LLM-കളെ പരിശീലിപ്പിക്കുന്നതിൻ്റെ പ്രയോജനം പേപ്പറിന് നിങ്ങൾക്ക് നൽകാൻ കഴിയും. ഉദാഹരണത്തിൽ കാണിച്ചിരിക്കുന്നത് പോലെ, മറ്റ് നോൺ-ഡൊമെയ്ൻ-നിർദ്ദിഷ്‌ട മോഡലുകൾ ബുദ്ധിമുട്ടുന്ന സമയത്ത് BloombergGPT മോഡൽ ശരിയായ ഉത്തരങ്ങൾ നൽകി:

Input: CEO of Assicurazioni Generali?
BloombergGPT: Philippe Donnet
GPT-NeoX: Antonio De Lorenzo, Simone Gambarini, Enrico Zanetti
FLAN-T5-XXL: John M Forsyth, Christopher K Peters, {empty string}

Input: CEO of Silicon Valley Bank?
BloombergGPT: Greg Becker
GPT-NeoX: John Hodor, Mike Fridgen, Peter R Briger
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth

Input: CEO of IHS Markit Ltd?
BloombergGPT: Lance Uggla
GPT-NeoX: John F Lechleiter, David Steward, Niall O Broin
FLAN-T5-XXL: William M Hawkins, John M Forsyth, John M Forsyth
Input: CEO of Walgreens Boots Alliance?

BloombergGPT: Rosalind Brewer
GPT-NeoX: Mark V Dei, Stefano Pessina, Stefano Pessina
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth
Input: CEO of Citigroup Inc?

BloombergGPT: Jane Fraser
GPT-NeoX: Michael L Corbat, Michael L Corbat, Michael L Corbat
FLAN-T5-XXL: Christian Sewing, John M Forsyth, John M Forsyth

ഫിനാൻഷ്യൽ ഡൊമെയ്‌നിനായി പ്രത്യേകമായി LLM-കളെ പരിശീലിപ്പിക്കുന്നതിനുള്ള ഒരു ഗൈഡ് ഈ പോസ്റ്റ് നൽകുന്നു. ഞങ്ങൾ ഇനിപ്പറയുന്ന പ്രധാന മേഖലകൾ ഉൾക്കൊള്ളുന്നു:

  • വിവരശേഖരണവും തയ്യാറാക്കലും - ഫലപ്രദമായ മോഡൽ പരിശീലനത്തിനായി പ്രസക്തമായ സാമ്പത്തിക ഡാറ്റ ഉറവിടമാക്കുന്നതിനും ക്യൂറേറ്റ് ചെയ്യുന്നതിനുമുള്ള മാർഗ്ഗനിർദ്ദേശം
  • തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ് വേഴ്സസ് ഫൈൻ ട്യൂണിംഗ് - നിങ്ങളുടെ LLM-ൻ്റെ പ്രകടനം ഒപ്റ്റിമൈസ് ചെയ്യുന്നതിന് ഓരോ സാങ്കേതിക വിദ്യയും എപ്പോൾ ഉപയോഗിക്കണം
  • കാര്യക്ഷമമായ തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ് - തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ് പ്രക്രിയ കാര്യക്ഷമമാക്കുന്നതിനുള്ള തന്ത്രങ്ങൾ, സമയവും വിഭവങ്ങളും ലാഭിക്കുന്നു

ഈ പോസ്റ്റ് ആമസോൺ ഫിനാൻസ് ടെക്നോളജിയിലെ അപ്ലൈഡ് സയൻസ് റിസർച്ച് ടീമിൻ്റെയും ആഗോള സാമ്പത്തിക വ്യവസായത്തിനായുള്ള AWS വേൾഡ് വൈഡ് സ്പെഷ്യലിസ്റ്റ് ടീമിൻ്റെയും വൈദഗ്ധ്യം ഒരുമിച്ച് കൊണ്ടുവരുന്നു. ചില ഉള്ളടക്കങ്ങൾ പേപ്പറിനെ അടിസ്ഥാനമാക്കിയുള്ളതാണ് ഡൊമെയ്ൻ പ്രത്യേക വലിയ ഭാഷാ മോഡലുകൾ നിർമ്മിക്കുന്നതിനുള്ള കാര്യക്ഷമമായ തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ്.

സാമ്പത്തിക വിവരങ്ങൾ ശേഖരിക്കുകയും തയ്യാറാക്കുകയും ചെയ്യുന്നു

വലിയ തോതിലുള്ള, ഉയർന്ന നിലവാരമുള്ള, ഡൊമെയ്ൻ-നിർദ്ദിഷ്ട ഡാറ്റാസെറ്റ് ഡൊമെയ്ൻ തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ് ആവശ്യമാണ്. ഡൊമെയ്ൻ ഡാറ്റാസെറ്റ് ക്യൂറേഷൻ്റെ പ്രധാന ഘട്ടങ്ങൾ ഇവയാണ്:

  • ഡാറ്റ ഉറവിടങ്ങൾ തിരിച്ചറിയുക – ഓപ്പൺ വെബ്, വിക്കിപീഡിയ, പുസ്‌തകങ്ങൾ, സോഷ്യൽ മീഡിയ, ഇൻ്റേണൽ ഡോക്യുമെൻ്റുകൾ എന്നിവ ഡൊമെയ്ൻ കോർപ്പസിനുള്ള സാധ്യതയുള്ള ഡാറ്റാ ഉറവിടങ്ങളിൽ ഉൾപ്പെടുന്നു.
  • ഡൊമെയ്ൻ ഡാറ്റ ഫിൽട്ടറുകൾ - ഡൊമെയ്ൻ കോർപ്പസ് ക്യൂറേറ്റ് ചെയ്യുക എന്നതാണ് ആത്യന്തിക ലക്ഷ്യം എന്നതിനാൽ, ടാർഗെറ്റ് ഡൊമെയ്‌നുമായി അപ്രസക്തമായ സാമ്പിളുകൾ ഫിൽട്ടർ ചെയ്യുന്നതിന് നിങ്ങൾക്ക് അധിക ഘട്ടങ്ങൾ പ്രയോഗിക്കേണ്ടി വന്നേക്കാം. ഇത് തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗിനുള്ള ഉപയോഗശൂന്യമായ കോർപ്പസ് കുറയ്ക്കുകയും പരിശീലനച്ചെലവ് കുറയ്ക്കുകയും ചെയ്യുന്നു.
  • പ്രീപ്രൊസസ്സിംഗ് - ഡാറ്റയുടെ ഗുണനിലവാരവും പരിശീലന കാര്യക്ഷമതയും മെച്ചപ്പെടുത്തുന്നതിന് പ്രീപ്രൊസസ്സിംഗ് ഘട്ടങ്ങളുടെ ഒരു പരമ്പര നിങ്ങൾ പരിഗണിച്ചേക്കാം. ഉദാഹരണത്തിന്, ചില ഡാറ്റാ സ്രോതസ്സുകളിൽ ശബ്‌ദമുള്ള ടോക്കണുകളുടെ ന്യായമായ എണ്ണം അടങ്ങിയിരിക്കാം; ഡാറ്റയുടെ ഗുണനിലവാരം മെച്ചപ്പെടുത്തുന്നതിനും പരിശീലനച്ചെലവ് കുറയ്ക്കുന്നതിനുമുള്ള ഉപയോഗപ്രദമായ ഒരു ചുവടുവെപ്പാണ് ഡ്യൂപ്ലിക്കേഷൻ കണക്കാക്കുന്നത്.

സാമ്പത്തിക LLM-കൾ വികസിപ്പിക്കുന്നതിന്, നിങ്ങൾക്ക് രണ്ട് പ്രധാന ഡാറ്റ ഉറവിടങ്ങൾ ഉപയോഗിക്കാം: News CommonCrawl, SEC ഫയലിംഗുകൾ. യുഎസ് സെക്യൂരിറ്റീസ് ആൻഡ് എക്സ്ചേഞ്ച് കമ്മീഷനിൽ (എസ്ഇസി) സമർപ്പിച്ച സാമ്പത്തിക പ്രസ്താവനയോ മറ്റ് ഔപചാരിക രേഖയോ ആണ് എസ്ഇസി ഫയലിംഗ്. പൊതുവായി ലിസ്റ്റുചെയ്തിരിക്കുന്ന കമ്പനികൾ പതിവായി വിവിധ രേഖകൾ ഫയൽ ചെയ്യേണ്ടതുണ്ട്. ഇത് വർഷങ്ങളായി ധാരാളം രേഖകൾ സൃഷ്ടിക്കുന്നു. 2016-ൽ CommonCrawl പുറത്തിറക്കിയ ഒരു ഡാറ്റാസെറ്റാണ് News CommonCrawl. ലോകമെമ്പാടുമുള്ള വാർത്താ സൈറ്റുകളിൽ നിന്നുള്ള വാർത്താ ലേഖനങ്ങൾ ഇതിൽ അടങ്ങിയിരിക്കുന്നു.

വാർത്ത CommonCrawl എന്നതിൽ ലഭ്യമാണ് ആമസോൺ ലളിതമായ സംഭരണ ​​സേവനം (Amazon S3) ൽ commoncrawl ബക്കറ്റ് crawl-data/CC-NEWS/. ഉപയോഗിച്ച് ഫയലുകളുടെ ലിസ്റ്റിംഗുകൾ നിങ്ങൾക്ക് ലഭിക്കും AWS കമാൻഡ് ലൈൻ ഇന്റർഫേസ് (AWS CLI) കൂടാതെ ഇനിപ്പറയുന്ന കമാൻഡും:

aws s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/

In ഡൊമെയ്ൻ പ്രത്യേക വലിയ ഭാഷാ മോഡലുകൾ നിർമ്മിക്കുന്നതിനുള്ള കാര്യക്ഷമമായ തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ്, പൊതു വാർത്തകളിൽ നിന്ന് സാമ്പത്തിക വാർത്താ ലേഖനങ്ങൾ ഫിൽട്ടർ ചെയ്യുന്നതിന് രചയിതാക്കൾ ഒരു URL ഉം കീവേഡ് അധിഷ്ഠിത സമീപനവും ഉപയോഗിക്കുന്നു. പ്രത്യേകിച്ചും, രചയിതാക്കൾ പ്രധാനപ്പെട്ട സാമ്പത്തിക വാർത്താ ഔട്ട്ലെറ്റുകളുടെ ഒരു ലിസ്റ്റും സാമ്പത്തിക വാർത്തകളുമായി ബന്ധപ്പെട്ട ഒരു കൂട്ടം കീവേഡുകളും പരിപാലിക്കുന്നു. സാമ്പത്തിക വാർത്താ ഔട്ട്‌ലെറ്റുകളിൽ നിന്നോ ഏതെങ്കിലും കീവേഡുകളോ URL-ൽ കാണിക്കുന്നതോ ആണെങ്കിൽ ഒരു ലേഖനം സാമ്പത്തിക വാർത്തയായി ഞങ്ങൾ തിരിച്ചറിയുന്നു. ലളിതവും എന്നാൽ ഫലപ്രദവുമായ ഈ സമീപനം സാമ്പത്തിക വാർത്താ ഔട്ട്‌ലെറ്റുകളിൽ നിന്ന് മാത്രമല്ല, ജനറിക് ന്യൂസ് ഔട്ട്‌ലെറ്റുകളുടെ സാമ്പത്തിക വിഭാഗങ്ങളിൽ നിന്നുമുള്ള സാമ്പത്തിക വാർത്തകൾ തിരിച്ചറിയാൻ നിങ്ങളെ പ്രാപ്‌തമാക്കുന്നു.

ഓപ്പൺ ഡാറ്റ ആക്‌സസ് നൽകുന്ന SEC-യുടെ EDGAR (ഇലക്‌ട്രോണിക് ഡാറ്റ ശേഖരണം, വിശകലനം, വീണ്ടെടുക്കൽ) ഡാറ്റാബേസ് വഴി SEC ഫയലിംഗുകൾ ഓൺലൈനിൽ ലഭ്യമാണ്. നിങ്ങൾക്ക് EDGAR-ൽ നിന്ന് നേരിട്ട് ഫയലിംഗുകൾ സ്ക്രാപ്പ് ചെയ്യാം, അല്ലെങ്കിൽ API-കൾ ഉപയോഗിക്കുക ആമസോൺ സേജ് മേക്കർ കുറച്ച് കോഡ് ലൈനുകൾക്കൊപ്പം, ഏത് സമയത്തിനും, ധാരാളം ടിക്കറുകൾക്കും (അതായത്, SEC അസൈൻഡ് ഐഡൻ്റിഫയർ). കൂടുതലറിയാൻ, റഫർ ചെയ്യുക SEC ഫയലിംഗ് വീണ്ടെടുക്കൽ.

ഇനിപ്പറയുന്ന പട്ടിക രണ്ട് ഡാറ്റാ ഉറവിടങ്ങളുടെയും പ്രധാന വിശദാംശങ്ങൾ സംഗ്രഹിക്കുന്നു.

. വാർത്ത CommonCrawl എസ്ഇസി ഫയലിംഗ്
കവറേജ് 2016-2022 1993-2022
വലുപ്പം 25.8 ബില്യൺ വാക്കുകൾ 5.1 ബില്യൺ വാക്കുകൾ

ഒരു പരിശീലന അൽഗോരിതത്തിലേക്ക് ഡാറ്റ നൽകുന്നതിന് മുമ്പ് രചയിതാക്കൾ കുറച്ച് അധിക പ്രീപ്രോസസിംഗ് ഘട്ടങ്ങളിലൂടെ കടന്നുപോകുന്നു. ആദ്യം, പട്ടികകളും കണക്കുകളും നീക്കം ചെയ്യുന്നതിനാൽ SEC ഫയലിംഗുകളിൽ ശബ്ദായമാനമായ ടെക്‌സ്‌റ്റ് അടങ്ങിയിട്ടുണ്ടെന്ന് ഞങ്ങൾ നിരീക്ഷിക്കുന്നു, അതിനാൽ രചയിതാക്കൾ പട്ടികയോ ഫിഗർ ലേബലുകളോ ആയി കണക്കാക്കുന്ന ചെറിയ വാക്യങ്ങൾ നീക്കം ചെയ്യുന്നു. രണ്ടാമതായി, പുതിയ ലേഖനങ്ങളും ഫയലിംഗുകളും ഡ്യൂപ്ലിക്കേറ്റ് ചെയ്യുന്നതിന് ഞങ്ങൾ ലോക്കാലിറ്റി സെൻസിറ്റീവ് ഹാഷിംഗ് അൽഗോരിതം പ്രയോഗിക്കുന്നു. SEC ഫയലിംഗുകൾക്കായി, ഡോക്യുമെൻ്റ് ലെവലിന് പകരം സെക്ഷൻ ലെവലിൽ ഞങ്ങൾ ഡ്യൂപ്ലിക്കേറ്റ് ചെയ്യുന്നു. അവസാനമായി, ഞങ്ങൾ ഡോക്യുമെൻ്റുകളെ ഒരു നീണ്ട സ്ട്രിംഗിലേക്ക് സംയോജിപ്പിക്കുകയും ടോക്കണൈസ് ചെയ്യുകയും ടോക്കണൈസേഷനെ പരിശീലിപ്പിക്കേണ്ട മോഡൽ പിന്തുണയ്ക്കുന്ന പരമാവധി ഇൻപുട്ട് ദൈർഘ്യമുള്ള കഷണങ്ങളായി മാറ്റുകയും ചെയ്യുന്നു. ഇത് തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗിൻ്റെ ത്രൂപുട്ട് മെച്ചപ്പെടുത്തുകയും പരിശീലനച്ചെലവ് കുറയ്ക്കുകയും ചെയ്യുന്നു.

തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ് വേഴ്സസ് ഫൈൻ ട്യൂണിംഗ്

ലഭ്യമായ മിക്ക LLM-കളും പൊതുവായ ഉദ്ദേശ്യവും ഡൊമെയ്ൻ-നിർദ്ദിഷ്ട കഴിവുകളില്ലാത്തതുമാണ്. മെഡിക്കൽ, ഫിനാൻസ് അല്ലെങ്കിൽ സയൻ്റിഫിക് ഡൊമെയ്‌നുകളിൽ ഡൊമെയ്ൻ LLM-കൾ ഗണ്യമായ പ്രകടനം കാഴ്ചവെച്ചിട്ടുണ്ട്. ഒരു LLM-ന് ഒരു ഡൊമെയ്ൻ-നിർദ്ദിഷ്ട അറിവ് നേടുന്നതിന്, നാല് രീതികളുണ്ട്: ആദ്യം മുതൽ പരിശീലനം, തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ്, ഡൊമെയ്ൻ ടാസ്ക്കുകളിൽ നിർദ്ദേശങ്ങൾ സൂക്ഷ്മമായി ക്രമീകരിക്കൽ, വീണ്ടെടുക്കൽ ഓഗ്മെൻ്റഡ് ജനറേഷൻ (RAG).

പരമ്പരാഗത മോഡലുകളിൽ, ഒരു ഡൊമെയ്‌നിനായി ടാസ്‌ക്-നിർദ്ദിഷ്‌ട മോഡലുകൾ സൃഷ്‌ടിക്കാൻ സാധാരണയായി ഫൈൻ-ട്യൂണിംഗ് ഉപയോഗിക്കുന്നു. എൻ്റിറ്റി എക്‌സ്‌ട്രാക്‌ഷൻ, ഇൻ്റൻ്റ് ക്ലാസിഫിക്കേഷൻ, സെൻ്റിമെൻ്റ് വിശകലനം അല്ലെങ്കിൽ ചോദ്യത്തിന് ഉത്തരം നൽകൽ തുടങ്ങിയ ഒന്നിലധികം ജോലികൾക്കായി ഒന്നിലധികം മോഡലുകൾ പരിപാലിക്കുക എന്നാണ് ഇതിനർത്ഥം. LLM-കളുടെ വരവോടെ, ഇൻ-കോൺക്സ്റ്റ് ലേണിംഗ് അല്ലെങ്കിൽ പ്രോംപ്റ്റിംഗ് പോലുള്ള സാങ്കേതിക വിദ്യകൾ ഉപയോഗിച്ച് പ്രത്യേക മോഡലുകൾ നിലനിർത്തേണ്ടതിൻ്റെ ആവശ്യകത കാലഹരണപ്പെട്ടു. ഇത് ബന്ധപ്പെട്ടതും എന്നാൽ വ്യത്യസ്തവുമായ ജോലികൾക്കായി ഒരു കൂട്ടം മോഡലുകൾ നിലനിർത്താൻ ആവശ്യമായ പരിശ്രമം ലാഭിക്കുന്നു.

അവബോധപൂർവ്വം, ഡൊമെയ്ൻ-നിർദ്ദിഷ്ട ഡാറ്റ ഉപയോഗിച്ച് നിങ്ങൾക്ക് ആദ്യം മുതൽ LLM-കളെ പരിശീലിപ്പിക്കാൻ കഴിയും. ഡൊമെയ്ൻ LLM-കൾ സൃഷ്ടിക്കുന്നതിനുള്ള മിക്ക ജോലികളും ആദ്യം മുതൽ പരിശീലനത്തിൽ ശ്രദ്ധ കേന്ദ്രീകരിച്ചിട്ടുണ്ടെങ്കിലും, അത് വളരെ ചെലവേറിയതാണ്. ഉദാഹരണത്തിന്, GPT-4 മോഡലിൻ്റെ വില N 100 ദശലക്ഷത്തിലധികം പരിശീലിപ്പിക്കാൻ. ഈ മോഡലുകൾ ഓപ്പൺ ഡൊമെയ്ൻ ഡാറ്റയുടെയും ഡൊമെയ്ൻ ഡാറ്റയുടെയും മിശ്രിതത്തിൽ പരിശീലിപ്പിച്ചിരിക്കുന്നു. നിങ്ങൾ നിലവിലുള്ള ഓപ്പൺ ഡൊമെയ്ൻ LLM-നെ ഡൊമെയ്ൻ ഡാറ്റയിൽ മാത്രം മുൻകൂട്ടി പരിശീലിപ്പിക്കുന്നതിനാൽ, ആദ്യം മുതൽ പ്രീ-ട്രെയിനിംഗ് ചെലവ് വഹിക്കാതെ തന്നെ ഡൊമെയ്ൻ-നിർദ്ദിഷ്ട അറിവ് നേടുന്നതിന് തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ് മോഡലുകളെ സഹായിക്കും.

ഒരു ടാസ്‌ക്കിലെ ഇൻസ്ട്രക്ഷൻ ഫൈൻ-ട്യൂണിംഗ് ഉപയോഗിച്ച്, നിങ്ങൾക്ക് മോഡലിനെ ഡൊമെയ്ൻ പരിജ്ഞാനം നേടിയെടുക്കാൻ കഴിയില്ല, കാരണം ഇൻസ്ട്രക്ഷൻ ഫൈൻ-ട്യൂണിംഗ് ഡാറ്റാസെറ്റിൽ അടങ്ങിയിരിക്കുന്ന ഡൊമെയ്ൻ വിവരങ്ങൾ മാത്രമേ LLM നേടൂ. ഇൻസ്ട്രക്ഷൻ ഫൈൻ-ട്യൂണിംഗിനായി വളരെ വലിയ ഡാറ്റാസെറ്റ് ഉപയോഗിക്കുന്നില്ലെങ്കിൽ, ഡൊമെയ്ൻ അറിവ് നേടുന്നതിന് ഇത് പര്യാപ്തമല്ല. ഉയർന്ന നിലവാരമുള്ള ഇൻസ്ട്രക്ഷൻ ഡാറ്റാസെറ്റുകൾ ഉറവിടമാക്കുന്നത് സാധാരണയായി വെല്ലുവിളി നിറഞ്ഞതാണ്, അത് LLM-കൾ ആദ്യം ഉപയോഗിക്കാനുള്ള കാരണമാണ്. കൂടാതെ, ഒരു ടാസ്‌ക്കിലെ ഫൈൻ-ട്യൂണിംഗ് നിർദ്ദേശങ്ങൾ മറ്റ് ടാസ്‌ക്കുകളിലെ പ്രകടനത്തെ ബാധിക്കും (ഇതിൽ കാണുന്നത് പോലെ ഈ കടലാസ്). എന്നിരുന്നാലും, പ്രി-ട്രെയിനിംഗ് ഇതരമാർഗ്ഗങ്ങളെ അപേക്ഷിച്ച് നിർദ്ദേശങ്ങൾ ഫൈൻ ട്യൂണിംഗ് കൂടുതൽ ചെലവ് കുറഞ്ഞതാണ്.

ഇനിപ്പറയുന്ന ചിത്രം പരമ്പരാഗത ടാസ്‌ക്-നിർദ്ദിഷ്ട ഫൈൻ-ട്യൂണിംഗ് താരതമ്യം ചെയ്യുന്നു. vs ഇൻ-കണ്ടെക്സ്റ്റ് ലേണിംഗ് മാതൃക LLM-കൾക്കൊപ്പം.

ഒരു ഡൊമെയ്‌നിൽ അധിഷ്‌ഠിതമായ പ്രതികരണങ്ങൾ സൃഷ്‌ടിക്കാൻ ഒരു LLM-നെ നയിക്കുന്നതിനുള്ള ഏറ്റവും ഫലപ്രദമായ മാർഗമാണ് RAG. സഹായ വിവരങ്ങളായി ഡൊമെയ്‌നിൽ നിന്ന് വസ്തുതകൾ നൽകിക്കൊണ്ട് പ്രതികരണങ്ങൾ സൃഷ്‌ടിക്കാൻ ഇതിന് ഒരു മോഡലിനെ നയിക്കാമെങ്കിലും, പ്രതികരണങ്ങൾ സൃഷ്ടിക്കുന്നതിന് LLM ഇപ്പോഴും ഡൊമെയ്ൻ ഇതര ഭാഷാ ശൈലിയെ ആശ്രയിക്കുന്നതിനാൽ അത് ഡൊമെയ്ൻ-നിർദ്ദിഷ്ട ഭാഷ നേടുന്നില്ല.

ഡൊമെയ്ൻ-നിർദ്ദിഷ്‌ട അറിവും ശൈലിയും നേടുന്നതിനുള്ള ശക്തമായ ബദലായിരിക്കുമ്പോൾ തന്നെ ചെലവിൻ്റെ കാര്യത്തിൽ പ്രീ-ട്രെയിനിംഗും ഇൻസ്ട്രക്ഷൻ ഫൈൻ ട്യൂണിംഗും തമ്മിലുള്ള ഒരു മധ്യനിരയാണ് തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ്. പരിമിതമായ നിർദ്ദേശ ഡാറ്റയിൽ കൂടുതൽ നിർദ്ദേശങ്ങൾ ഫൈൻ-ട്യൂണിംഗ് നടത്താൻ കഴിയുന്ന ഒരു പൊതു മാതൃക ഇതിന് നൽകാം. ഡൗൺസ്‌ട്രീം ടാസ്‌ക്കുകളുടെ കൂട്ടം വലുതോ അജ്ഞാതമോ ആയതും ലേബൽ ചെയ്‌തിരിക്കുന്ന ഇൻസ്ട്രക്ഷൻ ട്യൂണിംഗ് ഡാറ്റ പരിമിതമായതുമായ പ്രത്യേക ഡൊമെയ്‌നുകൾക്കുള്ള ചെലവ് കുറഞ്ഞ തന്ത്രമാണ് തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ്. മറ്റ് സാഹചര്യങ്ങളിൽ, നിർദ്ദേശങ്ങൾ ഫൈൻ ട്യൂണിംഗ് അല്ലെങ്കിൽ RAG കൂടുതൽ അനുയോജ്യമായേക്കാം.

ഫൈൻ-ട്യൂണിംഗ്, RAG, മോഡൽ പരിശീലനം എന്നിവയെക്കുറിച്ച് കൂടുതലറിയാൻ, റഫർ ചെയ്യുക ഒരു അടിസ്ഥാന മോഡൽ നന്നായി ട്യൂൺ ചെയ്യുക, വീണ്ടെടുക്കൽ ഓഗ്മെന്റഡ് ജനറേഷൻ (RAG), ഒപ്പം Amazon SageMaker ഉപയോഗിച്ച് ഒരു മോഡൽ പരിശീലിപ്പിക്കുക, യഥാക്രമം. ഈ പോസ്റ്റിനായി, ഞങ്ങൾ കാര്യക്ഷമമായ തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു.

കാര്യക്ഷമമായ തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗിൻ്റെ രീതിശാസ്ത്രം

തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ് ഇനിപ്പറയുന്ന രീതികൾ ഉൾക്കൊള്ളുന്നു:

  • ഡൊമെയ്ൻ-അഡാപ്റ്റീവ് തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ് (DACP) - പേപ്പറിൽ ഡൊമെയ്ൻ പ്രത്യേക വലിയ ഭാഷാ മോഡലുകൾ നിർമ്മിക്കുന്നതിനുള്ള കാര്യക്ഷമമായ തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ്, ഫിനാൻഷ്യൽ കോർപ്പസിൽ പൈത്തിയ ഭാഷാ മോഡൽ സ്യൂട്ടിനെ ഫിനാൻസ് ഡൊമെയ്‌നുമായി പൊരുത്തപ്പെടുത്തുന്നതിന് രചയിതാക്കൾ തുടർച്ചയായി മുൻകൂട്ടി പരിശീലിപ്പിക്കുന്നു. മുഴുവൻ സാമ്പത്തിക ഡൊമെയ്‌നിൽ നിന്നുമുള്ള ഡാറ്റ ഒരു ഓപ്പൺ സോഴ്‌സ് മോഡലിലേക്ക് നൽകി സാമ്പത്തിക LLM-കൾ സൃഷ്ടിക്കുക എന്നതാണ് ലക്ഷ്യം. പരിശീലന കോർപ്പസിൽ ഡൊമെയ്‌നിലെ എല്ലാ ക്യൂറേറ്റഡ് ഡാറ്റാസെറ്റുകളും അടങ്ങിയിരിക്കുന്നതിനാൽ, തത്ഫലമായുണ്ടാകുന്ന മോഡൽ സാമ്പത്തിക-നിർദ്ദിഷ്ട അറിവ് നേടുകയും അതുവഴി വിവിധ സാമ്പത്തിക ജോലികൾക്കുള്ള ബഹുമുഖ മാതൃകയായി മാറുകയും വേണം. ഇത് FinPythia മോഡലുകൾക്ക് കാരണമാകുന്നു.
  • ടാസ്‌ക്-അഡാപ്റ്റീവ് തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ് (TACP) - നിർദ്ദിഷ്ട ടാസ്‌ക്കുകൾക്ക് അനുയോജ്യമാക്കുന്നതിന്, ലേബൽ ചെയ്‌തതും ലേബൽ ചെയ്യാത്തതുമായ ടാസ്‌ക് ഡാറ്റയിൽ രചയിതാക്കൾ മോഡലുകളെ മുൻകൂട്ടി പരിശീലിപ്പിക്കുന്നു. ചില സാഹചര്യങ്ങളിൽ, ഡൊമെയ്ൻ-ജനറിക് മോഡലിനെക്കാൾ ഡവലപ്പർമാർ ഒരു കൂട്ടം ഇൻ-ഡൊമെയ്ൻ ടാസ്‌ക്കുകളിൽ മികച്ച പ്രകടനം നൽകുന്ന മോഡലുകളെ തിരഞ്ഞെടുത്തേക്കാം. ലേബൽ ചെയ്‌ത ഡാറ്റയുടെ ആവശ്യകതകളില്ലാതെ, ടാർഗെറ്റുചെയ്‌ത ടാസ്‌ക്കുകളിലെ പ്രകടനം മെച്ചപ്പെടുത്താൻ ലക്ഷ്യമിട്ടുള്ള തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ് എന്ന നിലയിലാണ് TACP രൂപകൽപ്പന ചെയ്‌തിരിക്കുന്നത്. പ്രത്യേകമായി, ടാസ്‌ക് ടോക്കണുകളിൽ (ലേബലുകൾ ഇല്ലാതെ) ഓപ്പൺ സോഴ്‌സ് മോഡലുകളെ രചയിതാക്കൾ തുടർച്ചയായി മുൻകൂട്ടി പരിശീലിപ്പിക്കുന്നു. പരിശീലനത്തിനായി ലേബൽ ചെയ്യാത്ത ടാസ്‌ക് ഡാറ്റയുടെ ഏക ഉപയോഗം കാരണം ഫൗണ്ടേഷൻ LLM-കൾക്ക് പകരം ടാസ്‌ക്-നിർദ്ദിഷ്ട LLM-കൾ നിർമ്മിക്കുന്നതിലാണ് TACP-യുടെ പ്രാഥമിക പരിമിതി. DACP വളരെ വലിയ കോർപ്പസ് ഉപയോഗിക്കുന്നുണ്ടെങ്കിലും, അത് വളരെ ചെലവേറിയതാണ്. ഈ പരിമിതികൾ സന്തുലിതമാക്കുന്നതിന്, ടാർഗെറ്റ് ടാസ്ക്കുകളിൽ മികച്ച പ്രകടനം നിലനിർത്തിക്കൊണ്ട് ഡൊമെയ്ൻ-നിർദ്ദിഷ്ട ഫൗണ്ടേഷൻ LLM-കൾ നിർമ്മിക്കാൻ ലക്ഷ്യമിടുന്ന രണ്ട് സമീപനങ്ങൾ രചയിതാക്കൾ നിർദ്ദേശിക്കുന്നു:
  • കാര്യക്ഷമമായ ടാസ്‌ക്-സമാന DACP (ETS-DACP) - എംബെഡിംഗ് സാമ്യം ഉപയോഗിച്ച് ടാസ്‌ക് ഡാറ്റയുമായി വളരെ സാമ്യമുള്ള സാമ്പത്തിക കോർപ്പസിൻ്റെ ഒരു ഉപവിഭാഗം തിരഞ്ഞെടുക്കാൻ രചയിതാക്കൾ നിർദ്ദേശിക്കുന്നു. ഈ ഉപവിഭാഗം കൂടുതൽ കാര്യക്ഷമമാക്കുന്നതിന് തുടർച്ചയായ പ്രീ-പരിശീലനത്തിനായി ഉപയോഗിക്കുന്നു. പ്രത്യേകിച്ചും, വിതരണത്തിലെ ടാർഗെറ്റ് ടാസ്‌ക്കുകൾക്ക് സമീപമുള്ള ഫിനാൻഷ്യൽ കോർപ്പസിൽ നിന്ന് വേർതിരിച്ചെടുത്ത ഒരു ചെറിയ കോർപ്പസിൽ ഓപ്പൺ സോഴ്‌സ് എൽഎൽഎമ്മിനെ രചയിതാക്കൾ തുടർച്ചയായി മുൻകൂട്ടി പരിശീലിപ്പിക്കുന്നു. ടാസ്‌ക് പ്രകടനം മെച്ചപ്പെടുത്താൻ ഇത് സഹായിക്കും, കാരണം ലേബൽ ചെയ്‌ത ഡാറ്റ ആവശ്യമില്ലെങ്കിലും ടാസ്‌ക് ടോക്കണുകളുടെ വിതരണത്തിലേക്ക് ഞങ്ങൾ മോഡൽ സ്വീകരിക്കുന്നു.
  • കാര്യക്ഷമമായ ടാസ്‌ക്-അഗ്നോസ്റ്റിക് ഡിഎസിപി (ഇടിഎ-ഡിഎസിപി) – കാര്യക്ഷമമായ തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗിനായി ഫിനാൻഷ്യൽ കോർപ്പസിൽ നിന്ന് സാമ്പിളുകൾ തിരഞ്ഞെടുക്കുന്നതിന് ടാസ്‌ക് ഡാറ്റ ആവശ്യമില്ലാത്ത ആശയക്കുഴപ്പം, ടോക്കൺ ടൈപ്പ് എൻട്രോപ്പി തുടങ്ങിയ മെട്രിക്‌സ് ഉപയോഗിക്കാൻ രചയിതാക്കൾ നിർദ്ദേശിക്കുന്നു. ടാസ്‌ക് ഡാറ്റ ലഭ്യമല്ലാത്തതോ വിശാലമായ ഡൊമെയ്‌നിനായി കൂടുതൽ വൈവിധ്യമാർന്ന ഡൊമെയ്ൻ മോഡലുകൾ തിരഞ്ഞെടുക്കുന്നതോ ആയ സാഹചര്യങ്ങൾ കൈകാര്യം ചെയ്യുന്നതിനാണ് ഈ സമീപനം രൂപകൽപ്പന ചെയ്‌തിരിക്കുന്നത്. പ്രീ-ട്രെയിനിംഗ് ഡൊമെയ്ൻ ഡാറ്റയുടെ ഒരു ഉപവിഭാഗത്തിൽ നിന്ന് ഡൊമെയ്ൻ വിവരങ്ങൾ നേടുന്നതിന് പ്രധാനപ്പെട്ട ഡാറ്റാ സാമ്പിളുകൾ തിരഞ്ഞെടുക്കുന്നതിന് രചയിതാക്കൾ രണ്ട് മാനങ്ങൾ സ്വീകരിക്കുന്നു: പുതുമയും വൈവിധ്യവും. ടാർഗെറ്റ് മോഡൽ രേഖപ്പെടുത്തിയ ആശയക്കുഴപ്പത്താൽ അളക്കുന്ന പുതുമ, മുമ്പ് LLM കാണാത്ത വിവരങ്ങളെ സൂചിപ്പിക്കുന്നു. ഉയർന്ന പുതുമയുള്ള ഡാറ്റ LLM-നുള്ള പുതിയ അറിവിനെ സൂചിപ്പിക്കുന്നു, അത്തരം ഡാറ്റ പഠിക്കാൻ കൂടുതൽ ബുദ്ധിമുട്ടുള്ളതായി കാണുന്നു. തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ് സമയത്ത് ഇത് തീവ്രമായ ഡൊമെയ്ൻ പരിജ്ഞാനമുള്ള ജനറിക് LLM-കളെ അപ്ഡേറ്റ് ചെയ്യുന്നു. മറുവശത്ത്, ഡൈവേഴ്‌സിറ്റി, ഡൊമെയ്ൻ കോർപ്പസിലെ ടോക്കൺ തരങ്ങളുടെ വിതരണത്തിൻ്റെ വൈവിധ്യം പിടിച്ചെടുക്കുന്നു, ഇത് ഭാഷാ മോഡലിംഗിനെക്കുറിച്ചുള്ള പാഠ്യപദ്ധതി പഠന ഗവേഷണത്തിലെ ഉപയോഗപ്രദമായ സവിശേഷതയായി രേഖപ്പെടുത്തിയിട്ടുണ്ട്.

ഇനിപ്പറയുന്ന ചിത്രം ETS-DACP (ഇടത്) വേഴ്സസ് ETA-DACP (വലത്) എന്നിവയുടെ ഒരു ഉദാഹരണം താരതമ്യം ചെയ്യുന്നു.

ക്യുറേറ്റഡ് ഫിനാൻഷ്യൽ കോർപ്പസിൽ നിന്ന് ഡാറ്റ പോയിൻ്റുകൾ സജീവമായി തിരഞ്ഞെടുക്കുന്നതിന് ഞങ്ങൾ രണ്ട് സാംപ്ലിംഗ് സ്കീമുകൾ സ്വീകരിക്കുന്നു: ഹാർഡ് സാമ്പിൾ, സോഫ്റ്റ് സാമ്പിൾ. ആദ്യത്തേത്, ഫിനാൻഷ്യൽ കോർപ്പസിനെ അനുബന്ധ മെട്രിക്‌സ് ഉപയോഗിച്ച് റാങ്ക് ചെയ്യുകയും തുടർന്ന് ടോപ്പ്-കെ സാമ്പിളുകൾ തിരഞ്ഞെടുക്കുകയും ചെയ്യുന്നു, അവിടെ പരിശീലന ബജറ്റ് അനുസരിച്ച് k മുൻകൂട്ടി നിശ്ചയിച്ചിരിക്കുന്നു. രണ്ടാമത്തേതിന്, മെട്രിക് മൂല്യങ്ങൾക്കനുസരിച്ച് രചയിതാക്കൾ ഓരോ ഡാറ്റാ പോയിൻ്റുകൾക്കും സാമ്പിൾ വെയ്റ്റുകൾ നൽകുന്നു, തുടർന്ന് പരിശീലന ബജറ്റ് നിറവേറ്റുന്നതിനായി ക്രമരഹിതമായി സാമ്പിൾ കെ ഡാറ്റ പോയിൻ്റുകൾ.

ഫലവും വിശകലനവും

തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗിൻ്റെ ഫലപ്രാപ്തിയെക്കുറിച്ച് അന്വേഷിക്കുന്നതിനായി രചയിതാക്കൾ തത്ഫലമായുണ്ടാകുന്ന സാമ്പത്തിക LLM-കളെ സാമ്പത്തിക ചുമതലകളുടെ ഒരു നിരയിൽ വിലയിരുത്തുന്നു:

  • സാമ്പത്തിക പദപ്രയോഗം ബാങ്ക് - സാമ്പത്തിക വാർത്തകളിൽ ഒരു വികാര വർഗ്ഗീകരണ ചുമതല.
  • FiQA SA - സാമ്പത്തിക വാർത്തകളും തലക്കെട്ടുകളും അടിസ്ഥാനമാക്കിയുള്ള ഒരു വശം അടിസ്ഥാനമാക്കിയുള്ള വികാര വർഗ്ഗീകരണ ടാസ്ക്.
  • തലവാചകം - ഒരു സാമ്പത്തിക സ്ഥാപനത്തിൻ്റെ തലക്കെട്ടിൽ ചില വിവരങ്ങൾ അടങ്ങിയിട്ടുണ്ടോ എന്നതിനെക്കുറിച്ചുള്ള ഒരു ബൈനറി ക്ലാസിഫിക്കേഷൻ ടാസ്ക്.
  • NER - എസ്ഇസി റിപ്പോർട്ടുകളുടെ ക്രെഡിറ്റ് റിസ്ക് അസസ്മെൻ്റ് വിഭാഗത്തെ അടിസ്ഥാനമാക്കി ഒരു സാമ്പത്തിക പേരുള്ള എൻ്റിറ്റി എക്സ്ട്രാക്ഷൻ ടാസ്ക്ക്. ഈ ടാസ്ക്കിലെ വാക്കുകൾ PER, LOC, ORG, MISC എന്നിവ ഉപയോഗിച്ച് വ്യാഖ്യാനിച്ചിരിക്കുന്നു.

ഫിനാൻഷ്യൽ എൽഎൽഎമ്മുകൾ നിർദ്ദേശങ്ങൾ ഫൈൻട്യൂൺ ചെയ്‌തിരിക്കുന്നതിനാൽ, രചയിതാക്കൾ ദൃഢതയ്‌ക്കായി ഓരോ ടാസ്‌ക്കിനും 5-ഷോട്ട് ക്രമീകരണത്തിൽ മോഡലുകൾ വിലയിരുത്തുന്നു. ശരാശരി, FinPythia 6.9B നാല് ടാസ്ക്കുകളിൽ 6.9% Pythia 10B-യെ മറികടക്കുന്നു, ഇത് ഡൊമെയ്ൻ-നിർദ്ദിഷ്ട തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗിൻ്റെ ഫലപ്രാപ്തി കാണിക്കുന്നു. 1B മോഡലിന്, മെച്ചപ്പെടുത്തൽ കുറവാണ്, പക്ഷേ പ്രകടനം ഇപ്പോഴും ശരാശരി 2% മെച്ചപ്പെടുത്തുന്നു.

രണ്ട് മോഡലുകളിലെയും DACP ന് മുമ്പും ശേഷവും പ്രകടന വ്യത്യാസം ഇനിപ്പറയുന്ന ചിത്രം വ്യക്തമാക്കുന്നു.

Pythia 6.9B, FinPythia 6.9B എന്നിവ സൃഷ്‌ടിച്ച രണ്ട് ഗുണപരമായ ഉദാഹരണങ്ങൾ ഇനിപ്പറയുന്ന ചിത്രം കാണിക്കുന്നു. ഒരു നിക്ഷേപക മാനേജരെയും സാമ്പത്തിക ടേമിനെയും സംബന്ധിച്ച രണ്ട് സാമ്പത്തിക സംബന്ധിയായ ചോദ്യങ്ങൾക്ക്, Pythia 6.9B ഈ പദം മനസ്സിലാക്കുന്നില്ല അല്ലെങ്കിൽ പേര് തിരിച്ചറിയുന്നില്ല, അതേസമയം FinPythia 6.9B വിശദമായ ഉത്തരങ്ങൾ ശരിയായി സൃഷ്ടിക്കുന്നു. തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ് പ്രക്രിയയിൽ ഡൊമെയ്ൻ അറിവ് നേടുന്നതിന് LLM-കളെ പ്രാപ്തരാക്കുന്നു എന്ന് ഗുണപരമായ ഉദാഹരണങ്ങൾ തെളിയിക്കുന്നു.

ഇനിപ്പറയുന്ന പട്ടിക വിവിധ കാര്യക്ഷമമായ തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ് സമീപനങ്ങളെ താരതമ്യം ചെയ്യുന്നു. ETA-DACP-ppl എന്നത് ആശയക്കുഴപ്പത്തെ അടിസ്ഥാനമാക്കിയുള്ള ETA-DACP ആണ് (പുതുമ), ETA-DACP-ent എൻട്രോപ്പി (വൈവിദ്ധ്യം) അടിസ്ഥാനമാക്കിയുള്ളതാണ്. ETS-DACP-com മൂന്ന് മെട്രിക്കുകളും ശരാശരി ഉപയോഗിച്ച് ഡാറ്റ തിരഞ്ഞെടുക്കൽ DACP പോലെയാണ്. ഫലങ്ങളിൽ നിന്നുള്ള കുറച്ച് എടുത്തുപറയേണ്ടവയാണ് ഇനിപ്പറയുന്നത്:

  • ഡാറ്റ തിരഞ്ഞെടുക്കൽ രീതികൾ കാര്യക്ഷമമാണ് - പരിശീലന ഡാറ്റയുടെ 10% ഉപയോഗിച്ച് അവർ സാധാരണ തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗിനെ മറികടക്കുന്നു. ടാസ്‌ക്-സിമിലർ ഡിഎസിപി (ഇടിഎസ്-ഡിഎസിപി), എൻട്രോപ്പി അടിസ്ഥാനമാക്കിയുള്ള ടാസ്‌ക്-അഗ്നോസ്റ്റിക് ഡിഎസിപി (ഇഎസ്എ-ഡിഎസിപി-എൻറ്റ്), ടാസ്‌ക്-സിമിലർ ഡിഎസിപി എന്നിവയുൾപ്പെടെയുള്ള കാര്യക്ഷമമായ തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ് സ്റ്റാൻഡേർഡ് ഡിഎസിപിയെ മറികടക്കുന്നു. സാമ്പത്തിക കോർപ്പസിൻ്റെ 10% മാത്രമേ അവർ പരിശീലിപ്പിച്ചിട്ടുള്ളൂ എന്ന വസ്തുത ഉണ്ടായിരുന്നിട്ടും ശരാശരി.
  • ചെറിയ ഭാഷാ മോഡലുകളുടെ ഗവേഷണത്തിന് അനുസൃതമായി ടാസ്‌ക്-അവയർ ഡാറ്റ തിരഞ്ഞെടുക്കൽ മികച്ച രീതിയിൽ പ്രവർത്തിക്കുന്നു - ETS-DACP എല്ലാ രീതികളിലും മികച്ച ശരാശരി പ്രകടനം രേഖപ്പെടുത്തുന്നു, കൂടാതെ മൂന്ന് മെട്രിക്കുകൾ അടിസ്ഥാനമാക്കി, രണ്ടാമത്തെ മികച്ച ടാസ്‌ക് പ്രകടനം രേഖപ്പെടുത്തുന്നു. ലേബൽ ചെയ്യാത്ത ടാസ്‌ക് ഡാറ്റ ഉപയോഗിക്കുന്നത് LLM-കളുടെ കാര്യത്തിൽ ടാസ്‌ക് പ്രകടനം വർദ്ധിപ്പിക്കുന്നതിനുള്ള ഫലപ്രദമായ സമീപനമാണെന്ന് ഇത് സൂചിപ്പിക്കുന്നു.
  • ടാസ്‌ക്-അജ്ഞ്ഞേയവാദി ഡാറ്റ തിരഞ്ഞെടുക്കൽ രണ്ടാം സ്ഥാനത്താണ് - ESA-DACP-ent, ടാസ്‌ക്-അവബോധമുള്ള ഡാറ്റ തിരഞ്ഞെടുക്കൽ സമീപനത്തിൻ്റെ പ്രകടനത്തെ പിന്തുടരുന്നു, നിർദ്ദിഷ്ട ടാസ്‌ക്കുകളുമായി ബന്ധമില്ലാത്ത ഉയർന്ന നിലവാരമുള്ള സാമ്പിളുകൾ സജീവമായി തിരഞ്ഞെടുക്കുന്നതിലൂടെ ഞങ്ങൾക്ക് ടാസ്‌ക് പ്രകടനം വർദ്ധിപ്പിക്കാൻ കഴിയുമെന്ന് ഇത് സൂചിപ്പിക്കുന്നു. മികച്ച ടാസ്‌ക് പ്രകടനം കൈവരിക്കുമ്പോൾ മുഴുവൻ ഡൊമെയ്‌നിനും സാമ്പത്തിക LLM-കൾ നിർമ്മിക്കാനുള്ള വഴി ഇത് ഒരുക്കുന്നു.

തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗിനെ സംബന്ധിച്ച ഒരു നിർണായക ചോദ്യം അത് ഡൊമെയ്ൻ ഇതര ടാസ്ക്കുകളിലെ പ്രകടനത്തെ പ്രതികൂലമായി ബാധിക്കുമോ എന്നതാണ്. വ്യാപകമായി ഉപയോഗിക്കപ്പെടുന്ന നാല് പൊതുവായ ജോലികളിൽ തുടർച്ചയായി മുൻകൂട്ടി പരിശീലിപ്പിച്ച മാതൃകയും രചയിതാക്കൾ വിലയിരുത്തുന്നു: ARC, MMLU, TruthQA, HellaSwag, ഇത് ചോദ്യത്തിന് ഉത്തരം നൽകൽ, ന്യായവാദം, പൂർത്തിയാക്കൽ എന്നിവയുടെ കഴിവ് അളക്കുന്നു. തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ് നോൺ-ഡൊമെയ്ൻ പ്രകടനത്തെ പ്രതികൂലമായി ബാധിക്കില്ലെന്ന് രചയിതാക്കൾ കണ്ടെത്തുന്നു. കൂടുതൽ വിവരങ്ങൾക്ക്, റഫർ ചെയ്യുക ഡൊമെയ്ൻ പ്രത്യേക വലിയ ഭാഷാ മോഡലുകൾ നിർമ്മിക്കുന്നതിനുള്ള കാര്യക്ഷമമായ തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ്.

തീരുമാനം

ഈ പോസ്റ്റ് ഡാറ്റാ ശേഖരണത്തെക്കുറിച്ചും സാമ്പത്തിക ഡൊമെയ്‌നിനായി LLM-കളെ പരിശീലിപ്പിക്കുന്നതിനുള്ള തുടർച്ചയായ പ്രീ-ട്രെയിനിംഗ് തന്ത്രങ്ങളെക്കുറിച്ചും ഉള്ള ഉൾക്കാഴ്ചകൾ വാഗ്ദാനം ചെയ്യുന്നു. സാമ്പത്തിക ജോലികൾക്കായി നിങ്ങൾക്ക് നിങ്ങളുടെ സ്വന്തം LLM-കളെ പരിശീലിപ്പിക്കാൻ തുടങ്ങാം ആമസോൺ സേജ് മേക്കർ പരിശീലനം or ആമസോൺ ബെഡ്റോക്ക് ഇന്ന്.


രചയിതാക്കളെക്കുറിച്ച്

യോങ് സീ ആമസോൺ ഫിൻടെക്കിലെ പ്രായോഗിക ശാസ്ത്രജ്ഞനാണ്. ധനകാര്യത്തിനായി വലിയ ഭാഷാ മോഡലുകളും ജനറേറ്റീവ് AI ആപ്ലിക്കേഷനുകളും വികസിപ്പിക്കുന്നതിൽ അദ്ദേഹം ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു.

കരൺ അഗർവാൾ ആമസോൺ ഫിൻടെക്കിലെ സീനിയർ അപ്ലൈഡ് സയൻ്റിസ്റ്റാണ്. പരിമിതമായ ലേബൽ ചെയ്‌ത ഡാറ്റയിൽ നിന്ന് പഠിക്കാൻ പ്രത്യേക താൽപ്പര്യമുള്ള കരണിന് ടൈം-സീരീസ് വിശകലനത്തിലും എൻഎൽപിയിലും വിപുലമായ അനുഭവമുണ്ട്.

ഐത്സാസ് അഹമ്മദ് ആമസോണിലെ ഒരു അപ്ലൈഡ് സയൻസ് മാനേജരാണ്, അവിടെ അദ്ദേഹം ധനകാര്യത്തിൽ മെഷീൻ ലേണിംഗിൻ്റെയും ജനറേറ്റീവ് എഐയുടെയും വിവിധ ആപ്ലിക്കേഷനുകൾ നിർമ്മിക്കുന്ന ശാസ്ത്രജ്ഞരുടെ ഒരു ടീമിനെ നയിക്കുന്നു. NLP, Generative AI, LLM ഏജൻ്റുകൾ എന്നിവയിലാണ് അദ്ദേഹത്തിൻ്റെ ഗവേഷണ താൽപ്പര്യങ്ങൾ. ടെക്സസ് എ ആൻഡ് എം യൂണിവേഴ്സിറ്റിയിൽ നിന്ന് ഇലക്ട്രിക്കൽ എഞ്ചിനീയറിംഗിൽ പിഎച്ച്ഡി നേടി.

ക്വിംഗ്‌വേ ലി ആമസോൺ വെബ് സേവനങ്ങളിലെ മെഷീൻ ലേണിംഗ് സ്പെഷ്യലിസ്റ്റാണ്. പി.എച്ച്.ഡി. തൻ്റെ ഉപദേശകൻ്റെ ഗവേഷണ ഗ്രാൻ്റ് അക്കൗണ്ട് തകർക്കുകയും അദ്ദേഹം വാഗ്ദാനം ചെയ്ത നൊബേൽ സമ്മാനം നൽകുന്നതിൽ പരാജയപ്പെടുകയും ചെയ്തതിനെത്തുടർന്ന് ഓപ്പറേഷൻസ് റിസർച്ചിൽ. നിലവിൽ AWS-ൽ മെഷീൻ ലേണിംഗ് സൊല്യൂഷനുകൾ നിർമ്മിക്കാൻ സാമ്പത്തിക സേവനത്തിലുള്ള ഉപഭോക്താക്കളെ അദ്ദേഹം സഹായിക്കുന്നു.

രാഘവേന്ദർ അർണി AWS ഇൻഡസ്ട്രീസിലെ കസ്റ്റമർ ആക്സിലറേഷൻ ടീമിനെ (CAT) നയിക്കുന്നു. ക്ലൗഡ് ആർക്കിടെക്‌റ്റുകൾ, സോഫ്‌റ്റ്‌വെയർ എഞ്ചിനീയർമാർ, ഡാറ്റാ സയൻ്റിസ്റ്റുകൾ, AI/ML വിദഗ്ധർ, ഡിസൈനർമാർ എന്നിവരടങ്ങുന്ന ഒരു ആഗോള ക്രോസ്-ഫങ്ഷണൽ ടീമാണ് CAT, അത് വിപുലമായ പ്രോട്ടോടൈപ്പിംഗിലൂടെ നൂതനാശയങ്ങൾ സൃഷ്ടിക്കുകയും പ്രത്യേക സാങ്കേതിക വൈദഗ്ധ്യം വഴി ക്ലൗഡ് പ്രവർത്തന മികവ് വർദ്ധിപ്പിക്കുകയും ചെയ്യുന്നു.

സ്പോട്ട്_ഐഎംജി

ഏറ്റവും പുതിയ ഇന്റലിജൻസ്

സ്പോട്ട്_ഐഎംജി

ഞങ്ങളുമായി ചാറ്റുചെയ്യുക

ഹേയ്, അവിടെയുണ്ടോ! എനിക്ക് നിങ്ങളെ എങ്ങനെ സഹായിക്കാനാകും?