Generative Data Intelligence

Skilvirk stöðug forþjálfun LLM fyrir fjármálasvið | Amazon vefþjónusta

Dagsetning:

Stór tungumálalíkön (LLM) eru almennt þjálfuð á stórum gagnasöfnum sem eru aðgengileg almenningi sem eru lénslaus. Til dæmis, Meta's Lama líkön eru þjálfuð á gagnapakka eins og CommonCrawl, C4, Wikipedia og ArXiv. Þessi gagnasöfn ná yfir breitt úrval af efnisatriðum og lénum. Þrátt fyrir að líkönin sem myndast skili ótrúlega góðum árangri fyrir almenn verkefni, eins og textagerð og einingarviðurkenningu, þá eru vísbendingar um að líkön sem eru þjálfuð með lénssértækum gagnasettum geti bætt LLM árangur enn frekar. Til dæmis þjálfunargögnin sem notuð eru fyrir BloombergGPT er 51% lénssértæk skjöl, þar á meðal fjármálafréttir, skráningar og annað fjármálaefni. LLM sem myndast er betri en LLMs sem eru þjálfaðir á gagnasöfnum sem ekki eru sértæk léns þegar þau eru prófuð á sérstökum fjármálum. Höfundar BloombergGPT komist að þeirri niðurstöðu að líkan þeirra standi sig betur en öll önnur gerð sem prófuð voru fyrir fjögur af fimm fjárhagsverkefnum. Líkanið gaf enn betri frammistöðu þegar það var prófað fyrir innri fjárhagsverkefni Bloomberg með miklum mun - allt að 60 stigum betri (af 100). Þó að þú getir lært meira um alhliða matsniðurstöðurnar í pappír, eftirfarandi sýnishorn tekin úr BloombergGPT pappír getur gefið þér innsýn í ávinninginn af þjálfun LLMs með því að nota fjárhagsleg lénssértæk gögn. Eins og sést í dæminu gaf BloombergGPT líkanið rétt svör á meðan önnur líkön sem ekki voru sértæk lén áttu í erfiðleikum:

Input: CEO of Assicurazioni Generali?
BloombergGPT: Philippe Donnet
GPT-NeoX: Antonio De Lorenzo, Simone Gambarini, Enrico Zanetti
FLAN-T5-XXL: John M Forsyth, Christopher K Peters, {empty string}

Input: CEO of Silicon Valley Bank?
BloombergGPT: Greg Becker
GPT-NeoX: John Hodor, Mike Fridgen, Peter R Briger
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth

Input: CEO of IHS Markit Ltd?
BloombergGPT: Lance Uggla
GPT-NeoX: John F Lechleiter, David Steward, Niall O Broin
FLAN-T5-XXL: William M Hawkins, John M Forsyth, John M Forsyth
Input: CEO of Walgreens Boots Alliance?

BloombergGPT: Rosalind Brewer
GPT-NeoX: Mark V Dei, Stefano Pessina, Stefano Pessina
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth
Input: CEO of Citigroup Inc?

BloombergGPT: Jane Fraser
GPT-NeoX: Michael L Corbat, Michael L Corbat, Michael L Corbat
FLAN-T5-XXL: Christian Sewing, John M Forsyth, John M Forsyth

Þessi færsla veitir leiðbeiningar um þjálfun LLMs sérstaklega fyrir fjármálasviðið. Við náum yfir eftirfarandi lykilsvið:

  • Gagnaöflun og undirbúningur – Leiðbeiningar um að útvega og safna viðeigandi fjárhagsgögnum fyrir árangursríka líkanaþjálfun
  • Stöðug forþjálfun á móti fínstillingu - Hvenær á að nota hverja tækni til að hámarka árangur LLM þíns
  • Skilvirk stöðug forþjálfun – Aðferðir til að hagræða stöðugu forþjálfunarferli, spara tíma og fjármagn

Þessi færsla sameinar sérfræðiþekkingu rannsóknarteymis hagnýtra vísinda innan Amazon Finance Technology og AWS Worldwide Sérfræðiteymi fyrir alþjóðlega fjármálaiðnaðinn. Sumt af efninu er byggt á blaðinu Skilvirk stöðug forþjálfun til að byggja upp lénssértæk stór tungumálalíkön.

Söfnun og gerð fjárhagsgagna

Stöðug forþjálfun léns þarfnast stórs, hágæða, lénssértæks gagnasafns. Eftirfarandi eru helstu skrefin fyrir gagnasöfnun léns:

  • Þekkja gagnagjafa – Hugsanlegar gagnaheimildir fyrir lénshluta eru opinn vefur, Wikipedia, bækur, samfélagsmiðlar og innri skjöl.
  • Lénsgagnasíur – Vegna þess að lokamarkmiðið er að stjórna lénshluta gætirðu þurft að beita viðbótarskrefum til að sía út sýnishorn sem skipta ekki máli fyrir marklénið. Þetta dregur úr gagnslausum liðum fyrir stöðuga forþjálfun og lækkar þjálfunarkostnað.
  • Forvinnsla – Þú gætir íhugað röð af forvinnsluskrefum til að bæta gagnagæði og skilvirkni þjálfunar. Til dæmis geta ákveðnar gagnagjafar innihaldið talsverðan fjölda hávaðasamra tákna; deduplication er talið gagnlegt skref til að bæta gagnagæði og draga úr þjálfunarkostnaði.

Til að þróa fjárhagslega LLM, getur þú notað tvær mikilvægar gagnaheimildir: News CommonCrawl og SEC skráningar. SEC skráning er reikningsskil eða annað formlegt skjal sem lagt er fyrir bandaríska verðbréfaeftirlitið (SEC). Opinberlega skráð fyrirtæki þurfa að leggja fram ýmis skjöl reglulega. Þetta skapar mikinn fjölda skjala í gegnum árin. News CommonCrawl er gagnapakka sem CommonCrawl gaf út árið 2016. Það inniheldur fréttagreinar frá fréttasíðum um allan heim.

Fréttir CommonCrawl er fáanlegar á Amazon einföld geymsluþjónusta (Amazon S3) í commoncrawl fötu kl crawl-data/CC-NEWS/. Þú getur fengið skrár yfir skrár með því að nota AWS stjórnlínuviðmót (AWS CLI) og eftirfarandi skipun:

aws s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/

In Skilvirk stöðug forþjálfun til að byggja upp lénssértæk stór tungumálalíkön, höfundar nota vefslóð og leitarorðabyggða nálgun til að sía fjármálafréttagreinar úr almennum fréttum. Nánar tiltekið halda höfundarnir uppi lista yfir mikilvægar fjármálafréttir og sett af leitarorðum sem tengjast fjármálafréttum. Við auðkennum grein sem fjármálafréttir ef hún kemur annaðhvort frá fjármálafréttastofum eða einhver leitarorð birtast á vefslóðinni. Þessi einfalda en áhrifaríka nálgun gerir þér kleift að bera kennsl á fjármálafréttir frá ekki aðeins fjármálafréttastöðvum heldur einnig fjármálaköflum almennra fréttastofnana.

SEC umsóknir eru fáanlegar á netinu í gegnum EDGAR (Electronic Data Gathering, Analysis, and Retrieval) gagnagrunn SEC, sem veitir opinn gagnaaðgang. Þú getur skafið skrárnar beint úr EDGAR eða notað API inn Amazon SageMaker með nokkrum línum af kóða, fyrir hvaða tíma sem er og fyrir mikinn fjölda auðkenna (þ.e. SEC úthlutað auðkenni). Til að læra meira, vísa til SEC skjalasókn.

Eftirfarandi tafla tekur saman helstu upplýsingar beggja gagnagjafanna.

. Fréttir CommonCrawl SEC skrár
Umfjöllun 2016-2022 1993-2022
Size 25.8 milljarða orð 5.1 milljarða orð

Höfundarnir fara í gegnum nokkur auka forvinnsluskref áður en gögnin eru færð inn í þjálfunaralgrím. Í fyrsta lagi athugum við að SEC skráningar innihalda hávaðasaman texta vegna þess að töflur og myndir eru fjarlægðar, svo höfundarnir fjarlægja stuttar setningar sem eru taldar vera töflu- eða myndmerki. Í öðru lagi notum við staðsetningarviðkvæmu kjötkássaalgrími til að afrita nýju greinarnar og skrárnar. Fyrir SEC skráningar, aftökum við á hlutastigi í stað skjalastigs. Að lokum sameinum við skjöl í langan streng, auðkennum hann og kljúfum auðkenninguna í stykki af hámarks innsláttarlengd sem studd er af líkaninu sem á að þjálfa. Þetta bætir afköst stöðugrar forþjálfunar og lækkar þjálfunarkostnað.

Stöðug forþjálfun á móti fínstillingu

Flestir fáanlegir LLM eru almennt og skortir lénssértæka hæfileika. Lén LLM hafa sýnt töluverðan árangur á læknis-, fjármála- eða vísindasviðum. Fyrir LLM til að öðlast lénssértæka þekkingu eru fjórar aðferðir: þjálfun frá grunni, stöðug forþjálfun, fínstilling leiðbeininga á lénsverkefnum og Retrieval Augmented Generation (RAG).

Í hefðbundnum gerðum er fínstilling venjulega notuð til að búa til verksértæk líkön fyrir lén. Þetta þýðir að viðhalda mörgum líkönum fyrir mörg verkefni eins og einingaútdrátt, ásetningsflokkun, tilfinningagreiningu eða svörun spurninga. Með tilkomu LLMs hefur þörfin á að viðhalda aðskildum líkönum orðið úrelt með því að nota tækni eins og nám í samhengi eða hvetja. Þetta sparar fyrirhöfnina sem þarf til að viðhalda stafla af gerðum fyrir tengd en aðskilin verkefni.

Með innsæi geturðu þjálfað LLM frá grunni með lénssértækum gögnum. Þó að megnið af vinnunni við að búa til LLM léna hafi beinst að þjálfun frá grunni, þá er það óheyrilega dýrt. Til dæmis kostar GPT-4 líkanið yfir $ 100 milljón að þjálfa. Þessi líkön eru þjálfuð á blöndu af opnum lénsgögnum og lénsgögnum. Stöðug forþjálfun getur hjálpað líkönum að afla sér lénssértækrar þekkingar án þess að taka á sig kostnað við forþjálfun frá grunni vegna þess að þú forþjálfar fyrirliggjandi opið léns LLM á aðeins lénsgögnunum.

Með fínstillingu leiðbeininga á verkefni er ekki hægt að láta líkanið afla sér lénsþekkingar vegna þess að LLM aflar aðeins lénaupplýsinga sem er að finna í gagnapakkanum fyrir fínstillingu leiðbeininga. Nema mjög stórt gagnasafn til kennslufínstillingar sé notað er ekki nóg að afla sér lénsþekkingar. Að útvega hágæða kennslugagnasöfn er venjulega krefjandi og er ástæðan fyrir því að nota LLMs í fyrsta sæti. Einnig getur fínstilling leiðbeininga á einu verkefni haft áhrif á frammistöðu annarra verkefna (eins og sést í þetta blað). Hins vegar er fínstilling leiðbeininga hagkvæmari en annar hvor valkosturinn fyrir þjálfun.

Eftirfarandi mynd ber saman hefðbundna verkefnasértæka fínstillingu. vs í samhengi nám hugmyndafræði með LLMs.

RAG er áhrifaríkasta leiðin til að leiðbeina LLM til að búa til svör byggð á léni. Þó að það geti leiðbeint líkani til að búa til svör með því að veita staðreyndir frá léninu sem aukaupplýsingar, þá eignast það ekki lénssértæka tungumálið vegna þess að LLM er enn að treysta á tungumálastíl utan léns til að búa til svörin.

Stöðug forþjálfun er millivegur milli forþjálfunar og fínstillingar kennslu með tilliti til kostnaðar á sama tíma og hún er sterkur valkostur við að öðlast lénssértæka þekkingu og stíl. Það getur veitt almennt líkan þar sem hægt er að framkvæma frekari fínstillingu leiðbeininga á takmörkuðum kennslugögnum. Stöðug forþjálfun getur verið hagkvæm stefna fyrir sérhæfð lén þar sem hópur verkefna er stór eða óþekktur og merkt leiðbeiningarstillingargögn eru takmörkuð. Í öðrum tilfellum gæti fínstilling leiðbeininga eða RAG hentað betur.

Til að læra meira um fínstillingu, RAG og módelþjálfun, vísa til Fínstilltu grunnlíkan, Retrieval Augmented Generation (RAG)og Þjálfa líkan með Amazon SageMaker, í sömu röð. Fyrir þessa færslu leggjum við áherslu á skilvirka stöðuga forþjálfun.

Aðferðafræði skilvirkrar stöðugrar forþjálfunar

Stöðug forþjálfun samanstendur af eftirfarandi aðferðafræði:

  • Domain-Adaptive Continual Pre-training (DACP) — Í blaðinu Skilvirk stöðug forþjálfun til að byggja upp lénssértæk stór tungumálalíkön, höfundar forþjálfa stöðugt Pythia tungumálamódelið á fjármálaheildinni til að laga það að fjármálasviðinu. Markmiðið er að búa til fjárhagslega LLM með því að fæða gögn frá öllu fjármálasviðinu í opið líkan. Vegna þess að þjálfunarhópurinn inniheldur öll söfnuð gagnasöfn á léninu, ætti líkanið sem myndast að öðlast sértæka þekkingu á fjármálum og verða þar með fjölhæft líkan fyrir ýmis fjárhagsleg verkefni. Þetta leiðir til FinPythia módel.
  • Verkefnaaðlöguð stöðug forþjálfun (TACP) – Höfundarnir forþjálfa líkanin frekar á merktum og ómerktum verkefnagögnum til að sérsníða þau fyrir ákveðin verkefni. Við ákveðnar aðstæður gætu verktaki valið líkön sem skila betri árangri í hópi verkefna innan léns frekar en almennt líkan. TACP er hannað sem stöðug forþjálfun sem miðar að því að auka frammistöðu í markvissum verkefnum, án krafna um merkt gögn. Nánar tiltekið, höfundar forþjálfa stöðugt opna módelin á verkefnamerkjunum (án merkimiða). Aðaltakmörkun TACP liggur í því að smíða verkefnissértækar LLMs í stað grunn LLMs, vegna þess að eingöngu er notað ómerkt verkefnisgögn til þjálfunar. Þrátt fyrir að DACP noti mun stærra corpus er það óheyrilega dýrt. Til að koma jafnvægi á þessar takmarkanir, leggja höfundar til tvær aðferðir sem miða að því að byggja upp lénssértækar undirstöður LLMs á sama tíma og þeir varðveita frábæra frammistöðu í markmiðsverkefnum:
  • Skilvirkt verkefni svipað DACP (ETS-DACP) – Höfundarnir leggja til að valið verði undirmengi af fjárhagslegum liðum sem er mjög svipaður verkefnagögnum með því að nota innfellda líkindi. Þetta undirmengi er notað fyrir stöðuga forþjálfun til að gera það skilvirkara. Nánar tiltekið, höfundar forþjálfa stöðugt opna uppspretta LLM á litlum hópi sem dreginn er út úr fjármálaheildinni sem er nálægt markmiðsverkefnum í dreifingu. Þetta getur hjálpað til við að bæta verkefnaframmistöðu vegna þess að við tökum líkanið upp í dreifingu verkatákna þrátt fyrir að merkt gögn séu ekki nauðsynleg.
  • Duglegur Task-Agnostic DACP (ETA-DACP) – Höfundarnir leggja til að notaðar séu mælikvarðar eins og ráðvilla og óreiðutegundir sem krefjast ekki verkefnagagna til að velja sýnishorn úr fjárhagslegum liðum fyrir skilvirka stöðuga forþjálfun. Þessi nálgun er hönnuð til að takast á við aðstæður þar sem verkefnagögn eru ekki tiltæk eða fjölhæfari lénslíkön fyrir breiðari lénið eru valin. Höfundarnir tileinka sér tvær víddir til að velja gagnasýni sem eru mikilvæg til að fá upplýsingar um lén úr undirmengi lénsgagna fyrir þjálfun: nýjung og fjölbreytileiki. Nýjung, mæld með ráðvillunni sem skráð er af marklíkaninu, vísar til upplýsinga sem var óséð af LLM áður. Gögn með mikla nýjung gefa til kynna nýja þekkingu fyrir LLM og er litið á slík gögn sem erfiðara að læra. Þetta uppfærir almennar LLMs með mikilli lénsþekkingu meðan á stöðugri forþjálfun stendur. Fjölbreytni fangar hins vegar fjölbreytileika dreifingar tákntegunda í lénsheildinni, sem hefur verið skjalfest sem gagnlegur eiginleiki í rannsóknum á námskrárnámi á tungumálamódelum.

Eftirfarandi mynd ber saman dæmi um ETS-DACP (vinstri) á móti ETA-DACP (hægri).

Við tökum upp tvö sýnatökukerfi til að velja virkan gagnapunkta úr eftirlitsaðilum: hörð sýnatöku og mjúk sýnataka. Hið fyrra er gert með því að raða fjármálaheildinni fyrst eftir samsvarandi mæligildum og velja síðan efstu k sýnin, þar sem k er fyrirfram ákveðið samkvæmt þjálfunaráætluninni. Fyrir hið síðarnefnda úthluta höfundar sýnatökuþyngd fyrir hvern gagnapunkta í samræmi við mæligildin og taka síðan k gagnapunkta af handahófi til að mæta þjálfunaráætluninni.

Niðurstaða og greining

Höfundarnir meta fjárhagslega LLM sem myndast á fjölda fjárhagslegra verkefna til að kanna virkni stöðugrar forþjálfunar:

  • Financial Phrase Bank – Viðhorfsflokkunarverkefni um fjármálafréttir.
  • FiQA SA – Stuðningsbundið viðhorfsflokkunarverkefni byggt á fjármálafréttum og fyrirsögnum.
  • Fyrirsögn – Tvöfaldur flokkunarverkefni um hvort fyrirsögn um fjármálafyrirtæki innihaldi ákveðnar upplýsingar.
  • NER – Útdráttarverkefni sem nefnt er fjármálafyrirtæki byggt á hluta útlánaáhættumats í skýrslum SEC. Orð í þessu verkefni eru merkt með PER, LOC, ORG og MISC.

Vegna þess að fjárhagsleg LLMs eru kennslu fínstillt, meta höfundar líkön í 5 skota stillingu fyrir hvert verkefni í þágu styrkleika. Að meðaltali er FinPythia 6.9B betri en Pythia 6.9B um 10% í fjórum verkefnum, sem sýnir virkni lénssértækrar stöðugrar forþjálfunar. Fyrir 1B líkanið er framförin minna djúpstæð, en árangur batnar samt um 2% að meðaltali.

Eftirfarandi mynd sýnir frammistöðumuninn fyrir og eftir DACP á báðum gerðum.

Eftirfarandi mynd sýnir tvö eigindleg dæmi búin til af Pythia 6.9B og FinPythia 6.9B. Fyrir tvær fjármálatengdar spurningar varðandi fjárfestastjóra og fjárhagslegt hugtak skilur Pythia 6.9B ekki hugtakið eða þekkir nafnið, en FinPythia 6.9B býr til nákvæm svör á réttan hátt. Eigindlegu dæmin sýna að stöðug forþjálfun gerir LLM-mönnum kleift að afla sér lénsþekkingar meðan á ferlinu stendur.

Eftirfarandi tafla ber saman ýmsar skilvirkar samfelldar fyrirþjálfunaraðferðir. ETA-DACP-ppl er ETA-DACP byggt á ráðaleysi (nýjung) og ETA-DACP-ent er byggt á óreiðu (fjölbreytileika). ETS-DACP-com er svipað og DACP með gagnavali með því að taka meðaltal allra þriggja mælikvarða. Eftirfarandi eru nokkrar hliðar frá niðurstöðunum:

  • Gagnavalsaðferðir eru skilvirkar – Þeir fara fram úr hefðbundinni samfelldri forþjálfun með aðeins 10% af þjálfunargögnum. Skilvirk stöðug forþjálfun þar á meðal Task-Similar DACP (ETS-DACP), Task-Agnostic DACP byggt á óreiðu (ESA-DACP-ent) og Task-Similar DACP byggt á öllum þremur mælingum (ETS-DACP-com) er betri en staðlað DACP að meðaltali þrátt fyrir að þeir séu þjálfaðir á aðeins 10% af fjárhag.
  • Verkefnameðvitað gagnaval virkar best í samræmi við rannsóknir á litlum tungumálalíkönum – ETS-DACP skráir besta meðalframmistöðu allra aðferðanna og, byggt á öllum þremur mælingum, skráir næstbesta verkefnaframmistöðuna. Þetta bendir til þess að notkun ómerktra verkefnagagna sé enn áhrifarík nálgun til að auka frammistöðu verkefna þegar um LLM er að ræða.
  • Val á verkefnagreindum gögnum er í öðru sæti – ESA-DACP-ent fylgir frammistöðu verkefnameðvitaðrar gagnavalsaðferðar, sem gefur til kynna að við gætum samt aukið frammistöðu verkefna með því að velja virkan hágæða sýnishorn sem ekki eru bundin sérstökum verkefnum. Þetta ryður brautina til að byggja upp fjárhagslega LLM fyrir allt lénið á sama tíma og þú nærð yfirburða verkefnaframmistöðu.

Ein mikilvæg spurning varðandi stöðuga forþjálfun er hvort hún hafi neikvæð áhrif á frammistöðu í verkefnum sem ekki eru lénsverkefni. Höfundarnir meta einnig stöðugt forþjálfað líkan á fjórum almennum verkefnum sem eru víða notuð: ARC, MMLU, TruthQA og HellaSwag, sem mæla hæfileika til að svara spurningum, rökstuðning og frágang. Höfundarnir komast að því að stöðug forþjálfun hefur ekki skaðleg áhrif á frammistöðu utan léns. Fyrir frekari upplýsingar, vísa til Skilvirk stöðug forþjálfun til að byggja upp lénssértæk stór tungumálalíkön.

Niðurstaða

Þessi færsla bauð upp á innsýn í gagnasöfnun og stöðuga forþjálfunaraðferðir til að þjálfa LLM fyrir fjármálasvið. Þú getur byrjað að þjálfa þína eigin LLM fyrir fjárhagsleg verkefni með því að nota Amazon SageMaker þjálfun or Amazon Berggrunnur í dag.


Um höfunda

Yong Xie er hagnýtur vísindamaður í Amazon FinTech. Hann leggur áherslu á að þróa stór tungumálalíkön og Generative AI forrit fyrir fjármál.

Karan Aggarwal er háttsettur hagnýtur vísindamaður hjá Amazon FinTech með áherslu á Generative AI til notkunar í fjármálum. Karan hefur víðtæka reynslu af tímaraðargreiningum og NLP, með sérstakan áhuga á að læra af takmörkuðum merktum gögnum

Aitzaz Ahmad er hagnýtt vísindastjóri hjá Amazon þar sem hann leiðir hóp vísindamanna sem byggja upp ýmis forrit fyrir vélanám og kynslóða gervigreind í fjármálum. Rannsóknaráhugamál hans eru í NLP, Generative AI og LLM Agents. Hann lauk doktorsprófi í rafmagnsverkfræði frá Texas A&M háskólanum.

Qingwei Li er vélanámssérfræðingur hjá Amazon Web Services. Hann hlaut Ph.D. í rekstrarrannsóknum eftir að hann rauf rannsóknarstyrkjareikning ráðgjafa síns og tókst ekki að afhenda Nóbelsverðlaunin sem hann lofaði. Sem stendur hjálpar hann viðskiptavinum í fjármálaþjónustu við að byggja vélanámslausnir á AWS.

Raghvender Árni leiðir Customer Acceleration Team (CAT) innan AWS Industries. CAT er alþjóðlegt þvervirkt teymi skýjaarkitekta sem standa frammi fyrir viðskiptavinum, hugbúnaðarverkfræðinga, gagnafræðinga og gervigreindar/ML sérfræðinga og hönnuða sem knýr nýsköpun með háþróaðri frumgerð og knýr ský í rekstri með sérhæfðri tækniþekkingu.

blettur_img

Nýjasta upplýsingaöflun

blettur_img