Generatiivne andmeluure

Tõhusad pidevad eelkoolitused finantsvaldkondade jaoks | Amazoni veebiteenused

kuupäev:

Suured keelemudelid (LLM-id) on tavaliselt koolitatud suurte avalikult kättesaadavate andmekogude põhjal, mis on domeeniagnostlikud. Näiteks, Meta laama mudelid on koolitatud selliste andmekogumite kohta nagu CommonCrawl, C4, Vikipeedia ja ArXiv. Need andmekogumid hõlmavad suurt hulka teemasid ja domeene. Kuigi saadud mudelid annavad hämmastavalt häid tulemusi üldistes ülesannetes, nagu teksti genereerimine ja olemituvastus, on tõendeid selle kohta, et domeenispetsiifiliste andmekogumitega koolitatud mudelid võivad LLM-i jõudlust veelgi parandada. Näiteks kasutatavad treeningandmed BloombergGPT on 51% domeenispetsiifilised dokumendid, sealhulgas finantsuudised, avaldused ja muud finantsmaterjalid. Saadud LLM edestab mitte-domeenispetsiifiliste andmekogumitega koolitatud LLM-e, kui seda testitakse finantsspetsiifiliste ülesannetega. Autorid BloombergGPT järeldas, et nende mudel edestab kõiki teisi mudeleid, mida testiti viiest finantsülesandest nelja puhul. Mudel andis veelgi parema jõudluse, kui seda testiti Bloombergi sisemiste finantsülesannete jaoks suure varuga – koguni 60 punkti parem (100-st). Kuigi põhjalike hindamistulemuste kohta saate lisateavet jaotisest paber, järgmine proov on jäädvustatud BloombergGPT paber võib anda teile ülevaate LLM-ide koolitamise eelistest, kasutades finantsvaldkonnaspetsiifilisi andmeid. Nagu näites näidatud, andis BloombergGPT mudel õiged vastused, samal ajal kui teistel mittedomeenispetsiifilistel mudelitel oli probleeme:

Input: CEO of Assicurazioni Generali?
BloombergGPT: Philippe Donnet
GPT-NeoX: Antonio De Lorenzo, Simone Gambarini, Enrico Zanetti
FLAN-T5-XXL: John M Forsyth, Christopher K Peters, {empty string}

Input: CEO of Silicon Valley Bank?
BloombergGPT: Greg Becker
GPT-NeoX: John Hodor, Mike Fridgen, Peter R Briger
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth

Input: CEO of IHS Markit Ltd?
BloombergGPT: Lance Uggla
GPT-NeoX: John F Lechleiter, David Steward, Niall O Broin
FLAN-T5-XXL: William M Hawkins, John M Forsyth, John M Forsyth
Input: CEO of Walgreens Boots Alliance?

BloombergGPT: Rosalind Brewer
GPT-NeoX: Mark V Dei, Stefano Pessina, Stefano Pessina
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth
Input: CEO of Citigroup Inc?

BloombergGPT: Jane Fraser
GPT-NeoX: Michael L Corbat, Michael L Corbat, Michael L Corbat
FLAN-T5-XXL: Christian Sewing, John M Forsyth, John M Forsyth

See postitus annab juhendi LLM-ide koolitamiseks spetsiaalselt finantsvaldkonna jaoks. Me käsitleme järgmisi põhivaldkondi:

  • Andmete kogumine ja ettevalmistamine – Juhised asjakohaste finantsandmete hankimise ja kureerimise kohta tõhusa mudelikoolituse jaoks
  • Pidev eeltreening vs peenhäälestus – Millal kasutada iga tehnikat oma LLM-i jõudluse optimeerimiseks
  • Tõhus pidev eelkoolitus – strateegiad pideva eelkoolitusprotsessi sujuvamaks muutmiseks, säästes aega ja ressursse

See postitus koondab Amazon Finance Technology rakendusteaduste uurimisrühma ja AWS-i ülemaailmse finantssektori spetsialistide meeskonna teadmised. Osa sisust põhineb paberil Tõhus pidev eelkoolitus domeenispetsiifiliste suurte keelemudelite loomiseks.

Finantsandmete kogumine ja ettevalmistamine

Domeeni pidev eelkoolitus nõuab suuremahulist kvaliteetset domeenispetsiifilist andmekogumit. Järgmised on domeeni andmestiku kureerimise peamised sammud.

  • Tuvastage andmeallikad – Domeenikorpuse potentsiaalsed andmeallikad on avatud veeb, Vikipeedia, raamatud, sotsiaalmeedia ja sisedokumendid.
  • Domeeniandmete filtrid – Kuna lõppeesmärk on domeenikorpuse kureerimine, peate võib-olla rakendama täiendavaid samme sihtdomeeni jaoks ebaoluliste näidiste filtreerimiseks. See vähendab pideva eeltreeningu jaoks kasutu korpust ja vähendab koolituskulusid.
  • Eeltöötlus – Andmete kvaliteedi ja koolituse tõhususe parandamiseks võite kaaluda mitmeid eeltöötlusetappe. Näiteks võivad teatud andmeallikad sisaldada päris palju mürarikkaid märke; dubleerimist peetakse kasulikuks sammuks andmete kvaliteedi parandamiseks ja koolituskulude vähendamiseks.

Finantssektori LLM-ide arendamiseks võite kasutada kahte olulist andmeallikat: News CommonCrawl ja SEC-failid. SEC-i avaldus on finantsaruanne või muu ametlik dokument, mis esitatakse USA väärtpaberi- ja börsikomisjonile (SEC). Börsil noteeritud ettevõtted on kohustatud esitama regulaarselt erinevaid dokumente. See loob aastate jooksul suure hulga dokumente. News CommonCrawl on CommonCrawli 2016. aastal välja antud andmestik. See sisaldab uudisteartikleid uudistesaitidelt üle kogu maailma.

News CommonCrawl on saadaval aadressil Amazoni lihtne salvestusteenus (Amazon S3) commoncrawl kopp juures crawl-data/CC-NEWS/. Failide loendid saate hankida kasutades AWS-i käsurea liides (AWS CLI) ja järgmine käsk:

aws s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/

In Tõhus pidev eelkoolitus domeenispetsiifiliste suurte keelemudelite loomiseks, kasutavad autorid URL-i ja märksõnapõhist lähenemist finantsuudiste artiklite filtreerimiseks üldistest uudistest. Täpsemalt peavad autorid oluliste finantsuudiste väljaannete loendit ja finantsuudistega seotud märksõnade komplekti. Tuvastame artikli finantsuudisteks, kui see pärineb finantsuudiste väljaannetest või kui URL-is kuvatakse mõni märksõna. See lihtne, kuid tõhus lähenemisviis võimaldab teil tuvastada finantsuudiseid mitte ainult finantsuudiste müügikohtadest, vaid ka üldiste uudisteväljaannete finantsosadest.

SEC-i failid on Internetis saadaval SEC-i EDGAR-i (elektrooniline andmete kogumine, analüüs ja otsimine) andmebaasi kaudu, mis pakub avatud juurdepääsu andmetele. Saate failid otse EDGAR-ist kraapida või kasutada API-sid Amazon SageMaker mõne koodireaga, mis tahes ajaperioodi ja suure hulga tickerite jaoks (st SEC-i määratud identifikaator). Lisateabe saamiseks vaadake SEC-failide otsimine.

Järgmine tabel võtab kokku mõlema andmeallika peamised üksikasjad.

. Uudised CommonCrawl SEC esitamine
Katmine 2016-2022 1993-2022
SUURUS 25.8 miljardit sõna 5.1 miljardit sõna

Autorid läbivad mõned täiendavad eeltöötlusetapid, enne kui andmed sisestatakse koolitusalgoritmi. Esiteks täheldame, et SEC-failid sisaldavad tabelite ja jooniste eemaldamise tõttu mürarikast teksti, nii et autorid eemaldavad lühikesed laused, mida peetakse tabeli- või joonissiltidena. Teiseks rakendame uute artiklite ja failide dubleerimiseks kohatundlikku räsimisalgoritmi. SEC-failide puhul eemaldame dubleerimise jaotise tasemel, mitte dokumendi tasemel. Lõpuks ühendame dokumendid pikaks stringiks, märgistame selle ja jaotame tokeniseerimise maksimaalse sisendpikkusega tükkideks, mida koolitatav mudel toetab. See parandab pideva eeltreeningu läbilaskevõimet ja vähendab koolituskulusid.

Pidev eeltreening vs peenhäälestus

Enamik saadaolevaid LLM-e on üldotstarbelised ja neil puuduvad domeenispetsiifilised võimed. Domeeni LLM-id on näidanud märkimisväärset jõudlust meditsiini, rahanduse või teaduse valdkonnas. LLM-i jaoks domeenispetsiifiliste teadmiste omandamiseks on neli meetodit: nullist väljaõpe, pidev eelkoolitus, domeeniülesannete juhendamise peenhäälestus ja taastamise laiendatud genereerimine (RAG).

Traditsioonilistes mudelites kasutatakse peenhäälestust tavaliselt domeeni ülesandespetsiifiliste mudelite loomiseks. See tähendab mitme mudeli säilitamist mitme ülesande jaoks, nagu olemi eraldamine, kavatsuste klassifitseerimine, sentimentide analüüs või küsimustele vastamine. LLM-ide tulekuga on vajadus säilitada eraldi mudeleid, kasutades selliseid tehnikaid nagu kontekstis õppimine või küsimine. See säästab jõupingutusi, mis on vajalikud seotud, kuid eristatavate ülesannete jaoks mudelite virna säilitamiseks.

Intuitiivselt saate domeenipõhiste andmetega koolitada LLM-e nullist. Kuigi suurem osa domeenide LLM-ide loomise tööst on keskendunud nullist väljaõppele, on see ülemäära kulukas. Näiteks GPT-4 mudel maksab üle $ 100 miljonit treenima. Neid mudeleid õpetatakse kasutama avatud domeeniandmete ja domeeniandmete kombinatsiooni. Pidev eelkoolitus võib aidata mudelitel omandada domeenispetsiifilisi teadmisi ilma nullist eelkoolituse kulusid kandmata, kuna koolitate olemasoleva avatud domeeni LLM-i ette ainult domeeniandmete põhjal.

Ülesande juhiste peenhäälestamisel ei saa te mudelit domeeniteadmisi omandada, kuna LLM hangib ainult juhiste peenhäälestuse andmestikus sisalduva domeeniteabe. Kui just käskude peenhäälestamiseks ei kasutata väga suurt andmestikku, ei piisa domeeniteadmiste omandamiseks. Kvaliteetsete juhiste andmekogumite hankimine on tavaliselt keeruline ja see on põhjus, miks kasutada esmajärjekorras LLM-e. Samuti võib ühe ülesande juhiste peenhäälestus mõjutada teiste ülesannete jõudlust (nagu näha Selles raamatus). Kuid juhendamise peenhäälestus on kuluefektiivsem kui kumbki eelkoolituse alternatiiv.

Järgmisel joonisel võrreldakse traditsioonilist ülesandepõhist peenhäälestust. vs LLM-idega kontekstisisene õppimise paradigma.

RAG on kõige tõhusam viis LLM-i suunamiseks, et genereerida domeenipõhiseid vastuseid. Kuigi see võib suunata mudelit vastuste genereerimiseks, pakkudes abiteabena domeeni fakte, ei omanda see domeenispetsiifilist keelt, kuna LLM tugineb vastuste genereerimiseks endiselt domeenivälisele keelestiilile.

Pidev eelkoolitus on kulude osas kesktee eelkoolituse ja juhendamise peenhäälestuse vahel, olles samas tugev alternatiiv valdkonnaspetsiifiliste teadmiste ja stiili omandamisele. See võib pakkuda üldist mudelit, mille abil saab teostada piiratud käsuandmete edasist käskude peenhäälestamist. Pidev eelkoolitus võib olla kulutõhus strateegia spetsialiseeritud valdkondade jaoks, kus allavoolu ülesannete hulk on suur või teadmata ja märgistatud juhiste häälestamise andmed on piiratud. Teiste stsenaariumide korral võib juhiste peenhäälestus või RAG olla sobivam.

Peenhäälestuse, RAG-i ja mudelikoolituse kohta lisateabe saamiseks vaadake Vundamendi mudeli peenhäälestus, Retrieval Augmented Generation (RAG)ja Treenige mudelit rakendusega Amazon SageMaker, vastavalt. Selle postituse puhul keskendume tõhusale pidevale eelkoolitusele.

Tõhusa pideva eelkoolituse metoodika

Pidev eelkoolitus koosneb järgmisest metoodikast:

  • Domeeni kohanduv pidev eelkoolitus (DACP) – Lehes Tõhus pidev eelkoolitus domeenispetsiifiliste suurte keelemudelite loomiseks, koolitavad autorid pidevalt Pythia keelemudelite komplekti finantskorpuses, et kohandada seda finantsvaldkonnaga. Eesmärk on luua finantssektori LLM-e, sisestades kogu finantsvaldkonna andmed avatud lähtekoodiga mudelisse. Kuna koolituskorpus sisaldab kõiki domeeni kureeritud andmekogumeid, peaks saadud mudel omandama finantsspetsiifilisi teadmisi, muutudes seeläbi mitmekülgseks mudeliks erinevate finantsülesannete jaoks. Selle tulemuseks on FinPythia mudelid.
  • Task-Adaptive Continual Pre-Training (TACP) – Autorid koolitavad mudeleid edasi märgistatud ja märgistamata ülesannete andmete osas, et kohandada neid konkreetsete ülesannete jaoks. Teatud juhtudel võivad arendajad eelistada mudeleid, mis pakuvad domeenisiseste ülesannete rühmas paremat jõudlust, mitte domeeni üldist mudelit. TACP on loodud pideva eelkoolitusena, mille eesmärk on parandada sihipäraste ülesannete sooritamist ilma märgistatud andmetele esitatavate nõueteta. Täpsemalt, autorid koolitavad pidevalt avatud lähtekoodiga mudeleid ülesannete märkide jaoks (ilma siltideta). TACP-i peamine piirang seisneb sihtasutuse LLM-ide asemel ülesandespetsiifiliste LLM-ide loomises, kuna koolituseks kasutatakse ainult märgistamata ülesandeandmeid. Kuigi DACP kasutab palju suuremat korpust, on see ülemäära kallis. Nende piirangute tasakaalustamiseks pakuvad autorid välja kaks lähenemisviisi, mille eesmärk on luua domeenispetsiifilised sihtasutuse LLM-id, säilitades samal ajal sihtülesannete parema jõudluse:
  • Tõhus ülesandega sarnane DACP (ETS-DACP) – Autorid soovitavad valida finantskorpuse alamhulga, mis on manustatud sarnasuse abil väga sarnane ülesande andmetega. Seda alamhulka kasutatakse pidevaks eelkoolituseks, et muuta see tõhusamaks. Täpsemalt, autorid koolitavad pidevalt avatud lähtekoodiga LLM-i väikeses korpuses, mis on eraldatud finantskorpusest ja mis on levitamise sihtülesannete lähedal. See võib aidata ülesannete toimivust parandada, kuna võtame mudeli kasutusele ülesande märkide jaotamisel, hoolimata sellest, et märgistatud andmeid pole vaja.
  • Tõhus ülesannete agnostiline DACP (ETA-DACP) – Autorid soovitavad kasutada selliseid mõõdikuid nagu segadus ja märgitüübi entroopia, mis ei nõua ülesande andmeid, et valida finantskorpusest näidiseid tõhusaks pidevaks eelkoolituseks. See lähenemisviis on loodud stsenaariumide käsitlemiseks, kus ülesande andmed pole saadaval või eelistatakse laiema domeeni mitmekülgsemaid domeenimudeleid. Autorid võtavad kasutusele kaks mõõdet, et valida andmenäidised, mis on olulised domeeniteabe saamiseks koolituseelsete domeeniandmete alamhulgast: uudsus ja mitmekesisus. Uudsus, mida mõõdetakse sihtmudeli registreeritud segaduse järgi, viitab teabele, mida LLM varem ei näinud. Kõrge uudsusega andmed näitavad LLM-i jaoks uudseid teadmisi ja selliseid andmeid peetakse raskemini omandatavateks. See värskendab üldiseid LLM-e, kellel on pideva eelkoolituse ajal intensiivsed domeeniteadmised. Teisest küljest kajastab mitmekesisus domeenikorpuses olevate märgitüüpide jaotuste mitmekesisust, mida on dokumenteeritud kui kasulikku omadust keele modelleerimise õppekavaõppe uurimisel.

Järgmisel joonisel võrreldakse ETS-DACP (vasakul) ja ETA-DACP (paremal) näidet.

Kureeritud finantskorpusest andmepunktide aktiivseks valimiseks võtame kasutusele kaks valimi moodustamise skeemi: kõva valim ja pehme valim. Esimene toimub nii, et esmalt järjestatakse finantskorpus vastavate mõõdikute järgi ja seejärel valitakse top-k valimid, kus k on eelnevalt määratud vastavalt koolituseelarvele. Viimase jaoks määravad autorid igale andmepunktile valimikaalud vastavalt mõõdikute väärtustele ja valivad seejärel juhuslikult k andmepunkti, et täita koolituseelarve.

Tulemus ja analüüs

Autorid hindavad saadud rahalisi LLM-e mitmesuguste finantsülesannete alusel, et uurida pideva eelkoolituse tõhusust:

  • Finantsfraasipank – Finantsuudiste tunde klassifitseerimise ülesanne.
  • FiQA SA – Aspektipõhine sentimentide klassifitseerimise ülesanne, mis põhineb finantsuudistel ja pealkirjadel.
  • Pealkiri – binaarne klassifitseerimisülesanne selle kohta, kas finantsüksuse pealkiri sisaldab teatud teavet.
  • NER – SEC-i aruannete krediidiriski hindamise jaotisel põhinev finantsüksuse kaevandamise ülesanne. Selle ülesande sõnadele on lisatud märkused PER, LOC, ORG ja MISC.

Kuna finantssektori LLM-id on juhised peenhäälestatud, hindavad autorid mudeleid iga ülesande jaoks 5-sammas, et tagada tugevus. Keskmiselt ületab FinPythia 6.9B Pythia 6.9B nelja ülesande puhul 10%, mis näitab domeenispetsiifilise pideva eelkoolituse tõhusust. 1B mudeli puhul on paranemine vähem sügav, kuid jõudlus paraneb siiski keskmiselt 2%.

Järgmine joonis illustreerib jõudluse erinevust enne ja pärast DACP-d mõlemal mudelil.

Järgmisel joonisel on kaks Pythia 6.9B ja FinPythia 6.9B loodud kvalitatiivset näidet. Kahe finantsteemalise küsimuse puhul, mis puudutavad investorhaldurit ja finantsterminit, ei mõista Pythia 6.9B terminit ega tunne ära nime, samas kui FinPythia 6.9B genereerib üksikasjalikud vastused õigesti. Kvalitatiivsed näited näitavad, et pidev eelkoolitus võimaldab LLM-idel protsessi käigus omandada valdkonnateadmisi.

Järgmises tabelis võrreldakse erinevaid tõhusaid pideva eelkoolituse lähenemisviise. ETA-DACP-ppl on ETA-DACP, mis põhineb hämmeldusel (uudsus) ja ETA-DACP-ent põhineb entroopial (mitmekesisusel). ETS-DACP-com sarnaneb DACP-ga, andes valikul kõigi kolme mõõdiku keskmistamise. Järgnevalt on toodud mõned väljavõtted tulemustest:

  • Andmete valimise meetodid on tõhusad – Need ületavad tavapärast pidevat eeltreeningut vaid 10% treeningandmetega. Tõhus pidev eelkoolitus, sealhulgas Task-Similar DACP (ETS-DACP), Task-Agnostic DACP, mis põhineb entroopial (ESA-DACP-ent) ja Task-Similar DACP, mis põhineb kõigil kolmel mõõdikul (ETS-DACP-com), ületab standardset DACP-d keskmiselt hoolimata asjaolust, et neid koolitatakse ainult 10% finantskorpuse kohta.
  • Ülesanneteadlik andmete valik toimib kõige paremini kooskõlas väikeste keelemudelite uurimisega – ETS-DACP salvestab kõigi meetodite seas parima keskmise jõudluse ja kõigi kolme mõõdiku põhjal salvestab ülesande täitmise paremuselt teise. See viitab sellele, et märgistamata ülesannete andmete kasutamine on LLM-ide puhul endiselt tõhus lähenemisviis ülesannete jõudluse suurendamiseks.
  • Ülesandeagnostiliste andmete valik on lähedal teisel kohal – ESA-DACP-ent järgib ülesandeteadliku andmevaliku lähenemisviisi toimivust, mis tähendab, et saaksime ülesannete jõudlust siiski suurendada, valides aktiivselt kvaliteetseid näidiseid, mis pole konkreetsete ülesannetega seotud. See sillutab teed kogu domeeni jaoks finantssektori LLM-ide loomiseks, saavutades samal ajal suurepärase ülesannete täitmise.

Üks kriitiline küsimus seoses pideva eelkoolitusega on see, kas see mõjutab negatiivselt domeeniväliste ülesannete toimivust. Autorid hindavad ka pidevalt eelkoolitatud mudelit nelja laialdaselt kasutatava üldise ülesande puhul: ARC, MMLU, TruthQA ja HellaSwag, mis mõõdavad küsimustele vastamise, arutlemise ja lõpetamise võimet. Autorid leiavad, et pidev eelkoolitus ei mõjuta negatiivselt mitte-domeeni jõudlust. Lisateabe saamiseks vaadake Tõhus pidev eelkoolitus domeenispetsiifiliste suurte keelemudelite loomiseks.

Järeldus

See postitus pakkus teavet andmete kogumise ja pideva eelkoolituse strateegiate kohta LLM-ide koolitamiseks finantsvaldkonnas. Saate alustada oma LLM-ide koolitamist finantsülesannete jaoks, kasutades Amazon SageMakeri koolitus or Amazonase aluspõhi täna.


Autoritest

Yong Xie on Amazon FinTechi rakendusteadlane. Ta keskendub suurte keelemudelite ja generatiivsete AI-rakenduste arendamisele rahanduse jaoks.

Karan Aggarwal on Amazon FinTechi vanemrakendusteadlane, kes keskendub finantskasutusjuhtumite jaoks generatiivsele AI-le. Karanil on laialdased kogemused aegridade analüüsi ja NLP alal ning ta on eriti huvitatud piiratud märgistatud andmetest õppimisest

Aitzaz Ahmad on Amazoni rakendusteaduste juht, kus ta juhib teadlaste meeskonda, kes loob erinevaid masinõppe ja generatiivse tehisintellekti rakendusi rahanduses. Tema uurimisvaldkonnad on NLP, Generative AI ja LLM Agents. Ta sai doktorikraadi elektrotehnika alal Texase A&M ülikoolist.

Qingwei Li on Amazon Web Servicesi masinõppe spetsialist. Ta sai doktorikraadi. operatsioonide uurimisel pärast seda, kui ta murdis oma nõustaja uurimistoetuse konto ja ei suutnud väljastada lubatud Nobeli preemiat. Praegu aitab ta finantsteenuste klientidel luua AWS-is masinõppelahendusi.

Raghvender Arni juhib AWS Industriesi klientide kiirendusmeeskonda (CAT). CAT on ülemaailmne funktsionaalne meeskond, mis koosneb klientidega silmitsi seisvatest pilvearhitektidest, tarkvarainseneridest, andmeteadlastest ning AI/ML-ekspertidest ja disaineritest, kes juhib innovatsiooni täiustatud prototüüpide loomise kaudu ja juhib pilveoperatsiooni tipptaset spetsiaalsete tehniliste teadmiste abil.

spot_img

Uusim intelligentsus

spot_img

Jututuba koos meiega

Tere! Kuidas ma teid aidata saan?