Inteligența generativă a datelor

LLM-uri eficiente de pre-formare continuă pentru domeniile financiare | Amazon Web Services

Data:

Modelele lingvistice mari (LLM) sunt, în general, instruite pe seturi de date mari disponibile public care sunt agnostice de domeniu. De exemplu, Lama lui Meta modelele sunt antrenate pe seturi de date precum CommonCrawl, C4, Wikipedia și arXiv. Aceste seturi de date cuprind o gamă largă de subiecte și domenii. Deși modelele rezultate dau rezultate uimitor de bune pentru sarcini generale, cum ar fi generarea de text și recunoașterea entităților, există dovezi că modelele antrenate cu seturi de date specifice domeniului pot îmbunătăți și mai mult performanța LLM. De exemplu, datele de antrenament utilizate pentru BloombergGPT reprezintă 51% documente specifice domeniului, inclusiv știri financiare, dosare și alte materiale financiare. LLM rezultat depășește LLM-urile instruite pe seturi de date nespecifice domeniului atunci când sunt testate pe sarcini specifice finanțelor. Autorii lui BloombergGPT au concluzionat că modelul lor depășește toate celelalte modele testate pentru patru din cele cinci sarcini financiare. Modelul a oferit o performanță și mai bună atunci când a fost testat pentru sarcinile financiare interne ale Bloomberg cu o marjă largă – cu până la 60 de puncte mai bine (din 100). Deși puteți afla mai multe despre rezultatele evaluării cuprinzătoare în hârtie, următorul eșantion capturat din BloombergGPT hârtia vă poate oferi o privire asupra beneficiului formării LLM-urilor folosind date specifice domeniului financiar. După cum se arată în exemplu, modelul BloombergGPT a oferit răspunsuri corecte, în timp ce alte modele non-specifice de domeniu au avut probleme:

Input: CEO of Assicurazioni Generali?
BloombergGPT: Philippe Donnet
GPT-NeoX: Antonio De Lorenzo, Simone Gambarini, Enrico Zanetti
FLAN-T5-XXL: John M Forsyth, Christopher K Peters, {empty string}

Input: CEO of Silicon Valley Bank?
BloombergGPT: Greg Becker
GPT-NeoX: John Hodor, Mike Fridgen, Peter R Briger
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth

Input: CEO of IHS Markit Ltd?
BloombergGPT: Lance Uggla
GPT-NeoX: John F Lechleiter, David Steward, Niall O Broin
FLAN-T5-XXL: William M Hawkins, John M Forsyth, John M Forsyth
Input: CEO of Walgreens Boots Alliance?

BloombergGPT: Rosalind Brewer
GPT-NeoX: Mark V Dei, Stefano Pessina, Stefano Pessina
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth
Input: CEO of Citigroup Inc?

BloombergGPT: Jane Fraser
GPT-NeoX: Michael L Corbat, Michael L Corbat, Michael L Corbat
FLAN-T5-XXL: Christian Sewing, John M Forsyth, John M Forsyth

Această postare oferă un ghid pentru formarea LLM-urilor special pentru domeniul financiar. Acoperim următoarele domenii cheie:

  • Colectarea și pregătirea datelor – Îndrumări privind aprovizionarea și gestionarea datelor financiare relevante pentru formarea eficientă a modelelor
  • Pre-antrenament continuu vs. reglaj fin – Când să utilizați fiecare tehnică pentru a optimiza performanța LLM
  • Pre-antrenament continuu eficient – Strategii pentru eficientizarea procesului continuu de pre-formare, economisind timp și resurse

Această postare reunește expertiza echipei de cercetare în știință aplicată din cadrul Amazon Finance Technology și a echipei AWS Worldwide Specialist pentru industria financiară globală. O parte din conținut se bazează pe hârtie Pre-instruire continuă eficientă pentru construirea de modele lingvistice mari specifice domeniului.

Colectarea și pregătirea datelor financiare

Preinstruirea continuă a domeniului necesită un set de date pe scară largă, de înaltă calitate, specific domeniului. Următorii sunt pașii principali pentru curatarea setului de date de domeniu:

  • Identificați sursele de date – Sursele potențiale de date pentru corpus de domeniu includ web deschis, Wikipedia, cărți, rețele sociale și documente interne.
  • Filtre de date de domeniu – Deoarece scopul final este acela de a gestiona corpus de domeniu, poate fi necesar să aplicați pași suplimentari pentru a filtra mostrele care nu sunt relevante pentru domeniul țintă. Acest lucru reduce corpul inutil pentru pre-formarea continuă și reduce costurile de formare.
  • preprocesare – Ați putea lua în considerare o serie de pași de preprocesare pentru a îmbunătăți calitatea datelor și eficiența instruirii. De exemplu, anumite surse de date pot conține un număr destul de mare de jetoane zgomotoase; deduplicarea este considerată un pas util pentru îmbunătățirea calității datelor și reducerea costurilor de instruire.

Pentru a dezvolta LLM-uri financiare, puteți utiliza două surse de date importante: News CommonCrawl și dosarele SEC. O înregistrare la SEC este o situație financiară sau un alt document oficial transmis Comisiei pentru Valori Mobiliare și Burse (SEC) din SUA. Companiile cotate la bursă sunt obligate să depună în mod regulat diverse documente. Acest lucru creează un număr mare de documente de-a lungul anilor. Știri CommonCrawl este un set de date lansat de CommonCrawl în 2016. Conține articole de știri de pe site-uri de știri din întreaga lume.

Știri CommonCrawl este disponibil pe Serviciul Amazon de stocare simplă (Amazon S3) în commoncrawl găleată la crawl-data/CC-NEWS/. Puteți obține listele de fișiere folosind Interfața liniei de comandă AWS (AWS CLI) și următoarea comandă:

aws s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/

In Pre-instruire continuă eficientă pentru construirea de modele lingvistice mari specifice domeniului, autorii folosesc o abordare bazată pe adrese URL și cuvinte cheie pentru a filtra articolele de știri financiare de știrile generice. Mai exact, autorii mențin o listă de știri financiare importante și un set de cuvinte cheie legate de știrile financiare. Identificăm un articol ca știri financiare dacă fie provine de la instituțiile de știri financiare, fie dacă apar cuvinte cheie în adresa URL. Această abordare simplă, dar eficientă, vă permite să identificați știrile financiare nu numai de la instituțiile de știri financiare, ci și de la secțiunile financiare ale posturilor de știri generice.

Înregistrările SEC sunt disponibile online prin baza de date EDGAR (Electronic Data Gathering, Analysis, and Retrieval) a SEC, care oferă acces la date deschise. Puteți elimina fișierele de la EDGAR direct sau puteți utiliza API-uri Amazon SageMaker cu câteva rânduri de cod, pentru orice perioadă de timp și pentru un număr mare de tickere (adică, identificatorul atribuit SEC). Pentru a afla mai multe, consultați Recuperarea depunerii SEC.

Următorul tabel rezumă detaliile cheie ale ambelor surse de date.

. Știri CommonCrawl Depunere SEC
Acoperire 2016-2022 1993-2022
Mărimea 25.8 de miliarde de cuvinte 5.1 de miliarde de cuvinte

Autorii parcurg câțiva pași suplimentari de preprocesare înainte ca datele să fie introduse într-un algoritm de antrenament. În primul rând, observăm că dosarele SEC conțin text zgomotos din cauza eliminării tabelelor și cifrelor, astfel încât autorii elimină propozițiile scurte care sunt considerate a fi etichete de tabel sau figuri. În al doilea rând, aplicăm un algoritm de hashing sensibil la localitate pentru a deduplica noile articole și fișiere. Pentru înregistrările SEC, deduplicam la nivel de secțiune în loc de la nivel de document. În cele din urmă, concatenăm documentele într-un șir lung, îl tokenizăm și împărțim tokenizarea în bucăți cu lungimea maximă de intrare acceptată de modelul care urmează să fie antrenat. Acest lucru îmbunătățește debitul de pre-formare continuă și reduce costurile de formare.

Pre-antrenament continuu vs. reglaj fin

Majoritatea LLM-urilor disponibile sunt de uz general și nu au abilități specifice domeniului. LLM-urile de domeniu au demonstrat performanțe considerabile în domeniul medical, financiar sau științific. Pentru ca un LLM să dobândească cunoștințe specifice domeniului, există patru metode: antrenament de la zero, pregătire continuă continuă, reglare fină a instrucțiunilor privind sarcinile de domeniu și Retrieval Augmented Generation (RAG).

În modelele tradiționale, reglarea fină este de obicei folosită pentru a crea modele specifice sarcinii pentru un domeniu. Aceasta înseamnă menținerea mai multor modele pentru mai multe sarcini, cum ar fi extragerea entităților, clasificarea intențiilor, analiza sentimentelor sau răspunsul la întrebări. Odată cu apariția LLM-urilor, nevoia de a menține modele separate a devenit învechită prin utilizarea unor tehnici precum învățarea în context sau avizul. Acest lucru economisește efortul necesar pentru a menține un teanc de modele pentru sarcini conexe, dar distincte.

În mod intuitiv, puteți antrena LLM-uri de la zero cu date specifice domeniului. Deși cea mai mare parte a muncii de creare a LLM-urilor de domeniu s-a concentrat pe formarea de la zero, este prohibitiv de costisitoare. De exemplu, modelul GPT-4 costă peste $ 100 milioane a antrena. Aceste modele sunt instruite pe o combinație de date de domeniu deschise și date de domeniu. Preinstruirea continuă poate ajuta modelele să dobândească cunoștințe specifice domeniului fără a suporta costul pregătirii preliminare de la zero, deoarece preformați un LLM de domeniu deschis existent doar pe datele domeniului.

Cu reglarea fină a instrucțiunilor pentru o sarcină, nu puteți face ca modelul să dobândească cunoștințe de domeniu, deoarece LLM-ul achiziționează numai informații de domeniu conținute în setul de date de reglare fină a instrucțiunilor. Dacă nu se utilizează un set de date foarte mare pentru reglarea fină a instrucțiunilor, nu este suficient să dobândiți cunoștințe de domeniu. Aprovizionarea de seturi de date de instrucțiuni de înaltă calitate este de obicei o provocare și este motivul pentru a utiliza LLM-urile în primul rând. De asemenea, reglarea fină a instrucțiunilor pentru o sarcină poate afecta performanța altor sarcini (după cum se vede în acest document). Cu toate acestea, reglarea fină a instrucțiunilor este mai rentabilă decât oricare dintre alternativele de pre-antrenament.

Următoarea figură compară reglajele tradiționale specifice sarcinii. vs paradigma de învățare în context cu LLMs.

RAG este cel mai eficient mod de a ghida un LLM pentru a genera răspunsuri bazate pe un domeniu. Deși poate ghida un model pentru a genera răspunsuri prin furnizarea de fapte din domeniu ca informații auxiliare, nu dobândește limbajul specific domeniului, deoarece LLM se bazează în continuare pe stilul de limbaj non-domeniu pentru a genera răspunsurile.

Pre-instruirea continuă este o cale de mijloc între pre-instruire și reglarea fină a instrucțiunilor în ceea ce privește costul, fiind în același timp o alternativă puternică pentru dobândirea de cunoștințe și stil specifice domeniului. Acesta poate oferi un model general asupra căruia pot fi efectuate reglaje suplimentare ale instrucțiunilor pe date limitate ale instrucțiunilor. Pre-instruirea continuă poate fi o strategie rentabilă pentru domeniile specializate în care setul de sarcini din aval este mare sau necunoscut și datele de reglare a instrucțiunilor etichetate sunt limitate. În alte scenarii, reglarea fină a instrucțiunilor sau RAG ar putea fi mai potrivite.

Pentru a afla mai multe despre reglaj fin, RAG și antrenament de model, consultați Reglați fin un model de fond de ten, Recuperare Augmented Generation (RAG), și Antrenați un model cu Amazon SageMaker, respectiv. Pentru această postare, ne concentrăm pe o pregătire continuă eficientă.

Metodologia preformarii continue eficiente

Preformarea continuă constă în următoarea metodologie:

  • Preformare continuă adaptabilă la domeniu (DACP) – În hârtie Pre-instruire continuă eficientă pentru construirea de modele lingvistice mari specifice domeniului, autorii pre-antrenează continuu suita de modele de limbaj Pythia pe corpus financiar pentru a o adapta la domeniul financiar. Obiectivul este de a crea LLM-uri financiare prin introducerea datelor din întregul domeniu financiar într-un model open-source. Deoarece corpusul de instruire conține toate seturile de date curatate din domeniu, modelul rezultat ar trebui să dobândească cunoștințe specifice finanțelor, devenind astfel un model versatil pentru diverse sarcini financiare. Rezultă modele FinPythia.
  • Preformare continuă adaptabilă la sarcini (TACP) – Autorii pre-antrenează modelele în continuare pe datele sarcinilor etichetate și neetichetate pentru a le adapta pentru sarcini specifice. În anumite circumstanțe, dezvoltatorii pot prefera modele care oferă performanțe mai bune pentru un grup de sarcini din domeniu, mai degrabă decât un model generic de domeniu. TACP este conceput ca pre-formare continuă care urmărește îmbunătățirea performanței la sarcinile vizate, fără cerințe pentru date etichetate. Mai exact, autorii pre-antrenează în mod continuu modelele cu sursă deschisă pe jetoanele de sarcină (fără etichete). Limitarea principală a TACP constă în construirea de LLM-uri specifice sarcinii în loc de LLM-uri de bază, datorită utilizării exclusiv a datelor de sarcină neetichetate pentru instruire. Deși DACP utilizează un corpus mult mai mare, este prohibitiv de scump. Pentru a echilibra aceste limitări, autorii propun două abordări care urmăresc să construiască LLM-uri de bază specifice domeniului, păstrând în același timp performanța superioară la sarcinile țintă:
  • DACP eficient cu sarcini similare (ETS-DACP) – Autorii propun selectarea unui subset de corpus financiar care este foarte asemănător cu datele sarcinii utilizând similitudinea de încorporare. Acest subset este utilizat pentru pre-antrenamentul continuu pentru a-l face mai eficient. Mai exact, autorii pre-instruiesc continuu LLM cu sursă deschisă pe un corpus mic extras din corpus financiar care este aproape de sarcinile țintă în distribuție. Acest lucru poate ajuta la îmbunătățirea performanței sarcinii, deoarece adoptăm modelul la distribuirea jetoanelor de activitate, în ciuda faptului că datele etichetate nu sunt necesare.
  • DACP eficient independent de sarcini (ETA-DACP) – Autorii propun utilizarea unor metrici precum perplexitatea și entropia de tip token care nu necesită date despre sarcini pentru a selecta mostre din corpus financiar pentru o pregătire continuă eficientă. Această abordare este concepută pentru a face față scenariilor în care datele de activitate nu sunt disponibile sau sunt preferate modele de domeniu mai versatile pentru un domeniu mai larg. Autorii adoptă două dimensiuni pentru a selecta eșantioane de date care sunt importante pentru obținerea informațiilor de domeniu dintr-un subset de date de domeniu pre-formare: noutatea și diversitatea. Noutatea, măsurată prin perplexitatea înregistrată de modelul țintă, se referă la informațiile care nu erau văzute de către LLM înainte. Datele cu noutate ridicată indică cunoștințe noi pentru LLM, iar astfel de date sunt văzute ca fiind mai dificil de învățat. Acest lucru actualizează LLM-urile generice cu cunoștințe intensive de domeniu în timpul pre-formarii continue. Diversitatea, pe de altă parte, surprinde diversitatea distribuțiilor de tipuri de token în corpus de domeniu, care a fost documentată ca o caracteristică utilă în cercetarea învățării curriculare pe modelarea limbii.

Figura următoare compară un exemplu de ETS-DACP (stânga) cu ETA-DACP (dreapta).

Adoptăm două scheme de eșantionare pentru a selecta în mod activ punctele de date din corpus financiar curat: eșantionarea hard și eșantionarea soft. Prima se realizează prin clasarea mai întâi a corpusului financiar după metricile corespunzătoare și apoi selectarea eșantioanelor de top-k, unde k este predeterminat în funcție de bugetul de instruire. Pentru acesta din urmă, autorii atribuie ponderi de eșantionare pentru fiecare punct de date în funcție de valorile metrice, apoi eșantionează aleatoriu k puncte de date pentru a îndeplini bugetul de instruire.

Rezultat și analiză

Autorii evaluează LLM-urile financiare rezultate pe o serie de sarcini financiare pentru a investiga eficacitatea pregătirii continue continue:

  • Banca de fraze financiare – O sarcină de clasificare a sentimentelor pe știrile financiare.
  • FiQA SA – O sarcină de clasificare a sentimentelor bazată pe aspecte, bazată pe știri și titluri financiare.
  • titlu – O sarcină de clasificare binară pentru a stabili dacă un titlu al unei entități financiare conține anumite informații.
  • NER – O sarcină de extragere a unei entități denumite financiare bazată pe secțiunea de evaluare a riscului de credit din rapoartele SEC. Cuvintele din această sarcină sunt adnotate cu PER, LOC, ORG și MISC.

Deoarece LLM-urile financiare sunt reglate fin pentru instrucțiuni, autorii evaluează modelele într-un cadru de 5 fotografii pentru fiecare sarcină de dragul robusteței. În medie, FinPythia 6.9B o depășește cu 6.9% pe Pythia 10B în patru sarcini, ceea ce demonstrează eficacitatea pregătirii continue continue specifice domeniului. Pentru modelul 1B, îmbunătățirea este mai puțin profundă, dar performanța se îmbunătățește în medie cu 2%.

Figura următoare ilustrează diferența de performanță înainte și după DACP pe ambele modele.

Următoarea figură prezintă două exemple calitative generate de Pythia 6.9B și FinPythia 6.9B. Pentru două întrebări legate de finanțe referitoare la un manager de investitor și un termen financiar, Pythia 6.9B nu înțelege termenul și nu recunoaște numele, în timp ce FinPythia 6.9B generează răspunsuri detaliate corect. Exemplele calitative demonstrează că pre-formarea continuă permite LLM-urilor să dobândească cunoștințe de domeniu în timpul procesului.

Următorul tabel compară diverse abordări eficiente de pre-formare continuă. ETA-DACP-ppl este ETA-DACP bazat pe perplexitate (noutate), iar ETA-DACP-ent se bazează pe entropie (diversitate). ETS-DACP-com este similar cu DACP cu selecția datelor prin medierea tuturor celor trei valori. Următoarele sunt câteva concluzii din rezultate:

  • Metodele de selectare a datelor sunt eficiente – Depășesc pre-antrenamentul continuu standard cu doar 10% din datele de antrenament. Pre-instruire continuă eficientă, inclusiv DACP cu sarcini similare (ETS-DACP), DACP cu activitate independentă bazată pe entropie (ESA-DACP-ent) și DACP similar cu sarcini bazate pe toate cele trei metrici (ETS-DACP-com), depășește DACP standard în medie, în ciuda faptului că sunt instruiți pe doar 10% din corpus financiar.
  • Selectarea datelor în funcție de sarcini funcționează cel mai bine în conformitate cu cercetarea modelelor lingvistice mici – ETS-DACP înregistrează cea mai bună performanță medie dintre toate metodele și, pe baza tuturor celor trei metrici, înregistrează a doua cea mai bună performanță a sarcinii. Acest lucru sugerează că utilizarea datelor de sarcină neetichetate este încă o abordare eficientă pentru a crește performanța sarcinilor în cazul LLM-urilor.
  • Selecția datelor fără sarcină este aproape de secundă – ESA-DACP-ent urmărește performanța abordării de selecție a datelor în funcție de sarcină, ceea ce implică faptul că am putea încă îmbunătăți performanța sarcinilor prin selectarea activă a eșantioanelor de înaltă calitate, care nu sunt legate de sarcini specifice. Acest lucru deschide calea pentru a construi LLM-uri financiare pentru întregul domeniu, obținând în același timp performanțe superioare la sarcini.

O întrebare critică cu privire la pre-formarea continuă este dacă afectează negativ performanța în sarcinile non-domeniu. Autorii evaluează, de asemenea, modelul pre-antrenat continuu pe patru sarcini generice utilizate pe scară largă: ARC, MMLU, TruthQA și HellaSwag, care măsoară capacitatea de a răspunde la întrebări, de a raționa și de a finaliza. Autorii constată că pre-formarea continuă nu afectează negativ performanța non-domeniu. Pentru mai multe detalii, consultați Pre-instruire continuă eficientă pentru construirea de modele lingvistice mari specifice domeniului.

Concluzie

Această postare a oferit informații despre colectarea datelor și strategiile continue de pre-formare pentru formarea LLM pentru domeniul financiar. Puteți începe să vă instruiți propriile LLM-uri pentru sarcini financiare folosind Instruire Amazon SageMaker or Amazon Bedrock astăzi.


Despre Autori

Yong Xie este un om de știință aplicat în Amazon FinTech. El se concentrează pe dezvoltarea modelelor de limbaj mari și a aplicațiilor AI generative pentru finanțe.

Karan Aggarwal este cercetător senior aplicat cu Amazon FinTech, cu accent pe IA generativă pentru cazuri de utilizare financiară. Karan are o experiență vastă în analiza serii cronologice și NLP, cu un interes deosebit pentru a învăța din date limitate etichetate

Aitzaz Ahmad este manager de știință aplicată la Amazon, unde conduce o echipă de oameni de știință care construiesc diverse aplicații de învățare automată și AI generativă în finanțe. Interesele sale de cercetare sunt în NLP, IA generativă și agenți LLM. Și-a luat doctoratul în Inginerie Electrică de la Universitatea Texas A&M.

Qingwei Li este specialist în învățare automată la Amazon Web Services. Și-a luat doctoratul. în Cercetare operațională, după ce a spart contul de grant de cercetare al consilierului său și nu a reușit să livreze Premiul Nobel pe care l-a promis. În prezent, el ajută clienții din serviciile financiare să construiască soluții de învățare automată pe AWS.

Raghvender Arni conduce echipa de accelerare a clienților (CAT) din cadrul AWS Industries. CAT este o echipă globală interfuncțională de arhitecți în cloud, ingineri software, cercetători de date și experți și designeri AI/ML, care stimulează inovația prin prototipare avansată și promovează excelența operațională în cloud prin expertiză tehnică specializată.

spot_img

Ultimele informații

spot_img

Chat cu noi

Bună! Cu ce ​​​​vă pot ajuta?