Generativní datová inteligence

Efektivní průběžné předškolení LLM pro finanční oblasti | Webové služby Amazon

Datum:

Velké jazykové modely (LLM) jsou obecně trénovány na velkých veřejně dostupných souborech dat, které nejsou doménou. Například, Metaova láma modely jsou trénovány na datových sadách jako např CommonCrawl, C4, Wikipedie a ArXiv. Tyto datové sady zahrnují širokou škálu témat a domén. Přestože výsledné modely poskytují úžasně dobré výsledky pro obecné úkoly, jako je generování textu a rozpoznávání entit, existují důkazy, že modely trénované s datovými sadami pro konkrétní doménu mohou dále zlepšit výkon LLM. Například tréninková data použitá pro Bloombergpt je 51 % doménově specifických dokumentů, včetně finančních zpráv, podání a dalších finančních materiálů. Výsledný LLM překonává LLM vyškolené na datových sadách, které nejsou specifické pro doménu, když jsou testovány na finančních úkolech. Autoři z Bloombergpt dospěli k závěru, že jejich model překonává všechny ostatní modely testované pro čtyři z pěti finančních úkolů. Model poskytoval ještě lepší výkon, když byl testován pro interní finanční úkoly Bloomberg s velkým náskokem – až o 60 bodů lepší (ze 100). I když se můžete dozvědět více o komplexních výsledcích hodnocení v papír, následující vzorek zachycený z Bloombergpt papír vám může poskytnout pohled na výhody školení LLM pomocí dat specifických pro finanční doménu. Jak je ukázáno v příkladu, model BloombergGPT poskytl správné odpovědi, zatímco jiné modely, které nejsou specifické pro doménu, se potýkaly:

Input: CEO of Assicurazioni Generali?
BloombergGPT: Philippe Donnet
GPT-NeoX: Antonio De Lorenzo, Simone Gambarini, Enrico Zanetti
FLAN-T5-XXL: John M Forsyth, Christopher K Peters, {empty string}

Input: CEO of Silicon Valley Bank?
BloombergGPT: Greg Becker
GPT-NeoX: John Hodor, Mike Fridgen, Peter R Briger
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth

Input: CEO of IHS Markit Ltd?
BloombergGPT: Lance Uggla
GPT-NeoX: John F Lechleiter, David Steward, Niall O Broin
FLAN-T5-XXL: William M Hawkins, John M Forsyth, John M Forsyth
Input: CEO of Walgreens Boots Alliance?

BloombergGPT: Rosalind Brewer
GPT-NeoX: Mark V Dei, Stefano Pessina, Stefano Pessina
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth
Input: CEO of Citigroup Inc?

BloombergGPT: Jane Fraser
GPT-NeoX: Michael L Corbat, Michael L Corbat, Michael L Corbat
FLAN-T5-XXL: Christian Sewing, John M Forsyth, John M Forsyth

Tento příspěvek poskytuje průvodce školením LLM speciálně pro finanční oblast. Pokrýváme následující klíčové oblasti:

  • Sběr a příprava dat – Pokyny k získávání a správě relevantních finančních údajů pro efektivní modelové školení
  • Kontinuální předtrénink vs. dolaďování – Kdy použít jednotlivé techniky k optimalizaci výkonu vašeho LLM
  • Efektivní kontinuální předtrénink – Strategie pro zefektivnění průběžného předškolního procesu, což šetří čas a zdroje

Tento příspěvek spojuje odborné znalosti výzkumného týmu aplikované vědy v rámci Amazon Finance Technology a týmu AWS Worldwide Specialist pro globální finanční průmysl. Část obsahu je založena na papíru Efektivní průběžné předběžné školení pro vytváření velkých jazykových modelů specifických pro doménu.

Sběr a příprava finančních dat

Nepřetržité předtrénování domény vyžaduje rozsáhlou, vysoce kvalitní, doménu specifickou datovou sadu. Níže jsou uvedeny hlavní kroky pro správu datové sady domény:

  • Identifikujte zdroje dat – Potenciální zdroje dat pro doménový korpus zahrnují otevřený web, Wikipedii, knihy, sociální média a interní dokumenty.
  • Doménové datové filtry – Protože konečným cílem je kurovat doménový korpus, možná budete muset použít další kroky k odfiltrování vzorků, které nejsou relevantní pro cílovou doménu. To redukuje nepotřebný korpus pro kontinuální předtrénink a snižuje náklady na školení.
  • Předběžné zpracování – Můžete zvážit řadu kroků předběžného zpracování, abyste zlepšili kvalitu dat a efektivitu školení. Některé zdroje dat mohou například obsahovat značný počet hlučných tokenů; deduplikace je považována za užitečný krok ke zlepšení kvality dat a snížení nákladů na školení.

K vývoji finančních LLM můžete použít dva důležité zdroje dat: News CommonCrawl a SEC filings. Podání SEC je finanční výkaz nebo jiný formální dokument předložený Komisi pro cenné papíry a burzy USA (SEC). Společnosti kotované na burze jsou povinny pravidelně podávat různé dokumenty. V průběhu let tak vzniká velké množství dokumentů. News CommonCrawl je datový soubor vydaný CommonCrawl v roce 2016. Obsahuje zpravodajské články ze zpravodajských webů z celého světa.

Novinky CommonCrawl je k dispozici na Služba Amazon Simple Storage Service (Amazon S3) v commoncrawl kbelík na crawl-data/CC-NEWS/. Seznamy souborů můžete získat pomocí Rozhraní příkazového řádku AWS (AWS CLI) a následující příkaz:

aws s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/

In Efektivní průběžné předběžné školení pro vytváření velkých jazykových modelů specifických pro doménu, autoři používají přístup založený na adresách URL a klíčových slovech k filtrování článků finančních zpráv od obecných zpráv. Konkrétně autoři udržují seznam důležitých finančních zpráv a sadu klíčových slov souvisejících s finančními zprávami. Článek identifikujeme jako finanční zprávy, pokud pochází z finančních zpravodajských serverů nebo se v adrese URL objeví nějaká klíčová slova. Tento jednoduchý, ale účinný přístup vám umožňuje identifikovat finanční zprávy nejen z finančních zpravodajských kanálů, ale také z finančních sekcí obecných zpravodajských kanálů.

Záznamy SEC jsou dostupné online prostřednictvím databáze EDGAR (Electronic Data Gathering, Analysis, and Retrieval), která poskytuje otevřený přístup k datům. Můžete seškrábat soubory z EDGAR přímo nebo použít API Amazon SageMaker s několika řádky kódu, pro jakékoli časové období a pro velký počet tickerů (tj. identifikátor přiřazený SEC). Chcete-li se dozvědět více, viz SEC načítání souborů.

Následující tabulka shrnuje klíčové detaily obou zdrojů dat.

. Novinky CommonCrawl SEC podání
Krytí 2016-2022 1993-2022
Velikost 25.8 miliard slov 5.1 miliard slov

Před vložením dat do trénovacího algoritmu autoři provedou několik dalších kroků předběžného zpracování. Za prvé, pozorujeme, že SEC záznamy obsahují hlučný text kvůli odstranění tabulek a obrázků, takže autoři odstraňují krátké věty, které jsou považovány za štítky tabulek nebo obrázků. Za druhé, použijeme hašovací algoritmus citlivý na lokalitu, abychom deduplikovali nové články a záznamy. U podání SEC provádíme deduplikaci na úrovni sekce místo na úrovni dokumentu. Nakonec zřetězíme dokumenty do dlouhého řetězce, tokenizujeme jej a rozdělíme tokenizaci na kusy o maximální vstupní délce podporované modelem, který má být trénován. To zlepšuje propustnost kontinuálního předškolení a snižuje náklady na školení.

Kontinuální předtrénink vs. dolaďování

Většina dostupných LLM je univerzální a postrádají schopnosti specifické pro doménu. Doménové LLM prokázaly značný výkon v lékařské, finanční nebo vědecké oblasti. Aby LLM získal znalosti specifické pro doménu, existují čtyři metody: školení od nuly, kontinuální předškolení, dolaďování instrukcí na doménových úkolech a Retrieval Augmented Generation (RAG).

V tradičních modelech se jemné ladění obvykle používá k vytvoření modelů specifických pro úlohu pro doménu. To znamená udržovat více modelů pro různé úkoly, jako je extrakce entit, klasifikace záměrů, analýza sentimentu nebo zodpovězení otázek. S příchodem LLM se potřeba udržovat oddělené modely stala zastaralou pomocí technik, jako je učení v kontextu nebo nabádání. To šetří úsilí potřebné k udržování zásobníku modelů pro související, ale odlišné úkoly.

Intuitivně můžete trénovat LLM od nuly s daty pro konkrétní doménu. Přestože se většina práce na vytvoření doménových LLM soustředila na školení od nuly, je to neúměrně drahé. Například stojí model GPT-4 přes $ 100 milionů trénovat. Tyto modely jsou trénovány na kombinaci dat otevřené domény a dat domény. Neustálé předškolení může pomoci modelům získat znalosti specifické pro doménu, aniž by vznikaly náklady na předškolení od nuly, protože existující LLM otevřené domény předškolíte pouze na datech domény.

Pomocí jemného ladění instrukcí na úloze nemůžete přimět model, aby získal znalosti domény, protože LLM získává pouze informace o doméně obsažené v datové sadě pro jemné ladění instrukcí. Pokud není pro dolaďování instrukcí použita velmi velká datová sada, nestačí získat znalosti domény. Získávání vysoce kvalitních instrukčních datových sad je obvykle náročné a je důvodem pro použití LLM na prvním místě. Jemné doladění instrukcí u jednoho úkolu může také ovlivnit výkon u jiných úkolů (jak je vidět v tento článek). Doladění výuky je však nákladově efektivnější než kterákoli z alternativ před školením.

Následující obrázek porovnává tradiční jemné doladění specifické pro úlohu. versus paradigma učení v kontextu s LLM.

RAG je nejúčinnějším způsobem vedení LLM ke generování odpovědí založených na doméně. I když může vést model k generování odpovědí poskytnutím faktů z domény jako pomocných informací, nezíská doménově specifický jazyk, protože LLM se při generování odpovědí stále spoléhá na nedoménový jazykový styl.

Kontinuální přípravné školení je střední cestou mezi přípravným školením a dolaďováním výuky z hlediska nákladů, přičemž je silnou alternativou k získávání znalostí a stylu specifického pro doménu. Může poskytnout obecný model, na kterém lze provádět další dolaďování instrukcí na omezených datech instrukcí. Kontinuální předškolení může být nákladově efektivní strategií pro specializované domény, kde je soubor následných úloh velký nebo neznámý a kde jsou značená data ladění instrukcí omezená. V jiných scénářích může být vhodnější jemné doladění instrukcí nebo RAG.

Chcete-li se dozvědět více o jemném ladění, RAG a modelovém školení, viz Dolaďte model základů, Retrieval Augmented Generation (RAG), a Trénujte modelku s Amazon SageMaker, resp. V tomto příspěvku se zaměřujeme na efektivní kontinuální předtrénink.

Metodika efektivního průběžného předškolení

Kontinuální předškolní příprava se skládá z následující metodiky:

  • Domain-Adaptive Continual Pre-training (DACP) – V novinách Efektivní průběžné předběžné školení pro vytváření velkých jazykových modelů specifických pro doménu, autoři neustále předškolují sadu jazykových modelů Pythia na finančním korpusu, aby ji přizpůsobili finanční doméně. Cílem je vytvořit finanční LLM vložením dat z celé finanční domény do modelu s otevřeným zdrojovým kódem. Protože trénovací korpus obsahuje všechny kurátorské datové sady v doméně, měl by výsledný model získat znalosti specifické pro finance, čímž by se stal univerzálním modelem pro různé finanční úkoly. Výsledkem jsou modely FinPythia.
  • Úkolově adaptivní průběžné předškolení (TACP) – Autoři dále předtrénují modely na označených a neoznačených datech úkolů, aby je přizpůsobili konkrétním úkolům. Za určitých okolností mohou vývojáři upřednostňovat modely poskytující lepší výkon u skupiny úloh v rámci domény před obecným modelem domény. TACP je navržen jako průběžné předškolení, jehož cílem je zvýšit výkon při cílených úkolech, bez požadavků na označené údaje. Konkrétně autoři neustále předtrénují modely s otevřeným zdrojovým kódem na žetonech úkolů (bez štítků). Primární omezení TACP spočívá v konstrukci LLM specifických pro daný úkol namísto základních LLM, a to kvůli výhradnímu použití neoznačených dat úkolu pro školení. Ačkoli DACP používá mnohem větší korpus, je neúměrně drahý. Aby autoři vyvážili tato omezení, navrhují dva přístupy, jejichž cílem je vybudovat základní LLM specifické pro doménu při zachování vynikajícího výkonu u cílových úkolů:
  • Efektivní úkol – podobný DACP (ETS-DACP) – Autoři navrhují vybrat podmnožinu finančního korpusu, který je velmi podobný datům úkolu pomocí podobnosti vkládání. Tato podmnožina se používá pro kontinuální předtrénink, aby byla efektivnější. Konkrétně autoři neustále předškolují open source LLM na malém korpusu extrahovaném z finančního korpusu, který je blízko cílovým úkolům v distribuci. To může pomoci zlepšit výkon úkolů, protože tento model přebíráme na distribuci tokenů úkolů, přestože nejsou vyžadována označená data.
  • Efficient Task-Agnostic DACP (ETA-DACP) – Autoři navrhují použití metrik, jako je perplexita a entropie typu tokenu, které nevyžadují data úkolu k výběru vzorků z finančního korpusu pro efektivní průběžné předškolení. Tento přístup je navržen tak, aby se vypořádal se scénáři, kdy nejsou k dispozici data úlohy nebo jsou preferovány všestrannější doménové modely pro širší doménu. Autoři přijímají dvě dimenze pro výběr datových vzorků, které jsou důležité pro získání doménových informací z podmnožiny doménových dat před tréninkem: novost a rozmanitost. Novost, měřená zmateností zaznamenanou cílovým modelem, se vztahuje k informacím, které LLM dříve neviděly. Data s vysokou novostí naznačují nové znalosti pro LLM a taková data jsou považována za obtížněji zjistitelná. Toto aktualizuje generické LLM s intenzivní znalostí domény během kontinuálního předškolení. Diverzita na druhé straně zachycuje různorodost distribucí typů tokenů v doménovém korpusu, což bylo zdokumentováno jako užitečná vlastnost ve výzkumu učení kurikula na jazykovém modelování.

Následující obrázek porovnává příklad ETS-DACP (vlevo) vs. ETA-DACP (vpravo).

Přijímáme dvě schémata vzorkování pro aktivní výběr datových bodů z kurátorského finančního korpusu: tvrdé vzorkování a měkké vzorkování. První se provádí tak, že nejprve seřadíte finanční korpus podle odpovídajících metrik a poté vyberete nejlepších k vzorků, kde k je předem určeno podle rozpočtu školení. V druhém případě autoři přiřadí výběrové váhy pro každý datový bod podle metrických hodnot a poté náhodně odeberou k datových bodů, aby splnili rozpočet školení.

Výsledek a analýza

Autoři hodnotí výsledné finanční LLM na řadě finančních úkolů, aby prozkoumali účinnost kontinuálního předškolení:

  • Banka finančních frází – Úkol klasifikace sentimentu ve finančních zprávách.
  • FiQA SA – Úkol klasifikace sentimentu založený na aspektech na základě finančních zpráv a titulků.
  • Titulek – Binární klasifikační úkol, zda titulek finanční jednotky obsahuje určité informace.
  • NER – Úkol extrahování finančních pojmenovaných subjektů na základě části zpráv SEC o hodnocení úvěrového rizika. Slova v této úloze jsou anotována pomocí PER, LOC, ORG a MISC.

Vzhledem k tomu, že finanční LLM jsou vyladěné na instrukce, autoři z důvodu robustnosti vyhodnocují modely v nastavení 5 snímků pro každý úkol. V průměru FinPythia 6.9B překonává Pythia 6.9B o 10 % ve čtyřech úkolech, což dokazuje účinnost doménově specifického kontinuálního předtréninku. U modelu 1B je zlepšení méně výrazné, ale výkon se stále zlepšuje v průměru o 2 %.

Následující obrázek ilustruje rozdíl ve výkonu před a po DACP u obou modelů.

Následující obrázek ukazuje dva kvalitativní příklady generované Pythia 6.9B a FinPythia 6.9B. U dvou otázek souvisejících s financemi, které se týkají manažera investora a finanční podmínky, Pythia 6.9B nerozumí termínu ani nerozpozná jméno, zatímco FinPythia 6.9B generuje podrobné odpovědi správně. Kvalitativní příklady ukazují, že kontinuální předškolení umožňuje LLM získat znalosti domény během procesu.

Následující tabulka porovnává různé účinné kontinuální předtréninkové přístupy. ETA-DACP-ppl je ETA-DACP založený na perplexnosti (novinka) a ETA-DACP-ent je založen na entropii (diverzitě). ETS-DACP-com je podobný DACP s výběrem dat průměrováním všech tří metrik. Následuje několik postřehů z výsledků:

  • Metody výběru dat jsou efektivní – Překonají standardní kontinuální předtrénink s pouhými 10 % tréninkových dat. Efektivní průběžné předškolení včetně Task-Similar DACP (ETS-DACP), Task-Agnostic DACP založené na entropii (ESA-DACP-ent) a Task-Similar DACP založené na všech třech metrikách (ETS-DACP-com) překonává standardní DACP v průměru i přesto, že jsou proškoleni pouze na 10 % finančního korpusu.
  • Výběr dat podle úkolů funguje nejlépe v souladu s výzkumem malých jazykových modelů – ETS-DACP zaznamenává nejlepší průměrný výkon ze všech metod a na základě všech tří metrik zaznamenává druhý nejlepší výkon úkolu. To naznačuje, že použití neoznačených dat úkolů je stále účinným přístupem ke zvýšení výkonu úkolů v případě LLM.
  • Na druhém místě je výběr dat agnostických úloh – ESA-DACP-ent sleduje výkon přístupu k výběru dat podle úkolu, z čehož vyplývá, že stále můžeme zvýšit výkon úkolu aktivním výběrem vysoce kvalitních vzorků, které nejsou vázány na konkrétní úkoly. To dláždí cestu k budování finančních LLM pro celou doménu při dosahování vynikajícího výkonu úkolů.

Jednou kritickou otázkou týkající se kontinuálního předškolení je, zda negativně ovlivňuje výkon v nedoménových úkolech. Autoři také vyhodnocují průběžně předtrénovaný model na čtyřech široce používaných generických úlohách: ARC, MMLU, TruthQA a HellaSwag, které měří schopnost odpovědi na otázky, uvažování a dokončení. Autoři zjistili, že kontinuální předtrénování neovlivňuje nepříznivě výkon mimo doménu. Další podrobnosti viz Efektivní průběžné předběžné školení pro vytváření velkých jazykových modelů specifických pro doménu.

Proč investovat do čističky vzduchu?

Tento příspěvek nabídl pohled na shromažďování dat a kontinuální předškolní strategie pro školení LLM pro finanční oblast. Můžete začít trénovat své vlastní LLM pro finanční úkoly pomocí Školení Amazon SageMaker or Amazonské podloží dnes.


Informace o autorech

Yong Xie je aplikovaný vědec v Amazon FinTech. Zaměřuje se na vývoj velkých jazykových modelů a generativních aplikací AI pro finance.

Karan Aggarwal je Senior Applied Scientist s Amazon FinTech se zaměřením na generativní AI pro finanční případy použití. Karan má rozsáhlé zkušenosti s analýzou časových řad a NLP se zvláštním zájmem učit se z omezených označených dat

Aitzaz Ahmad je manažerem aplikované vědy ve společnosti Amazon, kde vede tým vědců vytvářejících různé aplikace strojového učení a generativní umělé inteligence ve financích. Jeho výzkumné zájmy jsou NLP, generativní AI a LLM Agents. Získal doktorát z elektrotechniky na Texas A&M University.

Qingwei Li je specialistou na strojové učení ve společnosti Amazon Web Services. Získal titul Ph.D. v operačním výzkumu poté, co zlomil účet výzkumného grantu svého poradce a nedodal Nobelovu cenu, kterou slíbil. V současné době pomáhá zákazníkům ve finančních službách budovat řešení strojového učení na AWS.

Raghvender Arni vede Customer Acceleration Team (CAT) v rámci AWS Industries. CAT je globální mezifunkční tým cloudových architektů, softwarových inženýrů, datových vědců a odborníků na AI/ML, který podporuje inovace prostřednictvím pokročilého prototypování a podporuje provozní dokonalost cloudu prostřednictvím specializovaných technických znalostí.

spot_img

Nejnovější inteligence

spot_img

piš si s námi

Ahoj! Jak vám mohu pomoci?