Effiziente kontinuierliche Vorschulung von LLMs für Finanzbereiche | Amazon Web Services

Große Sprachmodelle (LLMs) werden im Allgemeinen auf großen öffentlich verfügbaren Datensätzen trainiert, die domänenunabhängig sind. Zum Beispiel, Metas Lama Modelle werden anhand von Datensätzen trainiert, z CommonCrawl, C4, Wikipedia und ArXiv. Diese Datensätze umfassen ein breites Spektrum an Themen und Domänen. Obwohl die resultierenden Modelle erstaunlich gute Ergebnisse für allgemeine Aufgaben wie Textgenerierung und Entitätserkennung liefern, gibt es Hinweise darauf, dass mit domänenspezifischen Datensätzen trainierte Modelle die LLM-Leistung weiter verbessern können. Zum Beispiel die Trainingsdaten, die für verwendet werden BloombergGPT besteht zu 51 % aus domänenspezifischen Dokumenten, darunter Finanznachrichten, Unterlagen und andere Finanzmaterialien. Das resultierende LLM übertrifft LLMs, die auf nicht-domänenspezifischen Datensätzen trainiert wurden, wenn es an finanzspezifischen Aufgaben getestet wurde. Die Autoren von BloombergGPT kamen zu dem Schluss, dass ihr Modell alle anderen getesteten Modelle für vier der fünf Finanzaufgaben übertrifft. Beim Test für Bloombergs interne Finanzaufgaben lieferte das Modell sogar eine deutlich bessere Leistung – bis zu 60 Punkte (von 100). Mehr zu den umfassenden Auswertungsergebnissen erfahren Sie im Krepppapier, das folgende Beispiel, aufgenommen aus dem BloombergGPT Das Papier kann Ihnen einen Einblick in die Vorteile der Schulung von LLMs mithilfe finanzdomänenspezifischer Daten geben. Wie im Beispiel gezeigt, lieferte das BloombergGPT-Modell korrekte Antworten, während andere nicht domänenspezifische Modelle Schwierigkeiten hatten:

Input: CEO of Assicurazioni Generali?
BloombergGPT: Philippe Donnet
GPT-NeoX: Antonio De Lorenzo, Simone Gambarini, Enrico Zanetti
FLAN-T5-XXL: John M Forsyth, Christopher K Peters, {empty string}

Input: CEO of Silicon Valley Bank?
BloombergGPT: Greg Becker
GPT-NeoX: John Hodor, Mike Fridgen, Peter R Briger
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth

Input: CEO of IHS Markit Ltd?
BloombergGPT: Lance Uggla
GPT-NeoX: John F Lechleiter, David Steward, Niall O Broin
FLAN-T5-XXL: William M Hawkins, John M Forsyth, John M Forsyth
Input: CEO of Walgreens Boots Alliance?

BloombergGPT: Rosalind Brewer
GPT-NeoX: Mark V Dei, Stefano Pessina, Stefano Pessina
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth
Input: CEO of Citigroup Inc?

BloombergGPT: Jane Fraser
GPT-NeoX: Michael L Corbat, Michael L Corbat, Michael L Corbat
FLAN-T5-XXL: Christian Sewing, John M Forsyth, John M Forsyth

Dieser Beitrag bietet einen Leitfaden zur Schulung von LLMs speziell für den Finanzbereich. Wir decken folgende Kernbereiche ab:

Datenerhebung und -aufbereitung – Anleitung zur Beschaffung und Kuratierung relevanter Finanzdaten für ein effektives Modelltraining
Kontinuierliches Vortraining vs. Feinabstimmung – Wann Sie die einzelnen Techniken einsetzen sollten, um die Leistung Ihres LLM zu optimieren
Effizientes kontinuierliches Vortraining – Strategien zur Optimierung des kontinuierlichen Vorschulungsprozesses, wodurch Zeit und Ressourcen gespart werden

Dieser Beitrag vereint die Expertise des Forschungsteams für angewandte Wissenschaft innerhalb von Amazon Finance Technology und des AWS Worldwide Specialist-Teams für die globale Finanzindustrie. Ein Teil des Inhalts basiert auf dem Papier Effizientes kontinuierliches Vortraining zum Aufbau domänenspezifischer großer Sprachmodelle.

Sammeln und Aufbereiten von Finanzdaten

Für das kontinuierliche Vortraining der Domäne ist ein umfangreicher, qualitativ hochwertiger, domänenspezifischer Datensatz erforderlich. Im Folgenden sind die Hauptschritte für die Kuratierung von Domänendatensätzen aufgeführt:

Identifizieren Sie Datenquellen – Zu den potenziellen Datenquellen für den Domain-Korpus gehören das offene Web, Wikipedia, Bücher, soziale Medien und interne Dokumente.
Domänendatenfilter – Da das ultimative Ziel darin besteht, den Domänenkorpus zu kuratieren, müssen Sie möglicherweise zusätzliche Schritte anwenden, um Beispiele herauszufiltern, die für die Zieldomäne irrelevant sind. Dadurch wird unnötiger Korpus für kontinuierliches Vortraining reduziert und die Schulungskosten gesenkt.
Anarbeitung – Sie könnten eine Reihe von Vorverarbeitungsschritten in Betracht ziehen, um die Datenqualität und Trainingseffizienz zu verbessern. Bestimmte Datenquellen können beispielsweise eine ganze Reihe verrauschter Token enthalten; Deduplizierung gilt als nützlicher Schritt zur Verbesserung der Datenqualität und zur Reduzierung der Schulungskosten.

Für die Entwicklung finanzieller LLMs können Sie zwei wichtige Datenquellen nutzen: News CommonCrawl und SEC-Einreichungen. Bei einer SEC-Einreichung handelt es sich um einen Finanzbericht oder ein anderes formelles Dokument, das bei der US-Börsenaufsicht SEC (Securities and Exchange Commission) eingereicht wird. Börsennotierte Unternehmen sind verpflichtet, regelmäßig verschiedene Dokumente einzureichen. Dadurch entsteht im Laufe der Jahre eine große Anzahl an Dokumenten. News CommonCrawl ist ein 2016 von CommonCrawl veröffentlichter Datensatz. Er enthält Nachrichtenartikel von Nachrichtenseiten auf der ganzen Welt.

Neuigkeiten CommonCrawl ist verfügbar unter Amazon Simple Storage-Service (Amazon S3) im commoncrawl Eimer bei crawl-data/CC-NEWS/. Sie können die Dateilisten mit dem abrufen AWS-Befehlszeilenschnittstelle (AWS CLI) und den folgenden Befehl:

aws s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/

In Effizientes kontinuierliches Vortraining zum Aufbau domänenspezifischer großer Sprachmodelleverwenden die Autoren einen URL- und Schlüsselwort-basierten Ansatz, um Finanznachrichtenartikel aus generischen Nachrichten herauszufiltern. Insbesondere führen die Autoren eine Liste wichtiger Finanznachrichtenagenturen und eine Reihe von Schlüsselwörtern im Zusammenhang mit Finanznachrichten. Wir identifizieren einen Artikel als Finanznachrichten, wenn er entweder von Finanznachrichtenagenturen stammt oder Schlüsselwörter in der URL auftauchen. Dieser einfache, aber effektive Ansatz ermöglicht es Ihnen, Finanznachrichten nicht nur von Finanznachrichtenagenturen, sondern auch von Finanzabteilungen allgemeiner Nachrichtenagenturen zu identifizieren.

SEC-Einreichungen sind online über die EDGAR-Datenbank (Electronic Data Gathering, Analysis, and Retrieval) der SEC verfügbar, die offenen Datenzugriff bietet. Sie können die Einreichungen direkt von EDGAR extrahieren oder APIs darin verwenden Amazon Sage Maker mit wenigen Codezeilen, für einen beliebigen Zeitraum und für eine große Anzahl von Tickern (d. h. die von der SEC zugewiesene Kennung). Weitere Informationen finden Sie unter Abruf der SEC-Einreichung.

Die folgende Tabelle fasst die wichtigsten Details beider Datenquellen zusammen.

.	Nachrichten CommonCrawl	SEC-Einreichung
Abdeckung	2016-2022	1993-2022
Größe	25.8 Milliarden Wörter	5.1 Milliarden Wörter

Die Autoren durchlaufen einige zusätzliche Vorverarbeitungsschritte, bevor die Daten in einen Trainingsalgorithmus eingespeist werden. Erstens stellen wir fest, dass SEC-Einreichungen aufgrund der Entfernung von Tabellen und Abbildungen verrauschten Text enthalten. Daher entfernen die Autoren kurze Sätze, die als Tabellen- oder Abbildungsbezeichnungen gelten. Zweitens wenden wir einen ortsabhängigen Hashing-Algorithmus an, um die neuen Artikel und Einreichungen zu deduplizieren. Bei SEC-Anmeldungen deduplizieren wir auf Abschnittsebene statt auf Dokumentebene. Schließlich verketten wir Dokumente zu einer langen Zeichenfolge, tokenisieren sie und unterteilen die Tokenisierung in Teile mit der maximalen Eingabelänge, die vom zu trainierenden Modell unterstützt wird. Dies verbessert den Durchsatz des kontinuierlichen Vortrainings und reduziert die Schulungskosten.

Kontinuierliches Vortraining vs. Feinabstimmung

Die meisten verfügbaren LLMs sind universell einsetzbar und verfügen nicht über domänenspezifische Fähigkeiten. Domain-LLMs haben in medizinischen, finanziellen oder wissenschaftlichen Bereichen beachtliche Leistungen gezeigt. Damit ein LLM domänenspezifisches Wissen erwerben kann, gibt es vier Methoden: Training von Grund auf, kontinuierliches Vortraining, Feinabstimmung der Anweisungen auf Domänenaufgaben und Retrieval Augmented Generation (RAG).

In traditionellen Modellen wird die Feinabstimmung normalerweise verwendet, um aufgabenspezifische Modelle für eine Domäne zu erstellen. Dies bedeutet die Pflege mehrerer Modelle für mehrere Aufgaben wie Entitätsextraktion, Absichtsklassifizierung, Stimmungsanalyse oder Beantwortung von Fragen. Mit dem Aufkommen von LLMs ist die Notwendigkeit, separate Modelle zu pflegen, durch den Einsatz von Techniken wie kontextbezogenem Lernen oder Eingabeaufforderungen überflüssig geworden. Dadurch wird der Aufwand eingespart, der für die Verwaltung eines Stapels von Modellen für verwandte, aber unterschiedliche Aufgaben erforderlich ist.

Intuitiv können Sie LLMs von Grund auf mit domänenspezifischen Daten trainieren. Obwohl sich der Großteil der Arbeit zur Erstellung von Domänen-LLMs auf das Training von Grund auf konzentrierte, ist dies unerschwinglich teuer. Beispielsweise kostet das GPT-4-Modell über $ 100 Millionen trainieren. Diese Modelle werden auf einer Mischung aus offenen Domänendaten und Domänendaten trainiert. Kontinuierliches Vortraining kann Modellen dabei helfen, sich domänenspezifisches Wissen anzueignen, ohne dass die Kosten für das Vortraining von Grund auf anfallen, da Sie ein vorhandenes offenes Domänen-LLM nur anhand der Domänendaten vorab trainieren.

Bei der Feinabstimmung von Anweisungen für eine Aufgabe können Sie das Modell nicht dazu bringen, Domänenwissen zu erwerben, da der LLM nur Domäneninformationen erfasst, die im Datensatz zur Feinabstimmung der Anweisungen enthalten sind. Sofern kein sehr großer Datensatz zur Feinabstimmung der Anweisungen verwendet wird, reicht es nicht aus, Domänenwissen zu erwerben. Die Beschaffung qualitativ hochwertiger Unterrichtsdatensätze stellt in der Regel eine Herausforderung dar und ist in erster Linie der Grund für den Einsatz von LLMs. Außerdem kann sich die Feinabstimmung der Anweisungen bei einer Aufgabe auf die Leistung bei anderen Aufgaben auswirken (wie in gezeigt). Dieses Papier). Die Feinabstimmung des Unterrichts ist jedoch kostengünstiger als jede der Alternativen vor dem Training.

Die folgende Abbildung vergleicht die traditionelle aufgabenspezifische Feinabstimmung. vs. kontextbezogenes Lernparadigma mit LLMs.

RAG ist der effektivste Weg, ein LLM dabei zu unterstützen, domänenbasierte Antworten zu generieren. Obwohl es ein Modell bei der Generierung von Antworten anleiten kann, indem es Fakten aus der Domäne als Hilfsinformationen bereitstellt, erwirbt es nicht die domänenspezifische Sprache, da das LLM immer noch auf nicht-domänensprachlichen Stilen zur Generierung der Antworten basiert.

Kontinuierliche Vorschulung ist im Hinblick auf die Kosten ein Mittelweg zwischen Vorschulung und Feinabstimmung des Unterrichts und gleichzeitig eine starke Alternative zum Erwerb domänenspezifischer Kenntnisse und Stile. Es kann ein allgemeines Modell bereitstellen, über das eine weitere Befehlsfeinabstimmung für begrenzte Befehlsdaten durchgeführt werden kann. Kontinuierliches Vortraining kann eine kostengünstige Strategie für spezialisierte Bereiche sein, in denen die Anzahl der nachgelagerten Aufgaben umfangreich oder unbekannt ist und die gekennzeichneten Daten zur Befehlsoptimierung begrenzt sind. In anderen Szenarien könnten eine Feinabstimmung der Anweisungen oder RAG besser geeignet sein.

Weitere Informationen zu Feinabstimmung, RAG und Modelltraining finden Sie unter Feinabstimmung eines Fundamentmodells, Retrieval Augmented Generation (RAG) und Trainieren Sie ein Modell mit Amazon SageMaker, jeweils. In diesem Beitrag konzentrieren wir uns auf ein effizientes, kontinuierliches Vortraining.

Methodik einer effizienten kontinuierlichen Vorschulung

Die kontinuierliche Vorschulung besteht aus der folgenden Methodik:

Domain-Adaptive Continual Pre-Training (DACP) - In der Zeitung Effizientes kontinuierliches Vortraining zum Aufbau domänenspezifischer großer Sprachmodelle, trainieren die Autoren die Pythia-Sprachmodellsuite kontinuierlich auf dem Finanzkorpus vor, um sie an den Finanzbereich anzupassen. Das Ziel besteht darin, Finanz-LLMs zu schaffen, indem Daten aus dem gesamten Finanzbereich in ein Open-Source-Modell eingespeist werden. Da der Trainingskorpus alle kuratierten Datensätze in der Domäne enthält, sollte das resultierende Modell finanzspezifisches Wissen erwerben und so zu einem vielseitigen Modell für verschiedene Finanzaufgaben werden. Daraus resultieren FinPythia-Modelle.
Aufgabenadaptives kontinuierliches Vortraining (TACP) – Die Autoren trainieren die Modelle vorab anhand gekennzeichneter und unbeschrifteter Aufgabendaten, um sie an bestimmte Aufgaben anzupassen. Unter bestimmten Umständen bevorzugen Entwickler möglicherweise Modelle, die bei einer Gruppe von domäneninternen Aufgaben eine bessere Leistung liefern, anstelle eines domänengenerischen Modells. TACP ist als kontinuierliches Vortraining konzipiert, das darauf abzielt, die Leistung bei bestimmten Aufgaben zu verbessern, ohne dass gekennzeichnete Daten erforderlich sind. Insbesondere trainieren die Autoren die Open-Source-Modelle kontinuierlich vorab auf den Aufgaben-Tokens (ohne Labels). Die Hauptbeschränkung von TACP liegt in der Erstellung aufgabenspezifischer LLMs anstelle von Basis-LLMs, da für das Training ausschließlich unbeschriftete Aufgabendaten verwendet werden. Obwohl DACP einen viel größeren Korpus verwendet, ist es unerschwinglich teuer. Um diese Einschränkungen auszugleichen, schlagen die Autoren zwei Ansätze vor, die darauf abzielen, domänenspezifische Basis-LLMs zu erstellen und gleichzeitig eine überlegene Leistung bei Zielaufgaben zu bewahren:

Effizientes aufgabenähnliches DACP (ETS-DACP) – Die Autoren schlagen vor, mithilfe der Einbettungsähnlichkeit eine Teilmenge des Finanzkorpus auszuwählen, die den Aufgabendaten sehr ähnlich ist. Diese Teilmenge wird für das kontinuierliche Vortraining verwendet, um es effizienter zu machen. Insbesondere trainieren die Autoren das Open-Source-LLM kontinuierlich vorab auf einem kleinen Korpus, der aus dem Finanzkorpus extrahiert wird und den Zielaufgaben in der Verteilung nahe kommt. Dies kann dazu beitragen, die Aufgabenleistung zu verbessern, da wir das Modell an die Verteilung von Aufgabentokens anpassen, obwohl keine gekennzeichneten Daten erforderlich sind.
Effizientes aufgabenunabhängiges DACP (ETA-DACP) – Die Autoren schlagen vor, Metriken wie Perplexität und Token-Typ-Entropie zu verwenden, die keine Aufgabendaten erfordern, um Stichproben aus dem Finanzkorpus für ein effizientes kontinuierliches Vortraining auszuwählen. Dieser Ansatz ist für den Umgang mit Szenarien konzipiert, in denen Aufgabendaten nicht verfügbar sind oder vielseitigere Domänenmodelle für die breitere Domäne bevorzugt werden. Die Autoren verwenden zwei Dimensionen, um Datenproben auszuwählen, die für die Gewinnung von Domäneninformationen aus einer Teilmenge von Domänendaten vor dem Training wichtig sind: Neuheit und Vielfalt. Neuheit, gemessen an der vom Zielmodell aufgezeichneten Verwirrung, bezieht sich auf die Informationen, die das LLM zuvor nicht gesehen hat. Daten mit hoher Neuheit weisen auf neuartiges Wissen für das LLM hin und gelten als schwieriger zu erlernen. Dadurch werden generische LLMs während der kontinuierlichen Vorschulung mit intensivem Domänenwissen aktualisiert. Diversität hingegen erfasst die Vielfalt der Verteilungen von Token-Typen im Domänenkorpus, was sich als nützliches Merkmal in der Forschung zum Lehrplanlernen zur Sprachmodellierung dokumentiert hat.

Die folgende Abbildung vergleicht ein Beispiel von ETS-DACP (links) mit ETA-DACP (rechts).

Wir wenden zwei Stichprobenverfahren an, um Datenpunkte aus kuratierten Finanzkorpus aktiv auszuwählen: Hard Sampling und Soft Sampling. Ersteres geschieht, indem zunächst der Finanzkorpus nach entsprechenden Metriken geordnet wird und dann die Top-k-Stichproben ausgewählt werden, wobei k entsprechend dem Schulungsbudget vorbestimmt ist. Für Letzteres weisen die Autoren Stichprobengewichte für jeden Datenpunkt entsprechend den Metrikwerten zu und stichproben dann nach dem Zufallsprinzip k Datenpunkte ab, um das Trainingsbudget einzuhalten.

Ergebnis und Analyse

Die Autoren bewerten die resultierenden finanziellen LLMs anhand einer Reihe von Finanzaufgaben, um die Wirksamkeit einer kontinuierlichen Vorschulung zu untersuchen:

Bank für Finanzphrasen – Eine Aufgabe zur Stimmungsklassifizierung von Finanznachrichten.
FiQA SA – Eine aspektbasierte Stimmungsklassifizierungsaufgabe basierend auf Finanznachrichten und Schlagzeilen.
Schlagzeile – Eine binäre Klassifizierungsaufgabe dazu, ob eine Schlagzeile zu einem Finanzunternehmen bestimmte Informationen enthält.
NER – Eine Aufgabe zur Extraktion benannter Finanzunternehmen basierend auf dem Abschnitt zur Kreditrisikobewertung in SEC-Berichten. Wörter in dieser Aufgabe sind mit PER, LOC, ORG und MISC versehen.

Da Finanz-LLMs auf den Unterricht abgestimmt sind, bewerten die Autoren die Modelle aus Gründen der Robustheit in einer 5-Schuss-Einstellung für jede Aufgabe. Im Durchschnitt übertrifft FinPythia 6.9B Pythia 6.9B bei vier Aufgaben um 10 %, was die Wirksamkeit des domänenspezifischen kontinuierlichen Vortrainings demonstriert. Beim 1B-Modell ist die Verbesserung weniger tiefgreifend, aber die Leistung verbessert sich immer noch um durchschnittlich 2 %.

Die folgende Abbildung veranschaulicht den Leistungsunterschied vor und nach DACP bei beiden Modellen.

Die folgende Abbildung zeigt zwei qualitative Beispiele, die von Pythia 6.9B und FinPythia 6.9B generiert wurden. Bei zwei finanzbezogenen Fragen zu einem Anlegermanager und einem Finanzbegriff versteht Pythia 6.9B den Begriff nicht oder erkennt den Namen nicht, während FinPythia 6.9B detaillierte Antworten korrekt generiert. Die qualitativen Beispiele zeigen, dass eine kontinuierliche Vorschulung es den LLMs ermöglicht, sich während des Prozesses Domänenwissen anzueignen.

In der folgenden Tabelle werden verschiedene effiziente, kontinuierliche Pre-Training-Ansätze verglichen. ETA-DACP-ppl ist ETA-DACP, das auf Perplexität (Neuheit) basiert, und ETA-DACP-ent basiert auf Entropie (Diversität). ETS-DACP-com ähnelt DACP mit der Datenauswahl durch Mittelung aller drei Metriken. Im Folgenden einige Erkenntnisse aus den Ergebnissen:

Datenauswahlmethoden sind effizient – Sie übertreffen das standardmäßige kontinuierliche Vortraining mit nur 10 % der Trainingsdaten. Effizientes kontinuierliches Vortraining einschließlich Task-Similar DACP (ETS-DACP), Task-Agnostic DACP basierend auf Entropie (ESA-DACP-ent) und Task-Similar DACP basierend auf allen drei Metriken (ETS-DACP-com) übertrifft Standard-DACP im Durchschnitt, obwohl sie nur für 10 % des Finanzkorpus geschult sind.
Die aufgabenbezogene Datenauswahl funktioniert im Einklang mit der Forschung zu kleinen Sprachmodellen am besten – ETS-DACP zeichnet die beste durchschnittliche Leistung aller Methoden auf und zeichnet, basierend auf allen drei Metriken, die zweitbeste Aufgabenleistung auf. Dies deutet darauf hin, dass die Verwendung unbeschrifteter Aufgabendaten immer noch ein wirksamer Ansatz zur Steigerung der Aufgabenleistung im Fall von LLMs ist.
An zweiter Stelle folgt die aufgabenunabhängige Datenauswahl – ESA-DACP-ent folgt der Leistung des aufgabenbewussten Datenauswahlansatzes, was bedeutet, dass wir die Aufgabenleistung noch steigern könnten, indem wir aktiv qualitativ hochwertige Stichproben auswählen, die nicht an bestimmte Aufgaben gebunden sind. Dies ebnet den Weg, finanzielle LLMs für den gesamten Bereich zu erstellen und gleichzeitig eine überlegene Aufgabenleistung zu erzielen.

Eine entscheidende Frage in Bezug auf kontinuierliches Vortraining ist, ob es sich negativ auf die Leistung bei Nicht-Domänenaufgaben auswirkt. Die Autoren bewerten das kontinuierlich vorab trainierte Modell auch anhand von vier weit verbreiteten generischen Aufgaben: ARC, MMLU, TruthQA und HellaSwag, die die Fähigkeit zur Beantwortung, Begründung und Vervollständigung von Fragen messen. Die Autoren kommen zu dem Schluss, dass sich kontinuierliches Vortraining nicht negativ auf die Leistung außerhalb der Domäne auswirkt. Weitere Einzelheiten finden Sie unter Effizientes kontinuierliches Vortraining zum Aufbau domänenspezifischer großer Sprachmodelle.

Zusammenfassung

Dieser Beitrag bot Einblicke in die Datenerfassung und kontinuierliche Pre-Training-Strategien für die Ausbildung von LLMs für den Finanzbereich. Sie können damit beginnen, Ihre eigenen LLMs für Finanzaufgaben zu trainieren Amazon SageMaker-Schulung or Amazonas Grundgestein heute.

Über die Autoren

Yong Xie ist angewandter Wissenschaftler bei Amazon FinTech. Sein Schwerpunkt liegt auf der Entwicklung großer Sprachmodelle und generativer KI-Anwendungen für das Finanzwesen.

Karan Aggarwal ist Senior Applied Scientist bei Amazon FinTech mit Schwerpunkt auf generativer KI für Finanzanwendungsfälle. Karan verfügt über umfassende Erfahrung in der Zeitreihenanalyse und NLP, mit besonderem Interesse am Lernen aus begrenzten, gekennzeichneten Daten

Aitzaz Ahmad ist Applied Science Manager bei Amazon, wo er ein Team von Wissenschaftlern leitet, die verschiedene Anwendungen von maschinellem Lernen und generativer KI im Finanzwesen entwickeln. Seine Forschungsinteressen liegen in den Bereichen NLP, generative KI und LLM-Agenten. Er erhielt seinen Doktortitel in Elektrotechnik von der Texas A&M University.

Qingwei Li ist Spezialist für maschinelles Lernen bei Amazon Web Services. Er erhielt seinen Ph.D. in Operations Research, nachdem er das Forschungsstipendienkonto seines Beraters gebrochen hatte und ihm den versprochenen Nobelpreis nicht überreicht hatte. Derzeit hilft er Kunden im Finanzdienstleistungsbereich beim Aufbau von Machine-Learning-Lösungen auf AWS.

Raghvender Arni leitet das Customer Acceleration Team (CAT) innerhalb von AWS Industries. Das CAT ist ein globales, funktionsübergreifendes Team aus kundenorientierten Cloud-Architekten, Software-Ingenieuren, Datenwissenschaftlern sowie KI/ML-Experten und -Designern, das Innovationen durch fortschrittliches Prototyping vorantreibt und die operative Exzellenz der Cloud durch spezialisiertes technisches Fachwissen vorantreibt.

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
Quelle: https://aws.amazon.com/blogs/machine-learning/efficient-continual-pre-training-llms-for-financial-domains/

Generative Datenintelligenz

Effiziente kontinuierliche Vorschulung von LLMs für Finanzbereiche | Amazon Web Services

Sammeln und Aufbereiten von Finanzdaten

Kontinuierliches Vortraining vs. Feinabstimmung

Methodik einer effizienten kontinuierlichen Vorschulung

Ergebnis und Analyse

Zusammenfassung

Über die Autoren

NFT-Kreditvergabe erreicht Quartalshoch und übersteigt im ersten Quartal 2.1 Milliarden US-Dollar: CoinGecko

Chris McGinty, Gründer von Skywise.ai, ist Redner der IQT Quantum + AI-Konferenz 2024 – Inside Quantum Technology

Neueste Intelligenz

Wie dezentrale Zahlungen ein Tor zur wirtschaftlichen Entwicklung sind

Bitcoin bricht Tage nach der Halbierung den täglichen Transaktionsrekord

TRON setzt seinen Aufwärtstrend fort, stößt jedoch bei 0.12 $ auf eine Barriere

Quantum-Kurznachrichten: 27. April 2024: Nachrichten von Colorado-Senator John Hickenlooper • Ethereum und Quanten-Cybersicherheitsbedrohungen • Aktientrends – Inside Quantum...

Mauretanien startet mit G+D ein digitales Währungsprojekt inmitten der wirtschaftlichen Modernisierung

Verständnis des neuen IRS 1099-DA für die Berichterstattung über digitale Vermögenswerte

Chat mit uns