Verbessern Sie die LLM-Leistung mit menschlichem und KI-Feedback zu Amazon SageMaker für Amazon Engineering | Amazon Web Services

Das Team von Amazon EU Design and Construction (Amazon D&C) ist das Ingenieurteam, das Amazon-Lagerhäuser entwirft und baut. Das Team durchsucht eine große Menge an Dokumenten und findet die richtigen Informationen, um sicherzustellen, dass das Lagerdesign den höchsten Standards entspricht. In der Post Eine generative KI-gestützte Lösung auf Amazon SageMaker zur Unterstützung von Amazon EU Design und Constructionhaben wir eine Frage-Antwort-Bot-Lösung mit a vorgestellt Augmented Generation abrufen (RAG)-Pipeline mit einer fein abgestimmten großes Sprachmodell (LLM) für Amazon D&C, um präzise Informationen aus einer großen Menge unorganisierter Dokumente effizient abzurufen und zeitnahe und qualitativ hochwertige Dienstleistungen für ihre Bauprojekte bereitzustellen. Das Amazon D&C-Team implementierte die Lösung in einem Pilotprojekt für Amazon-Ingenieure und sammelte Benutzerfeedback.

In diesem Beitrag teilen wir mit, wie wir die Feedback-Daten analysiert und Einschränkungen der Genauigkeit und Halluzinationen identifiziert haben, die RAG bereitgestellt hat, und wie wir das menschliche Bewertungsergebnis verwendet haben, um das Modell zu trainieren Verstärkung lernen. Um die Trainingsstichproben für ein besseres Lernen zu erhöhen, haben wir auch ein anderes LLM verwendet, um Feedback-Scores zu generieren. Diese Methode behebt die RAG-Beschränkung und verbessert die Bot-Antwortqualität weiter. Wir präsentieren den Reinforcement-Learning-Prozess und die Benchmarking-Ergebnisse, um die LLM-Leistungsverbesserung zu demonstrieren. Die Lösung verwendet Amazon SageMaker-JumpStart als Kerndienst für Modellbereitstellung, Feinabstimmung und verstärkendes Lernen.

Sammeln Sie in einem Pilotprojekt Feedback von Amazon-Ingenieuren

Nach der Entwicklung der in beschriebenen Lösung Eine generative KI-gestützte Lösung auf Amazon SageMaker zur Unterstützung von Amazon EU Design und Construction, stellte das Amazon D&C-Team die Lösung bereit und führte ein Pilotprojekt mit Amazon-Ingenieuren durch. Die Ingenieure griffen über eine von entwickelte Webanwendung auf das Pilotsystem zu Stromlit, verbunden mit der RAG-Pipeline. In der Pipeline haben wir verwendet Amazon OpenSearch-Dienst für die Vektordatenbank und stellte ein fein abgestimmtes Mistral-7B-Instruct-Modell auf Amazon SageMaker bereit.

Eines der Hauptziele des Pilotprojekts besteht darin, Feedback von Amazon-Ingenieuren zu sammeln und das Feedback zu nutzen, um LLM-Halluzinationen weiter zu reduzieren. Um dies zu erreichen, haben wir ein Feedback-Sammelmodul in der Benutzeroberfläche entwickelt, wie in der folgenden Abbildung dargestellt, und die Websitzungsinformationen und das Benutzerfeedback darin gespeichert Amazon DynamoDB. Über die Feedback-Erfassungs-Benutzeroberfläche können Amazon-Ingenieure aus fünf Zufriedenheitsstufen wählen: stimme überhaupt nicht zu, stimme nicht zu, neutral, stimme zu und stimme voll und ganz zu, entsprechend den Feedback-Bewertungen von 1–5. Sie können auch eine bessere Antwort auf die Frage geben oder kommentieren, warum die LLM-Antwort nicht zufriedenstellend ist.

Benutzeroberfläche für menschliches Feedback

Während des Pilotprojekts gaben die Benutzer 118 Feedback-Antworten ab. Das folgende Diagramm zeigt die Verteilung von negativ nach positiv. Wir haben festgestellt, dass die durch das negative Feedback gekennzeichneten falschen Antworten (stimme nicht zu und stimme überhaupt nicht zu) 45 % des gesamten Feedbacks ausmachen (53 von 118). Einige der Fehler (etwa 10 % des negativen Feedbacks und 7.5 % der Gesamtantworten) können durch Benutzerschulung und schnelles Engineering behoben werden. Darüber hinaus können wir das Problem mit der Lösung der LLM-Feinabstimmung und des verstärkenden Lernens angehen, die im nächsten Abschnitt beschrieben wird.

Benutzer-Feedback vom Piloten

Einige Benutzer haben einfach eine Notiz hinterlassen, z. B. „Großartig!“ für die Antworten, die völlig zustimmen, oder „Beantwortet die Frage nicht“ für die Antworten, die überhaupt nicht zustimmen. Andere Benutzer gaben Punkte ab und erklärten in ihren Notizen, wie sie die LLM-Antworten begründen. Im folgenden Beispiel stellte der Benutzer speziell das geeignete Dokument und den entsprechenden Inhalt zur Verfügung, um die LLM-Halluzination zu korrigieren.

Fragen (FAQ)	Wie viele Parkplätze haben wir?
Bot-Antwort	Aufgrund des gegebenen Kontexts verfügen wir nicht über genügend Informationen, um die Anzahl der Parkplätze zu bestimmen. Im Kontext werden die Mindestgröße von Parkplätzen und die Anforderungen an die Außenbeleuchtungsniveaus erörtert, es wird jedoch keine konkrete Anzahl von Parkplätzen angegeben. Weitere Erläuterungen finden Sie in den folgenden Ressourcen: * ARS GEN 10.0/05.01.02. Designkriterien und Anhänge/Leistungspaket AR Sortable Design Criteria v20.1.1.pdf – Seite: 10 * ARS GEN 10.0/05.01.02. Designkriterien und Anhänge/Leistungspaket AR Sortable Design Criteria v20.1.1.pdf – Seite: 79
Benutzerbewertung	Entschieden widersprechen
Benutzerhinweise	Dies ist auf Seite 21 des Entwurfskriterienabschnitts 01 13 10 angegeben

Verbessern Sie die Bot-Reaktion durch überwachte Feinabstimmung und verstärkendes Lernen

Die Lösung besteht aus drei Feinabstimmungsschritten:

Führen Sie eine überwachte Feinabstimmung mithilfe gekennzeichneter Daten durch. Diese Methode wurde in beschrieben Eine generative KI-gestützte Lösung auf Amazon SageMaker zur Unterstützung von Amazon EU Design und Construction.
Sammeln Sie Benutzerfeedback, um die Frage-Antwort-Paare für die weitere LLM-Optimierung zu kennzeichnen.
Wenn die Trainingsdaten bereit sind, optimieren Sie das Modell weiter mit Verstärkungslernen durch menschliches Feedback (RLHF).

RLHF wird häufig in Anwendungen der generativen künstlichen Intelligenz (KI) und des LLM eingesetzt. Es bezieht menschliches Feedback in die Belohnungsfunktion ein und trainiert das Modell mit einem Reinforcement-Learning-Algorithmus, um die Belohnungen zu maximieren, wodurch das Modell Aufgaben ausführen kann, die besser auf menschliche Ziele abgestimmt sind. Das folgende Diagramm zeigt die Pipeline der Schritte.

Feinabstimmung des Workflows

Wir haben die Methodik anhand der Amazon D&C-Dokumente mit einem Mistral-7B-Modell auf SageMaker JumpStart getestet.

Beaufsichtigte Feinabstimmung

Im vorherigen Beitrag haben wir gezeigt, wie das fein abgestimmte Falcon-7B-Modell die RAG-Pipeline übertrifft und die Qualität und Genauigkeit der QA-Bot-Reaktion verbessert. Für diesen Beitrag haben wir eine überwachte Feinabstimmung am Mistral-7B-Modell durchgeführt. Bei der überwachten Feinabstimmung wurde die PEFT/LoRA-Technik (LoRA_r = 512, LoRA_alpha = 1024) für 436,207,616 Parameter (5.68 % der insgesamt 7,677,964,288 Parameter) verwendet. Das Training wurde auf einem p3.8x-Knoten mit 137 Proben durchgeführt, die von LLM synthetisch generiert und von Menschen validiert wurden; Nach 20 Epochen ist der Prozess gut konvergiert, wie in der folgenden Abbildung dargestellt.

SFT-Trainingsprozess

Das fein abgestimmte Modell wurde anhand von 274 Stichproben validiert und die Inferenzergebnisse wurden anhand des semantischen Ähnlichkeitswerts mit den Referenzantworten verglichen. Der Wert beträgt 0.8100 und ist damit höher als der Wert von 0.6419 des traditionellen RAG.

Sammeln Sie menschliches und KI-Feedback für verstärktes Lernen

Für RLHF ist eine ausreichende Menge hochwertiger, von Fachexperten (KMU) gekennzeichneter Trainingsbeispiele unerlässlich. Allerdings werden menschliche Etiketten von schlechter Qualität nach dem RLHF-Training wahrscheinlich zu einer schlechteren Modellleistung als das ursprüngliche Modell führen. Die Zeit der KMU ist eine knappe Ressource in jeder Organisation; Die Überprüfung von Hunderten oder Tausenden von LLM-Antworten und die Bereitstellung von Feedback erfordern für KMU einen erheblichen Zeitaufwand, der möglicherweise keine klare Kapitalrendite erzielt.

Um dieser Herausforderung zu begegnen, haben wir das übernommen Verstärkungslernen aus KI-Feedback (RLAIF)-Methode. RLAIF setzt einen KI-Assistenten (ein weiteres LLM) ein, um Bewertungsergebnisse bereitzustellen, und nicht Menschen. Bei diesem hybriden Lernansatz verfeinert der Lernagent die Aktionen nicht nur auf der Grundlage der Interaktion mit einem Menschen, sondern auch anhand des Feedbacks eines anderen KI-Modells. Es ist viel skalierbarer, um ausreichend Trainingsdaten für das verstärkende Lernen bereitzustellen, und viel weniger subjektiv, da das Training nicht von bestimmten Präferenzen einer kleinen Gruppe von KMU abhängt. Die KMU können weiterhin beteiligt sein, jedoch nur, um den Prozess zu überwachen und die Qualität des KI-Feedbacks zu überprüfen. Dies reduziert den Arbeitsaufwand der KMU enorm, da die KI-generierten Scores und Labels für KMU deutlich unkomplizierter zu analysieren, zu filtern und zu sortieren sind.

In diesem Anwendungsfall stellen wir einem Anthropic Claude 2-Modell die folgende Eingabeaufforderung zur Verfügung, um die Bewertungswerte als Trainingsbeispiele für den Verstärkungslernschritt zu generieren:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

Das Claude 2-Modell generiert eine Bewertungspunktzahl und einen Kommentar dazu, warum die Punktzahl vergeben wird, wie im folgenden Beispiel gezeigt.

Fragen (FAQ)	Was ist in diesem Zusammenhang mit „Fit Out Works“ gemeint?
Referenzantwort	Unter Ausstattungsarbeiten versteht man Arbeiten, die im Rahmen des Bauvertrags von oder im Namen von Amazon über den Entwickler bis zum ersten Empfangsdatum von einer fiktiven Entwickler-Shell- und Core-Base-Build-Position aus durchgeführt werden. Diese Arbeiten umfassen die von Amazon erforderlichen Ausstattungen, Großinstallationen und kundenspezifische Installationen
QA-Bot-Antwort	Unter Ausstattungsarbeiten versteht man Arbeiten, die im Rahmen des Bauvertrags von oder im Namen von Amazon über den Entwickler bis zum ersten Empfangsdatum von einer fiktiven Entwickler-Shell- und Core-Base-Build-Position aus durchgeführt werden.
KI-Score	4.5
KI-Kommentar	Die maschinelle Antwort liefert die wichtigsten Informationen aus der Standardantwort – dass sich „Fit Out Works“ auf Arbeiten bezieht, die im Rahmen des Bauvertrags von oder im Auftrag von Amazon über den Entwickler bis zum ersten Empfangsdatum von einer fiktiven Entwickler-Shell- und Core-Base-Build-Position aus durchgeführt werden . Die zusätzlichen Details zur Einbeziehung der von Amazon erforderlichen Ausstattungen, Big-Box-Installationen und Anpassungen sind relevant und helfen, weiteren Kontext bereitzustellen, daher habe ich die maschinelle Antwort mit 4.5 von 5 bewertet. Sie erfasst das Wesentliche der Standardantwort und bietet einige nützliche Zusatzdetails.

Von den 274 Validierungsfragen generierte das überwachte, fein abgestimmte Modell 159 Antworten mit KI-Werten über 4. Wir beobachteten 60 Antworten mit Werten unter 3; Es gibt Raum für eine Verbesserung der allgemeinen Antwortqualität.

Feedback-Score vor RLHF

Die Amazon Engineering-KMU validierten dieses KI-Feedback und erkannten die Vorteile der Verwendung von KI-Scores an. Ohne KI-Feedback bräuchten die KMU einige Zeit, um jede LLM-Antwort zu überprüfen und zu analysieren, um die abgeschnittenen Antworten und Halluzinationen zu identifizieren und zu beurteilen, ob das LLM korrekte Inhalte und Schlüsselkonzepte zurückgibt. KI-Feedback liefert automatisch KI-Bewertungen und ermöglicht es den KMU, Filter, Sortierung und Gruppierung zu verwenden, um die Bewertungen zu validieren und Trends in den Antworten zu erkennen. Dies reduziert die Überprüfungszeit eines durchschnittlichen KMU um 80 %.

Verstärkendes Lernen aus menschlichem und KI-Feedback

Wenn die Trainingsbeispiele fertig sind, verwenden wir die Algorithmus zur proximalen Richtlinienoptimierung (PPO). Verstärkungslernen durchzuführen. PPO verwendet eine Richtliniengradientenmethode, bei der die Richtlinie im Lernprozess in kleinen Schritten aktualisiert wird, sodass die Lernagenten zuverlässig das optimale Richtliniennetzwerk erreichen können. Dadurch wird der Trainingsprozess stabiler und die Möglichkeit einer Divergenz verringert.

Während des Trainings verwenden wir zunächst die von Menschen und KI gekennzeichneten Daten, um ein Belohnungsmodell zu erstellen, das als Leitfaden für die Gewichtsaktualisierung im Lernprozess dient. Für diesen Anwendungsfall wählen wir ein Belohnungsmodell auf Distilroberta-Basis aus und trainieren es anhand von Beispielen im folgenden Format:

[Instruction, Chosen_response, Rejected_response]

Im Folgenden finden Sie ein Beispiel für eine Schulungsaufzeichnung.

Anweisung	Was wird je nach Kontext für inklusives und barrierefreies Design spezifiziert?
Ausgewählte_Antwort	BREEAM Credit HEA06 – integratives und barrierefreies Design – Das Gebäude ist so konzipiert, dass es seinen Zweck erfüllt, angemessen und für alle potenziellen Nutzer zugänglich ist. Eine Zugangsstrategie wird gemäß der BREEAM-Checkliste A3 entwickelt
Abgelehnte_Antwort	Der Kontext besagt das

Das Belohnungsmodell wird mit der Lernrate 1e-5 trainiert. Wie im folgenden Diagramm dargestellt, konvergiert die Trainingsquelle nach 10 Epochen.

RLHF-Trainingsprozess

Dann wird das Belohnungsmodell zum verstärkenden Lernen verwendet. Für diesen Anwendungsfall verwenden wir PEFT/LoRA, um das Lernen zu beschleunigen. Der LoRA_r beträgt 32 und LoRA_alpha beträgt 64. Das PPO-basierte Lernen liegt in drei Epochen bei einer Rate von 1.41e-5. Das Verstärkungstraining ist sehr volatil und reagiert sehr empfindlich auf die Etikettendaten und Feedbackdaten. Wir verwenden die Reward_Mean-Metrik, die durchschnittliche Belohnung, die wir durch die spezifische Überwachung des Belohnungsmodells aus der Umgebung erhalten, um den Lernprozess zu beobachten.

Nach RLAIF können wir sehen, dass die Anzahl der Bot-Antworten mit positiven Werten (über 3) von 78.1 % auf 85.5 % ansteigt und die Anzahl der Bot-Antworten mit negativen Werten (unter 3) von 21.9 % auf 14.5 % sinkt. Insgesamt steigt der durchschnittliche KI-Feedback-Score um bis zu 8 %, von 3.9 auf 4.2.

Verbesserung durch RLAIF

Sie können die Verbesserung im folgenden Beispiel sehen.

Fragen (FAQ)	Welcher Estrich wird für zu verfliesende Bodenflächen benötigt?
Referenz	Betonestrichböden können nur in Bereichen mit Bodenfliesen verwendet werden. Sehen Sie sich Zeichnungsserie A-32 an, um zu sehen, wo Bodenfliesen anwendbar sind.
Bot-Antwort vor RLAIF	Betonestrichböden sind nur anwendbar in
AI-Score vor RLAIF	3
Bot-Antwort nach RLAIF	Betonestrichböden sind nur in Bereichen anwendbar, die gefliest werden. Sehen Sie sich Zeichnungsserie A-32 an, um zu sehen, wo Fliesenböden anwendbar sind.
AI-Score nach RLAIF	4.5

Zusammenfassung

Dieser Beitrag ist eine Fortsetzung unserer Arbeit mit dem Design- und Konstruktionsteam von Amazon EU, wie in beschrieben Eine generative KI-gestützte Lösung auf Amazon SageMaker zur Unterstützung von Amazon EU Design und Construction. In diesem Beitrag haben wir gezeigt, wie wir menschliche und KI-Feedbackdaten generiert haben, um das Mistral-7B-Modell mit Reinforcement Learning zu verfeinern. Das Modell nach RLAIF lieferte eine bessere Leistung für den Frage-Antwort-Bot von Amazon Engineering und verbesserte den KI-Feedback-Score um 8 %. Im Pilotprojekt des Amazon D&C-Teams reduzierte der Einsatz von RLAIF den Validierungsaufwand für KMU um schätzungsweise 80 %. Im nächsten Schritt werden wir diese Lösung durch die Verbindung mit der Dateninfrastruktur von Amazon Engineering erweitern und ein Framework entwerfen, um den kontinuierlichen Lernprozess mit einem Menschen im Kreislauf zu automatisieren. Wir werden auch die Qualität des KI-Feedbacks weiter verbessern, indem wir die Eingabeaufforderungsvorlage optimieren.

Durch diesen Prozess haben wir gelernt, wie wir die Qualität und Leistung von Fragebeantwortungsaufgaben durch RLHF und RLAIF weiter verbessern können.

Menschliche Validierung und Erweiterung sind unerlässlich, um genaue und verantwortungsvolle Ergebnisse von LLM zu liefern. Das menschliche Feedback kann in RLHF genutzt werden, um die Modellreaktion weiter zu verbessern.
RLAIF automatisiert den Bewertungs- und Lernzyklus. Das von der KI generierte Feedback ist weniger subjektiv, da es nicht von einer bestimmten Präferenz einer kleinen Gruppe von KMU abhängt.
RLAIF ist besser skalierbar, um die Bot-Qualität durch kontinuierliches Reinforcement Learning zu verbessern und gleichzeitig den Aufwand für KMU zu minimieren. Es ist besonders nützlich für die Entwicklung domänenspezifischer generativer KI-Lösungen in großen Organisationen.
Dieser Vorgang sollte regelmäßig durchgeführt werden, insbesondere wenn neue Domänendaten verfügbar sind, die von der Lösung abgedeckt werden sollen.

In diesem Anwendungsfall haben wir SageMaker JumpStart verwendet, um mehrere LLMs zu testen und mit mehreren LLM-Trainingsansätzen zu experimentieren. Es beschleunigt den KI-Feedback- und Lernzyklus erheblich bei maximaler Effizienz und Qualität. Für Ihr eigenes Projekt können Sie den Human-in-the-Loop-Ansatz einführen, um das Feedback Ihrer Benutzer zu sammeln, oder KI-Feedback mithilfe eines anderen LLM generieren. Anschließend können Sie dem in diesem Beitrag definierten dreistufigen Prozess folgen, um Ihre Modelle mithilfe von RLHF und RLAIF zu optimieren. Wir empfehlen, mit den Methoden mithilfe von SageMaker JumpStart zu experimentieren, um den Prozess zu beschleunigen.

Über den Autor

Yunfei Bai ist Senior Solutions Architect bei AWS. Mit einem Hintergrund in den Bereichen KI/ML, Datenwissenschaft und Analyse unterstützt Yunfei Kunden bei der Einführung von AWS-Services, um Geschäftsergebnisse zu erzielen. Er entwirft KI/ML- und Datenanalyselösungen, die komplexe technische Herausforderungen meistern und strategische Ziele vorantreiben. Yunfei hat einen Doktortitel in Elektronik und Elektrotechnik. Außerhalb der Arbeit liest Yunfei gerne und macht Musik.

Elad Dwek ist Construction Technology Manager bei Amazon. Mit einem Hintergrund im Bau- und Projektmanagement unterstützt Elad Teams bei der Einführung neuer Technologien und datenbasierter Prozesse zur Umsetzung von Bauprojekten. Er identifiziert Bedürfnisse und Lösungen und erleichtert die Entwicklung der maßgeschneiderten Attribute. Elad hat einen MBA und einen BSc in Bauingenieurwesen. Außerhalb der Arbeit genießt Elad Yoga, Holzarbeiten und Reisen mit seiner Familie.

Luca Cerabone ist Business Intelligence Engineer bei Amazon. Basierend auf seinem Hintergrund in Datenwissenschaft und Analytik entwickelt Luca maßgeschneiderte technische Lösungen, um die individuellen Bedürfnisse seiner Kunden zu erfüllen und sie zu nachhaltigeren und skalierbaren Prozessen zu bewegen. Luca verfügt über einen MSc in Data Science und beschäftigt sich in seiner Freizeit gerne mit Heimwerkerprojekten, Gartenarbeit und dem Experimentieren mit kulinarischen Köstlichkeiten.

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
Quelle: https://aws.amazon.com/blogs/machine-learning/improve-llm-performance-with-human-and-ai-feedback-on-amazon-sagemaker-for-amazon-engineering/

Generative Datenintelligenz

Verbessern Sie die LLM-Leistung mit menschlichem und KI-Feedback zu Amazon SageMaker für Amazon Engineering | Amazon Web Services

Sammeln Sie in einem Pilotprojekt Feedback von Amazon-Ingenieuren

Verbessern Sie die Bot-Reaktion durch überwachte Feinabstimmung und verstärkendes Lernen

Beaufsichtigte Feinabstimmung

Sammeln Sie menschliches und KI-Feedback für verstärktes Lernen

Verstärkendes Lernen aus menschlichem und KI-Feedback

Zusammenfassung

Über den Autor

Die besten Basis-DApps im Jahr 2024!

Binance führt OM Locked Staking mit bis zu 19.9 % effektivem Jahreszins ein

Neueste Intelligenz

Quantum News Briefs: 4. Mai 2024: Neuigkeiten von Aquark Technologies • Georgia Tech • University of Turku • und dem Quantencomputing-Markt –...

Quantum News Briefs: 4. Mai 2024: Neuigkeiten von Aquark Technologies • Georgia Tech • University of Turku • und dem Quantencomputing-Markt –...

US SEC verlängert Überprüfungszeitraum für die Bitcoin-ETF-Notierung von 7RCC

US SEC verlängert Überprüfungszeitraum für die Bitcoin-ETF-Notierung von 7RCC

OpenAI könnte Google und Perplexity mit KI-gestützter Suche herausfordern: Berichte – Entschlüsseln

Kryptowale schnappen sich in eintägiger Raserei Bitcoin im Wert von 2.9 Milliarden US-Dollar

Chat mit uns