Verbeter de LLM-prestaties met menselijke en AI-feedback op Amazon SageMaker voor Amazon Engineering | Amazon Web Services

Het Amazon EU Design and Construction (Amazon D&C)-team is het technische team dat Amazon-magazijnen ontwerpt en bouwt. Het team navigeert door een grote hoeveelheid documenten en vindt de juiste informatie om ervoor te zorgen dat het magazijnontwerp aan de hoogste normen voldoet. Bij de post Een generatieve AI-aangedreven oplossing op Amazon SageMaker om Amazon EU Design and Construction te helpen, presenteerden we een vraagbeantwoordende botoplossing met behulp van a Ophalen Augmented Generation (RAG) pijpleiding met een verfijnde groot taalmodel (LLM) voor Amazon D&C om op efficiënte wijze nauwkeurige informatie uit een grote hoeveelheid ongeorganiseerde documenten te halen en tijdige en hoogwaardige diensten te leveren in hun bouwprojecten. Het Amazon D&C-team implementeerde de oplossing in een pilot voor Amazon-ingenieurs en verzamelde gebruikersfeedback.

In dit bericht delen we hoe we de feedbackgegevens hebben geanalyseerd en beperkingen van de nauwkeurigheid en hallucinaties hebben geïdentificeerd die RAG heeft verstrekt, en hoe we de menselijke evaluatiescore hebben gebruikt om het model te trainen versterking van leren. Om de trainingsvoorbeelden te vergroten voor beter leren, hebben we ook een andere LLM gebruikt om feedbackscores te genereren. Deze methode pakte de RAG-beperking aan en verbeterde de botreactiekwaliteit verder. We presenteren het versterkingsleerproces en de benchmarkingresultaten om de LLM-prestatieverbetering aan te tonen. De oplossing gebruikt Amazon SageMaker JumpStart als de kernservice voor modelimplementatie, verfijning en versterkend leren.

Verzamel feedback van Amazon-ingenieurs in een pilotproject

Na het ontwikkelen van de oplossing beschreven in Een generatieve AI-aangedreven oplossing op Amazon SageMaker om Amazon EU Design and Construction te helpen, heeft het Amazon D&C-team de oplossing geïmplementeerd en een proefproject uitgevoerd met Amazon-ingenieurs. De ingenieurs hadden toegang tot het pilotsysteem via een webapplicatie ontwikkeld door Gestroomlijnd, verbonden met de RAG-pijpleiding. In de pijplijn hebben we gebruikt Amazon OpenSearch-service voor de vectordatabase en een verfijnd Mistral-7B-Instruct-model geïmplementeerd op Amazon SageMaker.

Een van de belangrijkste doelstellingen van de pilot is het verzamelen van feedback van Amazon-ingenieurs en het gebruiken van de feedback om LLM-hallucinaties verder te verminderen. Om dit te bereiken hebben we een module voor het verzamelen van feedback in de gebruikersinterface ontwikkeld, zoals weergegeven in de volgende afbeelding, en hebben we de websessie-informatie en gebruikersfeedback opgeslagen in Amazon DynamoDB. Via de gebruikersinterface voor het verzamelen van feedback kunnen Amazon-ingenieurs kiezen uit vijf tevredenheidsniveaus: helemaal niet mee eens, niet mee eens, neutraal, mee eens en helemaal mee eens, overeenkomend met de feedbackscores van 1 tot en met 5. Ze kunnen ook een beter antwoord geven op de vraag of commentaar geven waarom het LLM-antwoord niet bevredigend is.

gebruikersinterface voor menselijke feedback

Tijdens de pilot hebben gebruikers 118 feedbackreacties gegeven. Het volgende diagram toont de verdeling van negatief naar positief. We hebben vastgesteld dat de onjuiste antwoorden gemarkeerd door de negatieve feedback (oneens en zeer oneens) 45% uitmaken van de totale feedback (53 van de 118). Sommige fouten (ongeveer 10% van de negatieve feedback en 7.5% van de totale reacties) kunnen worden verholpen door gebruikerseducatie en snelle engineering. Bovendien kunnen we het probleem aanpakken met de oplossing van LLM-verfijning en versterkingsleren, beschreven in de volgende sectie.

Gebruikersfeedback van piloot

Sommige gebruikers lieten gewoon een briefje achter, zoals 'Geweldig!' voor de antwoorden die het helemaal eens zijn, of 'Beantwoordt de vraag niet', voor de antwoorden die het helemaal niet eens zijn. Andere gebruikers gaven scores en legden uit hoe zij de LLM-antwoorden in hun aantekeningen rechtvaardigen. In het volgende voorbeeld heeft de gebruiker specifiek het adequate document en de juiste inhoud verstrekt om de LLM-hallucinatie te corrigeren.

Vraag	Hoeveel parkeerplaatsen hebben we?
Bot-antwoord	Op basis van de gegeven context beschikken we niet over voldoende informatie om het aantal parkeerplaatsen te bepalen. De context bespreekt de minimale grootte van parkeerplaatsen en de vereisten voor externe verlichtingsniveaus, maar voorziet niet in een specifiek aantal parkeerplaatsen. Voor verdere uitleg kunt u de volgende bronnen raadplegen: * ARS GEN 10.0/05.01.02. Ontwerpcriteria en bijlagen/Prestatiepakket AR sorteerbare ontwerpcriteria v20.1.1.pdf – pagina: 10 * ARS GEN 10.0/05.01.02. Ontwerpcriteria en bijlagen/Prestatiepakket AR sorteerbare ontwerpcriteria v20.1.1.pdf – pagina: 79
Gebruikersscore	Helemaal mee oneens
Gebruikersnotities	Dit staat vermeld op pagina 21 van ontwerpcriteria sectie 01 13 10

Verbeter de botreactie met begeleide verfijning en versterkingsleren

De oplossing bestaat uit drie stappen van verfijning:

Voer onder toezicht een fijnafstemming uit met behulp van gelabelde gegevens. Deze methode is beschreven in Een generatieve AI-aangedreven oplossing op Amazon SageMaker om Amazon EU Design and Construction te helpen.
Verzamel gebruikersfeedback om de vraag-antwoordparen te labelen voor verdere LLM-afstemming.
Wanneer de trainingsgegevens gereed zijn, kunt u het model verder afstemmen met behulp van versterking leren van menselijke feedback (RLHF).

RLHF wordt veel gebruikt in toepassingen voor generatieve kunstmatige intelligentie (AI) en LLM. Het integreert menselijke feedback in de beloningsfunctie en traint het model met een versterkend leeralgoritme om beloningen te maximaliseren, waardoor het model taken uitvoert die beter aansluiten bij menselijke doelen. Het volgende diagram toont de pijplijn van de stappen.

Werkstroom nauwkeurig afstemmen

We hebben de methodologie getest met behulp van de Amazon D&C-documenten met een Mistral-7B-model op SageMaker JumpStart.

Begeleide finetuning

In het vorige bericht hebben we laten zien hoe het verfijnde Falcon-7B-model beter presteert dan de RAG-pijplijn en de kwaliteit en nauwkeurigheid van de QA-botreactie verbetert. Voor deze post hebben we onder supervisie het Mistral-7B-model verfijnd. Bij de gecontroleerde verfijning werd gebruik gemaakt van de PEFT/LoRA-techniek (LoRA_r = 512, LoRA_alpha = 1024) op 436,207,616 parameters (5.68% van de in totaal 7,677,964,288 parameters). De training werd uitgevoerd op een p3.8x-knooppunt met 137 monsters die synthetisch waren gegenereerd door LLM en gevalideerd door mensen; het proces is na 20 tijdperken goed geconvergeerd, zoals weergegeven in de volgende afbeelding.

SFT-trainingsproces

Het verfijnde model werd gevalideerd door 274 steekproeven, en de gevolgtrekkingsresultaten werden vergeleken met de referentieantwoorden door de semantische gelijkenisscore. De score is 0.8100, wat hoger is dan de score van 0.6419 uit de traditionele RAG.

Verzamel menselijke en AI-feedback voor versterkend leren

Voor RLHF is een voldoende hoeveelheid hoogwaardige trainingsvoorbeelden, gelabeld door vakdeskundigen (KMO's), essentieel. Menselijke labels van slechte kwaliteit zullen na RLHF-training echter waarschijnlijk tot slechtere modelprestaties leiden dan het originele model. De tijd van het MKB is een schaars goed in elke organisatie; het beoordelen van honderden of duizenden LLM-reacties en het geven van feedback vergt een aanzienlijke tijdsinvestering van MKB-bedrijven die mogelijk geen duidelijk rendement op hun investering hebben.

Om deze uitdaging aan te gaan, hebben we de versterking van het leren van AI-feedback (RLAIF)-methode. RLAIF heeft een AI-assistent (een andere LLM) in dienst om evaluatiescores te verstrekken, in plaats van door mensen. Bij deze hybride leeraanpak verfijnt de leeragent de acties niet alleen op basis van de interactie met een mens, maar ook op basis van feedback van een ander AI-model. Het is veel schaalbaarder om voldoende trainingsgegevens te verschaffen voor versterkend leren, en veel minder subjectief omdat de training niet afhankelijk is van bepaalde voorkeuren van een kleine groep MKB-bedrijven. Het MKB kan er nog steeds bij betrokken worden, maar alleen om het proces te begeleiden en de kwaliteit van de AI-feedback te onderzoeken. Dit vermindert de werklast van het MKB enorm, omdat de door AI gegenereerde scores en labels voor het MKB veel minder ingewikkeld zijn om te analyseren, filteren en sorteren.

In dit gebruiksscenario geven we de volgende prompt aan een Anthropic Claude 2-model om de evaluatiescores te genereren als trainingsvoorbeelden voor de versterkingsleerstap:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

Het Claude 2-model genereert een evaluatiescore en een commentaar over waarom de score wordt gegeven, zoals weergegeven in het volgende voorbeeld.

Vraag	Wat wordt in deze context bedoeld met 'Fit Out Works'?
Referentie antwoord	Fit Out Works verwijst naar Werken die in het kader van het bouwcontract worden uitgevoerd door of namens Amazon via de Ontwikkelaar tot aan de Eerste Ontvangstdatum vanuit een fictieve Ontwikkelaar Shell & Core Base-build-positie. Deze Werken omvatten de vereiste Fit-Outs, big-box-installaties en maatwerk van Amazon
QA Botreactie	Fit Out Works verwijst naar Werken die in het kader van het bouwcontract worden uitgevoerd door of namens Amazon via de Ontwikkelaar tot aan de Eerste Ontvangstdatum vanuit een fictieve Ontwikkelaar Shell & Core Base-build-positie.
AI-score	4.5
AI-commentaar	Het machineantwoord biedt de belangrijkste informatie uit het standaardantwoord – dat Fit Out Works verwijst naar werken die zijn uitgevoerd in het kader van het bouwcontract door of namens Amazon via de ontwikkelaar tot aan de eerste ontvangstdatum vanuit een fictieve ontwikkelaar Shell & Core Base-build-positie . De aanvullende details over het opnemen van de vereiste Fit-Outs, big-box-installaties en aanpassingen van Amazon zijn relevant en helpen verdere context te bieden, daarom heb ik het machine-antwoord 4.5 uit 5 gescoord. Het geeft de essentie van het standaardantwoord weer en biedt enkele nuttige extra details.

Van de 274 validatievragen genereerde het gecontroleerde, verfijnde model 159 antwoorden met AI-scores groter dan 4. We hebben 60 antwoorden waargenomen met scores lager dan 3; er is ruimte om de algehele responskwaliteit te verbeteren.

Feedbackscore vóór RLHF

Het MKB van Amazon Engineering valideerde deze AI-feedback en erkende de voordelen van het gebruik van AI-scores. Zonder AI-feedback zouden de MKB-bedrijven enige tijd nodig hebben om elk LLM-antwoord te beoordelen en te analyseren om de afgesneden antwoorden en hallucinaties te identificeren, en om te beoordelen of de LLM de juiste inhoud en sleutelconcepten retourneert. AI-feedback levert automatisch AI-scores op en stelt het MKB in staat filteren, sorteren en groeperen te gebruiken om de scores te valideren en trends in de reacties te identificeren. Dit verkort de beoordelingstijd van de gemiddelde MKB-onderneming met 80%.

Versterk het leren van feedback van mensen en AI

Als de trainingsvoorbeelden klaar zijn, gebruiken we de algoritme voor proximale beleidsoptimalisatie (PPO). om versterkend leren uit te voeren. PPO maakt gebruik van een beleidsgradiëntmethode, waarbij kleine stappen worden genomen om het beleid in het leerproces bij te werken, zodat de lerende agenten op betrouwbare wijze het optimale beleidsnetwerk kunnen bereiken. Dit maakt het trainingsproces stabieler en verkleint de kans op afwijkingen.

Tijdens de training gebruiken we eerst de mens- en AI-gelabelde gegevens om een beloningsmodel te bouwen, dat zal worden gebruikt als leidraad voor het bijwerken van de gewichten in het leerproces. Voor dit gebruiksscenario selecteren we een beloningsmodel op basis van distilroberta en trainen dit aan de hand van monsters in het volgende formaat:

[Instruction, Chosen_response, Rejected_response]

Hieronder ziet u een voorbeeld van een trainingsrecord.

Instructie	Wat is er, afhankelijk van de context, gespecificeerd voor inclusief en toegankelijk ontwerp?
Gekozen_antwoord	BREEAM Credit HEA06 – inclusief en toegankelijk ontwerp – Het gebouw is ontworpen om geschikt te zijn voor het beoogde doel, geschikt en toegankelijk voor alle potentiële gebruikers. Er wordt een toegangsstrategie ontwikkeld in lijn met de BREEAM Checklijst A3
Geweigerde_reactie	De context zegt dat

Het beloningsmodel wordt getraind met het leerpercentage 1e-5. Zoals blijkt uit de volgende grafiek, convergeert de trainingsput na 10 tijdperken.

RLHF-trainingsproces

Vervolgens wordt het beloningsmodel gebruikt voor versterkend leren. Voor deze use case gebruiken we PEFT/LoRA om het leren te versnellen. De LoRA_r is 32 en LoRA_alpha is 64. Het op PPO gebaseerde leren heeft een snelheid van 1.41e-5 in drie tijdperken. Versterkingstraining is zeer vluchtig en zeer gevoelig voor de labelgegevens en feedbackgegevens. We gebruiken de beloning_mean-metriek, de gemiddelde beloning die uit de omgeving wordt verkregen door specifiek het beloningsmodel te monitoren, om het leerproces te observeren.

Na RLAIF kunnen we zien dat het aantal botreacties met positieve scores (boven 3) toeneemt van 78.1% naar 85.5%, en het aantal botreacties met negatieve scores (lager dan 3) daalt van 21.9% naar 14.5%. In totaal stijgt de gemiddelde AI-feedbackscore tot 8%, van 3.9 naar 4.2.

Verbetering door RLAIF

U kunt de verbetering zien in het volgende voorbeeld.

Vraag	Welke dekvloer is nodig voor vloeroppervlakken die worden betegeld?
Referentie	Betonnen dekvloeren zijn alleen toepasbaar in ruimtes met tegelvloeren. Raadpleeg tekeningenserie A-32 om te zien waar vloertegels toepasbaar zijn.
Botreactie vóór RLAIF	Betonnen chapevloeren zijn alleen toepasbaar in
AI-score vóór RLAIF	3
Botreactie na RLAIF	Betonnen dekvloeren zijn alleen toepasbaar in ruimtes die worden betegeld. Raadpleeg tekeningenserie A-32 om te zien waar tegelvloeren toepasbaar zijn.
AI-score na RLAIF	4.5

Conclusie

Dit bericht is een voortzetting van ons werk met het Amazon EU Design and Construction-team, zoals besproken in Een generatieve AI-aangedreven oplossing op Amazon SageMaker om Amazon EU Design and Construction te helpen. In dit bericht hebben we laten zien hoe we menselijke en AI-feedbackgegevens hebben gegenereerd om het Mistral-7B-model te verfijnen met versterkend leren. Het model na RLAIF leverde betere prestaties voor de vraagantwoordbot van Amazon Engineering en verbeterde de AI-feedbackscore met 8%. In het proefproject van het Amazon D&C-team verminderde het gebruik van RLAIF de validatiewerklast voor het MKB met naar schatting 80%. Als volgende stap zullen we deze oplossing opschalen door verbinding te maken met de data-infrastructuur van Amazon Engineering, en een raamwerk ontwerpen om het continue leerproces te automatiseren met een mens in de lus. We zullen ook de AI-feedbackkwaliteit verder verbeteren door het promptsjabloon af te stemmen.

Door dit proces hebben we geleerd hoe we de kwaliteit en prestaties van vraagantwoordtaken verder kunnen verbeteren via RLHF en RLAIF.

Menselijke validatie en augmentatie zijn essentieel om nauwkeurige en verantwoorde resultaten van LLM te leveren. De menselijke feedback kan in RLHF worden gebruikt om de modelrespons verder te verbeteren.
RLAIF automatiseert de evaluatie- en leercyclus. De door AI gegenereerde feedback is minder subjectief omdat deze niet afhankelijk is van een bepaalde voorkeur van een kleine groep MKB-bedrijven.
RLAIF is schaalbaarder om de botkwaliteit te verbeteren door middel van voortdurend versterkend leren, terwijl de inspanningen van het MKB worden geminimaliseerd. Het is vooral handig voor het ontwikkelen van domeinspecifieke generatieve AI-oplossingen binnen grote organisaties.
Dit proces moet regelmatig worden uitgevoerd, vooral wanneer er nieuwe domeingegevens beschikbaar zijn die door de oplossing kunnen worden gedekt.

In dit gebruiksscenario hebben we SageMaker JumpStart gebruikt om meerdere LLM's te testen en te experimenteren met meerdere LLM-trainingsbenaderingen. Het versnelt de AI-feedback- en leercyclus aanzienlijk met maximale efficiëntie en kwaliteit. Voor uw eigen project kunt u de human-in-the-loop-aanpak introduceren om de feedback van uw gebruikers te verzamelen, of AI-feedback genereren met behulp van een andere LLM. Vervolgens kunt u het driestapsproces volgen dat in dit bericht is gedefinieerd om uw modellen te verfijnen met behulp van RLHF en RLAIF. We raden u aan te experimenteren met de methoden die SageMaker JumpStart gebruiken om het proces te versnellen.

Over de auteur

Yunfei Bai is Senior Solutions Architect bij AWS. Met een achtergrond in AI/ML, datawetenschap en analyse helpt Yunfei klanten om AWS-services te gebruiken om zakelijke resultaten te behalen. Hij ontwerpt AI/ML- en data-analyseoplossingen die complexe technische uitdagingen overwinnen en strategische doelstellingen aansturen. Yunfei is gepromoveerd in elektronische en elektrotechniek. Naast zijn werk houdt Yunfei van lezen en muziek.

Elad Dwek is manager bouwtechnologie bij Amazon. Met een achtergrond in bouw- en projectmanagement helpt Elad teams nieuwe technologieën en op gegevens gebaseerde processen te implementeren om bouwprojecten op te leveren. Hij identificeert behoeften en oplossingen en faciliteert de ontwikkeling van de op maat gemaakte attributen. Elad heeft een MBA en een BSc in bouwtechniek. Buiten zijn werk houdt Elad van yoga, houtbewerking en reizen met zijn gezin.

Luca Cerabone is een Business Intelligence Engineer bij Amazon. Vanuit zijn achtergrond in data science en analytics ontwikkelt Luca technische oplossingen op maat om aan de unieke behoeften van zijn klanten te voldoen en hen richting duurzamere en schaalbare processen te sturen. Gewapend met een MSc in Data Science, houdt Luca ervan om in zijn vrije tijd bezig te zijn met doe-het-zelf-projecten, tuinieren en experimenteren met culinaire hoogstandjes.

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
Bron: https://aws.amazon.com/blogs/machine-learning/improve-llm-performance-with-human-and-ai-feedback-on-amazon-sagemaker-for-amazon-engineering/

Generatieve data-intelligentie

Verbeter de LLM-prestaties met menselijke en AI-feedback op Amazon SageMaker voor Amazon Engineering | Amazon-webservices

Verzamel feedback van Amazon-ingenieurs in een pilotproject

Verbeter de botreactie met begeleide verfijning en versterkingsleren

Begeleide finetuning

Verzamel menselijke en AI-feedback voor versterkend leren

Versterk het leren van feedback van mensen en AI

Conclusie

Over de auteur

OpenAI kan Google en verwarring uitdagen met AI-aangedreven zoeken: rapporten – ontsleutelen

Crypto-walvissen pakken $2.9 miljard aan Bitcoin binnen in eendaagse waanzin

Laatste intelligentie

Nigeria staat op het punt om P2P-cryptohandel te verbieden vanwege zorgen over de nationale veiligheid

De ontvangst van web3-gaming verschuift van scepticisme naar enthousiasme: Shrapnel's Head of Studio

SEC onder Trump zou crypto-regulering ‘krachtig nastreven’ – zegt de voormalige toezichthouder

Grijswaarden Bitcoin ETF breekt verliesreeks, haalt $63 miljoen binnen – ontsleutelen

CISO Corner: Verizon DBIR-lessen; Micro-agressie op de werkplek; Schaduw-API's

CISO Corner: Verizon DBIR-lessen; Micro-agressie op de werkplek; Schaduw-API's

Chat met ons