Generativ dataintelligens

Forbedre LLM-ydeevnen med menneskelig og AI-feedback på Amazon SageMaker til Amazon Engineering | Amazon Web Services

Dato:

Amazon EU Design and Construction (Amazon D&C) teamet er ingeniørteamet, der designer og bygger Amazon-varehuse. Teamet navigerer i en stor mængde dokumenter og lokaliserer de rigtige oplysninger for at sikre, at lagerdesignet lever op til de højeste standarder. I indlægget En generativ AI-drevet løsning på Amazon SageMaker til at hjælpe Amazon EU-design og -konstruktion, præsenterede vi et spørgsmål, der besvarer bot-løsning ved hjælp af en Retrieval Augmented Generation (RAG) rørledning med en finjusteret stor sprogmodel (LLM) for Amazon D&C til effektivt at hente nøjagtige oplysninger fra en stor mængde uorganiserede dokumenter og levere rettidige tjenester af høj kvalitet i deres byggeprojekter. Amazon D&C-teamet implementerede løsningen i en pilot for Amazon-ingeniører og indsamlede brugerfeedback.

I dette indlæg deler vi, hvordan vi analyserede feedbackdataene og identificerede begrænsninger af nøjagtighed og hallucinationer, som RAG leverede, og brugte den menneskelige evalueringsscore til at træne modellen gennem forstærkning læring. For at øge træningsprøverne for bedre læring brugte vi også en anden LLM til at generere feedbackscore. Denne metode adresserede RAG-begrænsningen og forbedrede bot-responskvaliteten yderligere. Vi præsenterer forstærkningslæringsprocessen og benchmarking-resultaterne for at demonstrere LLM-præstationsforbedringen. Løsningen bruger Amazon SageMaker JumpStart som kernetjenesten til modelimplementering, finjustering og forstærkningslæring.

Indsaml feedback fra Amazon-ingeniører i et pilotprojekt

Efter at have udviklet løsningen beskrevet i En generativ AI-drevet løsning på Amazon SageMaker til at hjælpe Amazon EU-design og -konstruktion, implementerede Amazon D&C-teamet løsningen og kørte et pilotprojekt med Amazon-ingeniører. Ingeniørerne fik adgang til pilotsystemet gennem en webapplikation udviklet af Strømbelyst, forbundet med RAG-rørledningen. I pipelinen brugte vi Amazon OpenSearch Service til vektordatabasen og implementerede en finjusteret Mistral-7B-Instruct-model på Amazon SageMaker.

Et af pilotformålene er at indsamle feedback fra Amazons ingeniører og bruge feedbacken til yderligere at reducere LLM-hallucinationer. For at opnå dette udviklede vi et feedbackindsamlingsmodul i brugergrænsefladen, som vist i den følgende figur, og gemte websessionsoplysningerne og brugerfeedback i Amazon DynamoDB. Gennem feedbackindsamlingens brugergrænseflade kan Amazon-ingeniører vælge mellem fem tilfredshedsniveauer: meget uenig, uenig, neutral, enig og meget enig, svarende til feedback-scorene fra 1-5. De kan også give et bedre svar på spørgsmålet eller kommentere, hvorfor LLM-svaret ikke er tilfredsstillende.

menneskelig feedback UI

Under pilotprojektet gav brugerne 118 feedbacksvar. Følgende diagram viser fordelingen fra negativ til positiv. Vi observerede, at de forkerte svar markeret med den negative feedback (uenig og meget uenig) er 45 % blandt den samlede feedback (53 ud af 118). Nogle af fejlene (ca. 10 % af negativ feedback og 7.5 % af de samlede svar) kan løses ved hjælp af brugeruddannelse og hurtig ingeniørarbejde. Derudover kan vi løse problemet med løsningen af ​​LLM finjustering og forstærkende læring, beskrevet i næste afsnit.

Brugerfeedback fra pilot

Nogle brugere efterlod blot en note, såsom "Fantastisk!" for de meget enige svar, eller "Besvarer ikke spørgsmålet," for de meget uenige svar. Andre brugere leverede score og forklarede, hvordan de begrunder LLM-svarene i deres noter. I det følgende eksempel leverede brugeren specifikt det passende dokument og indhold til at korrigere LLM-hallucinationen.

Spørgsmål Hvor mange parkeringspladser har vi?
Bot svar

Baseret på den givne kontekst har vi ikke nok information til at bestemme antallet af parkeringspladser. Konteksten diskuterer minimumsstørrelsen af ​​parkeringspladser og kravene til udvendige belysningsniveauer, men den giver ikke et specifikt antal parkeringspladser.

**Du kan henvise til yderligere forklaringer i følgende ressourcer:**

* ARS GEN 10.0/05.01.02. Designkriterier & bilag/Ydeevnepakke AR Sorterbare designkriterier v20.1.1.pdf – side: 10

* ARS GEN 10.0/05.01.02. Designkriterier & bilag/Ydeevnepakke AR Sorterbare designkriterier v20.1.1.pdf – side: 79

Bruger score Meget uenig
Brugernoter Dette er specificeret på side 21 i designkriteriernes afsnit 01 13 10

Forbedre bot-responsen med overvåget finjustering og forstærkningslæring

Løsningen består af tre trin med finjustering:

  1. Udfør overvåget finjustering ved hjælp af mærkede data. Denne metode blev beskrevet i En generativ AI-drevet løsning på Amazon SageMaker til at hjælpe Amazon EU-design og -konstruktion.
  2. Indsaml brugerfeedback for at mærke spørgsmål-svar-parrene for yderligere LLM-tuning.
  3. Når træningsdataene er klar, tunes modellen yderligere vha forstærkende læring fra menneskelig feedback (RLHF).

RLHF er meget udbredt i generativ kunstig intelligens (AI) og LLM-applikationer. Den inkorporerer menneskelig feedback i belønningsfunktionen og træner modellen med en forstærkende læringsalgoritme for at maksimere belønninger, hvilket får modellen til at udføre opgaver mere i overensstemmelse med menneskelige mål. Følgende diagram viser pipelinen af ​​trinene.

Finjusterende arbejdsgang

Vi testede metoden ved hjælp af Amazon D&C-dokumenterne med en Mistral-7B-model på SageMaker JumpStart.

Overvåget finjustering

I det forrige indlæg demonstrerede vi, hvordan den finjusterede Falcon-7B-model udkonkurrerer RAG-pipelinen og forbedrer kvaliteten og nøjagtigheden af ​​QA-bot-responsen. Til dette indlæg udførte vi overvåget finjustering på Mistral-7B-modellen. Den overvågede finjustering brugte PEFT/LoRA-teknikken (LoRA_r = 512, LoRA_alpha = 1024) på ​​436,207,616 parametre (5.68% af de samlede 7,677,964,288 parametre). Træningen blev udført på en p3.8x node med 137 prøver syntetisk genereret af LLM og valideret af mennesker; processen er godt konvergeret efter 20 epoker, som vist i den følgende figur.

SFT træningsproces

Den finjusterede model blev valideret af 274 prøver, og inferensresultaterne blev sammenlignet med referencesvarene ved den semantiske lighedsscore. Scoren er 0.8100, hvilket er højere end scoren på 0.6419 fra det traditionelle RAG.

Indsaml feedback fra mennesker og AI til forstærkningslæring

For RLHF er en tilstrækkelig mængde uddannelsesprøver af høj kvalitet mærket af fageksperter (SMV'er) afgørende. Men menneskelige mærker af dårlig kvalitet vil sandsynligvis forårsage dårligere modelydelse end den originale model efter RLHF-træning. SMV'ers tid er en knap ressource i enhver organisation; at gennemgå hundreder eller tusinder af LLM-svar og give feedback kræver en betydelig tidsinvestering fra SMV'er, som måske ikke har et klart afkast af investeringen.

For at løse denne udfordring vedtog vi forstærkende læring fra AI-feedback (RLAIF) metode. RLAIF ansætter en AI-assistent (en anden LLM) til at give evalueringsresultater, snarere end fra mennesker. I denne hybride læringstilgang forfiner læringsagenten handlingerne ikke kun baseret på interaktionen med et menneske, men også fra feedback fra en anden AI-model. Det er meget mere skalerbart at levere tilstrækkelige træningsdata til forstærkende læring og meget mindre subjektivt, fordi træningen ikke er afhængig af særlige præferencer fra en lille gruppe SMV'er. SMV'erne kan stadig være involveret, men kun for at overvåge processen og undersøge kvaliteten af ​​AI-feedback. Dette reducerer SMV'ernes arbejdsbyrde enormt, fordi de AI-genererede resultater og etiketter er meget mindre komplicerede for SMV'er at analysere, filtrere og sortere.

I dette tilfælde giver vi følgende prompt til en antropisk Claude 2-model for at generere evalueringsresultaterne som træningseksempler for forstærkningsindlæringstrinnet:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

Claude 2-modellen genererer en evalueringsscore og en kommentar til, hvorfor scoren er givet, som vist i følgende eksempel.

Spørgsmål Hvad menes der med 'Fit Out Works' i denne sammenhæng?
Referencesvar Fit Out Works refererer til Arbejder udført i henhold til entreprisekontrakten af ​​eller på vegne af Amazon via Udvikleren op til Første Modtagelsesdato fra en teoretisk udvikler Shell & Core Base-build position. Disse værker inkluderer Amazons nødvendige Fit-Outs, big-box installationer og brugerdefinerede
QA Bot-svar Fit Out Works refererer til Arbejder udført i henhold til entreprisekontrakten af ​​eller på vegne af Amazon via Udvikleren op til Første Modtagelsesdato fra en teoretisk udvikler Shell & Core Base-build position.
AI-score 4.5
AI kommentar Maskinsvaret giver nøgleoplysningerne fra standardsvaret - at Fit Out Works refererer til arbejder udført i henhold til entreprisekontrakten af ​​eller på vegne af Amazon via udvikleren op til første modtagelsesdato fra en teoretisk udvikler Shell & Core Base-build position . De yderligere detaljer om at inkludere Amazons nødvendige Fit-Outs, big-box-installationer og tilpasninger er relevante og hjælper med at give yderligere kontekst, så jeg har scoret maskinsvaret til 4.5 ud af 5. Det fanger essensen af ​​standardsvaret og giver nogle nyttige ekstra detaljer.

Ud af de 274 valideringsspørgsmål genererede den overvågede finjusterede model 159 svar, der har AI-score større end 4. Vi observerede 60 svar med score lavere end 3; der er plads til at forbedre den overordnede svarkvalitet.

Feedback score før RLHF

Amazon Engineering SMV'erne validerede denne AI-feedback og anerkendte fordelene ved at bruge AI-resultater. Uden AI-feedback ville SMV'erne have brug for noget tid til at gennemgå og analysere hvert LLM-svar for at identificere de afskårne svar og hallucinationer og for at bedømme, om LLM'en returnerer korrekt indhold og nøglekoncepter. AI-feedback giver automatisk AI-scoringer og gør det muligt for SMV'erne at bruge filtrering, sortering og gruppering til at validere scoringerne og identificere tendenser i svarene. Dette reducerer den gennemsnitlige SMV's gennemgangstid med 80 %.

Forstærkende læring fra menneskelig og AI-feedback

Når træningsprøverne er klar, bruger vi proximal policy optimization (PPO) algoritme at udføre forstærkende læring. PPO anvender en policy gradient metode, som tager små skridt for at opdatere politikken i læringsprocessen, så læringsagenterne pålideligt kan nå det optimale politiknetværk. Dette gør træningsprocessen mere stabil og mindsker muligheden for divergens.

I løbet af træningen bruger vi først de menneske- og AI-mærkede data til at opbygge en belønningsmodel, som vil blive brugt som guide til vægtopdateringen i læringsprocessen. Til denne brugssag vælger vi en distilroberta-baseret belønningsmodel og træner den ved prøver i følgende format:

[Instruction, Chosen_response, Rejected_response]

Det følgende er et eksempel på en træningsrekord.

Instruktion Hvad specificeres i henhold til konteksten for inkluderende og tilgængeligt design?
Valgt_svar BREEAM Credit HEA06 – inkluderende og tilgængeligt design – Bygningen er designet til at være egnet til formålet, passende og tilgængelig for alle potentielle brugere. En adgangsstrategi er udviklet i overensstemmelse med BREEAM-tjeklisten A3
Afvist_svar Konteksten siger det

Belønningsmodellen trænes med indlæringssatsen 1e-5. Som vist i det følgende diagram, konvergerer træningsbrønden efter 10 epoker.

RLHF træningsproces

Derefter bruges belønningsmodellen til forstærkende læring. Til denne use case bruger vi PEFT/LoRA til at accelerere indlæringen. LoRA_r er 32 og LoRA_alpha er 64. Den PPO-baserede læring er på en rate på 1.41e-5 i tre epoker. Forstærkningstræning er meget flygtig og meget følsom over for etiketdata og feedbackdata. Vi bruger reward_mean-metrikken, den gennemsnitlige belønning opnået fra miljøet ved specifikt at overvåge belønningsmodellen, til at observere læringsprocessen.

Efter RLAIF kan vi se antallet af bot-svar med positive scores (over 3) stige fra 78.1 % til 85.5 %, og dem med negative scores (under 3) falde fra 21.9 % til 14.5 %. I alt stiger den gennemsnitlige AI-feedback-score op til 8 %, fra 3.9 til 4.2.

Forbedring af RLAIF

Du kan se forbedringen i følgende eksempel.

Spørgsmål Hvilket afretningslag skal der bruges til gulvarealer, der bliver flisebelagt?
Henvisning Betongulve kan kun anvendes i gulvbelagte områder. Se tegningsserie A-32 for at se, hvor gulvfliser kan anvendes.
Bot-svar før RLAIF Betongulve kan kun anvendes i
AI-score før RLAIF 3
Bot-svar efter RLAIF Betongulve er kun anvendelige i områder, der bliver flisebelagt. Se tegningsserie A-32 for at se, hvor flisegulve er anvendelige.
AI-score efter RLAIF 4.5

Konklusion

Dette indlæg er en fortsættelse af vores arbejde med Amazon EU Design and Construction-teamet som diskuteret i En generativ AI-drevet løsning på Amazon SageMaker til at hjælpe Amazon EU-design og -konstruktion. I dette indlæg viste vi, hvordan vi genererede menneskelige og AI-feedbackdata for at finjustere Mistral-7B-modellen med forstærkningslæring. Modellen efter RLAIF gav bedre ydeevne til Amazon Engineerings spørgsmålssvar bot, forbedrede AI-feedback-score med 8%. I Amazon D&C-teamets pilotprojekt reducerede brugen af ​​RLAIF valideringsarbejdsbyrden for SMV'er med anslået 80 %. Som næste trin vil vi opskalere denne løsning ved at forbinde med Amazon Engineerings datainfrastruktur og designe en ramme til at automatisere den kontinuerlige læringsproces med et menneske i løkken. Vi vil også forbedre AI-feedbackkvaliteten yderligere ved at justere promptskabelonen.

Gennem denne proces lærte vi, hvordan vi yderligere kan forbedre kvaliteten og ydeevnen af ​​besvarelse af spørgsmål gennem RLHF og RLAIF.

  • Menneskelig validering og augmentation er afgørende for at give nøjagtige og ansvarlige output fra LLM. Den menneskelige feedback kan bruges i RLHF til yderligere at forbedre modelresponsen.
  • RLAIF automatiserer evaluerings- og læringscyklussen. Den AI-genererede feedback er mindre subjektiv, fordi den ikke afhænger af en bestemt præference fra en lille pulje af SMV'er.
  • RLAIF er mere skalerbar for at forbedre bot-kvaliteten gennem fortsat forstærkende læring og samtidig minimere den indsats, der kræves fra SMV'er. Det er især nyttigt til udvikling af domænespecifikke generative AI-løsninger i store organisationer.
  • Denne proces bør udføres regelmæssigt, især når nye domænedata er tilgængelige for at blive dækket af løsningen.

I dette tilfælde brugte vi SageMaker JumpStart til at teste flere LLM'er og eksperimentere med flere LLM-træningstilgange. Det accelererer AI-feedback og indlæringscyklus markant med maksimeret effektivitet og kvalitet. Til dit eget projekt kan du introducere human-in-the-loop-tilgangen til at indsamle dine brugeres feedback eller generere AI-feedback ved hjælp af en anden LLM. Derefter kan du følge den tre-trins proces, der er defineret i dette indlæg, for at finjustere dine modeller ved hjælp af RLHF og RLAIF. Vi anbefaler at eksperimentere med metoderne ved hjælp af SageMaker JumpStart for at fremskynde processen.


Om forfatteren

YunfeiYunfei Bai er Senior Solutions Architect hos AWS. Med en baggrund inden for AI/ML, datavidenskab og analyse hjælper Yunfei kunder med at adoptere AWS-tjenester for at levere forretningsresultater. Han designer AI/ML og dataanalyseløsninger, der overvinder komplekse tekniske udfordringer og driver strategiske mål. Yunfei har en ph.d. i elektronik og elektroteknik. Uden for arbejdet nyder Yunfei at læse og musik.

Elad_fotoElad Dwek er Construction Technology Manager hos Amazon. Med en baggrund inden for byggeri og projektledelse hjælper Elad teams med at adoptere nye teknologier og databaserede processer til at levere byggeprojekter. Han identificerer behov og løsninger og faciliterer udviklingen af ​​de skræddersyede egenskaber. Elad har en MBA og en BSc i strukturteknik. Uden for arbejdet nyder Elad yoga, træarbejde og at rejse med sin familie.

Luca_fotoLuca Cerabone er Business Intelligence Engineer hos Amazon. Med udgangspunkt i sin baggrund inden for datavidenskab og analyse, laver Luca skræddersyede tekniske løsninger til at imødekomme hans kunders unikke behov, og driver dem mod mere bæredygtige og skalerbare processer. Bevæbnet med en MSc i Data Science, nyder Luca at engagere sig i gør-det-selv-projekter, havearbejde og eksperimentere med kulinariske lækkerier i sine fritidsøjeblikke.

spot_img

Seneste efterretninger

spot_img

Chat med os

Hej! Hvordan kan jeg hjælpe dig?