Forbedre LLM-ytelsen med tilbakemeldinger fra mennesker og AI på Amazon SageMaker for Amazon Engineering | Amazon Web Services

Amazon EU Design and Construction (Amazon D&C)-teamet er ingeniørteamet som designer og bygger Amazon-varehus. Teamet navigerer i et stort volum av dokumenter og finner riktig informasjon for å sikre at lagerdesignet oppfyller de høyeste standardene. I posten En generativ AI-drevet løsning på Amazon SageMaker for å hjelpe Amazon EU med design og konstruksjon, presenterte vi et spørsmål som besvarer bot-løsning ved å bruke en Retrieval Augmented Generation (RAG) rørledning med en finjustert stor språkmodell (LLM) for Amazon D&C for å effektivt hente nøyaktig informasjon fra et stort volum av uorganiserte dokumenter, og gi rettidige tjenester av høy kvalitet i byggeprosjektene deres. Amazon D&C-teamet implementerte løsningen i en pilot for Amazon-ingeniører og samlet inn tilbakemeldinger fra brukere.

I dette innlegget deler vi hvordan vi analyserte tilbakemeldingsdataene og identifiserte begrensninger for nøyaktighet og hallusinasjoner RAG ga, og brukte den menneskelige evalueringsskåren til å trene modellen gjennom forsterkning læring. For å øke treningsprøvene for bedre læring, brukte vi også en annen LLM for å generere tilbakemeldingspoeng. Denne metoden adresserte RAG-begrensningen og forbedret bot-responskvaliteten ytterligere. Vi presenterer forsterkende læringsprosessen og benchmarking-resultatene for å demonstrere LLM-ytelsesforbedringen. Løsningen bruker Amazon SageMaker JumpStart som kjernetjenesten for modelldistribusjon, finjustering og forsterkende læring.

Samle tilbakemeldinger fra Amazon-ingeniører i et pilotprosjekt

Etter å ha utviklet løsningen beskrevet i En generativ AI-drevet løsning på Amazon SageMaker for å hjelpe Amazon EU med design og konstruksjon, distribuerte Amazon D&C-teamet løsningen og kjørte et pilotprosjekt med Amazon-ingeniører. Ingeniørene fikk tilgang til pilotsystemet gjennom en nettapplikasjon utviklet av Strømbelyst, koblet til RAG-rørledningen. I rørledningen brukte vi Amazon OpenSearch-tjeneste for vektordatabasen, og distribuerte en finjustert Mistral-7B-Instruct-modell på Amazon SageMaker.

Et av hovedmålene med piloten er å samle tilbakemeldinger fra Amazon-ingeniører og bruke tilbakemeldingene til å redusere LLM-hallusinasjoner ytterligere. For å oppnå dette utviklet vi en tilbakemeldingsinnsamlingsmodul i brukergrensesnittet, som vist i følgende figur, og lagret nettsesjonsinformasjonen og brukertilbakemeldinger i Amazon DynamoDB. Gjennom brukergrensesnittet for tilbakemeldingsinnsamling kan Amazon-ingeniører velge mellom fem tilfredshetsnivåer: helt uenig, uenig, nøytral, enig og helt enig, tilsvarende tilbakemeldingsskårene fra 1–5. De kan også gi et bedre svar på spørsmålet eller kommentere hvorfor LLM-svaret ikke er tilfredsstillende.

menneskelig tilbakemelding UI

Under piloten ga brukerne 118 tilbakemeldinger. Følgende diagram viser fordelingen fra negativ til positiv. Vi observerte at de uriktige svarene markert med de negative tilbakemeldingene (uenig og helt uenig) er 45 % blant de totale tilbakemeldingene (53 av 118). Noen av feilene (omtrent 10 % av negative tilbakemeldinger og 7.5 % av de generelle svarene) kan løses ved hjelp av brukerutdanning og rask ingeniørarbeid. I tillegg kan vi løse problemet med løsningen av LLM-finjustering og forsterkende læring, beskrevet i neste avsnitt.

Tilbakemelding fra bruker fra pilot

Noen brukere la bare igjen et notat, for eksempel "Flott!" for de helt enig svarene, eller "Svarer ikke på spørsmålet," for de helt uenige svarene. Andre brukere ga poeng og forklarte hvordan de rettferdiggjør LLM-svarene i notatene sine. I det følgende eksemplet ga brukeren spesifikt tilstrekkelig dokument og innhold for å korrigere LLM-hallusinasjonen.

Spørsmål	Hvor mange parkeringsplasser har vi?
Bot svar	Basert på den gitte konteksten har vi ikke nok informasjon til å fastslå antall parkeringsplasser. Konteksten diskuterer minstestørrelse på parkeringsplasser og krav til utvendige lysnivåer, men det er ikke gitt et spesifikt antall parkeringsplasser. Du kan referere til ytterligere forklaringer i følgende ressurser: * ARS GEN 10.0/05.01.02. Designkriterier og vedlegg/ytelsespakke AR Sorterbare designkriterier v20.1.1.pdf – side: 10 * ARS GEN 10.0/05.01.02. Designkriterier og vedlegg/ytelsespakke AR Sorterbare designkriterier v20.1.1.pdf – side: 79
Brukerpoengsum	Sterkt uenig
Brukernotater	Dette er spesifisert på side 21 i designkriteriene avsnitt 01 13 10

Forbedre botresponsen med overvåket finjustering og forsterkende læring

Løsningen består av tre trinn med finjustering:

Utfør overvåket finjustering ved å bruke merkede data. Denne metoden ble beskrevet i En generativ AI-drevet løsning på Amazon SageMaker for å hjelpe Amazon EU med design og konstruksjon.
Samle tilbakemeldinger fra brukere for å merke spørsmål-svar-parene for ytterligere LLM-innstilling.
Når treningsdataene er klare, kan du justere modellen ytterligere ved hjelp av forsterkende læring fra menneskelig tilbakemelding (RLHF).

RLHF er mye brukt gjennom generativ kunstig intelligens (AI) og LLM-applikasjoner. Den inkorporerer menneskelig tilbakemelding i belønningsfunksjonen og trener modellen med en forsterkende læringsalgoritme for å maksimere belønningene, noe som gjør at modellen utfører oppgaver mer på linje med menneskelige mål. Følgende diagram viser rørledningen til trinnene.

Finjusterende arbeidsflyt

Vi testet metodikken ved å bruke Amazon D&C-dokumentene med en Mistral-7B-modell på SageMaker JumpStart.

Overvåket finjustering

I forrige innlegg demonstrerte vi hvordan den finjusterte Falcon-7B-modellen overgår RAG-rørledningen og forbedrer kvaliteten og nøyaktigheten til QA-botresponsen. For dette innlegget utførte vi overvåket finjustering på Mistral-7B-modellen. Den overvåkede finjusteringen brukte PEFT/LoRA-teknikken (LoRA_r = 512, LoRA_alpha = 1024) på 436,207,616 5.68 7,677,964,288 parametere (3.8 % av de totale 137 20 XNUMX XNUMX parameterne). Treningen ble utført på en pXNUMXx-node med XNUMX prøver syntetisk generert av LLM og validert av mennesker; prosessen er godt konvergert etter XNUMX epoker, som vist i følgende figur.

SFT opplæringsprosess

Den finjusterte modellen ble validert av 274 utvalg, og slutningsresultatene ble sammenlignet med referansesvarene ved den semantiske likhetsskåren. Poengsummen er 0.8100, som er høyere enn poengsummen på 0.6419 fra den tradisjonelle RAG.

Samle tilbakemeldinger fra mennesker og AI for forsterkende læring

For RLHF er en tilstrekkelig mengde opplæringsprøver av høy kvalitet merket av fageksperter (SMB) avgjørende. Imidlertid vil etiketter av dårlig kvalitet sannsynligvis føre til dårligere modellytelse enn den originale modellen etter RLHF-trening. SMBs tid er en knapp ressurs i enhver organisasjon; Å gjennomgå hundrevis eller tusenvis av LLM-svar og gi tilbakemelding krever en betydelig tidsinvestering fra SMB-er som kanskje ikke har en klar avkastning på investeringen.

For å møte denne utfordringen vedtok vi forsterkende læring fra AI-tilbakemeldinger (RLAIF) metode. RLAIF ansetter en AI-assistent (en annen LLM) for å gi evalueringspoeng, i stedet for fra mennesker. I denne hybride læringstilnærmingen foredler læringsagenten handlingene ikke bare basert på interaksjonen med et menneske, men også fra tilbakemeldinger fra en annen AI-modell. Det er mye mer skalerbart å gi tilstrekkelig opplæringsdata for forsterkende læring, og mye mindre subjektivt fordi opplæringen ikke er avhengig av spesielle preferanser fra en liten gruppe små og mellomstore bedrifter. SMB-ene kan fortsatt være involvert, men bare for å overvåke prosessen og undersøke AI-tilbakemeldingskvaliteten. Dette reduserer SMBs arbeidsbelastning enormt, fordi de AI-genererte poengsummene og etikettene er mye mindre kompliserte for SMBer å analysere, filtrere og sortere.

I dette tilfellet gir vi følgende melding til en antropisk Claude 2-modell for å generere evalueringsskårene som treningseksempler for trinnet for forsterkning:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

Claude 2-modellen genererer en evalueringsscore og en kommentar om hvorfor poengsummen er gitt, som vist i følgende eksempel.

Spørsmål	Hva menes med "Fit Out Works" i denne sammenhengen?
Referansesvar	Fit Out Works refererer til arbeider utført i henhold til byggekontrakten av eller på vegne av Amazon via utvikleren frem til første mottaksdato fra en tenkt utvikler Shell & Core Base-byggeposisjon. Disse verkene inkluderer Amazons nødvendige Fit-Outs, storboksinstallasjoner og tilpassede
QA Bot-svar	Fit Out Works refererer til arbeider utført i henhold til byggekontrakten av eller på vegne av Amazon via utvikleren frem til første mottaksdato fra en tenkt utvikler Shell & Core Base-byggeposisjon.
AI-poengsum	4.5
AI-kommentar	Maskinsvaret gir nøkkelinformasjonen fra standardsvaret – at Fit Out Works refererer til arbeider utført under byggekontrakten av eller på vegne av Amazon via utvikleren frem til første mottaksdato fra en ideell utvikler Shell & Core Base-byggeposisjon . Tilleggsdetaljene om inkludert Amazons nødvendige Fit-Outs, storboksinstallasjoner og tilpasninger er relevante og bidrar til å gi ytterligere kontekst, så jeg har scoret maskinsvaret 4.5 av 5. Det fanger opp essensen av standardsvaret og gir noen nyttige ekstra detaljer.

Av de 274 valideringsspørsmålene genererte den overvåkede finjusterte modellen 159 svar som har AI-skåre høyere enn 4. Vi observerte 60 svar med skårer lavere enn 3; det er plass til å forbedre den generelle responskvaliteten.

Tilbakemeldingspoeng før RLHF

Amazon Engineering SMB validerte denne AI-tilbakemeldingen og anerkjente fordelene ved å bruke AI-poeng. Uten AI-tilbakemelding, ville SMB-ene trenge litt tid til å gjennomgå og analysere hver LLM-respons for å identifisere avskjærende svar og hallusinasjoner, og for å bedømme om LLM returnerer riktig innhold og nøkkelkonsepter. AI-tilbakemelding gir automatisk AI-poeng og gjør det mulig for SMB-er å bruke filtrering, sortering og gruppering for å validere poengsummene og identifisere trender i svarene. Dette reduserer gjennomsnittlig SMBs gjennomgangstid med 80 %.

Forsterkende læring fra tilbakemeldinger fra mennesker og AI

Når treningsprøvene er klare, bruker vi algoritme for proksimal policyoptimalisering (PPO). å utføre forsterkende læring. PPO bruker en policygradientmetode, som tar små skritt for å oppdatere policyen i læringsprosessen, slik at læringsagentene pålitelig kan nå det optimale policynettverket. Dette gjør treningsprosessen mer stabil og reduserer muligheten for divergens.

I løpet av treningen bruker vi først menneske- og AI-merkede data til å bygge en belønningsmodell, som skal brukes som veiledning for vektoppdateringen i læringsprosessen. For denne brukssaken velger vi en distilroberta-basert belønningsmodell og trener den med prøver i følgende format:

[Instruction, Chosen_response, Rejected_response]

Følgende er et eksempel på en treningsrekord.

Instruksjon	Hva spesifiseres i henhold til konteksten for inkluderende og tilgjengelig design?
Valgt_svar	BREEAM Credit HEA06 – inkluderende og tilgjengelig design – Bygningen er designet for å passe til formålet, hensiktsmessig og tilgjengelig for alle potensielle brukere. En tilgangsstrategi er utviklet i tråd med BREEAM sjekkliste A3
Rejected_response	Konteksten sier det

Belønningsmodellen trenes med læringsgraden 1e-5. Som vist i følgende diagram, konvergerer treningsbrønnen etter 10 epoker.

RLHF opplæringsprosess

Deretter brukes belønningsmodellen til forsterkende læring. For denne brukssaken bruker vi PEFT/LoRA for å akselerere læringen. LoRA_r er 32 og LoRA_alpha er 64. PPO-basert læring er på en rate på 1.41e-5 i tre epoker. Forsterkningstrening er svært flyktig og svært følsom for etikettdata og tilbakemeldingsdata. Vi bruker reward_mean-metrikken, den gjennomsnittlige belønningen oppnådd fra miljøet ved spesifikt å overvåke belønningsmodellen, for å observere læringsprosessen.

Etter RLAIF kan vi se antall bot-svar med positive skårer (over 3) øke fra 78.1 % til 85.5 %, og de med negative skårer (under 3) reduseres fra 21.9 % til 14.5 %. Totalt øker gjennomsnittlig AI-tilbakemeldingspoeng med opptil 8 %, fra 3.9 til 4.2.

Forbedring av RLAIF

Du kan se forbedringen i følgende eksempel.

Spørsmål	Hvilken avrettingsmasse trengs for gulvarealer som flislegges?
Referanse	Betonggulv kan kun brukes i gulvfliser. Se tegningsserie A-32 for å se hvor gulvfliser kan brukes.
Bot-svar før RLAIF	Betonggulv kan kun brukes i
AI-score før RLAIF	3
Bot-svar etter RLAIF	Betonggulv kan kun brukes i områder som flislegges. Se tegningsserie A-32 for å se hvor flisgulv kan brukes.
AI-score etter RLAIF	4.5

konklusjonen

Dette innlegget er en fortsettelse av vårt arbeid med Amazon EU Design and Construction-teamet som diskutert i En generativ AI-drevet løsning på Amazon SageMaker for å hjelpe Amazon EU med design og konstruksjon. I dette innlegget viste vi hvordan vi genererte menneskelige og AI-tilbakemeldingsdata for å finjustere Mistral-7B-modellen med forsterkende læring. Modellen etter RLAIF ga bedre ytelse for Amazon Engineerings spørsmålssvarrobot, forbedret AI-tilbakemeldingsscore med 8 %. I Amazon D&C-teamets pilotprosjekt reduserte bruk av RLAIF valideringsarbeidet for SMB med anslagsvis 80 %. Som neste trinn skal vi oppskalere denne løsningen ved å koble til Amazon Engineerings datainfrastruktur, og designe et rammeverk for å automatisere den kontinuerlige læringsprosessen med et menneske i løkken. Vi vil også forbedre AI-tilbakemeldingskvaliteten ytterligere ved å justere forespørselsmalen.

Gjennom denne prosessen lærte vi hvordan vi kan forbedre kvaliteten og ytelsen til spørsmålsoppgaver ytterligere gjennom RLHF og RLAIF.

Menneskelig validering og forsterkning er avgjørende for å gi nøyaktige og ansvarlige resultater fra LLM. Den menneskelige tilbakemeldingen kan brukes i RLHF for å forbedre modellresponsen ytterligere.
RLAIF automatiserer evaluerings- og læringssyklusen. Den AI-genererte tilbakemeldingen er mindre subjektiv fordi den ikke avhenger av en spesiell preferanse fra en liten gruppe SMBer.
RLAIF er mer skalerbar for å forbedre botkvaliteten gjennom kontinuerlig forsterkende læring, samtidig som innsatsen som kreves fra SMB-er minimeres. Det er spesielt nyttig for å utvikle domenespesifikke generative AI-løsninger i store organisasjoner.
Denne prosessen bør gjøres med jevne mellomrom, spesielt når nye domenedata er tilgjengelige for å dekkes av løsningen.

I dette tilfellet brukte vi SageMaker JumpStart for å teste flere LLM-er og eksperimentere med flere LLM-treningstilnærminger. Det akselererer AI-tilbakemelding og læringssyklus betydelig med maksimert effektivitet og kvalitet. For ditt eget prosjekt kan du introdusere menneske-i-løkken-tilnærmingen for å samle brukernes tilbakemeldinger, eller generere AI-tilbakemelding ved å bruke en annen LLM. Deretter kan du følge den tre-trinns prosessen som er definert i dette innlegget for å finjustere modellene dine ved hjelp av RLHF og RLAIF. Vi anbefaler å eksperimentere med metodene ved å bruke SageMaker JumpStart for å fremskynde prosessen.

om forfatteren

Yunfei Bai er Senior Solutions Architect hos AWS. Med bakgrunn innen AI/ML, datavitenskap og analyse hjelper Yunfei kundene med å ta i bruk AWS-tjenester for å levere forretningsresultater. Han designer AI/ML og dataanalyseløsninger som overvinner komplekse tekniske utfordringer og driver strategiske mål. Yunfei har en doktorgrad i elektronikk og elektroteknikk. Utenom jobben liker Yunfei å lese og musikk.

Elad Dwek er en Construction Technology Manager hos Amazon. Med bakgrunn innen konstruksjon og prosjektledelse hjelper Elad team med å ta i bruk nye teknologier og databaserte prosesser for å levere byggeprosjekter. Han identifiserer behov og løsninger, og legger til rette for utvikling av skreddersydde attributter. Elad har en MBA og en BSc i konstruksjonsteknikk. Utenom jobben liker Elad yoga, trearbeid og å reise med familien.

Luca Cerabone er Business Intelligence Engineer hos Amazon. Med bakgrunn i sin bakgrunn innen datavitenskap og analyse, skreddersyr Luca tekniske løsninger for å møte de unike behovene til kundene hans, og driver dem mot mer bærekraftige og skalerbare prosesser. Bevæpnet med en MSc i datavitenskap, liker Luca å engasjere seg i DIY-prosjekter, hagearbeid og eksperimentere med kulinariske herligheter i fritidsøyeblikkene.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://aws.amazon.com/blogs/machine-learning/improve-llm-performance-with-human-and-ai-feedback-on-amazon-sagemaker-for-amazon-engineering/

Generativ dataintelligens

Forbedre LLM-ytelsen med tilbakemeldinger fra mennesker og AI på Amazon SageMaker for Amazon Engineering | Amazon Web Services

Samle tilbakemeldinger fra Amazon-ingeniører i et pilotprosjekt

Forbedre botresponsen med overvåket finjustering og forsterkende læring

Overvåket finjustering

Samle tilbakemeldinger fra mennesker og AI for forsterkende læring

Forsterkende læring fra tilbakemeldinger fra mennesker og AI

konklusjonen

om forfatteren

OpenAI kan utfordre Google og forvirring med AI-drevet søk: Rapporter – Dekrypter

Kryptohvaler snapper opp 2.9 milliarder dollar i Bitcoin i endagsvanvidd

Siste etterretning

Nigeria er klar til å forby P2P-kryptohandel på grunn av nasjonale sikkerhetshensyn

Web3-spillmottak skifter fra skepsis til entusiasme: Shrapnel's Head of Studio

SEC under Trump ville "kraftig forfølge" kryptoregulering - sier tidligere regulator

Greyscale Bitcoin ETF snapper tapsrekke, trekker inn $63 millioner – Dekrypter

CISO Corner: Verizon DBIR Lessons; Arbeidsplass mikroaggresjon; Shadow APIer

CISO Corner: Verizon DBIR Lessons; Arbeidsplass mikroaggresjon; Shadow APIer

Chat med oss