Generativna podatkovna inteligenca

Izboljšajte učinkovitost LLM s povratnimi informacijami ljudi in umetne inteligence na Amazon SageMaker za Amazon Engineering | Spletne storitve Amazon

Datum:

Skupina Amazon EU Design and Construction (Amazon D&C) je inženirska ekipa, ki načrtuje in gradi Amazonova skladišča. Ekipa krmari po velikem obsegu dokumentov in išče prave informacije, da zagotovi, da zasnova skladišča izpolnjuje najvišje standarde. V postu Generativna rešitev, ki temelji na umetni inteligenci, na Amazon SageMaker za pomoč Amazon EU Design and Construction, smo predstavili rešitev bota za odgovarjanje na vprašanja z uporabo a Povečana generacija pridobivanja (RAG) cevovod s fino nastavljenim velik jezikovni model (LLM) za Amazon D&C za učinkovito pridobivanje natančnih informacij iz velike količine neurejenih dokumentov ter zagotavljanje pravočasnih in visokokakovostnih storitev pri njihovih gradbenih projektih. Ekipa Amazon D&C je rešitev uvedla v pilotnem projektu za Amazonove inženirje in zbrala povratne informacije uporabnikov.

V tej objavi delimo, kako smo analizirali povratne podatke in ugotovili omejitve natančnosti in halucinacij, ki jih je zagotovil RAG, ter uporabili oceno človeške ocene za usposabljanje modela okrepljeno učenje. Da bi povečali vzorce usposabljanja za boljše učenje, smo uporabili tudi drug LLM za ustvarjanje rezultatov povratnih informacij. Ta metoda je obravnavala omejitev RAG in dodatno izboljšala kakovost odziva bota. Predstavljamo proces učenja za okrepitev in rezultate primerjalne analize, da pokažemo izboljšanje uspešnosti LLM. Rešitev uporablja Amazon SageMaker JumpStart kot temeljna storitev za uvajanje modela, fino uravnavanje in učenje krepitve.

Zberi povratne informacije Amazonovih inženirjev v pilotnem projektu

Po razvoju rešitve, opisane v Generativna rešitev, ki temelji na umetni inteligenci, na Amazon SageMaker za pomoč Amazon EU Design and Construction, je ekipa Amazon D&C uvedla rešitev in izvedla pilotni projekt z Amazonovimi inženirji. Inženirji so do pilotnega sistema dostopali prek spletne aplikacije, ki jo je razvil Poenostavljeno, povezan s cevovodom RAG. V pripravi smo uporabili Storitev Amazon OpenSearch za vektorsko bazo podatkov in uvedel natančno nastavljen model Mistral-7B-Instruct na Amazon SageMaker.

Eden od ključnih ciljev pilota je zbrati povratne informacije Amazonovih inženirjev in uporabiti povratne informacije za nadaljnje zmanjšanje halucinacij LLM. Da bi to dosegli, smo razvili modul za zbiranje povratnih informacij v uporabniškem vmesniku, kot je prikazano na naslednji sliki, ter shranili informacije o spletni seji in povratne informacije uporabnikov v Amazon DynamoDB. Z uporabniškim vmesnikom za zbiranje povratnih informacij lahko Amazonovi inženirji izbirajo med petimi stopnjami zadovoljstva: sploh se ne strinjam, ne strinjam, nevtralno, se strinjam in se popolnoma strinjam, kar ustreza ocenam povratnih informacij od 1 do 5. Prav tako lahko ponudijo boljši odgovor na vprašanje ali komentirajo, zakaj odgovor LLM ni zadovoljiv.

uporabniški vmesnik s človeškimi povratnimi informacijami

Med pilotom so uporabniki posredovali 118 povratnih informacij. Naslednji grafikon prikazuje porazdelitev od negativne do pozitivne. Opazili smo, da je nepravilnih odgovorov, označenih z negativnimi povratnimi informacijami (ne strinjam se in sploh se ne strinjam), 45 % vseh povratnih informacij (53 od 118). Nekatere napake (približno 10 % negativnih povratnih informacij in 7.5 % vseh odgovorov) je mogoče odpraviti z izobraževanjem uporabnikov in hitrim inženiringom. Poleg tega lahko težavo rešimo z rešitvijo natančnega uravnavanja in učenja s krepitvijo LLM, ki je opisana v naslednjem razdelku.

Povratne informacije uporabnikov od pilota

Nekateri uporabniki so preprosto pustili opombo, na primer »Super!« za odgovore, ki se popolnoma strinjajo, ali "Ne odgovarja na vprašanje," za odgovore, ki se popolnoma ne strinjajo. Drugi uporabniki so podali ocene in razložili, kako utemeljujejo odgovore LLM v svojih zapiskih. V naslednjem primeru je uporabnik posebej zagotovil ustrezen dokument in vsebino za popravek halucinacije LLM.

Vprašanje Koliko parkirnih mest imamo?
Botov odgovor

Glede na dani kontekst nimamo dovolj podatkov za določitev števila parkirnih mest. Kontekst govori o minimalni velikosti parkirnih mest in zahtevah glede nivojev zunanje osvetlitve, vendar ne določa konkretnega števila parkirnih mest.

**Nadaljnja pojasnila si lahko ogledate v naslednjih virih:**

* ARS GEN 10.0/05.01.02. Merila zasnove in dodatki/Paket zmogljivosti AR Razvrščljiva merila za zasnovo v20.1.1.pdf – stran: 10

* ARS GEN 10.0/05.01.02. Merila zasnove in dodatki/Paket zmogljivosti AR Razvrščljiva merila za zasnovo v20.1.1.pdf – stran: 79

Ocena uporabnika Sem močno proti
Opombe uporabnikov To je določeno na strani 21 oddelka meril za projektiranje 01 13 10

Izboljšajte odziv bota z nadzorovanim finim prilagajanjem in učenjem okrepitve

Rešitev je sestavljena iz treh korakov natančnega prilagajanja:

  1. Izvedite nadzorovano fino uravnavanje z uporabo označenih podatkov. Ta metoda je bila opisana v Generativna rešitev, ki temelji na umetni inteligenci, na Amazon SageMaker za pomoč Amazon EU Design and Construction.
  2. Zberite povratne informacije uporabnikov, da označite pare vprašanje-odgovor za nadaljnjo prilagoditev LLM.
  3. Ko so podatki o usposabljanju pripravljeni, dodatno prilagodite model z uporabo krepitev učenja iz človeških povratnih informacij (RLHF).

RLHF se pogosto uporablja v aplikacijah generativne umetne inteligence (AI) in LLM. Vključuje človeške povratne informacije v funkciji nagrajevanja in usposablja model z algoritmom učenja z okrepitvijo, da poveča nagrade, zaradi česar model izvaja naloge, ki so bolj usklajene s človeškimi cilji. Naslednji diagram prikazuje cevovod korakov.

Potek dela za natančno nastavitev

Metodologijo smo preizkusili z uporabo dokumentov Amazon D&C z modelom Mistral-7B na SageMaker JumpStart.

Nadzorovana fina nastavitev

V prejšnji objavi smo pokazali, kako natančno nastavljen model Falcon-7B prekaša cevovod RAG in izboljša kakovost in natančnost odziva QA bota. Za to objavo smo izvedli nadzorovano fino uravnavanje na modelu Mistral-7B. Pri nadzorovanem natančnem uravnavanju je bila uporabljena tehnika PEFT/LoRA (LoRA_r = 512, LoRA_alpha = 1024) pri 436,207,616 parametrih (5.68 % od skupno 7,677,964,288 parametrov). Usposabljanje je potekalo na vozlišču p3.8x s 137 vzorci, ki jih je sintetično ustvaril LLM in potrdili ljudje; proces je dobro konvergiran po 20 epohah, kot je prikazano na naslednji sliki.

Proces usposabljanja SFT

Natančno prilagojen model je bil potrjen s 274 vzorci, rezultati sklepanja pa so bili primerjani z referenčnimi odgovori s semantično oceno podobnosti. Rezultat je 0.8100, kar je višje od rezultata 0.6419 iz tradicionalnega RAG.

Zberite povratne informacije ljudi in umetne inteligence za okrepitveno učenje

Za RLHF je bistvenega pomena zadostna količina visokokakovostnih vzorcev usposabljanja, ki jih označijo strokovnjaki za predmet (SME). Vendar pa bodo slabokakovostne človeške oznake verjetno povzročile slabšo zmogljivost modela kot prvotni model po usposabljanju RLHF. Čas za MSP je redek vir v kateri koli organizaciji; pregled na stotine ali tisoče odgovorov LLM in zagotavljanje povratnih informacij zahteva precejšnjo časovno naložbo MSP, ki morda nimajo jasne donosnosti naložbe.

Za reševanje tega izziva smo sprejeli krepitev učenja iz povratnih informacij AI (RLAIF) metoda. RLAIF zaposluje pomočnika z umetno inteligenco (še enega magistra študija prava), ki zagotavlja ocenjevalne rezultate, ne pa od ljudi. Pri tem pristopu hibridnega učenja učni agent izpopolni dejanja ne le na podlagi interakcije s človekom, temveč tudi na podlagi povratnih informacij, ki jih zagotovi drug model AI. Zagotavljanje zadostnih podatkov o usposabljanju za okrepitveno učenje je veliko bolj razširljivo in veliko manj subjektivno, ker usposabljanje ni odvisno od posebnih preferenc majhne skupine MSP. Mala in srednja podjetja so lahko še vedno vključena, vendar le za nadzor postopka in preverjanje kakovosti povratnih informacij AI. To izjemno zmanjša delovno obremenitev malih in srednje velikih podjetij, saj so ocene in oznake, ustvarjene z umetno inteligenco, za MSP veliko manj zapletene za analizo, filtriranje in razvrščanje.

V tem primeru uporabe zagotovimo naslednji poziv modelu Anthropic Claude 2 za generiranje rezultatov ocenjevanja kot vzorce usposabljanja za korak okrepljenega učenja:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

Model Claude 2 ustvari ocenjevalno oceno in komentar o tem, zakaj je ocena podana, kot je prikazano v naslednjem primeru.

Vprašanje Kaj pomeni "Fit Out Works" v tem kontekstu?
Referenčni odgovor Montažna dela se nanašajo na dela, ki jih v skladu z gradbeno pogodbo izvede Amazon ali v njegovem imenu prek razvijalca do datuma prvega prejema od navideznega položaja razvijalca Shell & Core Base-build. Ta dela vključujejo Amazonove zahtevane opremljanja, namestitve velikih škatel in po meri
QA Bot odgovor Montažna dela se nanašajo na dela, ki jih v skladu z gradbeno pogodbo izvede Amazon ali v njegovem imenu prek razvijalca do datuma prvega prejema od navideznega položaja razvijalca Shell & Core Base-build.
Rezultat AI 4.5
Komentar AI Strojni odgovor zagotavlja ključne informacije iz standardnega odgovora – da se Fit Out Works nanaša na dela, ki jih v skladu z gradbeno pogodbo izvede Amazon ali v njegovem imenu prek razvijalca do datuma prvega prejema iz navideznega položaja razvijalca Shell & Core Base-build. . Dodatne podrobnosti o vključevanju Amazonovih zahtevanih opremljanj, namestitve velikih škatel in prilagoditev so ustrezne in pomagajo zagotoviti nadaljnji kontekst, zato sem strojni odgovor ocenil s 4.5 od 5. Zajema bistvo standardnega odgovora in ponuja nekaj uporabne dodatne podrobnosti.

Od 274 validacijskih vprašanj je nadzorovani natančno nastavljeni model ustvaril 159 odgovorov, ki imajo ocene AI, višje od 4. Opazili smo 60 odgovorov z rezultati, nižjimi od 3; obstaja prostor za izboljšanje splošne kakovosti odziva.

Rezultat povratne informacije pred RLHF

Mala in srednja podjetja Amazon Engineering so potrdila te povratne informacije o umetni inteligenci in priznala prednosti uporabe rezultatov umetne inteligence. Brez povratnih informacij umetne inteligence bi mala in srednja podjetja potrebovala nekaj časa za pregled in analizo vsakega odziva LLM, da bi prepoznala mejne odgovore in halucinacije ter ocenila, ali LLM vrača pravilno vsebino in ključne koncepte. Povratne informacije umetne inteligence samodejno zagotavljajo ocene umetne inteligence in malim in srednje velikim podjetjem omogočajo uporabo filtriranja, razvrščanja in združevanja za potrditev rezultatov in prepoznavanje trendov v odgovorih. To skrajša čas pregleda povprečnega MSP za 80 %.

Okrepitveno učenje iz povratnih informacij ljudi in umetne inteligence

Ko so vzorci za usposabljanje pripravljeni, uporabimo algoritem za optimizacijo proksimalne politike (PPO). izvajati učenje s krepitvijo. PPO uporablja metodo gradienta politike, ki z majhnimi koraki posodablja politiko v učnem procesu, tako da lahko učni agenti zanesljivo dosežejo optimalno mrežo politik. S tem je proces treninga bolj stabilen in zmanjšana možnost razhajanj.

Med usposabljanjem najprej uporabimo podatke, označene s človekom in AI, da zgradimo model nagrajevanja, ki bo uporabljen pri usmerjanju posodobitve uteži v procesu učenja. Za ta primer uporabe izberemo model nagrajevanja na osnovi distilroberta in ga usposobimo z vzorci v naslednji obliki:

[Instruction, Chosen_response, Rejected_response]

Sledi primer zapisa o usposabljanju.

Navodila Kaj je glede na kontekst določeno za vključujoče in dostopno oblikovanje?
Izbrani_odziv BREEAM Credit HEA06 – vključujoča in dostopna zasnova – stavba je zasnovana tako, da ustreza namenu, primerna in dostopna vsem potencialnim uporabnikom. Strategija dostopa je razvita v skladu s kontrolnim seznamom A3 BREEAM
Zavrnjen_odgovor Kontekst navaja, da

Model nagrajevanja se uri s stopnjo učenja 1e-5. Kot je prikazano v naslednji tabeli, se vadbena vrtina konvergira po 10 epohah.

Trenažni proces RLHF

Nato se model nagrajevanja uporabi za učenje s krepitvijo. Za ta primer uporabe uporabljamo PEFT/LoRA za pospešitev učenja. LoRA_r je 32, LoRA_alpha pa 64. Učenje, ki temelji na PPO, je na stopnji 1.41e-5 v treh obdobjih. Okrepitveno usposabljanje je zelo nestanovitno in zelo občutljivo na podatke o oznaki in povratne informacije. Za opazovanje učnega procesa uporabljamo metriko reward_mean, povprečno nagrado, pridobljeno iz okolja s posebnim spremljanjem modela nagrajevanja.

Po RLAIF lahko vidimo, da se je število odzivov botov s pozitivnimi ocenami (nad 3) povečalo z 78.1 % na 85.5 %, tistih z negativnimi ocenami (pod 3) pa se je zmanjšalo z 21.9 % na 14.5 %. Skupaj se povprečna povratna ocena umetne inteligence poveča do 8 %, s 3.9 na 4.2.

Izboljšava RLAIF

Izboljšanje lahko vidite v naslednjem primeru.

Vprašanje Kakšen estrih je potreben za talne površine, ki so obložene s ploščicami?
Reference Betonski estrih se uporablja samo na območjih s ploščicami. Glejte serijo risb A-32, da vidite, kje so talne ploščice uporabne.
Odgovor bota pred RLAIF Betonski estrih se uporablja samo v
Rezultat AI pred RLAIF 3
Odgovor bota po RLAIF Betonski estrih se uporablja samo na območjih, ki so obložena s ploščicami. Glejte serijo risb A-32, da vidite, kje je mogoče uporabiti ploščice.
Rezultat AI po RLAIF 4.5

zaključek

Ta objava je nadaljevanje našega dela z ekipo Amazon EU za načrtovanje in gradnjo, kot je opisano v Generativna rešitev, ki temelji na umetni inteligenci, na Amazon SageMaker za pomoč Amazon EU Design and Construction. V tej objavi smo pokazali, kako smo ustvarili povratne podatke ljudi in umetne inteligence za natančno nastavitev modela Mistral-7B z učenjem okrepitve. Model po RLAIF je zagotovil boljšo zmogljivost za bot Amazon Engineering za odgovarjanje na vprašanja, izboljšal povratne informacije AI za 8 %. V pilotnem projektu skupine Amazon D&C je uporaba RLAIF zmanjšala delovno obremenitev validacije za MSP za približno 80 %. Kot naslednji korak bomo razširili to rešitev s povezovanjem s podatkovno infrastrukturo Amazon Engineering in oblikovali okvir za avtomatizacijo neprekinjenega procesa učenja s človekom v zanki. Dodatno bomo izboljšali tudi kakovost povratnih informacij AI s prilagajanjem predloge poziva.

S tem postopkom smo se naučili, kako dodatno izboljšati kakovost in učinkovitost nalog odgovarjanja na vprašanja prek RLHF in RLAIF.

  • Človeška validacija in nadgradnja sta bistveni za zagotavljanje natančnih in odgovornih rezultatov LLM. Človeške povratne informacije se lahko uporabijo v RLHF za nadaljnje izboljšanje odziva modela.
  • RLAIF avtomatizira cikel vrednotenja in učenja. Povratne informacije, ustvarjene z umetno inteligenco, so manj subjektivne, ker niso odvisne od posebnih preferenc majhne skupine MSP.
  • RLAIF je bolj razširljiv za izboljšanje kakovosti botov z nenehnim krepitvenim učenjem, hkrati pa zmanjšuje prizadevanja, ki jih zahtevajo MSP. Še posebej je uporaben za razvoj domensko specifičnih generativnih rešitev AI v velikih organizacijah.
  • Ta postopek je treba izvajati redno, zlasti ko so na voljo novi podatki o domeni, ki jih bo pokrila rešitev.

V tem primeru uporabe smo uporabili SageMaker JumpStart za testiranje več LLM in eksperimentiranje z več pristopi k usposabljanju LLM. Znatno pospeši povratne informacije AI in cikel učenja z maksimalno učinkovitostjo in kakovostjo. Za svoj projekt lahko uvedete pristop človeka v zanki za zbiranje povratnih informacij vaših uporabnikov ali ustvarite povratne informacije AI z uporabo drugega LLM. Nato lahko sledite postopku v treh korakih, opredeljenem v tej objavi, da natančno prilagodite svoje modele z uporabo RLHF in RLAIF. Priporočamo, da preizkusite metode s SageMaker JumpStart, da pospešite postopek.


O Author

YunfeiYunfei Bai je višji arhitekt rešitev pri AWS. Yunfei z izkušnjami na področju AI/ML, znanosti o podatkih in analitike strankam pomaga pri sprejemanju storitev AWS za zagotavljanje poslovnih rezultatov. Oblikuje rešitve AI/ML in podatkovno analitiko, ki premagujejo zapletene tehnične izzive in usmerjajo strateške cilje. Yunfei ima doktorat iz elektronike in elektrotehnike. Zunaj službe Yunfei uživa v branju in glasbi.

Elad_fotoElad Dwek je vodja gradbene tehnologije pri Amazonu. Z izkušnjami na področju gradbeništva in vodenja projektov Elad pomaga ekipam pri sprejemanju novih tehnologij in procesov, ki temeljijo na podatkih, za izvedbo gradbenih projektov. Identificira potrebe in rešitve ter olajša razvoj atributov po meri. Elad ima MBA in BSc iz gradbenega inženirstva. Zunaj dela Elad uživa v jogi, obdelavi lesa in potovanjih z družino.

Luca_fotografijaLuca Cerabone je inženir poslovne inteligence pri Amazonu. Izhajajoč iz svojega ozadja podatkovne znanosti in analitike, Luca oblikuje prilagojene tehnične rešitve za izpolnjevanje edinstvenih potreb svojih strank ter jih usmerja k bolj trajnostnim in razširljivim procesom. Oborožen z magisterijem znanosti o podatkih, Luca uživa v projektih DIY, vrtnarjenju in eksperimentiranju s kulinaričnimi užitki v svojih prostih trenutkih.

spot_img

Najnovejša inteligenca

spot_img

Klepetajte z nami

Zdravo! Kako vam lahko pomagam?