Inteligența generativă a datelor

Îmbunătățiți performanța LLM cu feedback uman și AI pe Amazon SageMaker pentru Amazon Engineering | Amazon Web Services

Data:

Echipa Amazon EU Design and Construction (Amazon D&C) este echipa de ingineri care proiectează și construiește depozite Amazon. Echipa navighează într-un volum mare de documente și localizează informațiile potrivite pentru a se asigura că designul depozitului îndeplinește cele mai înalte standarde. În postare O soluție generativă bazată pe inteligență artificială pe Amazon SageMaker pentru a ajuta Amazon EU Design și Construcție, am prezentat o soluție bot cu răspunsuri la întrebări folosind a Recuperare Augmented Generation (RAG) conductă cu un reglaj fin model de limbaj mare (LLM) pentru Amazon D&C pentru a prelua în mod eficient informații precise dintr-un volum mare de documente neorganizate și pentru a oferi servicii la timp și de înaltă calitate în proiectele lor de construcție. Echipa Amazon D&C a implementat soluția într-un pilot pentru inginerii Amazon și a colectat feedback-ul utilizatorilor.

În această postare, împărtășim modul în care am analizat datele de feedback și am identificat limitările de acuratețe și halucinațiile furnizate de RAG și am folosit scorul de evaluare umană pentru a antrena modelul prin Consolidarea învățării. Pentru a crește eșantioanele de instruire pentru o învățare mai bună, am folosit și un alt LLM pentru a genera scoruri de feedback. Această metodă a abordat limitarea RAG și a îmbunătățit și mai mult calitatea răspunsului botului. Prezentăm procesul de învățare prin consolidare și rezultatele benchmarking-ului pentru a demonstra îmbunătățirea performanței LLM. Soluția folosește Amazon SageMaker JumpStart ca serviciu de bază pentru implementarea modelului, reglarea fină și învățarea de consolidare.

Colectați feedback de la inginerii Amazon într-un proiect pilot

După elaborarea soluției descrise în O soluție generativă bazată pe inteligență artificială pe Amazon SageMaker pentru a ajuta Amazon EU Design și Construcție, echipa Amazon D&C a implementat soluția și a derulat un proiect pilot cu inginerii Amazon. Inginerii au accesat sistemul pilot printr-o aplicație web dezvoltată de Iluminat în flux, conectat la conducta RAG. În pregătire, am folosit Serviciul Amazon OpenSearch pentru baza de date vectorială și a implementat un model Mistral-7B-Instruct reglat pe Amazon SageMaker.

Unul dintre obiectivele cheie ale pilotului este de a colecta feedback de la inginerii Amazon și de a utiliza feedback-ul pentru a reduce și mai mult halucinațiile LLM. Pentru a realiza acest lucru, am dezvoltat un modul de colectare a feedback-ului în interfața de utilizare, așa cum se arată în figura următoare, și am stocat informațiile despre sesiunea web și feedbackul utilizatorului în Amazon DynamoDB. Prin interfața de utilizare pentru colectarea feedback-ului, inginerii Amazon pot selecta dintre cinci niveluri de satisfacție: total dezacord, dezacord, neutru, de acord și puternic de acord, corespunzătoare scorurilor de feedback de la 1 la 5. Ele pot oferi, de asemenea, un răspuns mai bun la întrebare sau un comentariu cu privire la motivul pentru care răspunsul LLM nu este satisfăcător.

interfața de utilizare pentru feedback uman

În timpul pilotului, utilizatorii au oferit 118 răspunsuri de feedback. Următorul grafic arată distribuția de la negativ la pozitiv. Am observat că răspunsurile incorecte marcate de feedback-ul negativ (dezacord și puternic dezacord) sunt 45% din feedback-ul total (53 din 118). Unele dintre erori (aproximativ 10% din feedbackul negativ și 7.5% din răspunsurile generale) pot fi abordate prin educația utilizatorilor și prin inginerie promptă. În plus, putem aborda problema cu soluția de reglare fină a LLM și de învățare prin consolidare, descrisă în secțiunea următoare.

Feedback de la utilizator de la pilot

Unii utilizatori au lăsat pur și simplu o notă, cum ar fi „Genial!” pentru răspunsurile puternic de acord sau „Nu răspunde la întrebare”, pentru răspunsurile total dezacord. Alți utilizatori au oferit scoruri și au explicat cum justifică răspunsurile LLM în notele lor. În exemplul următor, utilizatorul a furnizat în mod specific documentul și conținutul adecvat pentru a corecta halucinația LLM.

Întrebare Câte locuri de parcare avem?
Răspunsul bot

Pe baza contextului dat, nu avem suficiente informații pentru a determina numărul de locuri de parcare. Contextul discută dimensiunea minimă a locurilor de parcare și cerințele pentru nivelurile de iluminare exterioară, dar nu prevede un număr specific de locuri de parcare.

**Puteți consulta explicații suplimentare în următoarele resurse:**

* ARS GEN 10.0/05.01.02. Criterii de proiectare și anexe/pachet de performanță Criterii de proiectare sortabile AR v20.1.1.pdf – pagina: 10

* ARS GEN 10.0/05.01.02. Criterii de proiectare și anexe/pachet de performanță Criterii de proiectare sortabile AR v20.1.1.pdf – pagina: 79

Scorul utilizatorului Dezacord
Notele utilizatorului Acest lucru este specificat la pagina 21 a criteriilor de proiectare secțiunea 01 13 10

Îmbunătățiți răspunsul botului cu reglaj fin supravegheat și învățare prin consolidare

Soluția constă în trei etape de reglare fină:

  1. Efectuați o reglare fină supravegheată folosind date etichetate. Această metodă a fost descrisă în O soluție generativă bazată pe inteligență artificială pe Amazon SageMaker pentru a ajuta Amazon EU Design și Construcție.
  2. Colectați feedback-ul utilizatorilor pentru a eticheta perechile întrebare-răspuns pentru reglarea ulterioară a LLM.
  3. Când datele de antrenament sunt gata, reglați în continuare modelul folosind învățare prin consolidare din feedbackul uman (RLHF).

RLHF este utilizat pe scară largă în aplicațiile de inteligență artificială generativă (AI) și LLM. Încorporează feedback uman în funcția de recompense și antrenează modelul cu un algoritm de învățare de întărire pentru a maximiza recompensele, ceea ce face ca modelul să îndeplinească sarcini mai aliniate cu obiectivele umane. Următoarea diagramă arată conducta pașilor.

Reglarea fină a fluxului de lucru

Am testat metodologia folosind documentele Amazon D&C cu un model Mistral-7B pe SageMaker JumpStart.

Reglaj fin supravegheat

În postarea anterioară, am demonstrat cum modelul fin reglat Falcon-7B depășește conducta RAG și îmbunătățește calitatea și acuratețea răspunsului botului QA. Pentru această postare, am efectuat reglaje supervizate pe modelul Mistral-7B. Reglajul fin supravegheat a folosit tehnica PEFT/LoRA (LoRA_r = 512, LoRA_alpha = 1024) pe 436,207,616 parametri (5.68% din totalul de 7,677,964,288 parametri). Antrenamentul a fost efectuat pe un nod p3.8x cu 137 de eșantioane generate sintetic de LLM și validate de oameni; procesul este bine convergent după 20 de epoci, așa cum se arată în figura următoare.

Procesul de instruire SFT

Modelul ajustat a fost validat de 274 de eșantioane, iar rezultatele inferenței au fost comparate cu răspunsurile de referință prin scorul de similaritate semantică. Scorul este 0.8100, care este mai mare decât scorul de 0.6419 din RAG tradițional.

Colectați feedback uman și AI pentru învățare de consolidare

Pentru RLHF, este esențială o cantitate suficientă de mostre de instruire de înaltă calitate etichetate de experți în domeniu (IMM-uri). Cu toate acestea, etichetele umane de proastă calitate vor cauza probabil performanțe mai slabe ale modelului decât modelul original după antrenamentul RLHF. Este timpul IMM-urilor o resursă rară în orice organizație; revizuirea a sute sau mii de răspunsuri LLM și furnizarea de feedback necesită o investiție semnificativă de timp din partea IMM-urilor, care poate să nu aibă o rentabilitate clară a investiției.

Pentru a face față acestei provocări, am adoptat învățare de consolidare din feedback-ul AI metoda (RLAIF). RLAIF folosește un asistent AI (un alt LLM) pentru a oferi scoruri de evaluare, mai degrabă decât de la oameni. În această abordare hibridă de învățare, agentul de învățare rafinează acțiunile nu numai pe baza interacțiunii cu un om, ci și pe feedback-ul oferit de un alt model AI. Este mult mai scalabil să furnizezi suficiente date de instruire pentru învățare prin consolidare și mult mai puțin subiectiv, deoarece formarea nu depinde de preferințele particulare ale unui grup mic de IMM-uri. IMM-urile pot fi în continuare implicate, dar numai pentru a supraveghea procesul și a examina calitatea feedback-ului AI. Acest lucru reduce enorm volumul de muncă al IMM-urilor, deoarece scorurile și etichetele generate de IA sunt mult mai puțin complicate de analizat, filtrat și sortat pentru IMM-uri.

În acest caz de utilizare, oferim următorul prompt unui model Anthropic Claude 2 pentru a genera scorurile de evaluare ca eșantioane de antrenament pentru pasul de învățare prin întărire:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

Modelul Claude 2 generează un scor de evaluare și un comentariu despre motivul pentru care se acordă scorul, așa cum se arată în exemplul următor.

Întrebare Ce se înțelege prin „Fit Out Works” în acest context?
Răspuns de referință Fit Out Works se referă la Lucrările efectuate în baza contractului de construcție de către sau în numele lui Amazon prin intermediul Dezvoltatorului până la data primei primiri de la o poziție noțională de dezvoltare Shell & Core Base. Aceste lucrări includ amenajările necesare de la Amazon, instalări în cutie mare și personalizate
Răspuns QA Bot Fit Out Works se referă la Lucrările efectuate în baza contractului de construcție de către sau în numele lui Amazon prin intermediul Dezvoltatorului până la data primei primiri de la o poziție noțională de dezvoltare Shell & Core Base.
Scorul AI 4.5
Comentariu AI Răspunsul automat oferă informațiile cheie din răspunsul standard – că Fit Out Works se referă la Lucrări efectuate în temeiul contractului de construcție de către sau în numele lui Amazon prin intermediul dezvoltatorului până la data primei primiri de la o poziție noțională de dezvoltare Shell & Core Base. . Detaliile suplimentare despre includerea amenajărilor necesare Amazon, a instalărilor în cutie mare și a personalizărilor sunt relevante și ajută la furnizarea unui context suplimentar, așa că am punctat răspunsul automat 4.5 din 5. Acesta surprinde esența răspunsului standard și oferă câteva detalii suplimentare utile.

Din cele 274 de întrebări de validare, modelul reglat fin supravegheat a generat 159 de răspunsuri care au scoruri AI mai mari de 4. Am observat 60 de răspunsuri cu scoruri mai mici de 3; există spațiu pentru a îmbunătăți calitatea generală a răspunsului.

Scorul de feedback înainte de RLHF

IMM-urile Amazon Engineering au validat acest feedback AI și au recunoscut beneficiile utilizării scorurilor AI. Fără feedback AI, IMM-urile ar avea nevoie de ceva timp pentru a revizui și analiza fiecare răspuns LLM pentru a identifica răspunsurile și halucinațiile limită și pentru a judeca dacă LLM returnează conținuturi corecte și concepte cheie. Feedbackul AI oferă automat scoruri AI și permite IMM-urilor să utilizeze filtrarea, sortarea și gruparea pentru a valida scorurile și a identifica tendințele în răspunsuri. Acest lucru reduce timpul mediu de revizuire al IMM-ului cu 80%.

Învățare de consolidare din feedbackul uman și AI

Când mostrele de antrenament sunt gata, folosim algoritmul de optimizare a politicii proximale (PPO). pentru a efectua învățare prin întărire. PPO folosește o metodă de gradient de politică, care face pași mici pentru a actualiza politica în procesul de învățare, astfel încât agenții de învățare să poată ajunge în mod fiabil la rețeaua optimă de politici. Acest lucru face ca procesul de antrenament să fie mai stabil și reduce posibilitatea de divergență.

În timpul antrenamentului, mai întâi folosim datele etichetate de oameni și AI pentru a construi un model de recompensă, care va fi folosit pentru a ghida actualizarea ponderilor în procesul de învățare. Pentru acest caz de utilizare, selectăm un model de recompensă pe bază de distilroberta și îl antrenăm cu mostre în următorul format:

[Instruction, Chosen_response, Rejected_response]

Următorul este un exemplu de înregistrare de antrenament.

instrucție În funcție de context, ce este specificat pentru designul incluziv și accesibil?
Chosen_response BREEAM Credit HEA06 – proiectare incluzivă și accesibilă – Clădirea este proiectată pentru a fi adecvată scopului, adecvată și accesibilă de către toți potențialii utilizatori. O strategie de acces este dezvoltată în conformitate cu Lista de verificare BREEAM A3
Răspuns_respins Contextul afirmă că

Modelul de recompensă este antrenat cu rata de învățare 1e-5. După cum se arată în graficul următor, puțul de antrenament converge după 10 epoci.

Procesul de instruire RLHF

Apoi modelul de recompensă este folosit pentru învățare prin întărire. Pentru acest caz de utilizare, folosim PEFT/LoRA pentru a accelera învățarea. LoRA_r este 32 și LoRA_alpha este 64. Învățarea bazată pe PPO are o rată de 1.41e-5 în trei epoci. Antrenamentul de întărire este foarte volatil și foarte sensibil la datele etichetei și la datele de feedback. Folosim metrica reward_mean, recompensa medie obținută din mediu prin monitorizarea specifică a modelului de recompensă, pentru a observa procesul de învățare.

După RLAIF, putem observa că numărul răspunsurilor bot cu scoruri pozitive (peste 3) crește de la 78.1% la 85.5%, iar cele cu scoruri negative (sub 3) scad de la 21.9% la 14.5%. În total, scorul mediu de feedback AI crește până la 8%, de la 3.9 la 4.2.

Îmbunătățire prin RLAIF

Puteți vedea îmbunătățirea în exemplul următor.

Întrebare Pentru suprafețele care sunt placate cu gresie, ce șapă este necesară?
Referinţă Pardoseala din șapă de beton este aplicabilă numai în zonele cu gresie. Consultați seria de desene A-32 pentru a vedea unde sunt aplicabile gresie.
Răspunsul bot înainte de RLAIF Pardoseala din șapă de beton este aplicabilă numai în
Scorul AI înainte de RLAIF 3
Răspunsul bot după RLAIF Pardoseala din șapă de beton este aplicabilă numai în zonele care sunt placate cu gresie. Consultați seria de desene A-32 pentru a vedea unde este aplicabilă pardoseala din gresie.
Scorul AI după RLAIF 4.5

Concluzie

Această postare este o continuare a muncii noastre cu echipa Amazon EU Design and Construction, așa cum sa discutat în O soluție generativă bazată pe inteligență artificială pe Amazon SageMaker pentru a ajuta Amazon EU Design și Construcție. În această postare, am arătat cum am generat date de feedback uman și AI pentru a ajusta modelul Mistral-7B cu învățare prin întărire. Modelul după RLAIF a oferit performanțe mai bune pentru robotul de răspuns la întrebări de la Amazon Engineering, a îmbunătățit scorul de feedback AI cu 8%. În cadrul proiectului pilot al echipei Amazon D&C, utilizarea RLAIF a redus volumul de muncă de validare pentru IMM-uri cu aproximativ 80%. În următorul pas, vom extinde această soluție prin conectarea la infrastructura de date a Amazon Engineering și vom proiecta un cadru pentru a automatiza procesul de învățare continuă cu un om în buclă. De asemenea, vom îmbunătăți și mai mult calitatea feedback-ului AI prin reglarea șablonului prompt.

Prin acest proces, am învățat cum să îmbunătățim în continuare calitatea și performanța sarcinilor de răspuns la întrebări prin RLHF și RLAIF.

  • Validarea și creșterea umană sunt esențiale pentru a oferi rezultate precise și responsabile din LLM. Feedback-ul uman poate fi folosit în RLHF pentru a îmbunătăți și mai mult răspunsul modelului.
  • RLAIF automatizează ciclul de evaluare și învățare. Feedback-ul generat de AI este mai puțin subiectiv, deoarece nu depinde de o anumită preferință a unui grup mic de IMM-uri.
  • RLAIF este mai scalabil pentru a îmbunătăți calitatea botului prin învățare continuă prin consolidare, minimizând în același timp eforturile necesare IMM-urilor. Este util în special pentru dezvoltarea soluțiilor AI generative specifice domeniului în cadrul organizațiilor mari.
  • Acest proces ar trebui să fie efectuat în mod regulat, mai ales atunci când sunt disponibile date noi de domeniu pentru a fi acoperite de soluție.

În acest caz de utilizare, am folosit SageMaker JumpStart pentru a testa mai multe LLM-uri și a experimenta mai multe abordări de formare LLM. Accelerează semnificativ feedback-ul AI și ciclul de învățare cu eficiență și calitate maximizate. Pentru propriul dvs. proiect, puteți introduce abordarea uman-in-the-loop pentru a colecta feedback-ul utilizatorilor sau puteți genera feedback AI folosind un alt LLM. Apoi puteți urma procesul în trei pași definit în această postare pentru a vă ajusta modelele folosind RLHF și RLAIF. Vă recomandăm să experimentați cu metodele folosind SageMaker JumpStart pentru a accelera procesul.


Despre autor

YunfeiYunfei Bai este arhitect senior de soluții la AWS. Cu experiență în AI/ML, știința datelor și analiză, Yunfei îi ajută pe clienți să adopte servicii AWS pentru a oferi rezultate de afaceri. El proiectează soluții AI/ML și de analiză a datelor care depășesc provocările tehnice complexe și conduc obiective strategice. Yunfei are un doctorat în Inginerie Electronică și Electrică. În afara serviciului, lui Yunfei îi place lectura și muzică.

Elad_photoElad Dwek este manager de tehnologie de construcție la Amazon. Cu experiență în construcții și management de proiecte, Elad ajută echipele să adopte noi tehnologii și procese bazate pe date pentru a livra proiecte de construcție. El identifică nevoile și soluțiile și facilitează dezvoltarea atributelor personalizate. Elad are un MBA și un BSc în Inginerie Structurală. În afara serviciului, lui Elad îi place yoga, prelucrarea lemnului și călătoriile cu familia sa.

Luca_fotoLuca Cerabone este inginer Business Intelligence la Amazon. Pornind de la experiența sa în știința datelor și analitică, Luca creează soluții tehnice personalizate pentru a satisface nevoile unice ale clienților săi, conducându-i către procese mai durabile și mai scalabile. Înarmat cu un master în știința datelor, lui Luca îi place să se implice în proiecte de bricolaj, să facă grădinărit și să experimenteze cu delicii culinare în momentele sale de petrecere a timpului liber.

spot_img

Ultimele informații

spot_img

Chat cu noi

Bună! Cu ce ​​​​vă pot ajuta?