Generatiivinen tiedustelu

Paranna LLM:n suorituskykyä ihmisten ja tekoälyn palautteen avulla Amazon SageMaker for Amazon Engineering | Amazon Web Services

Treffi:

Amazon EU Design and Construction (Amazon D&C) -tiimi on Amazonin varastoja suunnitteleva ja rakentava insinööritiimi. Tiimi selaa suuria asiakirjoja ja etsii oikeat tiedot varmistaakseen, että varastosuunnittelu täyttää korkeimmatkin vaatimukset. Postissa Generatiivinen tekoälyllä toimiva ratkaisu Amazon SageMakerissa, joka auttaa Amazonia EU:n suunnittelussa ja rakentamisessa, esitimme kysymyksen, joka vastaa bot-ratkaisuun käyttämällä a Haku laajennettu sukupolvi (RAG) putki hienosäädetyllä suuri kielimalli (LLM) Amazon D&C:lle, jotta se voi tehokkaasti hakea tarkat tiedot suuresta määrästä järjestämättömiä asiakirjoja ja tarjota oikea-aikaisia ​​ja laadukkaita palveluita rakennusprojekteissaan. Amazon D&C -tiimi otti ratkaisun käyttöön Amazonin insinööreille suunnatussa pilottiprojektissa ja keräsi käyttäjien palautetta.

Tässä viestissä kerromme, kuinka analysoimme palautetietoja ja tunnistimme RAG:n tarjoaman tarkkuuden ja hallusinaatioiden rajoitukset ja käytimme ihmisen arviointipisteitä mallin kouluttamiseen. vahvistaminen oppiminen. Lisätäksemme koulutusnäytteitä oppimisen parantamiseksi käytimme myös toista LLM:ää palautepisteiden luomiseen. Tämä menetelmä korjasi RAG-rajoituksen ja paransi edelleen botin vasteen laatua. Esittelemme vahvistamisoppimisprosessin ja benchmarking-tulokset osoittamaan LLM:n suorituskyvyn parantumista. Ratkaisu käyttää Amazon SageMaker JumpStart mallin käyttöönoton, hienosäädön ja vahvistuksen oppimisen ydinpalveluna.

Kerää palautetta Amazonin insinööreiltä pilottiprojektissa

Kun olet kehittänyt kohdassa kuvatun ratkaisun Generatiivinen tekoälyllä toimiva ratkaisu Amazon SageMakerissa, joka auttaa Amazonia EU:n suunnittelussa ja rakentamisessa, Amazon D&C -tiimi otti ratkaisun käyttöön ja suoritti pilottiprojektin Amazonin insinöörien kanssa. Insinöörit pääsivät pilottijärjestelmään web-sovelluksen kautta, jonka on kehittänyt Virtaviivainen, yhdistetty RAG-putkilinjaan. Valmistelussa käytimme Amazon OpenSearch-palvelu vektoritietokantaa varten ja otti käyttöön hienosäädetyn Mistral-7B-Instruct-mallin Amazon SageMakerissa.

Yksi pilotin tärkeimmistä tavoitteista on kerätä palautetta Amazonin insinööreiltä ja käyttää palautetta LLM-hallusinaatioiden vähentämiseen entisestään. Tämän saavuttamiseksi kehitimme käyttöliittymään palautteenkeruumoduulin, kuten seuraavassa kuvassa näkyy, ja tallensimme verkkoistunnon tiedot ja käyttäjäpalautteen Amazon DynamoDB. Palautteenkeruun käyttöliittymän kautta Amazonin insinöörit voivat valita viidestä tyytyväisyystasosta: täysin eri mieltä, eri mieltä, neutraali, samaa mieltä ja täysin samaa mieltä, mikä vastaa palautepisteitä 1–5. He voivat myös antaa paremman vastauksen kysymykseen tai kommentoida, miksi LLM-vastaus ei ole tyydyttävä.

ihmispalautteen käyttöliittymä

Pilotin aikana käyttäjät antoivat 118 palautevastausta. Seuraava kaavio näyttää jakauman negatiivisesta positiiviseen. Havaitsimme, että negatiivisella palautteella merkittyjä virheellisiä vastauksia (eri ja täysin eri mieltä) oli 45 % kokonaispalautteesta (53/118). Jotkut virheistä (noin 10 % negatiivisesta palautteesta ja 7.5 % kokonaisvastauksista) voidaan korjata käyttäjäkoulutuksella ja nopealla suunnittelulla. Lisäksi voimme käsitellä ongelmaa seuraavassa osiossa kuvatulla LLM:n hienosäätö- ja vahvistusoppimisen ratkaisulla.

Käyttäjien palaute pilotilta

Jotkut käyttäjät jättivät vain huomautuksen, kuten "Hienoa!" täysin samaa mieltä oleville vastauksille tai "Ei vastaa kysymykseen" täysin eri mieltä oleville vastauksille. Muut käyttäjät antoivat pisteitä ja selittivät, kuinka he perustelevat LLM-vastaukset muistiinpanoissaan. Seuraavassa esimerkissä käyttäjä toimitti erityisesti riittävän asiakirjan ja sisällön LLM-harhojen korjaamiseksi.

Kysymys Kuinka monta autopaikkaa meillä on?
Botin vastaus

Annetun kontekstin perusteella meillä ei ole tarpeeksi tietoa pysäköintipaikkojen määrän määrittämiseen. Konteksti käsittelee parkkipaikkojen vähimmäiskokoa ja ulkovalaistustasovaatimuksia, mutta siinä ei esitetä tiettyä pysäköintipaikkojen määrää.

**Voit katsoa lisäselvityksiä seuraavista lähteistä:**

* ARS GEN 10.0/05.01.02. Suunnittelukriteerit ja liitteet/Suorituskykypaketti AR Sortable Design Criteria v20.1.1.pdf – sivu: 10

* ARS GEN 10.0/05.01.02. Suunnittelukriteerit ja liitteet/Suorituskykypaketti AR Sortable Design Criteria v20.1.1.pdf – sivu: 79

Käyttäjäpisteet Täysin eri mieltä
Käyttäjän huomautukset Tämä on määritelty suunnittelukriteeriosion 21 01 13 sivulla 10

Paranna botin vastetta ohjatun hienosäädön ja vahvistusoppimisen avulla

Ratkaisu koostuu kolmesta hienosäätövaiheesta:

  1. Suorita valvottua hienosäätöä käyttämällä merkittyjä tietoja. Tämä menetelmä kuvattiin kohdassa Generatiivinen tekoälyllä toimiva ratkaisu Amazon SageMakerissa, joka auttaa Amazonia EU:n suunnittelussa ja rakentamisessa.
  2. Kerää käyttäjien palautetta merkitäksesi kysymys-vastaus-parit LLM:n lisäsäätöä varten.
  3. Kun harjoitustiedot ovat valmiit, viritä mallia edelleen käyttämällä vahvistava oppiminen ihmispalautteesta (RLHF).

RLHF:tä käytetään laajasti generatiivisen tekoälyn (AI) ja LLM-sovelluksissa. Se sisällyttää ihmisten palautteen palkitsemistoimintoon ja kouluttaa mallia vahvistavalla oppimisalgoritmilla maksimoimaan palkkiot, mikä saa mallin suorittamaan tehtäviä paremmin ihmisten tavoitteiden kanssa. Seuraava kaavio näyttää vaiheiden putkilinjan.

Työnkulun hienosäätö

Testasimme menetelmää käyttämällä Amazon D&C -asiakirjoja Mistral-7B-mallilla SageMaker JumpStartissa.

Valvottu hienosäätö

Edellisessä viestissä osoitimme, kuinka hienosäädetty Falcon-7B-malli ylittää RAG-putkilinjan ja parantaa QA-bottivasteen laatua ja tarkkuutta. Tätä viestiä varten suoritimme Mistral-7B-mallin valvotun hienosäädön. Valvotussa hienosäädössä käytettiin PEFT/LoRA-tekniikkaa (LoRA_r = 512, LoRA_alpha = 1024) 436,207,616 5.68 7,677,964,288 parametrilla (3.8 % 137 20 XNUMX XNUMX parametrin kokonaismäärästä). Koulutus suoritettiin pXNUMXx-solmulla, jossa oli XNUMX LLM:n synteettisesti luomaa ja ihmisten validoimaa näytettä; prosessi on hyvin konvergoitunut XNUMX aikakauden jälkeen, kuten seuraavassa kuvassa näkyy.

SFT-koulutusprosessi

Hienosäädetty malli validoitiin 274 näytteellä, ja johtopäätöstuloksia verrattiin referenssivastauksiin semanttisella samankaltaisuuspisteellä. Pistemäärä on 0.8100, mikä on korkeampi kuin perinteisen RAG:n pistemäärä 0.6419.

Kerää ihmisten ja tekoälyn palautetta oppimisen vahvistamiseksi

RLHF:n kannalta on välttämätöntä, että riittävä määrä korkealaatuisia alan asiantuntijoiden (pk-yritysten) merkitsemiä koulutusnäytteitä. Huonolaatuiset ihmisetiketit aiheuttavat kuitenkin todennäköisesti huonomman mallin suorituskyvyn kuin alkuperäinen malli RLHF-koulutuksen jälkeen. pk-yritysten aika on niukka resurssi missä tahansa organisaatiossa; satojen tai tuhansien LLM-vastausten tarkistaminen ja palautteen antaminen vaatii pk-yrityksiltä huomattavan aikainvestoinnin, jolla ei välttämättä ole selvää tuottoa sijoitukselle.

Vastataksemme tähän haasteeseen otimme käyttöön vahvistava oppiminen tekoälypalautteesta (RLAIF) menetelmällä. RLAIF käyttää tekoälyassistenttia (toinen LLM) antamaan arviointipisteitä ihmisten sijaan. Tässä hybridi-oppimisen lähestymistavassa oppimisagentti jalostaa toimia paitsi ihmisen kanssa tapahtuvan vuorovaikutuksen perusteella, myös toisen tekoälymallin antaman palautteen perusteella. On paljon skaalautuvampaa tarjota riittävästi koulutusdataa vahvistavaa oppimista varten, ja paljon vähemmän subjektiivista, koska koulutus ei ole riippuvainen pienten pk-yritysten erityisistä mieltymyksistä. Pk-yritykset voivat edelleen olla mukana, mutta vain valvoakseen prosessia ja tutkiakseen tekoälypalautteen laatua. Tämä vähentää valtavasti pk-yritysten työtaakkaa, koska tekoälyn luomat pisteet ja tunnisteet ovat pk-yritysten kannalta paljon helpompia analysoida, suodattaa ja lajitella.

Tässä käyttötapauksessa tarjoamme seuraavan kehotteen Anthropic Claude 2 -mallille arviointipisteiden luomiseksi koulutusnäytteinä vahvistusoppimisvaiheessa:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

Claude 2 -malli luo arviointipisteen ja kommentin siitä, miksi pisteet annetaan, kuten seuraavassa esimerkissä näkyy.

Kysymys Mitä "Fit Out Works" tarkoittaa tässä yhteydessä?
Viite vastaus Fit Out Works tarkoittaa rakennussopimuksen alaisia ​​töitä, jotka Amazon on suorittanut tai jotka on tehty kehittäjän kautta ensimmäiseen vastaanottopäivään mennessä kuvitteellisesta Developer Shell & Core Base -rakennuspaikasta. Näihin töihin kuuluvat Amazonin vaatimat Fit-Outs, big-box-asennukset ja mukautetut
QA Botin vastaus Fit Out Works tarkoittaa rakennussopimuksen alaisia ​​töitä, jotka Amazon on suorittanut tai jotka on tehty kehittäjän kautta ensimmäiseen vastaanottopäivään mennessä kuvitteellisesta Developer Shell & Core Base -rakennuspaikasta.
AI pisteet 4.5
AI kommentti Konevastaus tarjoaa keskeiset tiedot vakiovastauksesta – että Fit Out Works viittaa rakennussopimuksen alaisena Amazonin toimesta tai sen puolesta Kehittäjän kautta ensimmäiseen vastaanottopäivään suoritettuihin töihin kuvitteellisesta kehittäjän kuoren ja ydinperustan rakennuspaikasta. . Lisätiedot Amazonin vaadittujen Fit-Out-laitteiden, isojen laatikoiden asennusten ja mukautusten sisällyttämisestä ovat olennaisia ​​ja auttavat tarjoamaan lisäkontekstia, joten olen saanut koneen vastauksen arvosanaksi 4.5/5. Se kuvaa vakiovastauksen olemuksen ja tarjoaa joitain hyödyllisiä lisätietoja.

274 validointikysymyksestä valvottu hienosäädetty malli tuotti 159 vastausta, joiden tekoälypisteet olivat yli 4. Havaitsimme 60 vastausta, joiden pisteet olivat alle 3; on tilaa parantaa yleistä vastauslaatua.

Palautepisteet ennen RLHF:ää

Amazon Engineeringin pk-yritykset vahvistivat tämän tekoälypalautteen ja tunnustivat tekoälypisteiden käytön edut. Ilman tekoälypalautetta pk-yritykset tarvitsisivat jonkin aikaa tarkastellakseen ja analysoidakseen jokaisen LLM-vasteen tunnistaakseen rajavastaukset ja hallusinaatiot ja arvioidakseen, palauttaako LLM oikean sisällön ja avainkäsitteet. Tekoälypalaute antaa tekoälypisteet automaattisesti ja antaa pk-yrityksille mahdollisuuden käyttää suodatusta, lajittelua ja ryhmittelyä pisteiden validoimiseksi ja vastausten suuntausten tunnistamiseksi. Tämä lyhentää keskimääräisen pk-yrityksen tarkasteluaikaa 80 prosenttia.

Vahvistaa oppimista ihmisten ja tekoälyn palautteesta

Kun koulutusnäytteet ovat valmiit, käytämme proksimaalisen politiikan optimointialgoritmi (PPO). suorittaa vahvistusoppimista. PPO käyttää politiikkagradienttimenetelmää, joka pienin askelin päivittää politiikkaa oppimisprosessissa, jotta oppimisagentit pääsevät luotettavasti optimaaliseen politiikkaverkostoon. Tämä tekee harjoitteluprosessista vakaamman ja vähentää erojen mahdollisuutta.

Koulutuksen aikana rakennamme ensin ihmis- ja tekoälymerkittyjen tietojen perusteella palkitsemismallin, jonka avulla ohjataan painojen päivitystä oppimisprosessissa. Tätä käyttötapausta varten valitsemme distilroberta-base-palkkiomallin ja koulutamme sen näytteiden perusteella seuraavassa muodossa:

[Instruction, Chosen_response, Rejected_response]

Seuraavassa on esimerkki harjoituskirjasta.

Ohje Mitä osallistavalle ja saavutettavalle suunnittelulle määritellään kontekstin mukaan?
Valittu_vastaus BREEAM Credit HEA06 – kattava ja esteetön suunnittelu – Rakennus on suunniteltu tarkoitukseen sopivaksi, tarkoituksenmukaiseksi ja kaikkien mahdollisten käyttäjien saavutettavaksi. Pääsystrategia kehitetään BREEAM-tarkistuslistan A3 mukaisesti
Hylätty_vastaus Konteksti sen kertoo

Palkitsemismallia koulutetaan oppimisnopeudella 1e-5. Kuten seuraavasta kaaviosta näkyy, harjoittelu konvergoi hyvin 10 jakson jälkeen.

RLHF koulutusprosessi

Sitten palkitsemismallia käytetään vahvistusoppimiseen. Tässä käyttötapauksessa käytämme PEFT/LoRAa nopeuttamaan oppimista. LoRA_r on 32 ja LoRA_alpha on 64. PPO-pohjainen oppiminen on nopeudella 1.41e-5 kolmen aikakauden aikana. Vahvistuskoulutus on erittäin epävakaa ja erittäin herkkä etiketti- ja palautetiedoille. Käytämme oppimisprosessin tarkkailuun reward_mean-mittaria, joka on ympäristöstä erityisesti palkkiomallia tarkkailemalla saatu keskimääräinen palkkio.

RLAIF:n jälkeen voimme nähdä positiivisten (yli 3) pistemäärän saaneiden robottivastausten määrän nousevan 78.1 prosentista 85.5 prosenttiin ja negatiivisten (alle 3) pistemäärän saaneiden robottivastausten määrän vähenevän 21.9 prosentista 14.5 prosenttiin. Kaiken kaikkiaan keskimääräinen tekoälypalautepiste nousee 8 %:sta 3.9:stä 4.2:een.

RLAIF:n tekemä parannus

Voit nähdä parannuksen seuraavassa esimerkissä.

Kysymys Mitä tasoitetta tarvitaan laatoitetuille lattiapinnoille?
Viite Concrete Screed-lattiaa voidaan käyttää vain lattialaatoitetuissa tiloissa. Katso piirustussarjasta A-32, missä lattialaattoja voidaan käyttää.
Botin vastaus ennen RLAIFia Betonitasoitelattia soveltuu vain sisään
AI-pisteet ennen RLAIFia 3
Botin vastaus RLAIF:n jälkeen Betoni Tasoitelattia soveltuu vain laatoitetuille alueille. Katso piirustussarjasta A-32, missä laattalattiaa voidaan käyttää.
AI-pisteet RLAIFin jälkeen 4.5

Yhteenveto

Tämä viesti on jatkoa työllemme Amazon EU:n suunnittelu- ja rakennustiimin kanssa, kuten artikkelissa käsiteltiin Generatiivinen tekoälyllä toimiva ratkaisu Amazon SageMakerissa, joka auttaa Amazonia EU:n suunnittelussa ja rakentamisessa. Tässä viestissä näytimme, kuinka loimme ihmis- ja tekoälypalautedataa Mistral-7B-mallin hienosäätämiseksi vahvistusoppimisen avulla. RLAIF:n jälkeinen malli tarjosi paremman suorituskyvyn Amazon Engineeringin kysymysvastausbotille, paransi tekoälypalautepisteitä 8%. Amazon D&C -tiimin pilottiprojektissa RLAIFin käyttö vähensi pk-yritysten validointityömäärää arviolta 80 %. Seuraavana askeleena laajennamme tätä ratkaisua yhdistämällä Amazon Engineeringin tietoinfrastruktuuriin ja suunnittelemme puitteet jatkuvan oppimisprosessin automatisoimiseksi ihmisen kanssa. Parannamme myös tekoälypalautteen laatua edelleen säätämällä kehotemallia.

Tämän prosessin aikana opimme parantamaan edelleen kysymysvastaustehtävien laatua ja suorituskykyä RLHF:n ja RLAIFin kautta.

  • Inhimillinen validointi ja lisäys ovat välttämättömiä, jotta LLM:ltä saadaan tarkkoja ja vastuullisia tuloksia. Ihmisen palautetta voidaan käyttää RLHF:ssä mallivasteen parantamiseen entisestään.
  • RLAIF automatisoi arviointi- ja oppimissyklin. Tekoälyn tuottama palaute on vähemmän subjektiivista, koska se ei riipu pienten pk-yritysten erityisestä mieltymyksestä.
  • RLAIF on skaalautuvampi parantaakseen botin laatua jatkuvan vahvistusoppimisen avulla ja minimoimalla pk-yrityksiltä vaadittavat ponnistelut. Se on erityisen hyödyllinen kehitettäessä toimialuekohtaisia ​​generatiivisia tekoälyratkaisuja suurissa organisaatioissa.
  • Tämä prosessi tulisi tehdä säännöllisesti, varsinkin kun ratkaisun kattamiseen on saatavilla uutta verkkotunnuksen dataa.

Tässä käyttötapauksessa käytimme SageMaker JumpStartia testataksemme useita LLM:itä ja kokeillaksemme useita LLM-koulutusmenetelmiä. Se nopeuttaa merkittävästi tekoälypalautteen ja oppimissykliä maksimoimalla tehokkuuden ja laadun. Omaa projektia varten voit ottaa käyttöön ihmissilmukan lähestymistavan kerätäksesi käyttäjiesi palautetta tai luoda tekoälypalautetta käyttämällä toista LLM:ää. Sitten voit seurata tässä viestissä määritettyä kolmivaiheista prosessia hienosäätääksesi mallejasi RLHF:n ja RLAIF:n avulla. Suosittelemme kokeilemaan menetelmiä SageMaker JumpStartin avulla prosessin nopeuttamiseksi.


kirjailijasta

YunfeiYunfei Bai on AWS:n vanhempi ratkaisuarkkitehti. Tekoälyn/ML:n, datatieteen ja analytiikan taustalla oleva Yunfei auttaa asiakkaita ottamaan käyttöön AWS-palvelut liiketulosten saavuttamiseksi. Hän suunnittelee AI/ML- ja data-analytiikkaratkaisuja, jotka selviytyvät monimutkaisista teknisistä haasteista ja ohjaavat strategisia tavoitteita. Yunfei on elektroniikka- ja sähkötekniikan tohtori. Työn ulkopuolella Yunfei pitää lukemisesta ja musiikista.

Elad_valokuvaElad Dwek on Amazonin rakennusteknologiapäällikkö. Rakentamisen ja projektinhallinnan taustalla oleva Elad auttaa tiimejä ottamaan käyttöön uusia teknologioita ja tietopohjaisia ​​prosesseja rakennusprojektien toteuttamisessa. Hän tunnistaa tarpeet ja ratkaisut sekä helpottaa räätälöityjen ominaisuuksien kehittämistä. Eladilla on MBA- ja BSc-tutkinto rakennetekniikasta. Työn ulkopuolella Elad nauttii joogasta, puuntyöstyksestä ja matkustamisesta perheensä kanssa.

Luca_valokuvaLuca Cerabone on Business Intelligence Engineer Amazonissa. Tietotieteen ja analytiikan taustansa pohjalta Luca räätälöi teknisiä ratkaisuja vastaamaan asiakkaidensa ainutlaatuisia tarpeita ja ohjaa heitä kohti kestävämpiä ja skaalautuvia prosesseja. Tietotieteen maisterin tutkinnon suorittanut Luca nauttii tee-se-itse-projekteista, puutarhanhoidosta ja kulinaaristen nautintojen kokeilemisesta vapaa-aikanaan.

spot_img

Uusin älykkyys

spot_img

Keskustele kanssamme

Hei siellä! Kuinka voin olla avuksi?