Improve LLM Performance With Human And AI Feedback On Amazon SageMaker For Amazon Engineering | Amazon Web Services

Az Amazon EU Design and Construction (Amazon D&C) csapata az Amazon raktárak tervezésével és kivitelezésével foglalkozó mérnöki csapat. A csapat nagy mennyiségű dokumentumban navigál, és megtalálja a megfelelő információkat, hogy megbizonyosodjon arról, hogy a raktár kialakítása megfelel a legmagasabb szabványoknak. A posztban Generatív mesterségesintelligencia-alapú megoldás az Amazon SageMakeren, amely segíti az Amazon EU-s tervezését és kivitelezését, bemutattunk egy kérdésre válaszoló bot megoldást az a Visszakeresés kiterjesztett generáció (RAG) csővezeték finomhangolással nagy nyelvi modell (LLM) az Amazon D&C számára, hogy hatékonyan lehessen lekérni a pontos információkat nagy mennyiségű rendezetlen dokumentumból, és időben és magas színvonalú szolgáltatásokat nyújtson építési projektjeik során. Az Amazon D&C csapata a megoldást az Amazon mérnökei számára készült kísérleti kísérletben vezette be, és összegyűjtötte a felhasználói visszajelzéseket.

Ebben a bejegyzésben megosztjuk, hogyan elemeztük a visszacsatolási adatokat és azonosítottuk a pontosság korlátait és a hallucinációkat, amelyeket a RAG biztosított, és hogyan használtuk az emberi értékelési pontszámot a modell betanításához. megerősítő tanulás. A képzési minták számának növelése érdekében a jobb tanulás érdekében egy másik LLM-et is használtunk a visszajelzési pontszámok generálásához. Ez a módszer kezelte a RAG korlátozást, és tovább javította a bot válasz minőségét. Bemutatjuk a megerősítő tanulási folyamatot és a benchmarking eredményeket, hogy bemutassuk az LLM teljesítményének javulását. A megoldás használ Amazon SageMaker JumpStart mint a modell telepítésének, finomhangolásának és megerősítésének tanulásának alapszolgáltatása.

Gyűjtsön visszajelzéseket az Amazon mérnökeitől egy kísérleti projektben

pontban leírt megoldás kidolgozása után Generatív mesterségesintelligencia-alapú megoldás az Amazon SageMakeren, amely segíti az Amazon EU-s tervezését és kivitelezését, az Amazon D&C csapata telepítette a megoldást, és kísérleti projektet futtatott az Amazon mérnökeivel. A mérnökök egy által fejlesztett webalkalmazáson keresztül fértek hozzá a kísérleti rendszerhez Áramlatos, csatlakozik a RAG csővezetékhez. A csővezetékben használtuk Amazon OpenSearch szolgáltatás a vektoradatbázishoz, és egy finomhangolt Mistral-7B-Instruct modellt telepített az Amazon SageMakerre.

A pilot egyik legfontosabb célja az Amazon mérnökeitől származó visszajelzések gyűjtése, és a visszajelzések felhasználása az LLM-hallucinációk további csökkentésére. Ennek elérése érdekében kifejlesztettünk egy visszajelzésgyűjtő modult a felhasználói felületen, amint az a következő ábrán látható, és a webes munkamenet adatait és a felhasználói visszajelzéseket Amazon DynamoDB. A visszajelzésgyűjtő felhasználói felületen keresztül az Amazon mérnökei öt elégedettségi szint közül választhatnak: határozottan nem értek egyet, nem értek egyet, semleges, egyetértek és teljes mértékben egyetértek, az 1-től 5-ig terjedő visszajelzési pontszámoknak megfelelően. Jobb választ is tudnak adni arra a kérdésre, vagy megjegyzést fűzhetnek hozzá, hogy az LLM válasza miért nem kielégítő.

emberi visszacsatolású felhasználói felület

A kísérlet során a felhasználók 118 visszajelzést adtak. A következő diagram a negatívtól a pozitívig terjedő eloszlást mutatja. Megfigyeltük, hogy a negatív visszajelzéssel jelölt helytelen válaszok (nem értek egyet és egyáltalán nem értek egyet) az összes visszajelzés 45%-a (53-ból 118). A hibák egy része (körülbelül a negatív visszajelzések 10%-a és az összesített válaszok 7.5%-a) orvosolható felhasználói oktatással és gyors tervezéssel. Ezenkívül a problémát a következő részben ismertetett LLM finomhangolási és megerősítési tanulási megoldással is kezelhetjük.

Felhasználói visszajelzés a pilottól

Néhány felhasználó egyszerűen csak egy megjegyzést hagyott, például: „Remek!” az erősen egyetértő válaszokért, vagy a „Nem válaszol a kérdésre” az erősen egyet nem értő válaszokért. Más felhasználók pontszámokat adtak meg, és elmagyarázták, hogyan indokolják az LLM-válaszokat a megjegyzéseikben. A következő példában a felhasználó konkrétan megadta a megfelelő dokumentumot és tartalmat az LLM-hallucináció kijavításához.

Kérdés	Hány parkolóhelyünk van?
Bot válasz	Az adott kontextus alapján nem áll rendelkezésünkre elegendő információ a parkolóhelyek számának meghatározásához. A szövegkörnyezet tárgyalja a parkolóhelyek minimális méretét és a külső világítási szintekre vonatkozó követelményeket, de nem ad konkrét parkolóhelyek számát. További magyarázatokat a következő forrásokban talál: * ARS GEN 10.0/05.01.02. Tervezési kritériumok és mellékletek/Teljesítménycsomag AR rendezhető tervezési kritériumok v20.1.1.pdf – oldal: 10 * ARS GEN 10.0/05.01.02. Tervezési kritériumok és mellékletek/Teljesítménycsomag AR rendezhető tervezési kritériumok v20.1.1.pdf – oldal: 79
Felhasználói pontszám	Egyáltalán nem értek egyet
Felhasználói megjegyzések	Ez a tervezési kritériumok 21 01 13 fejezetének 10. oldalán van megadva

A felügyelt finomhangolással és megerősítő tanulással javíthatja a robotok reakcióit

A megoldás három finomhangolási lépésből áll:

Végezzen felügyelt finomhangolást címkézett adatok felhasználásával. Ezt a módszert a Generatív mesterségesintelligencia-alapú megoldás az Amazon SageMakeren, amely segíti az Amazon EU-s tervezését és kivitelezését.
Gyűjtsön felhasználói visszajelzéseket a kérdés-válasz párok címkézéséhez az LLM további hangolásához.
Amikor a betanítási adatok készen állnak, hangolja tovább a modellt a segítségével megerősítő tanulás emberi visszajelzésekből (RLHF).

Az RLHF-t széles körben használják a generatív mesterséges intelligencia (AI) és az LLM alkalmazásokban. Beépíti az emberi visszajelzést a jutalmazási funkcióba, és a modellt egy megerősítő tanulási algoritmusra tanítja a jutalmak maximalizálása érdekében, ami arra készteti a modellt, hogy az emberi célokhoz jobban igazodó feladatokat hajtson végre. A következő diagram a lépések csővezetékét mutatja.

Munkafolyamat finomhangolása

A módszertant teszteltük az Amazon D&C dokumentumok segítségével, egy Mistral-7B modellel a SageMaker JumpStarton.

Felügyelt finomhangolás

Az előző bejegyzésben bemutattuk, hogy a finomhangolt Falcon-7B modell miként teljesíti felül a RAG-folyamatot, és javítja a minőségellenőrzési robotválasz minőségét és pontosságát. Ehhez a bejegyzéshez felügyelt finomhangolást végeztünk a Mistral-7B modellen. A felügyelt finomhangolás a PEFT/LoRA technikát (LoRA_r = 512, LoRA_alpha = 1024) 436,207,616 5.68 7,677,964,288 paraméteren (az összes 3.8 137 20 XNUMX paraméter XNUMX%-án) alkalmazta. A képzést egy pXNUMXx csomóponton végezték XNUMX, LLM által szintetikusan generált és ember által validált mintával; a folyamat XNUMX korszak után jól konvergál, amint azt a következő ábra mutatja.

SFT képzési folyamat

A finomhangolt modellt 274 mintával validáltuk, és a következtetési eredményeket a szemantikai hasonlósági pontszámmal hasonlítottuk össze a referencia válaszokkal. A pontszám 0.8100, ami magasabb, mint a hagyományos RAG 0.6419 pontja.

Gyűjtsön emberi és mesterséges intelligencia visszajelzéseket a tanulás megerősítéséhez

Az RLHF számára elengedhetetlen a tantárgyi szakértők (kkv-k) által megjelölt, megfelelő mennyiségű, kiváló minőségű képzési minta. A rossz minőségű emberi címkék azonban valószínűleg rosszabb modellteljesítményt okoznak, mint az eredeti modell az RLHF képzés után. A kkv-k ideje szűkös erőforrás bármely szervezetben; több száz vagy több ezer LLM-válasz áttekintése és visszajelzés biztosítása jelentős időbefektetést igényel a kkv-któl, amelyek nem biztos, hogy megtérülnek a befektetésen.

Ennek a kihívásnak a megoldására elfogadtuk a megerősítő tanulás az AI visszajelzésekből (RLAIF) módszerrel. Az RLAIF egy mesterséges intelligencia asszisztenst (egy másik LLM) alkalmaz az értékelési pontszámok biztosítására, nem pedig emberektől. Ebben a hibrid tanulási megközelítésben a tanulási ágens nem csak az emberrel való interakció, hanem egy másik AI-modell visszajelzése alapján is finomítja a cselekvéseket. Sokkal skálázhatóbb elegendő képzési adatot szolgáltatni a megerősítő tanuláshoz, és sokkal kevésbé szubjektív, mivel a képzés nem függ a kkv-k kis csoportjának adott preferenciáitól. A kkv-k továbbra is részt vehetnek, de csak azért, hogy felügyeljék a folyamatot és megvizsgálják a mesterséges intelligencia visszajelzésének minőségét. Ez rendkívüli mértékben csökkenti a kkv-k munkaterhét, mivel a mesterséges intelligencia által generált pontszámokat és címkéket sokkal kevésbé bonyolult elemezni, szűrni és rendezni a kkv-k számára.

Ebben a használati esetben a következő promptot adjuk egy Anthropic Claude 2 modellhez, hogy az értékelési pontszámokat a megerősítő tanulási lépés képzési mintájaként generálja:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

A Claude 2 modell egy értékelési pontszámot és megjegyzést hoz létre a pontszám megadásáról, amint az a következő példában látható.

Kérdés	Mit jelent ebben az összefüggésben a „Fit Out Works” kifejezés?
Referencia válasz	A Fit Out Works az építési szerződés alapján az Amazon által vagy az Amazon nevében a Fejlesztőn keresztül az első kézhezvétel időpontjáig végzett munkákra vonatkozik egy feltételezett Fejlesztői Shell és Core Base-építési pozícióból. Ezek a munkák magukban foglalják az Amazon által megkövetelt Fit-Out-okat, nagy dobozos telepítéseket és egyedi beállításokat
QA Bot válasz	A Fit Out Works az építési szerződés alapján az Amazon által vagy az Amazon nevében a Fejlesztőn keresztül az első kézhezvétel időpontjáig végzett munkákra vonatkozik egy feltételezett Fejlesztői Shell és Core Base-építési pozícióból.
AI pontszám	4.5
AI megjegyzés	A gépi válasz megadja a kulcsfontosságú információkat a szokásos válaszból – hogy a Fit Out Works az építési szerződés alapján az Amazon által vagy az Amazon nevében a Fejlesztőn keresztül az első kézhezvétel időpontjáig végzett munkákra vonatkozik egy feltételezett Fejlesztői Shell és Core Base-építési pozícióból. . Az Amazon szükséges Fit-Outjainak, a nagy dobozos telepítéseknek és a testreszabásoknak a beépítésével kapcsolatos további részletek relevánsak, és további kontextust biztosítanak, ezért a gépi választ 4.5-ből 5-re értékeltem. Megragadja a standard válasz lényegét, és néhányat tartalmaz hasznos extra részletek.

A 274 érvényesítési kérdésből a felügyelt finomhangolt modell 159 olyan választ generált, amelyek 4-nél nagyobb AI-pontszámmal rendelkeznek. 60 választ figyeltünk meg 3-nál alacsonyabb pontszámmal; van hely az általános válaszminőség javítására.

Visszajelzési pontszám az RLHF előtt

Az Amazon Engineering KKV-k jóváhagyták ezt az AI-visszajelzést, és elismerték az AI-pontszámok használatának előnyeit. A mesterséges intelligencia visszajelzése nélkül a kkv-knak időre lenne szükségük minden egyes LLM-reakció áttekintésére és elemzésére, hogy azonosítsák a határválaszokat és a hallucinációkat, és eldöntsék, hogy az LLM helyes tartalmat és kulcsfogalmakat ad-e vissza. A mesterséges intelligencia visszajelzése automatikusan AI pontszámokat biztosít, és lehetővé teszi a kkv-k számára, hogy szűrést, rendezést és csoportosítást alkalmazzanak a pontszámok érvényesítésére és a válaszok tendenciáinak azonosítására. Ez 80%-kal csökkenti az átlagos kkv felülvizsgálati idejét.

Az emberi és mesterséges intelligencia visszajelzéseiből származó tanulás megerősítése

Ha elkészültek a képzési minták, használjuk a proximális politika optimalizálás (PPO) algoritmus megerősítő tanulás elvégzésére. A PPO egy szabályzat gradiens módszert használ, amely kis lépésekkel frissíti a szabályzatot a tanulási folyamatban, hogy a tanulóügynökök megbízhatóan elérjék az optimális házirend-hálózatot. Ez stabilabbá teszi a képzési folyamatot, és csökkenti a divergencia lehetőségét.

A tréning során először az ember- és mesterségesintelligencia-címkézett adatokat használjuk fel egy jutalommodell felépítésére, amely a súlyok frissítését segíti majd a tanulási folyamatban. Erre a felhasználási esetre kiválasztunk egy distilroberta alapú jutalommodellt, és minták alapján betanítjuk a következő formátumban:

[Instruction, Chosen_response, Rejected_response]

A következő példa egy edzési rekordra.

Oktatás	A kontextusnak megfelelően mi van előírva a befogadó és hozzáférhető tervezéshez?
Chosen_response	BREEAM Credit HEA06 – inkluzív és akadálymentes kialakítás – Az épületet úgy tervezték, hogy a célnak megfelelő, megfelelő és minden potenciális felhasználó számára elérhető legyen. A hozzáférési stratégia a BREEAM A3 ellenőrzőlistával összhangban kerül kidolgozásra
Elutasított_válasz	A szövegkörnyezet ezt állítja

A jutalmazási modellt 1e-5 tanulási aránnyal képezzük. Ahogy az alábbi diagramon látható, a képzés jól konvergál 10 korszak után.

RLHF képzési folyamat

Ezután a jutalmazási modellt a megerősítő tanuláshoz használják. Ebben az esetben a PEFT/LoRA-t használjuk a tanulás felgyorsítására. A LoRA_r 32, a LoRA_alpha pedig 64. A PPO-alapú tanulás sebessége 1.41e-5 három korszakban. Az erősítő edzés rendkívül ingadozó, és nagyon érzékeny a címkeadatokra és a visszacsatolási adatokra. A tanulási folyamat megfigyelésére a reward_mean metrikát, a jutalmazási modell speciális megfigyelésével a környezetből nyert átlagos jutalmat használjuk.

Az RLAIF után azt láthatjuk, hogy a pozitív pontszámú (3 feletti) bot válaszok száma 78.1%-ról 85.5%-ra nőtt, a negatív pontszámú (3 alatti) bot válaszok száma pedig 21.9%-ról 14.5%-ra csökkent. Összességében az AI-visszajelzés átlagos pontszáma 8%-ra nő, 3.9-ről 4.2-re.

Az RLAIF fejlesztése

A javulás a következő példában látható.

Kérdés	Milyen esztrich szükséges a csempézett padlófelületekhez?
Referencia	Beton Esztrich padlóburkolat csak padlólapos területeken alkalmazható. Tekintse meg az A-32 rajzsorozatot, hogy megtudja, hol alkalmazhatók a padlólapok.
Bot válasza RLAIF előtt	Beton Esztrich padlóburkolat csak beltérben alkalmazható
AI pontszám RLAIF előtt	3
Bot válasz az RLAIF után	Beton Esztrich padlóburkolat csak a csempézett területeken alkalmazható. Tekintse meg az A-32 rajzsorozatot, hogy megtudja, hol alkalmazható a csempe padló.
AI pontszám az RLAIF után	4.5

Következtetés

Ez a bejegyzés az Amazon EU tervezési és kivitelezési csapatával folytatott munkánk folytatása, amint azt a cikkben tárgyaltuk Generatív mesterségesintelligencia-alapú megoldás az Amazon SageMakeren, amely segíti az Amazon EU-s tervezését és kivitelezését. Ebben a bejegyzésben bemutattuk, hogyan generáltunk emberi és mesterséges intelligencia visszajelzési adatokat a Mistral-7B modell megerősítő tanulással történő finomhangolásához. Az RLAIF utáni modell jobb teljesítményt nyújtott az Amazon Engineering kérdésre válaszoló robotja számára, és 8%-kal javította az AI visszajelzési pontszámát. Az Amazon D&C csapatának kísérleti projektjében az RLAIF használata becslések szerint 80%-kal csökkentette a kkv-k validálási munkaterhét. Következő lépésként ezt a megoldást bővítjük az Amazon Engineering adatinfrastruktúrájához való csatlakozással, és egy keretrendszert tervezünk a folyamatos tanulási folyamat automatizálására egy emberrel a hurokban. Tovább javítjuk az AI visszajelzési minőségét is a prompt sablon hangolásával.

Ezen a folyamaton keresztül megtanultuk, hogyan javíthatjuk tovább az RLHF-en és az RLAIF-en keresztül a kérdésmegválaszolási feladatok minőségét és teljesítményét.

Az emberi hitelesítés és kiegészítés elengedhetetlen az LLM pontos és felelős kimeneteinek biztosításához. Az emberi visszacsatolás felhasználható az RLHF-ben a modellválasz további javítására.
Az RLAIF automatizálja az értékelési és tanulási ciklust. A mesterséges intelligencia által generált visszajelzések kevésbé szubjektívek, mivel nem függnek a kis- és középvállalkozások kis csoportjának preferenciáitól.
Az RLAIF jobban méretezhető a bot minőségének javítása érdekében a folyamatos megerősítési tanulás révén, miközben minimálisra csökkenti a kkv-k erőfeszítéseit. Különösen hasznos a tartomány-specifikus generatív mesterséges intelligencia megoldások fejlesztéséhez nagy szervezeteken belül.
Ezt a folyamatot rendszeresen el kell végezni, különösen akkor, ha új tartományi adatok állnak rendelkezésre a megoldáshoz.

Ebben a felhasználási esetben a SageMaker JumpStartot használtuk több LLM tesztelésére és több LLM képzési megközelítéssel való kísérletezésre. Jelentősen felgyorsítja az AI visszacsatolási és tanulási ciklusát, maximális hatékonysággal és minőséggel. Saját projektjéhez bevezetheti a human-in-the-loop megközelítést a felhasználói visszajelzések gyűjtéséhez, vagy AI visszajelzést generálhat egy másik LLM segítségével. Ezután követheti az ebben a bejegyzésben meghatározott háromlépéses folyamatot a modellek finomhangolásához az RLHF és az RLAIF segítségével. Javasoljuk, hogy a folyamat felgyorsítása érdekében kísérletezzen a módszerekkel a SageMaker JumpStart segítségével.

A szerzőről

Yunfei Bai az AWS vezető megoldási építésze. Az AI/ML, adattudományi és elemzési háttérrel rendelkező Yunfei segít az ügyfeleknek az AWS-szolgáltatások elfogadásában az üzleti eredmények elérése érdekében. Olyan AI/ML és adatelemzési megoldásokat tervez, amelyek leküzdik az összetett technikai kihívásokat, és stratégiai célkitűzéseket hajtanak végre. Yunfei elektronikai és villamosmérnöki doktori fokozattal rendelkezik. A munkán kívül Yunfei szeret olvasni és zenélni.

Elad Dwek az Amazon építési technológiai menedzsere. Az építési és projektmenedzsment háttérrel rendelkező Elad segít a csapatoknak új technológiák és adatalapú folyamatok átvételében az építési projektek megvalósításához. Azonosítja az igényeket és a megoldásokat, elősegíti a testreszabott tulajdonságok kialakítását. Elad MBA és BSc diplomával rendelkezik szerkezeti mérnökökből. A munkán kívül Elad szeret jógázni, famegmunkálni, és családjával utazni.

Luca Cerabone üzleti intelligencia mérnök az Amazonnál. Az adattudományi és analitikai háttérből merítve Luca olyan műszaki megoldásokat dolgozott ki, amelyek megfelelnek ügyfelei egyedi igényeinek, és a fenntarthatóbb és skálázhatóbb folyamatok felé tereli őket. Az adattudományi diplomával felfegyverkezve Luca szívesen vesz részt barkácsprojektekben, kertészkedik, és szabadidős pillanataiban kulináris élvezetekkel kísérletezik.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://aws.amazon.com/blogs/machine-learning/improve-llm-performance-with-human-and-ai-feedback-on-amazon-sagemaker-for-amazon-engineering/

Generatív adatintelligencia

Javítsa az LLM teljesítményét emberi és mesterséges intelligencia visszajelzésekkel az Amazon SageMaker for Amazon Engineering | Amazon webszolgáltatások

Gyűjtsön visszajelzéseket az Amazon mérnökeitől egy kísérleti projektben

A felügyelt finomhangolással és megerősítő tanulással javíthatja a robotok reakcióit

Felügyelt finomhangolás

Gyűjtsön emberi és mesterséges intelligencia visszajelzéseket a tanulás megerősítéséhez

Az emberi és mesterséges intelligencia visszajelzéseiből származó tanulás megerősítése

Következtetés

A szerzőről

Az OpenAI kihívást jelenthet a Google-nak és a zavarodottságnak az AI-alapú kereséssel: Jelentések – Dekódolás

A kriptobálnák egynapos őrületben 2.9 milliárd dollárnyi bitcoint kaptak el

Legújabb intelligencia

Nigéria nemzetbiztonsági aggályok miatt törvényen kívül helyezi a P2P kriptokereskedést

A web3-as játékok fogadtatása a szkepticizmusról a lelkesedés felé változik: Shrapnel stúdióvezető

A Trump alatt működő SEC „erőteljesen folytatná” a kriptográfiai szabályozást – mondta a korábbi szabályozó

Szürkeárnyalatos Bitcoin ETF megszakadt a veszteségsorozat, 63 millió dollárt húz – Decrypt

CISO Corner: Verizon DBIR Lessons; Munkahelyi mikroagresszió; Árnyék API-k

CISO Corner: Verizon DBIR Lessons; Munkahelyi mikroagresszió; Árnyék API-k

Beszélj velünk