Intelligenza generativa dei dati

Migliora le prestazioni LLM con feedback umano e AI su Amazon SageMaker per Amazon Engineering | Servizi Web di Amazon

Data:

Il team Amazon EU Design and Construction (Amazon D&C) è il team di ingegneri che progetta e costruisce i magazzini Amazon. Il team esamina un grande volume di documenti e individua le informazioni giuste per assicurarsi che la progettazione del magazzino soddisfi gli standard più elevati. Nella posta Una soluzione generativa basata sull'intelligenza artificiale su Amazon SageMaker per aiutare Amazon EU Design and Construction, abbiamo presentato una soluzione bot per rispondere a domande utilizzando un file Recupero generazione aumentata (RAG) pipeline con una messa a punto grande modello linguistico (LLM) per Amazon D&C per recuperare in modo efficiente informazioni accurate da un grande volume di documenti non organizzati e fornire servizi tempestivi e di alta qualità nei loro progetti di costruzione. Il team di Amazon D&C ha implementato la soluzione in un progetto pilota per gli ingegneri di Amazon e ha raccolto il feedback degli utenti.

In questo post, condividiamo il modo in cui abbiamo analizzato i dati di feedback e identificato i limiti di accuratezza e le allucinazioni fornite da RAG e utilizzato il punteggio di valutazione umana per addestrare il modello attraverso insegnamento rafforzativo. Per aumentare i campioni di formazione per un migliore apprendimento, abbiamo utilizzato anche un altro LLM per generare punteggi di feedback. Questo metodo ha risolto la limitazione RAG e ha migliorato ulteriormente la qualità della risposta del bot. Presentiamo il processo di apprendimento per rinforzo e i risultati del benchmarking per dimostrare il miglioramento delle prestazioni LLM. La soluzione utilizza JumpStart di Amazon SageMaker come servizio principale per l'implementazione, la messa a punto e l'apprendimento per rinforzo del modello.

Raccogli feedback dagli ingegneri Amazon in un progetto pilota

Dopo aver sviluppato la soluzione descritta in Una soluzione generativa basata sull'intelligenza artificiale su Amazon SageMaker per aiutare Amazon EU Design and Construction, il team di Amazon D&C ha implementato la soluzione e ha avviato un progetto pilota con gli ingegneri di Amazon. Gli ingegneri hanno avuto accesso al sistema pilota tramite un'applicazione web sviluppata da Snello, collegato al gasdotto RAG. In cantiere, abbiamo utilizzato Servizio Amazon OpenSearch per il database vettoriale e ha distribuito un modello Mistral-7B-Instruct ottimizzato su Amazon SageMaker.

Uno degli obiettivi chiave del progetto pilota è raccogliere feedback dagli ingegneri di Amazon e utilizzare il feedback per ridurre ulteriormente le allucinazioni LLM. Per raggiungere questo obiettivo, abbiamo sviluppato un modulo di raccolta feedback nell'interfaccia utente, come mostrato nella figura seguente, e archiviato le informazioni sulla sessione Web e il feedback degli utenti in Amazon DynamoDB. Attraverso l'interfaccia utente di raccolta feedback, i tecnici Amazon possono scegliere tra cinque livelli di soddisfazione: fortemente in disaccordo, in disaccordo, neutrale, d'accordo e fortemente d'accordo, corrispondenti ai punteggi di feedback da 1 a 5. Possono anche fornire una risposta migliore alla domanda o commentare il motivo per cui la risposta LLM non è soddisfacente.

interfaccia utente di feedback umano

Durante il progetto pilota, gli utenti hanno fornito 118 risposte di feedback. Il grafico seguente mostra la distribuzione da negativo a positivo. Abbiamo osservato che le risposte errate contrassegnate dal feedback negativo (in disaccordo e fortemente in disaccordo) sono il 45% del totale dei feedback (53 su 118). Alcuni degli errori (circa il 10% dei feedback negativi e il 7.5% delle risposte complessive) possono essere risolti mediante la formazione degli utenti e un tempestivo intervento di ingegneria. Inoltre, possiamo affrontare il problema con la soluzione di fine tuning e apprendimento per rinforzo LLM, descritta nella sezione successiva.

Feedback degli utenti dal pilota

Alcuni utenti hanno semplicemente lasciato una nota, come "Fantastico!" per le risposte totalmente d'accordo, oppure "Non risponde alla domanda", per le risposte fortemente in disaccordo. Altri utenti hanno fornito punteggi e spiegato come giustificano le risposte LLM nelle loro note. Nell'esempio seguente, l'utente ha fornito specificamente il documento e il contenuto adeguati per correggere l'allucinazione LLM.

Question Quanti posti auto abbiamo?
Risposta del bot

In base al contesto, non disponiamo di informazioni sufficienti per determinare il numero di posti auto. Il contesto discute la dimensione minima dei parcheggi e i requisiti per i livelli di illuminazione esterna, ma non prevede un numero specifico di posti auto.

**È possibile fare riferimento a ulteriori spiegazioni nelle seguenti risorse:**

*ARS GEN 10.0/05.01.02. Criteri di progettazione e appendici/Pacchetto prestazioni Criteri di progettazione ordinabili AR v20.1.1.pdf – pagina: 10

*ARS GEN 10.0/05.01.02. Criteri di progettazione e appendici/Pacchetto prestazioni Criteri di progettazione ordinabili AR v20.1.1.pdf – pagina: 79

Punteggio utente Fortemente in disaccordo
Note dell'utente Ciò è specificato a pagina 21 della sezione criteri di progettazione 01 13 10

Migliora la risposta dei bot con la messa a punto supervisionata e l'apprendimento per rinforzo

La soluzione consiste in tre fasi di messa a punto:

  1. Condurre una messa a punto supervisionata utilizzando dati etichettati. Questo metodo è stato descritto in Una soluzione generativa basata sull'intelligenza artificiale su Amazon SageMaker per aiutare Amazon EU Design and Construction.
  2. Raccogli il feedback degli utenti per etichettare le coppie domanda-risposta per un'ulteriore ottimizzazione LLM.
  3. Quando i dati di addestramento sono pronti, ottimizzare ulteriormente il modello utilizzando apprendimento per rinforzo dal feedback umano (RLHF).

RLHF è ampiamente utilizzato nelle applicazioni di intelligenza artificiale generativa (AI) e LLM. Incorpora il feedback umano nella funzione di ricompensa e addestra il modello con un algoritmo di apprendimento per rinforzo per massimizzare le ricompense, il che fa sì che il modello esegua compiti più allineati con gli obiettivi umani. Il diagramma seguente mostra la pipeline dei passaggi.

Flusso di lavoro di regolazione fine

Abbiamo testato la metodologia utilizzando i documenti Amazon D&C con un modello Mistral-7B su SageMaker JumpStart.

Messa a punto supervisionata

Nel post precedente, abbiamo dimostrato come il modello Falcon-7B perfezionato superi la pipeline RAG e migliori la qualità e l'accuratezza della risposta del bot QA. Per questo post, abbiamo eseguito una messa a punto supervisionata sul modello Mistral-7B. Il fine tuning supervisionato ha utilizzato la tecnica PEFT/LoRA (LoRA_r = 512, LoRA_alpha = 1024) su 436,207,616 parametri (5.68% del totale di 7,677,964,288 parametri). Il training è stato condotto su un nodo p3.8x con 137 campioni generati sinteticamente da LLM e validati da esseri umani; il processo è ben convergente dopo 20 epoche, come mostrato nella figura seguente.

Processo di formazione SFT

Il modello ottimizzato è stato convalidato da 274 campioni e i risultati dell'inferenza sono stati confrontati con le risposte di riferimento mediante il punteggio di somiglianza semantica. Il punteggio è 0.8100, che è superiore al punteggio di 0.6419 del RAG tradizionale.

Raccogli feedback umani e AI per l'apprendimento per rinforzo

Per RLHF, è essenziale una quantità sufficiente di campioni di formazione di alta qualità etichettati da esperti in materia (PMI). Tuttavia, etichette umane di scarsa qualità causeranno probabilmente prestazioni del modello peggiori rispetto al modello originale dopo l'addestramento RLHF. Il tempo delle PMI è una risorsa scarsa in qualsiasi organizzazione; la revisione di centinaia o migliaia di risposte LLM e la fornitura di feedback richiedono un notevole investimento di tempo da parte delle PMI che potrebbero non avere un chiaro ritorno sull'investimento.

Per affrontare questa sfida, abbiamo adottato il apprendimento per rinforzo dal feedback dell’intelligenza artificiale (RLAIF). RLAIF impiega un assistente AI (un altro LLM) per fornire punteggi di valutazione, anziché da esseri umani. In questo approccio di apprendimento ibrido, l’agente di apprendimento affina le azioni non solo in base all’interazione con un essere umano ma anche dal feedback fornito da un altro modello di intelligenza artificiale. È molto più scalabile fornire dati di formazione sufficienti per l’apprendimento di rinforzo, ed è molto meno soggettivo perché la formazione non dipende da particolari preferenze di un piccolo gruppo di PMI. Le PMI potrebbero ancora essere coinvolte, ma solo per supervisionare il processo ed esaminare la qualità del feedback dell’IA. Ciò riduce enormemente il carico di lavoro delle PMI, perché i punteggi e le etichette generati dall’intelligenza artificiale sono molto meno complicati da analizzare, filtrare e ordinare per le PMI.

In questo caso d'uso, forniamo il seguente prompt a un modello Anthropic Claude 2 per generare i punteggi di valutazione come campioni di addestramento per la fase di apprendimento per rinforzo:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

Il modello Claude 2 genera un punteggio di valutazione e un commento sul motivo per cui viene assegnato il punteggio, come mostrato nell'esempio seguente.

Question Cosa si intende per "Fit Out Works" in questo contesto?
Risposta di riferimento Per Lavori di adattamento si intendono i Lavori eseguiti nell'ambito del contratto di costruzione da o per conto di Amazon tramite lo Sviluppatore fino alla prima data di ricezione da una posizione fittizia di Shell & Core Base-build dello Sviluppatore. Questi lavori includono gli allestimenti richiesti da Amazon, installazioni big-box e personalizzazioni
Risposta del bot QA Per Lavori di adattamento si intendono i Lavori eseguiti nell'ambito del contratto di costruzione da o per conto di Amazon tramite lo Sviluppatore fino alla prima data di ricezione da una posizione fittizia di Shell & Core Base-build dello Sviluppatore.
Punteggio dell'IA 4.5
Commento dell'AI La risposta della macchina fornisce le informazioni chiave della risposta standard: che Lavori di adattamento si riferisce ai Lavori eseguiti nell'ambito del contratto di costruzione da o per conto di Amazon tramite lo Sviluppatore fino alla prima data di ricezione da una posizione fittizia di costruzione Shell e Base dello sviluppatore . I dettagli aggiuntivi sull'inclusione degli allestimenti richiesti da Amazon, delle installazioni big-box e delle personalizzazioni sono rilevanti e aiutano a fornire ulteriore contesto, quindi ho assegnato alla risposta della macchina un punteggio di 4.5 su 5. Cattura l'essenza della risposta standard e fornisce alcuni dettagli aggiuntivi utili.

Delle 274 domande di validazione, il modello ottimizzato supervisionato ha generato 159 risposte con punteggi AI superiori a 4. Abbiamo osservato 60 risposte con punteggi inferiori a 3; c'è spazio per migliorare la qualità complessiva della risposta.

Punteggio di feedback prima di RLHF

Le PMI di Amazon Engineering hanno convalidato questo feedback sull'intelligenza artificiale e hanno riconosciuto i vantaggi derivanti dall'utilizzo dei punteggi dell'intelligenza artificiale. Senza il feedback dell’intelligenza artificiale, le PMI avrebbero bisogno di un po’ di tempo per rivedere e analizzare ciascuna risposta LLM per identificare le risposte tagliate e le allucinazioni e per giudicare se il LLM sta restituendo contenuti e concetti chiave corretti. Il feedback dell’intelligenza artificiale fornisce automaticamente punteggi AI e consente alle PMI di utilizzare filtri, ordinamenti e raggruppamenti per convalidare i punteggi e identificare le tendenze nelle risposte. Ciò riduce del 80% il tempo medio di revisione delle PMI.

Apprendimento rinforzato dal feedback umano e dell'intelligenza artificiale

Quando i campioni di formazione sono pronti, utilizziamo il file Algoritmo di ottimizzazione della politica prossimale (PPO). per eseguire l’apprendimento per rinforzo. Il PPO utilizza un metodo del gradiente di politica, che richiede piccoli passi per aggiornare la politica nel processo di apprendimento, in modo che gli agenti di apprendimento possano raggiungere in modo affidabile la rete politica ottimale. Ciò rende il processo di formazione più stabile e riduce la possibilità di divergenza.

Durante la formazione, utilizziamo innanzitutto i dati etichettati dall'uomo e dall'intelligenza artificiale per creare un modello di ricompensa, che verrà utilizzato per guidare l'aggiornamento dei pesi nel processo di apprendimento. Per questo caso d'uso, selezioniamo un modello di ricompensa basato su distillroberta e lo addestriamo tramite campioni nel seguente formato:

[Instruction, Chosen_response, Rejected_response]

Di seguito è riportato un esempio di registro della formazione.

Istruzione A seconda del contesto, cosa si specifica per una progettazione inclusiva e accessibile?
Risposta_scelta Credito BREEAM HEA06 – progettazione inclusiva e accessibile – L'edificio è progettato per essere adatto allo scopo, appropriato e accessibile da tutti i potenziali utenti. Viene sviluppata una strategia di accesso in linea con la check list BREEAM A3
Risposta_rifiutata Lo dice il contesto

Il modello di ricompensa viene addestrato con il tasso di apprendimento 1e-5. Come mostrato nel grafico seguente, il pozzo di addestramento converge dopo 10 epoche.

Processo di formazione RLHF

Quindi il modello di ricompensa viene utilizzato per l'apprendimento per rinforzo. Per questo caso d'uso, utilizziamo PEFT/LoRA per accelerare l'apprendimento. Il LoRA_r è 32 e il LoRA_alpha è 64. L'apprendimento basato sul PPO ha un tasso di 1.41e-5 in tre epoche. L'addestramento di rinforzo è altamente volatile e molto sensibile ai dati dell'etichetta e ai dati di feedback. Utilizziamo la metrica ricompensa_mean, la ricompensa media ottenuta dall'ambiente monitorando specificamente il modello di ricompensa, per osservare il processo di apprendimento.

Dopo RLAIF, possiamo vedere il numero di risposte dei bot con punteggi positivi (sopra 3) aumentare dal 78.1% all'85.5% e quelle con punteggi negativi (sotto 3) diminuire dal 21.9% al 14.5%. In totale, il punteggio medio del feedback dell’IA aumenta fino all’8%, da 3.9 a 4.2.

Miglioramento da parte di RLAIF

Puoi vedere il miglioramento nel seguente esempio.

Question Per le superfici da piastrellare, quale massetto è necessario?
Riferimento La pavimentazione in massetto di cemento è applicabile solo nelle aree piastrellate. Fare riferimento alla serie di disegni A-32 per vedere dove sono applicabili le piastrelle del pavimento.
Risposta del bot prima di RLAIF La pavimentazione in massetto di cemento è applicabile solo in
Punteggio AI prima di RLAIF 3
Risposta del bot dopo RLAIF La pavimentazione in massetto di cemento è applicabile solo nelle aree piastrellate. Fare riferimento alla serie di disegni A-32 per vedere dove è applicabile la pavimentazione in piastrelle.
Punteggio AI dopo RLAIF 4.5

Conclusione

Questo post è la continuazione del nostro lavoro con il team di progettazione e costruzione di Amazon EU, come discusso in Una soluzione generativa basata sull'intelligenza artificiale su Amazon SageMaker per aiutare Amazon EU Design and Construction. In questo post, abbiamo mostrato come abbiamo generato dati di feedback umani e dell'intelligenza artificiale per mettere a punto il modello Mistral-7B con l'apprendimento per rinforzo. Il modello successivo a RLAIF ha fornito prestazioni migliori per il bot di risposta alle domande di Amazon Engineering e ha migliorato il punteggio di feedback dell'IA dell'8%. Nel progetto pilota del team Amazon D&C, l'utilizzo di RLAIF ha ridotto il carico di lavoro di convalida per le PMI di circa l'80%. Come passo successivo, amplieremo questa soluzione connettendoci all'infrastruttura dati di Amazon Engineering e progetteremo un framework per automatizzare il processo di apprendimento continuo con un essere umano nel ciclo. Miglioreremo inoltre ulteriormente la qualità del feedback dell'intelligenza artificiale ottimizzando il modello di prompt.

Attraverso questo processo, abbiamo imparato come migliorare ulteriormente la qualità e le prestazioni delle attività di risposta alle domande tramite RLHF e RLAIF.

  • La convalida e il potenziamento umani sono essenziali per fornire risultati accurati e responsabili da LLM. Il feedback umano può essere utilizzato in RLHF per migliorare ulteriormente la risposta del modello.
  • RLAIF automatizza il ciclo di valutazione e apprendimento. Il feedback generato dall’intelligenza artificiale è meno soggettivo perché non dipende da una preferenza particolare di un piccolo gruppo di PMI.
  • RLAIF è più scalabile per migliorare la qualità del bot attraverso l'apprendimento continuo per rinforzo, riducendo al minimo gli sforzi richiesti alle PMI. È particolarmente utile per lo sviluppo di soluzioni di intelligenza artificiale generativa specifiche per dominio all'interno di grandi organizzazioni.
  • Questo processo dovrebbe essere eseguito regolarmente, soprattutto quando sono disponibili nuovi dati di dominio da coprire con la soluzione.

In questo caso d'uso, abbiamo utilizzato SageMaker JumpStart per testare più LLM e sperimentare più approcci di formazione LLM. Accelera in modo significativo il feedback dell'IA e il ciclo di apprendimento con efficienza e qualità massimizzate. Per il tuo progetto, puoi introdurre l'approccio human-in-the-loop per raccogliere il feedback dei tuoi utenti o generare feedback sull'intelligenza artificiale utilizzando un altro LLM. Quindi puoi seguire il processo in tre fasi definito in questo post per ottimizzare i tuoi modelli utilizzando RLHF e RLAIF. Ti consigliamo di sperimentare i metodi utilizzando SageMaker JumpStart per accelerare il processo.


L'autore

YunfeiYunfei Bai è Senior Solutions Architect presso AWS. Con un background in AI/ML, scienza dei dati e analisi, Yunfei aiuta i clienti ad adottare i servizi AWS per fornire risultati aziendali. Progetta soluzioni di AI/ML e analisi dei dati che superano complesse sfide tecniche e guidano obiettivi strategici. Yunfei ha un dottorato di ricerca in ingegneria elettronica ed elettrica. Al di fuori del lavoro, a Yunfei piace leggere e ascoltare musica.

Elad_photoElad Dwek è un responsabile della tecnologia di costruzione presso Amazon. Con un background nella gestione delle costruzioni e dei progetti, Elad aiuta i team ad adottare nuove tecnologie e processi basati sui dati per realizzare progetti di costruzione. Identifica esigenze e soluzioni e facilita lo sviluppo di attributi su misura. Elad ha un MBA e una laurea in ingegneria strutturale. Al di fuori del lavoro, Elad ama lo yoga, la lavorazione del legno e viaggiare con la sua famiglia.

Luca_fotoLuca Cerabone è un ingegnere di business intelligence presso Amazon. Attingendo al suo background in scienza e analisi dei dati, Luca crea soluzioni tecniche su misura per soddisfare le esigenze specifiche dei suoi clienti, guidandoli verso processi più sostenibili e scalabili. Armato di un Master in Data Science, Luca ama dedicarsi a progetti fai-da-te, fare giardinaggio e sperimentare delizie culinarie nei suoi momenti di svago.

spot_img

L'ultima intelligenza

spot_img

Parla con noi

Ciao! Come posso aiutarla?