Intelligence de données générative

Améliorez les performances LLM grâce aux commentaires humains et IA sur Amazon SageMaker pour Amazon Engineering | Services Web Amazon

Date :

L'équipe Amazon EU Design and Construction (Amazon D&C) est l'équipe d'ingénierie qui conçoit et construit les entrepôts Amazon. L'équipe parcourt un grand volume de documents et localise les bonnes informations pour s'assurer que la conception de l'entrepôt répond aux normes les plus élevées. Dans la poste Une solution générative basée sur l'IA sur Amazon SageMaker pour aider Amazon EU Design and Construction, nous avons présenté une solution de bot répondant aux questions utilisant un Récupération Génération Augmentée (RAG) avec un pipeline affiné grand modèle de langage (LLM) pour Amazon D&C afin de récupérer efficacement des informations précises à partir d'un grand volume de documents non organisés et de fournir des services rapides et de haute qualité dans leurs projets de construction. L'équipe Amazon D&C a mis en œuvre la solution dans le cadre d'un projet pilote destiné aux ingénieurs Amazon et a recueilli les commentaires des utilisateurs.

Dans cet article, nous partageons comment nous avons analysé les données de rétroaction et identifié les limites de précision et les hallucinations fournies par RAG, et utilisé le score d'évaluation humaine pour entraîner le modèle via apprentissage par renforcement. Pour augmenter les échantillons de formation pour un meilleur apprentissage, nous avons également utilisé un autre LLM pour générer des scores de rétroaction. Cette méthode corrigeait la limitation du RAG et améliorait encore la qualité de la réponse du bot. Nous présentons le processus d'apprentissage par renforcement et les résultats de l'analyse comparative pour démontrer l'amélioration des performances du LLM. La solution utilise Amazon SageMaker JumpStart en tant que service de base pour le déploiement, le réglage fin et l'apprentissage par renforcement des modèles.

Recueillir les commentaires des ingénieurs Amazon dans le cadre d'un projet pilote

Après avoir développé la solution décrite dans Une solution générative basée sur l'IA sur Amazon SageMaker pour aider Amazon EU Design and Construction, l'équipe Amazon D&C a déployé la solution et mené un projet pilote avec les ingénieurs Amazon. Les ingénieurs ont accédé au système pilote via une application Web développée par Rationalisé, connecté au pipeline RAG. Dans le pipeline, nous avons utilisé Service Amazon OpenSearch pour la base de données vectorielle et déployé un modèle Mistral-7B-Instruct affiné sur Amazon SageMaker.

L'un des principaux objectifs du projet pilote est de recueillir les commentaires des ingénieurs d'Amazon et d'utiliser ces commentaires pour réduire davantage les hallucinations LLM. Pour y parvenir, nous avons développé un module de collecte de commentaires dans l'interface utilisateur, comme le montre la figure suivante, et stocké les informations de session Web et les commentaires des utilisateurs dans Amazon DynamoDB. Grâce à l'interface utilisateur de collecte de commentaires, les ingénieurs Amazon peuvent choisir parmi cinq niveaux de satisfaction : pas du tout d'accord, pas d'accord, neutre, d'accord et tout à fait d'accord, correspondant aux scores de commentaires de 1 à 5. Ils peuvent également fournir une meilleure réponse à la question ou commenter pourquoi la réponse LLM n'est pas satisfaisante.

interface utilisateur de commentaires humains

Au cours du projet pilote, les utilisateurs ont fourni 118 commentaires. Le graphique suivant montre la distribution du négatif au positif. Nous avons observé que les réponses incorrectes marquées par des retours négatifs (en désaccord et fortement en désaccord) représentent 45% du total des retours (53 sur 118). Certaines erreurs (environ 10 % des commentaires négatifs et 7.5 % des réponses globales) peuvent être corrigées par la formation des utilisateurs et une ingénierie rapide. De plus, nous pouvons résoudre le problème avec la solution de réglage fin et d’apprentissage par renforcement LLM, décrite dans la section suivante.

Commentaires des utilisateurs du pilote

Certains utilisateurs ont simplement laissé une note, telle que « Super ! » pour les réponses tout à fait d'accord, ou « Ne répond pas à la question » pour les réponses fortement en désaccord. D'autres utilisateurs ont fourni des scores et expliqué comment ils justifient les réponses LLM dans leurs notes. Dans l'exemple suivant, l'utilisateur a spécifiquement fourni le document et le contenu adéquats pour corriger l'hallucination LLM.

Question De combien de places de parking disposons-nous ?
Réponse du robot

Dans le contexte donné, nous ne disposons pas de suffisamment d'informations pour déterminer le nombre de places de stationnement. Le contexte traite de la taille minimale des places de stationnement et des exigences en matière de niveaux d'éclairage extérieur, mais il ne fournit pas de nombre spécifique de places de stationnement.

**Vous pouvez vous référer à des explications supplémentaires dans les ressources suivantes :**

*ARS GEN 10.0/05.01.02. Critères de conception et annexes/Package de performances Critères de conception triables AR v20.1.1.pdf – page : 10

*ARS GEN 10.0/05.01.02. Critères de conception et annexes/Package de performances Critères de conception triables AR v20.1.1.pdf – page : 79

Score utilisateur Fortement en désaccord
Notes d'utilisateur Ceci est spécifié à la page 21 de la section des critères de conception 01 13 10.

Améliorez la réponse des robots grâce à un réglage fin supervisé et à un apprentissage par renforcement

La solution se compose de trois étapes de mise au point :

  1. Effectuez un réglage fin supervisé à l’aide de données étiquetées. Cette méthode a été décrite dans Une solution générative basée sur l'IA sur Amazon SageMaker pour aider Amazon EU Design and Construction.
  2. Recueillez les commentaires des utilisateurs pour étiqueter les paires question-réponse en vue d'un réglage ultérieur du LLM.
  3. Lorsque les données d'entraînement sont prêtes, ajustez davantage le modèle à l'aide de apprentissage par renforcement à partir de la rétroaction humaine (RLHF).

RLHF est largement utilisé dans les applications d’intelligence artificielle (IA) générative et de LLM. Il intègre les commentaires humains dans la fonction de récompense et entraîne le modèle avec un algorithme d'apprentissage par renforcement pour maximiser les récompenses, ce qui permet au modèle d'effectuer des tâches plus alignées sur les objectifs humains. Le diagramme suivant montre le pipeline des étapes.

Flux de travail de réglage fin

Nous avons testé la méthodologie en utilisant les documents Amazon D&C avec un modèle Mistral-7B sur SageMaker JumpStart.

Mise au point supervisée

Dans l'article précédent, nous avons démontré comment le modèle Falcon-7B affiné surpasse le pipeline RAG et améliore la qualité et la précision de la réponse du robot QA. Pour cet article, nous avons effectué un réglage fin supervisé sur le modèle Mistral-7B. Le réglage fin supervisé a utilisé la technique PEFT/LoRA (LoRA_r = 512, LoRA_alpha = 1024) sur 436,207,616 5.68 7,677,964,288 paramètres (3.8 % du total 137 20 XNUMX XNUMX paramètres). La formation a été réalisée sur un nœud pXNUMXx avec XNUMX échantillons générés synthétiquement par LLM et validés par des humains ; le processus converge bien après XNUMX époques, comme le montre la figure suivante.

Processus de formation SFT

Le modèle affiné a été validé par 274 échantillons et les résultats d'inférence ont été comparés aux réponses de référence par le score de similarité sémantique. Le score est de 0.8100, ce qui est supérieur au score de 0.6419 du RAG traditionnel.

Recueillir des commentaires humains et IA pour l'apprentissage par renforcement

Pour le RLHF, une quantité suffisante d'échantillons de formation de haute qualité étiquetés par des experts en la matière (PME) est essentielle. Cependant, des étiquettes humaines de mauvaise qualité entraîneront probablement de moins bonnes performances du modèle que le modèle d'origine après la formation RLHF. L’heure est aux PME une ressource rare dans toute organisation; L'examen de centaines ou de milliers de réponses LLM et la fourniture de commentaires nécessitent un investissement de temps important de la part des PME qui peuvent ne pas avoir un retour sur investissement clair.

Pour relever ce défi, nous avons adopté la apprentissage par renforcement à partir des commentaires de l'IA (RLAIF). RLAIF emploie un assistant IA (un autre LLM) pour fournir des scores d'évaluation, plutôt que des humains. Dans cette approche d’apprentissage hybride, l’agent d’apprentissage affine les actions non seulement en fonction de l’interaction avec un humain mais également du feedback fourni par un autre modèle d’IA. Il est beaucoup plus évolutif de fournir suffisamment de données de formation pour l'apprentissage par renforcement, et beaucoup moins subjectif car la formation ne dépend pas des préférences particulières d'un petit groupe de PME. Les PME peuvent toujours être impliquées, mais uniquement pour superviser le processus et examiner la qualité du retour d’expérience de l’IA. Cela réduit considérablement la charge de travail des PME, car les scores et les étiquettes générés par l'IA sont beaucoup moins compliqués à analyser, filtrer et trier pour les PME.

Dans ce cas d'utilisation, nous fournissons l'invite suivante à un modèle Anthropic Claude 2 pour générer les scores d'évaluation comme échantillons de formation pour l'étape d'apprentissage par renforcement :

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

Le modèle Claude 2 génère un score d'évaluation et un commentaire expliquant pourquoi le score est attribué, comme le montre l'exemple suivant.

Question Qu’entend-on par « Travaux d’aménagement » dans ce contexte ?
Réponse de référence Les Travaux d'aménagement font référence aux Travaux réalisés dans le cadre du contrat de construction par ou au nom d'Amazon via le Développeur jusqu'à la Date de première réception à partir d'un poste théorique de construction de Shell & Core Base du Développeur. Ces travaux incluent les aménagements requis par Amazon, les installations à grande surface et les
Réponse du robot QA Les Travaux d'aménagement font référence aux Travaux effectués dans le cadre du contrat de construction par ou au nom d'Amazon via le Développeur jusqu'à la Date de première réception à partir d'un poste théorique de construction de Shell & Core Base du Développeur.
Score IA 4.5
Commentaire de l'IA La réponse de la machine fournit les informations clés de la réponse standard : les travaux d'aménagement font référence aux travaux réalisés dans le cadre du contrat de construction par ou au nom d'Amazon via le développeur jusqu'à la date de première réception d'un poste théorique de construction de la coque et de la base de base du développeur. . Les détails supplémentaires sur l'inclusion des aménagements, des installations de grande surface et des personnalisations requis par Amazon sont pertinents et aident à fournir un contexte plus approfondi. J'ai donc noté la réponse de la machine 4.5 sur 5. Elle capture l'essence de la réponse standard et fournit quelques détails supplémentaires utiles.

Sur les 274 questions de validation, le modèle supervisé et affiné a généré 159 réponses avec des scores d'IA supérieurs à 4. Nous avons observé 60 réponses avec des scores inférieurs à 3 ; il est possible d’améliorer la qualité globale des réponses.

Score de feedback avant RLHF

Les PME d'Amazon Engineering ont validé ces retours d'IA et ont reconnu les avantages de l'utilisation des scores d'IA. Sans le retour de l'IA, les PME auraient besoin d'un certain temps pour examiner et analyser chaque réponse LLM afin d'identifier les réponses coupées et les hallucinations, et pour juger si le LLM renvoie des contenus et des concepts clés corrects. Les commentaires de l'IA fournissent automatiquement des scores d'IA et permettent aux PME d'utiliser le filtrage, le tri et le regroupement pour valider les scores et identifier les tendances dans les réponses. Cela réduit le temps d'examen moyen d'une PME de 80 %.

Apprentissage par renforcement à partir des retours humains et de l'IA

Lorsque les échantillons d'entraînement sont prêts, nous utilisons le algorithme d'optimisation de politique proximale (PPO) pour effectuer un apprentissage par renforcement. PPO utilise une méthode de gradient de politique, qui prend de petites étapes pour mettre à jour la politique dans le processus d'apprentissage, afin que les agents d'apprentissage puissent atteindre de manière fiable le réseau politique optimal. Cela rend le processus de formation plus stable et réduit les risques de divergence.

Au cours de la formation, nous utilisons d'abord les données étiquetées humaines et IA pour créer un modèle de récompense, qui sera utilisé pour guider la mise à jour des pondérations dans le processus d'apprentissage. Pour ce cas d'utilisation, nous sélectionnons un modèle de récompense basé sur distilroberta et l'entraînons par des échantillons au format suivant :

[Instruction, Chosen_response, Rejected_response]

Ce qui suit est un exemple de dossier de formation.

Instruction Selon le contexte, que prévoit une conception inclusive et accessible ?
Réponse_choisi Crédit BREEAM HEA06 – conception inclusive et accessible – Le bâtiment est conçu pour être adapté à son objectif, approprié et accessible à tous les utilisateurs potentiels. Une stratégie d'accès est développée conformément à la BREEAM Check list A3
Réponse_rejetée Le contexte indique que

Le modèle de récompense est entraîné avec le taux d'apprentissage 1e-5. Comme le montre le tableau suivant, la formation converge bien après 10 époques.

Processus de formation RLHF

Ensuite, le modèle de récompense est utilisé pour l’apprentissage par renforcement. Pour ce cas d'utilisation, nous utilisons PEFT/LoRA pour accélérer l'apprentissage. Le LoRA_r est de 32 et LoRA_alpha est de 64. L'apprentissage basé sur le PPO se fait à un taux de 1.41e-5 en trois époques. La formation de renforcement est très volatile et très sensible aux données de l'étiquette et aux données de retour. Nous utilisons la métrique récompense_mean, la récompense moyenne obtenue de l'environnement en surveillant spécifiquement le modèle de récompense, pour observer le processus d'apprentissage.

Après RLAIF, nous pouvons voir le nombre de réponses de robots avec des scores positifs (supérieurs à 3) augmenter de 78.1 % à 85.5 %, et celles avec des scores négatifs (inférieurs à 3) diminuer de 21.9 % à 14.5 %. Au total, le score moyen du feedback de l’IA augmente jusqu’à 8 %, passant de 3.9 à 4.2.

Amélioration par RLAIF

Vous pouvez voir l’amélioration dans l’exemple suivant.

Question Pour les sols carrelés, quelle chape faut-il ?
Référence Les revêtements de sol avec chape en béton ne sont applicables que dans les zones carrelées. Reportez-vous à la série de dessins A-32 pour voir où les carreaux de sol sont applicables.
Réponse du bot avant RLAIF Le revêtement de sol sur chape en béton est applicable uniquement dans
Score AI avant RLAIF 3
Réponse du robot après RLAIF Les revêtements de sol en chape en béton ne sont applicables que dans les zones carrelées. Reportez-vous à la série de dessins A-32 pour voir où le carrelage est applicable.
Score IA après RLAIF 4.5

Conclusion

Cet article s'inscrit dans la continuité de notre travail avec l'équipe de conception et de construction d'Amazon EU, comme indiqué dans Une solution générative basée sur l'IA sur Amazon SageMaker pour aider Amazon EU Design and Construction. Dans cet article, nous avons montré comment nous avons généré des données de feedback humain et IA pour affiner le modèle Mistral-7B grâce à l'apprentissage par renforcement. Le modèle après RLAIF a fourni de meilleures performances pour le robot de réponse aux questions d'Amazon Engineering et a amélioré le score de rétroaction de l'IA de 8 %. Dans le projet pilote de l'équipe Amazon D&C, l'utilisation de RLAIF a réduit la charge de travail de validation pour les PME d'environ 80 %. Dans la prochaine étape, nous allons faire évoluer cette solution en nous connectant à l'infrastructure de données d'Amazon Engineering et concevoir un cadre pour automatiser le processus d'apprentissage continu avec un humain impliqué dans la boucle. Nous améliorerons également encore la qualité des commentaires de l'IA en ajustant le modèle d'invite.

Grâce à ce processus, nous avons appris comment améliorer encore la qualité et les performances des tâches de réponse aux questions via RLHF et RLAIF.

  • La validation et l'augmentation humaines sont essentielles pour fournir des résultats précis et responsables du LLM. Les commentaires humains peuvent être utilisés dans RLHF pour améliorer encore la réponse du modèle.
  • RLAIF automatise le cycle d’évaluation et d’apprentissage. Les retours générés par l'IA sont moins subjectifs car ils ne dépendent pas d'une préférence particulière d'un petit groupe de PME.
  • RLAIF est plus évolutif pour améliorer la qualité du bot grâce à un apprentissage par renforcement continu tout en minimisant les efforts requis de la part des PME. Il est particulièrement utile pour développer des solutions d’IA générative spécifiques à un domaine au sein de grandes organisations.
  • Ce processus doit être effectué régulièrement, en particulier lorsque de nouvelles données de domaine sont disponibles et peuvent être couvertes par la solution.

Dans ce cas d'utilisation, nous avons utilisé SageMaker JumpStart pour tester plusieurs LLM et expérimenter plusieurs approches de formation LLM. Il accélère considérablement le cycle de retour d’information et d’apprentissage de l’IA avec une efficacité et une qualité maximisées. Pour votre propre projet, vous pouvez introduire l'approche human-in-the-loop pour recueillir les commentaires de vos utilisateurs, ou générer des commentaires d'IA à l'aide d'un autre LLM. Vous pouvez ensuite suivre le processus en trois étapes défini dans cet article pour affiner vos modèles à l'aide de RLHF et RLAIF. Nous vous recommandons d'expérimenter les méthodes utilisant SageMaker JumpStart pour accélérer le processus.


À propos de l’auteur

YunfeiYunfei Bai est architecte de solutions senior chez AWS. Avec une formation en IA/ML, en science des données et en analyse, Yunfei aide les clients à adopter les services AWS pour obtenir des résultats commerciaux. Il conçoit des solutions d'IA/ML et d'analyse de données qui surmontent des défis techniques complexes et conduisent à des objectifs stratégiques. Yunfei est titulaire d'un doctorat en génie électronique et électrique. En dehors du travail, Yunfei aime lire et écouter de la musique.

Elad_photoElad Dwek est responsable des technologies de construction chez Amazon. Fort d'une expérience en construction et en gestion de projet, Elad aide les équipes à adopter de nouvelles technologies et des processus basés sur des données pour réaliser des projets de construction. Il identifie les besoins et les solutions, et facilite le développement des attributs sur mesure. Elad est titulaire d'un MBA et d'un BSc en génie des structures. En dehors de son travail, Elad aime le yoga, le travail du bois et les voyages avec sa famille.

Luca_photoLuca Cerabone est ingénieur en business intelligence chez Amazon. Fort de son expérience en science des données et en analyse, Luca élabore des solutions techniques sur mesure pour répondre aux besoins uniques de ses clients, les conduisant vers des processus plus durables et évolutifs. Armé d'une maîtrise en science des données, Luca aime s'engager dans des projets de bricolage, jardiner et expérimenter des délices culinaires pendant ses moments de loisirs.

spot_img

Dernières informations

spot_img

Discutez avec nous

Salut! Comment puis-je t'aider?