Intelligence de données générative

Évaluez les capacités de résumé de texte des LLM pour une prise de décision améliorée sur AWS | Services Web Amazon

Date :

Les organisations de tous secteurs utilisent la synthèse automatique de texte pour gérer plus efficacement de grandes quantités d’informations et prendre de meilleures décisions. Dans le secteur financier, les banques d’investissement résument leurs rapports sur les résultats en points clés afin d’analyser rapidement les performances trimestrielles. Les sociétés de médias utilisent le résumé pour surveiller l'actualité et les médias sociaux afin que les journalistes puissent rédiger rapidement des articles sur des problèmes en développement. Les agences gouvernementales résument de longs documents et rapports politiques pour aider les décideurs politiques à élaborer des stratégies et à prioriser les objectifs.

En créant des versions condensées de documents longs et complexes, la technologie de synthèse permet aux utilisateurs de se concentrer sur le contenu le plus important. Cela conduit à une meilleure compréhension et conservation des informations critiques. Le gain de temps permet aux parties prenantes d’examiner davantage de documents en moins de temps, obtenant ainsi une perspective plus large. Grâce à une meilleure compréhension et à des informations plus synthétisées, les organisations peuvent prendre des décisions stratégiques plus éclairées, accélérer la recherche, améliorer la productivité et accroître leur impact. Le pouvoir transformateur des capacités avancées de synthèse ne fera que croître à mesure que de plus en plus d’industries adopteront l’intelligence artificielle (IA) pour exploiter les flux d’informations débordants.

Dans cet article, nous explorons les principales approches pour évaluer objectivement la précision des résumés, notamment les métriques ROUGE, METEOR et BERTScore. Comprendre les forces et les faiblesses de ces techniques peut aider à orienter les efforts de sélection et d’amélioration. L'objectif général de cet article est de démystifier l'évaluation de synthèse pour aider les équipes à mieux comparer les performances sur cette capacité critique alors qu'elles cherchent à maximiser la valeur.

Types de résumé

Le résumé peut généralement être divisé en deux types principaux : le résumé extractif et le résumé abstrait. Les deux approches visent à condenser de longs morceaux de texte sous des formes plus courtes, capturant les informations les plus critiques ou l’essence du contenu original, mais elles le font de manières fondamentalement différentes.

Le résumé extractif consiste à identifier et à extraire des phrases, des phrases ou des segments clés du texte original sans les modifier. Le système sélectionne les parties du texte jugées les plus informatives ou représentatives de l'ensemble. Le résumé extractif est utile si l’exactitude est essentielle et si le résumé doit refléter les informations exactes du texte original. Il peut s'agir de cas d'utilisation tels que la mise en évidence de termes juridiques, d'obligations et de droits spécifiques décrits dans les conditions d'utilisation. Les techniques les plus couramment utilisées pour la synthèse extractive sont la fréquence des documents à fréquence inverse (TF-IDF), la notation des phrases, l'algorithme de classement du texte et l'apprentissage automatique supervisé (ML).

Le résumé abstrait va encore plus loin en générant de nouvelles expressions et phrases qui ne figuraient pas dans le texte original, paraphrasant et condensant essentiellement le contenu original. Cette approche nécessite une compréhension plus approfondie du texte, car l’IA doit en interpréter le sens, puis l’exprimer sous une forme nouvelle et concise. Les grands modèles de langage (LLM) sont les mieux adaptés à la synthèse abstraite, car les modèles de transformateur utilisent des mécanismes d'attention pour se concentrer sur les parties pertinentes du texte d'entrée lors de la génération de résumés. Le mécanisme d'attention permet au modèle d'attribuer différents poids à différents mots ou jetons dans la séquence d'entrée, lui permettant ainsi de capturer des dépendances à long terme et des informations contextuellement pertinentes.

En plus de ces deux types principaux, il existe des approches hybrides combinant des méthodes extractives et abstraites. Ces approches peuvent commencer par un résumé extractif pour identifier le contenu le plus important, puis utiliser des techniques abstractives pour réécrire ou condenser ce contenu en un résumé fluide.

Le défi

Trouver la méthode optimale pour évaluer la qualité des résumés reste un défi ouvert. Alors que les organisations s'appuient de plus en plus sur le résumé automatique de texte pour extraire les informations clés des documents, le besoin de techniques standardisées pour mesurer la précision du résumé augmente. Idéalement, ces mesures d'évaluation quantifieraient dans quelle mesure les résumés générés automatiquement extraient le contenu le plus important des textes sources et présentent des résumés cohérents reflétant le sens et le contexte d'origine.

Cependant, le développement de méthodologies d’évaluation robustes pour la synthèse de textes présente des difficultés :

  • Les résumés de référence rédigés par des humains et utilisés à des fins de comparaison présentent souvent une grande variabilité basée sur des déterminations subjectives de l'importance
  • Les aspects nuancés de la qualité des résumés, tels que la fluidité, la lisibilité et la cohérence, s'avèrent difficiles à quantifier par programmation.
  • Il existe de grandes variations entre les méthodes de synthèse, depuis les algorithmes statistiques jusqu'aux réseaux de neurones, ce qui complique les comparaisons directes.

Doublure orientée rappel pour l'évaluation de Gisting (ROUGE)

métriques ROUGE, tels que ROUGE-N et ROUGE-L, jouent un rôle crucial dans l'évaluation de la qualité des résumés générés automatiquement par rapport aux résumés de référence rédigés par des humains. Ces mesures se concentrent sur l'évaluation du chevauchement entre le contenu des résumés générés par la machine et ceux créés par l'homme en analysant les n-grammes, qui sont des groupes de mots ou de jetons. Par exemple, ROUGE-1 évalue la correspondance de mots individuels (unigrammes), tandis que ROUGE-2 considère des paires de mots (bigrammes). De plus, ROUGE-N évalue la plus longue sous-séquence commune de mots entre les deux textes, permettant une flexibilité dans l'ordre des mots.

Pour illustrer cela, considérons les exemples suivants :

  • Métrique ROGUE-1 – ROUGE-1 évalue le chevauchement d'unigrammes (mots simples) entre un résumé généré et un résumé de référence. Par exemple, si un résumé de référence contient « Le renard brun saute rapidement » et que le résumé généré est « Le renard brun saute rapidement », la métrique ROUGE-1 considérera « brun », « renard » et « saute » comme se chevauchant. unigrammes. ROUGE-1 se concentre sur la présence de mots individuels dans les résumés, mesurant dans quelle mesure le résumé généré capture les mots clés du résumé de référence.
  • Métrique ROGUE-2 – ROUGE-2 évalue le chevauchement de bigrammes (paires de mots adjacents) entre un résumé généré et un résumé de référence. Par exemple, si le résumé de référence indique « Le chat dort » et que le résumé généré indique « Un chat dort », ROUGE-2 identifierait « le chat est » et « dort » comme un bigramme qui se chevauche. ROUGE-2 donne un aperçu de la façon dont le résumé généré maintient la séquence et le contexte des paires de mots par rapport au résumé de référence.
  • Métrique ROUGE-N – ROUGE-N est une forme généralisée où N représente n'importe quel nombre, permettant une évaluation basée sur des n-grammes (séquences de N mots). En considérant N = 3, si le résumé de référence indique « Le soleil brille brillamment » et que le résumé généré est « Soleil brille brillamment », ROUGE-3 reconnaîtrait « le soleil brille brillamment » comme un trigramme correspondant. ROUGE-N offre la flexibilité d'évaluer des résumés en fonction de différentes longueurs de séquences de mots, offrant ainsi une évaluation plus complète du chevauchement du contenu.

Ces exemples illustrent comment les métriques ROUGE-1, ROUGE-2 et ROUGE-N fonctionnent dans l'évaluation des tâches de résumé automatique ou de traduction automatique en comparant les résumés générés avec des résumés de référence basés sur différents niveaux de séquences de mots.

Calculer un score ROUGE-N

Vous pouvez suivre les étapes suivantes pour calculer un score ROUGE-N :

  1. Tokenisez le résumé généré et le résumé de référence en mots ou jetons individuels à l'aide de méthodes de tokenisation de base telles que le fractionnement par espaces ou les bibliothèques de traitement du langage naturel (NLP).
  2. Générez des n-grammes (séquences contiguës de N mots) à partir du résumé généré et du résumé de référence.
  3. Comptez le nombre de n-grammes qui se chevauchent entre le résumé généré et le résumé de référence.
  4. Calculez la précision, le rappel et le score F1 :
    • La précision – Le nombre de n-grammes qui se chevauchent divisé par le nombre total de n-grammes dans le résumé généré.
    • Rappeler – Le nombre de n-grammes qui se chevauchent divisé par le nombre total de n-grammes dans le résumé de référence.
    • Score F1 – La moyenne harmonique de précision et de rappel, calculée comme (2 * précision * rappel) / (précision + rappel).
  5. Le score F1 global obtenu en calculant la précision, le rappel et le score F1 pour chaque ligne de l'ensemble de données est considéré comme le score ROUGE-N.

Limites

ROGUE a les limitations suivantes :

  • Concentration étroite sur le chevauchement lexical – L’idée centrale de ROUGE est de comparer le résumé généré par le système à un ensemble de résumés de référence ou créés par l’homme, et de mesurer le chevauchement lexical entre eux. Cela signifie que ROUGE se concentre très étroitement sur la similarité au niveau des mots. Il n'évalue pas réellement la signification sémantique, la cohérence ou la lisibilité du résumé. Un système pourrait obtenir des scores ROUGE élevés en extrayant simplement des phrases mot à mot du texte original, sans générer un résumé cohérent ou concis.
  • Insensibilité à la paraphrase – Parce que ROUGE s'appuie sur la correspondance lexicale, il ne peut pas détecter l'équivalence sémantique entre les mots et les phrases. Par conséquent, la paraphrase et l’utilisation de synonymes conduisent souvent à des scores ROUGE inférieurs, même si le sens est préservé. Cela désavantage les systèmes qui paraphrasent ou résument de manière abstraite.
  • Manque de compréhension sémantique – ROUGE n'évalue pas si le système a vraiment compris les significations et les concepts du texte original. Un résumé pourrait atteindre un chevauchement lexical élevé avec les références, tout en manquant les idées principales ou en contenant des incohérences factuelles. ROUGE n’identifierait pas ces problèmes.

Quand utiliser ROUGE

ROUGE est simple et rapide à calculer. Utilisez-le comme référence ou référence pour la qualité du résumé lié à la sélection de contenu. Les métriques ROUGE sont utilisées plus efficacement dans des scénarios impliquant des tâches de résumé abstraites, une évaluation de résumé automatique, des évaluations de LLM et des analyses comparatives de différentes approches de résumé. En utilisant les métriques ROUGE dans ces contextes, les parties prenantes peuvent évaluer quantitativement la qualité et l'efficacité des processus de génération de résumés.

Métrique d'évaluation de la traduction avec commande explicite (METEOR)

L’un des défis majeurs dans l’évaluation des systèmes de résumé est d’évaluer dans quelle mesure le résumé généré est logique, plutôt que de simplement sélectionner des mots et des expressions pertinents dans le texte source. Le simple fait d'extraire des mots-clés et des phrases pertinents ne produit pas nécessairement un résumé cohérent et cohérent. Le résumé doit être fluide et relier les idées de manière logique, même si elles ne sont pas présentées dans le même ordre que le document original.

La flexibilité de la correspondance en réduisant les mots à leur racine ou forme de base (par exemple, après la racine, des mots comme « courir », « court » et « couru » deviennent tous « courir ») et les synonymes signifient METEOR correspond mieux aux jugements humains de qualité sommaire. Il permet de déterminer si un contenu important est préservé, même si la formulation diffère. Il s'agit d'un avantage clé par rapport aux métriques basées sur n-grammes comme ROUGE, qui recherchent uniquement des correspondances exactes de jetons. METEOR attribue également des scores plus élevés aux résumés qui se concentrent sur le contenu le plus marquant de la référence. Des scores plus faibles sont attribués aux informations répétitives ou non pertinentes. Cela correspond bien à l’objectif de synthèse visant à conserver uniquement le contenu le plus important. METEOR est une métrique sémantiquement significative qui peut surmonter certaines des limitations de la correspondance n-grammes pour évaluer le résumé de texte. L'incorporation de radicaux et de synonymes permet une meilleure évaluation du chevauchement des informations et de l'exactitude du contenu.

Pour illustrer cela, considérons les exemples suivants :

Résumé de référence : Les feuilles tombent en automne.

Résumé généré 1 : Les feuilles tombent à l'automne.

Résumé généré 2 : Feuilles vertes en été.

Les mots qui correspondent entre la référence et le résumé généré 1 sont mis en évidence :

Résumé de référence : Feuilles tomber pendant l'automne.

Résumé généré 1 : Feuilles déposer tomber.

Même si « automne » et « automne » sont des symboles différents, METEOR les reconnaît comme des synonymes grâce à leur correspondance de synonymes. « Drop » et « fall » sont identifiés comme une correspondance radicale. Pour le résumé généré 2, il n'y a aucune correspondance avec le résumé de référence en dehors de « Feuilles », ce résumé recevrait donc un score METEOR beaucoup plus faible. Plus les correspondances sont sémantiquement significatives, plus le score METEOR est élevé. Cela permet à METEOR de mieux évaluer le contenu et l’exactitude des résumés par rapport à une simple correspondance n-gramme.

Calculer un score METEOR

Suivez les étapes suivantes pour calculer un score METEOR :

  1. Tokenisez le résumé généré et le résumé de référence en mots ou jetons individuels à l'aide de méthodes de tokenisation de base telles que le fractionnement par espaces ou par bibliothèques NLP.
  2. Calculez la précision de l'unigramme, le rappel et le score F-mean, en accordant plus d'importance au rappel qu'à la précision.
  3. Appliquez une pénalité pour les correspondances exactes afin d’éviter de les surestimer. La pénalité est choisie en fonction des caractéristiques de l'ensemble de données, des exigences de la tâche et de l'équilibre entre précision et rappel. Soustrayez cette pénalité du score F-moyen calculé à l’étape 2.
  4. Calculez le score F-mean pour les formes radicales (en réduisant les mots à leur forme de base ou racine) et les synonymes des unigrammes, le cas échéant. Agrégez cela avec le score moyen F calculé précédemment pour obtenir le score METEOR final. Le score METEOR va de 0 à 1, où 0 indique aucune similitude entre le résumé généré et le résumé de référence, et 1 indique un alignement parfait. En règle générale, les scores de synthèse se situent entre 0 et 0.6.

Limites

Lors de l'utilisation de la métrique METEOR pour évaluer les tâches de synthèse, plusieurs défis peuvent survenir :

  • Complexité sémantique – L'accent mis par METEOR sur la similarité sémantique peut avoir du mal à saisir les significations nuancées et le contexte dans des tâches de synthèse complexes, ce qui peut conduire à des inexactitudes dans l'évaluation.
  • Variabilité de référence – La variabilité des résumés de référence générés par l’homme peut avoir un impact sur les scores METEOR, car les différences dans le contenu des références peuvent affecter l’évaluation des résumés générés automatiquement.
  • Diversité linguistique – L'efficacité de METEOR peut varier selon les langues en raison des variations linguistiques, des différences de syntaxe et des nuances sémantiques, ce qui pose des défis dans les évaluations de synthèse multilingues.
  • Écart de longueur – L’évaluation de résumés de longueurs variables peut s’avérer difficile pour METEOR, car des écarts de longueur par rapport au résumé de référence peuvent entraîner des pénalités ou des inexactitudes dans l’évaluation.
  • Réglage des paramètres – L'optimisation des paramètres de METEOR pour différents ensembles de données et tâches de synthèse peut prendre du temps et nécessiter un réglage minutieux pour garantir que la métrique fournit des évaluations précises.
  • Biais d'évaluation – Il existe un risque de biais d'évaluation avec METEOR s'il n'est pas correctement ajusté ou calibré pour des domaines ou des tâches de synthèse spécifiques. Cela peut potentiellement conduire à des résultats faussés et affecter la fiabilité du processus d'évaluation.

En étant conscients de ces défis et en les prenant en compte lorsqu’ils utilisent METEOR comme mesure pour les tâches de synthèse, les chercheurs et les praticiens peuvent surmonter les limites potentielles et prendre des décisions plus éclairées dans leurs processus d’évaluation.

Quand utiliser METEOR

METEOR est couramment utilisé pour évaluer automatiquement la qualité des résumés de texte. Il est préférable d'utiliser METEOR comme mesure d'évaluation lorsque l'ordre des idées, des concepts ou des entités dans le résumé est important. METEOR prend en compte l'ordre et fait correspondre les n-grammes entre le résumé généré et les résumés de référence. Il récompense les résumés qui préservent les informations séquentielles. Contrairement aux métriques comme ROUGE, qui reposent sur le chevauchement de n-grammes avec des résumés de référence, METEOR fait correspondre les radicaux, les synonymes et les paraphrases. METEOR fonctionne mieux lorsqu'il peut exister plusieurs manières correctes de résumer le texte original. METEOR intègre des synonymes WordNet et des jetons dérivés lors de la correspondance des n-grammes. En bref, les résumés sémantiquement similaires mais utilisant des mots ou des formulations différents auront toujours de bons résultats. METEOR a une pénalité intégrée pour les résumés contenant des n-grammes répétitifs. Par conséquent, cela décourage l’extraction mot à mot ou le manque d’abstraction. METEOR est un bon choix lorsque la similarité sémantique, l'ordre des idées et la fluidité de la formulation sont importants pour juger de la qualité du résumé. Il est moins approprié pour les tâches où seul le chevauchement lexical avec les résumés de référence compte.

BERTcore

Les mesures lexicales au niveau de la surface comme ROUGE et METEOR évaluent les systèmes de synthèse en comparant le chevauchement de mots entre un résumé candidat et un résumé de référence. Cependant, ils s'appuient fortement sur la correspondance exacte des chaînes entre les mots et les expressions. Cela signifie qu’ils peuvent manquer des similitudes sémantiques entre des mots et des phrases qui ont des formes superficielles différentes mais des significations sous-jacentes similaires. En s'appuyant uniquement sur une correspondance superficielle, ces mesures peuvent sous-estimer la qualité des résumés du système qui utilisent des mots synonymes ou paraphrasent des concepts différemment des résumés de référence. Deux résumés pourraient transmettre des informations presque identiques mais recevoir de faibles scores au niveau superficiel en raison des différences de vocabulaire.

BERTcore est un moyen d'évaluer automatiquement la qualité d'un résumé en le comparant à un résumé de référence rédigé par un humain. Il utilise BERT, une technique PNL populaire, pour comprendre la signification et le contexte des mots dans le résumé du candidat et le résumé de référence. Plus précisément, il examine chaque mot ou jeton dans le résumé candidat et trouve le mot le plus similaire dans le résumé de référence sur la base des intégrations BERT, qui sont des représentations vectorielles de la signification et du contexte de chaque mot. Il mesure la similarité en utilisant la similarité cosinus, qui indique la proximité des vecteurs les uns par rapport aux autres. Pour chaque mot du résumé du candidat, il recherche le mot le plus pertinent dans le résumé de référence en utilisant la compréhension linguistique de BERT. Il compare toutes ces similitudes de mots dans l'ensemble du résumé pour obtenir un score global de la similitude sémantique du résumé du candidat avec le résumé de référence. Plus les mots et les significations capturés par BERT sont similaires, plus le BERTScore est élevé. Cela lui permet d'évaluer automatiquement la qualité d'un résumé généré en le comparant à une référence humaine sans avoir besoin d'une évaluation humaine à chaque fois.

Pour illustrer cela, imaginez que vous ayez un résumé généré automatiquement : « Le renard brun rapide saute par-dessus le chien paresseux. » Considérons maintenant un résumé de référence créé par l'homme : "Un renard brun rapide saute par-dessus un chien endormi."

Calculer un BERTScore

Suivez les étapes suivantes pour calculer un BERTScore :

  1. BERTScore utilise des intégrations contextuelles pour représenter chaque jeton dans les phrases candidates (générées par la machine) et de référence (créées par l'homme). Les intégrations contextuelles sont un type de représentation de mots en PNL qui capture la signification d'un mot en fonction de son contexte dans une phrase ou un texte. Contrairement aux intégrations de mots traditionnelles qui attribuent un vecteur fixe à chaque mot quel que soit son contexte, les intégrations contextuelles considèrent les mots environnants pour générer une représentation unique pour chaque mot en fonction de la manière dont il est utilisé dans une phrase spécifique.
  2. La métrique calcule ensuite la similarité entre chaque jeton de la phrase candidate avec chaque jeton de la phrase de référence en utilisant la similarité cosinus. La similarité cosinus nous aide à quantifier à quel point deux ensembles de données sont étroitement liés en nous concentrant sur la direction qu'ils pointent dans un espace multidimensionnel, ce qui en fait un outil précieux pour des tâches telles que les algorithmes de recherche, la PNL et les systèmes de recommandation.
  3. En comparant les intégrations contextuelles et le calcul des scores de similarité pour tous les jetons, BERTScore génère une évaluation complète qui capture la pertinence sémantique et le contexte du résumé généré par rapport à la référence créée par l'homme.
  4. Le résultat final de BERTScore fournit un score de similarité qui reflète dans quelle mesure le résumé généré automatiquement s'aligne avec le résumé de référence en termes de signification et de contexte.

Essentiellement, BERTScore va au-delà des mesures traditionnelles en prenant en compte les nuances sémantiques et le contexte des phrases, offrant une évaluation plus sophistiquée qui reflète fidèlement le jugement humain. Cette approche avancée améliore la précision et la fiabilité de l'évaluation des tâches de synthèse, faisant de BERTScore un outil précieux pour évaluer les systèmes de génération de texte.

Limitations:

Bien que BERTScore offre des avantages significatifs dans l'évaluation des tâches de synthèse, il présente également certaines limites qui doivent être prises en compte :

  • Intensité de calcul – BERTScore peut nécessiter beaucoup de calculs en raison de sa dépendance à des modèles de langage pré-entraînés comme BERT. Cela peut entraîner des temps d'évaluation plus longs, en particulier lors du traitement de grands volumes de données textuelles.
  • Dépendance aux modèles pré-entraînés – L'efficacité de BERTScore dépend fortement de la qualité et de la pertinence du modèle linguistique pré-entraîné utilisé. Dans les scénarios où le modèle pré-entraîné peut ne pas capturer correctement les nuances du texte, les résultats de l'évaluation peuvent être affectés.
  • Évolutivité – La mise à l'échelle de BERTScore pour de grands ensembles de données ou des applications en temps réel peut s'avérer difficile en raison de ses exigences informatiques. La mise en œuvre de BERTScore dans des environnements de production peut nécessiter des stratégies d'optimisation pour fournir des performances efficaces.
  • Spécificité du domaine – Les performances de BERTScore peuvent varier selon différents domaines ou types de texte spécialisés. L'adaptation de la métrique à des domaines ou des tâches spécifiques peut nécessiter des ajustements ou des ajustements pour produire des évaluations précises.
  • Interprétabilité – Bien que BERTScore fournisse une évaluation complète basée sur des intégrations contextuelles, l'interprétation des raisons spécifiques derrière les scores de similarité générés pour chaque jeton peut être complexe et nécessiter une analyse supplémentaire.
  • Évaluation sans référence – Bien que BERTScore réduit le recours aux résumés de référence pour l'évaluation, cette approche sans référence peut ne pas capturer pleinement tous les aspects de la qualité du résumé, en particulier dans les scénarios où les références créées par l'homme sont essentielles pour évaluer la pertinence et la cohérence du contenu.

Reconnaître ces limites peut vous aider à prendre des décisions éclairées lorsque vous utilisez BERTScore comme mesure d'évaluation des tâches de synthèse, en fournissant une compréhension équilibrée de ses forces et de ses contraintes.

Quand utiliser BERTScore

BERTScore peut évaluer la qualité du résumé de texte en comparant un résumé généré à un résumé de référence. Il utilise des réseaux de neurones comme BERT pour mesurer la similarité sémantique au-delà de la simple correspondance exacte de mots ou d'expressions. Cela rend BERTScore très utile lorsque la fidélité sémantique préservant le sens et le contenu complets est essentielle pour votre tâche de synthèse. BERTScore attribuera des scores plus élevés aux résumés qui transmettent les mêmes informations que le résumé de référence, même s'ils utilisent des mots et des structures de phrases différents. L'essentiel est que BERTScore est idéal pour les tâches de synthèse où il est vital de conserver la signification sémantique complète, pas seulement les mots-clés ou les sujets. Sa notation neuronale avancée lui permet de comparer le sens au-delà de la correspondance de mots au niveau superficiel. Cela le rend adapté aux cas où des différences subtiles dans la formulation peuvent modifier considérablement le sens et les implications globales. BERTScore, en particulier, excelle dans la capture de la similarité sémantique, ce qui est crucial pour évaluer la qualité des résumés abstraits comme ceux produits par les modèles Retrieval Augmented Generation (RAG).

Modèles de cadres d’évaluation

Les cadres d'évaluation des modèles sont essentiels pour évaluer avec précision les performances de divers modèles de synthèse. Ces cadres jouent un rôle déterminant dans la comparaison des modèles, en assurant la cohérence entre les résumés générés et le contenu source, et en identifiant les lacunes des méthodes d'évaluation. En effectuant des évaluations approfondies et des analyses comparatives cohérentes, ces cadres propulsent la recherche sur la synthèse de texte en préconisant des pratiques d'évaluation standardisées et en permettant des comparaisons de modèles à multiples facettes.

Dans AWS, le Bibliothèque FMEval dans les Amazon SageMaker Clarifier rationalise l'évaluation et la sélection des modèles de base (FM) pour des tâches telles que le résumé de texte, la réponse aux questions et la classification. Il vous permet d'évaluer les FM sur la base de mesures telles que l'exactitude, la robustesse, la créativité, les biais et la toxicité, en prenant en charge les évaluations automatisées et humaines pour les LLM. Avec des évaluations basées sur l'interface utilisateur ou programmatiques, FMEval génère des rapports détaillés avec des visualisations pour quantifier les risques du modèle tels que les inexactitudes, la toxicité ou les biais, aidant ainsi les organisations à s'aligner sur leurs directives d'IA générative responsable. Dans cette section, nous montrons comment utiliser la bibliothèque FMEval.

Évaluez Claude v2 sur la précision du résumé à l'aide d'Amazon Bedrock

L'extrait de code suivant est un exemple de la façon d'interagir avec le modèle Anthropic Claude à l'aide du code Python :

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

En termes simples, ce code effectue les actions suivantes :

  1. Importez les bibliothèques nécessaires, y compris json, pour travailler avec des données JSON.
  2. Définissez l'ID du modèle comme anthropic.claude-v2 et définissez le type de contenu de la demande.
  3. Créer un prompt_data variable qui structure les données d’entrée du modèle Claude. Dans ce cas, il pose la question « Qui est Barack Obama ? » et attend une réponse du modèle.
  4. Construisez un objet JSON nommé body qui inclut les données d'invite et spécifiez des paramètres supplémentaires tels que le nombre maximum de jetons à générer.
  5. Invoquez le modèle Claude en utilisant bedrock_runtime.invoke_model avec les paramètres définis.
  6. Analysez la réponse du modèle, extrayez la complétion (texte généré) et imprimez-la.

Assurez-vous que le Gestion des identités et des accès AWS (IAM) associé au Amazon SageMakerStudio le profil utilisateur a accès au Socle amazonien modèles invoqués. Faire référence à Exemples de politiques basées sur l'identité pour Amazon Bedrock pour obtenir des conseils sur les meilleures pratiques et des exemples de politiques basées sur l'identité pour Amazon Bedrock.

Utilisation de la bibliothèque FMEval pour évaluer la sortie résumée de Claude

Nous utilisons le code suivant pour évaluer la sortie résumée :

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

Dans l'extrait de code précédent, pour évaluer le résumé de texte à l'aide de la bibliothèque FMEval, nous effectuons les étapes suivantes :

  1. Créer un ModelRunner pour effectuer un invocation sur votre LLM. La bibliothèque FMEval fournit un support intégré pour Amazon Sage Maker points finaux et Amazon SageMaker JumpStart LLM. Vous pouvez également prolonger le ModelRunner interface pour tous les LLM hébergés n’importe où.
  2. Utilisation prise en charge eval_algorithms comme la toxicité, le résumé, l'exactitude, la sémantique et la robustesse, en fonction de vos besoins d'évaluation.
  3. Personnalisez les paramètres de configuration d'évaluation pour votre cas d'utilisation spécifique.
  4. Utilisez l'algorithme d'évaluation avec des ensembles de données intégrés ou personnalisés pour évaluer votre modèle LLM. L'ensemble de données utilisé dans ce cas provient de ce qui suit GitHub repo.

Reportez-vous à guide du développeur et exemples pour une utilisation détaillée des algorithmes d’évaluation.

Le tableau suivant résume les résultats de l’évaluation.

modèle _entrée modèle_sortie sortie_cible rapide scores météore_score rouge_score bert_score
John Edward
0 Bates, anciennement de Spalding, Linco…..
Je ne peux rien faire de définitif
jugements, comme le…
Un ancien
Un officier de police du Lincolnshire a été transporté…
Humain : John
Edward Bates, anciennement de Spalding…
[{'nom' : 'météore', 'valeur' :
0.101010101010101 ...
0.10101 0 0.557155
Février 23
Dernière mise à jour à
17h44 BST|nC'est...
Voici quelques points clés concernant les ouragans/trop. L’ouragan Patricia a été classé dans la catégorie… Humain : 23
Octobre 2015 Dernière mise à jour à 17:44
B…
[{'nom' : météore', "valeur" :
0.102339181286549 ..
0.102339 0.018265 0.441421
Ferrari semblait en mesure de défier un… Voici les points clés de l’article :nin… Lewis Hamilton a décroché la pole position au… Humain : Ferrari semblait en mesure de défier… [{'nom' : 'météore', 'valeur' :
0.322543352601156 ...
0.322543 0.078212 0.606487
Le joueur né à Bath, 28 ans, en a réalisé 36
apparaître…
D'accord, laissez-moi résumer les points clés :/nin- E….. Newport Gwent Dragons numéro huit Ed Jackson Humain : Le joueur né à Bath, 28 ans, a réalisé 36 a… [{'nom' : 'météore', 'valeur' :
0105740181268882 ...
0.10574 0.012987 0.539488
Faiblesses dans la façon dont les souris échangeaient des données avec c… Voici les points clés que j’ai recueillis lors de l’a… Les pirates informatiques pourraient accéder à la maison et Humain
Faiblesses dans le
les souris Swar ont échangé des données
[{'nom' : 'météore', 'valeur' :
0.201048289433848 ...
0.201048 0.021858 0.526947

Découvrez l'échantillon cahier pour plus de détails sur l’évaluation de synthèse dont nous avons discuté dans cet article.

Conclusion

ROUGE, METEOR et BERTScore mesurent tous la qualité des résumés générés automatiquement, mais se concentrent sur différents aspects comme le chevauchement lexical, la fluidité ou la similarité sémantique. Assurez-vous de sélectionner la métrique qui correspond à ce qui définit « bon » pour votre cas d'utilisation de synthèse spécifique. Vous pouvez également utiliser une combinaison de métriques. Cela fournit une évaluation plus complète et protège contre les faiblesses potentielles de toute mesure individuelle. Avec les bonnes mesures, vous pouvez améliorer de manière itérative vos résumés pour répondre à la notion de précision la plus importante.

De plus, une évaluation FM et LLM est nécessaire pour pouvoir produire ces modèles à grande échelle. Avec FMEval, vous disposez d'un vaste ensemble d'algorithmes intégrés pour de nombreuses tâches de PNL, mais également d'un outil évolutif et flexible pour les évaluations à grande échelle de vos propres modèles, ensembles de données et algorithmes. Pour évoluer, vous pouvez utiliser ce package dans vos pipelines LLMOps pour évaluer plusieurs modèles. Pour en savoir plus sur FMEval dans AWS et comment l'utiliser efficacement, reportez-vous à Utilisez SageMaker Clarify pour évaluer de grands modèles de langage. Pour plus de compréhension et d'informations sur les capacités de SageMaker Clarify dans l'évaluation des FM, voir Amazon SageMaker Clarify facilite l'évaluation et la sélection des modèles de base.


À propos des auteurs


Dinesh Kumar Subramani est un architecte de solutions senior basé à Édimbourg, en Écosse. Il se spécialise dans l'intelligence artificielle et l'apprentissage automatique et est membre de la communauté technique d'Amazon. Dinesh travaille en étroite collaboration avec les clients du gouvernement central britannique pour résoudre leurs problèmes en utilisant les services AWS. En dehors du travail, Dinesh aime passer du temps de qualité avec sa famille, jouer aux échecs et explorer une gamme variée de musiques.


Pranav Sharma est un leader AWS qui mène des initiatives de transformation technologique et commerciale en Europe, au Moyen-Orient et en Afrique. Il possède de l'expérience dans la conception et l'exploitation de plates-formes d'intelligence artificielle en production qui prennent en charge des millions de clients et génèrent des résultats commerciaux. Il a joué des rôles de leadership en matière de technologie et de ressources humaines pour des organisations mondiales de services financiers. En dehors du travail, il aime lire, jouer au tennis avec son fils et regarder des films.

spot_img

Dernières informations

spot_img

Discutez avec nous

Salut! Comment puis-je t'aider?