Generative Datenintelligenz

Bewerten Sie die Textzusammenfassungsfunktionen von LLMs für eine verbesserte Entscheidungsfindung auf AWS | Amazon Web Services

Datum:

Unternehmen aller Branchen nutzen die automatische Textzusammenfassung, um große Informationsmengen effizienter zu verarbeiten und bessere Entscheidungen zu treffen. Im Finanzsektor fassen Investmentbanken Gewinnberichte auf die wichtigsten Erkenntnisse zusammen, um die vierteljährliche Leistung schnell zu analysieren. Medienunternehmen nutzen Zusammenfassungen, um Nachrichten und soziale Medien zu überwachen, damit Journalisten schnell Geschichten zu sich entwickelnden Themen schreiben können. Regierungsbehörden fassen umfangreiche politische Dokumente und Berichte zusammen, um politischen Entscheidungsträgern bei der Strategieentwicklung und Priorisierung von Zielen zu helfen.

Durch die Erstellung komprimierter Versionen langer, komplexer Dokumente ermöglicht die Zusammenfassungstechnologie Benutzern, sich auf die wichtigsten Inhalte zu konzentrieren. Dies führt zu einem besseren Verständnis und einer besseren Speicherung kritischer Informationen. Die Zeitersparnis ermöglicht es den Beteiligten, mehr Material in kürzerer Zeit zu prüfen und so eine breitere Perspektive zu gewinnen. Mit einem verbesserten Verständnis und mehr synthetisierten Erkenntnissen können Unternehmen fundiertere strategische Entscheidungen treffen, die Forschung beschleunigen, die Produktivität verbessern und ihre Wirkung steigern. Die transformative Kraft fortschrittlicher Zusammenfassungsfunktionen wird weiter zunehmen, da immer mehr Branchen künstliche Intelligenz (KI) einsetzen, um überfüllte Informationsströme zu nutzen.

In diesem Beitrag untersuchen wir führende Ansätze zur objektiven Bewertung der Zusammenfassungsgenauigkeit, einschließlich ROUGE-Metriken, METEOR und BERTScore. Das Verständnis der Stärken und Schwächen dieser Techniken kann bei der Auswahl und den Verbesserungsbemühungen hilfreich sein. Das übergeordnete Ziel dieses Beitrags besteht darin, die Zusammenfassungsbewertung zu entmystifizieren, um Teams dabei zu helfen, die Leistung dieser wichtigen Funktion besser zu bewerten und so den Wert zu maximieren.

Arten der Zusammenfassung

Die Zusammenfassung kann im Allgemeinen in zwei Haupttypen unterteilt werden: extraktive Zusammenfassung und abstrakte Zusammenfassung. Beide Ansätze zielen darauf ab, lange Textstücke in kürzere Formen zu verdichten und so die wichtigsten Informationen oder das Wesentliche des ursprünglichen Inhalts zu erfassen, tun dies jedoch auf grundlegend unterschiedliche Weise.

Bei der extraktiven Zusammenfassung werden Schlüsselphrasen, Sätze oder Segmente aus dem Originaltext identifiziert und extrahiert, ohne sie zu verändern. Das System wählt Teile des Textes aus, die als am informativsten oder repräsentativsten für das Ganze gelten. Eine extraktive Zusammenfassung ist nützlich, wenn die Genauigkeit von entscheidender Bedeutung ist und die Zusammenfassung die genauen Informationen aus dem Originaltext widerspiegeln muss. Dabei kann es sich um Anwendungsfälle wie die Hervorhebung bestimmter rechtlicher Bestimmungen, Pflichten und Rechte handeln, die in den Nutzungsbedingungen dargelegt sind. Die am häufigsten für die extraktive Zusammenfassung verwendeten Techniken sind TF-IDF (Term Frequency-Inverse Document Frequency), Satzbewertung, Textranking-Algorithmus und überwachtes maschinelles Lernen (ML).

Die abstrakte Zusammenfassung geht noch einen Schritt weiter, indem sie neue Phrasen und Sätze generiert, die nicht im Originaltext enthalten waren, und im Wesentlichen den ursprünglichen Inhalt paraphrasiert und verdichtet. Dieser Ansatz erfordert ein tieferes Verständnis des Textes, da die KI die Bedeutung interpretieren und sie dann in einer neuen, prägnanten Form ausdrücken muss. Große Sprachmodelle (LLMs) eignen sich am besten für die abstrakte Zusammenfassung, da die Transformatormodelle Aufmerksamkeitsmechanismen nutzen, um sich beim Generieren von Zusammenfassungen auf relevante Teile des Eingabetextes zu konzentrieren. Der Aufmerksamkeitsmechanismus ermöglicht es dem Modell, verschiedenen Wörtern oder Token in der Eingabesequenz unterschiedliche Gewichtungen zuzuweisen, wodurch weitreichende Abhängigkeiten und kontextrelevante Informationen erfasst werden können.

Zusätzlich zu diesen beiden Haupttypen gibt es hybride Ansätze, die extraktive und abstrahierende Methoden kombinieren. Diese Ansätze könnten mit einer extraktiven Zusammenfassung beginnen, um die wichtigsten Inhalte zu identifizieren, und dann abstrakte Techniken verwenden, um diese Inhalte umzuschreiben oder zu einer fließenden Zusammenfassung zu verdichten.

Die Herausforderung

Die optimale Methode zur Bewertung der Qualität von Zusammenfassungen zu finden, bleibt eine offene Herausforderung. Da Unternehmen zunehmend auf automatische Textzusammenfassungen angewiesen sind, um wichtige Informationen aus Dokumenten herauszufiltern, wächst der Bedarf an standardisierten Techniken zur Messung der Zusammenfassungsgenauigkeit. Im Idealfall würden diese Bewertungsmetriken quantifizieren, wie gut maschinell generierte Zusammenfassungen die wichtigsten Inhalte aus Quelltexten extrahieren und kohärente Zusammenfassungen präsentieren, die die ursprüngliche Bedeutung und den ursprünglichen Kontext widerspiegeln.

Die Entwicklung robuster Bewertungsmethoden für die Zusammenfassung von Texten bereitet jedoch Schwierigkeiten:

  • Von Menschen verfasste Referenzzusammenfassungen, die zum Vergleich verwendet werden, weisen häufig eine hohe Variabilität auf, die auf subjektiven Wichtigkeitsbestimmungen basiert
  • Nuancierte Aspekte der Zusammenfassungsqualität wie Flüssigkeit, Lesbarkeit und Kohärenz erweisen sich als schwierig, programmatisch zu quantifizieren
  • Es gibt große Unterschiede zwischen den Zusammenfassungsmethoden, von statistischen Algorithmen bis hin zu neuronalen Netzen, was direkte Vergleiche erschwert

Rückruforientiertes Zweitstudium zur Gisting-Bewertung (ROUGE)

ROUGE-Metriken, wie ROUGE-N und ROUGE-L, spielen eine entscheidende Rolle bei der Bewertung der Qualität maschinell erstellter Zusammenfassungen im Vergleich zu von Menschen verfassten Referenzzusammenfassungen. Diese Metriken konzentrieren sich auf die Bewertung der Überschneidung zwischen dem Inhalt von maschinell generierten und von Menschen erstellten Zusammenfassungen durch die Analyse von N-Grammen, bei denen es sich um Gruppen von Wörtern oder Token handelt. ROUGE-1 bewertet beispielsweise die Übereinstimmung einzelner Wörter (Unigramme), während ROUGE-2 Wortpaare (Bigramme) berücksichtigt. Darüber hinaus bewertet ROUGE-N die längste gemeinsame Wortfolge zwischen den beiden Texten und ermöglicht so Flexibilität bei der Wortreihenfolge.

Um dies zu veranschaulichen, betrachten Sie die folgenden Beispiele:

  • ROGUE-1-Metrik – ROUGE-1 bewertet die Überlappung von Unigrammen (einzelnen Wörtern) zwischen einer generierten Zusammenfassung und einer Referenzzusammenfassung. Wenn eine Referenzzusammenfassung beispielsweise „Der schnelle Braunfuchs springt“ enthält und die generierte Zusammenfassung „Der Braunfuchs springt schnell“ lautet, würde die ROUGE-1-Metrik „Braun“, „Fuchs“ und „Sprünge“ als überlappend betrachten Unigramme. ROUGE-1 konzentriert sich auf das Vorhandensein einzelner Wörter in den Zusammenfassungen und misst, wie gut die generierte Zusammenfassung die Schlüsselwörter aus der Referenzzusammenfassung erfasst.
  • ROGUE-2-Metrik – ROUGE-2 bewertet die Überlappung von Bigrammen (Paaren benachbarter Wörter) zwischen einer generierten Zusammenfassung und einer Referenzzusammenfassung. Wenn die Referenzzusammenfassung beispielsweise „Die Katze schläft“ enthält und die generierte Zusammenfassung „Eine Katze schläft“ lautet, würde ROUGE-2 „Katze ist“ und „schläft“ als überlappendes Bigramm identifizieren. ROUGE-2 gibt Aufschluss darüber, wie gut die generierte Zusammenfassung die Reihenfolge und den Kontext von Wortpaaren im Vergleich zur Referenzzusammenfassung beibehält.
  • ROUGE-N-Metrik – ROUGE-N ist eine verallgemeinerte Form, bei der N eine beliebige Zahl darstellt und eine Auswertung auf Basis von n-Grammen (Folgen von N Wörtern) ermöglicht. Unter Berücksichtigung von N=3 würde ROUGE-3 „Die Sonne scheint hell“ als passendes Trigramm erkennen, wenn in der Referenzzusammenfassung „Die Sonne scheint hell“ steht und die generierte Zusammenfassung „Die Sonne scheint hell“ lautet. ROUGE-N bietet die Flexibilität, Zusammenfassungen auf der Grundlage unterschiedlich langer Wortsequenzen auszuwerten und so eine umfassendere Bewertung von Inhaltsüberschneidungen zu ermöglichen.

Diese Beispiele veranschaulichen, wie ROUGE-1-, ROUGE-2- und ROUGE-N-Metriken bei der Bewertung automatischer Zusammenfassungen oder maschineller Übersetzungsaufgaben funktionieren, indem generierte Zusammenfassungen mit Referenzzusammenfassungen verglichen werden, die auf verschiedenen Ebenen von Wortsequenzen basieren.

Berechnen Sie einen ROUGE-N-Score

Mit den folgenden Schritten können Sie einen ROUGE-N-Score berechnen:

  1. Tokenisieren Sie die generierte Zusammenfassung und die Referenzzusammenfassung in einzelne Wörter oder Token, indem Sie grundlegende Tokenisierungsmethoden wie die Aufteilung nach Leerzeichen oder NLP-Bibliotheken (Natural Language Processing) verwenden.
  2. Generieren Sie N-Gramme (zusammenhängende Folgen von N Wörtern) sowohl aus der generierten Zusammenfassung als auch aus der Referenzzusammenfassung.
  3. Zählen Sie die Anzahl der überlappenden N-Gramm zwischen der generierten Zusammenfassung und der Referenzzusammenfassung.
  4. Berechnen Sie Präzision, Rückruf und F1-Score:
    • Präzision – Die Anzahl der überlappenden N-Gramm geteilt durch die Gesamtzahl der N-Gramm in der generierten Zusammenfassung.
    • Erinnern – Die Anzahl der überlappenden N-Gramm geteilt durch die Gesamtzahl der N-Gramm in der Referenzzusammenfassung.
    • F1-Punktzahl – Das harmonische Mittel von Präzision und Rückruf, berechnet als (2 * Präzision * Rückruf) / (Präzision + Rückruf).
  5. Der aggregierte F1-Score, der sich aus der Berechnung von Präzision, Recall und F1-Score für jede Zeile im Datensatz ergibt, wird als ROUGE-N-Score betrachtet.

Einschränkungen

Für ROGUE gelten die folgenden Einschränkungen:

  • Enger Fokus auf lexikalische Überlappung – Die Kernidee von ROUGE besteht darin, die vom System generierte Zusammenfassung mit einer Reihe von Referenz- oder von Menschen erstellten Zusammenfassungen zu vergleichen und die lexikalische Überlappung zwischen ihnen zu messen. Das bedeutet, dass ROUGE einen sehr engen Fokus auf die Ähnlichkeit auf Wortebene legt. Dabei werden die semantische Bedeutung, die Kohärenz oder die Lesbarkeit der Zusammenfassung nicht wirklich bewertet. Ein System könnte hohe ROUGE-Werte erzielen, indem es einfach Sätze Wort für Wort aus dem Originaltext extrahiert, ohne eine zusammenhängende oder prägnante Zusammenfassung zu erstellen.
  • Unempfindlichkeit gegenüber Paraphrasierungen – Da ROUGE auf lexikalischem Matching basiert, kann es keine semantische Äquivalenz zwischen Wörtern und Phrasen erkennen. Daher führen Umschreibungen und die Verwendung von Synonymen häufig zu niedrigeren ROUGE-Werten, selbst wenn die Bedeutung erhalten bleibt. Dies benachteiligt Systeme, die abstrakt paraphrasieren oder zusammenfassen.
  • Mangelndes semantisches Verständnis – ROUGE bewertet nicht, ob das System die Bedeutungen und Konzepte im Originaltext wirklich verstanden hat. Eine Zusammenfassung könnte eine hohe lexikalische Überschneidung mit Referenzen erzielen, dabei aber die Hauptideen vermissen lassen oder sachliche Inkonsistenzen enthalten. ROUGE würde diese Probleme nicht identifizieren.

Wann ist ROUGE zu verwenden?

ROUGE ist einfach und schnell zu berechnen. Verwenden Sie es als Grundlage oder Benchmark für die Qualität der Zusammenfassung im Zusammenhang mit der Inhaltsauswahl. ROUGE-Metriken werden am effektivsten in Szenarien eingesetzt, die abstrakte Zusammenfassungsaufgaben, automatische Zusammenfassungsbewertung, Bewertungen von LLMs und vergleichende Analysen verschiedener Zusammenfassungsansätze umfassen. Durch die Verwendung von ROUGE-Metriken in diesen Kontexten können Stakeholder die Qualität und Wirksamkeit von Prozessen zur Erstellung von Zusammenfassungen quantitativ bewerten.

Metrik zur Bewertung der Übersetzung mit expliziter Reihenfolge (METEOR)

Eine der größten Herausforderungen bei der Bewertung von Zusammenfassungssystemen besteht darin, zu beurteilen, wie gut die generierte Zusammenfassung logisch ist, und nicht nur relevante Wörter und Phrasen aus dem Quelltext auszuwählen. Das einfache Extrahieren relevanter Schlüsselwörter und Sätze führt nicht unbedingt zu einer kohärenten und zusammenhängenden Zusammenfassung. Die Zusammenfassung sollte reibungslos fließen und Ideen logisch verbinden, auch wenn sie nicht in der gleichen Reihenfolge wie das Originaldokument präsentiert werden.

Die Flexibilität des Abgleichs durch die Reduzierung von Wörtern auf ihre Stamm- oder Grundform (zum Beispiel werden Wörter wie „running“, „runs“ und „ran“ nach der Stammbildung zu „run“) und Synonyme bedeuten METEOR korreliert besser mit menschlichen Urteilen über die Qualität der Zusammenfassung. Es kann erkennen, ob wichtige Inhalte erhalten bleiben, auch wenn sich der Wortlaut unterscheidet. Dies ist ein entscheidender Vorteil gegenüber N-Gramm-basierten Metriken wie ROUGE, die nur nach exakten Token-Übereinstimmungen suchen. METEOR vergibt außerdem höhere Bewertungen für Zusammenfassungen, die sich auf den wichtigsten Inhalt der Referenz konzentrieren. Wiederkehrende oder irrelevante Informationen erhalten niedrigere Werte. Dies passt gut zum Ziel der Zusammenfassung, nur die wichtigsten Inhalte beizubehalten. METEOR ist eine semantisch aussagekräftige Metrik, die einige der Einschränkungen des N-Gram-Matchings für die Auswertung der Textzusammenfassung überwinden kann. Die Einbeziehung von Wortstammerkennung und Synonymen ermöglicht eine bessere Beurteilung von Informationsüberschneidungen und inhaltlicher Genauigkeit.

Um dies zu veranschaulichen, betrachten Sie die folgenden Beispiele:

Referenzzusammenfassung: Im Herbst fallen die Blätter.

Generierte Zusammenfassung 1: Im Herbst fallen die Blätter ab.

Generierte Zusammenfassung 2: Blätter im Sommer grün.

Die Wörter, die zwischen der Referenz und der generierten Zusammenfassung 1 übereinstimmen, werden hervorgehoben:

Referenzzusammenfassung: Blätter fallen im Herbst.

Generierte Zusammenfassung 1: Blätter vorbeikommen fallen.

Obwohl „Herbst“ und „Herbst“ unterschiedliche Token sind, erkennt METEOR sie durch seinen Synonymabgleich als Synonyme. „Drop“ und „fall“ werden als Stemm-Match identifiziert. Für die generierte Zusammenfassung 2 gibt es außer „Blätter“ keine Übereinstimmungen mit der Referenzzusammenfassung, daher würde diese Zusammenfassung eine viel niedrigere METEOR-Bewertung erhalten. Je semantisch bedeutsamer die Übereinstimmungen sind, desto höher ist der METEOR-Score. Dies ermöglicht METEOR eine bessere Bewertung des Inhalts und der Genauigkeit von Zusammenfassungen im Vergleich zum einfachen N-Gramm-Matching.

Berechnen Sie einen METEOR-Score

Führen Sie die folgenden Schritte aus, um einen METEOR-Score zu berechnen:

  1. Tokenisieren Sie die generierte Zusammenfassung und die Referenzzusammenfassung in einzelne Wörter oder Token, indem Sie grundlegende Tokenisierungsmethoden wie die Aufteilung nach Leerzeichen oder NLP-Bibliotheken verwenden.
  2. Berechnen Sie die Unigramm-Präzision, den Rückruf und den F-Mittelwert und geben Sie dabei dem Rückruf mehr Gewicht als der Präzision.
  3. Wenden Sie eine Strafe für exakte Übereinstimmungen an, um eine Überbetonung zu vermeiden. Die Strafe wird basierend auf den Merkmalen des Datensatzes, den Aufgabenanforderungen und dem Gleichgewicht zwischen Präzision und Rückruf ausgewählt. Subtrahieren Sie diesen Abzug vom in Schritt 2 berechneten F-Mittelwert.
  4. Berechnen Sie den F-Mittelwert für Stammformen (wobei Wörter auf ihre Grund- oder Wurzelform reduziert werden) und ggf. Synonyme für Unigramme. Aggregieren Sie dies mit dem zuvor berechneten F-Mittelwert, um den endgültigen METEOR-Wert zu erhalten. Der METEOR-Score reicht von 0–1, wobei 0 keine Ähnlichkeit zwischen der generierten Zusammenfassung und der Referenzzusammenfassung anzeigt und 1 eine perfekte Übereinstimmung anzeigt. Typischerweise liegen die Zusammenfassungswerte zwischen 0 und 0.6.

Einschränkungen

Bei der Verwendung der METEOR-Metrik zur Bewertung von Zusammenfassungsaufgaben können mehrere Herausforderungen auftreten:

  • Semantische Komplexität – METEORs Schwerpunkt auf semantischer Ähnlichkeit kann bei komplexen Zusammenfassungsaufgaben Schwierigkeiten bereiten, die nuancierten Bedeutungen und den Kontext zu erfassen, was möglicherweise zu Ungenauigkeiten bei der Bewertung führt.
  • Referenzvariabilität – Variabilität in von Menschen erstellten Referenzzusammenfassungen kann sich auf METEOR-Scores auswirken, da Unterschiede im Referenzinhalt die Bewertung maschinell erstellter Zusammenfassungen beeinflussen können.
  • Sprachenvielfalt – Die Wirksamkeit von METEOR kann aufgrund sprachlicher Unterschiede, Syntaxunterschiede und semantischer Nuancen von Sprache zu Sprache unterschiedlich sein, was bei mehrsprachigen Zusammenfassungsbewertungen zu Herausforderungen führt.
  • Längenunterschied – Die Bewertung von Zusammenfassungen unterschiedlicher Länge kann für METEOR eine Herausforderung sein, da Abweichungen in der Länge im Vergleich zur Referenzzusammenfassung zu Abzügen oder Ungenauigkeiten bei der Bewertung führen können.
  • Parameterabstimmung – Die Optimierung der METEOR-Parameter für verschiedene Datensätze und Zusammenfassungsaufgaben kann zeitaufwändig sein und erfordert eine sorgfältige Abstimmung, um sicherzustellen, dass die Metrik genaue Auswertungen liefert.
  • Bewertungsverzerrung – Bei METEOR besteht das Risiko einer Bewertungsverzerrung, wenn es nicht ordnungsgemäß für bestimmte Zusammenfassungsbereiche oder -aufgaben angepasst oder kalibriert wird. Dies kann möglicherweise zu verzerrten Ergebnissen führen und die Zuverlässigkeit des Bewertungsprozesses beeinträchtigen.

Indem sie sich dieser Herausforderungen bewusst sind und sie bei der Verwendung von METEOR als Metrik für Zusammenfassungsaufgaben berücksichtigen, können Forscher und Praktiker potenzielle Einschränkungen überwinden und fundiertere Entscheidungen in ihren Bewertungsprozessen treffen.

Wann sollte METEOR verwendet werden?

METEOR wird häufig zur automatischen Bewertung der Qualität von Textzusammenfassungen verwendet. Es ist vorzuziehen, METEOR als Bewertungsmaßstab zu verwenden, wenn die Reihenfolge der Ideen, Konzepte oder Entitäten in der Zusammenfassung von Bedeutung ist. METEOR berücksichtigt die Reihenfolge und gleicht n-Gramm zwischen der generierten Zusammenfassung und den Referenzzusammenfassungen ab. Es belohnt Zusammenfassungen, die sequentielle Informationen bewahren. Im Gegensatz zu Metriken wie ROUGE, die auf der Überlappung von N-Grammen mit Referenzzusammenfassungen basieren, gleicht METEOR Stämme, Synonyme und Paraphrasen ab. METEOR funktioniert besser, wenn es mehrere korrekte Möglichkeiten gibt, den Originaltext zusammenzufassen. METEOR integriert WordNet-Synonyme und Stamm-Tokens beim Abgleichen von N-Grammen. Kurz gesagt, Zusammenfassungen, die semantisch ähnlich sind, aber unterschiedliche Wörter oder Formulierungen verwenden, erzielen dennoch eine gute Punktzahl. METEOR verfügt über eine eingebaute Strafe für Zusammenfassungen mit sich wiederholenden N-Grammen. Daher wird von einer Wort-für-Wort-Extraktion oder einem Mangel an Abstraktion abgeraten. METEOR ist eine gute Wahl, wenn semantische Ähnlichkeit, Reihenfolge der Ideen und flüssige Formulierung für die Beurteilung der Qualität der Zusammenfassung wichtig sind. Es eignet sich weniger für Aufgaben, bei denen nur lexikalische Überschneidungen mit Referenzzusammenfassungen von Bedeutung sind.

BERTScore

Lexikalische Maße auf Oberflächenebene wie ROUGE und METEOR bewerten Zusammenfassungssysteme, indem sie die Wortüberlappung zwischen einer Kandidatenzusammenfassung und einer Referenzzusammenfassung vergleichen. Sie basieren jedoch stark auf der exakten Zeichenfolgenübereinstimmung zwischen Wörtern und Phrasen. Dies bedeutet, dass sie möglicherweise semantische Ähnlichkeiten zwischen Wörtern und Phrasen übersehen, die unterschiedliche Oberflächenformen, aber ähnliche zugrunde liegende Bedeutungen haben. Da diese Metriken nur auf dem Oberflächenabgleich basieren, unterschätzen sie möglicherweise die Qualität von Systemzusammenfassungen, die synonyme Wörter verwenden oder Konzepte anders umschreiben als Referenzzusammenfassungen. Zwei Zusammenfassungen könnten nahezu identische Informationen vermitteln, erhalten aber aufgrund von Unterschieden im Wortschatz nur geringe oberflächliche Bewertungen.

BERTScore ist eine Möglichkeit, automatisch zu bewerten, wie gut eine Zusammenfassung ist, indem sie mit einer von einem Menschen verfassten Referenzzusammenfassung verglichen wird. Es verwendet BERT, eine beliebte NLP-Technik, um die Bedeutung und den Kontext von Wörtern in der Zusammenfassung des Kandidaten und der Referenz zu verstehen. Konkret betrachtet es jedes Wort oder jeden Token in der Kandidatenzusammenfassung und findet das ähnlichste Wort in der Referenzzusammenfassung basierend auf den BERT-Einbettungen, bei denen es sich um Vektordarstellungen der Bedeutung und des Kontexts jedes Wortes handelt. Es misst die Ähnlichkeit mithilfe der Kosinusähnlichkeit, die angibt, wie nahe die Vektoren beieinander liegen. Für jedes Wort in der Kandidatenzusammenfassung wird anhand des Sprachverständnisses von BERT das am besten verwandte Wort in der Referenzzusammenfassung gefunden. Es vergleicht alle diese Wortähnlichkeiten in der gesamten Zusammenfassung, um eine Gesamtbewertung der semantischen Ähnlichkeit der Kandidatenzusammenfassung mit der Referenzzusammenfassung zu erhalten. Je ähnlicher die von BERT erfassten Wörter und Bedeutungen sind, desto höher ist der BERTScore. Dadurch kann die Qualität einer generierten Zusammenfassung automatisch bewertet werden, indem sie mit einer menschlichen Referenz verglichen wird, ohne dass jedes Mal eine menschliche Bewertung erforderlich ist.

Um dies zu veranschaulichen, stellen Sie sich vor, Sie hätten eine maschinell generierte Zusammenfassung: „Der schnelle Braunfuchs springt über den faulen Hund.“ Betrachten wir nun eine von Menschenhand erstellte Referenzzusammenfassung: „Ein schneller Braunfuchs springt über einen schlafenden Hund.“

Berechnen Sie einen BERTScore

Führen Sie die folgenden Schritte aus, um einen BERTScore zu berechnen:

  1. BERTScore verwendet kontextbezogene Einbettungen, um jedes Token sowohl im Kandidatensatz (maschinengeneriert) als auch im Referenzsatz (vom Menschen erstellt) darzustellen. Kontextuelle Einbettungen sind eine Art der Wortdarstellung im NLP, die die Bedeutung eines Wortes basierend auf seinem Kontext innerhalb eines Satzes oder Textes erfasst. Im Gegensatz zu herkömmlichen Worteinbettungen, die jedem Wort unabhängig von seinem Kontext einen festen Vektor zuweisen, berücksichtigen kontextbezogene Einbettungen die umgebenden Wörter, um eine eindeutige Darstellung für jedes Wort zu generieren, je nachdem, wie es in einem bestimmten Satz verwendet wird.
  2. Die Metrik berechnet dann die Ähnlichkeit zwischen jedem Token im Kandidatensatz und jedem Token im Referenzsatz unter Verwendung der Kosinusähnlichkeit. Mithilfe der Kosinusähnlichkeit können wir quantifizieren, wie eng zwei Datensätze miteinander verbunden sind, indem wir uns auf die Richtung konzentrieren, in die sie in einem mehrdimensionalen Raum weisen. Dies macht sie zu einem wertvollen Werkzeug für Aufgaben wie Suchalgorithmen, NLP und Empfehlungssysteme.
  3. Durch den Vergleich der kontextuellen Einbettungen und die Berechnung der Ähnlichkeitswerte für alle Token generiert BERTScore eine umfassende Bewertung, die die semantische Relevanz und den Kontext der generierten Zusammenfassung im Vergleich zur vom Menschen erstellten Referenz erfasst.
  4. Die endgültige BERTScore-Ausgabe liefert einen Ähnlichkeitswert, der widerspiegelt, wie gut die maschinell generierte Zusammenfassung in Bezug auf Bedeutung und Kontext mit der Referenzzusammenfassung übereinstimmt.

Im Wesentlichen geht BERTScore über herkömmliche Metriken hinaus, indem es die semantischen Nuancen und den Kontext von Sätzen berücksichtigt und eine differenziertere Bewertung bietet, die dem menschlichen Urteilsvermögen sehr nahe kommt. Dieser fortschrittliche Ansatz erhöht die Genauigkeit und Zuverlässigkeit der Bewertung von Zusammenfassungsaufgaben und macht BERTScore zu einem wertvollen Werkzeug bei der Bewertung von Textgenerierungssystemen.

Einschränkungen:

Obwohl BERTScore erhebliche Vorteile bei der Bewertung von Zusammenfassungsaufgaben bietet, gibt es auch bestimmte Einschränkungen, die berücksichtigt werden müssen:

  • Rechenintensität – BERTScore kann rechenintensiv sein, da es auf vorab trainierten Sprachmodellen wie BERT basiert. Dies kann insbesondere bei der Verarbeitung großer Textdatenmengen zu längeren Auswertungszeiten führen.
  • Abhängigkeit von vorab trainierten Modellen – Die Wirksamkeit von BERTScore hängt stark von der Qualität und Relevanz des verwendeten vorab trainierten Sprachmodells ab. In Szenarien, in denen das vorab trainierte Modell die Nuancen des Textes möglicherweise nicht ausreichend erfasst, können die Bewertungsergebnisse beeinträchtigt werden.
  • Skalierbarkeit – Die Skalierung von BERTScore für große Datensätze oder Echtzeitanwendungen kann aufgrund des Rechenaufwands eine Herausforderung darstellen. Die Implementierung von BERTScore in Produktionsumgebungen erfordert möglicherweise Optimierungsstrategien, um eine effiziente Leistung bereitzustellen.
  • Domänenspezifität – Die Leistung von BERTScore kann je nach Domäne oder spezialisiertem Texttyp variieren. Die Anpassung der Metrik an bestimmte Bereiche oder Aufgaben erfordert möglicherweise eine Feinabstimmung oder Anpassungen, um genaue Auswertungen zu erstellen.
  • Interpretierbarkeit – Obwohl BERTScore eine umfassende Bewertung basierend auf kontextuellen Einbettungen bietet, kann die Interpretation der spezifischen Gründe für die für jedes Token generierten Ähnlichkeitsbewertungen komplex sein und möglicherweise eine zusätzliche Analyse erfordern.
  • Referenzfreie Auswertung – Obwohl BERTScore die Abhängigkeit von Referenzzusammenfassungen für die Bewertung verringert, erfasst dieser referenzfreie Ansatz möglicherweise nicht alle Aspekte der Zusammenfassungsqualität vollständig, insbesondere in Szenarien, in denen von Menschen erstellte Referenzen für die Bewertung der Relevanz und Kohärenz von Inhalten unerlässlich sind.

Das Erkennen dieser Einschränkungen kann Ihnen helfen, fundierte Entscheidungen zu treffen, wenn Sie BERTScore als Metrik zur Bewertung von Zusammenfassungsaufgaben verwenden, und ein ausgewogenes Verständnis seiner Stärken und Einschränkungen vermitteln.

Wann sollte BERTScore verwendet werden?

BERTScore kann die Qualität der Textzusammenfassung bewerten, indem es eine generierte Zusammenfassung mit einer Referenzzusammenfassung vergleicht. Es verwendet neuronale Netze wie BERT, um semantische Ähnlichkeit zu messen, die über die bloße genaue Übereinstimmung von Wörtern oder Phrasen hinausgeht. Dies macht BERTScore sehr nützlich, wenn die semantische Treue unter Beibehaltung der vollständigen Bedeutung und des gesamten Inhalts für Ihre Zusammenfassungsaufgabe von entscheidender Bedeutung ist. BERTScore verleiht Zusammenfassungen, die dieselben Informationen wie die Referenzzusammenfassung vermitteln, höhere Bewertungen, auch wenn sie unterschiedliche Wörter und Satzstrukturen verwenden. Unterm Strich eignet sich BERTScore ideal für Zusammenfassungsaufgaben, bei denen es wichtig ist, die vollständige semantische Bedeutung und nicht nur Schlüsselwörter oder Themen beizubehalten. Seine fortschrittliche neuronale Bewertung ermöglicht den Bedeutungsvergleich über die oberflächliche Wortübereinstimmung hinaus. Dies macht es für Fälle geeignet, in denen geringfügige Unterschiede im Wortlaut die Gesamtbedeutung und die Auswirkungen erheblich verändern können. Insbesondere BERTScore zeichnet sich durch die Erfassung semantischer Ähnlichkeit aus, die für die Beurteilung der Qualität abstrakter Zusammenfassungen, wie sie von Retrieval Augmented Generation (RAG)-Modellen erstellt werden, von entscheidender Bedeutung ist.

Modellbewertungsrahmen

Frameworks zur Modellbewertung sind für die genaue Messung der Leistung verschiedener Zusammenfassungsmodelle unerlässlich. Diese Frameworks tragen dazu bei, Modelle zu vergleichen, Kohärenz zwischen generierten Zusammenfassungen und Quellinhalten herzustellen und Mängel in Bewertungsmethoden aufzudecken. Durch gründliche Bewertungen und konsistentes Benchmarking treiben diese Frameworks die Textzusammenfassungsforschung voran, indem sie standardisierte Bewertungspraktiken befürworten und vielfältige Modellvergleiche ermöglichen.

In AWS ist die FMEval-Bibliothek . Amazon SageMaker klären Optimiert die Bewertung und Auswahl von Basismodellen (FMs) für Aufgaben wie Textzusammenfassung, Beantwortung von Fragen und Klassifizierung. Es ermöglicht Ihnen die Bewertung von FMs anhand von Metriken wie Genauigkeit, Robustheit, Kreativität, Voreingenommenheit und Toxizität und unterstützt sowohl automatisierte als auch Human-in-the-Loop-Bewertungen für LLMs. Mit UI-basierten oder programmatischen Auswertungen generiert FMEval detaillierte Berichte mit Visualisierungen, um Modellrisiken wie Ungenauigkeiten, Toxizität oder Verzerrungen zu quantifizieren und Unternehmen dabei zu helfen, ihre verantwortungsvollen generativen KI-Richtlinien einzuhalten. In diesem Abschnitt demonstrieren wir die Verwendung der FMEval-Bibliothek.

Bewerten Sie Claude v2 hinsichtlich der Zusammenfassungsgenauigkeit mit Amazon Bedrock

Der folgende Codeausschnitt ist ein Beispiel für die Interaktion mit dem Anthropic Claude-Modell mithilfe von Python-Code:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

Vereinfacht ausgedrückt führt dieser Code die folgenden Aktionen aus:

  1. Importieren Sie die erforderlichen Bibliotheken, einschließlich json, um mit JSON-Daten zu arbeiten.
  2. Definieren Sie die Modell-ID als anthropic.claude-v2 und legen Sie den Inhaltstyp für die Anfrage fest.
  3. Erstellen Sie prompt_data Variable, die die Eingabedaten für das Claude-Modell strukturiert. In diesem Fall wird die Frage gestellt: „Wer ist Barack Obama?“ und erwartet eine Antwort vom Modell.
  4. Erstellen Sie ein JSON-Objekt mit dem Namen „body“, das die Eingabeaufforderungsdaten enthält, und geben Sie zusätzliche Parameter wie die maximale Anzahl der zu generierenden Token an.
  5. Rufen Sie das Claude-Modell mit auf bedrock_runtime.invoke_model mit den definierten Parametern.
  6. Analysieren Sie die Antwort aus dem Modell, extrahieren Sie die Vervollständigung (generierten Text) und drucken Sie sie aus.

Stellen Sie sicher, dass die AWS Identity and Access Management and (IAM)-Rolle, die mit dem verbunden ist Amazon SageMaker-Studio Das Benutzerprofil hat Zugriff auf die Amazonas Grundgestein Modelle, die aufgerufen werden. Beziehen auf Beispiele für identitätsbasierte Richtlinien für Amazon Bedrock Hier finden Sie Anleitungen zu Best Practices und Beispielen für identitätsbasierte Richtlinien für Amazon Bedrock.

Verwendung der FMEval-Bibliothek zur Auswertung der zusammengefassten Ausgabe von Claude

Wir verwenden den folgenden Code, um die zusammengefasste Ausgabe auszuwerten:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

Im vorherigen Codeausschnitt führen wir die folgenden Schritte aus, um die Textzusammenfassung mithilfe der FMEval-Bibliothek auszuwerten:

  1. Erstellen Sie ModelRunner um den Aufruf auf Ihrem LLM durchzuführen. Die FMEval-Bibliothek bietet integrierte Unterstützung für Amazon Sage Maker Endpunkte und Amazon SageMaker-JumpStart LLMs. Sie können das auch verlängern ModelRunner Schnittstelle für alle LLMs, die überall gehostet werden.
  2. Verwendung unterstützt eval_algorithms wie Toxizität, Zusammenfassung, Genauigkeit, Semantik und Robustheit, basierend auf Ihren Bewertungsanforderungen.
  3. Passen Sie die Evaluierungskonfigurationsparameter an Ihren spezifischen Anwendungsfall an.
  4. Verwenden Sie den Bewertungsalgorithmus entweder mit integrierten oder benutzerdefinierten Datensätzen, um Ihr LLM-Modell zu bewerten. Der in diesem Fall verwendete Datensatz stammt aus dem Folgenden GitHub Repo.

Siehe die Entwicklerhandbuch und Beispiele zur detaillierten Verwendung von Auswertealgorithmen.

Die folgende Tabelle fasst die Ergebnisse der Auswertung zusammen.

Modell_Eingabe model_output target_output Eingabeaufforderung Partituren meteor_score rouge_score bert_score
John Edward
0 Bates, früher aus Spalding, Linco…..
Ich kann keine endgültige Aussage treffen
Urteile, als d…
Ein ehemaliger
Polizeibeamter aus Lincolnshire trug …
Mensch: John
Edward Bates, ehemals Spalding…
[{'name': 'meteor', 'value':
0.101010101010101 ...
0.10101 0 0.557155
23. Oktober 2015
Zuletzt aktualisiert um
17:44 BST|nEs'…
Hier sind einige wichtige Punkte zu Hurrikanen/Tropen. Hurrikan Patricia wurde als Kategorie eingestuft… Mensch: 23
Oktober 2015 Zuletzt aktualisiert um 17:44
B ...
[{'name': meteor', „value“:
0.102339181286549 ..
0.102339 0.018265 0.441421
Ferrari schien in der Lage zu sein, uns herauszufordern … Hier sind die wichtigsten Punkte aus dem Artikel: neun… Lewis Hamilton stürmte beim… Menschlich: Ferrari schien in der Lage zu sein, herauszufordern ... [{'name': 'meteor', 'value':
0.322543352601156 ...
0.322543 0.078212 0.606487
Der in Bath geborene Spieler, 28, hat 36 gemacht
erscheint…
Okay, lassen Sie mich die wichtigsten Punkte zusammenfassen:/nin- E….. Newport Gwent Dragons Nummer acht Ed Jackson Mensch: Der in Bath geborene 28-jährige Spieler hat 36 … [{'name': 'meteor', 'value':
0105740181268882 ...
0.10574 0.012987 0.539488
Schwachstellen in der Art und Weise, wie Mäuse Daten mit C austauschen … Hier sind die wichtigsten Punkte, die ich aus der a… Hacker könnten Zugang zu Hause und erhalten Mensch:
Schwächen in der
Swar-Mäuse tauschten Daten aus
[{'name': 'meteor', 'value':
0.201048289433848 ...
0.201048 0.021858 0.526947

Schauen Sie sich das Beispiel an Notizbuch Weitere Informationen zur Zusammenfassungsbewertung, die wir in diesem Beitrag besprochen haben, finden Sie hier.

Zusammenfassung

ROUGE, METEOR und BERTScore messen alle die Qualität maschinell generierter Zusammenfassungen, konzentrieren sich jedoch auf verschiedene Aspekte wie lexikalische Überlappung, Sprachkompetenz oder semantische Ähnlichkeit. Stellen Sie sicher, dass Sie die Metrik auswählen, die mit dem übereinstimmt, was für Ihren spezifischen Zusammenfassungsanwendungsfall als „gut“ definiert ist. Sie können auch eine Kombination von Metriken verwenden. Dies sorgt für eine umfassendere Bewertung und schützt vor potenziellen Schwächen einzelner Metriken. Mit den richtigen Messungen können Sie Ihre Zusammenfassungen iterativ verbessern, um dem Genauigkeitsgedanken gerecht zu werden, der am wichtigsten ist.

Darüber hinaus ist eine FM- und LLM-Bewertung erforderlich, um diese Modelle im großen Maßstab produzieren zu können. Mit FMEval erhalten Sie einen umfangreichen Satz integrierter Algorithmen für viele NLP-Aufgaben, aber auch ein skalierbares und flexibles Tool für umfangreiche Auswertungen Ihrer eigenen Modelle, Datensätze und Algorithmen. Zur Skalierung können Sie dieses Paket in Ihren LLMOps-Pipelines verwenden mehrere Modelle bewerten. Weitere Informationen zu FMEval in AWS und seiner effektiven Nutzung finden Sie unter Verwenden Sie SageMaker Clarify, um große Sprachmodelle auszuwerten. Weitere Informationen und Einblicke in die Fähigkeiten von SageMaker Clarify bei der Bewertung von FMs finden Sie unter Amazon SageMaker Clarify erleichtert die Bewertung und Auswahl von Foundation-Modellen.


Über die Autoren


Dinesh Kumar Subramani ist ein Senior Solutions Architect mit Sitz in Edinburgh, Schottland. Er ist auf künstliche Intelligenz und maschinelles Lernen spezialisiert und Mitglied der technischen Feldgemeinschaft bei Amazon. Dinesh arbeitet eng mit Kunden der britischen Zentralregierung zusammen, um ihre Probleme mithilfe von AWS-Diensten zu lösen. Außerhalb der Arbeit verbringt Dinesh gerne Zeit mit seiner Familie, spielt Schach und erkundet ein vielfältiges Musikspektrum.


Pranav Sharma ist ein führendes AWS-Unternehmen, das Technologie- und Geschäftstransformationsinitiativen in Europa, dem Nahen Osten und Afrika vorantreibt. Er verfügt über Erfahrung in der Entwicklung und dem Betrieb von Plattformen für künstliche Intelligenz in der Produktion, die Millionen von Kunden unterstützen und Geschäftsergebnisse liefern. Er war in Führungspositionen im Technologie- und Personalbereich für globale Finanzdienstleistungsorganisationen tätig. Außerhalb der Arbeit liest er gerne, spielt mit seinem Sohn Tennis und schaut sich Filme an.

spot_img

Neueste Intelligenz

spot_img

Chat mit uns

Hallo! Wie kann ich dir helfen?