Evaluer tekstopsummeringsevnerne hos LLM'er til forbedret beslutningstagning om AWS | Amazon Web Services

Organisationer på tværs af brancher bruger automatisk tekstresumé til mere effektivt at håndtere enorme mængder information og træffe bedre beslutninger. I den finansielle sektor kondenserer investeringsbanker indtjeningsrapporter ned til vigtige takeaways for hurtigt at analysere kvartalsresultater. Medievirksomheder bruger opsummering til at overvåge nyheder og sociale medier, så journalister hurtigt kan skrive historier om udviklingsproblemer. Regeringsorganer opsummerer lange politiske dokumenter og rapporter for at hjælpe politikere med at strategier og prioritere mål.

Ved at skabe fortættede versioner af lange, komplekse dokumenter gør opsummeringsteknologien brugerne i stand til at fokusere på det mest markante indhold. Dette fører til bedre forståelse og opbevaring af kritisk information. Tidsbesparelsen giver interessenter mulighed for at gennemgå mere materiale på kortere tid og få et bredere perspektiv. Med øget forståelse og mere syntetiseret indsigt kan organisationer træffe bedre informerede strategiske beslutninger, fremskynde forskning, forbedre produktiviteten og øge deres indflydelse. Den transformative kraft af avancerede opsummeringsfunktioner vil kun fortsætte med at vokse, efterhånden som flere industrier anvender kunstig intelligens (AI) for at udnytte overfyldte informationsstrømme.

I dette indlæg udforsker vi førende tilgange til objektiv evaluering af opsummeringsnøjagtighed, herunder ROUGE-metrics, METEOR og BERTScore. At forstå styrkerne og svaghederne ved disse teknikker kan hjælpe med at vejlede udvælgelse og forbedringsbestræbelser. Det overordnede mål med dette indlæg er at afmystificere opsummeringsevaluering for at hjælpe teams med at bedre benchmark-præstationer på denne kritiske evne, når de søger at maksimere værdien.

Typer af opsummering

Opsummering kan generelt opdeles i to hovedtyper: ekstraktiv opsummering og abstrakt opsummering. Begge tilgange sigter mod at kondensere lange stykker tekst til kortere former, der fanger den mest kritiske information eller essensen af det originale indhold, men de gør det på fundamentalt forskellige måder.

Ekstraktiv opsummering involverer at identificere og udtrække nøglesætninger, sætninger eller segmenter fra den originale tekst uden at ændre dem. Systemet udvælger dele af teksten, der anses for at være mest informativ eller repræsentativ for helheden. Ekstraktiv opsummering er nyttig, hvis nøjagtigheden er kritisk, og resuméet skal afspejle den nøjagtige information fra den originale tekst. Disse kunne være brugssager som at fremhæve specifikke juridiske vilkår, forpligtelser og rettigheder, der er beskrevet i vilkårene for brug. De mest almindelige teknikker, der bruges til ekstraktiv opsummering, er term frekvens-invers dokumentfrekvens (TF-IDF), sætningsscoring, tekstrangeringsalgoritme og overvåget maskinlæring (ML).

Abstrakt opsummering går et skridt videre ved at generere nye sætninger og sætninger, der ikke var i den originale tekst, og i det væsentlige parafrasere og kondensere det originale indhold. Denne tilgang kræver en dybere forståelse af teksten, fordi AI'en skal fortolke betydningen og derefter udtrykke den i en ny, kortfattet form. Store sprogmodeller (LLM'er) er bedst egnede til abstrakt opsummering, fordi transformatormodellerne bruger opmærksomhedsmekanismer til at fokusere på relevante dele af inputteksten, når de genererer resuméer. Opmærksomhedsmekanismen gør det muligt for modellen at tildele forskellige vægte til forskellige ord eller tokens i inputsekvensen, hvilket gør den i stand til at fange afhængigheder på lang rækkevidde og kontekstuelt relevant information.

Ud over disse to primære typer er der hybride tilgange, der kombinerer ekstraktive og abstrakte metoder. Disse tilgange kan starte med ekstraktiv opsummering for at identificere det vigtigste indhold og derefter bruge abstrakte teknikker til at omskrive eller kondensere dette indhold til et flydende resumé.

Udfordringen

Det er fortsat en åben udfordring at finde den optimale metode til at evaluere sammenfattende kvalitet. Efterhånden som organisationer i stigende grad er afhængige af automatisk tekstresumé for at destillere nøgleinformation fra dokumenter, vokser behovet for standardiserede teknikker til at måle opsummeringsnøjagtighed. Ideelt set ville disse evalueringsmetrikker kvantificere, hvor godt maskingenererede resuméer uddrager det mest markante indhold fra kildetekster og præsenterer sammenhængende resuméer, der afspejler den oprindelige betydning og kontekst.

Det er imidlertid vanskeligt at udvikle robuste evalueringsmetoder til tekstresumé:

Menneskeligt forfattere referenceresuméer, der bruges til sammenligning, udviser ofte høj variabilitet baseret på subjektive vurderinger af betydning
Nuancerede aspekter af resumékvalitet som flydende, læsbarhed og sammenhæng viser sig at være vanskelige at kvantificere programmatisk
Der er stor variation på tværs af opsummeringsmetoder fra statistiske algoritmer til neurale netværk, hvilket komplicerer direkte sammenligninger

Recall-Oriented Understudy for Gisting Evaluation (ROUGE)

ROUGE metrics, såsom ROUGE-N og ROUGE-L, spiller en afgørende rolle i evalueringen af kvaliteten af maskingenererede resuméer sammenlignet med menneskeskrevne referenceresuméer. Disse metrics fokuserer på at vurdere overlapningen mellem indholdet af maskingenererede og menneskeskabte resuméer ved at analysere n-gram, som er grupper af ord eller tokens. For eksempel evaluerer ROUGE-1 matchningen af individuelle ord (unigrams), mens ROUGE-2 betragter par af ord (bigrams). Derudover vurderer ROUGE-N den længste fælles rækkefølge af ord mellem de to tekster, hvilket giver mulighed for fleksibilitet i ordrækkefølge.

For at illustrere dette, overvej følgende eksempler:

ROGUE-1-metrik – ROUGE-1 evaluerer overlapningen af unigrammer (enkeltord) mellem et genereret resumé og et referenceresumé. Hvis f.eks. et referenceresumé indeholder "De hurtige brune ræv springer", og den genererede oversigt er "Den brune ræv hopper hurtigt", vil ROUGE-1-metrikken betragte "brun", "ræv" og "spring" som overlappende unigrammer. ROUGE-1 fokuserer på tilstedeværelsen af individuelle ord i resuméerne og måler, hvor godt det genererede resumé fanger nøgleordene fra referenceresuméet.
ROGUE-2-metrik – ROUGE-2 vurderer overlapningen af bigrammer (par af tilstødende ord) mellem et genereret resumé og et referenceresumé. For eksempel, hvis referenceresuméet har "Katten sover", og den genererede oversigt lyder "En kat sover", vil ROUGE-2 identificere "katten er" og "sover" som et overlappende bigram. ROUGE-2 giver indsigt i, hvor godt det genererede resumé opretholder rækkefølgen og konteksten af ordpar sammenlignet med referenceresuméet.
ROUGE-N metrisk – ROUGE-N er en generaliseret form, hvor N repræsenterer et hvilket som helst tal, hvilket muliggør evaluering baseret på n-gram (sekvenser af N ord). I betragtning af N=3, hvis referenceresuméet siger "Solen skinner klart", og den genererede oversigt er "Sol skinner klart", vil ROUGE-3 genkende "solen skinner klart" som et matchende trigram. ROUGE-N tilbyder fleksibilitet til at evaluere resuméer baseret på forskellige længder af ordsekvenser, hvilket giver en mere omfattende vurdering af indholdsoverlapning.

Disse eksempler illustrerer, hvordan ROUGE-1-, ROUGE-2- og ROUGE-N-metrikker fungerer ved evaluering af automatiske opsummerings- eller maskinoversættelsesopgaver ved at sammenligne genererede opsummeringer med referenceresuméer baseret på forskellige niveauer af ordsekvenser.

Beregn en ROUGE-N-score

Du kan bruge følgende trin til at beregne en ROUGE-N-score:

Tokeniser det genererede resumé og referenceresuméet til individuelle ord eller tokens ved hjælp af grundlæggende tokeniseringsmetoder som f.eks. opdeling af blanktegn eller NLP-biblioteker (natural language processing).
Generer n-gram (sammenhængende sekvenser af N ord) fra både det genererede resumé og referenceresuméet.
Tæl antallet af overlappende n-gram mellem det genererede resumé og referenceresuméet.
Beregn præcision, genkaldelse og F1-score:
- Precision – Antallet af overlappende n-gram divideret med det samlede antal n-gram i den genererede oversigt.
- Recall – Antallet af overlappende n-gram divideret med det samlede antal n-gram i referenceresuméet.
- f1 score – Det harmoniske gennemsnit af præcision og genkald, beregnet som (2 * præcision * genkald) / (præcision + genkald).
Den samlede F1-score opnået ved at beregne præcision, genkaldelse og F1-score for hver række i datasættet betragtes som ROUGE-N-scoren.

Begrænsninger

ROGUE har følgende begrænsninger:

Snævert fokus på leksikalsk overlapning – Kerneideen bag ROUGE er at sammenligne det systemgenererede resumé med et sæt referencer eller menneskeskabte resuméer og måle det leksikalske overlap mellem dem. Det betyder, at ROUGE har et meget snævert fokus på lighed på ordniveau. Det evaluerer faktisk ikke semantisk betydning, sammenhæng eller læsbarhed af resuméet. Et system kunne opnå høje ROUGE-score ved blot at udtrække sætninger ord-for-ord fra den originale tekst uden at generere en sammenhængende eller kortfattet oversigt.
Ufølsomhed over for parafrasering – Fordi ROUGE er afhængig af leksikalsk matchning, kan den ikke registrere semantisk ækvivalens mellem ord og sætninger. Derfor vil parafrasering og brug af synonymer ofte føre til lavere ROUGE-score, selvom betydningen er bevaret. Dette er til ulempe for systemer, der parafraserer eller opsummerer på en abstrakt måde.
Manglende semantisk forståelse – ROUGE vurderer ikke, om systemet virkelig har forstået betydningerne og begreberne i den originale tekst. Et resumé kunne opnå høj leksikalsk overlapning med referencer, mens den savner hovedideerne eller indeholder faktuelle uoverensstemmelser. ROUGE ville ikke identificere disse problemer.

Hvornår skal du bruge ROUGE

ROUGE er enkel og hurtig at beregne. Brug det som en baseline eller benchmark for resumékvalitet relateret til indholdsvalg. ROUGE-metrikker anvendes mest effektivt i scenarier, der involverer abstraktive opsummeringsopgaver, automatisk opsummeringsevaluering, vurderinger af LLM'er og sammenlignende analyser af forskellige opsummeringstilgange. Ved at bruge ROUGE-målinger i disse sammenhænge kan interessenter kvantitativt evaluere kvaliteten og effektiviteten af processer til generering af oversigter.

Metrisk til evaluering af oversættelse med eksplicit bestilling (METEOR)

En af de store udfordringer ved at evaluere opsummeringssystemer er at vurdere, hvor godt det genererede resumé flyder logisk, frem for blot at vælge relevante ord og sætninger fra kildeteksten. Blot at udtrække relevante søgeord og sætninger producerer ikke nødvendigvis en sammenhængende og sammenhængende oversigt. Resuméet skal flyde jævnt og forbinde ideer logisk, selvom de ikke præsenteres i samme rækkefølge som det originale dokument.

Fleksibiliteten ved at matche ved at reducere ord til deres rod- eller grundform (f.eks. bliver ord som "løber", "løber" og "løb" efter ordstamming alle "løber") og synonymer betyder METEOR korrelerer bedre med menneskelige vurderinger af summarisk kvalitet. Det kan identificere, om vigtigt indhold er bevaret, selvom ordlyden er forskellig. Dette er en vigtig fordel i forhold til n-gram-baserede metrics som ROUGE, som kun leder efter nøjagtige token-matches. METEOR giver også højere score til resuméer, der fokuserer på det mest markante indhold fra referencen. Lavere score gives til gentagne eller irrelevante oplysninger. Dette stemmer godt overens med målet om opsummering for kun at beholde det vigtigste indhold. METEOR er en semantisk meningsfuld metrik, der kan overvinde nogle af begrænsningerne ved n-gram-matchning til evaluering af tekstresumé. Inkorporeringen af stammer og synonymer giver mulighed for bedre vurdering af informationsoverlapning og indholdsnøjagtighed.

For at illustrere dette, overvej følgende eksempler:

Referenceoversigt: Blade falder i løbet af efteråret.

Genereret oversigt 1: Blade falder om efteråret.

Genereret oversigt 2: Blade grønne om sommeren.

De ord, der matcher mellem referencen og den genererede oversigt 1, er fremhævet:

Referenceoversigt: Blade falder i løbet af efteråret.

Genereret oversigt 1: Blade fald ind falder.

Selvom "efterår" og "efterår" er forskellige tokens, genkender METEOR dem som synonymer gennem dets synonymmatch. "Drop" og "fald" identificeres som et opstammet match. For genereret oversigt 2 er der ingen overensstemmelser med referenceresuméet udover "Blader", så denne oversigt ville få en meget lavere METEOR-score. Jo mere semantisk meningsfulde matcher, jo højere er METEOR-score. Dette giver METEOR mulighed for bedre at evaluere indholdet og nøjagtigheden af resuméer sammenlignet med simpel n-gram-matchning.

Beregn en METEOR-score

Udfør følgende trin for at beregne en METEOR-score:

Tokeniser det genererede resumé og referenceresuméet til individuelle ord eller tokens ved hjælp af grundlæggende tokeniseringsmetoder som opdeling efter blanktegn eller NLP-biblioteker.
Beregn unigram-præcisionen, genkaldelse og F-gennemsnitsscore, hvilket giver mere vægt at genkalde end præcision.
Påfør en straf for nøjagtige matchninger for at undgå at overbetone dem. Straffen vælges ud fra datasættets karakteristika, opgavekrav og balancen mellem præcision og genkaldelse. Træk denne straf fra F-middelscoren beregnet i trin 2.
Beregn F-middelscore for stammede former (reducerer ord til deres grund- eller rodform) og synonymer for unigrammer, hvor det er relevant. Aggreger dette med den tidligere beregnede F-middelværdi for at opnå den endelige METEOR-score. METEOR-scoren går fra 0-1, hvor 0 indikerer ingen lighed mellem den genererede oversigt og referenceresumé, og 1 indikerer perfekt justering. Opsummeringsscore falder typisk mellem 0-0.6.

Begrænsninger

Når man anvender METEOR-metrikken til at evaluere opsummeringsopgaver, kan der opstå flere udfordringer:

Semantisk kompleksitet – METEORs vægt på semantisk lighed kan have svært ved at fange de nuancerede betydninger og kontekst i komplekse opsummeringsopgaver, hvilket potentielt kan føre til unøjagtigheder i evalueringen.
Referencevariabilitet – Variation i menneskeskabte referenceresuméer kan påvirke METEOR-score, fordi forskelle i referenceindhold kan påvirke evalueringen af maskingenererede resuméer.
Sproglig mangfoldighed – Effektiviteten af METEOR kan variere på tværs af sprog på grund af sproglige variationer, syntaksforskelle og semantiske nuancer, hvilket udgør udfordringer i flersprogede opsummeringsevalueringer.
Længde uoverensstemmelse – Evaluering af resuméer af forskellig længde kan være udfordrende for METEOR, fordi uoverensstemmelser i længden sammenlignet med referenceresuméet kan resultere i bøder eller unøjagtigheder i vurderingen.
Parameterjustering – At optimere METEORs parametre for forskellige datasæt og opsummeringsopgaver kan være tidskrævende og kræver omhyggelig justering for at sikre, at metrikken giver nøjagtige evalueringer.
Evalueringsbias – Der er en risiko for evalueringsbias med METEOR, hvis den ikke er korrekt justeret eller kalibreret til specifikke opsummeringsdomæner eller opgaver. Dette kan potentielt føre til skæve resultater og påvirke pålideligheden af evalueringsprocessen.

Ved at være opmærksomme på disse udfordringer og overveje dem, når de bruger METEOR som målestok for opsummeringsopgaver, kan forskere og praktikere navigere i potentielle begrænsninger og træffe mere informerede beslutninger i deres evalueringsprocesser.

Hvornår skal du bruge METEOR

METEOR bruges almindeligvis til automatisk at evaluere kvaliteten af tekstresuméer. Det er at foretrække at bruge METEOR som en evalueringsmetrik, når rækkefølgen af ideer, koncepter eller enheder i resuméet har betydning. METEOR overvejer rækkefølgen og matcher n-gram mellem den genererede oversigt og referenceresuméer. Det belønner resuméer, der bevarer sekventiel information. I modsætning til målinger som ROUGE, der er afhængige af overlapning af n-gram med referenceresuméer, matcher METEOR stammer, synonymer og omskrivninger. METEOR fungerer bedre, når der kan være flere rigtige måder at opsummere den originale tekst på. METEOR inkorporerer WordNet-synonymer og stammede tokens, når de matcher n-gram. Kort sagt vil resuméer, der er semantisk ens, men bruger forskellige ord eller formuleringer, stadig score godt. METEOR har en indbygget straf for resuméer med gentagne n-gram. Derfor fraråder det ord-for-ord-udtrækning eller mangel på abstraktion. METEOR er et godt valg, når semantisk lighed, rækkefølge af idéer og flydende frasering er vigtige for at bedømme sammenfattende kvalitet. Det er mindre passende til opgaver, hvor kun leksikalsk overlapning med referenceresuméer har betydning.

BERTScore

Leksikale mål på overfladeniveau som ROUGE og METEOR evaluerer opsummeringssystemer ved at sammenligne ordoverlapningen mellem et kandidatresumé og et referenceresumé. De er dog stærkt afhængige af nøjagtig strengmatch mellem ord og sætninger. Det betyder, at de kan gå glip af semantiske ligheder mellem ord og sætninger, der har forskellige overfladeformer, men lignende underliggende betydninger. Ved kun at stole på overfladematching kan disse metrics undervurdere kvaliteten af systemresuméer, der bruger synonyme ord eller omskriver begreber anderledes end referenceresuméer. To opsummeringer kunne formidle næsten identisk information, men får lave score på overfladeniveau på grund af ordforrådsforskelle.

BERTScore er en måde at automatisk evaluere, hvor godt et resumé er ved at sammenligne det med et referenceresumé skrevet af et menneske. Den bruger BERT, en populær NLP-teknik, til at forstå betydningen og konteksten af ord i kandidatresuméet og referenceresuméet. Specifikt ser den på hvert ord eller token i kandidatresuméet og finder det mest lignende ord i referenceresuméet baseret på BERT-indlejringerne, som er vektorrepræsentationer af hvert ords betydning og kontekst. Den måler ligheden ved hjælp af cosinus-lighed, som fortæller, hvor tæt vektorerne er på hinanden. For hvert ord i kandidatresuméet finder den det mest relaterede ord i referenceresuméet ved hjælp af BERTs sprogforståelse. Den sammenligner alle disse ordligheder på tværs af hele resuméet for at få en samlet score af, hvor semantisk kandidatresuméet ligner referenceresuméet. Jo mere ens ord og betydninger fanget af BERT, jo højere er BERTScore. Dette giver den mulighed for automatisk at evaluere kvaliteten af et genereret resumé ved at sammenligne det med en menneskelig reference uden behov for menneskelig evaluering hver gang.

For at illustrere dette, forestil dig, at du har en maskingenereret oversigt: "Den hurtige brune ræv hopper over den dovne hund." Lad os nu overveje et menneskeskabt referenceresumé: "En hurtig brun ræv springer over en sovende hund."

Beregn en BERTScore

Udfør følgende trin for at beregne en BERTScore:

BERTScore bruger kontekstuelle indlejringer til at repræsentere hver token i både kandidat- (maskingenereret) og reference- (menneskeskabte) sætninger. Kontekstuelle indlejringer er en type ordrepræsentation i NLP, der fanger betydningen af et ord baseret på dets kontekst i en sætning eller tekst. I modsætning til traditionelle ordindlejringer, der tildeler en fast vektor til hvert ord uanset dets kontekst, betragter kontekstuelle indlejringer de omgivende ord for at generere en unik repræsentation for hvert ord afhængigt af, hvordan det bruges i en specifik sætning.
Metrikken beregner derefter ligheden mellem hver token i kandidatsætningen med hver token i referencesætningen ved hjælp af cosinus-lighed. Cosinus-lighed hjælper os med at kvantificere, hvor tæt forbundne to sæt data er ved at fokusere på den retning, de peger i et multidimensionelt rum, hvilket gør det til et værdifuldt værktøj til opgaver som søgealgoritmer, NLP og anbefalingssystemer.
Ved at sammenligne de kontekstuelle indlejringer og beregne lighedsscore for alle tokens genererer BERTScore en omfattende evaluering, der fanger den semantiske relevans og kontekst af det genererede resumé sammenlignet med den menneskeskabte reference.
Det endelige BERTScore-output giver en lighedsscore, der afspejler, hvor godt det maskingenererede resumé stemmer overens med referenceresuméet med hensyn til betydning og kontekst.

I bund og grund går BERTScore ud over traditionelle metrikker ved at overveje sætningernes semantiske nuancer og kontekst og tilbyder en mere sofistikeret evaluering, der nøje afspejler menneskelig dømmekraft. Denne avancerede tilgang øger nøjagtigheden og pålideligheden af evaluering af opsummeringsopgaver, hvilket gør BERTScore til et værdifuldt værktøj til at vurdere tekstgenereringssystemer.

Begrænsninger:

Selvom BERTScore tilbyder betydelige fordele ved evaluering af opsummeringsopgaver, kommer det også med visse begrænsninger, der skal overvejes:

Beregningsintensitet – BERTScore kan være beregningsintensiv på grund af sin afhængighed af præ-trænede sprogmodeller som BERT. Dette kan føre til længere evalueringstider, især ved behandling af store mængder tekstdata.
Afhængighed af fortrænede modeller – Effektiviteten af BERTScore er meget afhængig af kvaliteten og relevansen af den anvendte præ-trænede sprogmodel. I scenarier, hvor den fortrænede model muligvis ikke i tilstrækkelig grad fanger tekstens nuancer, kan evalueringsresultaterne blive påvirket.
Skalerbarhed – At skalere BERTScore til store datasæt eller realtidsapplikationer kan være udfordrende på grund af dets beregningsmæssige krav. Implementering af BERTScore i produktionsmiljøer kan kræve optimeringsstrategier for at give effektiv ydeevne.
Domænespecificitet – BERTScores ydeevne kan variere på tværs af forskellige domæner eller specialiserede teksttyper. Tilpasning af metrikken til specifikke domæner eller opgaver kan kræve finjustering eller justeringer for at producere nøjagtige evalueringer.
Fortolkningsmulighed – Selvom BERTScore giver en omfattende evaluering baseret på kontekstuelle indlejringer, kan det være komplekst at fortolke de specifikke årsager bag lighedsscorerne, der genereres for hvert token, og kan kræve yderligere analyse.
Referencefri evaluering – Selvom BERTScore reducerer afhængigheden af referenceresuméer til evaluering, fanger denne referencefri tilgang muligvis ikke fuldt ud alle aspekter af sammenfatningskvalitet, især i scenarier, hvor menneskeskabte referencer er afgørende for at vurdere indholdsrelevans og sammenhæng.

At anerkende disse begrænsninger kan hjælpe dig med at træffe informerede beslutninger, når du bruger BERTScore som en metrik til at evaluere opsummeringsopgaver, hvilket giver en afbalanceret forståelse af dens styrker og begrænsninger.

Hvornår skal du bruge BERTScore

BERTScore kan evaluere kvaliteten af tekstresumé ved at sammenligne et genereret resumé med et referenceresumé. Den bruger neurale netværk som BERT til at måle semantisk lighed ud over blot nøjagtig ord- eller sætningsmatching. Dette gør BERTScore meget nyttig, når semantisk troskab bevarelse af den fulde mening og indhold er afgørende for din opsummeringsopgave. BERTScore vil give højere score til resuméer, der formidler den samme information som referenceresuméet, selvom de bruger forskellige ord og sætningsstrukturer. Den nederste linje er, at BERTScore er ideel til opsummeringsopgaver, hvor det er vigtigt at bevare den fulde semantiske betydning, ikke kun nøgleord eller emner. Dens avancerede neurale scoring giver den mulighed for at sammenligne betydning ud over ordmatching på overfladeniveau. Dette gør det velegnet til tilfælde, hvor subtile forskelle i ordlyd kan ændre den overordnede betydning og implikationer væsentligt. Især BERTScore udmærker sig ved at fange semantisk lighed, hvilket er afgørende for at vurdere kvaliteten af abstrakte resuméer som dem, der produceres af Retrieval Augmented Generation (RAG) modeller.

Modelevalueringsrammer

Modelevalueringsrammer er afgørende for nøjagtigt at måle ydeevnen af forskellige opsummeringsmodeller. Disse rammer er medvirkende til at sammenligne modeller, give sammenhæng mellem genererede resuméer og kildeindhold og påvise mangler i evalueringsmetoder. Ved at udføre grundige vurderinger og konsistent benchmarking fremmer disse rammer tekstresuméforskning ved at anbefale standardiseret evalueringspraksis og muliggøre multifacetterede modelsammenligninger.

I AWS er FMEval bibliotek inden for Amazon SageMaker Clarify strømliner evalueringen og udvælgelsen af fundamentmodeller (FM'er) til opgaver som tekstresumé, besvarelse af spørgsmål og klassificering. Det giver dig mulighed for at evaluere FM'er baseret på målinger såsom nøjagtighed, robusthed, kreativitet, bias og toksicitet, hvilket understøtter både automatiserede og human-in-the-loop-evalueringer for LLM'er. Med UI-baserede eller programmatiske evalueringer genererer FMEval detaljerede rapporter med visualiseringer for at kvantificere modelrisici som unøjagtigheder, toksicitet eller bias, og hjælper organisationer med at tilpasse sig deres ansvarlige generative AI-retningslinjer. I dette afsnit demonstrerer vi, hvordan man bruger FMEval-biblioteket.

Evaluer Claude v2 om opsummeringsnøjagtighed ved hjælp af Amazon Bedrock

Følgende kodestykke er et eksempel på, hvordan man interagerer med den antropiske Claude-model ved hjælp af Python-kode:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

Enkelt sagt udfører denne kode følgende handlinger:

Importer de nødvendige biblioteker, herunder json, for at arbejde med JSON-data.
Definer model-id'et som anthropic.claude-v2 og indstil indholdstypen for anmodningen.
Opret en prompt_data variabel, der strukturerer inputdataene til Claude-modellen. I dette tilfælde stiller det spørgsmålet "Hvem er Barack Obama?" og forventer et svar fra modellen.
Konstruer et JSON-objekt med navnet body, der inkluderer promptdataene, og angiv yderligere parametre som det maksimale antal tokens, der skal genereres.
Påkald Claude-modellen vha bedrock_runtime.invoke_model med de definerede parametre.
Analyser svaret fra modellen, udtræk færdiggørelsen (genereret tekst), og print den ud.

Sørg for, at AWS identitets- og adgangsstyring (IAM) rolle forbundet med Amazon SageMaker Studio brugerprofilen har adgang til Amazonas grundfjeld modeller, der påberåbes. Henvise til Identitetsbaserede politikeksempler for Amazon Bedrock for vejledning om bedste praksis og eksempler på identitetsbaserede politikker for Amazon Bedrock.

Brug af FMEval-biblioteket til at evaluere det opsummerede output fra Claude

Vi bruger følgende kode til at evaluere det opsummerede output:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

I det foregående kodestykke fuldfører vi følgende trin for at evaluere tekstresumé ved hjælp af FMEval-biblioteket:

Opret en ModelRunner at udføre invokation på din LLM. FMEval-biblioteket giver indbygget support til Amazon SageMaker endepunkter og Amazon SageMaker JumpStart LLM'er. Du kan også forlænge ModelRunner grænseflade til alle LLM'er, der hostes hvor som helst.
Brug understøttet eval_algorithms som toksicitet, opsummering, nøjagtighed, semantik og robusthed, baseret på dine evalueringsbehov.
Tilpas evalueringskonfigurationsparametrene til din specifikke brugssituation.
Brug evalueringsalgoritmen med enten indbyggede eller tilpassede datasæt til at evaluere din LLM-model. Datasættet, der bruges i dette tilfælde, er hentet fra følgende GitHub repo.

Se i udviklervejledning og eksempler for detaljeret brug af evalueringsalgoritmer.

Følgende tabel opsummerer resultaterne af evalueringen.

model _input	model_output	target_output	prompt	scores	meteor_score	rouge_score	bert_score
John Edward 0 Bates, tidligere Spalding, Linco…..	Jeg kan ikke gøre noget endeligt domme, som …	En tidligere Lincolnshire politibetjent bar o...	Menneske: John Edward Bates, tidligere fra Spalding...	[{'navn': 'meteor', 'værdi': 0.101010101010101 ...	0.10101	0	0.557155
23 oktober 2015 Sidst opdateret kl 17:44 BST\|nIt'...	Her er nogle nøglepunkter om orkan/trop..	Orkanen Patricia er blevet bedømt som en kategori...	Menneske: 23 oktober 2015 Sidst opdateret kl. 17:44 B…	[{'navn': meteor', "værdi": 0.102339181286549 ..	0.102339	0.018265	0.441421
Ferrari viste sig i en position til at udfordre un...	Her er hovedpunkterne fra artiklen: ni...	Lewis Hamilton stormede til pole position ved...	Menneske: Ferrari dukkede op i en position til at udfordre...	[{'navn': 'meteor', 'værdi': 0.322543352601156 ...	0.322543	0.078212	0.606487
Den Bath-fødte spiller, 28, har fået 36 udseende...	Okay, lad mig opsummere nøglepunkterne:/nin- E…..	Newport Gwent Dragons nummer otte Ed Jackson	Human: Den Bath-fødte spiller, 28, har lavet 36 a...	[{'navn': 'meteor', 'værdi': 0105740181268882 ...	0.10574	0.012987	0.539488
Svagheder i den måde, mus byttede data med c...	Her er de vigtigste punkter, jeg har samlet fra en...	Hackere kunne få adgang til hjemmet og	menneske: Svagheder i swar-mus byttede data	[{'navn': 'meteor', 'værdi': 0.201048289433848 ...	0.201048	0.021858	0.526947

Tjek prøven notesbog for flere detaljer om den opsummerende evaluering, som vi diskuterede i dette indlæg.

Konklusion

ROUGE, METEOR og BERTScore måler alle kvaliteten af maskingenererede resuméer, men fokuserer på forskellige aspekter som leksikalsk overlapning, flydende eller semantisk lighed. Sørg for at vælge den metric, der stemmer overens med det, der definerer "godt" for din specifikke opsummeringsanvendelse. Du kan også bruge en kombination af metrics. Dette giver en mere velafrundet evaluering og beskytter mod potentielle svagheder ved enhver individuel metrik. Med de rigtige målinger kan du iterativt forbedre dine opsummerere for at imødekomme den opfattelse af nøjagtighed, der betyder mest.

Derudover er FM- og LLM-evaluering nødvendig for at kunne producere disse modeller i stor skala. Med FMEval får du et stort sæt indbyggede algoritmer på tværs af mange NLP-opgaver, men også et skalerbart og fleksibelt værktøj til storskalaevalueringer af dine egne modeller, datasæt og algoritmer. For at opskalere kan du bruge denne pakke i dine LLMOPS-pipelines til vurdere flere modeller. For at lære mere om FMEval i AWS og hvordan man bruger det effektivt, se Brug SageMaker Clarify til at evaluere store sprogmodeller. For yderligere forståelse og indsigt i SageMaker Clarifys evner til at evaluere FM'er, se Amazon SageMaker Clarify gør det nemmere at evaluere og vælge fundamentmodeller.

Om forfatterne

Dinesh Kumar Subramani er en Senior Solutions Architect med base i Edinburgh, Skotland. Han har specialiseret sig i kunstig intelligens og maskinlæring og er medlem af det tekniske feltfællesskab hos Amazon. Dinesh arbejder tæt sammen med britiske centralregeringskunder for at løse deres problemer ved hjælp af AWS-tjenester. Uden for arbejdet nyder Dinesh at tilbringe kvalitetstid med sin familie, spille skak og udforske en bred vifte af musik.

Pranav Sharma er en AWS-leder, der driver teknologi- og forretningstransformationsinitiativer på tværs af Europa, Mellemøsten og Afrika. Han har erfaring med at designe og drive kunstig intelligens-platforme i produktionen, der understøtter millioner af kunder og leverer forretningsresultater. Han har spillet teknologi- og menneskelederroller for Global Financial Services-organisationer. Uden for arbejdet kan han lide at læse, spille tennis med sin søn og se film.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://aws.amazon.com/blogs/machine-learning/evaluate-the-text-summarization-capabilities-of-llms-for-enhanced-decision-making-on-aws/

Generativ dataintelligens

Evaluer LLM'ers tekstresuméfunktioner for forbedret beslutningstagning om AWS | Amazon Web Services

Typer af opsummering

Udfordringen

Recall-Oriented Understudy for Gisting Evaluation (ROUGE)

Beregn en ROUGE-N-score

Begrænsninger

Hvornår skal du bruge ROUGE

Metrisk til evaluering af oversættelse med eksplicit bestilling (METEOR)

Beregn en METEOR-score

Begrænsninger

Hvornår skal du bruge METEOR

BERTScore

Beregn en BERTScore

Begrænsninger:

Hvornår skal du bruge BERTScore

Modelevalueringsrammer

Evaluer Claude v2 om opsummeringsnøjagtighed ved hjælp af Amazon Bedrock

Brug af FMEval-biblioteket til at evaluere det opsummerede output fra Claude

Konklusion

Om forfatterne

Crypto.com overgår 100 millioner globale brugere

Kunne Bitcoin ramme $73,000 i maj? Rettelse forbi, tid til et stævne! – CryptoInfoNet

Seneste efterretninger

Zentry, tidligere GuildFi, lancerer Superlayer for at forene Web3 og Web2 Gaming Platforme | BitPinas

SIBAN rapporterer stigning i P2P-handel i Nigeria på grund af fravær af kryptoregulering - CryptoInfoNet

Mindre end 10 % af Stablecoin-transaktionsvolumen kommer fra rigtige brugere: Rapport

Bitcoin-netværket overgår 1 milliard transaktioner

Vil kryptomarkederne fortsætte med at klatre på denne uges økonomiske data?

'Vær ikke nærig' om Token Airdrops siger Uniswap Founder – Unchained

Chat med os