Generativna podatkovna inteligenca

Ocenite zmožnosti povzemanja besedila LLM za izboljšano odločanje o AWS | Spletne storitve Amazon

Datum:

Organizacije v različnih panogah uporabljajo samodejno povzemanje besedila za učinkovitejše ravnanje z ogromnimi količinami informacij in sprejemanje boljših odločitev. V finančnem sektorju investicijske banke strnejo poročila o dobičku do ključnih izhodišč za hitro analizo četrtletne uspešnosti. Medijska podjetja uporabljajo povzemanje za spremljanje novic in družbenih medijev, tako da lahko novinarji hitro napišejo zgodbe o razvijajočih se vprašanjih. Vladne agencije povzemajo obsežne politične dokumente in poročila, da bi oblikovalcem politik pomagale oblikovati strategijo in določiti prednostne cilje.

Z ustvarjanjem zgoščenih različic dolgih, zapletenih dokumentov tehnologija povzemanja uporabnikom omogoča, da se osredotočijo na najpomembnejšo vsebino. To vodi do boljšega razumevanja in ohranjanja kritičnih informacij. Prihranek časa omogoča zainteresiranim stranem, da pregledajo več gradiva v krajšem času in pridobijo širšo perspektivo. Z izboljšanim razumevanjem in bolj sintetiziranimi vpogledi lahko organizacije sprejemajo bolje informirane strateške odločitve, pospešijo raziskave, izboljšajo produktivnost in povečajo svoj vpliv. Preobrazbena moč naprednih zmožnosti povzemanja bo le še naraščala, ko bo vse več industrij sprejelo umetno inteligenco (AI) za izkoriščanje prepolnih informacijskih tokov.

V tej objavi raziskujemo vodilne pristope za objektivno ocenjevanje natančnosti seštevanja, vključno z meritvami ROUGE, METEOR in BERTScore. Razumevanje prednosti in slabosti teh tehnik lahko pomaga pri usmerjanju prizadevanj za izbiro in izboljšave. Splošni cilj te objave je demistificirati vrednotenje povzemanja, da bi ekipam pomagali bolje primerjati uspešnost te kritične zmogljivosti, ko si prizadevajo povečati vrednost.

Vrste povzemanja

Povzemanje lahko na splošno razdelimo na dve glavni vrsti: ekstraktivno povzemanje in abstraktivno povzemanje. Oba pristopa si prizadevata zgostiti dolge dele besedila v krajše oblike, zajeti najbolj kritične informacije ali bistvo izvirne vsebine, vendar to počneta na bistveno različne načine.

Ekstraktivno povzemanje vključuje prepoznavanje in ekstrahiranje ključnih stavkov, stavkov ali segmentov iz izvirnega besedila, ne da bi jih spreminjali. Sistem izbere dele besedila, ki so najbolj informativni ali reprezentativni za celoto. Ekstraktno povzemanje je uporabno, če je natančnost kritična in mora povzetek odražati natančne informacije iz izvirnega besedila. To so lahko primeri uporabe, kot je poudarjanje posebnih pravnih pogojev, obveznosti in pravic, opisanih v pogojih uporabe. Najpogostejše tehnike, ki se uporabljajo za ekstrakcijsko povzemanje, so izraz frekvenčno inverzna frekvenca dokumenta (TF-IDF), točkovanje stavkov, algoritem za razvrščanje besedila in nadzorovano strojno učenje (ML).

Abstraktivno povzemanje gre še korak dlje z ustvarjanjem novih besednih zvez in stavkov, ki jih ni bilo v izvirnem besedilu, v bistvu pa parafrazira in zgošča izvirno vsebino. Ta pristop zahteva globlje razumevanje besedila, saj mora AI interpretirati pomen in ga nato izraziti v novi, jedrnati obliki. Veliki jezikovni modeli (LLM) so najprimernejši za abstraktno povzemanje, ker transformatorski modeli uporabljajo mehanizme pozornosti, da se pri ustvarjanju povzetkov osredotočijo na ustrezne dele vhodnega besedila. Mehanizem pozornosti omogoča modelu, da dodeli različne uteži različnim besedam ali žetonom v vhodnem zaporedju, kar mu omogoča zajemanje dolgoročnih odvisnosti in kontekstualno pomembnih informacij.

Poleg teh dveh primarnih vrst obstajajo hibridni pristopi, ki združujejo ekstrakcijske in abstraktne metode. Ti pristopi se lahko začnejo z ekstraktivnim povzemanjem, da se identificira najpomembnejša vsebina, nato pa z abstraktnimi tehnikami prepišejo ali strnejo to vsebino v tekoči povzetek.

Izziv

Iskanje optimalne metode za ocenjevanje kakovosti povzetka ostaja odprt izziv. Ker se organizacije vedno bolj zanašajo na samodejno povzemanje besedila za pridobivanje ključnih informacij iz dokumentov, raste potreba po standardiziranih tehnikah za merjenje natančnosti povzemanja. V idealnem primeru bi te metrike vrednotenja kvantificirale, kako dobro strojno ustvarjeni povzetki izvlečejo najpomembnejšo vsebino iz izvornih besedil in predstavijo koherentne povzetke, ki odražajo izvirni pomen in kontekst.

Vendar pa razvoj zanesljivih metodologij vrednotenja za povzemanje besedil predstavlja težave:

  • Referenčni povzetki, ki jih je napisal človek in se uporabljajo za primerjavo, pogosto kažejo veliko variabilnost na podlagi subjektivnih določitev pomembnosti
  • Niansirane vidike kakovosti povzetka, kot so tekočnost, berljivost in skladnost, je težko programsko kvantificirati
  • Med metodami povzemanja, od statističnih algoritmov do nevronskih mrež, obstajajo velike razlike, kar otežuje neposredne primerjave

V odpoklic usmerjena nadomestna študija za vrednotenje bistva (ROUGE)

meritve ROUGE, kot sta ROUGE-N in ROUGE-L, igrajo ključno vlogo pri ocenjevanju kakovosti strojno ustvarjenih povzetkov v primerjavi z referenčnimi povzetki, ki jih napiše človek. Te metrike se osredotočajo na ocenjevanje prekrivanja med vsebino strojno ustvarjenih in človeško ustvarjenih povzetkov z analizo n-gramov, ki so skupine besed ali žetonov. ROUGE-1 na primer ocenjuje ujemanje posameznih besed (unigramov), ROUGE-2 pa upošteva pare besed (bigrame). Poleg tega ROUGE-N oceni najdaljše skupno podzaporedje besed med obema besediloma, kar omogoča prilagodljivost v besednem redu.

Za ponazoritev tega upoštevajte naslednje primere:

  • metrika ROGUE-1 – ROUGE-1 oceni prekrivanje unigramov (posamezne besede) med ustvarjenim povzetkom in referenčnim povzetkom. Na primer, če referenčni povzetek vsebuje »Hitra rjava lisica skače« in je ustvarjeni povzetek »Rjava lisica skače hitro«, bi metrika ROUGE-1 štela, da se »rjava«, »lisica« in »skoki« prekrivajo. unigrami. ROUGE-1 se osredotoča na prisotnost posameznih besed v povzetkih in meri, kako dobro ustvarjeni povzetek zajema ključne besede iz referenčnega povzetka.
  • metrika ROGUE-2 – ROUGE-2 oceni prekrivanje bigramov (parov sosednjih besed) med ustvarjenim povzetkom in referenčnim povzetkom. Na primer, če ima referenčni povzetek »Mačka spi«, ustvarjeni povzetek pa se glasi »Mačka spi«, bi ROUGE-2 identificiral »mačka je« in »spi« kot prekrivajoči se bigram. ROUGE-2 ponuja vpogled v to, kako dobro ustvarjeni povzetek ohranja zaporedje in kontekst besednih parov v primerjavi z referenčnim povzetkom.
  • metrika ROUGE-N – ROUGE-N je posplošena oblika, kjer N predstavlja poljubno število, kar omogoča vrednotenje na podlagi n-gramov (zaporedij N besed). Če upoštevamo N=3, če referenčni povzetek navaja »Sonce močno sije« in je ustvarjeni povzetek »Sonce močno sije«, bi ROUGE-3 prepoznal »sonce močno sije« kot ujemajoči se trigram. ROUGE-N ponuja prilagodljivost za ocenjevanje povzetkov na podlagi različnih dolžin besednih zaporedij, kar zagotavlja celovitejšo oceno vsebinskega prekrivanja.

Ti primeri ponazarjajo, kako meritve ROUGE-1, ROUGE-2 in ROUGE-N delujejo pri ocenjevanju nalog samodejnega povzemanja ali strojnega prevajanja s primerjavo ustvarjenih povzetkov z referenčnimi povzetki na podlagi različnih ravni besednih zaporedij.

Izračunajte oceno ROUGE-N

Za izračun ocene ROUGE-N lahko uporabite naslednje korake:

  1. Tokenizirajte ustvarjeni povzetek in referenčni povzetek v posamezne besede ali žetone z uporabo osnovnih metod tokenizacije, kot je delitev s presledki ali knjižnicami za obdelavo naravnega jezika (NLP).
  2. Ustvarite n-grame (sosednja zaporedja N besed) iz ustvarjenega povzetka in referenčnega povzetka.
  3. Preštejte število prekrivajočih se n-gramov med ustvarjenim povzetkom in referenčnim povzetkom.
  4. Izračunajte natančnost, priklic in rezultat F1:
    • Precision – Število prekrivajočih se n-gramov, deljeno s skupnim številom n-gramov v ustvarjenem povzetku.
    • Recall – Število prekrivajočih se n-gramov, deljeno s skupnim številom n-gramov v referenčnem povzetku.
    • Ocena F1 – Harmonična sredina natančnosti in priklica, izračunana kot (2 * natančnost * priklic) / (natančnost + priklic).
  5. Skupna ocena F1, dobljena z izračunom natančnosti, priklica in ocene F1 za vsako vrstico v naboru podatkov, se šteje za oceno ROUGE-N.

Omejitve

ROGUE ima naslednje omejitve:

  • Ozko osredotočanje na leksikalno prekrivanje – Osrednja ideja za ROUGE je primerjati sistemsko ustvarjen povzetek z nizom referenčnih ali človeško ustvarjenih povzetkov in izmeriti leksikalno prekrivanje med njimi. To pomeni, da se ROUGE zelo ozko osredotoča na podobnost na ravni besed. Pravzaprav ne ocenjuje semantičnega pomena, skladnosti ali berljivosti povzetka. Sistem bi lahko dosegel visoke ocene ROUGE s preprostim izločanjem stavkov besedo za besedo iz izvirnega besedila, ne da bi ustvaril koherenten ali jedrnat povzetek.
  • Neobčutljivost za parafraziranje – Ker se ROUGE opira na leksikalno ujemanje, ne more zaznati pomenske enakovrednosti med besedami in frazami. Zato parafraziranje in uporaba sinonimov pogosto vodita do nižjih rezultatov ROUGE, tudi če se pomen ohrani. To postavlja v slabši položaj sisteme, ki parafrazirajo ali povzemajo na abstraktiven način.
  • Pomanjkanje semantičnega razumevanja – ROUGE ne oceni, ali je sistem resnično razumel pomene in koncepte v izvirnem besedilu. Povzetek bi lahko dosegel veliko leksikalno prekrivanje z referencami, hkrati pa bi manjkale glavne ideje ali vseboval dejanske nedoslednosti. ROUGE teh težav ne bi identificiral.

Kdaj uporabiti ROUGE

ROUGE je preprost in hiter za izračun. Uporabite ga kot osnovo ali merilo uspešnosti za kakovost povzetka v zvezi z izbiro vsebine. Meritve ROUGE se najučinkoviteje uporabljajo v scenarijih, ki vključujejo naloge abstraktnega povzemanja, samodejno vrednotenje povzemanja, ocene magistrskih študijev in primerjalne analize različnih pristopov povzemanja. Z uporabo meritev ROUGE v teh kontekstih lahko zainteresirane strani kvantitativno ovrednotijo ​​kakovost in učinkovitost procesov ustvarjanja povzetkov.

Metrika za vrednotenje prevoda z eksplicitnim vrstnim redom (METEOR)

Eden glavnih izzivov pri ocenjevanju sistemov za povzemanje je ocenjevanje, kako dobro ustvarjeni povzetek teče logično, namesto le izbiranje ustreznih besed in besednih zvez iz izvornega besedila. Preprosto izločanje ustreznih ključnih besed in stavkov ne prinese nujno skladnega in kohezivnega povzetka. Povzetek mora teči gladko in logično povezovati ideje, tudi če niso predstavljene v istem vrstnem redu kot izvirni dokument.

Fleksibilnost ujemanja z zmanjševanjem besed na njihovo korensko ali osnovno obliko (na primer, po izvoru besede, kot so »teči«, »teče« in »tekel«, vse postanejo »teči«) in sinonimi pomeni METEOR bolje korelira s človeškimi presojami kakovosti povzetka. Prepozna lahko, ali je ohranjena pomembna vsebina, tudi če se besedilo razlikuje. To je ključna prednost pred meritvami, ki temeljijo na n-gramih, kot je ROUGE, ki išče samo natančna ujemanja žetonov. METEOR prav tako daje višje ocene povzetkom, ki se osredotočajo na najbolj pomembno vsebino iz reference. Nižje ocene so podane ponavljajočim se ali nepomembnim informacijam. To se dobro ujema s ciljem povzemanja, da se ohrani samo najpomembnejša vsebina. METEOR je semantično pomembna metrika, ki lahko preseže nekatere omejitve ujemanja n-gramov za vrednotenje povzemanja besedila. Vključitev korena in sinonimov omogoča boljšo oceno prekrivanja informacij in točnosti vsebine.

Za ponazoritev tega upoštevajte naslednje primere:

Referenčni povzetek: Listje jeseni odpade.

Ustvarjen povzetek 1: Listje jeseni odpade.

Ustvarjen povzetek 2: Poleti zeleni listi.

Besede, ki se ujemajo med referenco in ustvarjenim povzetkom 1, so označene:

Referenčni povzetek: Listi pade med jesenjo.

Ustvarjen povzetek 1: Listi vskoči pade.

Čeprav sta "jesen" in "jesen" različna žetona, ju METEOR prepozna kot sopomenki s pomočjo ujemanja sinonimov. »Drop« in »fall« sta opredeljena kot ujemanje z deblom. Za ustvarjeni povzetek 2 ni nobenih ujemanj z referenčnim povzetkom razen »Listi«, zato bi ta povzetek prejel veliko nižjo oceno METEOR. Bolj kot so pomensko pomembna ujemanja, višja je ocena METEOR. To omogoča METEOR-ju, da bolje oceni vsebino in točnost povzetkov v primerjavi s preprostim ujemanjem n-gramov.

Izračunajte oceno METEOR

Izvedite naslednje korake za izračun ocene METEOR:

  1. Tokenizirajte ustvarjeni povzetek in referenčni povzetek v posamezne besede ali žetone z uporabo osnovnih metod tokenizacije, kot je delitev s presledki ali knjižnicami NLP.
  2. Izračunajte unigramsko natančnost, priklic in rezultat F-povprečja, kar daje večjo težo za priklic kot natančnost.
  3. Uporabite kazen za natančna ujemanja, da jih ne boste preveč poudarjali. Kazen je izbrana na podlagi značilnosti nabora podatkov, zahtev naloge in ravnovesja med natančnostjo in priklicem. Odštejte to kazen od F-povprečnega rezultata, izračunanega v 2. koraku.
  4. Izračunajte povprečni rezultat F za oblike z deblom (zmanjšanje besed na njihovo osnovo ali korensko obliko) in sinonime za unigrame, kjer je primerno. Seštejte to s prej izračunanim F-povprečnim rezultatom, da dobite končni rezultat METEOR. Ocena METEOR se giblje med 0–1, kjer 0 pomeni, da ni podobnosti med ustvarjenim povzetkom in referenčnim povzetkom, 1 pa pomeni popolno poravnavo. Običajno se rezultati povzetka gibljejo med 0–0.6.

Omejitve

Pri uporabi metrike METEOR za vrednotenje nalog povzemanja se lahko pojavi več izzivov:

  • Semantična kompleksnost – METEOR-jev poudarek na semantični podobnosti lahko povzroči težave pri zajemanju niansiranih pomenov in konteksta v zapletenih nalogah povzemanja, kar lahko vodi do netočnosti pri vrednotenju.
  • Referenčna variabilnost – Variabilnost referenčnih povzetkov, ki jih ustvari človek, lahko vpliva na rezultate METEOR, ker lahko razlike v referenčni vsebini vplivajo na vrednotenje strojno ustvarjenih povzetkov.
  • Jezikovna raznolikost – Učinkovitost METEOR-ja se lahko razlikuje med jeziki zaradi jezikovnih variacij, sintaksičnih razlik in pomenskih nians, kar predstavlja izziv pri vrednotenjih večjezičnega povzemanja.
  • Neskladje v dolžini – Ocenjevanje povzetkov različnih dolžin je lahko za METEOR izziv, saj lahko razlike v dolžini v primerjavi z referenčnim povzetkom povzročijo kazni ali netočnosti pri ocenjevanju.
  • Nastavitev parametrov – Optimiziranje parametrov METEOR za različne nabore podatkov in opravila povzemanja je lahko dolgotrajno in zahteva skrbno uravnavanje, da se zagotovi, da metrika zagotavlja natančne ocene.
  • Pristranskost ocenjevanja – Obstaja tveganje pristranskosti vrednotenja pri METEOR-ju, če ni pravilno prilagojen ali umerjen za posebne domene ali naloge povzemanja. To lahko vodi do izkrivljenih rezultatov in vpliva na zanesljivost postopka ocenjevanja.

Če se zavedajo teh izzivov in jih upoštevajo pri uporabi METEORja kot metrike za naloge povzemanja, lahko raziskovalci in praktiki krmarijo po morebitnih omejitvah in sprejemajo bolj informirane odločitve v svojih postopkih vrednotenja.

Kdaj uporabiti METEOR

METEOR se običajno uporablja za samodejno ocenjevanje kakovosti besedilnih povzetkov. Priporočljivo je, da uporabite METEOR kot metriko vrednotenja, kadar je pomemben vrstni red idej, konceptov ali entitet v povzetku. METEOR upošteva vrstni red in poveže n-grame med ustvarjenim povzetkom in referenčnimi povzetki. Nagrajuje povzetke, ki ohranjajo zaporedne informacije. Za razliko od metrik, kot je ROUGE, ki temeljijo na prekrivanju n-gramov s povzetki sklicev, METEOR ujema korenine, sinonime in parafraze. METEOR deluje bolje, če obstaja več pravilnih načinov povzemanja izvirnega besedila. METEOR vključuje sinonime WordNet in žetone z deblom pri ujemanju n-gramov. Skratka, povzetki, ki so pomensko podobni, vendar uporabljajo različne besede ali izraze, bodo še vedno dosegli dobre rezultate. METEOR ima vgrajeno kazen za povzetke s ponavljajočimi se n-grami. Zato odsvetuje črpanje besed za besedami ali pomanjkanje abstrakcije. METEOR je dobra izbira, kadar so za presojo kakovosti povzetka pomembni pomenska podobnost, vrstni red idej in tekoče fraziranje. Manj primeren je za naloge, kjer je pomembno le leksikalno prekrivanje s povzetki sklicev.

BERTScore

Površinske leksikalne mere, kot sta ROUGE in METEOR, ocenjujejo sisteme povzemanja s primerjavo prekrivanja besed med povzetkom kandidata in referenčnim povzetkom. Vendar se močno zanašajo na natančno ujemanje nizov med besedami in frazami. To pomeni, da lahko zgrešijo pomenske podobnosti med besedami in besednimi zvezami, ki imajo različne površinske oblike, vendar podobne temeljne pomene. Ker se zanašajo le na površinsko ujemanje, lahko te metrike podcenjujejo kakovost sistemskih povzetkov, ki uporabljajo sinonimne besede ali parafrazirajo koncepte drugače kot referenčni povzetki. Dva povzetka bi lahko posredovala skoraj enake informacije, vendar bi zaradi razlik v besedišču prejela nizke ocene na površinski ravni.

BERTScore je način za samodejno ovrednotenje, kako dober je povzetek, tako da ga primerjate z referenčnim povzetkom, ki ga je napisal človek. Uporablja BERT, priljubljeno tehniko NLP, za razumevanje pomena in konteksta besed v povzetku kandidata in referenčnem povzetku. Natančneje, pregleda vsako besedo ali žeton v povzetku kandidata in najde najbolj podobno besedo v referenčnem povzetku na podlagi vdelav BERT, ki so vektorske predstavitve pomena in konteksta vsake besede. Meri podobnost z uporabo kosinusne podobnosti, ki pove, kako blizu sta vektorja drug drugemu. Za vsako besedo v povzetku kandidata poišče najbolj sorodno besedo v referenčnem povzetku z uporabo BERT-ovega razumevanja jezika. Primerja vse te podobnosti besed v celotnem povzetku, da dobi skupno oceno, kako pomensko podoben je povzetek kandidata referenčnemu povzetku. Bolj kot so podobne besede in pomeni, ki jih zajame BERT, višja je ocena BERTScore. To mu omogoča, da samodejno oceni kakovost ustvarjenega povzetka tako, da ga primerja s človeško referenco, ne da bi vsakič potreboval človeško oceno.

Za ponazoritev tega si predstavljajte, da imate strojno ustvarjen povzetek: "Hitra rjava lisica skoči čez lenega psa." Zdaj pa razmislimo o referenčnem povzetku, ki ga je ustvaril človek: "Hitra rjava lisica preskoči spečega psa."

Izračunajte BERTScore

Izvedite naslednje korake za izračun BERTScore:

  1. BERTScore uporablja kontekstualne vdelave za predstavitev vsakega žetona v kandidatnih (strojno ustvarjenih) in referenčnih (človeško ustvarjenih) stavkih. Kontekstualne vdelave so vrsta besedne predstavitve v NLP, ki zajame pomen besede na podlagi njenega konteksta v stavku ali besedilu. Za razliko od tradicionalnih vdelav besed, ki vsaki besedi dodelijo fiksni vektor ne glede na njen kontekst, kontekstualne vdelave upoštevajo okoliške besede, da ustvarijo edinstveno predstavitev za vsako besedo, odvisno od tega, kako je uporabljena v določenem stavku.
  2. Metrika nato izračuna podobnost med vsakim žetonom v kandidatnem stavku z vsakim žetonom v referenčnem stavku z uporabo kosinusne podobnosti. Kosinusna podobnost nam pomaga kvantificirati, kako tesno sta povezana dva niza podatkov, tako da se osredotoči na smer, ki jo kažeta v večdimenzionalnem prostoru, zaradi česar je dragoceno orodje za naloge, kot so iskalni algoritmi, NLP in sistemi priporočil.
  3. S primerjavo kontekstualnih vdelav in izračunavanjem rezultatov podobnosti za vse žetone BERTScore ustvari celovito oceno, ki zajame semantično relevantnost in kontekst ustvarjenega povzetka v primerjavi z referenco, ki jo je ustvaril človek.
  4. Končni rezultat BERTScore zagotavlja oceno podobnosti, ki odraža, kako dobro je strojno ustvarjen povzetek usklajen z referenčnim povzetkom v smislu pomena in konteksta.

V bistvu BERTScore presega tradicionalne meritve z upoštevanjem pomenskih nians in konteksta stavkov ter ponuja bolj sofisticirano oceno, ki natančno odraža človeško presojo. Ta napredni pristop povečuje natančnost in zanesljivost ocenjevanja nalog povzemanja, zaradi česar je BERTScore dragoceno orodje pri ocenjevanju sistemov za ustvarjanje besedila.

omejitve:

Čeprav BERTScore ponuja znatne prednosti pri ocenjevanju nalog povzemanja, ima tudi določene omejitve, ki jih je treba upoštevati:

  • Računska intenzivnost – BERTScore je lahko računsko intenziven zaradi odvisnosti od vnaprej usposobljenih jezikovnih modelov, kot je BERT. To lahko privede do daljših časov ocenjevanja, zlasti pri obdelavi velikih količin besedilnih podatkov.
  • Odvisnost od predhodno usposobljenih modelov – Učinkovitost BERTScore je močno odvisna od kakovosti in ustreznosti uporabljenega vnaprej usposobljenega jezikovnega modela. V scenarijih, kjer predhodno usposobljeni model morda ne bo ustrezno zajel odtenkov besedila, lahko to vpliva na rezultate vrednotenja.
  • Prilagodljivost – Skaliranje BERTScore za velike nabore podatkov ali aplikacije v realnem času je lahko izziv zaradi računalniških zahtev. Implementacija BERTScore v produkcijskih okoljih lahko zahteva optimizacijske strategije za zagotavljanje učinkovite zmogljivosti.
  • Specifičnost domene – Delovanje BERTScore se lahko razlikuje glede na različne domene ali specializirane vrste besedil. Prilagoditev metrike določenim področjem ali nalogam lahko zahteva natančno nastavitev ali prilagoditve za izdelavo natančnih ocen.
  • Interpretabilnost – Čeprav BERTScore zagotavlja celovito oceno, ki temelji na kontekstualnih vdelavah, je razlaga posebnih razlogov za ocene podobnosti, ustvarjene za vsak žeton, lahko zapletena in lahko zahteva dodatno analizo.
  • Brez referenčnega vrednotenja – Čeprav BERTScore zmanjša zanašanje na referenčne povzetke za vrednotenje, ta pristop brez referenc morda ne bo v celoti zajel vseh vidikov kakovosti povzemanja, zlasti v scenarijih, kjer so človeško oblikovane reference bistvene za ocenjevanje ustreznosti in skladnosti vsebine.

Zavedanje teh omejitev vam lahko pomaga pri sprejemanju informiranih odločitev pri uporabi BERTScore kot metrike za ocenjevanje nalog povzemanja, kar zagotavlja uravnoteženo razumevanje njegovih prednosti in omejitev.

Kdaj uporabiti BERTScore

BERTScore lahko ovrednoti kakovost povzemanja besedila s primerjavo ustvarjenega povzetka z referenčnim povzetkom. Uporablja nevronske mreže, kot je BERT, za merjenje semantične podobnosti, ki presega le natančno ujemanje besed ali fraz. Zaradi tega je BERTScore zelo uporaben, ko je semantična zvestoba, ki ohranja polni pomen in vsebino, ključnega pomena za vašo nalogo povzemanja. BERTScore bo dal višje ocene povzetkom, ki posredujejo enake informacije kot referenčni povzetek, tudi če uporabljajo drugačne besede in stavčne strukture. Bistvo je, da je BERTScore idealen za naloge povzemanja, kjer je ohranjanje celotnega semantičnega pomena ključnega pomena, ne le ključnih besed ali tem. Njegovo napredno nevronsko točkovanje omogoča primerjavo pomenov, ki presegajo površinsko ujemanje besed. Zaradi tega je primeren za primere, ko lahko subtilne razlike v besedilu bistveno spremenijo splošni pomen in posledice. BERTScore se še posebej odlikuje pri zajemanju semantične podobnosti, kar je ključnega pomena za ocenjevanje kakovosti abstraktnih povzetkov, kot so tisti, ki jih ustvarijo modeli RAG (Retrieval Augmented Generation).

Modelni okviri vrednotenja

Okviri vrednotenja modela so bistveni za natančno merjenje uspešnosti različnih modelov povzemanja. Ti okviri so ključni pri primerjavi modelov, zagotavljanju skladnosti med ustvarjenimi povzetki in izvorno vsebino ter natančnem določanju pomanjkljivosti v metodah vrednotenja. Z izvajanjem temeljitih ocen in doslednega primerjanja ti okviri spodbujajo raziskave povzemanja besedil, tako da zagovarjajo standardizirane prakse ocenjevanja in omogočajo večplastne primerjave modelov.

V AWS je Knjižnica FMEval v Amazon SageMaker Pojasni poenostavi vrednotenje in izbiro temeljnih modelov (FM) za naloge, kot so povzemanje besedila, odgovarjanje na vprašanja in klasifikacija. Omogoča vam, da ocenite FM na podlagi meritev, kot so natančnost, robustnost, ustvarjalnost, pristranskost in strupenost, ter podpira tako avtomatizirano kot človeško vrednotenje v zanki za LLM. Z vrednotenji, ki temeljijo na uporabniškem vmesniku ali programskimi ocenami, FMEval ustvarja podrobna poročila z vizualizacijami za kvantificiranje tveganj modela, kot so netočnosti, strupenost ali pristranskost, in pomaga organizacijam, da se uskladijo z njihovimi smernicami odgovorne generativne umetne inteligence. V tem razdelku prikazujemo, kako uporabljati knjižnico FMEval.

Ocenite Claude v2 glede natančnosti povzemanja z uporabo Amazon Bedrock

Naslednji delček kode je primer interakcije z modelom Anthropic Claude s kodo Python:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

Preprosto povedano, ta koda izvaja naslednja dejanja:

  1. Uvozite potrebne knjižnice, vključno z json, za delo s podatki JSON.
  2. Definirajte ID modela kot anthropic.claude-v2 in nastavite vrsto vsebine za zahtevo.
  3. Ustvarite prompt_data spremenljivka, ki strukturira vhodne podatke za model Claude. V tem primeru postavlja vprašanje "Kdo je Barack Obama?" in pričakuje odziv modela.
  4. Izdelajte objekt JSON z imenom body, ki vključuje podatke o pozivu, in podajte dodatne parametre, kot je največje število žetonov za ustvarjanje.
  5. Prikličite model Claude z uporabo bedrock_runtime.invoke_model z definiranimi parametri.
  6. Razčlenite odgovor iz modela, izvlecite zaključek (generirano besedilo) in ga natisnite.

Prepričajte se, da AWS upravljanje identitete in dostopa (IAM) vloga, povezana z Amazon SageMaker Studio uporabniški profil ima dostop do Amazon Bedrock priklicani modeli. Nanašati se na Primeri politik, ki temeljijo na identiteti, za Amazon Bedrock za smernice o najboljših praksah in primerih politik, ki temeljijo na identiteti, za Amazon Bedrock.

Uporaba knjižnice FMEval za ovrednotenje Claudeovega povzetka

Za ovrednotenje povzetka rezultatov uporabljamo naslednjo kodo:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

V prejšnjem delčku kode za ovrednotenje povzemanja besedila s knjižnico FMEval izvedemo naslednje korake:

  1. Ustvarite ModelRunner za izvedbo priklica na vašem LLM. Knjižnica FMEval nudi vgrajeno podporo za Amazon SageMaker končne točke in Amazon SageMaker JumpStart LLM. Lahko tudi podaljšate ModelRunner vmesnik za kateri koli LLM, ki gostuje kjer koli.
  2. Uporaba podprta eval_algorithms kot so strupenost, povzemanje, natančnost, semantika in robustnost, glede na vaše potrebe po vrednotenju.
  3. Prilagodite konfiguracijske parametre vrednotenja za vaš poseben primer uporabe.
  4. Uporabite algoritem vrednotenja z vgrajenimi ali prilagojenimi nabori podatkov, da ocenite svoj model LLM. Nabor podatkov, uporabljen v tem primeru, izvira iz naslednjega GitHub repo.

Glejte vodnik za razvijalce in primeri za podrobno uporabo algoritmov vrednotenja.

Naslednja tabela povzema rezultate vrednotenja.

model _input model_output ciljni_izhod poziv rezultati meteor_score rouge_score bert_score
John Edward
0 Bates, nekdanji Spalding, Linco…..
Ne morem reči nobenega dokončnega
sodbe, kot th...
Prvi
Policist iz Lincolnshira je nosil ...
Človek: Janez
Edward Bates, nekdanji Spalding ...
[{'name': 'meteor', 'value':
0.101010101010101 ...
0.10101 0 0.557155
23 oktober 2015
Nazadnje posodobljeno ob
17:44 BST|n...
Tukaj je nekaj ključnih točk o orkanu/tropu. Orkan Patricia je bil ocenjen kot kategor... Človek: 23
oktober 2015 Zadnja posodobitev ob 17:44
B…
[{'name': meteor', “value':
0.102339181286549 ..
0.102339 0.018265 0.441421
Ferrari se je pojavil v položaju, da izzove ne... Tukaj so ključne točke iz članka: ni… Lewis Hamilton je osvojil prvo mesto na… Človek: Ferrari se je izkazal v položaju, da izzove ... [{'name': 'meteor', 'value':
0.322543352601156 ...
0.322543 0.078212 0.606487
28-letni igralec, rojen v Bathu, je dosegel 36
videti …
V redu, naj povzamem ključne točke:/nin- E….. Newport Gwent Dragons številka osem Ed Jackson Človek: 28-letni igralec, rojen v Bathu, je dosegel 36... [{'name': 'meteor', 'value':
0105740181268882 ...
0.10574 0.012987 0.539488
Slabosti v načinu, kako miši izmenjujejo podatke s c… Tukaj so ključne točke, ki sem jih zbral iz ... Hekerji bi lahko pridobili dostop do doma in Človeško:
Slabosti v
swar miši izmenjale podatke
[{'name': 'meteor', 'value':
0.201048289433848 ...
0.201048 0.021858 0.526947

Oglejte si vzorec prenosnik za več podrobnosti o povzemanju vrednotenja, o katerem smo razpravljali v tej objavi.

zaključek

ROUGE, METEOR in BERTScore merijo kakovost strojno ustvarjenih povzetkov, vendar se osredotočajo na različne vidike, kot so leksikalno prekrivanje, tekočnost ali pomenska podobnost. Prepričajte se, da ste izbrali meritev, ki je usklajena s tem, kar opredeljuje »dobro« za vaš specifični primer uporabe povzemanja. Uporabite lahko tudi kombinacijo meritev. To zagotavlja bolj zaokroženo vrednotenje in zaščito pred morebitnimi slabostmi katere koli posamezne metrike. S pravimi meritvami lahko iterativno izboljšujete svoje seštevalnike, da ustrezajo tistemu, kar je najpomembnejše glede natančnosti.

Poleg tega je vrednotenje FM in LLM potrebno, da bi lahko proizvedli te modele v velikem obsegu. S FMEval dobite obsežen nabor vgrajenih algoritmov za številne NLP naloge, pa tudi razširljivo in prilagodljivo orodje za obsežne ocene vaših lastnih modelov, nizov podatkov in algoritmov. Za povečanje lahko uporabite ta paket v svojih cevovodih LLMOps ocenite več modelov. Če želite izvedeti več o FMEval v AWS in kako ga učinkovito uporabljati, glejte Za ovrednotenje velikih jezikovnih modelov uporabite SageMaker Clarify. Za nadaljnje razumevanje in vpogled v zmogljivosti SageMaker Clarify pri ocenjevanju FM-jev glejte Amazon SageMaker Clarify poenostavi ocenjevanje in izbiro temeljnih modelov.


O avtorjih


Dinesh Kumar Subramani je višji arhitekt rešitev s sedežem v Edinburghu na Škotskem. Specializiran je za umetno inteligenco in strojno učenje ter je član skupnosti tehničnih področij v Amazonu. Dinesh tesno sodeluje s strankami centralne vlade Združenega kraljestva pri reševanju njihovih težav z uporabo storitev AWS. Zunaj službe Dinesh uživa v preživljanju kakovostnega časa s svojo družino, igranju šaha in raziskovanju raznolike glasbe.


Pranav Sharma je vodja AWS, ki spodbuja pobude za tehnologijo in poslovno transformacijo po Evropi, Bližnjem vzhodu in Afriki. Ima izkušnje z načrtovanjem in vodenjem platform umetne inteligence v proizvodnji, ki podpirajo milijone strank in zagotavljajo poslovne rezultate. Igral je vodilne vloge na področju tehnologije in ljudi v organizacijah Global Financial Services. Izven službe rad bere, s sinom igra tenis in gleda filme.

spot_img

Najnovejša inteligenca

spot_img

Klepetajte z nami

Zdravo! Kako vam lahko pomagam?