Generative Data Intelligence

Metið textasamantektargetu LLMs til að auka ákvarðanatöku um AWS | Amazon vefþjónusta

Dagsetning:

Stofnanir þvert á atvinnugreinar nota sjálfvirka textasamantekt til að meðhöndla mikið magn upplýsinga á skilvirkari hátt og taka betri ákvarðanir. Í fjármálageiranum draga fjárfestingarbankar saman afkomuskýrslur niður í lykilatriði til að greina hratt ársfjórðungslega afkomu. Fjölmiðlafyrirtæki nota samantekt til að fylgjast með fréttum og samfélagsmiðlum svo blaðamenn geti fljótt skrifað sögur um þróun mála. Ríkisstofnanir draga saman löng stefnuskjöl og skýrslur til að hjálpa stefnumótendum að skipuleggja og forgangsraða markmiðum.

Með því að búa til þéttar útgáfur af löngum, flóknum skjölum gerir samantektartækni notendum kleift að einbeita sér að mikilvægasta efninu. Þetta leiðir til betri skilnings og varðveislu mikilvægra upplýsinga. Tímasparnaðurinn gerir hagsmunaaðilum kleift að fara yfir meira efni á skemmri tíma og fá víðara sjónarhorn. Með auknum skilningi og samþættri innsýn geta stofnanir tekið betur upplýstar stefnumótandi ákvarðanir, hraðað rannsóknum, bætt framleiðni og aukið áhrif þeirra. Umbreytingarmáttur háþróaðrar samantektargetu mun aðeins halda áfram að vaxa eftir því sem fleiri atvinnugreinar taka upp gervigreind (AI) til að virkja yfirfulla upplýsingastrauma.

Í þessari færslu könnum við leiðandi aðferðir til að meta samantektarnákvæmni á hlutlægan hátt, þar á meðal ROUGE mæligildi, METEOR og BERTScore. Að skilja styrkleika og veikleika þessara aðferða getur hjálpað til við að leiðbeina vali og umbótaviðleitni. Heildarmarkmið þessarar færslu er að draga úr dulúð á samantektarmati til að hjálpa teymum að meta árangur á þessum mikilvæga getu þegar þau leitast við að hámarka verðmæti.

Tegundir samantekta

Samantekt má almennt skipta í tvær megingerðir: útdráttarsamantekt og óhlutbundin samantekt. Báðar aðferðirnar miða að því að þétta langa texta í styttri form, fanga mikilvægustu upplýsingarnar eða kjarna upprunalega efnisins, en þær gera það á mjög ólíkan hátt.

Útdráttur samantekt felur í sér að bera kennsl á og draga lykilsetningar, setningar eða hluta úr upprunalega textanum án þess að breyta þeim. Kerfið velur hluta textans sem þykir upplýsandi eða lýsandi fyrir heildina. Útdráttarsamantekt er gagnleg ef nákvæmni er mikilvæg og samantektin þarf að endurspegla nákvæmar upplýsingar úr upprunalega textanum. Þetta gætu verið notkunartilvik eins og að undirstrika sérstaka lagaskilmála, skyldur og réttindi sem lýst er í notkunarskilmálum. Algengustu aðferðirnar sem notaðar eru við útdráttarsamantekt eru tíðni öfug skjalatíðni (TF-IDF), setningastig, textaröðunaralgrím og eftirlit með vélanámi (ML).

Óhlutbundin samantekt gengur skrefinu lengra með því að búa til nýjar setningar og setningar sem voru ekki í upprunalega textanum, í meginatriðum umorða og þétta upprunalega innihaldið. Þessi nálgun krefst dýpri skilnings á textanum, því gervigreindin þarf að túlka merkinguna og tjá hana síðan á nýju, hnitmiðuðu formi. Stór tungumálalíkön (LLM) henta best fyrir abstrakt samantekt vegna þess að spennilíkönin nota athygliskerfi til að einbeita sér að viðeigandi hlutum inntakstextans þegar samantektir eru búnar til. Athyglisbúnaðurinn gerir líkaninu kleift að úthluta mismunandi vægi á mismunandi orð eða tákn í inntaksröðinni, sem gerir því kleift að fanga langdrægar ósjálfstæði og samhengislega viðeigandi upplýsingar.

Til viðbótar við þessar tvær aðalgerðir eru blendingaraðferðir sem sameina útdráttar- og óhlutbundin aðferðir. Þessar aðferðir gætu byrjað með útdráttarsamantekt til að bera kennsl á mikilvægasta innihaldið og síðan notað abstrakt tækni til að endurskrifa eða þétta það efni í reiprennandi samantekt.

Áskorunin

Að finna bestu aðferðina til að meta samantektargæði er enn opin áskorun. Þar sem stofnanir treysta í auknum mæli á sjálfvirka textasamantekt til að eima lykilupplýsingar úr skjölum, vex þörfin fyrir staðlaða tækni til að mæla nákvæmni samantektar. Helst myndu þessar matsmælikvarðar mæla hversu vel vélgerðar samantektir draga mikilvægasta efnið úr frumtextum og setja fram heildstæðar samantektir sem endurspegla upprunalega merkingu og samhengi.

Hins vegar hefur erfiðleikar í för með sér að þróa öfluga matsaðferðafræði fyrir textasamantekt:

  • Tilvísunaryfirlit úr mönnum, sem notuð eru til samanburðar, sýna oft mikinn breytileika sem byggist á huglægum ákvörðunum um mikilvægi
  • Blæbrigðaþættir yfirlitsgæða eins og reiprennandi, læsileiki og samhengi reynast erfitt að mæla forritunarlega
  • Mikill munur er á samantektaraðferðum frá tölfræðilegum reikniritum til tauganeta, sem flækir beinan samanburð

Innköllunarmiðuð undirnám fyrir gistandi mat (ROUGE)

ROUGE mæligildi, eins og ROUGE-N og ROUGE-L, gegna mikilvægu hlutverki við að meta gæði vélrænna samantekta samanborið við mannskrifaðar tilvísunaryfirlit. Þessar mælikvarðar beinast að því að meta skörun á milli innihalds vélrænna og manngerðra samantekta með því að greina n-grömm, sem eru hópar af orðum eða táknum. Til dæmis, ROUGE-1 metur samsvörun einstakra orða (einrit), en ROUGE-2 telur pör af orðum (tvírit). Að auki metur ROUGE-N lengstu sameiginlegu eftirfylgni orða á milli textanna tveggja, sem gerir ráð fyrir sveigjanleika í orðaröð.

Til að skýra þetta skaltu íhuga eftirfarandi dæmi:

  • ROGUE-1 mæligildi – ROUGE-1 metur skörun unigrams (stök orð) á milli myndaðrar samantektar og tilvísunaryfirlits. Til dæmis, ef tilvísunaryfirlit inniheldur „Snöggu brúna refurinn hoppar“ og samantektin sem myndast er „Brúni refurinn hoppar fljótt“ myndi ROUGE-1 mæligildið líta á „brúnt“, „refur“ og „stökk“ sem skarast einrit. ROUGE-1 einbeitir sér að tilvist einstakra orða í samantektunum, og mælir hversu vel myndaða samantektin fangar lykilorðin úr tilvísunaryfirlitinu.
  • ROGUE-2 mæligildi – ROUGE-2 metur skörun tvírita (pör af samliggjandi orðum) á milli myndaðrar samantektar og tilvísunaryfirlits. Til dæmis, ef tilvísunaryfirlitið hefur „Kötturinn sefur“ og samantektin sem myndast er „Köttur sefur“ myndi ROUGE-2 auðkenna „kötturinn er“ og „sefur“ sem tvírit sem skarast. ROUGE-2 veitir innsýn í hversu vel myndaða samantektin heldur röð og samhengi orðapöra samanborið við tilvísunaryfirlitið.
  • ROUGE-N mæligildi – ROUGE-N er almennt form þar sem N táknar hvaða tölu sem er, sem gerir mat byggt á n-grömmum (röð N orða). Miðað við N=3, ef tilvísunaryfirlitið segir „Sólin skín skært“ og myndað yfirlit er „Sól skín skært,“ myndi ROUGE-3 viðurkenna „sól skín skært“ sem samsvarandi þrírit. ROUGE-N býður upp á sveigjanleika til að meta samantektir út frá mismunandi lengdum orðaröða, sem veitir ítarlegra mat á skörun efnis.

Þessi dæmi sýna hvernig mælingar ROUGE-1, ROUGE-2 og ROUGE-N virka við að meta sjálfvirkar samantektir eða vélþýðingarverkefni með því að bera saman myndaðar samantektir við tilvísunarsamantektir byggðar á mismunandi stigum orðaröða.

Reiknaðu ROUGE-N stig

Þú getur notað eftirfarandi skref til að reikna út ROUGE-N stig:

  1. Táknaðu myndaða samantektina og tilvísunaryfirlitið í einstök orð eða tákn með því að nota helstu auðkennisaðferðir eins og að skipta með hvítu bili eða náttúrulegu tungumálavinnslu (NLP) bókasöfnum.
  2. Búðu til n-grömm (samfelldar raðir N orða) úr bæði mynduðu samantektinni og tilvísunaryfirlitinu.
  3. Teldu fjölda n-grömma sem skarast á milli myndaðrar samantektar og tilvísunaryfirlits.
  4. Reiknaðu nákvæmni, innköllun og F1 stig:
    • Nákvæmni – Fjöldi n-grömma sem skarast deilt með heildarfjölda n-grömma í samantektinni.
    • Muna – Fjölda n-grömma sem skarast deilt með heildarfjölda n-grömma í tilvísunaryfirlitinu.
    • F1 stig – Harmónískt meðaltal nákvæmni og innköllunar, reiknað sem (2 * nákvæmni * innköllun) / (nákvæmni + innköllun).
  5. Samanlagt F1 stig sem fæst með því að reikna út nákvæmni, muna og F1 stig fyrir hverja línu í gagnasafninu er talið ROUGE-N stig.

Takmarkanir

ROGUE hefur eftirfarandi takmarkanir:

  • Þröng áhersla á orðafræðilega skörun – Kjarnahugmyndin á bak við ROUGE er að bera saman kerfisgerða samantektina við safn tilvísunar eða manngerða samantekta og mæla orðafræðilega skörun á milli þeirra. Þetta þýðir að ROUGE hefur mjög þrönga áherslu á líkindi á orðstigi. Það metur í raun ekki merkingarfræðilega merkingu, samræmi eða læsileika samantektarinnar. Kerfi gæti náð háum ROUGE stigum með því einfaldlega að draga setningar orð fyrir orð úr upprunalega textanum, án þess að búa til heildstæða eða hnitmiðaða samantekt.
  • Ónæmi fyrir orðatiltækjum – Vegna þess að ROUGE treystir á orðasamsvörun getur það ekki greint merkingarfræðilegt jafngildi orða og orðasambanda. Þess vegna mun umorðun og notkun samheita oft leiða til lægri ROUGE stiga, jafnvel þótt merkingin haldist. Þetta kemur í veg fyrir kerfi sem umorða eða draga saman á abstrakt hátt.
  • Skortur á merkingarskilningi – ROUGE metur ekki hvort kerfið hafi raunverulega skilið merkingu og hugtök í upprunalega textanum. Samantekt gæti náð mikilli orðasafnsskörun við tilvísanir, á meðan vantar helstu hugmyndir eða innihaldi staðreyndaósamræmi. ROUGE myndi ekki bera kennsl á þessi mál.

Hvenær á að nota ROUGE

ROUGE er einfalt og fljótlegt að reikna út. Notaðu það sem grunnlínu eða viðmið fyrir yfirlitsgæði sem tengjast efnisvali. ROUGE mælingar eru best notaðar í atburðarás sem felur í sér óhlutbundin samantektarverkefni, sjálfvirkt samantektarmat, mat á LLM og samanburðargreiningu á mismunandi samantektaraðferðum. Með því að nota ROUGE mælikvarða í þessu samhengi geta hagsmunaaðilar metið gæði og skilvirkni samantektarferla með megindlegum hætti.

Mælikvarði fyrir mat á þýðingum með skýrri röðun (METEOR)

Ein helsta áskorunin við mat á samantektarkerfum er að meta hversu vel samantektin sem myndast flæðir rökrétt, frekar en að velja bara viðeigandi orð og orðasambönd úr frumtextanum. Einfaldlega að draga úr viðeigandi leitarorð og setningar þarf ekki endilega að framleiða samfellda og heildstæða samantekt. Samantektin ætti að flæða vel og tengja hugmyndir rökrétt, jafnvel þótt þær séu ekki settar fram í sömu röð og upprunalega skjalið.

Sveigjanleiki samsvörunar með því að minnka orð í rót eða grunnform þeirra (Til dæmis, eftir stemming, verða orð eins og „hlaup,“ „hlaup“ og „hljóp“ öll „hlaup“) og samheiti þýðir METEOR samræmist betur mati manna á yfirlitsgæði. Það getur greint hvort mikilvægt efni er varðveitt, jafnvel þótt orðalagið sé öðruvísi. Þetta er lykilkostur fram yfir mælikvarða sem byggjast á n-grömmum eins og ROUGE, sem leita aðeins að nákvæmum samsvörun. METEOR gefur einnig hærri einkunnir fyrir samantektir sem einblína á mest áberandi efni frá tilvísuninni. Lægri einkunnir eru gefnar fyrir endurteknar eða óviðkomandi upplýsingar. Þetta samræmist vel markmiðinu um samantekt til að halda aðeins mikilvægasta efnið. METEOR er merkingarlega þýðingarmikill mælikvarði sem getur sigrast á sumum takmörkunum n-gram samsvörunar til að meta textasamantekt. Innleiðing stofnsetningar og samheita gerir kleift að meta betur skörun upplýsinga og nákvæmni innihalds.

Til að skýra þetta skaltu íhuga eftirfarandi dæmi:

Samantekt tilvísunar: Lauf falla á haustin.

Mynduð samantekt 1: Blöðin falla á haustin.

Mynduð samantekt 2: Laufblöð græn á sumrin.

Orðin sem passa á milli tilvísunarinnar og myndaðrar samantektar 1 eru auðkennd:

Samantekt tilvísunar: Veitir falla um haustið.

Mynduð samantekt 1: Veitir falla í falla.

Jafnvel þó að „haust“ og „haust“ séu mismunandi tákn, viðurkennir METEOR þau sem samheiti með samheitasamsvörun sinni. „Drop“ og „fall“ eru auðkennd sem samsvörun. Fyrir útbúna samantekt 2 eru engar samsvörun við tilvísunaryfirlitið fyrir utan „Lauf“, þannig að þessi samantekt fengi mun lægri METEOR stig. Því merkingarlega þýðingarmeiri samsvörun, því hærra er METEOR stigið. Þetta gerir METEOR kleift að meta betur innihald og nákvæmni samantekta samanborið við einfalda n-gram samsvörun.

Reiknaðu METEOR stig

Ljúktu við eftirfarandi skref til að reikna út METEOR stig:

  1. Táknaðu myndaða samantektina og tilvísunaryfirlitið í einstök orð eða tákn með því að nota helstu auðkennisaðferðir eins og að skipta eftir hvítu bili eða NLP bókasöfnum.
  2. Reiknið út einrita nákvæmni, innköllun og F-meðaltal, sem gefur meiri þyngd til að muna en nákvæmni.
  3. Beita refsingu fyrir nákvæmar samsvörun til að forðast að leggja of mikla áherslu á þær. Refsingin er valin út frá eiginleikum gagnasafns, kröfum um verkefni og jafnvægið milli nákvæmni og innköllunar. Dragðu þetta víti frá F-meðalskorinu sem er reiknað í skrefi 2.
  4. Reiknaðu F-meðalstig fyrir stofnform (að draga úr orðum í grunn- eða rótarform) og samheiti fyrir einrit þar sem við á. Tengdu þetta saman við fyrri reiknaða F-meðalskor til að fá loka METEOR stig. METEOR skorið er á bilinu 0–1, þar sem 0 gefur til kynna ekkert líkt á milli myndaðrar samantektar og tilvísunaryfirlits, og 1 gefur til kynna fullkomna röðun. Venjulega falla samantektarstig á bilinu 0–0.6.

Takmarkanir

Þegar METEOR mæligildið er notað til að meta samantektarverkefni geta nokkrar áskoranir komið upp:

  • Merkingarfræðilegur margbreytileiki – Áhersla METEOR á merkingarlega líkindi getur átt erfitt með að fanga blæbrigðaríka merkingu og samhengi í flóknum samantektarverkefnum, sem getur hugsanlega leitt til ónákvæmni í mati.
  • Viðmiðunarbreytileiki – Breytileiki í tilvísunarsamantektum af mönnum getur haft áhrif á METEOR stig, vegna þess að munur á tilvísunarinnihaldi getur haft áhrif á mat á samantektum sem mynda vélar.
  • Málfræðilegur fjölbreytileiki – Skilvirkni METEOR getur verið mismunandi milli tungumála vegna tungumálabreytinga, setningafræðimunur og merkingarlegra blæbrigða, sem veldur áskorunum í samantektarmati á mörgum tungumálum.
  • Lengdarmisræmi – Að meta samantektir af mismunandi lengd getur verið krefjandi fyrir METEOR, vegna þess að misræmi í lengd samanborið við viðmiðunaryfirlitið getur leitt til refsinga eða ónákvæmni í mati.
  • Stilling á færibreytum – Það getur verið tímafrekt að fínstilla færibreytur METEOR fyrir mismunandi gagnasöfn og samantektarverkefni og krefjast vandlegrar stillingar til að tryggja að mælikvarðinn veiti nákvæmt mat.
  • Hlutdrægni í mati – Það er hætta á hlutdrægni í mati með METEOR ef það er ekki rétt stillt eða kvarðað fyrir tiltekin samantektarsvið eða verkefni. Þetta getur hugsanlega leitt til skekkrar niðurstöðu og haft áhrif á áreiðanleika matsferlisins.

Með því að vera meðvitaðir um þessar áskoranir og hafa þær í huga þegar METEOR er notað sem mælikvarði fyrir samantektarverkefni, geta rannsakendur og sérfræðingar flakkað um hugsanlegar takmarkanir og tekið upplýstari ákvarðanir í matsferli sínu.

Hvenær á að nota METEOR

METEOR er almennt notað til að meta sjálfkrafa gæði textasamantekta. Æskilegt er að nota METEOR sem matsmælikvarða þegar röð hugmynda, hugtaka eða eininga í samantektinni skiptir máli. METEOR íhugar röðina og passar n-grömm á milli myndaðrar samantektar og tilvísunaryfirlita. Það verðlaunar samantektir sem varðveita raðupplýsingar. Ólíkt mæligildum eins og ROUGE, sem treysta á skörun n-grömma við tilvísunarsamantektir, passar METEOR við stofna, samheiti og orðasambönd. METEOR virkar betur þegar það geta verið margar réttar leiðir til að draga saman upprunalega textann. METEOR inniheldur WordNet samheiti og stofntákn þegar n-grömm passa saman. Í stuttu máli, samantektir sem eru merkingarlega svipaðar en nota mismunandi orð eða orðasambönd munu samt skora vel. METEOR er með innbyggt víti fyrir samantektir með endurteknum n-grömmum. Þess vegna dregur það úr orði fyrir orð útdrátt eða skort á abstrakt. METEOR er góður kostur þegar merkingarleg líkindi, röð hugmynda og reiprennandi orðasambönd eru mikilvæg til að dæma samantektargæði. Það er síður viðeigandi fyrir verkefni þar sem aðeins orðafræðileg skörun við tilvísunaryfirlit skiptir máli.

BERTScore

Orðafræðilegar mælikvarðar á yfirborði eins og ROUGE og METEOR meta samantektarkerfi með því að bera saman orðaskörun milli samantektar umsækjenda og tilvísunaryfirlits. Hins vegar treysta þeir mikið á nákvæma strengjasamsvörun milli orða og orðasambanda. Þetta þýðir að þeir gætu saknað merkingarlegra líkinga milli orða og orðasambanda sem hafa mismunandi yfirborðsform en svipaða undirliggjandi merkingu. Með því að treysta eingöngu á yfirborðssamsvörun geta þessar mælingar vanmetið gæði kerfissamantekta sem nota samheiti eða umorða hugtök öðruvísi en tilvísunaryfirlit. Tvær samantektir gætu miðlað næstum því eins upplýsingum en fengið lágt yfirborðsstig vegna munar á orðaforða.

BERTScore er leið til að meta sjálfkrafa hversu góð samantekt er með því að bera hana saman við tilvísunaryfirlit skrifuð af manni. Það notar BERT, vinsæla NLP tækni, til að skilja merkingu og samhengi orða í samantekt umsækjanda og tilvísunaryfirliti. Nánar tiltekið lítur það á hvert orð eða tákn í yfirliti umsækjenda og finnur það orð sem líkist mest í tilvísunaryfirlitinu sem byggir á BERT innfellingum, sem eru vektormyndir fyrir merkingu og samhengi hvers orðs. Það mælir líkindin með því að nota kósínuslíkingu, sem segir til um hversu nálægt vigrarnir eru hver öðrum. Fyrir hvert orð í samantekt umsækjenda finnur það það orð sem er skyldast í tilvísunaryfirlitinu með því að nota skilning BERT á tungumáli. Það ber saman öll þessi orðalíkindi í heildaryfirlitinu til að fá heildareinkunn fyrir hversu merkingarlega lík samantekt umsækjanda er tilvísunaryfirlitinu. Því líkari orðum og merkingum sem BERT fangar, því hærra er BERTScore. Þetta gerir það kleift að meta sjálfkrafa gæði myndaðrar samantektar með því að bera það saman við mannlega tilvísun án þess að þurfa mannlegt mat í hvert skipti.

Til að útskýra þetta, ímyndaðu þér að þú sért með vélræna samantekt: „Hinn fljóti brúni refur hoppar yfir lata hundinn. Nú skulum við íhuga samantekt sem er gerð af mönnum: „Hratt brúnn refur hoppar yfir sofandi hund.

Reiknaðu BERTScore

Ljúktu við eftirfarandi skref til að reikna út BERTScore:

  1. BERTScore notar innfellingar í samhengi til að tákna hvert tákn í bæði frambjóðanda (vélagerð) og tilvísun (manngerð) setningum. Innfelling í samhengi er tegund orðaframsetningar í NLP sem fangar merkingu orðs út frá samhengi þess innan setningar eða texta. Ólíkt hefðbundnum innfellingum orða sem úthlutar föstum vektor á hvert orð, óháð samhengi þess, telja samhengisinnfellingar nærliggjandi orð búa til einstaka framsetningu fyrir hvert orð eftir því hvernig það er notað í tiltekinni setningu.
  2. Mælingin reiknar síðan líkindin á milli hvers tákns í umsóknarsetningunni með hverri táknmynd í tilvísunarsetningunni með því að nota kósínuslíkingu. Cosinuslíking hjálpar okkur að mæla hversu náskyld tvö gagnasöfn eru með því að einblína á stefnuna sem þau vísa í fjölvíddarrými, sem gerir það að dýrmætu tæki fyrir verkefni eins og leitarreiknirit, NLP og meðmælakerfi.
  3. Með því að bera saman samhengisinnfellingar og reikna líktunarstig fyrir öll tákn, býr BERTScore til yfirgripsmikið mat sem fangar merkingarfræðilegt mikilvægi og samhengi myndaðrar samantektar samanborið við manngerða tilvísun.
  4. Lokaúttak BERTScore gefur líkindiskor sem endurspeglar hversu vel vélræna samantektin samræmist viðmiðunaryfirlitinu hvað varðar merkingu og samhengi.

Í meginatriðum fer BERTScore lengra en hefðbundin mælikvarði með því að íhuga merkingarleg blæbrigði og samhengi setninga, og býður upp á flóknara mat sem endurspeglar mannlega dómgreind náið. Þessi háþróaða nálgun eykur nákvæmni og áreiðanleika við mat á samantektarverkefnum, sem gerir BERTScore að dýrmætu tæki við mat á textaframleiðslukerfum.

Takmarkanir:

Þrátt fyrir að BERTScore bjóði upp á umtalsverða kosti við mat á samantektarverkefnum, fylgja því líka ákveðnar takmarkanir sem þarf að hafa í huga:

  • Reiknistyrkur – BERTScore getur verið reikningsfrek vegna þess að hann treystir á fyrirfram þjálfuð tungumálalíkön eins og BERT. Þetta getur leitt til lengri matstíma, sérstaklega þegar unnið er úr miklu magni textagagna.
  • Háð fyrirfram þjálfuðum gerðum – Skilvirkni BERTScore er mjög háð gæðum og mikilvægi forþjálfaðs mállíkans sem notað er. Í atburðarásum þar sem forþjálfaða líkanið fangar ef til vill ekki blæbrigði textans, geta niðurstöður matsins haft áhrif á það.
  • sveigjanleika – Stærð BERTScore fyrir stór gagnasöfn eða rauntímaforrit getur verið krefjandi vegna reiknikrafna þess. Innleiðing BERTScore í framleiðsluumhverfi gæti þurft hagræðingaraðferðir til að veita skilvirkan árangur.
  • Sérhæfni léns – Frammistaða BERTScore getur verið mismunandi eftir mismunandi lénum eða sérhæfðum textategundum. Aðlögun mæligildisins að sérstökum lénum eða verkefnum gæti þurft fínstillingu eða lagfæringar til að framleiða nákvæmt mat.
  • Túlkanleiki – Þó að BERTScore veiti yfirgripsmikið mat byggt á innfellingum í samhengi, getur það verið flókið að túlka sérstakar ástæður að baki líkindaskorunum sem myndast fyrir hvern tákn og gæti þurft frekari greiningu.
  • Tilvísunarlaust mat – Þrátt fyrir að BERTScore dragi úr því að treysta á tilvísunarsamantektir til að meta, er ekki víst að þessi tilvísunarlausa nálgun nái að fullu upp alla þætti varðandi gæði samantektar, sérstaklega í atburðarásum þar sem tilvísanir úr mönnum eru nauðsynlegar til að meta mikilvægi og samræmi innihalds.

Að viðurkenna þessar takmarkanir getur hjálpað þér að taka upplýstar ákvarðanir þegar þú notar BERTScore sem mælikvarða til að meta samantektarverkefni, sem gefur yfirvegaðan skilning á styrkleikum þess og takmörkunum.

Hvenær á að nota BERTScore

BERTScore getur metið gæði textasamantektar með því að bera saman myndaða samantekt við tilvísunaryfirlit. Það notar tauganet eins og BERT til að mæla merkingarlega líkindi umfram nákvæma samsvörun orða eða orðasambanda. Þetta gerir BERTScore mjög gagnlegt þegar merkingartryggð sem varðveitir fulla merkingu og innihald er mikilvægt fyrir samantektarverkefnið þitt. BERTScore mun gefa hærri einkunnir fyrir samantektir sem miðla sömu upplýsingum og tilvísunaryfirlitið, jafnvel þó að þau noti mismunandi orð og setningaskipan. Niðurstaðan er sú að BERTScore er tilvalið fyrir samantektarverkefni þar sem mikilvægt er að viðhalda fullri merkingarfræðilegri merkingu, ekki bara leitarorðum eða efni. Háþróuð taugaeinkunn gerir honum kleift að bera saman merkingu umfram orðasamsvörun á yfirborði. Þetta gerir það hentugt fyrir tilvik þar sem lúmskur munur á orðalagi getur verulega breytt heildarmerkingu og afleiðingum. Sérstaklega BERTScore skarar fram úr í að fanga merkingarlega líkindi, sem er mikilvægt til að meta gæði óhlutbundinna samantekta eins og þær sem eru framleiddar með Retrieval Augmented Generation (RAG) líkönum.

Líkanmatsrammar

Líkanamatsrammar eru nauðsynlegir til að meta nákvæmlega árangur ýmissa samantektarlíkana. Þessir rammar eru mikilvægir við að bera saman líkön, veita samræmi á milli myndaðra samantekta og heimildarefnis og benda á annmarka á matsaðferðum. Með því að gera ítarlegar úttektir og samræmda viðmiðun knýja þessi rammi áfram rannsóknum á textasamantekt með því að mæla fyrir staðlaðum matsaðferðum og gera margþættan samanburð á gerðum líkana.

Í AWS er FMEval bókasafn innan Amazon SageMaker Clarify hagræða mati og vali á grunnlíkönum (FM) fyrir verkefni eins og textasamantekt, svörun spurninga og flokkun. Það gerir þér kleift að meta FM út frá mælingum eins og nákvæmni, styrkleika, sköpunargáfu, hlutdrægni og eiturhrifum, sem styður bæði sjálfvirkt og mannlegt mat fyrir LLM. Með UI-undirstaða eða forritunarfræðilegu mati býr FMEval til ítarlegar skýrslur með sjónrænum myndum til að mæla áhættu líkana eins og ónákvæmni, eiturhrif eða hlutdrægni, sem hjálpar fyrirtækjum að samræma sig við ábyrgar kynslóðar gervigreindarleiðbeiningar. Í þessum hluta sýnum við hvernig á að nota FMEval bókasafnið.

Metið Claude v2 um nákvæmni samantektar með því að nota Amazon Bedrock

Eftirfarandi kóðabútur er dæmi um hvernig á að hafa samskipti við Anthropic Claude líkanið með því að nota Python kóða:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

Í einföldu máli framkvæmir þessi kóði eftirfarandi aðgerðir:

  1. Flytja inn nauðsynleg bókasöfn, þ.m.t json, til að vinna með JSON gögn.
  2. Skilgreindu módelauðkennið sem anthropic.claude-v2 og stilltu innihaldsgerðina fyrir beiðnina.
  3. Búa til prompt_data breytu sem byggir upp inntaksgögn fyrir Claude líkanið. Í þessu tilviki spyr það spurningarinnar „Hver ​​er Barack Obama? og býst við viðbrögðum frá líkaninu.
  4. Búðu til JSON hlut sem heitir líkami sem inniheldur hvetjagögnin og tilgreindu viðbótarfæribreytur eins og hámarksfjölda tákna til að búa til.
  5. Ákallaðu Claude líkanið með því að nota bedrock_runtime.invoke_model með skilgreindum breytum.
  6. Skoðaðu svarið úr líkaninu, dragðu út útfyllinguna (myndaður texti) og prentaðu hann út.

Gakktu úr skugga um að AWS auðkenni og aðgangsstjórnun (IAM) hlutverk sem tengist Amazon SageMaker stúdíó notendasnið hefur aðgang að Amazon Berggrunnur módel sem verið er að kalla fram. Vísa til Dæmi um sjálfsmyndarstefnu fyrir Amazon Bedrock til að fá leiðbeiningar um bestu starfsvenjur og dæmi um stefnu sem byggir á sjálfsmynd fyrir Amazon Bedrock.

Notkun FMEval bókasafnsins til að meta samantekna framleiðslu frá Claude

Við notum eftirfarandi kóða til að meta samantekna framleiðslu:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

Í kóðabútinu á undan, til að meta textasamantekt með því að nota FMEval bókasafnið, ljúkum við eftirfarandi skrefum:

  1. Búa til ModelRunner til að framkvæma ákall á LLM þinn. FMEval bókasafnið veitir innbyggðan stuðning fyrir Amazon SageMaker endapunktar og Amazon SageMaker JumpStart LLM. Þú getur líka framlengt ModelRunner viðmót fyrir hvaða LLM sem er hýst hvar sem er.
  2. Notkun studd eval_algorithms eins og eiturhrif, samantekt, nákvæmni, merkingarfræði og styrkleika, byggt á matsþörfum þínum.
  3. Sérsníddu færibreytur matsstillingar fyrir þitt sérstaka notkunartilvik.
  4. Notaðu matsreikniritið með annað hvort innbyggðum eða sérsniðnum gagnasöfnum til að meta LLM líkanið þitt. Gagnapakkningin sem notuð er í þessu tilfelli er fengin úr eftirfarandi GitHub endurbót.

Skoðaðu handbók þróunaraðila og dæmi fyrir nákvæma notkun á matsreikniritum.

Eftirfarandi tafla tekur saman niðurstöður matsins.

líkan _inntak model_output target_output Hvetja skora meteor_score rouge_score bert_score
John Edward
0 Bates, áður frá Spalding, Linco…..
Ég get ekki fullyrt neitt um það
dóma, eins og…
Fyrrum
Lögreglumaður í Lincolnshire bar…
Maðurinn: Jón
Edward Bates, áður hjá Spalding…
[{'nafn': 'loftsteinn', 'gildi':
0.101010101010101 ...
0.10101 0 0.557155
23 október 2015
Síðast uppfært kl
17:44 BST|nIt'…
Hér eru nokkur lykilatriði um fellibyl/trop.. Fellibylurinn Patricia hefur verið metinn sem flokkur… Maður: 23
október 2015 Síðast uppfært kl. 17:44
B ...
[{'nafn': loftsteinn', "gildi":
0.102339181286549 ..
0.102339 0.018265 0.441421
Ferrari virtist í aðstöðu til að skora á… Hér eru lykilatriðin úr greininni: ni... Lewis Hamilton fór í stangarstöðu á… Mannlegur: Ferrari virtist í aðstöðu til að ögra... [{'nafn': 'loftsteinn', 'gildi':
0.322543352601156 ...
0.322543 0.078212 0.606487
Bath-born leikmaðurinn, 28, hefur náð 36
útlit…
Allt í lagi, leyfðu mér að draga saman lykilatriðin:/nin- E….. Newport Gwent Dragons númer áttunda Ed Jackson Mannlegur: Bath-born leikmaðurinn, 28, hefur gert 36 a… [{'nafn': 'loftsteinn', 'gildi':
0105740181268882 ...
0.10574 0.012987 0.539488
Veikleikar í því hvernig mýs skiptust á gögnum við c... Hér eru lykilatriðin sem ég tók saman úr a… Tölvuþrjótar gætu fengið aðgang að heimili og Mannlegur:
Veikleikar í
sverarmýs skiptu um gögn
[{'nafn': 'loftsteinn', 'gildi':
0.201048289433848 ...
0.201048 0.021858 0.526947

Skoðaðu sýnishornið minnisbók fyrir frekari upplýsingar um samantektarmatið sem við ræddum í þessari færslu.

Niðurstaða

ROUGE, METEOR og BERTScore mæla öll gæði vélrænna samantekta, en einblína á mismunandi þætti eins og orðafræðilega skörun, reiprennandi eða merkingarlega líkt. Gakktu úr skugga um að velja mælistikuna sem er í takt við það sem skilgreinir „gott“ fyrir tiltekið samantektartilvik þitt. Þú getur líka notað blöndu af mæligildum. Þetta veitir víðtækara mat og ver gegn hugsanlegum veikleikum hvers kyns mælikvarða. Með réttum mælingum geturðu endurtekið endurtekið samantektina þína til að uppfylla hvaða hugmynd um nákvæmni skiptir mestu máli.

Að auki er FM og LLM mat nauðsynlegt til að geta framleitt þessi líkön í stærðargráðu. Með FMEval færðu mikið sett af innbyggðum reikniritum í mörgum NLP verkefnum, en einnig stigstærð og sveigjanlegt tól fyrir stórfellt mat á þínum eigin líkönum, gagnasöfnum og reikniritum. Til að stækka geturðu notað þennan pakka í LLMOps leiðslum þínum til meta margar gerðir. Til að læra meira um FMEval í AWS og hvernig á að nota það á áhrifaríkan hátt, vísa til Notaðu SageMaker Clarify til að meta stór mállíkön. Fyrir frekari skilning og innsýn í getu SageMaker Clarify við mat á FM, sjá Amazon SageMaker Clarify gerir það auðveldara að meta og velja grunnlíkön.


Um höfunda


Dinesh Kumar Subramani er Senior Solutions Architect með aðsetur í Edinborg, Skotlandi. Hann sérhæfir sig í gervigreind og vélanámi og er meðlimur í tæknisamfélagi hjá Amazon. Dinesh vinnur náið með viðskiptavinum breska ríkisvaldsins til að leysa vandamál sín með því að nota AWS þjónustu. Utan vinnunnar nýtur Dinesh að eyða gæðatíma með fjölskyldu sinni, tefla og skoða fjölbreytt úrval tónlistar.


Pranav Sharma er leiðtogi AWS sem knýr tækni og umbreytingarverkefni í viðskiptum í Evrópu, Miðausturlöndum og Afríku. Hann hefur reynslu af því að hanna og reka gervigreindarkerfi í framleiðslu sem styðja milljónir viðskiptavina og skila viðskiptalegum árangri. Hann hefur gegnt forystuhlutverkum í tækni og fólki fyrir alþjóðlegar fjármálaþjónustustofnanir. Utan vinnu finnst honum gaman að lesa, spila tennis með syni sínum og horfa á kvikmyndir.

blettur_img

Nýjasta upplýsingaöflun

blettur_img

Spjallaðu við okkur

Sæll! Hvernig get ég aðstoðað þig?