Generatív adatintelligencia

Értékelje az LLM-ek szövegösszegzési képességeit az AWS-vel kapcsolatos jobb döntéshozatal érdekében | Amazon webszolgáltatások

Találka:

A különböző iparágakban működő szervezetek automatikus szövegösszegzést használnak a hatalmas mennyiségű információ hatékonyabb kezelése és jobb döntések meghozatala érdekében. A pénzügyi szektorban a befektetési bankok a bevételi jelentéseket kulcsfontosságú adatokra sűrítik, hogy gyorsan elemezzék a negyedéves teljesítményt. A médiavállalatok összegzést használnak a hírek és a közösségi média figyelésére, így az újságírók gyorsan írhatnak történeteket a fejlődő témákról. A kormányzati szervek hosszadalmas szakpolitikai dokumentumokat és jelentéseket foglalnak össze, hogy segítsenek a döntéshozóknak a célok stratégiájában és rangsorolásában.

A hosszú, összetett dokumentumok tömörített változatainak létrehozásával az összegzési technológia lehetővé teszi a felhasználók számára, hogy a legszembetűnőbb tartalomra összpontosítsanak. Ez a kritikus információk jobb megértéséhez és megőrzéséhez vezet. Az időmegtakarítás lehetővé teszi az érdekeltek számára, hogy rövidebb idő alatt több anyagot tekintsenek át, így szélesebb perspektívát nyernek. A továbbfejlesztett megértés és a több szintetizált betekintés révén a szervezetek megalapozottabb stratégiai döntéseket hozhatnak, felgyorsíthatják a kutatást, javíthatják a termelékenységet és növelhetik hatásukat. A fejlett összegzési képességek átalakító ereje csak tovább fog növekedni, ahogy egyre több iparág veszi át a mesterséges intelligenciát (AI) a túláradó információáramok hasznosítására.

Ebben a bejegyzésben az összegzés pontosságának objektív értékelésére szolgáló vezető megközelítéseket vizsgáljuk meg, beleértve a ROUGE mérőszámokat, a METEOR-t és a BERTScore-t. E technikák erősségeinek és gyengeségeinek megértése segíthet a kiválasztási és fejlesztési erőfeszítések irányvonalában. Ennek a bejegyzésnek az általános célja, hogy megszüntesse az összefoglaló értékelés misztifikációját, hogy segítsen a csapatoknak jobban összehasonlítani a teljesítményt ezen a kritikus képességen, miközben az érték maximalizálására törekszenek.

Az összegzés típusai

Az összegzés általában két fő típusra osztható: kivonatoló összegzésre és absztrakt összegzésre. Mindkét megközelítés célja a hosszú szövegrészek rövidebb formákba sűrítése, megragadva az eredeti tartalom legkritikusabb információit vagy lényegét, de ezt alapvetően eltérő módon teszik.

A kivonatoló összefoglalás magában foglalja a kulcskifejezések, mondatok vagy szegmensek azonosítását és kinyerését az eredeti szövegből anélkül, hogy megváltoztatná azokat. A rendszer kiválasztja a szöveg azon részeit, amelyek a leginkább informatívak vagy az egészre nézve reprezentatívak. A kivonatoló összefoglalás akkor hasznos, ha a pontosság kritikus, és az összefoglalónak az eredeti szövegből származó pontos információt kell tükröznie. Ezek olyan használati esetek lehetnek, mint például a használati feltételekben meghatározott jogi feltételek, kötelezettségek és jogok kiemelése. A kivonatoló összegzés legáltalánosabb technikái a kifejezés gyakoriság-inverz dokumentumgyakorisága (TF-IDF), a mondatpontozás, a szöveges rangsorolási algoritmus és a felügyelt gépi tanulás (ML).

Az absztrakt összefoglalás egy lépéssel tovább megy új kifejezések és mondatok generálásával, amelyek nem szerepeltek az eredeti szövegben, lényegében átfogalmazva és sűrítve az eredeti tartalmat. Ez a megközelítés a szöveg mélyebb megértését igényli, mivel az AI-nak értelmeznie kell a jelentést, majd új, tömör formában kell kifejeznie. A nagy nyelvi modellek (LLM-ek) a legalkalmasabbak absztrakt összegzésre, mivel a transzformátormodellek figyelemmechanizmusokat használnak, hogy a bemeneti szöveg releváns részeire összpontosítsanak az összefoglalások generálásakor. A figyelemmechanizmus lehetővé teszi a modell számára, hogy különböző súlyokat rendeljen a beviteli szekvencia különböző szavaihoz vagy tokenjeihez, lehetővé téve a hosszú távú függőségek és a kontextus szempontjából releváns információk rögzítését.

E két elsődleges típus mellett léteznek hibrid megközelítések, amelyek kombinálják az extraktív és az absztrakciós módszereket. Ezek a megközelítések kezdődhetnek a kivonatoló összegzéssel a legfontosabb tartalom azonosítása érdekében, majd absztrakciós technikákat alkalmazhatnak a tartalom átírására vagy sűrítésére egy gördülékeny összefoglalóba.

A kihívás

Az összefoglaló minőség értékelésére szolgáló optimális módszer megtalálása továbbra is nyitott kihívás. Mivel a szervezetek egyre inkább az automatikus szövegösszegzésre támaszkodnak a kulcsfontosságú információk dokumentumokból való lepárlása érdekében, egyre nő az igény az összegzés pontosságának mérésére szolgáló szabványosított technikák iránt. Ideális esetben ezek az értékelési mutatók számszerűsítenék, hogy a géppel generált összefoglalók milyen jól vonják ki a forrásszövegekből a legszembetűnőbb tartalmat, és milyen koherens összefoglalókat mutatnak be, amelyek tükrözik az eredeti jelentést és kontextust.

A szövegösszegzés robusztus értékelési módszereinek kidolgozása azonban nehézségeket okoz:

  • Az összehasonlításra használt, ember által készített referenciaösszefoglalók gyakran nagy változatosságot mutatnak a fontosság szubjektív meghatározása alapján.
  • Az összefoglaló minőség olyan árnyalt szempontjait, mint a folyékonyság, olvashatóság és koherencia, nehéz programozottan számszerűsíteni.
  • A statisztikai algoritmusoktól a neurális hálózatokig nagy eltérések mutatkoznak az összesítési módszerek között, ami megnehezíti a közvetlen összehasonlítást.

Visszahívás-orientált altanulmány a lényegi értékeléshez (ROUGE)

ROUGE mérőszámok, mint például a ROUGE-N és a ROUGE-L, döntő szerepet játszanak a géppel generált összefoglalók minőségének értékelésében az ember által írt referenciaösszefoglalókhoz képest. Ezek a mérőszámok a gép által generált és az ember által készített összefoglalók tartalma közötti átfedés felmérésére összpontosítanak az n-gramok elemzésével, amelyek szavak vagy tokenek csoportjai. Például a ROUGE-1 az egyes szavak (unigramok) egyezését értékeli, míg a ROUGE-2 a szópárokat (bigramok) veszi figyelembe. Ezenkívül a ROUGE-N értékeli a szavak leghosszabb közös részsorozatát a két szöveg között, lehetővé téve a szórend rugalmasságát.

Ennek illusztrálására vegye figyelembe a következő példákat:

  • ROGUE-1 mérőszám – A ROUGE-1 kiértékeli az unigramok (egyszavas) átfedését a generált összefoglaló és a referenciaösszegzés között. Ha például egy referenciaösszefoglaló tartalmazza: „A gyors barna róka ugrik”, a generált összefoglaló pedig „A barna róka gyorsan ugrik”, a ROUGE-1 mérőszáma a „barna”, „róka” és „ugrik” kifejezéseket átfedésnek tekinti. unigramok. A ROUGE-1 az egyes szavak összefoglalásokban való jelenlétére összpontosít, és azt méri, hogy a generált összefoglaló mennyire rögzíti a referenciaösszegzés kulcsszavait.
  • ROGUE-2 mérőszám – A ROUGE-2 felméri a bigramok (szomszédos szópárok) átfedését a generált összefoglaló és a referenciaösszegzés között. Például, ha a referenciaösszegzésben a következő szerepel: „A macska alszik”, és a generált összefoglalóban ez olvasható: „Egy macska alszik”, a ROUGE-2 a „macska alszik” és „alszik” kifejezést egymást átfedő nagybetűként azonosítja. A ROUGE-2 betekintést nyújt abba, hogy a generált összefoglaló mennyire tartja fenn a szópárok sorrendjét és kontextusát a referenciaösszefoglalóhoz képest.
  • ROUGE-N mérőszám – A ROUGE-N egy általánosított alak, ahol N bármilyen számot jelent, lehetővé téve az n-gramok (N szóból álló sorozatok) alapján történő kiértékelést. N=3 figyelembevételével, ha a referenciaösszegzés szerint „A nap fényesen süt”, a generált összefoglaló pedig „Fényesen süt a nap”, a ROUGE-3 a „fényesen süt a nap” kifejezést ismeri fel megfelelő trigramként. A ROUGE-N rugalmasságot kínál a különböző hosszúságú szósorozatok alapján összefoglalók értékeléséhez, így átfogóbb értékelést biztosít a tartalmi átfedésekről.

Ezek a példák szemléltetik, hogy a ROUGE-1, ROUGE-2 és ROUGE-N metrikák hogyan működnek az automatikus összegzési vagy gépi fordítási feladatok kiértékelésében azáltal, hogy összehasonlítják a generált összefoglalókat a szósorozatok különböző szintjein alapuló referencia-összefoglalókkal.

Számítsa ki a ROUGE-N pontszámot

A ROUGE-N pontszám kiszámításához a következő lépéseket használhatja:

  1. Tokenizálja a generált összefoglalót és a referencia-összefoglalót egyedi szavakká vagy tokenekké olyan alapvető tokenizációs módszerekkel, mint a szóközökkel történő felosztás vagy a természetes nyelvi feldolgozás (NLP) könyvtárak.
  2. Generáljon n-gramokat (N szó összefüggő sorozatát) mind a generált összegzésből, mind a referenciaösszegzésből.
  3. Számolja meg az átfedő n-gramok számát a generált összegzés és a referenciaösszegzés között.
  4. Számítsa ki a pontosságot, a visszahívást és az F1 pontszámot:
    • Pontosság – Az átfedő n-gramok száma osztva a generált összesítésben szereplő n-gramok teljes számával.
    • visszahívás – Az átfedő n-grammok száma osztva a referencia-összefoglaló n-gramjainak teljes számával.
    • F1 pontszám – A pontosság és a visszahívás harmonikus átlaga, a következőképpen számítva: (2 * pontosság * visszahívás) / (pontosság + visszahívás).
  5. A pontosság, a felidézés és az F1 pontszám kiszámításából kapott összesített F1 pontszámot az adatkészlet minden egyes sorára a ROUGE-N pontszámnak tekintjük.

korlátozások

A ROGUE a következő korlátozásokkal rendelkezik:

  • Szűk fókusz a lexikális átfedésre – A ROUGE mögött meghúzódó alapötlet az, hogy a rendszer által generált összefoglalót összevegyük egy referenciakészlettel vagy az ember által készített összefoglalókkal, és mérjük a köztük lévő lexikális átfedést. Ez azt jelenti, hogy a ROUGE nagyon szűken összpontosít a szószintű hasonlóságra. Valójában nem értékeli az összefoglaló szemantikai jelentését, koherenciáját vagy olvashatóságát. Egy rendszer magas ROUGE pontszámot érhet el, ha egyszerűen szóról szóra kivonja a mondatokat az eredeti szövegből anélkül, hogy koherens vagy tömör összefoglalást generálna.
  • Érzéketlenség az átfogalmazásra – Mivel a ROUGE a lexikális egyezésre támaszkodik, nem képes felismerni a szavak és kifejezések közötti szemantikai egyenértékűséget. Ezért az átfogalmazás és a szinonimák használata gyakran alacsonyabb ROUGE-pontszámokhoz vezet, még akkor is, ha a jelentést megőrzik. Ez hátrányosan érinti azokat a rendszereket, amelyek absztrakt módon átfogalmazzák vagy összefoglalják.
  • A szemantikai megértés hiánya – A ROUGE nem értékeli, hogy a rendszer valóban megértette-e az eredeti szövegben szereplő jelentéseket és fogalmakat. Az összefoglaló nagy lexikális átfedést eredményezhet a hivatkozásokkal, miközben hiányzik a főbb gondolatok, vagy tartalmazhat ténybeli következetlenségeket. A ROUGE nem azonosítja ezeket a problémákat.

Mikor kell használni a ROUGE-ot?

A ROUGE egyszerűen és gyorsan kiszámítható. Használja kiindulási alapként vagy viszonyítási alapként a tartalom kiválasztásával kapcsolatos összefoglaló minőséghez. A ROUGE metrikákat a leghatékonyabban olyan forgatókönyvekben alkalmazzák, amelyek absztrakt összegzési feladatokat, automatikus összegzésértékelést, LLM-ek értékelését és a különböző összegzési megközelítések összehasonlító elemzését foglalják magukban. A ROUGE mérőszámok használatával ezekben az összefüggésekben az érdekelt felek mennyiségileg értékelhetik az összefoglaló generálási folyamatok minőségét és hatékonyságát.

Az explicit sorrendű fordítás értékelésének mérőszáma (METEOR)

Az összefoglaló rendszerek értékelésének egyik legnagyobb kihívása annak felmérése, hogy a generált összefoglaló logikailag mennyire megy, ahelyett, hogy csak a forrásszövegből választanák ki a releváns szavakat és kifejezéseket. A releváns kulcsszavak és mondatok egyszerű kinyerése nem feltétlenül eredményez koherens és összefüggő összefoglalót. Az összefoglalónak zökkenőmentesen kell folynia, és logikusan kell összekapcsolnia az ötleteket, még akkor is, ha azok nem az eredeti dokumentum sorrendjében jelennek meg.

Az egyeztetés rugalmassága a szavak gyökér- vagy alapformájukra való redukálásával (például a tőszó után az olyan szavak, mint a „fut”, „fut” és „futott”, mind „futnak”) és a szinonimák azt jelentik, METEOR jobban korrelál az összefoglaló minőségű emberi ítéletekkel. Meg tudja állapítani, hogy a fontos tartalom megmarad-e, még akkor is, ha a megfogalmazás eltér. Ez kulcsfontosságú előnye az n-gram alapú metrikákhoz, például a ROUGE-hoz képest, amelyek csak a pontos token egyezéseket keresik. A METEOR magasabb pontszámot ad azokra az összefoglalókra is, amelyek a referencia legszembetűnőbb tartalmára összpontosítanak. Alacsonyabb pontszámot kapnak az ismétlődő vagy irreleváns információk. Ez jól illeszkedik az összefoglalás céljához, hogy csak a legfontosabb tartalom maradjon meg. A METEOR egy szemantikailag értelmes mérőszám, amely leküzdheti az n-gram egyezés bizonyos korlátait a szövegösszegzés kiértékelésében. A szótő és szinonimák beépítése lehetővé teszi az információk átfedésének és a tartalom pontosságának jobb értékelését.

Ennek illusztrálására vegye figyelembe a következő példákat:

Referencia összefoglaló: A levelek ősszel hullanak.

Generált összefoglaló 1: A levelek ősszel lehullanak.

Generált összefoglaló 2: Nyáron zöld levelek.

A hivatkozás és a generált összefoglaló 1 között megegyező szavak kiemelve:

Referencia összefoglaló: Levelek esik ősz folyamán.

Generált összefoglaló 1: Levelek beugrani esik.

Annak ellenére, hogy az „ősz” és az „ősz” különböző jelzők, a METEOR szinonimákként ismeri fel őket szinonimaillesztése révén. A „leesés” és a „zuhanás” száras egyezésként azonosítható. A generált 2. összefoglaló esetében a „Levelek” mellett nincs egyezés a referencia-összefoglalóval, így ez az összefoglaló sokkal alacsonyabb METEOR-pontszámot kapna. Minél több szemantikailag értelmes egyezés van, annál magasabb a METEOR pontszám. Ez lehetővé teszi a METEOR számára, hogy jobban értékelje az összefoglalók tartalmát és pontosságát, mint az egyszerű n-gram egyezés.

Számítsa ki a METEOR pontszámot

A METEOR pontszám kiszámításához kövesse az alábbi lépéseket:

  1. Tokenizálja a generált összefoglalót és a referencia-összefoglalót egyedi szavakká vagy tokenekké olyan alapvető tokenizációs módszerekkel, mint a szóközökkel történő felosztás vagy az NLP-könyvtárak.
  2. Számítsa ki az unigramos pontosságot, a visszahívást és az F-átlagértéket, így nagyobb súlyt adva az előhívásnak, mint a pontosságnak.
  3. Alkalmazzon büntetést a pontos egyezésekért, nehogy túlhangsúlyozza őket. A büntetés kiválasztása az adatkészlet jellemzői, a feladatkövetelmények, valamint a pontosság és a visszahívás közötti egyensúly alapján történik. Vonja le ezt a büntetést a 2. lépésben kiszámított F-átlagértékből.
  4. Számítsa ki az F-középpontszámot a töves alakokra (a szavak alap- vagy gyökérformájára redukálva), és adott esetben az unigramok szinonimája. Összesítve ezt a korábban számított F-átlag pontszámmal, hogy megkapja a végső METEOR pontszámot. A METEOR pontszám 0 és 1 között mozog, ahol a 0 azt jelzi, hogy nincs hasonlóság a generált összefoglaló és a referenciaösszegzés között, az 1 pedig a tökéletes igazodást. Az összegzési pontszámok általában 0–0.6 közé esnek.

korlátozások

Ha a METEOR mérőszámot összegzési feladatok értékelésére alkalmazzuk, több kihívás is felmerülhet:

  • Szemantikai komplexitás – A METEOR szemantikai hasonlóságra helyezett hangsúlya nehezen tudja megragadni az árnyalt jelentéseket és kontextust az összetett összegzési feladatok során, ami potenciálisan pontatlanságokhoz vezethet az értékelésben.
  • Referencia variabilitás – Az ember által generált referenciaösszegzések változatossága hatással lehet a METEOR pontszámokra, mivel a referenciatartalom különbségei hatással lehetnek a géppel generált összefoglalók értékelésére.
  • A nyelvi sokféleség – A METEOR hatékonysága nyelvenként eltérő lehet a nyelvi eltérések, a szintaktikai különbségek és a szemantikai árnyalatok miatt, ami kihívást jelent a többnyelvű összefoglaló értékeléseknél.
  • Hosszbeli eltérés – A változó hosszúságú összesítések kiértékelése kihívást jelenthet a METEOR számára, mert a referenciaösszesítéshez képesti terjedelmi eltérések szankciókat vagy pontatlanságokat eredményezhetnek az értékelésben.
  • Paraméter hangolás – A METEOR paramétereinek optimalizálása különböző adatkészletekhez és összegzési feladatokhoz időigényes lehet, és gondos hangolást igényel, hogy a mérőszám pontos értékelést adjon.
  • Értékelési torzítás – Fennáll az értékelési torzítás kockázata a METEOR esetén, ha nincs megfelelően beállítva vagy kalibrálva meghatározott összegzési tartományokhoz vagy feladatokhoz. Ez potenciálisan torz eredményekhez vezethet, és befolyásolhatja az értékelési folyamat megbízhatóságát.

Ha tudatában vannak ezeknek a kihívásoknak, és figyelembe veszik őket, amikor a METEOR-t összegzési feladatok mérőszámaként használják, a kutatók és a gyakorlati szakemberek eligazodhatnak a lehetséges korlátok között, és megalapozottabb döntéseket hozhatnak értékelési folyamataik során.

Mikor kell használni a METEOR-t?

A METEOR-t általában a szöveges összefoglalók minőségének automatikus értékelésére használják. Célszerű a METEOR-t értékelési mérőszámként használni, ha az ötletek, fogalmak vagy entitások sorrendje az összefoglalóban számít. A METEOR figyelembe veszi a sorrendet, és n-grammokat egyeztet a generált összefoglaló és a referenciaösszegzés között. Jutalmazza a szekvenciális információkat megőrző összefoglalókat. Ellentétben az olyan mérőszámokkal, mint a ROUGE, amelyek az n-grammok és a referenciaösszegzések átfedésére támaszkodnak, a METEOR tőszavakat, szinonimákat és parafrázisokat egyeztet. A METEOR jobban működik, ha többféleképpen is össze lehet foglalni az eredeti szöveget. A METEOR WordNet szinonimákat és törzsű tokeneket tartalmaz az n-gramok egyeztetésekor. Röviden, azok az összefoglalók, amelyek szemantikailag hasonlóak, de eltérő szavakat vagy kifejezéseket használnak, továbbra is jó pontszámot kapnak. A METEOR beépített büntetést tartalmaz az ismétlődő n-grammokat tartalmazó összefoglalókért. Ezért hátráltatja a szóról szóra való kivonást vagy az absztrakció hiányát. A METEOR akkor jó választás, ha a szemantikai hasonlóság, az ötletek sorrendje és a gördülékeny megfogalmazás fontos az összefoglaló minőségének megítéléséhez. Kevésbé alkalmas olyan feladatokra, ahol csak a lexikális átfedés számít a referenciaösszefoglalókkal.

BERTScore

A felszíni szintű lexikális mérőszámok, mint például a ROUGE és a METEOR, úgy értékelik az összefoglaló rendszereket, hogy összehasonlítják a jelölt összefoglaló és a referenciaösszegzés közötti szóátfedést. Azonban nagymértékben támaszkodnak a szavak és kifejezések pontos karakterlánc-egyezésére. Ez azt jelenti, hogy elmulaszthatják a szemantikai hasonlóságokat a különböző felületi formájú, de hasonló mögöttes jelentésű szavak és kifejezések között. Ha csak a felületi egyezésre támaszkodik, ezek a mérőszámok alábecsülhetik azoknak a rendszerösszefoglalóknak a minőségét, amelyek a referenciaösszegzésektől eltérően használnak szinonim szavakat vagy parafrázis fogalmakat. Két összefoglaló közel azonos információt közölhet, de a szókincsbeli különbségek miatt alacsony felületi pontszámot kap.

BERTScore egy módja annak, hogy automatikusan értékelje, mennyire jó egy összefoglaló, összehasonlítva azt egy ember által írt referenciaösszefoglalóval. A BERT-et, egy népszerű NLP-technikát használja a jelölt összefoglaló és referenciaösszefoglaló szavak jelentésének és kontextusának megértéséhez. Pontosabban, a jelölt összefoglalójában minden egyes szót vagy jelzőt megvizsgál, és megtalálja a leginkább hasonló szót a referenciaösszefoglalóban a BERT beágyazásai alapján, amelyek az egyes szavak jelentésének és kontextusának vektoros reprezentációi. A hasonlóságot a koszinusz hasonlósággal méri, amely megmondja, hogy a vektorok milyen közel vannak egymáshoz. A jelölt összefoglaló minden egyes szavánál megtalálja a leginkább kapcsolódó szót a referenciaösszefoglalóban a BERT nyelvértelmezése alapján. Összehasonlítja ezeket a szóhasonlóságokat a teljes összefoglalóban, hogy átfogó pontszámot kapjon arról, hogy a jelölt összefoglaló szemantikailag mennyire hasonlít a referenciaösszefoglalóhoz. Minél hasonlóbbak a BERT által rögzített szavak és jelentések, annál magasabb a BERTScore. Ez lehetővé teszi, hogy automatikusan értékelje a generált összefoglaló minőségét azáltal, hogy emberi referenciával hasonlítja össze anélkül, hogy minden alkalommal emberi értékelésre lenne szüksége.

Ennek illusztrálására képzelje el, hogy van egy gép által generált összefoglalója: „A gyors barna róka átugrik a lusta kutyán.” Most pedig vegyünk egy ember által készített referenciaösszefoglalót: „Egy gyors barna róka átugrik az alvó szemfogon.”

Számítsa ki a BERTScore-t

A BERTScore kiszámításához hajtsa végre a következő lépéseket:

  1. A BERTScore kontextuális beágyazásokat használ az egyes token megjelenítésére mind a jelölt (gép által generált), mind a referencia (ember által létrehozott) mondatokban. A kontextuális beágyazás az NLP szóábrázolásának egy fajtája, amely egy szó jelentését a mondaton vagy szövegen belüli kontextusa alapján rögzíti. Ellentétben a hagyományos szóbeágyazásokkal, amelyek minden szóhoz fix vektort rendelnek, függetlenül a kontextustól, a kontextuális beágyazások úgy tekintik a környező szavakat, hogy egyedi reprezentációt generáljanak minden egyes szóhoz, attól függően, hogyan használják az adott mondatban.
  2. A metrika ezután kiszámítja a hasonlóságot a jelölt mondatban lévő egyes tokenek és a referenciamondatban lévő egyes tokenek között, a koszinusz hasonlóság használatával. A koszinusz-hasonlóság segít számszerűsíteni, hogy két adathalmaz mennyire szorosan kapcsolódik egymáshoz azáltal, hogy a többdimenziós térben mutatott irányra összpontosítunk, így értékes eszközzé válik olyan feladatokhoz, mint a keresési algoritmusok, az NLP és az ajánlási rendszerek.
  3. A kontextuális beágyazások összehasonlításával és az összes token hasonlósági pontszámának kiszámításával a BERTScore átfogó értékelést készít, amely rögzíti a generált összefoglaló szemantikai relevanciáját és kontextusát az ember által készített referenciához képest.
  4. A végső BERTScore kimenet hasonlósági pontszámot ad, amely azt tükrözi, hogy a gép által generált összefoglaló mennyire illeszkedik a referenciaösszefoglalóhoz jelentését és kontextusát tekintve.

Lényegében a BERTScore túllép a hagyományos mérőszámokon azáltal, hogy figyelembe veszi a mondatok szemantikai árnyalatait és kontextusát, és egy kifinomultabb értékelést kínál, amely szorosan tükrözi az emberi ítélőképességet. Ez a fejlett megközelítés növeli az összegzési feladatok kiértékelésének pontosságát és megbízhatóságát, így a BERTScore értékes eszközzé válik a szöveggeneráló rendszerek értékelésében.

Korlátozások:

Bár a BERTScore jelentős előnyöket kínál az összegzési feladatok értékelésében, bizonyos korlátozásokkal is jár, amelyeket figyelembe kell venni:

  • Számítási intenzitás – A BERTScore számításigényes lehet, mivel olyan előre betanított nyelvi modellekre támaszkodik, mint a BERT. Ez hosszabb kiértékelési időt eredményezhet, különösen nagy mennyiségű szöveges adat feldolgozásakor.
  • Előre képzett modellektől való függés – A BERTScore hatékonysága nagymértékben függ a felhasznált előre betanított nyelvi modell minőségétől és relevanciájától. Azokban a forgatókönyvekben, amikor az előre betanított modell nem képes megfelelően megragadni a szöveg árnyalatait, ez befolyásolhatja az értékelési eredményeket.
  • skálázhatóság – A BERTScore méretezése nagy adatkészletekhez vagy valós idejű alkalmazásokhoz a számítási igények miatt kihívást jelenthet. A BERTScore termelési környezetekben történő megvalósítása optimalizálási stratégiákat igényelhet a hatékony teljesítmény érdekében.
  • Domain-specifikusság – A BERTScore teljesítménye a különböző tartományok vagy speciális szövegtípusok között változhat. A metrika adott tartományokhoz vagy feladatokhoz való igazítása finomhangolást vagy módosítást igényelhet a pontos értékelések érdekében.
  • Értelmezhetőség – Bár a BERTScore átfogó értékelést biztosít a kontextus szerinti beágyazások alapján, az egyes tokenekhez generált hasonlósági pontszámok mögött meghúzódó konkrét okok értelmezése bonyolult lehet, és további elemzést igényelhet.
  • Hivatkozásmentes értékelés – Bár a BERTScore csökkenti a referencia-összefoglalókra való hagyatkozást az értékelés során, ez a hivatkozásmentes megközelítés nem feltétlenül ragadja meg teljes mértékben az összegzés minőségének minden aspektusát, különösen olyan forgatókönyvekben, ahol az ember által készített referenciák elengedhetetlenek a tartalom relevanciájának és koherenciájának értékeléséhez.

Ezeknek a korlátoknak az elismerése segíthet megalapozott döntések meghozatalában, amikor a BERTScore-t az összegzési feladatok értékelésére szolgáló mérőszámként használja, kiegyensúlyozott megértést biztosítva annak erősségeiről és korlátairól.

Mikor kell használni a BERTScore-t

A BERTScore úgy tudja értékelni a szöveges összefoglaló minőségét, hogy összehasonlítja a generált összefoglalót egy referenciaösszefoglalóval. Neurális hálózatokat, például a BERT-t használ a szemantikai hasonlóság mérésére a pontos szó- vagy kifejezésegyeztetésen túl. Ez nagyon hasznossá teszi a BERTScore-t, amikor a szemantikai hűség a teljes jelentés és tartalom megőrzése kritikus fontosságú az összegzési feladathoz. A BERTScore magasabb pontszámot ad azokra az összefoglalókra, amelyek ugyanazt az információt közvetítik, mint a referenciaösszegzés, még akkor is, ha eltérő szavakat és mondatszerkezeteket használnak. A lényeg az, hogy a BERTScore ideális olyan összefoglaló feladatokhoz, ahol a teljes szemantikai jelentés megtartása létfontosságú, nem csak a kulcsszavak vagy a témák. Fejlett neurális pontozása lehetővé teszi a jelentéstartalom összehasonlítását a felületi szintű szóillesztésen túl. Ez alkalmassá teszi azokra az esetekre, amikor a finom megfogalmazásbeli különbségek jelentősen megváltoztathatják az általános jelentést és következményeket. A BERTScore különösen a szemantikai hasonlóság rögzítésében jeleskedik, ami döntő fontosságú az olyan absztrakt összefoglalók minőségének értékeléséhez, mint amilyeneket a Retrieval Augmented Generation (RAG) modellek készítenek.

Modellértékelési keretrendszerek

A modellértékelési keretrendszerek elengedhetetlenek a különféle összegző modellek teljesítményének pontos méréséhez. Ezek a keretrendszerek fontos szerepet játszanak a modellek összehasonlításában, koherenciát biztosítanak a generált összefoglalók és a forrástartalom között, valamint feltárják az értékelési módszerek hiányosságait. Alapos értékelések és következetes benchmarking elvégzésével ezek a keretrendszerek elősegítik a szövegösszegzési kutatást azáltal, hogy támogatják a szabványos értékelési gyakorlatokat, és lehetővé teszik a sokoldalú modell-összehasonlítást.

Az AWS-ben a FMEval könyvtár belül Amazon SageMaker Clarify leegyszerűsíti az alapmodellek (FM-ek) értékelését és kiválasztását olyan feladatokhoz, mint a szövegösszegzés, a kérdések megválaszolása és az osztályozás. Lehetővé teszi az FM-ek értékelését olyan mérőszámok alapján, mint a pontosság, a robusztusság, a kreativitás, az elfogultság és a toxicitás, és támogatja az LLM-ek automatizált és humán-in-the-loop értékelését. A felhasználói felület alapú vagy programozott értékelésekkel az FMEval részletes jelentéseket készít vizualizációkkal, hogy számszerűsítse a modell kockázatait, például pontatlanságokat, toxicitást vagy torzítást, segítve a szervezeteket, hogy megfeleljenek a felelős generatív AI-irányelveiknek. Ebben a részben bemutatjuk az FMEval könyvtár használatát.

Értékelje a Claude v2 összegzési pontosságát az Amazon Bedrock segítségével

A következő kódrészlet egy példa arra, hogyan lehet kölcsönhatásba lépni az Anthropic Claude modellel Python kóddal:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

Egyszerűen fogalmazva, ez a kód a következő műveleteket hajtja végre:

  1. Importálja a szükséges könyvtárakat, beleértve json, a JSON-adatokkal való együttműködéshez.
  2. Határozza meg a modellazonosítót: anthropic.claude-v2 és állítsa be a kérés tartalomtípusát.
  3. Hozzon létre egy prompt_data változó, amely a Claude-modell bemeneti adatait strukturálja. Ebben az esetben felteszi a kérdést: „Ki az a Barack Obama?” és választ vár a modelltől.
  4. Hozzon létre egy test nevű JSON-objektumot, amely tartalmazza a prompt adatokat, és adjon meg további paramétereket, például a generálandó tokenek maximális számát.
  5. Hívja elő a Claude-modellt a segítségével bedrock_runtime.invoke_model a meghatározott paraméterekkel.
  6. Elemezze a választ a modellből, bontsa ki a befejezést (generált szöveget), és nyomtassa ki.

Ellenőrizze, hogy a AWS Identity and Access Management (IAM) szerepkör társítva a Amazon SageMaker Studio felhasználói profil hozzáféréssel rendelkezik a Amazon alapkőzet modelleket hívnak meg. Hivatkozni Az Amazon Bedrock személyazonosság-alapú irányelvei útmutatásért a bevált gyakorlatokhoz és az Amazon Bedrock identitásalapú irányelveinek példáihoz.

Az FMEval könyvtár használata a Claude összesített kimenetének értékeléséhez

A következő kódot használjuk az összesített kimenet értékeléséhez:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

Az előző kódrészletben az FMEval könyvtár használatával történő szövegösszegzés kiértékeléséhez a következő lépéseket hajtjuk végre:

  1. Hozzon létre egy ModelRunner meghívás végrehajtására az LLM-en. Az FMEval könyvtár beépített támogatást nyújt a Amazon SageMaker végpontok és Amazon SageMaker JumpStart LLM-ek. Azt is meghosszabbíthatja ModelRunner interfész a bárhol tárolt LLM-ekhez.
  2. Használata támogatott eval_algorithms mint a toxicitás, az összegzés, a pontosság, a szemantika és a robusztusság, az Ön értékelési igényei alapján.
  3. Szabja testre a kiértékelés konfigurációs paramétereit az adott használati esetnek megfelelően.
  4. Az LLM-modell értékeléséhez használja a kiértékelő algoritmust beépített vagy egyéni adatkészletekkel. Az ebben az esetben használt adatkészlet a következőkből származik GitHub repo.

Utal fejlesztői útmutató és példák kiértékelő algoritmusok részletes használatához.

Az alábbi táblázat az értékelés eredményeit foglalja össze.

modell _bemenet modell_kimenet cél_kimenet azonnali pontszámok meteor_score rouge_score bert_score
John Edward
0 Bates, korábban Spalding, Linco…
Nem tudok véglegeset mondani
ítéletek, mint a…
Egy korábbi
A lincolnshire-i rendőrtiszt vitte…
Ember: John
Edward Bates, korábban Spalding…
[{'name': 'meteor', 'value':
0.101010101010101 ...
0.10101 0 0.557155
23. október 2015.
Utoljára frissítve:
17:44 BST|nIt'…
Íme néhány kulcsfontosságú pont a hurrikánról/trópusról. A Patricia hurrikánt kategóriaként értékelték… Ember: 23
2015. október Utolsó frissítés: 17:44
B…
[{'name': meteor', "value":
0.102339181286549 ..
0.102339 0.018265 0.441421
A Ferrari olyan helyzetben volt, hogy megtámadja… Íme a cikk legfontosabb pontjai: nin… Lewis Hamilton megszerezte a pole pozíciót a… Ember: A Ferrari olyan helyzetben volt, hogy kihívja… [{'name': 'meteor', 'value':
0.322543352601156 ...
0.322543 0.078212 0.606487
A 28 éves, Bathban született játékos 36-ot szerzett
megjelenik…
Oké, hadd foglaljam össze a legfontosabb pontokat:/nin- E….. A Newport Gwent Dragons nyolcadik helye Ed Jackson Ember: A 28 éves, Bathban született játékos 36 évet szerzett… [{'name': 'meteor', 'value':
0105740181268882 ...
0.10574 0.012987 0.539488
Az egerek adatcseréjének hiányosságai a c… Íme a legfontosabb pontok, amelyeket összegyűjtöttem a… A hackerek hozzáférhetnek az otthoni és Ember:
Gyengeségek a
swar egerek felcserélték az adatokat
[{'name': 'meteor', 'value':
0.201048289433848 ...
0.201048 0.021858 0.526947

Nézze meg a mintát jegyzetfüzet további részletekért az összefoglaló értékelésről, amelyet ebben a bejegyzésben tárgyaltunk.

Következtetés

A ROUGE, a METEOR és a BERTScore mind a géppel generált összefoglalók minőségét mérik, de különböző szempontokra összpontosítanak, mint például a lexikális átfedés, a folyékonyság vagy a szemantikai hasonlóság. Ügyeljen arra, hogy azt a mérőszámot válassza ki, amely összhangban van azzal, ami a „jó” definíciója az adott összegzési használati esethez. Használhatja a mutatók kombinációját is. Ez egy átfogóbb értékelést biztosít, és megóv az egyes mérőszámok esetleges gyengeségeitől. A megfelelő mérésekkel iteratív módon javíthatja összefoglalóit, hogy megfeleljen a pontosság melyik fogalmának a legfontosabb.

Ezenkívül az FM és LLM kiértékelés szükséges ahhoz, hogy ezeket a modelleket méretarányosan lehessen gyártani. Az FMEval beépített algoritmusok hatalmas készletét kínálja számos NLP-feladathoz, de egy skálázható és rugalmas eszközt is kínál saját modelljei, adatkészletei és algoritmusai nagyszabású kiértékeléséhez. A méretnöveléshez használhatja ezt a csomagot az LLMOps folyamatokban több modell értékelése. Ha többet szeretne megtudni az FMEval-ról az AWS-ben és annak hatékony használatáról, tekintse meg a következőt: A SageMaker Clarify segítségével értékelheti a nagy nyelvi modelleket. A SageMaker Clarify FM-ek értékelésével kapcsolatos képességeinek további megértéséhez és betekintéséhez lásd: Az Amazon SageMaker Clarify megkönnyíti az alapozó modellek kiértékelését és kiválasztását.


A szerzőkről


Dinesh Kumar Subramani Senior Solutions Architect Edinburgh-ban, Skóciában. Mesterséges intelligenciára és gépi tanulásra specializálódott, és tagja az Amazon műszaki területi közösségének. A Dinesh szorosan együttműködik az Egyesült Királyság központi kormányzatának ügyfeleivel, hogy megoldják problémáikat az AWS-szolgáltatások használatával. A munkán kívül Dinesh szívesen tölt minőségi időt a családjával, sakkozik, és sokféle zenét fedez fel.


Pranav Sharma az AWS vezető szerepet tölt be a technológiai és üzleti átalakítási kezdeményezésekben Európában, a Közel-Keleten és Afrikában. Tapasztalattal rendelkezik olyan mesterséges intelligencia platformok tervezésében és üzemeltetésében, amelyek több millió ügyfelet támogatnak és üzleti eredményeket hoznak létre. Technológiai és embervezetői szerepet töltött be a Global Financial Services szervezeteiben. Munkán kívül szeret olvasni, teniszezni a fiával és filmeket nézni.

spot_img

Legújabb intelligencia

spot_img

Beszélj velünk

Szia! Miben segíthetek?