Vyhodnoťte schopnosti LLM pro shrnutí textu pro lepší rozhodování o AWS | Amazon Web Services

Organizace napříč odvětvími používají automatickou sumarizaci textu k efektivnějšímu zpracování velkého množství informací a lepšímu rozhodování. Ve finančním sektoru investiční banky zhušťují výkazy zisků do klíčových údajů, aby mohly rychle analyzovat čtvrtletní výkonnost. Mediální společnosti používají sumarizaci ke sledování zpráv a sociálních médií, takže novináři mohou rychle psát příběhy o rozvojových problémech. Vládní agentury shrnují dlouhé politické dokumenty a zprávy, aby pomohly tvůrcům politik vytvořit strategii a stanovit priority cílů.

Vytvářením zhuštěných verzí dlouhých a složitých dokumentů umožňuje technologie sumarizace uživatelům soustředit se na nejdůležitější obsah. To vede k lepšímu pochopení a uchování kritických informací. Úspora času umožňuje zúčastněným stranám revidovat více materiálu za kratší dobu a získat tak širší perspektivu. Díky lepšímu porozumění a více syntetizovaným poznatkům mohou organizace činit lépe informovaná strategická rozhodnutí, urychlit výzkum, zlepšit produktivitu a zvýšit svůj dopad. Transformační síla pokročilých možností sumarizace bude dále růst, až bude stále více průmyslových odvětví používat umělou inteligenci (AI) k využití přetékajících informačních toků.

V tomto příspěvku prozkoumáme přední přístupy k objektivnímu hodnocení přesnosti shrnutí, včetně metrik ROUGE, METEOR a BERTScore. Pochopení silných a slabých stránek těchto technik může pomoci při výběru a úsilí o zlepšení. Celkovým cílem tohoto příspěvku je demystifikovat souhrnné hodnocení, aby týmy mohly lépe porovnávat výkon této kritické schopnosti, když se snaží maximalizovat hodnotu.

Typy sumarizace

Sumarizaci lze obecně rozdělit na dva hlavní typy: extrakční sumarizaci a abstraktní sumarizaci. Oba přístupy se snaží zhustit dlouhé kusy textu do kratších forem, zachytit nejkritičtější informace nebo podstatu původního obsahu, ale činí tak zásadně odlišnými způsoby.

Extrakční sumarizace zahrnuje identifikaci a extrahování klíčových frází, vět nebo segmentů z původního textu, aniž by je měnilo. Systém vybere části textu, které jsou považovány za nejvíce informativní nebo reprezentativní z celku. Extrakční sumarizace je užitečná, pokud je kritická přesnost a shrnutí musí odrážet přesné informace z původního textu. Mohou to být případy použití, jako je zdůraznění konkrétních právních podmínek, povinností a práv uvedených v podmínkách použití. Nejběžnějšími technikami používanými pro extrakční sumarizaci jsou termínová frekvence inverzní frekvence dokumentu (TF-IDF), bodování vět, algoritmus řazení textu a strojové učení pod dohledem (ML).

Abstraktní sumarizace jde o krok dále tím, že generuje nové fráze a věty, které nebyly v původním textu, v podstatě parafrázuje a zhušťuje původní obsah. Tento přístup vyžaduje hlubší porozumění textu, protože AI potřebuje interpretovat význam a následně jej vyjádřit v nové, stručné podobě. Velké jazykové modely (LLM) se nejlépe hodí pro abstraktní sumarizaci, protože modely transformátorů využívají mechanismy pozornosti k zaměření na relevantní části vstupního textu při generování souhrnů. Mechanismus pozornosti umožňuje modelu přiřadit různé váhy různým slovům nebo tokenům ve vstupní sekvenci, což mu umožňuje zachytit dlouhodobé závislosti a kontextově relevantní informace.

Kromě těchto dvou primárních typů existují hybridní přístupy, které kombinují extrakční a abstraktní metody. Tyto přístupy mohou začít extrakčním shrnutím k identifikaci nejdůležitějšího obsahu a poté použít abstraktní techniky k přepsání nebo zhuštění tohoto obsahu do plynulého shrnutí.

Výzva

Nalezení optimální metody hodnocení kvality souhrnu zůstává otevřenou výzvou. Protože organizace stále více spoléhají na automatickou sumarizaci textu při získávání klíčových informací z dokumentů, roste potřeba standardizovaných technik pro měření přesnosti sumarizace. V ideálním případě by tyto hodnotící metriky kvantifikovaly, jak dobře strojově generované souhrny extrahují nejdůležitější obsah ze zdrojových textů a prezentují koherentní souhrny odrážející původní význam a kontext.

Vývoj robustních metodologií hodnocení pro sumarizaci textu však přináší potíže:

Referenční souhrny vytvořené lidmi používané pro srovnání často vykazují vysokou variabilitu založenou na subjektivním stanovení důležitosti
Je obtížné programově kvantifikovat různé aspekty kvality souhrnu, jako je plynulost, čitelnost a koherence.
Mezi metodami sumarizace od statistických algoritmů po neuronové sítě existují velké rozdíly, což komplikuje přímé srovnání

Recall-Oriented Understudy for Gisting Evaluation (ROUGE)

ROUGE metriky, jako jsou ROUGE-N a ROUGE-L, hrají zásadní roli při hodnocení kvality strojově generovaných souhrnů ve srovnání s referenčními souhrny napsanými lidmi. Tyto metriky se zaměřují na posouzení překrývání mezi obsahem strojově generovaných a lidmi vytvořených souhrnů pomocí analýzy n-gramů, což jsou skupiny slov nebo tokenů. Například ROUGE-1 vyhodnocuje shodu jednotlivých slov (unigramy), zatímco ROUGE-2 zvažuje dvojice slov (bigramy). ROUGE-N navíc vyhodnocuje nejdelší společnou podsekvenci slov mezi dvěma texty, což umožňuje flexibilitu ve slovosledu.

Chcete-li to ilustrovat, zvažte následující příklady:

metrika ROGUE-1 – ROUGE-1 vyhodnocuje překrývání unigramů (jednotlivých slov) mezi vygenerovaným souhrnem a referenčním souhrnem. Pokud například souhrn referencí obsahuje „Rychle hnědá liška skáče“ a vygenerovaný souhrn je „Liška hnědá skáče rychle“, metrika ROUGE-1 by považovala „hnědá“, „liška“ a „skoky“ za překrývající se unigramy. ROUGE-1 se zaměřuje na přítomnost jednotlivých slov v souhrnech a měří, jak dobře vygenerovaný souhrn zachycuje klíčová slova z referenčního souhrnu.
metrika ROGUE-2 – ROUGE-2 posuzuje překrývání bigramů (dvojic sousedních slov) mezi vygenerovaným souhrnem a referenčním souhrnem. Pokud například referenční souhrn obsahuje „Kočka spí“ a vygenerovaný souhrn zní „Kočka spí“, ROUGE-2 by identifikoval „kočka je“ a „spí“ jako překrývající se bigram. ROUGE-2 poskytuje pohled na to, jak dobře vygenerovaný souhrn zachovává sekvenci a kontext dvojic slov ve srovnání s referenčním souhrnem.
ROUGE-N metrika – ROUGE-N je zobecněná forma, kde N představuje libovolné číslo, umožňující vyhodnocení na základě n-gramů (sekvencí N slov). Pokud vezmeme v úvahu N=3, pokud referenční souhrn uvádí „Slunce jasně svítí“ a vygenerovaný souhrn je „Slunce jasně svítí“, ROUGE-3 rozpozná „slunce jasně svítí“ jako odpovídající trigram. ROUGE-N nabízí flexibilitu při vyhodnocování souhrnů na základě různých délek slovních sekvencí, což poskytuje komplexnější posouzení překrývání obsahu.

Tyto příklady ilustrují, jak metriky ROUGE-1, ROUGE-2 a ROUGE-N fungují při vyhodnocování úloh automatického shrnutí nebo strojového překladu porovnáním generovaných souhrnů s referenčními souhrny založenými na různých úrovních sekvencí slov.

Vypočítejte skóre ROUGE-N

K výpočtu skóre ROUGE-N můžete použít následující kroky:

Tokenizujte vygenerovaný souhrn a referenční souhrn na jednotlivá slova nebo tokeny pomocí základních metod tokenizace, jako je rozdělení podle mezer nebo knihoven zpracování přirozeného jazyka (NLP).
Vygenerujte n-gramy (souvislé posloupnosti N slov) z vygenerovaného souhrnu i referenčního souhrnu.
Spočítejte počet překrývajících se n-gramů mezi vygenerovaným souhrnem a referenčním souhrnem.
Vypočítejte přesnost, zapamatování a skóre F1:
- Přesnost – Počet překrývajících se n-gramů dělený celkovým počtem n-gramů ve vygenerovaném souhrnu.
- Odvolání – Počet překrývajících se n-gramů dělený celkovým počtem n-gramů v referenčním souhrnu.
- skóre F1 – Harmonický průměr přesnosti a vyvolání, vypočtený jako (2 * přesnost * vyvolání) / (přesnost + vyvolání).
Souhrnné skóre F1 získané z výpočtu přesnosti, paměti a skóre F1 pro každý řádek v souboru dat se považuje za skóre ROUGE-N.

Omezení

ROGUE má následující omezení:

Úzké zaměření na lexikální přesah – Základní myšlenkou ROUGE je porovnat systémově generované shrnutí se sadou referenčních nebo lidmi vytvořených souhrnů a měřit lexikální překrývání mezi nimi. To znamená, že ROUGE se velmi úzce zaměřuje na podobnost na úrovni slov. Ve skutečnosti nehodnotí sémantický význam, koherenci nebo čitelnost souhrnu. Systém by mohl dosáhnout vysokého skóre ROUGE jednoduchým extrahováním vět slovo od slova z původního textu, aniž by generoval souvislé nebo stručné shrnutí.
Necitlivost k parafrázování – Protože ROUGE spoléhá na lexikální shodu, nemůže detekovat sémantickou ekvivalenci mezi slovy a frázemi. Proto parafrázování a používání synonym často povede k nižšímu skóre ROUGE, i když je význam zachován. To znevýhodňuje systémy, které parafrázují nebo shrnují abstraktním způsobem.
Nedostatek sémantického porozumění – ROUGE nehodnotí, zda systém skutečně pochopil významy a koncepty v původním textu. Shrnutí by mohlo dosáhnout vysokého lexikálního překryvu s odkazy, přičemž by postrádalo hlavní myšlenky nebo obsahovalo faktické nesrovnalosti. ROUGE by tyto problémy neidentifikoval.

Kdy použít ROUGE

ROUGE je jednoduchý a rychlý na výpočet. Použijte jej jako základ nebo měřítko pro souhrnnou kvalitu související s výběrem obsahu. Metriky ROUGE jsou nejúčinněji využívány ve scénářích zahrnujících abstraktní sumarizační úlohy, automatické vyhodnocování sumarizací, hodnocení LLM a srovnávací analýzy různých sumarizačních přístupů. Použitím metrik ROUGE v těchto kontextech mohou zúčastněné strany kvantitativně vyhodnotit kvalitu a efektivitu procesů generování souhrnů.

Metrika pro hodnocení překladu s explicitním objednáním (METEOR)

Jednou z hlavních výzev při vyhodnocování sumarizačních systémů je posouzení toho, jak dobře vygenerovaný souhrn logicky plyne, než jen výběr relevantních slov a frází ze zdrojového textu. Pouhé vyjmutí relevantních klíčových slov a vět nemusí nutně vést ke souvislému a soudržnému shrnutí. Shrnutí by mělo plynout hladce a logicky spojovat myšlenky, i když nejsou prezentovány ve stejném pořadí jako původní dokument.

Flexibilita přiřazování redukcí slov na jejich kořenovou nebo základní formu (Například po odvození se slova jako „běží“, „běhá“ a „běh“ všechna stanou „během“) a synonyma znamenají METEOR lépe koreluje s lidskými úsudky souhrnné kvality. Dokáže identifikovat, zda je zachován důležitý obsah, i když se znění liší. To je klíčová výhoda oproti metrikám založeným na n-gramech, jako je ROUGE, které hledají pouze přesné shody tokenů. METEOR také dává vyšší skóre souhrnům, které se zaměřují na nejvýraznější obsah z reference. Opakující se nebo irelevantní informace mají nižší skóre. To je v souladu s cílem sumarizace zachovat pouze nejdůležitější obsah. METEOR je sémanticky smysluplná metrika, která dokáže překonat některá omezení n-gramového párování pro vyhodnocování sumarizace textu. Začlenění odvození a synonym umožňuje lepší posouzení překrývání informací a přesnosti obsahu.

Chcete-li to ilustrovat, zvažte následující příklady:

Souhrn referencí: Listí na podzim opadává.

Vygenerované shrnutí 1: Na podzim opadává listí.

Vygenerované shrnutí 2: Listy zelené v létě.

Slova, která se shodují mezi odkazem a vygenerovaným souhrnem 1, jsou zvýrazněna:

Souhrn referencí: Listy pokles během podzimu.

Vygenerované shrnutí 1: Listy spadnout pokles.

I když jsou „podzim“ a „podzim“ různé tokeny, METEOR je rozpoznává jako synonyma prostřednictvím porovnávání synonym. „Pokles“ a „pád“ jsou identifikovány jako shoda se stopkou. Pro vygenerovaný souhrn 2 neexistují žádné shody s referenčním souhrnem kromě „Leaves“, takže tento souhrn by získal mnohem nižší skóre METEOR. Čím sémanticky smysluplnější shody, tím vyšší skóre METEOR. To umožňuje METEORu lépe vyhodnotit obsah a přesnost souhrnů ve srovnání s jednoduchým n-gramovým párováním.

Vypočítejte skóre METEOR

Chcete-li vypočítat skóre METEOR, proveďte následující kroky:

Tokenizujte vygenerovaný souhrn a referenční souhrn na jednotlivá slova nebo tokeny pomocí základních metod tokenizace, jako je rozdělení podle mezer nebo knihoven NLP.
Vypočítejte unigramovou přesnost, zapamatování a F-střední skóre, čímž získáte větší váhu než přesnost.
Aplikujte penalizaci za přesné shody, abyste je příliš nezdůrazňovali. Penalizace se volí na základě charakteristik datové sady, požadavků na úkol a rovnováhy mezi přesností a vyvoláním. Odečtěte tuto penalizaci od F-středního skóre vypočítaného v kroku 2.
Vypočítejte F-střední skóre pro odvozené formy (redukujte slova na jejich základní nebo kořenovou formu) a synonyma pro unigramy, pokud je to možné. Agregujte to s dříve vypočítaným F-středním skóre, abyste získali konečné skóre METEOR. Skóre METEOR se pohybuje v rozmezí 0–1, kde 0 znamená žádnou podobnost mezi vytvořeným souhrnem a referenčním souhrnem a 1 znamená dokonalé zarovnání. Obvykle se souhrnné skóre pohybuje mezi 0–0.6.

Omezení

Při použití metriky METEOR pro vyhodnocování souhrnných úkolů může nastat několik problémů:

Sémantická složitost – Důraz METEORu na sémantickou podobnost může mít potíže se zachycením nuancovaných významů a kontextu ve složitých sumarizačních úkolech, což může vést k nepřesnostem při hodnocení.
Referenční variabilita – Variabilita v lidsky generovaných referenčních souhrnech může ovlivnit skóre METEOR, protože rozdíly v referenčním obsahu mohou ovlivnit hodnocení strojově generovaných souhrnů.
Jazyková rozmanitost – Efektivita METEOR se může v různých jazycích lišit v důsledku jazykových variací, rozdílů v syntaxi a sémantických nuancí, což představuje problémy při vícejazyčných souhrnných hodnoceních.
Nesoulad délky – Hodnocení různě dlouhých souhrnů může být pro METEOR náročné, protože nesrovnalosti v délce ve srovnání s referenčním souhrnem mohou mít za následek penalizaci nebo nepřesnosti v hodnocení.
Ladění parametrů – Optimalizace parametrů METEOR pro různé datové sady a úlohy sumarizace může být časově náročná a vyžaduje pečlivé vyladění, aby bylo zajištěno, že metrika poskytuje přesná vyhodnocení.
Zkreslení hodnocení – Existuje riziko zkreslení hodnocení u METEORu, pokud není správně nastaven nebo kalibrován pro konkrétní souhrnné oblasti nebo úkoly. To může potenciálně vést ke zkresleným výsledkům a ovlivnit spolehlivost procesu hodnocení.

Vědomí si těchto výzev a jejich zvážení při používání METEORu jako metriky pro souhrnné úkoly mohou výzkumníci a praktici procházet potenciálními omezeními a činit informovanější rozhodnutí ve svých hodnotících procesech.

Kdy použít METEOR

METEOR se běžně používá k automatickému vyhodnocování kvality textových souhrnů. Pokud na pořadí nápadů, konceptů nebo entit v souhrnu záleží, je vhodnější použít METEOR jako hodnotící metriku. METEOR zváží pořadí a porovná n-gramy mezi vygenerovaným souhrnem a referenčními souhrny. Odměňuje souhrny, které zachovávají sekvenční informace. Na rozdíl od metrik jako ROUGE, které se spoléhají na překrývání n-gramů s referenčními souhrny, METEOR porovnává kmeny, synonyma a parafráze. METEOR funguje lépe, když existuje několik správných způsobů, jak shrnout původní text. METEOR při porovnávání n-gramů zahrnuje synonyma WordNet a odvozené tokeny. Stručně řečeno, souhrny, které jsou sémanticky podobné, ale používají různá slova nebo fráze, budou stále dobře bodovat. METEOR má vestavěnou penalizaci pro souhrny s opakujícími se n-gramy. Proto odrazuje od vytahování slov od slova nebo nedostatku abstrakce. METEOR je dobrou volbou, když je pro posouzení kvality souhrnu důležitá sémantická podobnost, pořadí myšlenek a plynulé frázování. Je méně vhodný pro úlohy, kde záleží pouze na lexikálním překrývání s referenčními souhrny.

BERTScore

Lexikální míry na povrchové úrovni jako ROUGE a METEOR vyhodnocují systémy sumarizace porovnáním překrývání slov mezi souhrnem kandidátů a souhrnem odkazů. Hodně se však spoléhají na přesnou shodu mezi slovy a frázemi. To znamená, že jim mohou chybět sémantické podobnosti mezi slovy a frázemi, které mají různé povrchové formy, ale podobné základní významy. Tím, že se spoléhají pouze na povrchovou shodu, mohou tyto metriky podceňovat kvalitu systémových souhrnů, které používají synonymní slova nebo parafrázují pojmy odlišně od referenčních souhrnů. Dva souhrny by mohly poskytnout téměř identické informace, ale kvůli rozdílům ve slovní zásobě získají nízké skóre na úrovni povrchu.

BERTScore je způsob, jak automaticky vyhodnotit, jak dobrý je souhrn, jeho porovnáním s referenčním souhrnem napsaným člověkem. Využívá BERT, oblíbenou techniku NLP, k pochopení významu a kontextu slov v souhrnu kandidátů a souhrnu referencí. Konkrétně se podívá na každé slovo nebo token v souhrnu kandidátů a najde nejpodobnější slovo v souhrnu odkazů na základě vložení BERT, což jsou vektorové reprezentace významu a kontextu každého slova. Měří podobnost pomocí kosinové podobnosti, která říká, jak blízko jsou vektory u sebe. Pro každé slovo v souhrnu kandidátů najde nejpříbuznější slovo v souhrnu referencí pomocí znalosti jazyka BERT. Porovnává všechny tyto podobnosti slov v celém souhrnu, aby získal celkové skóre toho, jak sémanticky podobný je souhrn kandidátů referenčnímu souhrnu. Čím podobnější jsou slova a významy zachycené BERT, tím vyšší je BERTScore. To mu umožňuje automaticky vyhodnotit kvalitu vygenerovaného souhrnu jeho porovnáním s lidskou referencí, aniž by pokaždé potřeboval lidské hodnocení.

Pro ilustraci si představte, že máte strojově vygenerované shrnutí: „Rychlá hnědá liška skáče přes líného psa.“ Nyní se podívejme na lidsky vytvořené referenční shrnutí: „Rychlá hnědá liška skáče přes spícího psa.“

Vypočítejte BERTScore

Pro výpočet BERTScore proveďte následující kroky:

BERTScore používá kontextové vkládání k reprezentaci každého tokenu v kandidátské (strojově generované) i referenční (člověkem vytvořené) větě. Kontextové vkládání je typ reprezentace slova v NLP, který zachycuje význam slova na základě jeho kontextu ve větě nebo textu. Na rozdíl od tradičních vkládání slov, která každému slovu přiřazují pevný vektor bez ohledu na jeho kontext, kontextová vkládání bere v úvahu okolní slova, aby vytvořila jedinečnou reprezentaci pro každé slovo v závislosti na tom, jak je použito v konkrétní větě.
Metrika pak vypočítá podobnost mezi každým tokenem v kandidátské větě s každým tokenem v referenční větě pomocí kosinové podobnosti. Kosinová podobnost nám pomáhá kvantifikovat, jak blízko jsou dvě sady dat související, tím, že se zaměříme na směr, kterým ukazují ve vícerozměrném prostoru, což z ní činí cenný nástroj pro úkoly, jako jsou vyhledávací algoritmy, NLP a systémy doporučení.
Porovnáním kontextových vložení a výpočetním skóre podobnosti pro všechny tokeny BERTScore generuje komplexní hodnocení, které zachycuje sémantickou relevanci a kontext generovaného souhrnu ve srovnání s referenčním materiálem vytvořeným člověkem.
Konečný výstup BERTScore poskytuje skóre podobnosti, které odráží, jak dobře se strojově generovaný souhrn shoduje s referenčním souhrnem z hlediska významu a kontextu.

BERTScore v podstatě překračuje tradiční metriky tím, že bere v úvahu sémantické nuance a kontext vět a nabízí sofistikovanější hodnocení, které přesně odráží lidský úsudek. Tento pokročilý přístup zvyšuje přesnost a spolehlivost vyhodnocování úloh sumarizace, díky čemuž je BERTScore cenným nástrojem pro hodnocení systémů pro generování textu.

Omezení:

Přestože BERTScore nabízí významné výhody při vyhodnocování úloh sumarizace, přichází také s určitými omezeními, která je třeba vzít v úvahu:

Výpočetní náročnost – BERTScore může být výpočetně náročné díky své závislosti na předem trénovaných jazykových modelech, jako je BERT. To může vést k delší době vyhodnocení, zejména při zpracování velkých objemů textových dat.
Závislost na předem trénovaných modelech – Efektivita BERTScore velmi závisí na kvalitě a relevanci použitého předem vyškoleného jazykového modelu. Ve scénářích, kde předem vyškolený model nemusí adekvátně zachytit nuance textu, mohou být ovlivněny výsledky hodnocení.
Škálovatelnost – Škálování BERTScore pro velké datové sady nebo aplikace v reálném čase může být náročné kvůli jeho výpočetní náročnosti. Implementace BERTScore v produkčním prostředí může vyžadovat optimalizační strategie pro zajištění efektivního výkonu.
Specifičnost domény – Výkon BERTScore se může v různých doménách nebo specializovaných typech textu lišit. Přizpůsobení metriky konkrétním doménám nebo úkolům může vyžadovat jemné doladění nebo úpravy, aby se dosáhlo přesných vyhodnocení.
Interpretovatelnost – Přestože BERTScore poskytuje komplexní hodnocení založené na kontextovém vložení, interpretace konkrétních důvodů skóre podobnosti generovaných pro každý token může být složitá a může vyžadovat další analýzu.
Hodnocení bez referencí – Přestože BERTScore snižuje spoléhání na referenční souhrny pro hodnocení, tento přístup bez odkazů nemusí plně postihovat všechny aspekty kvality sumarizace, zejména ve scénářích, kde jsou lidské reference zásadní pro posouzení relevance a koherence obsahu.

Uznání těchto omezení vám může pomoci činit informovaná rozhodnutí při používání BERTScore jako metriky pro vyhodnocování souhrnných úkolů a poskytovat vyvážené pochopení jeho silných stránek a omezení.

Kdy použít BERTScore

BERTScore dokáže vyhodnotit kvalitu shrnutí textu porovnáním vygenerovaného souhrnu s referenčním souhrnem. Využívá neuronové sítě, jako je BERT, k měření sémantické podobnosti nad rámec pouhé shody slov nebo frází. Díky tomu je BERTScore velmi užitečné, když je pro váš úkol sumarizace rozhodující sémantická věrnost zachování plného významu a obsahu. BERTScore dá vyšší skóre souhrnům, které poskytují stejné informace jako referenční souhrn, i když používají různá slova a větné struktury. Sečteno a podtrženo, BERTScore je ideální pro úlohy sumarizace, kde je zásadní zachování plného sémantického významu, nejen klíčových slov nebo témat. Jeho pokročilé neurální skórování mu umožňuje porovnávat význam nad rámec shody slov na povrchové úrovni. Díky tomu je vhodný pro případy, kdy jemné rozdíly ve znění mohou podstatně změnit celkový význam a důsledky. Zejména BERTScore vyniká v zachycení sémantické podobnosti, což je klíčové pro hodnocení kvality abstraktních souhrnů, jako jsou ty, které produkují modely Retrieval Augmented Generation (RAG).

Modelové hodnotící rámce

Rámce pro vyhodnocování modelů jsou nezbytné pro přesné měření výkonnosti různých sumarizačních modelů. Tyto rámce slouží k porovnávání modelů, poskytují soudržnost mezi generovanými souhrny a zdrojovým obsahem a odhalují nedostatky v metodách hodnocení. Prováděním důkladných hodnocení a konzistentním srovnáváním tyto rámce pohánějí výzkum shrnutí textu tím, že obhajují standardizované postupy hodnocení a umožňují mnohostranné srovnání modelů.

V AWS je Knihovna FMEval v Amazon SageMaker Clarify zjednodušuje vyhodnocování a výběr základních modelů (FM) pro úkoly, jako je sumarizace textu, odpovídání na otázky a klasifikace. Umožňuje vám vyhodnocovat FM na základě metrik, jako je přesnost, robustnost, kreativita, zaujatost a toxicita, a podporuje jak automatizované, tak i lidské vyhodnocování LLM. S vyhodnocením založeným na uživatelském rozhraní nebo programovým hodnocením FMEval generuje podrobné zprávy s vizualizacemi pro kvantifikaci rizik modelu, jako jsou nepřesnosti, toxicita nebo zkreslení, což pomáhá organizacím sladit se s jejich odpovědnými pokyny pro generativní umělou inteligenci. V této části si ukážeme, jak používat knihovnu FMEval.

Vyhodnoťte Claude v2 na přesnosti shrnutí pomocí Amazon Bedrock

Následující fragment kódu je příkladem interakce s modelem Anthropic Claude pomocí kódu Python:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

Jednoduše řečeno, tento kód provádí následující akce:

Importujte potřebné knihovny, vč jsonpro práci s daty JSON.
Definujte ID modelu jako anthropic.claude-v2 a nastavte typ obsahu pro požadavek.
Vytvořit prompt_data proměnná, která strukturuje vstupní data pro model Claude. V tomto případě si klade otázku „Kdo je Barack Obama? a očekává odezvu od modelu.
Vytvořte objekt JSON s názvem tělo, který obsahuje data výzvy, a zadejte další parametry, jako je maximální počet tokenů, které se mají vygenerovat.
Vyvolejte model Claude pomocí bedrock_runtime.invoke_model s definovanými parametry.
Analyzujte odpověď z modelu, extrahujte dokončení (vygenerovaný text) a vytiskněte jej.

Ujistěte se, že Správa identity a přístupu AWS (IAM) role spojená s Amazon SageMaker Studio uživatelský profil má přístup k Amazonské podloží vyvolávané modely. Odkazují na Příklady zásad založených na identitě pro Amazon Bedrock pokyny k osvědčeným postupům a příklady zásad založených na identitě pro Amazon Bedrock.

Použití knihovny FMEval k vyhodnocení souhrnného výstupu od Clauda

K vyhodnocení souhrnného výstupu používáme následující kód:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

V předchozím fragmentu kódu, abychom vyhodnotili sumarizaci textu pomocí knihovny FMEval, provedeme následující kroky:

Vytvořit ModelRunner k provedení vyvolání na vašem LLM. Knihovna FMEval poskytuje vestavěnou podporu pro Amazon SageMaker koncové body a Amazon SageMaker JumpStart LLM. Můžete také rozšířit ModelRunner rozhraní pro všechny LLM hostované kdekoli.
Použití podporováno eval_algorithms jako je toxicita, sumarizace, přesnost, sémantika a robustnost na základě vašich potřeb hodnocení.
Přizpůsobte konfigurační parametry hodnocení pro svůj konkrétní případ použití.
Použijte vyhodnocovací algoritmus s vestavěnými nebo vlastními datovými sadami k vyhodnocení vašeho LLM modelu. Datový soubor použitý v tomto případě pochází z následujícího GitHub repo.

Odkazovat na průvodce pro vývojáře a příklady pro detailní použití vyhodnocovacích algoritmů.

Následující tabulka shrnuje výsledky hodnocení.

model _vstup	model_output	cílový_výstup	prompt	výsledky	meteor_score	rouge_score	bert_score
John Edward 0 Bates, dříve ze Spalding, Linco…..	Nemohu učinit žádné definitivní rozsudky, jako…	Bývalý Policista Lincolnshire nesl…	Člověk: John Edward Bates, dříve ze Spalding…	[{'name': 'meteor', 'value': 0.101010101010101 ...	0.10101	0	0.557155
23 2015 říjnu Naposledy aktualizováno v 17:44 BST\|nIt'…	Zde je několik klíčových bodů o hurikánu/trop..	Hurikán Patricia byl hodnocen jako kategorie…	Člověk: 23 Říjen 2015 Poslední aktualizace v 17:44 B…	[{'name': meteor', "value': 0.102339181286549 ..	0.102339	0.018265	0.441421
Ferrari se objevilo v pozici, kdy může vyzvat…	Zde jsou klíčové body z článku: nin…	Lewis Hamilton zaútočil na pole position na…	Člověk: Ferrari se objevilo v pozici, kdy může zpochybnit…	[{'name': 'meteor', 'value': 0.322543352601156 ...	0.322543	0.078212	0.606487
Hráč narozený v Bath, 28, má 36 vypadat…	Dobře, dovolte mi shrnout klíčové body:/nin-E…..	Newport Gwent Dragons číslo osm Ed Jackson	Human: The Bath-born hráč, 28, udělal 36…	[{'name': 'meteor', 'value': 0105740181268882 ...	0.10574	0.012987	0.539488
Slabiny ve způsobu, jakým si myši vyměňovaly data s c…	Zde jsou klíčové body, které jsem shromáždil z…	Hackeři by mohli získat přístup k domovu a	Člověk: Slabé stránky v Swar myši si vyměnily data	[{'name': 'meteor', 'value': 0.201048289433848 ...	0.201048	0.021858	0.526947

Podívejte se na ukázku zápisník pro více podrobností o souhrnném vyhodnocení, o kterém jsme hovořili v tomto příspěvku.

Proč investovat do čističky vzduchu?

ROUGE, METEOR a BERTScore měří kvalitu strojově generovaných souhrnů, ale zaměřují se na různé aspekty, jako je lexikální překrývání, plynulost nebo sémantická podobnost. Ujistěte se, že jste vybrali metriku, která odpovídá tomu, co definuje „dobré“ pro váš konkrétní případ použití shrnutí. Můžete také použít kombinaci metrik. To poskytuje komplexnější hodnocení a chrání před potenciálními slabinami jakékoli jednotlivé metriky. Se správnými měřeními můžete své sumátory iterativně vylepšovat, abyste splnili jakoukoli představu o přesnosti, na které nejvíce záleží.

Kromě toho je nutné vyhodnocení FM a LLM, aby bylo možné tyto modely vyrábět ve velkém měřítku. S FMEval získáte rozsáhlou sadu vestavěných algoritmů pro mnoho úloh NLP, ale také škálovatelný a flexibilní nástroj pro rozsáhlá hodnocení vašich vlastních modelů, datových sad a algoritmů. Chcete-li škálovat, můžete tento balíček použít ve svých kanálech LLMOps hodnotit více modelů. Chcete-li se dozvědět více o FMEval v AWS a jak jej efektivně používat, viz Použijte SageMaker Clarify k vyhodnocení velkých jazykových modelů. Pro další pochopení a vhled do možností SageMaker Clarify při vyhodnocování FM viz Amazon SageMaker Clarify usnadňuje hodnocení a výběr základních modelů.

Informace o autorech

Dinesh Kumar Subramani je Senior Solutions Architect se sídlem v Edinburghu ve Skotsku. Specializuje se na umělou inteligenci a strojové učení a je členem technické komunity v Amazonu. Společnost Dinesh úzce spolupracuje se zákazníky ústřední vlády Spojeného království na řešení jejich problémů pomocí služeb AWS. Mimo práci Dinesh rád tráví čas se svou rodinou, hraje šachy a zkoumá rozmanitou škálu hudby.

Pranav Sharma je lídrem AWS, který řídí technologické a obchodní transformační iniciativy v Evropě, na Středním východě a v Africe. Má zkušenosti s navrhováním a provozováním platforem umělé inteligence ve výrobě, které podporují miliony zákazníků a přinášejí obchodní výsledky. Hrál vedoucí role v oblasti technologií a lidí pro organizace Global Financial Services. Mimo práci rád čte, hraje tenis se synem a dívá se na filmy.

SEO Powered Content & PR distribuce. Získejte posílení ještě dnes.
PlatoData.Network Vertikální generativní Ai. Zmocnit se. Přístup zde.
PlatoAiStream. Inteligence Web3. Znalosti rozšířené. Přístup zde.
PlatoESG. Uhlík, CleanTech, Energie, Životní prostředí, Sluneční, Nakládání s odpady. Přístup zde.
PlatoHealth. Inteligence biotechnologií a klinických studií. Přístup zde.
Zdroj: https://aws.amazon.com/blogs/machine-learning/evaluate-the-text-summarization-capabilities-of-llms-for-enhanced-decision-making-on-aws/

Generativní datová inteligence

Vyhodnoťte možnosti shrnutí textu LLM pro lepší rozhodování o AWS | Webové služby Amazon

Typy sumarizace

Výzva

Recall-Oriented Understudy for Gisting Evaluation (ROUGE)

Vypočítejte skóre ROUGE-N

Omezení

Kdy použít ROUGE

Metrika pro hodnocení překladu s explicitním objednáním (METEOR)

Vypočítejte skóre METEOR

Omezení

Kdy použít METEOR

BERTScore

Vypočítejte BERTScore

Omezení:

Kdy použít BERTScore

Modelové hodnotící rámce

Vyhodnoťte Claude v2 na přesnosti shrnutí pomocí Amazon Bedrock

Použití knihovny FMEval k vyhodnocení souhrnného výstupu od Clauda

Proč investovat do čističky vzduchu?

Informace o autorech

Vzestup BDAG k 30 USD: Rostoucí kryptoměna je připravena překonat TON do roku 2030

Vzestup společnosti BDAG na 30 USD do roku 2030: Připraven k Eclipse TON jako vedoucí krypto investice uprostřed nepokojů v průmyslu a obav z advokacie

Nejnovější inteligence

Vzestup BDAG: Předpovídá se, že do roku 30 dosáhne 2030 USD a Eclipse TON v Crypto Investment Race

Vzestup BDAG: Připraven překonat TON s oceněním 30 USD do roku 2030 a stát se předním kandidátem na kryptoměny

Vzestup BDAG: Předpovídá se, že do roku 30 dosáhne 2030 USD a Outshine TON jako vedoucí kryptoinvestice

BDAG Eyes $30 Milestone do roku 2030: Nastaveno na Eclipse TON jako prvotřídní aktivum v kryptoměně

Nestálý nárůst bitcoinu před rozhodnutím Fedu o sazbách: Navigace ve vlnách nejistoty na trhu s kryptoměnami

Jízda bitcoinu na horské dráze: Předvídání dopadu úrokových sazeb Fedu na trhy s kryptoměnami

piš si s námi