Inteligența generativă a datelor

Evaluați capacitățile de rezumare a textului ale LLM-urilor pentru luarea deciziilor îmbunătățite pe AWS | Amazon Web Services

Data:

Organizațiile din diverse industrii folosesc rezumarea automată a textului pentru a gestiona mai eficient cantități mari de informații și pentru a lua decizii mai bune. În sectorul financiar, băncile de investiții condensează rapoartele de câștig până la concluzii cheie pentru a analiza rapid performanța trimestrială. Companiile media folosesc rezumatul pentru a monitoriza știrile și rețelele sociale, astfel încât jurnaliștii să poată scrie rapid povești despre probleme în curs de dezvoltare. Agențiile guvernamentale sintetizează documente și rapoarte de politică lungi pentru a ajuta factorii de decizie să stabilească strategii și să prioritizeze obiectivele.

Prin crearea de versiuni condensate ale documentelor lungi și complexe, tehnologia de rezumare permite utilizatorilor să se concentreze asupra conținutului cel mai important. Acest lucru duce la o mai bună înțelegere și reținere a informațiilor critice. Economiile de timp permit părților interesate să revizuiască mai mult material în mai puțin timp, dobândind o perspectivă mai largă. Cu o înțelegere îmbunătățită și mai multe perspective sintetizate, organizațiile pot lua decizii strategice mai bine informate, pot accelera cercetarea, își pot îmbunătăți productivitatea și își pot crește impactul. Puterea de transformare a capabilităților avansate de rezumare va continua să crească pe măsură ce mai multe industrii vor adopta inteligența artificială (AI) pentru a valorifica fluxurile de informații debordante.

În această postare, explorăm abordări principale pentru evaluarea obiectivă a acurateței rezumatului, inclusiv valorile ROUGE, METEOR și BERTScore. Înțelegerea punctelor forte și a punctelor slabe ale acestor tehnici poate ajuta la ghidarea eforturilor de selecție și îmbunătățire. Scopul general al acestei postări este de a demistifica evaluarea rezumată pentru a ajuta echipele să evalueze mai bine performanța cu privire la această capacitate critică, deoarece încearcă să maximizeze valoarea.

Tipuri de rezumat

Rezumarea poate fi, în general, împărțită în două tipuri principale: rezumat extractiv și rezumat abstractiv. Ambele abordări urmăresc să condenseze bucăți lungi de text în forme mai scurte, captând cele mai critice informații sau esența conținutului original, dar fac acest lucru în moduri fundamental diferite.

Rezumatul extractiv implică identificarea și extragerea frazelor cheie, propozițiilor sau segmentelor din textul original fără a le modifica. Sistemul selectează părți din text considerate cele mai informative sau reprezentative pentru întreg. Rezumatul extractiv este util dacă acuratețea este critică și rezumatul trebuie să reflecte informațiile exacte din textul original. Acestea ar putea fi cazuri de utilizare, cum ar fi evidențierea unor termeni, obligații și drepturi juridice specifice descrise în termenii de utilizare. Cele mai frecvente tehnici utilizate pentru rezumarea extractivă sunt frecvența de frecvență inversă a termenului (TF-IDF), scorul propoziției, algoritmul de clasificare a textului și învățarea automată supravegheată (ML).

Rezumarea abstractivă merge un pas mai departe prin generarea de noi fraze și propoziții care nu erau în textul original, în esență parafrazând și condensând conținutul original. Această abordare necesită o înțelegere mai profundă a textului, deoarece IA trebuie să interpreteze sensul și apoi să-l exprime într-o formă nouă, concisă. Modelele de limbaj mari (LLM) sunt cele mai potrivite pentru rezumarea abstractă, deoarece modelele transformatoare utilizează mecanisme de atenție pentru a se concentra asupra părților relevante ale textului de intrare atunci când generează rezumate. Mecanismul de atenție permite modelului să atribuie diferite ponderi unor cuvinte sau simboluri diferite în secvența de intrare, permițându-i să capteze dependențe pe distanță lungă și informații relevante din punct de vedere contextual.

Pe lângă aceste două tipuri primare, există abordări hibride care combină metode extractive și abstractive. Aceste abordări ar putea începe cu o rezumare extractivă pentru a identifica cel mai important conținut și apoi să folosească tehnici abstractive pentru a rescrie sau a condensa acel conținut într-un rezumat fluent.

Provocarea

Găsirea metodei optime de evaluare a calității rezumatului rămâne o provocare deschisă. Pe măsură ce organizațiile se bazează din ce în ce mai mult pe rezumarea automată a textului pentru a distila informațiile cheie din documente, nevoia de tehnici standardizate pentru a măsura acuratețea rezumatului crește. În mod ideal, aceste metrici de evaluare ar cuantifica cât de bine rezumatele generate de mașină extrag conținutul cel mai important din textele sursă și ar prezenta rezumate coerente care reflectă sensul și contextul original.

Cu toate acestea, dezvoltarea unor metodologii robuste de evaluare pentru rezumarea textului prezintă dificultăți:

  • Rezumatele de referință realizate de oameni, utilizate pentru comparație, prezintă adesea o variabilitate ridicată bazată pe determinări subiective ale importanței
  • Aspecte nuanțate ale calității rezumatului, cum ar fi fluența, lizibilitatea și coerența, se dovedesc dificil de cuantificat programatic
  • Există o mare variație între metodele de rezumare, de la algoritmi statistici la rețele neuronale, complicând comparațiile directe

Substudiu orientat spre rechemare pentru evaluarea generală (ROUGE)

Valori ROUGE, cum ar fi ROUGE-N și ROUGE-L, joacă un rol crucial în evaluarea calității rezumatelor generate de mașini în comparație cu rezumatele de referință scrise de oameni. Aceste metrici se concentrează pe evaluarea suprapunerii dintre conținutul rezumatelor generate de mașini și ale rezumatelor create de oameni prin analiza n-gramelor, care sunt grupuri de cuvinte sau simboluri. De exemplu, ROUGE-1 evaluează potrivirea cuvintelor individuale (unigrame), în timp ce ROUGE-2 ia în considerare perechile de cuvinte (bigrame). În plus, ROUGE-N evaluează cea mai lungă succesiune comună de cuvinte între cele două texte, permițând flexibilitate în ordinea cuvintelor.

Pentru a ilustra acest lucru, luați în considerare următoarele exemple:

  • Valoarea ROGUE-1 – ROUGE-1 evaluează suprapunerea unigramelor (cuvinte simple) între un rezumat generat și un rezumat de referință. De exemplu, dacă un rezumat de referință conține „Vulpea brună sare rapidă”, iar rezumatul generat este „Vulpea brună sare repede”, valoarea ROUGE-1 ar considera „maro”, „vulpe” și „sare” ca fiind suprapuse unigrame. ROUGE-1 se concentrează pe prezența cuvintelor individuale în rezumate, măsurând cât de bine rezumatul generat surprinde cuvintele cheie din rezumatul de referință.
  • Valoarea ROGUE-2 – ROUGE-2 evaluează suprapunerea de bigrame (perechi de cuvinte adiacente) între un rezumat generat și un rezumat de referință. De exemplu, dacă rezumatul de referință are „Pisica doarme”, iar rezumatul generat citește „O pisică doarme”, ROUGE-2 ar identifica „pisica doarme” și „doarme” ca o bigramă suprapusă. ROUGE-2 oferă o perspectivă asupra cât de bine rezumatul generat menține secvența și contextul perechilor de cuvinte în comparație cu rezumatul de referință.
  • metrica ROUGE-N – ROUGE-N este o formă generalizată în care N reprezintă orice număr, permițând evaluarea bazată pe n-grame (secvențe de N cuvinte). Luând în considerare N=3, dacă rezumatul de referință spune „Soarele strălucește puternic”, iar rezumatul generat este „Soarele strălucește puternic”, ROUGE-3 ar recunoaște „soarele strălucește puternic” ca o trigramă potrivită. ROUGE-N oferă flexibilitate pentru evaluarea rezumatelor pe baza diferitelor lungimi de secvențe de cuvinte, oferind o evaluare mai cuprinzătoare a suprapunerii conținutului.

Aceste exemple ilustrează modul în care valorile ROUGE-1, ROUGE-2 și ROUGE-N funcționează în evaluarea sarcinilor de rezumare automată sau de traducere automată prin compararea rezumatelor generate cu rezumatele de referință bazate pe diferite niveluri de secvențe de cuvinte.

Calculați un scor ROUGE-N

Puteți folosi următorii pași pentru a calcula un scor ROUGE-N:

  1. Tokenizați rezumatul generat și rezumatul de referință în cuvinte sau simboluri individuale folosind metode de bază de tokenizare, cum ar fi împărțirea prin spații albe sau biblioteci de procesare a limbajului natural (NLP).
  2. Generați n-grame (secvențe contigue de N cuvinte) atât din rezumatul generat, cât și din rezumatul de referință.
  3. Numărați numărul de n-grame suprapuse dintre rezumatul generat și rezumatul de referință.
  4. Calculați precizia, reamintirea și scorul F1:
    • Precizie – Numărul de n-grame suprapuse împărțit la numărul total de n-grame din rezumatul generat.
    • Rechemare – Numărul de n-grame suprapuse împărțit la numărul total de n-grame din rezumatul de referință.
    • Scor F1 – Media armonică a preciziei și retragerii, calculată ca (2 * precizie * reamintire) / (precizie + reamintire).
  5. Scorul F1 agregat obținut din calcularea preciziei, reamintirii și scorului F1 pentru fiecare rând din setul de date este considerat scor ROUGE-N.

Limitări

ROGUE are următoarele limitări:

  • Accent îngust pe suprapunerea lexicală – Ideea de bază din spatele ROUGE este de a compara rezumatul generat de sistem cu un set de rezumate de referință sau create de oameni și de a măsura suprapunerea lexicală dintre ele. Aceasta înseamnă că ROUGE se concentrează foarte mult pe asemănarea la nivel de cuvânt. De fapt, nu evaluează semnificația semantică, coerența sau lizibilitatea rezumatului. Un sistem ar putea obține scoruri ROUGE ridicate prin simpla extragere a propozițiilor cuvânt cu cuvânt din textul original, fără a genera un rezumat coerent sau concis.
  • Insensibilitate la parafrazare – Deoarece ROUGE se bazează pe potrivirea lexicală, nu poate detecta echivalența semantică între cuvinte și expresii. Prin urmare, parafrazarea și utilizarea sinonimelor vor duce adesea la scoruri ROUGE mai mici, chiar dacă semnificația este păstrată. Acest lucru dezavantajează sistemele care parafrazează sau rezumă într-un mod abstract.
  • Lipsa înțelegerii semantice – ROUGE nu evaluează dacă sistemul a înțeles cu adevărat semnificațiile și conceptele din textul original. Un rezumat ar putea obține o suprapunere lexicală ridicată cu referințele, în timp ce lipsește ideile principale sau conține inconsecvențe faptice. ROUGE nu ar identifica aceste probleme.

Când să folosiți ROUGE

ROUGE este simplu și rapid de calculat. Utilizați-l ca punct de referință sau ca punct de referință pentru calitatea rezumatului legat de selecția conținutului. Metricurile ROUGE sunt utilizate cel mai eficient în scenarii care implică sarcini de rezumare abstractă, evaluare automată de rezumare, evaluări ale LLM-urilor și analize comparative ale diferitelor abordări de rezumare. Folosind valorile ROUGE în aceste contexte, părțile interesate pot evalua cantitativ calitatea și eficacitatea proceselor de generare a rezumatelor.

Metric pentru evaluarea traducerii cu ordonare explicită (METEOR)

Una dintre provocările majore în evaluarea sistemelor de rezumare este evaluarea cât de bine curge logic rezumatul generat, mai degrabă decât doar selectarea cuvintelor și frazelor relevante din textul sursă. Simpla extragere a cuvintelor cheie și a propozițiilor relevante nu produce neapărat un rezumat coerent și coeziv. Rezumatul ar trebui să curgă fără probleme și să conecteze ideile în mod logic, chiar dacă acestea nu sunt prezentate în aceeași ordine ca documentul original.

Flexibilitatea potrivirii prin reducerea cuvintelor la forma lor rădăcină sau de bază (de exemplu, după rădăcină, cuvinte precum „alergă”, „alergă” și „a alergat” devin toate „alergă”) și sinonimele înseamnă METEOR se corelează mai bine cu judecățile umane de calitate sumară. Poate identifica dacă conținutul important este păstrat, chiar dacă formularea diferă. Acesta este un avantaj cheie față de valorile bazate pe n-grame, cum ar fi ROUGE, care caută doar potriviri exacte de simboluri. METEOR acordă, de asemenea, scoruri mai mari rezumatelor care se concentrează pe cel mai important conținut din referință. Se acordă scoruri mai mici informațiilor repetitive sau irelevante. Acest lucru se aliniază bine cu scopul de a rezuma pentru a păstra numai conținutul cel mai important. METEOR este o metrică semnificativă din punct de vedere semantic care poate depăși unele dintre limitările potrivirii n-grame pentru evaluarea rezumatului textului. Încorporarea derivației și a sinonimelor permite o mai bună evaluare a suprapunerii informațiilor și a acurateței conținutului.

Pentru a ilustra acest lucru, luați în considerare următoarele exemple:

Rezumatul referințelor: Frunzele cad toamna.

Rezumatul generat 1: Frunzele cad toamna.

Rezumatul generat 2: Frunzele verzi vara.

Cuvintele care se potrivesc între referință și rezumatul generat 1 sunt evidențiate:

Rezumatul referințelor: Frunze cădea în timpul toamnei.

Rezumatul generat 1: Frunze intră cădea.

Chiar dacă „toamna” și „toamna” sunt simboluri diferite, METEOR le recunoaște ca sinonime prin potrivirea sinonimelor. „Scădere” și „cădere” sunt identificate ca un chibrit cu tulpină. Pentru rezumatul generat 2, nu există potriviri cu rezumatul de referință în afară de „Frunze”, astfel încât acest rezumat ar primi un scor METEOR mult mai mic. Cu cât potrivirile mai semnificative din punct de vedere semantic, cu atât scorul METEOR este mai mare. Acest lucru permite METEOR să evalueze mai bine conținutul și acuratețea rezumatelor în comparație cu potrivirea simplă n-gram.

Calculați un scor METEOR

Parcurgeți următorii pași pentru a calcula un scor METEOR:

  1. Tokenizați rezumatul generat și rezumatul de referință în cuvinte sau simboluri individuale folosind metode de bază de tokenizare, cum ar fi împărțirea prin spații albe sau biblioteci NLP.
  2. Calculați precizia unigramei, reamintirea și scorul mediu F, oferind mai multă pondere pentru reamintire decât precizie.
  3. Aplicați o penalizare pentru potrivirile exacte pentru a evita accentuarea lor excesivă. Penalizarea este aleasă în funcție de caracteristicile setului de date, cerințele sarcinii și echilibrul dintre precizie și reamintire. Scădeți această penalizare din scorul mediu F calculat la Pasul 2.
  4. Calculați scorul mediu F pentru formele stemmed (reducerea cuvintelor la forma lor de bază sau rădăcină) și sinonime pentru unigrame, acolo unde este cazul. Agregați-l cu scorul mediu F calculat anterior pentru a obține scorul final METEOR. Scorul METEOR variază de la 0 la 1, unde 0 indică nicio similitudine între rezumatul generat și rezumatul de referință, iar 1 indică alinierea perfectă. De obicei, scorurile de rezumat se încadrează între 0-0.6.

Limitări

Atunci când se utilizează metrica METEOR pentru evaluarea sarcinilor de rezumat, pot apărea mai multe provocări:

  • Complexitatea semantică – Accentul pus de METEOR pe asemănarea semantică poate avea dificultăți să surprindă semnificațiile nuanțate și contextul în sarcini complexe de rezumare, ceea ce poate duce la inexactități în evaluare.
  • Variabilitatea de referință – Variabilitatea rezumatelor de referință generate de oameni poate afecta scorurile METEOR, deoarece diferențele de conținut de referință pot afecta evaluarea rezumatelor generate de mașini.
  • Diversitate lingvistică – Eficacitatea METEOR poate varia de la o limbă la alta din cauza variațiilor lingvistice, a diferențelor de sintaxă și a nuanțelor semantice, punând provocări în evaluările rezumative multilingve.
  • Discrepanță de lungime – Evaluarea rezumatelor de lungimi diferite poate fi o provocare pentru METEOR, deoarece discrepanțele în lungime în comparație cu rezumatul de referință pot duce la penalități sau inexactități în evaluare.
  • Reglarea parametrilor – Optimizarea parametrilor METEOR pentru diferite seturi de date și sarcini de rezumare poate fi consumatoare de timp și necesită o reglare atentă pentru a vă asigura că metrica oferă evaluări precise.
  • Prejudecata de evaluare – Există un risc de părtinire a evaluării cu METEOR dacă nu este ajustat sau calibrat corespunzător pentru domenii sau sarcini specifice de rezumare. Acest lucru poate duce la rezultate distorsionate și poate afecta fiabilitatea procesului de evaluare.

Fiind conștienți de aceste provocări și luându-le în considerare atunci când folosesc METEOR ca măsurătoare pentru sarcinile de rezumat, cercetătorii și practicienii pot naviga în potențialele limitări și pot lua decizii mai informate în procesele lor de evaluare.

Când să utilizați METEOR

METEOR este folosit în mod obișnuit pentru a evalua automat calitatea rezumatelor textului. Este de preferat să folosiți METEOR ca metrică de evaluare atunci când ordinea ideilor, conceptelor sau entităților din rezumat contează. METEOR ia în considerare ordinea și potrivește n-grame între rezumatul generat și rezumatele de referință. Acesta recompensează rezumatele care păstrează informațiile secvențiale. Spre deosebire de valori precum ROUGE, care se bazează pe suprapunerea n-gramelor cu rezumatele de referință, METEOR potrivește tulpini, sinonime și parafraze. METEOR funcționează mai bine atunci când pot exista mai multe moduri corecte de a rezuma textul original. METEOR încorporează sinonime WordNet și jetoane stemmed atunci când se potrivesc n-grame. Pe scurt, rezumatele care sunt similare din punct de vedere semantic, dar folosesc cuvinte sau expresii diferite vor avea totuși un scor bun. METEOR are o penalizare încorporată pentru rezumatele cu n-grame repetitive. Prin urmare, descurajează extragerea cuvânt cu cuvânt sau lipsa abstracției. METEOR este o alegere bună atunci când asemănarea semantică, ordinea ideilor și formularea fluentă sunt importante pentru a evalua calitatea rezumatului. Este mai puțin adecvat pentru sarcinile în care contează doar suprapunerea lexicală cu rezumatele de referință.

BERTScore

Măsurile lexicale la nivel de suprafață precum ROUGE și METEOR evaluează sistemele de rezumare comparând suprapunerea cuvintelor dintre un rezumat candidat și un rezumat de referință. Cu toate acestea, se bazează foarte mult pe potrivirea exactă a șirurilor dintre cuvinte și expresii. Acest lucru înseamnă că pot lipsi asemănările semantice dintre cuvinte și expresii care au forme de suprafață diferite, dar semnificații subiacente similare. Bazându-se doar pe potrivirea suprafeței, aceste valori pot subestima calitatea rezumatelor de sistem care folosesc cuvinte sinonime sau parafrazează concepte diferit de rezumatele de referință. Două rezumate ar putea transmite informații aproape identice, dar pot primi scoruri scăzute la nivel de suprafață din cauza diferențelor de vocabular.

BERTScore este o modalitate de a evalua automat cât de bun este un rezumat, comparându-l cu un rezumat de referință scris de un om. Folosește BERT, o tehnică populară NLP, pentru a înțelege semnificația și contextul cuvintelor din rezumatul candidatului și rezumatul de referință. Mai exact, analizează fiecare cuvânt sau simbol din rezumatul candidatului și găsește cel mai asemănător cuvânt în rezumatul de referință pe baza înglobărilor BERT, care sunt reprezentări vectoriale ale sensului și contextului fiecărui cuvânt. Măsoară asemănarea folosind asemănarea cosinus, care arată cât de apropiați sunt vectorii unul de celălalt. Pentru fiecare cuvânt din rezumatul candidatului, acesta găsește cel mai apropiat cuvânt din rezumatul de referință folosind înțelegerea limbajului de către BERT. Compară toate aceste asemănări de cuvinte în întregul rezumat pentru a obține un scor general al cât de similar este semantic rezumatul candidatului cu rezumatul de referință. Cu cât cuvintele și semnificațiile captate de BERT sunt mai asemănătoare, cu atât scorul BERT este mai mare. Acest lucru îi permite să evalueze automat calitatea unui rezumat generat, comparându-l cu o referință umană, fără a avea nevoie de evaluare umană de fiecare dată.

Pentru a ilustra acest lucru, imaginați-vă că aveți un rezumat generat de mașini: „Vulpea maro iute sare peste câinele leneș”. Acum, să luăm în considerare un rezumat de referință creat de om: „O vulpe maro iute sare peste un canin adormit”.

Calculați un scor BERT

Parcurgeți următorii pași pentru a calcula un BERTScore:

  1. BERTScore folosește încorporarea contextuală pentru a reprezenta fiecare simbol atât în ​​propozițiile candidate (generate de mașină), cât și în propozițiile de referință (create de om). Înglobările contextuale sunt un tip de reprezentare a cuvântului în NLP care surprinde semnificația unui cuvânt pe baza contextului său într-o propoziție sau text. Spre deosebire de înglobarile tradiționale de cuvinte care atribuie un vector fix fiecărui cuvânt, indiferent de contextul său, înglobările contextuale consideră că cuvintele din jur generează o reprezentare unică pentru fiecare cuvânt, în funcție de modul în care este utilizat într-o anumită propoziție.
  2. Metrica calculează apoi similitudinea dintre fiecare simbol din propoziția candidată cu fiecare simbol din propoziția de referință folosind asemănarea cosinusului. Similitudinea cosinus ne ajută să cuantificăm cât de strâns legate sunt două seturi de date concentrându-ne pe direcția pe care o indică într-un spațiu multidimensional, făcându-l un instrument valoros pentru sarcini precum algoritmii de căutare, NLP și sistemele de recomandare.
  3. Comparând înglobările contextuale și calculând scorurile de similaritate pentru toate indicatoarele, BERTScore generează o evaluare cuprinzătoare care surprinde relevanța semantică și contextul rezumatului generat în comparație cu referința creată de om.
  4. Ieșirea finală BERTScore oferă un scor de similaritate care reflectă cât de bine se aliniază rezumatul generat de mașină cu rezumatul de referință în ceea ce privește sensul și contextul.

În esență, BERTScore depășește metricile tradiționale, luând în considerare nuanțele semantice și contextul propozițiilor, oferind o evaluare mai sofisticată care oglindește îndeaproape judecata umană. Această abordare avansată îmbunătățește acuratețea și fiabilitatea evaluării sarcinilor de rezumat, făcând din BERTScore un instrument valoros în evaluarea sistemelor de generare de text.

Limitări:

Deși BERTScore oferă avantaje semnificative în evaluarea sarcinilor de rezumat, acesta vine și cu anumite limitări care trebuie luate în considerare:

  • Intensitate de calcul – BERTScore poate fi intensiv din punct de vedere computațional datorită dependenței sale de modele de limbaj pre-antrenate precum BERT. Acest lucru poate duce la timpi de evaluare mai lungi, mai ales atunci când procesează volume mari de date text.
  • Dependența de modele pre-antrenate – Eficacitatea BERTScore depinde în mare măsură de calitatea și relevanța modelului de limbaj pre-instruit utilizat. În scenariile în care modelul pre-antrenat poate să nu surprindă în mod adecvat nuanțele textului, rezultatele evaluării pot fi afectate.
  • scalabilitate – Scalarea BERTScore pentru seturi mari de date sau aplicații în timp real poate fi o provocare din cauza cerințelor sale de calcul. Implementarea BERTScore în mediile de producție poate necesita strategii de optimizare pentru a oferi performanțe eficiente.
  • Specificul domeniului – Performanța BERTScore poate varia în diferite domenii sau tipuri de text specializate. Adaptarea metricii la domenii sau sarcini specifice poate necesita o reglare fină sau ajustări pentru a produce evaluări precise.
  • interpretabilitate – Deși BERTScore oferă o evaluare cuprinzătoare bazată pe înglobări contextuale, interpretarea motivelor specifice din spatele scorurilor de similaritate generate pentru fiecare simbol poate fi complexă și poate necesita o analiză suplimentară.
  • Evaluare fără referințe – Deși BERTScore reduce dependența de rezumatele de referință pentru evaluare, este posibil ca această abordare fără referințe să nu surprindă pe deplin toate aspectele calității sintetizării, în special în scenariile în care referințele create de om sunt esențiale pentru evaluarea relevanței și coerenței conținutului.

Recunoașterea acestor limitări vă poate ajuta să luați decizii în cunoștință de cauză atunci când utilizați BERTScore ca măsură pentru evaluarea sarcinilor de rezumat, oferind o înțelegere echilibrată a punctelor forte și a constrângerilor sale.

Când să utilizați BERTScore

BERTScore poate evalua calitatea rezumatului textului comparând un rezumat generat cu un rezumat de referință. Folosește rețele neuronale precum BERT pentru a măsura asemănarea semantică dincolo de potrivirea exactă a cuvintelor sau a frazelor. Acest lucru face ca BERTScore să fie foarte util atunci când fidelitatea semantică, păstrarea întregului sens și conținutul este esențială pentru sarcina dvs. de rezumat. BERTScore va acorda scoruri mai mari rezumatelor care transmit aceleași informații ca și rezumatul de referință, chiar dacă folosesc cuvinte și structuri de propoziție diferite. Concluzia este că BERTScore este ideal pentru sarcinile de rezumat în care păstrarea semnificației semantice complete, nu doar cuvintele cheie sau subiectele este vitală. Scorul său neuronal avansat îi permite să compare sensul dincolo de potrivirea cuvintelor la nivel de suprafață. Acest lucru îl face potrivit pentru cazurile în care diferențele subtile de formulare pot modifica substanțial sensul și implicațiile generale. BERTScore, în special, excelează în capturarea similitudinii semantice, care este crucială pentru evaluarea calității rezumatelor abstracte precum cele produse de modelele Retrieval Augmented Generation (RAG).

Modele de cadre de evaluare

Cadrele de evaluare a modelelor sunt esențiale pentru măsurarea cu precizie a performanței diferitelor modele de rezumare. Aceste cadre sunt esențiale în compararea modelelor, oferind coerență între rezumatele generate și conținutul sursă și identificarea deficiențelor în metodele de evaluare. Prin efectuarea de evaluări amănunțite și evaluare comparativă consecventă, aceste cadre propulsează cercetarea de rezumare a textului, susținând practici de evaluare standardizate și permițând comparații cu mai multe fațete ale modelelor.

În AWS, Biblioteca FMEval în Amazon SageMaker Clarify eficientizează evaluarea și selecția modelelor de bază (FM) pentru sarcini precum rezumarea textului, răspunsul la întrebări și clasificarea. Vă permite să evaluați FM pe baza unor metrici precum acuratețea, robustețea, creativitatea, părtinirea și toxicitatea, susținând atât evaluări automate, cât și evaluări umane în buclă pentru LLM. Cu evaluări bazate pe UI sau programatice, FMEval generează rapoarte detaliate cu vizualizări pentru a cuantifica riscurile modelului, cum ar fi inexactități, toxicitate sau părtinire, ajutând organizațiile să se alinieze la liniile directoare AI generative responsabile. În această secțiune, demonstrăm cum să utilizați biblioteca FMEval.

Evaluați Claude v2 cu privire la acuratețea rezumatului folosind Amazon Bedrock

Următorul fragment de cod este un exemplu de interacțiune cu modelul Anthropic Claude folosind codul Python:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

În termeni simpli, acest cod efectuează următoarele acțiuni:

  1. Importați bibliotecile necesare, inclusiv json, pentru a lucra cu date JSON.
  2. Definiți ID-ul modelului ca anthropic.claude-v2 și setați tipul de conținut pentru cerere.
  3. Crearea unei prompt_data variabilă care structurează datele de intrare pentru modelul Claude. În acest caz, se pune întrebarea „Cine este Barack Obama?” și așteaptă un răspuns de la model.
  4. Construiți un obiect JSON numit body care include datele prompt și specificați parametri suplimentari, cum ar fi numărul maxim de jetoane de generat.
  5. Invocați modelul Claude folosind bedrock_runtime.invoke_model cu parametrii definiți.
  6. Analizați răspunsul din model, extrageți completarea (textul generat) și imprimați-l.

Asigurați-vă că Gestionarea identității și accesului AWS (IAM) rol asociat cu Amazon SageMaker Studio profilul de utilizator are acces la Amazon Bedrock modelele fiind invocate. A se referi la Exemple de politici bazate pe identitate pentru Amazon Bedrock pentru îndrumări privind cele mai bune practici și exemple de politici bazate pe identitate pentru Amazon Bedrock.

Utilizarea bibliotecii FMEval pentru a evalua rezultatul rezumat de la Claude

Folosim următorul cod pentru a evalua rezultatul rezumat:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

În fragmentul de cod precedent, pentru a evalua rezumarea textului folosind biblioteca FMEval, parcurgem următorii pași:

  1. Crearea unei ModelRunner pentru a efectua invocarea pe LLM. Biblioteca FMEval oferă suport încorporat pentru Amazon SageMaker puncte finale și Amazon SageMaker JumpStart LLM-uri. De asemenea, puteți extinde ModelRunner interfață pentru orice LLM găzduit oriunde.
  2. Utilizare acceptată eval_algorithms cum ar fi toxicitatea, rezumarea, acuratețea, semantica și robustețea, pe baza nevoilor dvs. de evaluare.
  3. Personalizați parametrii de configurare a evaluării pentru cazul dvs. de utilizare specific.
  4. Utilizați algoritmul de evaluare cu seturi de date încorporate sau personalizate pentru a vă evalua modelul LLM. Setul de date utilizat în acest caz provine din următoarele GitHub repo.

Consultați ghid pentru dezvoltatori și exemple pentru utilizarea detaliată a algoritmilor de evaluare.

Următorul tabel rezumă rezultatele evaluării.

model _input model_output ieșire_țintă prompt scorurile scor_meteor rouge_score bert_score
John Edward
0 Bates, fostul lui Spalding, Linco…..
Nu pot face nimic definitiv
judecăți, ca...
Un fost
Ofițerul de poliție din Lincolnshire transportat la...
Om: John
Edward Bates, fost de la Spalding...
[{'nume': 'meteor', 'valoare':
0.101010101010101 ...
0.10101 0 0.557155
23 octombrie 2015
Ultima actualizare la
17:44 BST|nEste...
Iată câteva puncte cheie despre uragan/trop.. Uraganul Patricia a fost evaluat ca o categorie... Om: 23
Octombrie 2015 Ultima actualizare la 17:44
B…
[{'nume': meteor', „valoare':
0.102339181286549 ..
0.102339 0.018265 0.441421
Ferrari a apărut în situația de a provoca un... Iată punctele cheie din articol: nin... Lewis Hamilton a ajuns la pole position la... Om: Ferrari a apărut în măsură să provoace... [{'nume': 'meteor', 'valoare':
0.322543352601156 ...
0.322543 0.078212 0.606487
Jucătorul din Bath, în vârstă de 28 de ani, a făcut 36
apare…
Bine, permiteți-mi să rezum punctele cheie:/nin-E….. Newport Gwent Dragons numărul opt Ed Jackson Human: Jucătorul născut în Bath, în vârstă de 28 de ani, a făcut 36 de... [{'nume': 'meteor', 'valoare':
0105740181268882 ...
0.10574 0.012987 0.539488
Puncte slabe în modul în care șoarecii au schimbat datele cu c... Iată punctele cheie pe care le-am adunat din a... Hackerii ar putea avea acces la acasă și uman:
Puncte slabe în
șoarecii swar au schimbat date
[{'nume': 'meteor', 'valoare':
0.201048289433848 ...
0.201048 0.021858 0.526947

Verificați eșantionul caiet pentru mai multe detalii despre evaluarea de rezumat despre care am discutat în acest post.

Concluzie

ROUGE, METEOR și BERTScore măsoară toate calitatea rezumatelor generate de mașină, dar se concentrează pe diferite aspecte precum suprapunerea lexicală, fluența sau similitudinea semantică. Asigurați-vă că selectați valoarea care se aliniază cu ceea ce definește „bun” pentru cazul dvs. specific de utilizare a rezumatului. De asemenea, puteți utiliza o combinație de valori. Acest lucru oferă o evaluare mai completă și protejează împotriva potențialelor puncte slabe ale oricărei valori individuale. Cu măsurătorile potrivite, vă puteți îmbunătăți în mod iterativ rezumatoarele pentru a îndeplini orice noțiune de acuratețe contează cel mai mult.

În plus, evaluarea FM și LLM este necesară pentru a putea produce aceste modele la scară. Cu FMEval, obțineți un set vast de algoritmi încorporați pentru multe sarcini NLP, dar și un instrument scalabil și flexibil pentru evaluări la scară largă ale propriilor modele, seturi de date și algoritmi. Pentru a extinde, puteți utiliza acest pachet în conductele dvs. LLMOps pentru evalua mai multe modele. Pentru a afla mai multe despre FMEval în AWS și despre cum să îl utilizați eficient, consultați Utilizați SageMaker Clarify pentru a evalua modele mari de limbaj. Pentru mai multe înțelegeri și informații despre capacitățile SageMaker Clarify în evaluarea FM, consultați Amazon SageMaker Clarify facilitează evaluarea și selectarea modelelor de fundație.


Despre Autori


Dinesh Kumar Subramani este un arhitect senior de soluții cu sediul în Edinburgh, Scoția. El este specializat în inteligență artificială și învățare automată și este membru al comunității de domeniu tehnic din Amazon. Dinesh lucrează îndeaproape cu clienții guvernului central din Regatul Unit pentru a-și rezolva problemele folosind serviciile AWS. În afara serviciului, lui Dinesh îi place să petreacă timp de calitate cu familia sa, să joace șah și să exploreze o gamă variată de muzică.


Pranav Sharma este un lider AWS care conduce tehnologia și inițiativele de transformare a afacerilor în Europa, Orientul Mijlociu și Africa. Are experiență în proiectarea și conducerea platformelor de inteligență artificială în producție care sprijină milioane de clienți și oferă rezultate de afaceri. El a jucat roluri de lider în tehnologie și oameni pentru organizațiile Global Financial Services. În afara serviciului, îi place să citească, să joace tenis cu fiul său și să se uite la filme.

spot_img

Ultimele informații

spot_img

Chat cu noi

Bună! Cu ce ​​​​vă pot ajuta?