Generatiivne andmeluure

Hinnake LLM-ide teksti kokkuvõtete võimalusi, et täiustada AWS-i puudutavaid otsuseid | Amazoni veebiteenused

kuupäev:

Erinevate tööstusharude organisatsioonid kasutavad automaatset teksti kokkuvõtet, et tõhusamalt hallata tohutul hulgal teavet ja teha paremaid otsuseid. Finantssektoris koondavad investeerimispangad tuluaruanded peamiste tulemusteni, et kiiresti analüüsida kvartalitulemusi. Meediaettevõtted kasutavad uudiste ja sotsiaalmeedia jälgimiseks kokkuvõtet, et ajakirjanikud saaksid kiiresti arenevatel teemadel lugusid kirjutada. Valitsusasutused võtavad kokku pikad poliitikadokumendid ja aruanded, et aidata poliitikakujundajatel eesmärke strateegiaid koostada ja prioriteete seada.

Luues pikkadest keerukatest dokumentidest koondversioone, võimaldab kokkuvõttetehnoloogia kasutajatel keskenduda kõige silmatorkavamale sisule. See aitab kaasa kriitilise teabe paremale mõistmisele ja säilitamisele. Aja kokkuhoid võimaldab sidusrühmadel lühema ajaga rohkem materjali läbi vaadata, saades seeläbi laiema vaatenurga. Täiustatud arusaamise ja sünteesitud arusaamade abil saavad organisatsioonid teha paremini teadlikke strateegilisi otsuseid, kiirendada uurimistööd, parandada tootlikkust ja suurendada nende mõju. Täiustatud kokkuvõtete tegemise võimaluste ümberkujundamisjõud ainult kasvab, kui rohkem tööstusharusid võtab üle tehisintellekti (AI) kasutusele, et kasutada ülevoolavat teabevoogu.

Selles postituses uurime juhtivaid lähenemisviise kokkuvõtte täpsuse objektiivseks hindamiseks, sealhulgas ROUGE mõõdikud, METEOR ja BERTScore. Nende tehnikate tugevate ja nõrkade külgede mõistmine võib aidata valiku- ja täiustamispüüdlusi suunata. Selle postituse üldeesmärk on demüstifitseerida kokkuvõtte hindamine, et aidata meeskondadel väärtust maksimeerida püüdes selle kriitilise võime osas paremini võrrelda.

Kokkuvõtte tüübid

Kokkuvõte võib üldiselt jagada kahte põhitüüpi: väljavõtlik kokkuvõte ja abstraktne kokkuvõte. Mõlema lähenemisviisi eesmärk on tihendada pikki tekstiosasid lühemateks vormideks, püüdes kinni algsisu kõige kriitilisema teabe või olemuse, kuid nad teevad seda põhimõtteliselt erineval viisil.

Väljavõtteline kokkuvõte hõlmab võtmefraaside, lausete või lõikude tuvastamist ja eraldamist algtekstist neid muutmata. Süsteem valib tekstist osad, mida peetakse kõige informatiivsemaks või tervikut esindavamaks. Väljavõtteline kokkuvõte on kasulik, kui täpsus on kriitiline ja kokkuvõte peab kajastama täpset teavet originaaltekstist. Need võivad olla kasutusjuhtumid, nagu kasutustingimustes kirjeldatud konkreetsete juriidiliste tingimuste, kohustuste ja õiguste esiletõstmine. Kõige levinumad meetodid, mida kasutatakse väljavõtlikuks kokkuvõtmiseks, on terminite sagedus-pöörddokumentide sagedus (TF-IDF), lause punktiarvestus, tekstijärjestuse algoritm ja juhendatud masinõpe (ML).

Abstraktne kokkuvõte läheb sammu edasi, genereerides uusi fraase ja lauseid, mida algtekstis ei olnud, sisuliselt ümberfraseerides ja tihendades algset sisu. Selline lähenemine nõuab teksti sügavamat mõistmist, sest tehisintellekt peab tõlgendama tähendust ja seejärel väljendama seda uuel, kokkuvõtlikul kujul. Suured keelemudelid (LLM-id) sobivad kõige paremini abstraktseks kokkuvõteteks, kuna trafomudelid kasutavad kokkuvõtete loomisel tähelepanu mehhanisme, et keskenduda sisendteksti asjakohastele osadele. Tähelepanumehhanism võimaldab mudelil määrata sisestusjärjestuses erinevatele sõnadele või märkidele erinevad kaalud, võimaldades sellel jäädvustada pikamaa sõltuvusi ja kontekstuaalselt asjakohast teavet.

Lisaks neile kahele põhitüübile on olemas hübriidsed lähenemisviisid, mis ühendavad ekstraheerivad ja abstraktsed meetodid. Need lähenemisviisid võivad alata ekstraheeriva kokkuvõtte tegemisega, et tuvastada kõige olulisem sisu, ja seejärel kasutada abstraktseid tehnikaid selle sisu ümberkirjutamiseks või koondamiseks ladusaks kokkuvõtteks.

Väljakutse

Kokkuvõtliku kvaliteedi hindamiseks optimaalse meetodi leidmine jääb lahtiseks väljakutseks. Kuna organisatsioonid toetuvad dokumentidest põhiteabe eraldamiseks üha enam automaatsele tekstikokkuvõtte tegemisele, kasvab vajadus standardiseeritud tehnikate järele kokkuvõtte täpsuse mõõtmiseks. Ideaalis saaksid need hindamismõõdikud kvantifitseerida, kui hästi masingenereeritud kokkuvõtted eraldavad lähtetekstidest kõige silmatorkavama sisu ja esitavad ühtsed kokkuvõtted, mis kajastavad algset tähendust ja konteksti.

Siiski tekitab teksti kokkuvõtete tegemiseks tugeva hindamismetoodika väljatöötamine raskusi:

  • Võrdluseks kasutatavad inimeste koostatud võrdluskokkuvõtted näitavad sageli suurt varieeruvust, mis põhineb subjektiivsel tähtsuse määramisel
  • Kokkuvõtte kvaliteedi nüansirikkaid aspekte, nagu sujuvus, loetavus ja sidusus, on programmiliselt keeruline kvantifitseerida
  • Kokkuvõtemeetodite vahel on suured erinevused alates statistilistest algoritmidest kuni närvivõrkudeni, mis raskendab otseseid võrdlusi

Tagasikutsumisele orienteeritud põhihindamise alusuuring (ROUGE)

ROUGE mõõdikud, nagu ROUGE-N ja ROUGE-L, mängivad otsustavat rolli masinaga loodud kokkuvõtete kvaliteedi hindamisel võrreldes inimeste kirjutatud võrdluskokkuvõtetega. Need mõõdikud keskenduvad masinaga loodud ja inimese koostatud kokkuvõtete sisu kattuvuse hindamisele, analüüsides n-gramme, mis on sõnade või märkide rühmad. Näiteks ROUGE-1 hindab üksikute sõnade (unigrammide) sobivust, samas kui ROUGE-2 sõnapaare (bigrammid). Lisaks hindab ROUGE-N kahe teksti vahelist kõige pikemat ühist sõnade alamjada, võimaldades sõnajärje paindlikkust.

Selle illustreerimiseks vaadake järgmisi näiteid.

  • ROGUE-1 mõõdik – ROUGE-1 hindab genereeritud kokkuvõtte ja võrdluskokkuvõtte unigrammide (üksikute sõnade) kattumist. Näiteks kui võrdluskokkuvõte sisaldab "Kiire pruun rebane hüppab" ja loodud kokkuvõte on "Pruunrebane hüppab kiiresti", peaks ROUGE-1 mõõdik "pruun", "rebane" ja "hüpped" kattuvateks. unigrammid. ROUGE-1 keskendub üksikute sõnade olemasolule kokkuvõtetes, mõõtes, kui hästi genereeritud kokkuvõte kajastab viitekokkuvõtte võtmesõnu.
  • ROGUE-2 mõõdik – ROUGE-2 hindab bigrammide (kõrvuti asetsevate sõnade paaride) kattumist genereeritud kokkuvõtte ja võrdluskokkuvõtte vahel. Näiteks kui võrdluskokkuvõttes on kirjas "Kass magab" ja loodud kokkuvõte kõlab "Kass magab", tuvastab ROUGE-2 sõnade "kass on" ja "magab" kattuva biggrammina. ROUGE-2 annab ülevaate sellest, kui hästi säilitab loodud kokkuvõte sõnapaaride järjestust ja konteksti võrdluskokkuvõttega võrreldes.
  • ROUGE-N mõõdik – ROUGE-N on üldistatud vorm, kus N tähistab mis tahes arvu, mis võimaldab hinnata n-grammi (N sõna jada) põhjal. Võttes arvesse N=3, kui võrdluskokkuvõttes on kirjas "Päike paistab eredalt" ja genereeritud kokkuvõte on "Päike paistab eredalt", tuvastaks ROUGE-3 sobiva trigrammina "päike paistab eredalt". ROUGE-N pakub paindlikkust erinevate pikkuste sõnajadade põhjal kokkuvõtete hindamiseks, pakkudes sisulisemat kattuvust.

Need näited illustreerivad, kuidas mõõdikud ROUGE-1, ROUGE-2 ja ROUGE-N toimivad automaatse kokkuvõtte või masintõlkeülesannete hindamisel, võrreldes loodud kokkuvõtteid erinevatel sõnajadade tasemetel põhinevate viitekokkuvõtetega.

Arvutage ROUGE-N skoor

ROUGE-N skoori arvutamiseks võite kasutada järgmisi samme.

  1. Jaotage loodud kokkuvõte ja viitekokkuvõte üksikuteks sõnadeks või märkideks, kasutades põhilisi märgistamismeetodeid, nagu tühikute abil jagamine või loomuliku keele töötlemise (NLP) teegid.
  2. Genereerige nii genereeritud kokkuvõttest kui ka võrdluskokkuvõttest n-gramme (N sõna külgnevad jadad).
  3. Loendage loodud kokkuvõtte ja võrdluskokkuvõtte vahel kattuvate n-grammide arv.
  4. Arvutage täpsus, meeldetuletus ja F1 skoori:
    • Täpsus – kattuvate n-grammide arv jagatud n-grammide koguarvuga genereeritud kokkuvõttes.
    • Tagasikutsumine – kattuvate n-grammide arv jagatud n-grammide koguarvuga võrdluskokkuvõttes.
    • F1 skoor – täpsuse ja tagasikutsumise harmooniline keskmine, arvutatuna (2 * täpsus * tagasikutsumine) / (täpsus + meeldetuletus).
  5. Andmestiku iga rea ​​täpsuse, meeldetuletuse ja F1 skoori arvutamisel saadud F1 koondskoori loetakse ROUGE-N skooriks.

Piirangud

ROGUE'il on järgmised piirangud:

  • Kitsas fookus leksikaalsel kattumisel – ROUGE’i põhiidee on võrrelda süsteemi loodud kokkuvõtet viidete või inimeste loodud kokkuvõtetega ning mõõta nende vahelist leksikaalset kattuvust. See tähendab, et ROUGE keskendub sõnatasandi sarnasusele väga kitsalt. See ei hinda tegelikult kokkuvõtte semantilist tähendust, sidusust ega loetavust. Süsteem võib saavutada kõrged ROUGE-i skoori, kui lihtsalt eraldab algtekstist laused sõna-sõnalt, ilma et tekiks ühtset või ülevaatlikku kokkuvõtet.
  • Tundmatus parafraseerimise suhtes – Kuna ROUGE tugineb leksikaalsele sobitamisele, ei suuda see tuvastada sõnade ja fraaside semantilist samaväärsust. Seetõttu põhjustab parafraseerimine ja sünonüümide kasutamine sageli madalamaid ROUGE skoore, isegi kui tähendus säilib. See kahjustab süsteeme, mis parafraseerivad või võtavad kokku abstraktselt.
  • Semantilise mõistmise puudumine – ROUGE ei hinda, kas süsteem sai päriselt aru algteksti tähendustest ja mõistetest. Kokkuvõte võib saavutada suure leksikaalse kattuvuse viidetega, samas puududes peamised ideed või sisaldades faktilisi vastuolusid. ROUGE ei tuvastaks neid probleeme.

Millal ROUGE'i kasutada

ROUGE on lihtne ja kiire arvutada. Kasutage seda sisuvalikuga seotud kokkuvõtliku kvaliteedi lähte- või võrdlusalusena. ROUGE-i mõõdikuid kasutatakse kõige tõhusamalt stsenaariumides, mis hõlmavad abstraktseid kokkuvõtte ülesandeid, automaatset kokkuvõtete hindamist, LLM-ide hinnanguid ja erinevate kokkuvõtlike lähenemisviiside võrdlevaid analüüse. Nendes kontekstides ROUGE-i mõõdikuid kasutades saavad sidusrühmad kvantitatiivselt hinnata kokkuvõtlike loomise protsesside kvaliteeti ja tõhusust.

Mõõdik tõlke hindamiseks selge järjestusega (METEOR)

Üks peamisi väljakutseid kokkuvõttesüsteemide hindamisel on hinnata, kui hästi loodud kokkuvõte loogiliselt kulgeb, selle asemel, et valida lähtetekstist lihtsalt asjakohaseid sõnu ja fraase. Lihtsalt asjakohaste märksõnade ja lausete eraldamine ei pruugi anda ühtset ja sidusat kokkuvõtet. Kokkuvõte peaks kulgema sujuvalt ja ühendama ideid loogiliselt, isegi kui need ei ole originaaldokumendiga samas järjekorras.

Sobitamise paindlikkus, taandades sõnad nende tüvi- või põhivormiks (näiteks pärast tüvest muutuvad sõnad nagu "jooksmine", "jookseb" ja "jooksmine" kõik "jookseks") ja sünonüümid METEOR korreleerub paremini kokkuvõtliku kvaliteediga inimeste hinnangutega. See suudab tuvastada, kas oluline sisu on säilinud, isegi kui sõnastus on erinev. See on peamine eelis võrreldes n-grammipõhiste mõõdikutega, nagu ROUGE, mis otsivad ainult täpseid märgivaste. Samuti annab METEOR kõrgema hinde kokkuvõtetele, mis keskenduvad viite kõige olulisemale sisule. Madalamad hinded antakse korduvale või ebaolulisele teabele. See on hästi kooskõlas kokkuvõtte eesmärgiga, et säilitada ainult kõige olulisem sisu. METEOR on semantiliselt tähendusrikas mõõdik, mis ületab teksti kokkuvõtte hindamisel mõningaid n-grammi sobitamise piiranguid. Tüve ja sünonüümide lisamine võimaldab paremini hinnata teabe kattuvust ja sisu täpsust.

Selle illustreerimiseks vaadake järgmisi näiteid.

Viite kokkuvõte: Lehed langevad sügisel.

Loodud kokkuvõte 1: Lehed langevad sügisel.

Loodud kokkuvõte 2: Lehed suvel rohelised.

Viite ja loodud kokkuvõtte 1 vahel sobivad sõnad on esile tõstetud:

Viite kokkuvõte: Lehed langema sügise jooksul.

Loodud kokkuvõte 1: Lehed sisse astuma langema.

Kuigi “sügis” ja “sügis” on erinevad märgid, tunneb METEOR need sünonüümide sobitamise kaudu ära. "Kukkumine" ja "kukkumine" on identifitseeritud varrega vastena. Loodud kokkuvõtte 2 puhul ei leidu peale „Lehed” ühtegi vastet võrdluskokkuvõttega, nii et see kokkuvõte saaks palju madalama METEOR-skoori. Mida rohkem semantiliselt tähendusrikkaid vasteid, seda kõrgem on METEORi skoor. See võimaldab METEORil paremini hinnata kokkuvõtete sisu ja täpsust võrreldes lihtsa n-grammi sobitamisega.

Arvutage METEOR skoor

METEOR-skoori arvutamiseks toimige järgmiselt.

  1. Märgistage loodud kokkuvõte ja viitekokkuvõte üksikuteks sõnadeks või märkideks, kasutades põhilisi märgistamismeetodeid, nagu tühikute või NLP-teekide kaupa jagamine.
  2. Arvutage unigrammi täpsus, meeldetuletus ja F-keskmine skoor, andes meeldetuletamisele rohkem kaalu kui täpsust.
  3. Määrake täpsete vastete eest karistus, et vältida nende ületähtsutamist. Karistus valitakse andmestiku omaduste, ülesande nõuete ning täpsuse ja tagasikutsumise vahelise tasakaalu põhjal. Lahutage see karistus 2. etapis arvutatud F-keskmisest skoorist.
  4. Arvutage tüveliste vormide F-keskmine skoor (taandades sõnad nende põhi- või tüvivormiks) ja unigrammide sünonüümid, kui see on asjakohane. Lõpliku METEORi skoori saamiseks liitke see varem arvutatud F-keskmise skooriga. METEORi skoor jääb vahemikku 0–1, kus 0 näitab, et loodud kokkuvõtte ja võrdluskokkuvõtte vahel puudub sarnasus ning 1 näitab täiuslikku joondamist. Tavaliselt jäävad kokkuvõtteskoorid vahemikku 0–0.6.

Piirangud

METEORi mõõdiku kasutamisel kokkuvõtteülesannete hindamiseks võib tekkida mitmeid väljakutseid:

  • Semantiline keerukus – METEORi rõhuasetus semantilisele sarnasusele võib keeruliste kokkuvõteülesannete puhul nüansirikaste tähenduste ja konteksti tabamisel raskusi, mis võib viia hindamisel ebatäpsusteni.
  • Võrdluse varieeruvus – Inimese loodud võrdluskokkuvõtete varieeruvus võib mõjutada METEORi skoori, kuna erinevused viite sisus võivad mõjutada masinaga loodud kokkuvõtete hindamist.
  • Keeleline mitmekesisus – METEORi tõhusus võib keeleliste variatsioonide, süntaksierinevuste ja semantiliste nüansside tõttu erineda erinevates keeltes, mis tekitab väljakutseid mitmekeelsete kokkuvõtete hindamisel.
  • Pikkuse lahknevus – Erineva pikkusega kokkuvõtete hindamine võib METEORi jaoks olla keeruline, kuna pikkuse erinevused võrdluskokkuvõttega võrreldes võivad kaasa tuua karistusi või ebatäpsusi hindamisel.
  • Parameetrite häälestamine – METEORi parameetrite optimeerimine erinevate andmekogumite ja summeerimisülesannete jaoks võib olla aeganõudev ja nõuab hoolikat häälestamist, et tagada mõõdiku täpsed hinnangud.
  • Hindamise eelarvamus – Kui METEOR ei ole konkreetsete kokkuvõtlike valdkondade või ülesannete jaoks õigesti kohandatud või kalibreeritud, võib esineda hindamise kallutatuse oht. See võib potentsiaalselt viia moonutatud tulemusteni ja mõjutada hindamisprotsessi usaldusväärsust.

Teades neid väljakutseid ja võttes neid arvesse METEORi kasutamisel kokkuvõtteülesannete mõõdikuna, saavad teadlased ja praktikud navigeerida võimalike piirangute osas ja teha oma hindamisprotsessides teadlikumaid otsuseid.

Millal kasutada METEORi

Meteorit kasutatakse tavaliselt tekstikokkuvõtete kvaliteedi automaatseks hindamiseks. Eelistatav on kasutada METEORi hindamismõõdikuna, kui ideede, kontseptsioonide või üksuste järjekord kokkuvõttes on oluline. METEOR arvestab järjekorda ja sobitab loodud kokkuvõtte ja viitekokkuvõtete n-grammid. See premeerib kokkuvõtteid, mis säilitavad järjestikust teavet. Erinevalt sellistest mõõdikutest nagu ROUGE, mis tuginevad n-grammide kattumisele viitekokkuvõtetega, sobitab METEOR tüvesid, sünonüüme ja parafraase. METEOR töötab paremini, kui originaalteksti kokkuvõtmiseks on mitu õiget viisi. METEOR sisaldab n-grammide sobitamisel WordNeti sünonüüme ja tüvimärke. Lühidalt öeldes saavad kokkuvõtted, mis on semantiliselt sarnased, kuid kasutavad erinevaid sõnu või fraasi, siiski hästi. METEORil on sisseehitatud karistus korduvate n-grammidega kokkuvõtete eest. Seetõttu takistab see sõna-sõnalt ekstraheerimist või abstraktsiooni puudumist. METEOR on hea valik, kui semantiline sarnasus, ideede järjekord ja ladus sõnastus on kokkuvõtte kvaliteedi hindamisel olulised. See on vähem sobiv ülesannete jaoks, kus oluline on ainult leksikaalne kattumine viitekokkuvõtetega.

BERTScore

Pinnatasandi leksikaalsed mõõdikud, nagu ROUGE ja METEOR, hindavad kokkuvõtesüsteeme, võrreldes kandidaadi kokkuvõtte ja võrdluskokkuvõtte sõnade kattumist. Kuid nad sõltuvad suuresti sõnade ja fraaside täpsest stringide sobitamisest. See tähendab, et neil võib puududa semantiline sarnasus sõnade ja fraaside vahel, millel on erinevad pinnavormid, kuid sarnased alustähendused. Tuginedes ainult pinnasobitamisele, võivad need mõõdikud alahinnata süsteemi kokkuvõtete kvaliteeti, mis kasutavad sünonüümsõnu või parafraasi mõisteid erinevalt võrdluskokkuvõtetest. Kaks kokkuvõtet võivad edastada peaaegu identset teavet, kuid saavad sõnavara erinevuste tõttu madalad pinnataseme hinded.

BERTScore on viis, kuidas automaatselt hinnata, kui hea kokkuvõte on, võrreldes seda inimese kirjutatud võrdluskokkuvõttega. See kasutab kandidaatide kokkuvõttes ja viitekokkuvõttes olevate sõnade tähenduse ja konteksti mõistmiseks populaarset NLP-tehnikat BERT. Täpsemalt vaatleb see kandidaadi kokkuvõttes iga sõna või märki ja leiab viitekokkuvõttest kõige sarnasema sõna, tuginedes BERT-i manustele, mis on iga sõna tähenduse ja konteksti vektorkujutised. See mõõdab sarnasust koosinussarnasuse abil, mis näitab, kui lähedased vektorid üksteisele on. Kandidaadi kokkuvõtte iga sõna kohta leiab ta võrdluskokkuvõttest kõige enam seotud sõna, kasutades BERTi keelest arusaamist. See võrdleb kõiki neid sõnade sarnasusi kogu kokkuvõttes, et saada üldine hind selle kohta, kui semantiliselt sarnane on kandidaadi kokkuvõte võrdluskokkuvõttega. Mida sarnasemad on BERTi jäädvustatud sõnad ja tähendused, seda kõrgem on BERTScore. See võimaldab tal automaatselt hinnata loodud kokkuvõtte kvaliteeti, võrreldes seda inimese viitega, ilma et oleks vaja iga kord inimese hinnangut.

Selle illustreerimiseks kujutage ette, et teil on masinaga loodud kokkuvõte: "Kiire pruun rebane hüppab üle laiska koera." Vaatleme nüüd inimese loodud võrdluskokkuvõtet: "Kiire pruun rebane hüppab üle magava koera."

Arvutage BERTScore

BERTScore arvutamiseks toimige järgmiselt.

  1. BERTScore kasutab kontekstipõhist manustamist, et esindada iga märgi nii kandidaatlauses (masina loodud) kui ka viitelauses (inimese loodud). Kontekstuaalne manustamine on NLP-s teatud tüüpi sõnaesitus, mis fikseerib sõna tähenduse selle konteksti alusel lauses või tekstis. Erinevalt traditsioonilistest sõnamanustustest, mis määravad igale sõnale fikseeritud vektori olenemata selle kontekstist, arvestavad kontekstuaalsed manused ümbritsevaid sõnu loomaks iga sõna jaoks kordumatu esituse sõltuvalt sellest, kuidas seda konkreetses lauses kasutatakse.
  2. Seejärel arvutab mõõdik koosinussarnasust kasutades kandidaatlause iga märgi ja võrdluslause iga märgi sarnasuse. Koosinussarnasus aitab meil kvantifitseerida, kui tihedalt seotud on kaks andmekogumit, keskendudes nende suunale mitmemõõtmelises ruumis, muutes selle väärtuslikuks tööriistaks selliste ülesannete jaoks nagu otsingualgoritmid, NLP ja soovitussüsteemid.
  3. Võrreldes kontekstuaalseid manuseid ja arvutades kõigi märkide jaoks sarnasusskoore, loob BERTScore põhjaliku hinnangu, mis kajastab loodud kokkuvõtte semantilist asjakohasust ja konteksti võrreldes inimese loodud viitega.
  4. Lõplik BERTScore väljund annab sarnasuse skoori, mis peegeldab seda, kui hästi on masinaga loodud kokkuvõte tähenduse ja konteksti poolest võrdluskokkuvõttega vastavuses.

Sisuliselt läheb BERTScore traditsioonilistest mõõdikutest kaugemale, võttes arvesse lausete semantilisi nüansse ja konteksti, pakkudes keerukamat hinnangut, mis peegeldab täpselt inimeste hinnanguid. See täiustatud lähenemisviis suurendab kokkuvõtete tegemise ülesannete hindamise täpsust ja usaldusväärsust, muutes BERTScore'i tekstigenereerimissüsteemide hindamisel väärtuslikuks tööriistaks.

Piirangud:

Kuigi BERTScore pakub kokkuvõtteülesannete hindamisel olulisi eeliseid, on sellel ka teatud piirangud, millega tuleb arvestada:

  • Arvutusintensiivsus – BERTScore võib olla arvutusmahukas, kuna see tugineb eelkoolitatud keelemudelitele nagu BERT. See võib kaasa tuua pikema hindamisaja, eriti suurte tekstiandmete töötlemisel.
  • Sõltuvus eelkoolitatud mudelitest – BERTScore’i tõhusus sõltub suuresti kasutatava eelkoolitatud keelemudeli kvaliteedist ja asjakohasusest. Stsenaariumides, kus eelkoolitatud mudel ei pruugi teksti nüansse piisavalt tabada, võivad hindamistulemused mõjutada.
  • Skaalautuvus – BERTScore'i skaleerimine suurte andmekogumite või reaalajas rakenduste jaoks võib selle arvutusnõuete tõttu olla keeruline. BERTScore'i rakendamine tootmiskeskkondades võib tõhusa jõudluse tagamiseks vajada optimeerimisstrateegiaid.
  • Domeeni spetsiifilisus – BERTScore'i jõudlus võib erinevates domeenides või eritekstitüüpides erineda. Mõõdiku kohandamine konkreetsete domeenide või ülesannetega võib nõuda täpsete hinnangute saamiseks peenhäälestamist või kohandusi.
  • Tõlgendatavus – Kuigi BERTScore pakub kontekstipõhistel manustamistel põhinevat põhjalikku hindamist, võib iga märgi jaoks loodud sarnasusskooride konkreetsete põhjuste tõlgendamine olla keeruline ja vajada täiendavat analüüsi.
  • Viitevaba hindamine – Kuigi BERTScore vähendab hindamisel tuginemist viitekokkuvõtetele, ei pruugi see viitevaba lähenemisviis täielikult hõlmata kokkuvõtte kvaliteedi kõiki aspekte, eriti stsenaariumide puhul, kus inimeste loodud viited on sisu asjakohasuse ja sidususe hindamisel olulised.

Nende piirangute teadvustamine võib aidata teil teha teadlikke otsuseid, kui kasutate BERTScore'i kokkuvõtteülesannete hindamise mõõdikuna, pakkudes tasakaalustatud arusaama selle tugevatest külgedest ja piirangutest.

Millal BERTScore'i kasutada?

BERTScore saab hinnata teksti kokkuvõtte kvaliteeti, võrreldes loodud kokkuvõtet võrdluskokkuvõttega. Semantilise sarnasuse mõõtmiseks kasutab see närvivõrke, nagu BERT, lisaks sõnade või fraaside täpsele sobitamisele. See muudab BERTScore'i väga kasulikuks, kui semantiline täpsus, mis säilitab kogu tähenduse ja sisu, on kokkuvõtte tegemise ülesande jaoks ülioluline. BERTScore annab kõrgema hinde kokkuvõtetele, mis edastavad sama teavet kui võrdluskokkuvõte, isegi kui need kasutavad erinevaid sõnu ja lausestruktuuri. Lõpptulemus on see, et BERTScore sobib ideaalselt kokkuvõtete tegemiseks, mille puhul on oluline säilitada kogu semantiline tähendus, mitte ainult märksõnad või teemad. Selle täiustatud närvisüsteemi hindamine võimaldab võrrelda tähendusi väljaspool pinnataseme sõna sobitamist. See muudab selle sobivaks juhtudel, kui väikesed sõnastuse erinevused võivad oluliselt muuta üldist tähendust ja mõju. Eelkõige on BERTScore silmapaistev semantilise sarnasuse tabamisel, mis on ülioluline selliste abstraktsete kokkuvõtete kvaliteedi hindamiseks, nagu need, mida toodavad Retrieval Augmented Generation (RAG) mudelid.

Mudel hindamisraamistikud

Mudelite hindamise raamistikud on erinevate kokkuvõtlike mudelite toimivuse täpseks mõõtmiseks hädavajalikud. Need raamistikud on olulised mudelite võrdlemisel, kooskõla loomisel koostatud kokkuvõtete ja allika sisu vahel ning hindamismeetodite puudujääkide tuvastamisel. Põhjalike hindamiste ja järjepidevate võrdlusuuringute abil soodustavad need raamistikud teksti kokkuvõtete uurimist, propageerides standardiseeritud hindamispraktikaid ja võimaldades mudelite mitmekülgset võrdlust.

AWS-is on FMEval raamatukogu jooksul Amazon SageMaker Clarify lihtsustab alusmudelite (FM-ide) hindamist ja valikut selliste ülesannete jaoks nagu teksti kokkuvõte, küsimustele vastamine ja klassifitseerimine. See annab teile võimaluse hinnata FM-e selliste näitajate alusel nagu täpsus, vastupidavus, loovus, kallutatus ja toksilisus, toetades nii automatiseeritud kui ka inimese ahelas hindamist LLM-ide jaoks. Kasutajaliidesepõhiste või programmiliste hindamiste abil koostab FMEval üksikasjalikud aruanded koos visualiseeringutega, et kvantifitseerida mudeli riske, nagu ebatäpsused, toksilisus või kallutatus, aidates organisatsioonidel järgida vastutustundlikke tehisintellekti juhiseid. Selles jaotises näitame, kuidas kasutada FMEval teeki.

Hinnake Claude v2 kokkuvõtte täpsust, kasutades Amazon Bedrocki

Järgmine koodilõik on näide Anthropic Claude'i mudeliga Pythoni koodi abil suhtlemisest:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

Lihtsamalt öeldes teeb see kood järgmisi toiminguid:

  1. Importige vajalikud teegid, sh json, et töötada JSON-andmetega.
  2. Määrake mudeli ID kui anthropic.claude-v2 ja määrake päringu sisutüüp.
  3. Loo prompt_data muutuja, mis struktureerib Claude'i mudeli sisendandmed. Sel juhul esitab see küsimuse: "Kes on Barack Obama?" ja ootab mudelilt vastust.
  4. Looge JSON-objekt nimega body, mis sisaldab viipaandmeid, ja määrake täiendavad parameetrid, näiteks genereeritavate lubade maksimaalne arv.
  5. Käivitage Claude'i mudel kasutades bedrock_runtime.invoke_model määratletud parameetritega.
  6. Parsige vastus mudelist, eraldage lõpetamine (loodud tekst) ja printige see välja.

Veenduge AWS-i identiteedi- ja juurdepääsuhaldus (IAM) rolliga seotud Amazon SageMaker Studio kasutajaprofiilil on juurdepääs Amazonase aluspõhi mudelid. Viitama Identiteedipõhised poliitikanäited Amazon Bedrocki jaoks juhiste saamiseks Amazon Bedrocki parimate tavade ja identiteedipõhiste poliitika näidete kohta.

FMEval teegi kasutamine Claude'i kokkuvõtliku väljundi hindamiseks

Kokkuvõtliku väljundi hindamiseks kasutame järgmist koodi:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

Eelmises koodilõigu puhul teeme FMEval teegi abil teksti kokkuvõtte hindamiseks järgmised sammud.

  1. Loo ModelRunner et teha oma LLM-ile väljakutse. FMEvali teek pakub sisseehitatud tuge Amazon SageMaker lõpp-punktid ja Amazon SageMaker JumpStart LLM-id. Samuti saate pikendada ModelRunner liides mis tahes kõikjal majutatud LLM-ide jaoks.
  2. Kasutamine toetatud eval_algorithms nagu toksilisus, kokkuvõte, täpsus, semantilisus ja robustsus, mis põhinevad teie hindamisvajadustel.
  3. Kohandage hindamise konfiguratsiooni parameetreid oma konkreetse kasutusjuhtumi jaoks.
  4. Kasutage oma LLM-mudeli hindamiseks hindamisalgoritmi kas sisseehitatud või kohandatud andmekogumitega. Sel juhul kasutatav andmestik pärineb järgmisest GitHub repo.

Vt arendaja juhend ja näited hindamisalgoritmide üksikasjalikuks kasutamiseks.

Järgnev tabel võtab kokku hindamise tulemused.

mudel _sisend mudel_väljund siht_väljund kiire hinded meteor_skoor rouge_score bert_score
John Edward
0 Bates, endine Spalding, Linco…
Ma ei saa midagi lõplikku teha
kohtuotsused, nagu…
Endine
Lincolnshire'i politseinik kandis…
Inimene: John
Edward Bates, endine Spaldingist…
[{'name': 'meteoor', 'väärtus':
0.101010101010101 ...
0.10101 0 0.557155
23 oktoober 2015
Viimati värskendatud
17:44 BST|nIt'…
Siin on mõned põhipunktid orkaani/tropi kohta. Orkaan Patricia on hinnatud kategooriasse… Inimene: 23
oktoober 2015 Viimati uuendatud kell 17:44
B…
[{'nimi': meteoor', "väärtus":
0.102339181286549 ..
0.102339 0.018265 0.441421
Ferrari näis olevat positsioonil, mis esitab väljakutse ... Siin on artikli põhipunktid: nin… Lewis Hamilton tormas polemispositsioonile… Inimene: Ferrari näis olevat positsioonil, mis esitab väljakutse… [{'name': 'meteoor', 'väärtus':
0.322543352601156 ...
0.322543 0.078212 0.606487
28-aastane Bathis sündinud mängija on teinud 36
ilmub…
Olgu, lubage mul võtta põhipunktid kokku:/nin- E….. Newport Gwent Dragonsi kaheksas Ed Jackson Inimene: Bathis sündinud 28-aastane mängija on teinud 36 aastat… [{'name': 'meteoor', 'väärtus':
0105740181268882 ...
0.10574 0.012987 0.539488
Nõrkused selles, kuidas hiired vahetasid andmeid c… Siin on põhipunktid, mille kogusin a… Häkkerid võivad pääseda ligi kodule ja Inimene:
Nõrkused
swarhiired vahetasid andmeid
[{'name': 'meteoor', 'väärtus':
0.201048289433848 ...
0.201048 0.021858 0.526947

Vaadake näidist märkmik Lisateavet selles postituses käsitletud kokkuvõtliku hindamise kohta.

Järeldus

ROUGE, METEOR ja BERTScore mõõdavad kõik masinaga loodud kokkuvõtete kvaliteeti, kuid keskenduvad erinevatele aspektidele, nagu leksikaalne kattuvus, ladusus või semantiline sarnasus. Veenduge, et valite mõõdiku, mis ühtib teie konkreetse kokkuvõtte kasutusjuhtumi „hea” määratlusega. Võite kasutada ka mõõdikute kombinatsiooni. See annab põhjalikuma hinnangu ja kaitseb iga üksiku mõõdiku võimalike nõrkuste eest. Õigete mõõtmistega saate oma kokkuvõtteid iteratiivselt täiustada, et need vastaksid sellele, milline täpsuse mõiste on kõige olulisem.

Lisaks on nende mudelite mastaabis tootmiseks vajalik FM-i ja LLM-i hindamine. FMEvaliga saate paljude NLP-ülesannete jaoks suure hulga sisseehitatud algoritme, aga ka skaleeritavat ja paindlikku tööriista oma mudelite, andmekogumite ja algoritmide suuremahuliseks hindamiseks. Suurendamiseks saate seda paketti kasutada oma LLMOpsi torustikes hinnata mitut mudelit. Lisateavet AWS-i FMEvali ja selle tõhusa kasutamise kohta leiate aadressilt Kasutage suurte keelemudelite hindamiseks SageMaker Clarify. Täiendavat arusaamist ja arusaamu SageMaker Clarify võimalustest FM-ide hindamisel vt Amazon SageMaker Clarify muudab vundamendimudelite hindamise ja valimise lihtsamaks.


Autoritest


Dinesh Kumar Subramani on Šotimaal Edinburghis asuv vanemlahenduste arhitekt. Ta on spetsialiseerunud tehisintellektile ja masinõppele ning on Amazoni tehnikavaldkonna kogukonna liige. Dinesh teeb tihedat koostööd Ühendkuningriigi keskvalitsuse klientidega, et lahendada nende probleemid AWS-i teenuste abil. Väljaspool tööd veedab Dinesh oma perega kvaliteetaega, mängib malet ja uurib mitmekesist muusikat.


Pranav Sharma on AWS-i liider, mis juhib tehnoloogia ja ärimuutmise algatusi kogu Euroopas, Lähis-Idas ja Aafrikas. Tal on kogemusi tehisintellekti platvormide projekteerimisel ja juhtimisel tootmises, mis toetavad miljoneid kliente ja tagavad äritulemusi. Ta on mänginud ülemaailmsete finantsteenuste organisatsioonides tehnoloogia ja inimeste juhtrolli. Väljaspool tööd meeldib talle lugeda, pojaga tennist mängida ja filme vaadata.

spot_img

Uusim intelligentsus

spot_img

Jututuba koos meiega

Tere! Kuidas ma teid aidata saan?