Arvioi LLM:ien tekstitiivistelmävalmiudet tehostaaksesi AWS:n päätöksentekoa | Amazon Web Services

Toimialojen organisaatiot käyttävät automaattista tekstiyhteenvetoa käsitelläkseen tehokkaammin suuria tietomääriä ja tehdäkseen parempia päätöksiä. Rahoitussektorilla investointipankit tiivistävät tulosraportit tärkeimpiin tietoihin analysoidakseen nopeasti neljännesvuosittaista kehitystä. Mediayritykset käyttävät yhteenvetoa uutisten ja sosiaalisen median seuraamiseen, jotta toimittajat voivat kirjoittaa nopeasti tarinoita kehittyvistä aiheista. Valtion virastot tekevät yhteenvedon pitkistä politiikan asiakirjoista ja raporteista auttaakseen päättäjiä strategioiden ja priorisoimaan tavoitteita.

Luomalla tiivistettyjä versioita pitkistä, monimutkaisista asiakirjoista, yhteenvetotekniikka antaa käyttäjille mahdollisuuden keskittyä tärkeimpään sisältöön. Tämä johtaa kriittisen tiedon parempaan ymmärtämiseen ja säilyttämiseen. Ajansäästön ansiosta sidosryhmät voivat tarkastella enemmän materiaalia lyhyemmässä ajassa ja saada laajemman näkökulman. Paremman ymmärryksen ja syntetisoitujen näkemysten ansiosta organisaatiot voivat tehdä paremmin perusteltuja strategisia päätöksiä, nopeuttaa tutkimusta, parantaa tuottavuutta ja lisätä vaikutustaan. Kehittyneiden tiivistelmäominaisuuksien muuttava voima vain kasvaa, kun yhä useammat teollisuudenalat ottavat käyttöön tekoälyn valjastaakseen ylivuodot tietovirrat.

Tässä viestissä tutkimme johtavia lähestymistapoja yhteenvedon tarkkuuden objektiiviseen arvioimiseen, mukaan lukien ROUGE-mittarit, METEOR ja BERTScore. Näiden tekniikoiden vahvuuksien ja heikkouksien ymmärtäminen voi auttaa ohjaamaan valinta- ja parannuspyrkimyksiä. Tämän postauksen yleisenä tavoitteena on selvittää yhteenvetoarvioinnin mysteeriä, jotta tiimejä voidaan parantaa tämän kriittisen ominaisuuden vertailussa, kun he pyrkivät maksimoimaan arvon.

Yhteenvetotyypit

Yhteenveto voidaan yleensä jakaa kahteen päätyyppiin: ekstrahoiva yhteenveto ja abstrakti yhteenveto. Molemmat lähestymistavat pyrkivät tiivistämään pitkiä tekstikappaleita lyhyempiin muotoihin ja vangitsemaan alkuperäisen sisällön kriittisimmän tiedon tai olemuksen, mutta ne tekevät sen pohjimmiltaan eri tavoin.

Poimiva yhteenveto tarkoittaa keskeisten lauseiden, lauseiden tai osien tunnistamista ja erottamista alkuperäisestä tekstistä muuttamatta niitä. Järjestelmä valitsee tekstistä osia, joiden katsotaan olevan informatiivisimpia tai kokonaisuutta edustavimpia. Poimiva yhteenveto on hyödyllinen, jos tarkkuus on kriittinen ja tiivistelmän on heijastettava tarkkaa tietoa alkuperäisestä tekstistä. Nämä voivat olla käyttötapauksia, kuten käyttöehdoissa hahmoteltujen tiettyjen juridisten ehtojen, velvoitteiden ja oikeuksien korostaminen. Yleisimmät tiivistämiseen käytetyt tekniikat ovat termin Frequency-Inverse Document Frequency (TF-IDF), lauseen pisteytys, tekstin järjestysalgoritmi ja valvottu koneoppiminen (ML).

Abstrakti yhteenveto menee askeleen pidemmälle luomalla uusia lauseita ja lauseita, jotka eivät olleet alkuperäisessä tekstissä, olennaisesti uudelleenfrasoimalla ja tiivistäen alkuperäistä sisältöä. Tämä lähestymistapa vaatii syvempää tekstin ymmärtämistä, koska tekoälyn on tulkittava merkitys ja ilmaistava se sitten uudessa, ytimekkäässä muodossa. Suuret kielimallit (LLM) soveltuvat parhaiten abstrakteihin tiivistelmiin, koska muuntajamallit käyttävät huomiomekanismeja keskittyäkseen syöttötekstin oleellisiin osiin tiivistelmiä luodessaan. Huomiomekanismi mahdollistaa sen, että malli voi määrittää eri painot eri sanoille tai merkeille syöttösekvenssissä, jolloin se voi siepata pitkän kantaman riippuvuuksia ja kontekstuaalista tietoa.

Näiden kahden ensisijaisen tyypin lisäksi on olemassa hybridilähestymistapoja, joissa yhdistyvät ekstrahoiva ja abstrakti menetelmä. Nämä lähestymistavat voivat alkaa purkavalla yhteenvedolla tärkeimmän sisällön tunnistamiseksi ja käyttää sitten abstrakteja tekniikoita sisällön uudelleenkirjoittamiseen tai tiivistämiseen sujuvaksi yhteenvedoksi.

Haaste

Optimaalisen menetelmän löytäminen yhteenvedon laadun arvioimiseksi on edelleen avoin haaste. Kun organisaatiot luottavat yhä enemmän automaattiseen tekstiyhteenvetoon tärkeimpien tietojen tislaamiseksi asiakirjoista, tarve standardoiduille tekniikoille tiivistelmän tarkkuuden mittaamiseksi kasvaa. Ihannetapauksessa nämä arviointimittarit mittaisivat, kuinka hyvin koneella luodut tiivistelmät poimivat lähdeteksteistä tärkeimmän sisällön ja esittävät johdonmukaisia tiivistelmiä, jotka heijastavat alkuperäistä merkitystä ja kontekstia.

Luotettavien arviointimenetelmien kehittäminen tekstin yhteenvetoa varten on kuitenkin vaikeaa:

Vertailuun käytetyt ihmisen kirjoittamat viiteyhteenvedot vaihtelevat usein subjektiivisten tärkeysmääritysten perusteella.
Tiivistelmän laadun vivahteikkaat näkökohdat, kuten sujuvuus, luettavuus ja johdonmukaisuus, osoittautuvat vaikeaksi kvantifioida ohjelmallisesti
Yhteenvetomenetelmissä on suuria vaihteluita tilastollisista algoritmeista hermoverkkoihin, mikä vaikeuttaa suoria vertailuja

Recall-Oriented Understudy for Gisting Evaluation (ROUGE)

ROUGE-mittarit, kuten ROUGE-N ja ROUGE-L, ovat ratkaisevassa asemassa arvioitaessa koneella luotujen tiivistelmien laatua verrattuna ihmisen kirjoittamiin viitetiivistelmiin. Nämä mittarit keskittyvät arvioimaan päällekkäisyyttä koneen luomien ja ihmisen tekemien yhteenvetojen sisällön välillä analysoimalla n-grammia, jotka ovat sanaryhmiä tai merkkejä. Esimerkiksi ROUGE-1 arvioi yksittäisten sanojen vastaavuuden (unigrammit), kun taas ROUGE-2 ottaa huomioon sanaparit (bigrammit). Lisäksi ROUGE-N arvioi pisimmän yhteisen sanajonon kahden tekstin välillä, mikä mahdollistaa sanajärjestyksen joustavuuden.

Tämän havainnollistamiseksi harkitse seuraavia esimerkkejä:

ROGUE-1-mittari – ROUGE-1 arvioi unigrammien (yksittäisten sanojen) päällekkäisyyden luodun yhteenvedon ja viiteyhteenvedon välillä. Jos esimerkiksi viiteyhteenveto sisältää "Nopea ruskea kettu hyppää" ja luotu yhteenveto on "Ruskea kettu hyppää nopeasti", ROUGE-1-mittarin mukaan "ruskea", "kettu" ja "hypyt" ovat päällekkäisiä. unigrammit. ROUGE-1 keskittyy yksittäisten sanojen esiintymiseen tiivistelmissä ja mittaa, kuinka hyvin luotu yhteenveto kaappaa avainsanat viiteyhteenvedosta.
ROGUE-2-mittari – ROUGE-2 arvioi luodun yhteenvedon ja viiteyhteenvedon bigrammien (viereisten sanojen parien) päällekkäisyyden. Jos viiteyhteenvedossa on esimerkiksi "Kissa nukkuu" ja luodussa yhteenvedossa lukee "Kissa nukkuu", ROUGE-2 tunnistaa "kissa on" ja "nukkuu" päällekkäisenä bigrammina. ROUGE-2 tarjoaa käsityksen siitä, kuinka hyvin luotu tiivistelmä ylläpitää sanaparien järjestystä ja kontekstia vertailuyhteenvetoon verrattuna.
ROUGE-N-mittari – ROUGE-N on yleistetty muoto, jossa N edustaa mitä tahansa lukua, mikä mahdollistaa arvioinnin n-grammien (N sanan sekvenssien) perusteella. Kun otetaan huomioon N=3, jos viiteyhteenveto sanoo "Aurinko paistaa kirkkaasti" ja luotu yhteenveto on "Aurinko paistaa kirkkaasti", ROUGE-3 tunnistaa "aurinko paistaa kirkkaasti" vastaavaksi trigrammiksi. ROUGE-N tarjoaa joustavuutta arvioida tiivistelmiä eripituisten sanajonojen perusteella, mikä tarjoaa kattavamman arvioinnin sisällön päällekkäisyydestä.

Nämä esimerkit havainnollistavat, kuinka ROUGE-1-, ROUGE-2- ja ROUGE-N-mittarit toimivat automaattisten yhteenvetojen tai konekäännöstehtävien arvioinnissa vertaamalla luotuja yhteenvetoja viiteyhteenvetoon, joka perustuu sanajonojen eri tasoihin.

Laske ROUGE-N-pisteet

Voit laskea ROUGE-N-pisteen seuraavien vaiheiden avulla:

Muokkaa luotu yhteenveto ja viiteyhteenveto yksittäisiksi sanoiksi tai tunnisteiksi käyttämällä perustunnistemenetelmiä, kuten jakamista välilyönnillä tai luonnollisen kielen käsittelyn (NLP) kirjastoilla.
Luo n-grammia (N sanan peräkkäiset sekvenssit) sekä luodusta yhteenvedosta että viiteyhteenvedosta.
Laske päällekkäisten n-grammien määrä luodun yhteenvedon ja viiteyhteenvedon välillä.
Laske tarkkuus, muistaminen ja F1-pisteet:
- Tarkkuus – Päällekkäisten n-grammien määrä jaettuna luodun yhteenvedon n-grammien kokonaismäärällä.
- Palauttaa mieleen – Päällekkäisten n-grammien määrä jaettuna viiteyhteenvedon n-grammien kokonaismäärällä.
- F1 pisteet – Tarkkuuden ja palautuksen harmoninen keskiarvo laskettuna (2 * tarkkuus * palautus) / (tarkkuus + palautus).
F1-kokonaispistemäärä, joka on saatu laskemalla tarkkuus-, muisti- ja F1-pisteet jokaiselle tietojoukon riville, katsotaan ROUGE-N-pisteeksi.

Rajoitukset

ROGUElla on seuraavat rajoitukset:

Kapea painopiste leksikaalisessa päällekkäisyydessä – ROUGE:n ydinajatuksena on verrata järjestelmän luomaa yhteenvetoa viitejoukkoon tai ihmisen luomiin tiivistelmiin ja mitata niiden välistä leksikaalista päällekkäisyyttä. Tämä tarkoittaa, että ROUGE keskittyy hyvin kapeasti sanatason samankaltaisuuteen. Se ei itse asiassa arvioi tiivistelmän semanttista merkitystä, johdonmukaisuutta tai luettavuutta. Järjestelmä voisi saavuttaa korkeat ROUGE-pisteet yksinkertaisesti poimia lauseita sanasta sanaan alkuperäisestä tekstistä luomatta johdonmukaista tai tiivistä yhteenvetoa.
Epäherkkyys parafrasointiin – Koska ROUGE perustuu leksikaaliseen vastaavuuteen, se ei pysty havaitsemaan semanttista vastaavuutta sanojen ja ilmausten välillä. Siksi parafrasointi ja synonyymien käyttö johtavat usein alhaisempiin ROUGE-pisteisiin, vaikka merkitys säilyisikin. Tämä heikentää järjestelmiä, jotka parafrasoivat tai tiivistävät abstraktisti.
Semantisen ymmärryksen puute – ROUGE ei arvioi, ymmärsikö järjestelmä todella alkuperäisen tekstin merkitykset ja käsitteet. Yhteenveto voisi saavuttaa suuren leksikaalisen päällekkäisyyden viitteiden kanssa, vaikka pääideat puuttuvat tai se sisältää tosiasiallisia epäjohdonmukaisuuksia. ROUGE ei tunnistaisi näitä ongelmia.

Milloin ROUGEa kannattaa käyttää

ROUGE on yksinkertainen ja nopea laskea. Käytä sitä lähtökohtana tai vertailukohtana sisällön valintaan liittyvän yhteenvedon laadulle. ROUGE-mittareita käytetään tehokkaimmin skenaarioissa, joissa on abstrakteja yhteenvetotehtäviä, automaattista yhteenvetoarviointia, LLM-arviointeja ja erilaisten yhteenvetomenetelmien vertailevia analyyseja. Käyttämällä ROUGE-mittareita näissä yhteyksissä sidosryhmät voivat kvantitatiivisesti arvioida yhteenvetoprosessien laatua ja tehokkuutta.

Mittari käännösten arvioimiseksi selkeällä järjestyksellä (METEOR)

Yksi suurimmista haasteista tiivistelmäjärjestelmien arvioinnissa on arvioida, kuinka hyvin luotu yhteenveto sujuu loogisesti, sen sijaan, että valitaan vain merkityksellisiä sanoja ja lauseita lähdetekstistä. Pelkkä osuvien avainsanojen ja lauseiden poimiminen ei välttämättä tuota johdonmukaista ja yhtenäistä yhteenvetoa. Yhteenvedon tulee sujua sujuvasti ja yhdistää ideat loogisesti, vaikka ne eivät olisikaan samassa järjestyksessä kuin alkuperäinen asiakirja.

Joustavuus sovittaa sanat niiden juuri- tai perusmuotoon (esimerkiksi varsinaisten sanojen, kuten "juoksu", "juoksu" ja "juoksu" jälkeen, ja synonyymit tarkoittaa METEOR korreloi paremmin yhteenvetolaatuisten ihmisten arvioiden kanssa. Se voi tunnistaa, onko tärkeä sisältö säilytetty, vaikka sanamuoto poikkeaisikin. Tämä on keskeinen etu verrattuna n-grammiin perustuviin mittareihin, kuten ROUGE:hen, jotka etsivät vain tarkkoja token-osumia. METEOR antaa myös korkeammat pisteet tiivistelmille, jotka keskittyvät viitteen tärkeimpään sisältöön. Toistuvista tai epäolennaisista tiedoista saa vähemmän pisteitä. Tämä sopii hyvin yhteenvedon tavoitteen kanssa säilyttää vain tärkein sisältö. METEOR on semanttisesti mielekäs mittari, joka voi voittaa joitain n-grammien täsmäytyksen rajoituksia tekstin yhteenvedon arvioinnissa. Varsinaisten ja synonyymien yhdistäminen mahdollistaa tietojen päällekkäisyyden ja sisällön tarkkuuden paremman arvioinnin.

Tämän havainnollistamiseksi harkitse seuraavia esimerkkejä:

Viiteyhteenveto: Lehdet putoavat syksyllä.

Luotu yhteenveto 1: Lehdet putoavat syksyllä.

Luotu yhteenveto 2: Lehdet vihreitä kesällä.

Sanat, jotka vastaavat viittausta ja luotua yhteenvetoa 1, on korostettu:

Viiteyhteenveto: Lehdet pudota syksyn aikana.

Luotu yhteenveto 1: Lehdet pudota pudota.

Vaikka "syksy" ja "syksy" ovat eri merkkejä, METEOR tunnistaa ne synonyymeiksi synonyymien täsmäämisen kautta. "Pudotus" ja "putoaminen" tunnistetaan varsinaiseksi vastaavuudeksi. Luodussa yhteenvedossa 2 ei ole osumia viiteyhteenvedon kanssa paitsi "Lehdet", joten tämä yhteenveto saisi paljon alhaisemman METEOR-pisteen. Mitä enemmän semanttisesti merkityksellisiä osumia, sitä korkeampi on METEOR-pistemäärä. Tämän ansiosta METEOR voi paremmin arvioida yhteenvetojen sisältöä ja tarkkuutta verrattuna yksinkertaiseen n-grammien täsmäykseen.

Laske METEOR-pisteet

Suorita seuraavat vaiheet laskeaksesi METEOR-pisteet:

Muokkaa luotu yhteenveto ja viiteyhteenveto yksittäisiksi sanoiksi tai tunnuksiksi käyttämällä perustunnistemenetelmiä, kuten jakamista välilyönnillä tai NLP-kirjastoilla.
Laske unigrammin tarkkuus, muistaminen ja F-keskiarvo, jolloin muistamiseen on enemmän painoarvoa kuin tarkkuuteen.
Käytä rangaistusta tarkoista osuuksista välttääksesi niiden liiallista korostamista. Rangaistus valitaan tietojoukon ominaisuuksien, tehtävävaatimusten sekä tarkkuuden ja palauttamisen välisen tasapainon perusteella. Vähennä tämä rangaistus vaiheessa 2 lasketusta F-keskiarvosta.
Laske F-keskiarvo varsinaisille muodoille (pelkistämällä sanat perus- tai juurimuotoonsa) ja synonyymit unigrammeille, jos mahdollista. Kokoa tämä aiemmin laskettuun F-keskiarvoon saadaksesi lopullisen METEOR-pisteen. METEOR-pisteet vaihtelevat 0–1, jossa 0 tarkoittaa, että luodun yhteenvedon ja viiteyhteenvedon välillä ei ole samankaltaisuutta, ja 1 tarkoittaa täydellistä kohdistusta. Tyypillisesti yhteenvetopisteet ovat välillä 0–0.6.

Rajoitukset

Käytettäessä METEOR-mittaria yhteenvetotehtävien arvioinnissa voi kohdata useita haasteita:

Semanttinen monimutkaisuus – METEORin semanttisen samankaltaisuuden painottaminen voi vaikeuttaa vivahteisten merkityksien ja kontekstin vangitsemista monimutkaisissa yhteenvetotehtävissä, mikä voi johtaa epätarkkuuksiin arvioinnissa.
Viitevaihtelu – Ihmisten luomien viiteyhteenvetojen vaihtelu voi vaikuttaa METEOR-pisteisiin, koska viitesisällön erot voivat vaikuttaa koneella luotujen yhteenvetojen arviointiin.
Kielellinen monimuotoisuus – METEORin tehokkuus voi vaihdella kielten välillä johtuen kielellisistä vaihteluista, syntaksieroista ja semanttisista vivahteista, mikä asettaa haasteita monikielisten yhteenvetojen arvioinneissa.
Pituusero – Eripituisten yhteenvetojen arvioiminen voi olla haastavaa METEORille, koska pituuserot verrattuna referenssiyhteenvetoon voivat johtaa rangaistuksiin tai epätarkkuuksiin arvioinnissa.
Parametrien viritys – METEORin parametrien optimointi eri tietojoukkoja ja yhteenvetotehtäviä varten voi olla aikaa vievää ja vaatia huolellista viritystä, jotta mittari antaa tarkat arvioinnit.
Arviointiharha – METEORin arvioinnissa on riski, että sitä ei ole säädetty tai kalibroitu oikein tiettyjä yhteenvetoalueita tai tehtäviä varten. Tämä voi mahdollisesti johtaa vääristyneisiin tuloksiin ja vaikuttaa arviointiprosessin luotettavuuteen.

Tietäen nämä haasteet ja huomioimalla ne käyttäessään METEORia yhteenvetotehtävien mittarina tutkijat ja toimijat voivat navigoida mahdollisiin rajoituksiin ja tehdä tietoisempia päätöksiä arviointiprosesseissaan.

Milloin käyttää METEORia

METEORia käytetään yleisesti arvioimaan automaattisesti tekstitiivistelmien laatua. METEORia kannattaa käyttää arviointimittarina, kun ideoiden, käsitteiden tai kokonaisuuksien järjestyksellä yhteenvedossa on merkitystä. METEOR ottaa huomioon järjestyksen ja sovittaa n-grammit luodun yhteenvedon ja viiteyhteenvedon välillä. Se palkitsee yhteenvedot, jotka säilyttävät peräkkäisen tiedon. Toisin kuin mittarit, kuten ROUGE, jotka perustuvat n-grammien päällekkäisyyteen viiteyhteenvetojen kanssa, METEOR täsmäää varret, synonyymit ja parafraasit. METEOR toimii paremmin, kun alkuperäisen tekstin yhteenveto voi olla useita oikeita tapoja. METEOR sisältää WordNet-synonyymejä ja varrellisia tokeneita n-grammien yhteensovittamisessa. Lyhyesti sanottuna tiivistelmät, jotka ovat semanttisesti samankaltaisia, mutta joissa käytetään eri sanoja tai fraaseja, saavat silti hyviä arvosanoja. METEORissa on sisäänrakennettu rangaistus toistuvien n-grammien yhteenvedoista. Siksi se ei kannusta sanasta sanaan poimimista tai abstraktion puutetta. METEOR on hyvä valinta silloin, kun semanttinen samankaltaisuus, ideoiden järjestys ja sujuva sanamuoto ovat tärkeitä yhteenvedon laadun arvioinnissa. Se ei sovellu tehtäviin, joissa vain leksikaalisella päällekkäisyydellä viitetiivistelmien kanssa on merkitystä.

BERTScore

Pintatason leksikaaliset mittarit, kuten ROUGE ja METEOR, arvioivat yhteenvetojärjestelmiä vertaamalla ehdokastiivistelmän ja viiteyhteenvedon sanan päällekkäisyyttä. Ne kuitenkin luottavat vahvasti sanojen ja lauseiden täsmälliseen merkkijonovastaavuuteen. Tämä tarkoittaa, että heiltä saattaa puuttua semanttisia yhtäläisyyksiä sanojen ja ilmausten välillä, joilla on erilaiset pintamuodot, mutta samanlaiset taustamerkit. Luottamalla vain pintavastaavuuteen nämä mittarit voivat aliarvioida sellaisten järjestelmän yhteenvetojen laatua, joissa käytetään synonyymejä sanoja tai parafraasikäsitteitä eri tavalla kuin viiteyhteenvedoissa. Kaksi yhteenvetoa voisi välittää lähes identtistä tietoa, mutta saada matalat pinta-arvot sanaston erojen vuoksi.

BERTScore on tapa arvioida automaattisesti, kuinka hyvä yhteenveto on vertaamalla sitä ihmisen kirjoittamaan referenssiyhteenvetoon. Se käyttää BERT:tä, suosittua NLP-tekniikkaa, ymmärtääkseen ehdokastiivistelmän ja viiteyhteenvedon sanojen merkityksen ja kontekstin. Tarkemmin sanottuna se tarkastelee jokaista sanaa tai merkkiä ehdokastiivistelmässä ja löytää samankaltaisimman sanan viiteyhteenvedosta BERT-upotusten perusteella, jotka ovat vektoriesitys kunkin sanan merkityksestä ja kontekstista. Se mittaa samankaltaisuutta kosinin samanlaisuuden avulla, joka kertoo kuinka lähellä vektorit ovat toisiaan. Jokaiselle ehdokastiivistelmän sanalle se etsii BERT:n kielen ymmärtämisen perusteella viiteyhteenvedosta parhaiten liittyvän sanan. Se vertaa kaikkia näitä sanan samankaltaisuuksia koko yhteenvedossa saadakseen kokonaispistemäärän siitä, kuinka semanttisesti samankaltainen ehdokasyhteenveto on viiteyhteenvedon kanssa. Mitä samankaltaisempia BERTin vangitsemia sanoja ja merkityksiä on, sitä korkeampi BERTScore on. Tämän ansiosta se voi automaattisesti arvioida luodun yhteenvedon laadun vertaamalla sitä ihmisen viittaukseen ilman, että se tarvitsee ihmisen arvioinnin joka kerta.

Tämän havainnollistamiseksi kuvittele, että sinulla on koneella luotu yhteenveto: "Nopea ruskea kettu hyppää laiskan koiran yli." Tarkastellaanpa nyt ihmisen tekemää referenssiyhteenvetoa: "Nopea ruskea kettu hyppää nukkuvan koiran yli."

Laske BERTScore

Laske BERTScore suorittamalla seuraavat vaiheet:

BERTScore käyttää kontekstuaalisia upotuksia edustamaan kutakin merkkiä sekä ehdokaslauseissa (koneella luoduissa) että viitelauseissa (ihmisen luomassa). Kontekstuaaliset upotukset ovat eräänlainen sanaesitys NLP:ssä, joka vangitsee sanan merkityksen sen kontekstin perusteella lauseessa tai tekstissä. Toisin kuin perinteiset sanan upotukset, jotka määrittävät kiinteän vektorin jokaiselle sanalle sen kontekstista riippumatta, kontekstuaaliset upotukset katsovat ympäröivien sanojen luovan ainutlaatuisen esityksen jokaiselle sanalle riippuen siitä, miten sitä käytetään tietyssä lauseessa.
Mittari laskee sitten samankaltaisuuden ehdokaslauseen kunkin merkin ja viitelauseen kunkin merkin välillä käyttämällä kosinin samankaltaisuutta. Kosinin samankaltaisuus auttaa meitä kvantifioimaan, kuinka läheisesti toisiinsa liittyvät kaksi tietojoukkoa keskittyvät niiden osoittamaan suuntaan moniulotteisessa tilassa, mikä tekee siitä arvokkaan työkalun tehtäviin, kuten hakualgoritmeihin, NLP:hen ja suositusjärjestelmiin.
Vertaamalla kontekstuaalisia upotuksia ja laskemalla samankaltaisuuspisteitä kaikille tunnisteille, BERTScore luo kattavan arvioinnin, joka kaappaa luodun yhteenvedon semanttisen merkityksen ja kontekstin verrattuna ihmisen luomaan viittaukseen.
Lopullinen BERTScore-tulos antaa samankaltaisuuspisteet, joka heijastaa sitä, kuinka hyvin koneella luotu yhteenveto on linjassa viiteyhteenvedon kanssa merkityksen ja kontekstin suhteen.

Pohjimmiltaan BERTScore menee perinteisiä mittareita pidemmälle ottamalla huomioon lauseiden semanttiset vivahteet ja kontekstin tarjoten kehittyneemmän arvioinnin, joka heijastaa läheisesti ihmisen harkintaa. Tämä edistynyt lähestymistapa parantaa yhteenvetotehtävien arvioinnin tarkkuutta ja luotettavuutta, mikä tekee BERTScoresta arvokkaan työkalun tekstintuotantojärjestelmien arvioinnissa.

Rajoitukset:

Vaikka BERTScore tarjoaa merkittäviä etuja yhteenvetotehtävien arvioinnissa, siihen liittyy myös tiettyjä rajoituksia, jotka on otettava huomioon:

Laskennallinen intensiteetti – BERTScore voi olla laskennallisesti intensiivinen, koska se luottaa valmiiksi koulutettuihin kielimalleihin, kuten BERT. Tämä voi johtaa pitempiin arviointiaikoihin, etenkin kun käsitellään suuria määriä tekstidataa.
Riippuvuus esikoulutetuista malleista – BERTScoren tehokkuus riippuu suuresti käytetyn esikoulutetun kielimallin laadusta ja tarkoituksenmukaisuudesta. Skenaarioissa, joissa esikoulutettu malli ei välttämättä kuvaa riittävästi tekstin vivahteita, se voi vaikuttaa arvioinnin tuloksiin.
skaalautuvuus – BERTScoren skaalaus suuria tietojoukkoja tai reaaliaikaisia sovelluksia varten voi olla haastavaa sen laskentavaatimusten vuoksi. BERTScoren käyttöönotto tuotantoympäristöissä saattaa edellyttää optimointistrategioita tehokkaan suorituskyvyn takaamiseksi.
Verkkotunnuksen spesifisyys – BERTScoren suorituskyky voi vaihdella eri aloilla tai erikoistuneissa tekstityypeissä. Mittarin mukauttaminen tiettyihin toimialueisiin tai tehtäviin voi vaatia hienosäätöä tai säätöjä tarkkojen arvioiden tuottamiseksi.
tulkittavuutta – Vaikka BERTScore tarjoaa kattavan arvioinnin, joka perustuu kontekstuaalisiin upotuksiin, kullekin tunnukselle luotujen samankaltaisuuspisteiden syiden tulkitseminen voi olla monimutkaista ja saattaa vaatia lisäanalyysiä.
Viittaukseton arviointi – Vaikka BERTScore vähentää riippuvuutta viitetiivistelmistä arvioitaessa, tämä viittaukseton lähestymistapa ei välttämättä kata kaikkia yhteenvedon laadun näkökohtia etenkään skenaarioissa, joissa ihmisen tekemät viitteet ovat välttämättömiä sisällön relevanssin ja johdonmukaisuuden arvioinnissa.

Näiden rajoitusten tunnustaminen voi auttaa sinua tekemään tietoisia päätöksiä, kun käytät BERTScorea yhteenvetotehtävien arvioinnin mittarina, mikä antaa tasapainoisen käsityksen sen vahvuuksista ja rajoituksista.

Milloin käyttää BERTScorea

BERTScore voi arvioida tekstiyhteenvedon laatua vertaamalla luotua yhteenvetoa viiteyhteenvetoon. Se käyttää hermoverkkoja, kuten BERT, mittaamaan semanttista samankaltaisuutta pelkän tarkan sanan tai lauseen vastaavuuden lisäksi. Tämä tekee BERTScoresta erittäin hyödyllisen, kun semanttinen tarkkuus, joka säilyttää täyden merkityksen ja sisällön, on kriittistä yhteenvetotehtäväsi kannalta. BERTScore antaa korkeammat pisteet tiivistelmille, jotka välittävät saman tiedon kuin viiteyhteenvedossa, vaikka niissä käytettäisiin eri sanoja ja lauserakenteita. Tärkeintä on, että BERTScore on ihanteellinen yhteenvetotehtäviin, joissa on elintärkeää säilyttää koko semanttinen merkitys, ei vain avainsanoja tai aiheita. Sen kehittynyt hermopisteytys mahdollistaa sen merkityksen vertaamisen pintatason sanasovituksen lisäksi. Tämä tekee siitä sopivan tapauksiin, joissa hienovaraiset sanamuodot voivat merkittävästi muuttaa yleistä merkitystä ja seurauksia. Erityisesti BERTScore on erinomainen semanttisen samankaltaisuuden vangitsemisessa, mikä on ratkaisevan tärkeää arvioitaessa Retrieval Augmented Generation (RAG) -mallien kaltaisten abstraktien tiivistelmien laatua.

Mallin arviointikehykset

Mallin arviointikehykset ovat välttämättömiä erilaisten yhteenvetomallien suorituskyvyn tarkkaan mittaamiseen. Nämä viitekehykset auttavat vertailemaan malleja, tarjoamaan johdonmukaisuutta luotujen tiivistelmien ja lähdesisällön välillä sekä paikantamaan arviointimenetelmien puutteet. Suorittamalla perusteellisia arviointeja ja johdonmukaista benchmarkingia nämä viitekehykset edistävät tekstien yhteenvetotutkimusta edistämällä standardoituja arviointikäytäntöjä ja mahdollistamalla monitahoisia mallivertailuja.

AWS:ssä FMEval-kirjasto sisällä Amazon SageMaker selkeyttää virtaviivaistaa perusmallien (FM) arviointia ja valintaa tehtäviin, kuten tekstin yhteenvetoon, kysymyksiin vastaamiseen ja luokitteluun. Se antaa sinulle mahdollisuuden arvioida FM:itä sellaisten mittareiden perusteella, kuten tarkkuus, kestävyys, luovuus, harha ja myrkyllisyys, ja se tukee sekä automaattisia että in-the-loop -arviointeja LLM:ille. Käyttöliittymäpohjaisilla tai ohjelmallisilla arvioinneilla FMEval luo yksityiskohtaisia raportteja visualisoinneilla, joilla voidaan kvantifioida mallin riskit, kuten epätarkkuudet, myrkyllisyys tai harha, ja auttaa organisaatioita noudattamaan vastuullisia tekoälyohjeita. Tässä osiossa esittelemme, kuinka FMEval-kirjastoa käytetään.

Arvioi Claude v2 yhteenvedon tarkkuudesta käyttämällä Amazon Bedrockia

Seuraava koodinpätkä on esimerkki vuorovaikutuksesta Anthropic Claude -mallin kanssa Python-koodin avulla:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

Yksinkertaisesti sanottuna tämä koodi suorittaa seuraavat toiminnot:

Tuo tarvittavat kirjastot, mukaan lukien json, työskennelläksesi JSON-tietojen kanssa.
Määritä mallin tunnus muodossa anthropic.claude-v2 ja aseta pyynnön sisältötyyppi.
Luo prompt_data muuttuja, joka jäsentää Claude-mallin syöttötiedot. Tässä tapauksessa se kysyy "Kuka on Barack Obama?" ja odottaa mallilta vastausta.
Luo JSON-objekti nimeltä body, joka sisältää kehotetiedot, ja määritä lisäparametreja, kuten luotavien tunnisteiden enimmäismäärä.
Kutsu Claude-malli käyttämällä bedrock_runtime.invoke_model määritettyjen parametrien kanssa.
Jäsennä vastaus mallista, pura täydennys (luodettu teksti) ja tulosta se.

Varmista AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) rooli liittyy Amazon SageMaker Studio käyttäjäprofiililla on pääsy Amazonin kallioperä malleihin vedotaan. Viitata Identiteettiin perustuvia käytäntöjä Amazon Bedrockille Ohjeita parhaista käytännöistä ja esimerkkejä identiteettiin perustuvista käytännöistä Amazon Bedrockille.

FMEval-kirjaston käyttäminen Clauden yhteenvedon arvioimiseen

Käytämme seuraavaa koodia arvioidaksemme yhteenvedon:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

Edellisessä koodinpätkässä tekstin yhteenvedon arvioimiseksi FMEval-kirjaston avulla suoritamme seuraavat vaiheet:

Luo ModelRunner suorittaaksesi kutsun LLM:llesi. FMEval-kirjasto tarjoaa sisäänrakennetun tuen Amazon Sage Maker päätepisteet ja Amazon SageMaker JumpStart LLM:t. Voit myös pidentää ModelRunner käyttöliittymä kaikille LLM:ille, joita isännöidään missä tahansa.
Käytä tuettua eval_algorithms kuten myrkyllisyys, yhteenveto, tarkkuus, semanttisuus ja kestävyys arviointitarpeidesi perusteella.
Mukauta arvioinnin konfiguraatioparametrit käyttötarkoituksellesi.
Käytä arviointialgoritmia joko sisäänrakennettujen tai mukautettujen tietojoukkojen kanssa arvioidaksesi LLM-mallisi. Tässä tapauksessa käytetty tietojoukko on peräisin seuraavista GitHub repo.

Viittaavat kehittäjäopas ja esimerkkejä arviointialgoritmien yksityiskohtaista käyttöä varten.

Seuraavassa taulukossa on yhteenveto arvioinnin tuloksista.

malli _tulo	malli_tulostus	kohde_tulostus	nopea	tulokset	meteor_score	rouge_score	bert_score
John Edward 0 Bates, entinen Spalding, Linco…	En voi tehdä mitään lopullista tuomiot, kuten…	Entinen Lincolnshiren poliisi kantoi…	Ihminen: John Edward Bates, entinen Spaldingissa…	[{'name': 'meteor', 'value': 0.101010101010101 ...	0.10101	0	0.557155
23 lokakuu 2015 Viimeksi päivitetty 17:44 BST\|nIt'…	Tässä on joitain avainkohtia hurrikaanista/tropista.	Hurrikaani Patricia on luokiteltu kategoriaksi…	Ihminen: 23 lokakuuta 2015 Päivitetty viimeksi klo 17:44 B…	[{'name': meteor', "value": 0.102339181286549 ..	0.102339	0.018265	0.441421
Ferrari näytti olevan asemassa, joka haastaa...	Tässä ovat artikkelin avainkohdat: nin…	Lewis Hamilton ryntäsi paalupaikalle…	Ihminen: Ferrari näytti olevan haastavassa asemassa…	[{'name': 'meteor', 'value': 0.322543352601156 ...	0.322543	0.078212	0.606487
Bathissa syntynyt pelaaja, 28, on tehnyt 36 ilmestyy…	Okei, anna minun tehdä yhteenveto avainkohdista:/nin- E…..	Newport Gwent Dragonsin kahdeksas Ed Jackson	Ihminen: Bathissa syntynyt pelaaja, 28, on tehnyt 36…	[{'name': 'meteor', 'value': 0105740181268882 ...	0.10574	0.012987	0.539488
Heikkoudet tavassa, jolla hiiret vaihtoivat tietoja c…	Tässä ovat tärkeimmät kohdat, jotka keräsin…	Hakkerit voivat päästä kotiin ja	Ihmisen: Heikkoudet swar hiiret vaihtoivat tietoja	[{'name': 'meteor', 'value': 0.201048289433848 ...	0.201048	0.021858	0.526947

Katso näyte muistikirja saadaksesi lisätietoja yhteenvetoarvioinnista, josta keskustelimme tässä viestissä.

Yhteenveto

ROUGE, METEOR ja BERTScore mittaavat kaikki koneellisesti luotujen yhteenvetojen laatua, mutta keskittyvät eri näkökohtiin, kuten leksikaaliseen päällekkäisyyteen, sujuvuuteen tai semanttiseen samankaltaisuuteen. Varmista, että valitset mittarin, joka vastaa sitä, mikä määrittelee "hyvän" yhteenvedon käyttötapauksessasi. Voit myös käyttää mittareiden yhdistelmää. Tämä tarjoaa monipuolisemman arvioinnin ja suojaa minkä tahansa yksittäisen mittarin mahdollisilta heikkouksilta. Oikeilla mittauksilla voit toistuvasti parantaa yhteenvetojasi vastaamaan sitä, mikä tarkkuuskäsite on tärkein.

Lisäksi FM- ja LLM-arviointi on tarpeen, jotta nämä mallit voidaan tuottaa mittakaavassa. FMEvalin avulla saat laajan joukon sisäänrakennettuja algoritmeja moniin NLP-tehtäviin, mutta myös skaalautuvan ja joustavan työkalun omien malliesi, tietojoukkojen ja algoritmien laajamittaiseen arviointiin. Skaalaaksesi voit käyttää tätä pakettia LLMOps-putkissasi arvioida useita malleja. Lisätietoja FMEvalista AWS:ssä ja sen tehokkaasta käytöstä on osoitteessa Käytä SageMaker Clarifyta suurten kielimallien arvioimiseen. Lisätietoja ja näkemyksiä SageMaker Clarifyn ominaisuuksista FM-laitteiden arvioinnissa on kohdassa Amazon SageMaker Clarify tekee pohjamallien arvioinnista ja valinnasta helpompaa.

Tietoja Tekijät

Dinesh Kumar Subramani on vanhempi ratkaisuarkkitehti Edinburghissa, Skotlannissa. Hän on erikoistunut tekoälyyn ja koneoppimiseen ja on teknisen alan yhteisön jäsen Amazonissa. Dinesh tekee tiivistä yhteistyötä Ison-Britannian keskushallinnon asiakkaiden kanssa ratkaistakseen heidän ongelmansa AWS-palveluiden avulla. Työn ulkopuolella Dinesh viettää laatuaikaa perheensä kanssa, pelaa shakkia ja tutkii monipuolista musiikkia.

Pranav Sharma on AWS:n johtava teknologia- ja yritysmuutoshankkeiden johtaja Euroopassa, Lähi-idässä ja Afrikassa. Hänellä on kokemusta sellaisten tekoälyalustojen suunnittelusta ja käyttämisestä tuotannossa, jotka tukevat miljoonia asiakkaita ja tuottavat liiketoimintaa. Hän on toiminut teknologian ja ihmisten johtotehtävissä Global Financial Services -organisaatioissa. Työn ulkopuolella hän tykkää lukea, pelata tennistä poikansa kanssa ja katsella elokuvia.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
Lähde: https://aws.amazon.com/blogs/machine-learning/evaluate-the-text-summarization-capabilities-of-llms-for-enhanced-decision-making-on-aws/

Generatiivinen tiedustelu

Arvioi LLM:ien tekstitiivistelmävalmiuksia parantaaksesi AWS:n päätöksentekoa | Amazon Web Services

Yhteenvetotyypit

Haaste

Recall-Oriented Understudy for Gisting Evaluation (ROUGE)

Laske ROUGE-N-pisteet

Rajoitukset

Milloin ROUGEa kannattaa käyttää

Mittari käännösten arvioimiseksi selkeällä järjestyksellä (METEOR)

Laske METEOR-pisteet

Rajoitukset

Milloin käyttää METEORia

BERTScore

Laske BERTScore

Rajoitukset:

Milloin käyttää BERTScorea

Mallin arviointikehykset

Arvioi Claude v2 yhteenvedon tarkkuudesta käyttämällä Amazon Bedrockia

FMEval-kirjaston käyttäminen Clauden yhteenvedon arvioimiseen

Yhteenveto

Tietoja Tekijät

Luovuuden turvaaminen digitaalisessa maailmassa: digitaalisen vesileiman vaikutuksen tutkiminen generatiiviseen tekoälyyn ja henkiseen omaisuuteen

Jenin ralli hiipuu Yhdysvaltain dollarin noustessa – MarketPulse

Uusin älykkyys

Tästä syystä tämä kryptoanalyytikko uskoo, että Bitcoin on "ensimmäisellä ostoalueella"

解锁众筹潜能：普及阅读障碍投资者的数据智能和策略

Forex-välittäjän valinnan taidon hallinta: Kattava opas

Mysterious Whale -panokset Shiba Inussa lähes 2 biljoonalla ostolla, kuten haltijat kuvittelevat 0.001 dollarin SHIB-hinnan

Ethereum (ETH) Whales Offload Holdings, kun ETH:n palamisnopeus on alhaisimmillaan

Visa ja JPMorgan Partner helpottavat yrityksiä nopeammilla maksuilla

Keskustele kanssamme