Оцінка можливостей узагальнення тексту LLM для покращеного прийняття рішень на AWS | Веб-сервіси Amazon

Організації в різних галузях використовують автоматичне підсумовування тексту, щоб ефективніше обробляти величезні обсяги інформації та приймати кращі рішення. У фінансовому секторі інвестиційні банки скорочують звіти про прибутки до ключових висновків, щоб швидко аналізувати квартальні показники. Медіакомпанії використовують конспектування для моніторингу новин і соціальних медіа, щоб журналісти могли швидко писати статті про актуальні проблеми. Урядові установи підсумовують великі політичні документи та звіти, щоб допомогти політикам виробити стратегію та визначити пріоритети.

Створюючи скорочені версії довгих, складних документів, технологія підсумовування дозволяє користувачам зосередитися на найбільш важливому вмісті. Це веде до кращого розуміння та збереження важливої інформації. Економія часу дозволяє зацікавленим сторонам переглядати більше матеріалу за менший час, отримуючи ширшу перспективу. Завдяки покращеному розумінню та більш синтезованому розумінню організації можуть приймати більш обґрунтовані стратегічні рішення, прискорювати дослідження, підвищувати продуктивність і посилювати свій вплив. Перетворювальна сила розширених можливостей узагальнення лише зростатиме, оскільки все більше галузей запровадять штучний інтелект (ШІ) для використання переповнених потоків інформації.

У цій публікації ми досліджуємо провідні підходи до об’єктивної оцінки точності підсумовування, зокрема показники ROUGE, METEOR і BERTScore. Розуміння сильних і слабких сторін цих методів може допомогти скерувати вибір і вдосконалення. Загальна мета цієї публікації — демістифікувати підсумкову оцінку, щоб допомогти командам краще порівнювати продуктивність цієї критичної можливості, коли вони прагнуть максимізувати цінність.

Види конспектування

Резюмування загалом можна розділити на два основні типи: витягнене реферування та абстрактне реферування. Обидва підходи спрямовані на згортання довгих фрагментів тексту в більш короткі форми, захоплюючи найважливішу інформацію або суть оригінального вмісту, але вони роблять це принципово різними способами.

Екстракційне реферування передбачає визначення та виділення ключових фраз, речень або сегментів з оригінального тексту без їх зміни. Система вибирає частини тексту, які вважаються найбільш інформативними або репрезентативними для цілого. Витягнене резюме корисне, якщо точність має вирішальне значення, а резюме має відображати точну інформацію з оригінального тексту. Це можуть бути випадки використання, як-от виділення конкретних юридичних умов, зобов’язань і прав, викладених в умовах використання. Найпоширенішими методами, які використовуються для екстрактивного резюмування, є термін частотно-інверсна частота документа (TF-IDF), підрахунок речень, алгоритм рангу тексту та контрольоване машинне навчання (ML).

Абстрактне резюмування йде далі, генеруючи нові фрази та речення, яких не було в оригінальному тексті, по суті перефразуючи та згущуючи оригінальний вміст. Такий підхід вимагає глибшого розуміння тексту, оскільки штучному інтелекту необхідно інтерпретувати значення, а потім висловити його в новій, стислій формі. Великі мовні моделі (LLM) найкраще підходять для абстрактного резюмування, оскільки моделі-трансформери використовують механізми привернення уваги, щоб зосередитися на відповідних частинах вхідного тексту під час створення підсумків. Механізм уваги дозволяє моделі призначати різну вагу різним словам або лексемам у вхідній послідовності, дозволяючи їй фіксувати довгострокові залежності та контекстно релевантну інформацію.

На додаток до цих двох основних типів існують гібридні підходи, які поєднують екстрактивні та абстрактні методи. Ці підходи можуть починатися з екстрактивного резюмування, щоб визначити найважливіший вміст, а потім використовувати абстрактні методи, щоб переписати або стиснути цей вміст у плавне резюме.

Змагання

Пошук оптимального методу оцінки якості резюме залишається відкритим викликом. Оскільки організації все більше покладаються на автоматичне підсумовування тексту для виділення ключової інформації з документів, зростає потреба в стандартизованих методах вимірювання точності підсумовування. В ідеалі ці метрики оцінювання кількісно визначали б, наскільки добре створені машиною резюме витягують найважливіший вміст із вихідних текстів і представляють узгоджені резюме, що відображають оригінальне значення та контекст.

Однак розробка надійних методологій оцінювання для резюмування тексту представляє труднощі:

Реферати, написані людиною, які використовуються для порівняння, часто демонструють високу варіативність на основі суб’єктивного визначення важливості
Особливі аспекти якості резюме, такі як плавність, читабельність і зв’язність, важко піддати кількісній оцінці програмним шляхом
Існують широкі варіації методів узагальнення від статистичних алгоритмів до нейронних мереж, що ускладнює прямі порівняння

Орієнтоване на запам'ятовування дослідження для оцінки суті (ROUGE)

метрика ROUGE, такі як ROUGE-N і ROUGE-L, відіграють вирішальну роль в оцінюванні якості зведених машиною зведень порівняно з довідковими зведеннями, написаними людиною. Ці показники зосереджені на оцінці збігу між вмістом зведень, створених машиною та людиною, шляхом аналізу n-грам, які є групами слів або токенів. Наприклад, ROUGE-1 оцінює збіг окремих слів (уніграм), тоді як ROUGE-2 розглядає пари слів (біграми). Крім того, ROUGE-N оцінює найдовшу спільну підпослідовність слів між двома текстами, забезпечуючи гнучкість у порядку слів.

Щоб проілюструвати це, розглянемо такі приклади:

Метрика ROGUE-1 – ROUGE-1 оцінює перекриття уніграм (окремих слів) між згенерованим резюме та довідковим резюме. Наприклад, якщо довідковий підсумок містить «Швидка бура лисиця стрибає», а згенерований підсумок «Бура лисиця швидко стрибає», показник ROUGE-1 вважатиме «коричнева», «лисиця» та «стрибки» перекриваючими. уніграми. ROUGE-1 зосереджується на наявності окремих слів у резюме, вимірюючи, наскільки добре створене резюме фіксує ключові слова з довідкового резюме.
Метрика ROGUE-2 – ROUGE-2 оцінює перекриття біграм (пар суміжних слів) між згенерованим резюме та довідковим резюме. Наприклад, якщо в довідковому підсумку є «Кіт спить», а в створеному підсумку написано «Кіт спить», ROUGE-2 ідентифікує «кіт» і «спить» як біграму, що накладається. ROUGE-2 дає уявлення про те, наскільки добре створене резюме зберігає послідовність і контекст пар слів порівняно з еталонним резюме.
Метрика ROUGE-N – ROUGE-N є узагальненою формою, де N представляє будь-яке число, що дозволяє оцінювати на основі n-грам (послідовності з N слів). Враховуючи N=3, якщо в еталонному підсумку зазначено «Сонце світить яскраво», а згенерований підсумок — «Сонце світить яскраво», ROUGE-3 розпізнає «сонце яскраво світить» як відповідну триграму. ROUGE-N пропонує гнучкість для оцінки резюме на основі різної довжини послідовностей слів, забезпечуючи більш повну оцінку збігу вмісту.

Ці приклади ілюструють, як метрики ROUGE-1, ROUGE-2 і ROUGE-N функціонують при оцінюванні завдань автоматичного підсумовування або машинного перекладу шляхом порівняння згенерованих підсумків із довідковими підсумками на основі різних рівнів послідовності слів.

Обчисліть бал ROUGE-N

Щоб розрахувати бал ROUGE-N, ви можете скористатися такими кроками:

Токенізуйте згенероване зведення та довідкове резюме на окремі слова чи токени за допомогою основних методів токенізації, як-от поділ за пробілами або бібліотеки обробки природної мови (NLP).
Згенеруйте n-грам (суміжні послідовності з N слів) із згенерованого резюме та еталонного резюме.
Підрахуйте кількість n-грамів, що перекриваються між згенерованим підсумком і еталонним підсумком.
Обчисліть точність, запам'ятовування та оцінку F1:
- Точність – Кількість n-грамів, що перекриваються, поділена на загальну кількість n-грамів у створеному підсумку.
- Згадувати – Кількість n-грамів, що перекриваються, поділена на загальну кількість n-грамів у еталонному підсумку.
- F1 бал – Гармонічне середнє значення точності та запам’ятовування, обчислене як (2 * точність * пригадування) / (точність + пригадування).
Сукупна оцінка F1, отримана шляхом обчислення точності, запам’ятовування та оцінки F1 для кожного рядка в наборі даних, вважається оцінкою ROUGE-N.

Недоліки

ROGUE має такі обмеження:

Вузька увага до лексичного збігу – Основна ідея ROUGE полягає в тому, щоб порівняти згенероване системою резюме з набором довідкових або створених людиною резюме та виміряти лексичне збігання між ними. Це означає, що ROUGE має дуже вузьку увагу на подібності на рівні слів. Він фактично не оцінює семантичне значення, зв'язність або читабельність резюме. Система може отримати високі бали ROUGE, просто витягуючи речення слово в слово з оригінального тексту, не генеруючи зв’язного чи стислого резюме.
Нечутливість до перефразування – Оскільки ROUGE покладається на лексичну відповідність, він не може визначити семантичну еквівалентність між словами та фразами. Тому перефразування та використання синонімів часто призведе до зниження балів ROUGE, навіть якщо значення збережено. Це завдає шкоди системам, які перефразовують або підсумовують абстрактним способом.
Відсутність смислового розуміння – ROUGE не оцінює, чи справді система зрозуміла значення та поняття в оригінальному тексті. Резюме може досягти значного лексичного збігу з посиланнями, при цьому відсутні основні ідеї або містяться фактичні невідповідності. ROUGE не визначав би ці проблеми.

Коли використовувати ROUGE

ROUGE простий і швидкий для розрахунку. Використовуйте його як базову лінію або еталон для якості резюме, пов’язаного з вибором вмісту. Метрики ROUGE найбільш ефективно використовуються в сценаріях, що включають абстрактні завдання підсумовування, автоматичне оцінювання підсумків, оцінювання LLM та порівняльний аналіз різних підходів підсумовування. Використовуючи метрики ROUGE у цих контекстах, зацікавлені сторони можуть кількісно оцінити якість і ефективність процесів формування підсумків.

Метрика для оцінки перекладу з явним упорядкуванням (METEOR)

Однією з головних проблем при оцінюванні систем резюмування є оцінка того, наскільки добре згенероване резюме логічно протікає, а не просто вибір релевантних слів і фраз із вихідного тексту. Просте виділення релевантних ключових слів і речень не обов’язково дає зв’язне та цілісне резюме. Резюме має бути плавним і логічно поєднувати ідеї, навіть якщо вони представлені не в такому порядку, як оригінальний документ.

Гнучкість зіставлення шляхом скорочення слів до їхньої кореневої або основної форми (наприклад, після коріння такі слова, як «бігти», «бігти» та «бігати», усі стають «бігати») та синоніми означає METEOR краще корелює з людськими судженнями короткої якості. Він може визначити, чи зберігається важливий вміст, навіть якщо формулювання відрізняється. Це ключова перевага перед метриками на основі n-грамів, такими як ROUGE, які шукають лише точні збіги токенів. METEOR також дає вищі бали резюме, які зосереджені на найбільш помітному вмісті з довідкового матеріалу. Нижчі бали дають повторюваній або нерелевантній інформації. Це добре узгоджується з метою узагальнення, щоб зберегти лише найважливіший вміст. METEOR — це семантично значуща метрика, яка може подолати деякі обмеження зіставлення n-грамів для оцінки резюмування тексту. Включення похідних слів і синонімів дозволяє краще оцінити збіг інформації та точність вмісту.

Щоб проілюструвати це, розглянемо такі приклади:

Реферат: Листя опадає восени.

Згенероване резюме 1: Листя опадає восени.

Згенероване резюме 2: Влітку листя зелене.

Слова, які збігаються між посиланням і згенерованим резюме 1, виділені:

Реферат: Листя падати протягом осені.

Згенероване резюме 1: Листя зайти падати.

Незважаючи на те, що «осінь» і «осінь» є різними лексемами, METEOR розпізнає їх як синоніми через відповідність синонімів. «Падіння» та «падіння» визначаються як пов’язаний збіг. Для створеного підсумку 2 немає збігів із еталонним підсумком, окрім «Листя», тому цей підсумок отримає набагато нижчу оцінку METEOR. Чим більше семантично значущих збігів, тим вище оцінка METEOR. Це дозволяє METEOR краще оцінювати зміст і точність підсумків порівняно з простим зіставленням n-грамів.

Розрахуйте бал METEOR

Щоб обчислити оцінку METEOR, виконайте наступні кроки:

Токенізуйте згенероване резюме та довідкове резюме на окремі слова чи токени за допомогою основних методів токенізації, як-от поділ за пробілами або бібліотеки NLP.
Обчисліть уніграмну точність, запам’ятовування та F-середній бал, надаючи більшу вагу запам’ятовування, ніж точність.
Застосовуйте штраф за точні збіги, щоб уникнути їх надмірного акцентування. Штраф вибирається на основі характеристик набору даних, вимог до завдання та балансу між точністю та запам’ятовуванням. Відніміть цей штраф від F-середнього балу, розрахованого на кроці 2.
Обчисліть F-середній бал для основоположних форм (скорочення слів до їх основи або кореневої форми) і синонімів для уніграм, де це можливо. Об’єднайте це з попередньо розрахованим F-середнім балом, щоб отримати остаточний бал METEOR. Оцінка METEOR коливається від 0 до 1, де 0 вказує на відсутність подібності між згенерованим підсумком і еталонним підсумком, а 1 означає ідеальне узгодження. Як правило, підсумкові бали падають від 0 до 0.6.

Недоліки

Під час використання метрики METEOR для оцінювання підсумкових завдань може виникнути кілька проблем:

Семантична складність – Акцент METEOR на семантичній подібності може заважати вловити нюанси значень і контексту в складних завданнях узагальнення, що потенційно може призвести до неточностей в оцінці.
Еталонна мінливість – Варіабельність створених людиною довідкових зведень може вплинути на бали METEOR, оскільки відмінності у довідковому вмісті можуть вплинути на оцінку зведених машиною зведень.
Мовна різноманітність – Ефективність METEOR може відрізнятися залежно від мови через лінгвістичні відмінності, відмінності синтаксису та семантичні нюанси, що створює проблеми під час багатомовного підсумкового оцінювання.
Невідповідність довжини – Оцінка резюме різної довжини може бути складною для METEOR, оскільки розбіжності в довжині порівняно з еталонним резюме можуть призвести до штрафів або неточностей в оцінці.
Налаштування параметрів – Оптимізація параметрів METEOR для різних наборів даних і завдань узагальнення може зайняти багато часу та вимагати ретельного налаштування, щоб переконатися, що метрика надає точні оцінки.
Упередженість оцінки – Існує ризик упередження оцінки з METEOR, якщо його не налаштовано належним чином або відкалібровано для конкретних доменів узагальнення чи завдань. Це потенційно може призвести до викривлення результатів і вплинути на надійність процесу оцінювання.

Усвідомлюючи ці проблеми та враховуючи їх під час використання METEOR як метрики для завдань узагальнення, дослідники та практики можуть орієнтуватися в потенційних обмеженнях і приймати більш обґрунтовані рішення в своїх процесах оцінювання.

Коли використовувати METEOR

METEOR зазвичай використовується для автоматичної оцінки якості текстових резюме. Бажано використовувати METEOR як показник оцінки, коли порядок ідей, концепцій або сутностей у резюме має значення. METEOR враховує порядок і зіставляє n-грами між згенерованим підсумком і еталонними підсумками. Він винагороджує підсумки, які зберігають послідовну інформацію. На відміну від таких показників, як ROUGE, які ґрунтуються на накладенні n-грамів із підсумковими посиланнями, METEOR збігається з основними словами, синонімами та парафразами. METEOR працює краще, коли існує кілька правильних способів узагальнення оригінального тексту. METEOR включає в себе синоніми WordNet і лексеми з коренем під час зіставлення n-грамів. Коротше кажучи, резюме, які семантично подібні, але використовують різні слова чи фрази, все одно матимуть хороші оцінки. METEOR має вбудований штраф за підсумки з повторюваними n-грамами. Таким чином, це не заохочує дослівне виділення або відсутність абстракції. METEOR є хорошим вибором, коли семантична подібність, порядок ідей і вільне формулювання важливі для оцінки якості резюме. Це менш підходить для завдань, де має значення лише лексичне збігання з довідковими підсумками.

BERTScore

Лексичні вимірювання поверхневого рівня, такі як ROUGE та METEOR, оцінюють системи резюмування шляхом порівняння збігу слів між резюме кандидата та резюме резюме. Однак вони значною мірою покладаються на точну відповідність рядків між словами та фразами. Це означає, що вони можуть пропустити семантичну подібність між словами та фразами, які мають різні зовнішні форми, але подібні глибинні значення. Покладаючись лише на поверхневу відповідність, ці показники можуть недооцінювати якість системних підсумків, які використовують синонімічні слова або перефразують концепції, відмінні від довідкових підсумків. Два резюме можуть передавати майже ідентичну інформацію, але отримати низькі бали на початковому рівні через відмінності словникового запасу.

BERTScore це спосіб автоматично оцінити, наскільки якісним є резюме, порівнюючи його з довідковим резюме, написаним людиною. Він використовує BERT, популярну техніку НЛП, щоб зрозуміти значення та контекст слів у резюме кандидата та довідковому резюме. Зокрема, він розглядає кожне слово або лексему в резюме кандидата та знаходить найбільш схоже слово в еталонному резюме на основі вбудованих BERT, які є векторними представленнями значення та контексту кожного слова. Він вимірює подібність за допомогою косинусної подібності, яка вказує, наскільки вектори близькі один до одного. Для кожного слова в резюме кандидата він знаходить найбільш пов’язане слово в довідковому резюме, використовуючи розуміння мови BERT. Він порівнює всі ці подібності слів у всьому резюме, щоб отримати загальну оцінку того, наскільки семантично схоже резюме кандидата на резюме. Чим більше схожі слова та значення, які фіксує BERT, тим вищий показник BERTScore. Це дозволяє йому автоматично оцінювати якість створеного резюме, порівнюючи його з довідковим матеріалом людини, не потребуючи щоразу оцінювати людину.

Щоб проілюструвати це, уявіть, що у вас є згенероване машиною резюме: «Швидка бура лисиця перестрибує ледачого собаку». Тепер давайте розглянемо довідкове резюме, створене людиною: «Швидка бура лисиця перестрибує через сплячого ікла».

Обчисліть BERTScore

Щоб розрахувати BERTScore, виконайте наступні кроки:

BERTScore використовує контекстне вбудовування для представлення кожного токена як у реченнях-кандидатах (створених машиною), так і в еталонних (створених людиною) реченнях. Контекстуальні вбудовування — це тип представлення слів у НЛП, який фіксує значення слова на основі його контексту в реченні чи тексті. На відміну від традиційних вбудованих слів, які призначають фіксований вектор кожному слову незалежно від його контексту, контекстні вбудовані враховують навколишні слова для створення унікального представлення кожного слова залежно від того, як воно використовується в конкретному реченні.
Потім метрика обчислює подібність між кожною лексемою в реченні-кандидаті з кожною лексемою в реченні-посиланні за допомогою косинусної подібності. Косинусна подібність допомагає нам кількісно визначити, наскільки тісно пов’язані два набори даних, зосереджуючись на напрямку, який вони вказують у багатовимірному просторі, що робить його цінним інструментом для таких завдань, як пошукові алгоритми, НЛП і системи рекомендацій.
Порівнюючи контекстні вбудовування та обчислюючи показники подібності для всіх токенів, BERTScore генерує комплексну оцінку, яка фіксує семантичну релевантність і контекст створеного підсумку порівняно з створеним людиною посиланням.
Остаточний результат BERTScore надає оцінку подібності, яка відображає, наскільки добре створене машиною резюме узгоджується з еталонним резюме з точки зору значення та контексту.

По суті, BERTScore виходить за рамки традиційних показників, враховуючи семантичні нюанси та контекст речень, пропонуючи більш складну оцінку, яка точно відображає людське судження. Цей передовий підхід підвищує точність і надійність оцінювання завдань підсумовування, роблячи BERTScore цінним інструментом для оцінювання систем генерування тексту.

Обмеження:

Незважаючи на те, що BERTScore пропонує значні переваги в оцінюванні завдань на узагальнення, він також має певні обмеження, які слід враховувати:

Обчислювальна інтенсивність – BERTScore може потребувати інтенсивних обчислень через його залежність від попередньо підготовлених мовних моделей, таких як BERT. Це може призвести до довшого часу оцінки, особливо під час обробки великих обсягів текстових даних.
Залежність від попередньо навчених моделей – Ефективність BERTScore сильно залежить від якості та відповідності використовуваної попередньо підготовленої мовної моделі. У сценаріях, коли попередньо навчена модель може не відображати належним чином нюанси тексту, це може вплинути на результати оцінювання.
масштабованість – Масштабування BERTScore для великих наборів даних або додатків у реальному часі може бути складним через його обчислювальні вимоги. Впровадження BERTScore у виробничих середовищах може потребувати стратегій оптимізації для забезпечення ефективної продуктивності.
Предметна специфіка – Продуктивність BERTScore може відрізнятися в різних доменах або спеціалізованих типах тексту. Адаптація метрики до конкретних областей або завдань може вимагати тонкого налаштування або коригування для отримання точних оцінок.
Інтерпретація – Незважаючи на те, що BERTScore забезпечує комплексну оцінку на основі контекстних вбудовань, інтерпретація конкретних причин оцінок подібності, згенерованих для кожного маркера, може бути складною та може потребувати додаткового аналізу.
Оцінка без посилань – Незважаючи на те, що BERTScore зменшує використання резюме посилань для оцінювання, цей підхід без посилань може не повністю охопити всі аспекти якості підсумовування, особливо в сценаріях, коли створені людиною посилання є важливими для оцінки релевантності та узгодженості вмісту.

Визнання цих обмежень може допомогти вам приймати обґрунтовані рішення під час використання BERTScore як метрики для оцінювання завдань підсумовування, забезпечуючи збалансоване розуміння його сильних сторін і обмежень.

Коли використовувати BERTScore

BERTScore може оцінити якість резюме тексту, порівнюючи згенероване резюме з еталонним резюме. Він використовує нейронні мережі, як-от BERT, для вимірювання семантичної подібності, крім точного збігу слів чи фраз. Це робить BERTScore дуже корисним, коли семантична точність із збереженням повного значення та змісту є критичною для вашого завдання підсумовування. BERTScore надасть вищі бали резюмем, які передають ту саму інформацію, що й базове резюме, навіть якщо в них використовуються інші слова та структури речень. Суть полягає в тому, що BERTScore ідеально підходить для завдань узагальнення, де життєво важливо зберегти повне семантичне значення, а не лише ключові слова чи теми. Його розширена нейронна оцінка дозволяє порівнювати значення, окрім збігу слів на поверхневому рівні. Це робить його придатним для випадків, коли тонкі відмінності у формулюванні можуть суттєво змінити загальне значення та наслідки. BERTScore, зокрема, чудово вловлює семантичну схожість, що є вирішальним для оцінки якості абстрактних підсумків, таких як ті, які створюють моделі Retrieval Augmented Generation (RAG).

Модельні рамки оцінювання

Структури оцінки моделі необхідні для точного вимірювання продуктивності різних моделей узагальнення. Ці рамки є інструментальними для порівняння моделей, забезпечення узгодженості між згенерованими підсумками та вихідним вмістом, а також визначення недоліків у методах оцінювання. Проводячи ретельні оцінки та послідовний порівняльний аналіз, ці структури сприяють дослідженню резюмування тексту, пропагуючи стандартизовані методи оцінки та надаючи можливість багатогранних порівнянь моделей.

В AWS, Бібліотека FMEval в Роз'яснити Amazon SageMaker спрощує оцінку та вибір базових моделей (FM) для таких завдань, як узагальнення тексту, відповіді на запитання та класифікація. Він дає вам змогу оцінювати FM на основі таких показників, як точність, надійність, креативність, упередженість і токсичність, підтримуючи як автоматизовані, так і людські оцінки для LLM. Завдяки оцінкам на основі інтерфейсу користувача або програмним оцінюванням FMEval створює докладні звіти з візуалізаціями для кількісної оцінки ризиків моделі, таких як неточність, токсичність або упередженість, допомагаючи організаціям узгодити свої вказівки щодо відповідального генерування ШІ. У цьому розділі ми демонструємо, як використовувати бібліотеку FMEval.

Оцініть Claude v2 на точність узагальнення за допомогою Amazon Bedrock

Наступний фрагмент коду є прикладом того, як взаємодіяти з моделлю Anthropic Claude за допомогою коду Python:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

Простіше кажучи, цей код виконує такі дії:

Імпорт необхідних бібліотек, в т.ч json, для роботи з даними JSON.
Визначте ідентифікатор моделі як anthropic.claude-v2 і встановіть тип вмісту для запиту.
Створити prompt_data змінна, яка структурує вхідні дані для моделі Клода. У цьому випадку він задає питання «Хто такий Барак Обама?» і очікує відповіді від моделі.
Створіть об’єкт JSON під назвою body, який містить дані підказки, і вкажіть додаткові параметри, як-от максимальну кількість токенів для генерації.
Викликати модель Клода за допомогою bedrock_runtime.invoke_model із визначеними параметрами.
Проаналізуйте відповідь із моделі, витягніть завершення (генерований текст) і роздрукуйте його.

Переконайтеся в тому, Управління ідентифікацією та доступом AWS (IAM) роль, пов'язана з Студія Amazon SageMaker профіль користувача має доступ до Amazon Bedrock моделі, що викликаються. Відноситься до Приклади політики на основі ідентифікації для Amazon Bedrock для вказівок щодо найкращих практик і прикладів політик на основі ідентифікації для Amazon Bedrock.

Використання бібліотеки FMEval для оцінки підсумкових результатів від Клода

Ми використовуємо наступний код для оцінки підсумкового результату:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

У попередньому фрагменті коду, щоб оцінити підсумовування тексту за допомогою бібліотеки FMEval, ми виконали наступні кроки:

Створити ModelRunner щоб виконати виклик на вашому LLM. Бібліотека FMEval забезпечує вбудовану підтримку для Amazon SageMaker кінцеві точки і Amazon SageMaker JumpStart LLM. Ви також можете розширити ModelRunner інтерфейс для будь-яких LLM, розміщених будь-де.
Використання підтримується eval_algorithms наприклад токсичність, узагальнення, точність, семантика та надійність, залежно від ваших потреб оцінки.
Налаштуйте параметри конфігурації оцінки для конкретного випадку використання.
Використовуйте алгоритм оцінки з вбудованими або спеціальними наборами даних, щоб оцінити свою модель LLM. Набір даних, який використовується в цьому випадку, отримано з наступного GitHub репо.

Див керівництво розробника та приклади для детального використання алгоритмів оцінювання.

У наступній таблиці підсумовані результати оцінювання.

модель _вхід	model_output	target_output	підказка	безліч	meteor_score	rouge_score	bert_score
Джон Едвард 0 Бейтс, колишній Сполдінг, Лінко…..	Я не можу сказати нічого остаточного судження, як го...	Колишній Офіцер поліції Лінкольншира переніс…	Людина: Джон Едвард Бейтс, колишній Сполдінг…	[{'name': 'meteor', 'value': 0.101010101010101 ...	0.10101	0	0.557155
23 жовтня 2015 Останнє оновлення о 17:44 BST\|nЦе...	Ось кілька ключових моментів про ураган/троп..	Ураган "Патрісія" отримав категорію...	Людина: 23 Жовтень 2015 Останнє оновлення о 17:44 Б…	[{'name': meteor', “value': 0.102339181286549 ..	0.102339	0.018265	0.441421
Ferrari виявилася в змозі кинути виклик не...	Ось ключові моменти зі статті:nin…	Льюїс Хемілтон завоював поул-позицію на…	Людина: Ferrari виявився в змозі кинути виклик...	[{'name': 'meteor', 'value': 0.322543352601156 ...	0.322543	0.078212	0.606487
28-річний гравець, народжений у Баті, досяг 36 років зовнішній вигляд…	Гаразд, дозвольте мені підсумувати ключові моменти:/nin- E…..	Ньюпорт Гвент Драконс номер восьмий Ед Джексон	Людина: 28-річний гравець, народжений у Баті, зробив 36…	[{'name': 'meteor', 'value': 0105740181268882 ...	0.10574	0.012987	0.539488
Слабкі місця в тому, як миші обмінювалися даними з c…	Ось ключові моменти, які я зібрав із...	Хакери могли отримати доступ до будинку та	Людина: Слабкі сторони в swar миші обмінялися даними	[{'name': 'meteor', 'value': 0.201048289433848 ...	0.201048	0.021858	0.526947

Перегляньте зразок ноутбук щоб дізнатися більше про підсумкове оцінювання, яке ми обговорювали в цій публікації.

Висновок

ROUGE, METEOR і BERTScore вимірюють якість створених машиною підсумків, але зосереджуються на різних аспектах, таких як лексичне накладення, плавність або семантична подібність. Переконайтеся, що вибрано показник, який узгоджується з тим, що визначає «добре» для вашого конкретного випадку використання узагальнення. Ви також можете використовувати комбінацію показників. Це забезпечує більш повну оцінку та захищає від потенційних недоліків будь-якого окремого показника. За допомогою правильних вимірювань ви можете багаторазово вдосконалювати свої підсумовувачі, щоб відповідати поняттю точності, яке має найбільше значення.

Крім того, оцінка FM і LLM необхідна для того, щоб мати можливість виробляти ці моделі в масштабі. З FMEval ви отримуєте великий набір вбудованих алгоритмів для багатьох завдань NLP, а також масштабований і гнучкий інструмент для широкомасштабного оцінювання ваших власних моделей, наборів даних і алгоритмів. Щоб збільшити масштаб, ви можете використовувати цей пакет у своїх конвеєрах LLMOps оцінити кілька моделей. Щоб дізнатися більше про FMEval в AWS і як його ефективно використовувати, див Використовуйте SageMaker Clarify для оцінки великих мовних моделей. Для подальшого розуміння та уявлення про можливості SageMaker Clarify для оцінки FM див. Amazon SageMaker Clarify спрощує оцінку та вибір моделей основи.

Про авторів

Дінеш Кумар Субрамані є старшим архітектором рішень, який працює в Единбурзі, Шотландія. Він спеціалізується на штучному інтелекті та машинному навчанні та є членом технічної спільноти в Amazon. Dinesh тісно співпрацює з клієнтами центрального уряду Великобританії, щоб вирішити їхні проблеми за допомогою послуг AWS. Поза роботою Дінеш любить проводити час із сім’єю, грати в шахи та вивчати різноманітну музику.

Пранав Шарма є лідером AWS, який керує технологіями та ініціативами трансформації бізнесу в Європі, на Близькому Сході та в Африці. Він має досвід розробки та запуску платформ штучного інтелекту у виробництві, які підтримують мільйони клієнтів і забезпечують бізнес-результати. Він виконував роль керівника технологій і персоналу в організаціях Global Financial Services. Поза роботою він любить читати, грати з сином у теніс і дивитися фільми.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/evaluate-the-text-summarization-capabilities-of-llms-for-enhanced-decision-making-on-aws/

Generative Data Intelligence

Оцініть можливості LLM для узагальнення тексту для покращеного прийняття рішень на AWS | Веб-сервіси Amazon

Види конспектування

Змагання

Орієнтоване на запам'ятовування дослідження для оцінки суті (ROUGE)

Обчисліть бал ROUGE-N

Недоліки

Коли використовувати ROUGE

Метрика для оцінки перекладу з явним упорядкуванням (METEOR)

Розрахуйте бал METEOR

Недоліки

Коли використовувати METEOR

BERTScore

Обчисліть BERTScore

Обмеження:

Коли використовувати BERTScore

Модельні рамки оцінювання

Оцініть Claude v2 на точність узагальнення за допомогою Amazon Bedrock

Використання бібліотеки FMEval для оцінки підсумкових результатів від Клода

Висновок

Про авторів

Захист творчості в цифровій сфері: вивчення впливу цифрових водяних знаків на генеративний штучний інтелект та інтелектуальну власність

Зростання ієни згасає, оскільки долар США зростає – MarketPulse

Остання розвідка

Ось чому цей криптоаналітик вважає, що біткойн знаходиться в «зоні першочергової покупки»

解锁众筹潜能：普及阅读障碍投资者的数据智能和策略

Оволодіння мистецтвом вибору брокера Forex: вичерпний посібник

Mysterious Whale робить великі ставки на шиба-іну, купуючи майже 2 трильйони, оскільки власники передбачають ціну SHIB у 0.001 дол.

Ethereum (ETH) Whales розвантажує холдинги, оскільки швидкість спалювання ETH досягає річного мінімуму

Партнери Visa та JPMorgan допомагають компаніям здійснювати швидші платежі

Зв'яжіться з нами!