Оцените возможности LLM по обобщению текста для более эффективного принятия решений на AWS | Веб-сервисы Amazon

Организации в разных отраслях используют автоматическое обобщение текста, чтобы более эффективно обрабатывать огромные объемы информации и принимать более обоснованные решения. В финансовом секторе инвестиционные банки сокращают отчеты о прибылях до ключевых выводов, чтобы быстро проанализировать квартальные результаты. Медиа-компании используют обобщение для мониторинга новостей и социальных сетей, чтобы журналисты могли быстро писать статьи по развивающимся проблемам. Правительственные учреждения обобщают объемные политические документы и отчеты, чтобы помочь политикам выработать стратегию и определить приоритетность целей.

Создавая сокращенные версии длинных и сложных документов, технология реферирования позволяет пользователям сосредоточиться на наиболее важном содержании. Это приводит к лучшему пониманию и сохранению важной информации. Экономия времени позволяет заинтересованным сторонам просмотреть больше материала за меньшее время, получая более широкую перспективу. Благодаря более глубокому пониманию и более обобщенному анализу организации могут принимать более обоснованные стратегические решения, ускорять исследования, повышать производительность и увеличивать их влияние. Преобразующая сила расширенных возможностей обобщения будет только расти по мере того, как все больше отраслей будут внедрять искусственный интеллект (ИИ) для использования переполненных информационных потоков.

В этом посте мы исследуем ведущие подходы к объективной оценке точности обобщения, включая метрики ROUGE, METEOR и BERTScore. Понимание сильных и слабых сторон этих методов может помочь в выборе и улучшении. Общая цель этой статьи — прояснить ситуацию с обобщающей оценкой, чтобы помочь командам лучше оценить производительность этой критически важной функции, поскольку они стремятся максимизировать ценность.

Виды реферирования

Реферирование обычно можно разделить на два основных типа: экстрактивное реферирование и абстрактное реферирование. Оба подхода направлены на сжатие длинных фрагментов текста в более короткие формы, улавливая наиболее важную информацию или суть исходного контента, но они делают это принципиально разными способами.

Экстрактивное реферирование включает в себя идентификацию и извлечение ключевых фраз, предложений или сегментов из исходного текста без их изменения. Система выбирает части текста, которые считаются наиболее информативными или репрезентативными из целого. Экстрактивное обобщение полезно, если точность имеет решающее значение и резюме должно отражать точную информацию из исходного текста. Это могут быть варианты использования, например выделение конкретных юридических условий, обязательств и прав, изложенных в условиях использования. Наиболее распространенными методами, используемыми для экстрактивного обобщения, являются частота терминов, обратная частоте документов (TF-IDF), оценка предложений, алгоритм ранжирования текста и контролируемое машинное обучение (ML).

Абстрактное обобщение идет еще дальше, создавая новые фразы и предложения, которых не было в исходном тексте, по сути, перефразируя и сокращая исходное содержание. Такой подход требует более глубокого понимания текста, поскольку ИИ необходимо интерпретировать смысл, а затем выразить его в новой, лаконичной форме. Модели большого языка (LLM) лучше всего подходят для абстрактного реферирования, поскольку модели-преобразователи используют механизмы внимания, чтобы сосредоточиться на соответствующих частях входного текста при создании рефератов. Механизм внимания позволяет модели присваивать разные веса разным словам или лексемам во входной последовательности, что позволяет ей фиксировать долгосрочные зависимости и контекстно значимую информацию.

Помимо этих двух основных типов, существуют гибридные подходы, сочетающие в себе экстрактивные и абстрактные методы. Эти подходы могут начинаться с экстрактивного реферирования для выявления наиболее важного содержания, а затем использовать абстрактные методы для переписывания или сжатия этого содержания в беглое резюме.

Задача

Поиск оптимального метода оценки качества сводных данных остается открытой задачей. Поскольку организации все чаще полагаются на автоматическое обобщение текста для извлечения ключевой информации из документов, растет потребность в стандартизированных методах измерения точности обобщения. В идеале эти показатели оценки должны количественно определять, насколько хорошо сгенерированные компьютером резюме извлекают наиболее существенный контент из исходных текстов и представляют собой связные резюме, отражающие исходный смысл и контекст.

Однако разработка надежных методологий оценки для реферирования текста сопряжена с трудностями:

Реферативные обзоры, написанные людьми и используемые для сравнения, часто демонстрируют высокую вариабельность, основанную на субъективном определении важности.
Тонкие аспекты качества резюме, такие как беглость, читабельность и связность, трудно оценить программно.
Существуют широкие различия в методах суммирования, от статистических алгоритмов до нейронных сетей, что усложняет прямое сравнение.

Дублер, ориентированный на отзыв, для оценки Gisting (ROUGE)

РУЖ метрики, такие как ROUGE-N и ROUGE-L, играют решающую роль в оценке качества резюме, созданного машиной, по сравнению с справочными резюме, написанными человеком. Эти метрики направлены на оценку совпадения между содержанием автоматических и созданных человеком сводок путем анализа n-грамм, которые представляют собой группы слов или токенов. Например, ROUGE-1 оценивает соответствие отдельных слов (униграмм), тогда как ROUGE-2 рассматривает пары слов (биграммы). Кроме того, ROUGE-N оценивает самую длинную общую последовательность слов между двумя текстами, обеспечивая гибкость в порядке слов.

Чтобы проиллюстрировать это, рассмотрим следующие примеры:

Метрика ROGUE-1 – ROUGE-1 оценивает перекрытие униграмм (отдельных слов) между сгенерированным резюме и справочным резюме. Например, если эталонная сводка содержит фразу «Быстро прыгает бурая лисица», а сгенерированная сводка выглядит как «Быстрая коричневая лисица прыгает», метрика ROUGE-1 будет считать слова «коричневая», «лиса» и «прыжки» перекрывающимися. униграммы. ROUGE-1 фокусируется на присутствии отдельных слов в резюме, измеряя, насколько хорошо созданное резюме отражает ключевые слова из справочного резюме.
Метрика ROGUE-2 – ROUGE-2 оценивает перекрытие биграмм (пар соседних слов) между сгенерированным резюме и справочным резюме. Например, если в справочном резюме есть «Кот спит», а сгенерированное резюме гласит: «Кот спит», ROUGE-2 будет идентифицировать «кот есть» и «спит» как перекрывающуюся биграмму. ROUGE-2 дает представление о том, насколько хорошо созданное резюме сохраняет последовательность и контекст пар слов по сравнению с эталонным резюме.
РУЖ-Н метрика – ROUGE-N – это обобщенная форма, где N представляет собой любое число, позволяющее производить оценку на основе n-грамм (последовательностей из N слов). Учитывая N=3, если в ссылочном резюме указано «Ярко светит солнце», а сгенерированное резюме — «Ярко светит солнце», ROUGE-3 распознает «Ярко светит солнце» как соответствующую триграмму. ROUGE-N обеспечивает гибкость оценки сводок на основе последовательностей слов разной длины, обеспечивая более полную оценку перекрытия контента.

Эти примеры иллюстрируют, как метрики ROUGE-1, ROUGE-2 и ROUGE-N работают при оценке задач автоматического суммирования или машинного перевода путем сравнения сгенерированных сводок со справочными сводками на основе различных уровней последовательностей слов.

Рассчитать показатель ROUGE-N

Для расчета показателя ROUGE-N можно использовать следующие шаги:

Токенизируйте сгенерированную сводку и справочную сводку на отдельные слова или токены, используя базовые методы токенизации, такие как разделение по пробелам или библиотеки обработки естественного языка (NLP).
Сгенерируйте n-граммы (непрерывные последовательности N слов) как из сгенерированной сводки, так и из справочной сводки.
Подсчитайте количество перекрывающихся n-грамм между сгенерированной сводкой и справочной сводкой.
Рассчитайте точность, отзыв и оценку F1:
- Точность – Количество перекрывающихся n-грамм, разделенное на общее количество n-грамм в сгенерированной сводке.
- Вспоминать – Количество перекрывающихся n-грамм, разделенное на общее количество n-грамм в сводке ссылок.
- Счет F1 – Гармоническое среднее точности и полноты, рассчитываемое как (2 * точность * полнота) / (точность + полнота).
Совокупная оценка F1, полученная в результате расчета точности, полноты и оценки F1 для каждой строки в наборе данных, считается оценкой ROUGE-N.

ограничения

ROGUE имеет следующие ограничения:

Узкий акцент на лексическом совпадении – Основная идея ROUGE заключается в сравнении резюме, сгенерированного системой, с набором справочных материалов или резюме, созданных человеком, и измерение лексического совпадения между ними. Это означает, что ROUGE очень узко фокусируется на сходстве на уровне слов. На самом деле он не оценивает смысловое значение, связность или читаемость резюме. Система может достичь высоких оценок ROUGE, просто извлекая предложения слово в слово из исходного текста, не создавая связного или краткого изложения.
Нечувствительность к перефразированию – Поскольку ROUGE полагается на лексическое сопоставление, он не может обнаружить семантическую эквивалентность между словами и фразами. Поэтому перефразирование и использование синонимов часто приводят к снижению оценок ROUGE, даже если смысл сохраняется. Это ставит в невыгодное положение системы, которые перефразируют или суммируют абстрактно.
Отсутствие семантического понимания. – ROUGE не оценивает, действительно ли система поняла значения и концепции исходного текста. В резюме можно добиться высокого лексического совпадения со ссылками, но при этом упустить основные идеи или содержать фактические несоответствия. ROUGE не указала на эти проблемы.

Когда использовать РУМЯНУЮ

ROUGE легко и быстро рассчитывается. Используйте его в качестве основы или эталона для качества сводки, связанной с выбором контента. Метрики ROUGE наиболее эффективно используются в сценариях, включающих задачи абстрактного реферирования, автоматическую оценку реферирования, оценку LLM и сравнительный анализ различных подходов к реферированию. Используя метрики ROUGE в этих контекстах, заинтересованные стороны могут количественно оценить качество и эффективность процессов формирования сводных данных.

Метрика для оценки перевода с явным упорядочением (METEOR)

Одной из основных проблем при оценке систем реферирования является оценка того, насколько хорошо созданное резюме логично, а не просто выбор соответствующих слов и фраз из исходного текста. Простое извлечение соответствующих ключевых слов и предложений не обязательно дает связное и связное резюме. Резюме должно быть плавным и логически связывать идеи, даже если они представлены не в том же порядке, что и в исходном документе.

Гибкость сопоставления за счет сокращения слов до их корня или базовой формы (например, после создания основы такие слова, как «бег», «беги» и «бег», все становятся «бежать»), а синонимы означают METEOR лучше коррелирует с человеческими суждениями суммарного качества. Он может определить, сохранен ли важный контент, даже если формулировка отличается. Это ключевое преимущество перед метриками на основе n-грамм, такими как ROUGE, которые ищут только точные совпадения токенов. METEOR также дает более высокие оценки резюме, в которых основное внимание уделяется наиболее значимому содержанию справочника. Более низкие баллы присваиваются повторяющейся или нерелевантной информации. Это хорошо согласуется с целью обобщения, чтобы сохранить только самое важное содержание. METEOR — это семантически значимая метрика, которая может преодолеть некоторые ограничения сопоставления n-грамм для оценки суммирования текста. Включение оснований и синонимов позволяет лучше оценить совпадение информации и точность содержания.

Чтобы проиллюстрировать это, рассмотрим следующие примеры:

Краткое описание ссылки: Листья опадают осенью.

Сгенерированное резюме 1: Листья осенью опадают.

Сгенерированное резюме 2: Листья летом зеленые.

Слова, которые совпадают между ссылкой и созданным резюме 1, выделены:

Краткое описание ссылки: Листья падать осенью.

Сгенерированное резюме 1: Листья зайти падать.

Несмотря на то, что «осень» и «осень» — разные токены, METEOR распознает их как синонимы посредством сопоставления синонимов. «Падение» и «падение» идентифицируются как связанное совпадение. Для сгенерированной сводки 2 нет совпадений со ссылочной сводкой, кроме «Листья», поэтому эта сводка получит гораздо более низкую оценку METEOR. Чем больше семантически значимых совпадений, тем выше оценка METEOR. Это позволяет METEOR лучше оценивать содержание и точность сводок по сравнению с простым сопоставлением n-грамм.

Подсчитать балл МЕТЕОР

Выполните следующие шаги, чтобы подсчитать балл METEOR:

Разбивайте сгенерированную сводку и справочную сводку на отдельные слова или токены, используя базовые методы токенизации, такие как разделение по пробелам или библиотеки NLP.
Рассчитайте точность униграмм, полноту и F-среднюю оценку, что придаст больше веса отзыву, чем точности.
Примените штраф за точные совпадения, чтобы не переоценивать их. Наказание выбирается на основе характеристик набора данных, требований задачи и баланса между точностью и полнотой. Вычтите этот штраф из среднего балла F, рассчитанного на этапе 2.
Рассчитайте средний балл F для основных форм (приведение слов к их базовой или корневой форме) и синонимов для униграмм, где это применимо. Объедините это значение с ранее рассчитанным F-средним баллом, чтобы получить окончательный балл METEOR. Оценка METEOR варьируется от 0 до 1, где 0 указывает на отсутствие сходства между сгенерированным резюме и справочным резюме, а 1 указывает на идеальное совпадение. Обычно оценки суммирования находятся в диапазоне 0–0.6.

ограничения

При использовании метрики METEOR для оценки задач обобщения может возникнуть несколько проблем:

Семантическая сложность – Акцент METEOR на семантическом сходстве может с трудом уловить нюансы значений и контекста в сложных задачах обобщения, что потенциально может привести к неточностям в оценке.
Эталонная изменчивость – Вариативность сводок ссылок, созданных человеком, может повлиять на баллы METEOR, поскольку различия в содержании ссылок могут повлиять на оценку резюме, созданных компьютером.
Языковое разнообразие – Эффективность METEOR может различаться в зависимости от языка из-за лингвистических различий, синтаксических различий и семантических нюансов, что создает проблемы при многоязычном обобщении оценок.
Несоответствие длины – Оценка резюме различной длины может быть сложной задачей для METEOR, поскольку расхождения в длине по сравнению со справочным резюме могут привести к штрафам или неточностям в оценке.
Настройка параметров – Оптимизация параметров METEOR для различных наборов данных и задач обобщения может занять много времени и потребовать тщательной настройки, чтобы метрика давала точные оценки.
Предвзятость оценки – Существует риск систематической ошибки в оценке METEOR, если он не настроен должным образом или не откалиброван для конкретных областей или задач обобщения. Это потенциально может привести к искажению результатов и повлиять на надежность процесса оценки.

Зная об этих проблемах и учитывая их при использовании METEOR в качестве показателя для задач обобщения, исследователи и практики могут преодолевать потенциальные ограничения и принимать более обоснованные решения в своих процессах оценки.

Когда использовать МЕТЕОР

METEOR обычно используется для автоматической оценки качества текстовых сводок. Предпочтительно использовать METEOR в качестве показателя оценки, когда порядок идей, концепций или сущностей в сводке имеет значение. METEOR учитывает порядок и сопоставляет n-граммы между сгенерированной сводкой и справочной сводкой. Он вознаграждает резюме, которые сохраняют последовательную информацию. В отличие от таких показателей, как ROUGE, которые основаны на перекрытии n-грамм со справочными сводками, METEOR сопоставляет основы, синонимы и парафразы. METEOR работает лучше, когда существует несколько правильных способов резюмировать исходный текст. METEOR включает синонимы WordNet и токены с основой при сопоставлении n-грамм. Короче говоря, резюме, которые семантически схожи, но используют разные слова или формулировки, по-прежнему будут иметь хорошие оценки. В METEOR есть встроенный штраф за сводки с повторяющимися n-граммами. Таким образом, это препятствует дословному извлечению или отсутствию абстракции. METEOR — хороший выбор, когда для оценки качества резюме важны семантическое сходство, порядок идей и беглая формулировка. Он менее подходит для задач, где имеет значение только лексическое совпадение со сводками ссылок.

BERTScore

Лексические меры поверхностного уровня, такие как ROUGE и METEOR, оценивают системы реферирования, сравнивая совпадение слов между резюме-кандидатом и справочным резюме. Однако они в значительной степени полагаются на точное соответствие строк между словами и фразами. Это означает, что они могут упускать из виду семантическое сходство между словами и фразами, имеющими разные поверхностные формы, но схожие основные значения. Полагаясь только на поверхностное сопоставление, эти показатели могут недооценивать качество системных обзоров, в которых синонимы или понятия перефразируются иначе, чем в справочных обзорах. Два резюме могут передавать почти идентичную информацию, но получают низкие оценки на поверхностном уровне из-за различий в словарном запасе.

BERTScore — это способ автоматически оценить, насколько хорошо резюме, сравнивая его со справочным резюме, написанным человеком. Он использует BERT, популярную технику НЛП, чтобы понять значение и контекст слов в резюме кандидата и резюме кандидата. В частности, он просматривает каждое слово или токен в сводке кандидатов и находит наиболее похожее слово в сводке ссылок на основе векторных представлений BERT, которые представляют собой векторные представления значения и контекста каждого слова. Он измеряет сходство, используя косинусное сходство, которое показывает, насколько близки векторы друг к другу. Для каждого слова в сводке кандидатов он находит наиболее связанное слово в сводке ссылок, используя понимание языка BERT. Он сравнивает все эти сходства слов во всем резюме, чтобы получить общую оценку того, насколько семантически похоже резюме кандидата на справочное резюме. Чем более похожи слова и значения, зафиксированные BERT, тем выше балл BERTS. Это позволяет автоматически оценивать качество сгенерированного резюме путем сравнения его с человеческим эталоном без необходимости каждый раз оценивать его человеком.

Чтобы проиллюстрировать это, представьте, что у вас есть сгенерированное машиной резюме: «Быстрая коричневая лиса прыгает через ленивую собаку». Теперь давайте рассмотрим краткое содержание справочника, созданное человеком: «Быстрая коричневая лиса перепрыгивает через спящую собаку».

Рассчитать BERTScore

Выполните следующие шаги, чтобы рассчитать BERTScore:

BERTScore использует контекстные встраивания для представления каждого токена как в предложениях-кандидатах (созданных машиной), так и в справочных (созданных человеком) предложениях. Контекстуальные встраивания — это тип представления слов в НЛП, который фиксирует значение слова на основе его контекста внутри предложения или текста. В отличие от традиционных вложений слов, которые присваивают фиксированный вектор каждому слову независимо от его контекста, контекстные встраивания учитывают, что окружающие слова генерируют уникальное представление для каждого слова в зависимости от того, как оно используется в конкретном предложении.
Затем метрика вычисляет сходство между каждым токеном в предложении-кандидате с каждым токеном в эталонном предложении, используя косинусное сходство. Косинусное сходство помогает нам количественно оценить, насколько тесно связаны два набора данных, фокусируясь на направлении, которое они указывают в многомерном пространстве, что делает его ценным инструментом для таких задач, как поисковые алгоритмы, НЛП и системы рекомендаций.
Сравнивая контекстные встраивания и вычисляя показатели сходства для всех токенов, BERTScore генерирует комплексную оценку, которая отражает семантическую релевантность и контекст сгенерированной сводки по сравнению со ссылкой, созданной человеком.
Окончательный результат BERTScore предоставляет оценку сходства, которая отражает, насколько хорошо созданное машиной резюме соответствует справочному резюме с точки зрения значения и контекста.

По сути, BERTScore выходит за рамки традиционных показателей, учитывая семантические нюансы и контекст предложений, предлагая более сложную оценку, которая точно отражает человеческое суждение. Этот продвинутый подход повышает точность и надежность оценки задач реферирования, что делает BERTScore ценным инструментом при оценке систем генерации текста.

Ограничения:

Хотя BERTScore предлагает значительные преимущества при оценке задач суммирования, он также имеет определенные ограничения, которые необходимо учитывать:

Интенсивность вычислений – BERTScore может требовать больших вычислительных ресурсов из-за использования предварительно обученных языковых моделей, таких как BERT. Это может привести к увеличению времени оценки, особенно при обработке больших объемов текстовых данных.
Зависимость от предварительно обученных моделей – Эффективность BERTScore во многом зависит от качества и актуальности используемой предварительно обученной языковой модели. В сценариях, где предварительно обученная модель может неадекватно отражать нюансы текста, это может повлиять на результаты оценки.
Масштабируемость – Масштабирование BERTScore для больших наборов данных или приложений реального времени может оказаться сложной задачей из-за требований к вычислительным ресурсам. Внедрение BERTScore в производственных средах может потребовать стратегий оптимизации для обеспечения эффективной производительности.
Специфика домена – Производительность BERTScore может различаться в зависимости от домена или специализированного типа текста. Адаптация показателя к конкретным областям или задачам может потребовать тонкой настройки или корректировок для получения точных оценок.
Интерпретируемость – Хотя BERTScore обеспечивает комплексную оценку на основе контекстных вложений, интерпретация конкретных причин, лежащих в основе оценок сходства, генерируемых для каждого токена, может быть сложной и может потребовать дополнительного анализа.
Бесплатная оценка – Хотя BERTScore снижает зависимость от справочных обзоров для оценки, этот подход без ссылок может не полностью охватить все аспекты качества обобщения, особенно в сценариях, где созданные человеком ссылки необходимы для оценки релевантности и связности контента.

Признание этих ограничений может помочь вам принимать обоснованные решения при использовании BERTScore в качестве показателя для оценки задач суммирования, обеспечивая сбалансированное понимание его сильных сторон и ограничений.

Когда использовать BERTScore

BERTScore может оценить качество реферирования текста, сравнивая созданное резюме со справочным резюме. Он использует нейронные сети, такие как BERT, для измерения семантического сходства, помимо точного совпадения слов или фраз. Это делает BERTScore очень полезным, когда семантическая точность, сохраняющая полное значение и содержание, имеет решающее значение для вашей задачи реферирования. BERTScore даст более высокие оценки резюме, которые передают ту же информацию, что и справочное резюме, даже если в них используются другие слова и структуры предложений. Суть в том, что BERTScore идеально подходит для задач обобщения, где жизненно важно сохранить полное семантическое значение, а не только ключевые слова или темы. Его продвинутая нейронная оценка позволяет сравнивать значения, выходящие за рамки сопоставления слов на поверхностном уровне. Это делает его подходящим для случаев, когда тонкие различия в формулировках могут существенно изменить общий смысл и смысл. BERTScore, в частности, превосходно справляется с определением семантического сходства, что имеет решающее значение для оценки качества абстрактных сводок, подобных тем, которые создаются моделями поисковой дополненной генерации (RAG).

Рамки оценки моделей

Системы оценки моделей необходимы для точной оценки эффективности различных моделей обобщения. Эти структуры играют важную роль в сравнении моделей, обеспечении согласованности между созданными резюме и исходным контентом, а также выявлении недостатков в методах оценки. Путем проведения тщательных оценок и последовательного сравнительного анализа эти структуры стимулируют исследования по обобщению текстов, пропагандируя стандартизированные методы оценки и обеспечивая многогранное сравнение моделей.

В AWS библиотека FMEval в Amazon SageMaker Уточнить упрощает оценку и выбор базовых моделей (FM) для таких задач, как обобщение текста, ответы на вопросы и классификация. Он дает вам возможность оценивать FM на основе таких показателей, как точность, надежность, креативность, предвзятость и токсичность, поддерживая как автоматизированную, так и человеческую оценку для LLM. С помощью оценок на основе пользовательского интерфейса или программных оценок FMEval генерирует подробные отчеты с визуализацией для количественной оценки рисков модели, таких как неточности, токсичность или предвзятость, помогая организациям соблюдать свои ответственные руководящие принципы генеративного ИИ. В этом разделе мы покажем, как использовать библиотеку FMEval.

Оцените точность суммирования Claude v2 с помощью Amazon Bedrock

Следующий фрагмент кода представляет собой пример взаимодействия с моделью Anthropic Claude с использованием кода Python:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

Проще говоря, этот код выполняет следующие действия:

Импортируйте необходимые библиотеки, в том числе json, для работы с данными JSON.
Определите идентификатор модели как anthropic.claude-v2 и установите тип контента для запроса.
Создайте prompt_data переменная, которая структурирует входные данные для модели Клода. В данном случае задается вопрос «Кто такой Барак Обама?» и ожидает ответа от модели.
Создайте объект JSON с именем body, включающий данные подсказки, и укажите дополнительные параметры, например максимальное количество генерируемых токенов.
Вызовите модель Клода, используя bedrock_runtime.invoke_model с заданными параметрами.
Проанализируйте ответ модели, извлеките завершение (сгенерированный текст) и распечатайте его.

Убедитесь в том, Управление идентификацией и доступом AWS (IAM) роль, связанная с Студия Amazon SageMaker профиль пользователя имеет доступ к Коренная порода Амазонки вызываемые модели. Ссылаться на Примеры политики на основе идентификации для Amazon Bedrock рекомендации по передовому опыту и примеры политик на основе идентификации для Amazon Bedrock.

Использование библиотеки FMEval для оценки обобщенных результатов Клода

Мы используем следующий код для оценки итогового результата:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

В предыдущем фрагменте кода для оценки суммирования текста с помощью библиотеки FMEval мы выполняем следующие шаги:

Создайте ModelRunner для выполнения вызова вашего LLM. Библиотека FMEval обеспечивает встроенную поддержку Создатель мудреца Амазонки конечные точки и Amazon SageMaker JumpStart LLM. Вы также можете продлить ModelRunner интерфейс для любых LLM, размещенных где угодно.
Использование поддерживается eval_algorithms такие как токсичность, обобщение, точность, семантика и надежность, в зависимости от ваших потребностей в оценке.
Настройте параметры конфигурации оценки для вашего конкретного случая использования.
Используйте алгоритм оценки со встроенными или настраиваемыми наборами данных для оценки вашей модели LLM. Набор данных, используемый в этом случае, получен из следующего Репо GitHub.

См. руководство для разработчиков и примеры для подробного использования алгоритмов оценки.

В следующей таблице суммированы результаты оценки.

модель _input	model_output	целевой_выход	подсказка	множество	метеор_score	rouge_score	bert_score
Джон Эдвард 0 Бейтс, ранее работавший в Spalding, Linco…..	Я не могу сделать ничего определенного суждения, как…	Бывший Полицейский Линкольншира совершил…	Человек: Джон Эдвард Бейтс, бывший сотрудник Spalding…	[{'name': 'метеор', 'значение': 0.101010101010101 ...	0.10101	0	0.557155
23 октября 2015 Последние обновления 17:44 BST\|Нет…	Вот некоторые ключевые моменты об ураганах/тропах.	Ураган «Патриция» был отнесен к категории…	Человек: 23 Октябрь 2015 г. Последнее обновление в 17:44. Б…	[{'имя': метеор', “значение”: 0.102339181286549 ..	0.102339	0.018265	0.441421
Ferrari оказалась в состоянии бросить вызов…	Вот ключевые моменты из статьи: nin…	Льюис Хэмилтон вырвался к поул-позиции на…	Человек: Феррари оказалась в состоянии бросить вызов…	[{'name': 'метеор', 'значение': 0.322543352601156 ...	0.322543	0.078212	0.606487
28-летний уроженец Бата забил 36 голов. внешний вид…	Хорошо, позвольте мне суммировать ключевые моменты: /nin-E…..	Ньюпорт Гвинт Драгонс номер восемь Эд Джексон	Человек: 28-летний уроженец Бата забил 36 очков за…	[{'name': 'метеор', 'значение': 0105740181268882 ...	0.10574	0.012987	0.539488
Слабые стороны в том, как мыши обменивались данными с компьютером.	Вот ключевые моменты, которые я извлек из…	Хакеры могут получить доступ к дому и	человек: Слабые стороны Сварные мыши поменялись данными	[{'name': 'метеор', 'значение': 0.201048289433848 ...	0.201048	0.021858	0.526947

Посмотрите образец ноутбук для получения более подробной информации об итоговой оценке, которую мы обсуждали в этом посте.

Заключение

ROUGE, METEOR и BERTScore измеряют качество автоматически сгенерированных резюме, но фокусируются на различных аспектах, таких как лексическое перекрытие, беглость или семантическое сходство. Обязательно выберите показатель, который соответствует тому, что определяет «хорошо» для вашего конкретного варианта использования обобщения. Вы также можете использовать комбинацию показателей. Это обеспечивает более всестороннюю оценку и защищает от потенциальных недостатков любого отдельного показателя. При правильных измерениях вы можете итеративно совершенствовать свои сумматоры, чтобы обеспечить наиболее важное значение точности.

Кроме того, для масштабного производства этих моделей необходима оценка FM и LLM. С FMEval вы получаете обширный набор встроенных алгоритмов для решения многих задач НЛП, а также масштабируемый и гибкий инструмент для крупномасштабной оценки ваших собственных моделей, наборов данных и алгоритмов. Для масштабирования вы можете использовать этот пакет в своих конвейерах LLMOps, чтобы оценить несколько моделей. Чтобы узнать больше о FMEval в AWS и о том, как его эффективно использовать, см. Используйте SageMaker Clarify для оценки больших языковых моделей. Для дальнейшего понимания и понимания возможностей SageMaker Clarify при оценке FM см. Amazon SageMaker Clarify упрощает оценку и выбор базовых моделей.

Об авторах

Динеш Кумар Субрамани — старший архитектор решений в Эдинбурге, Шотландия. Он специализируется на искусственном интеллекте и машинном обучении и является членом технического сообщества Amazon. Динеш тесно сотрудничает с клиентами из центрального правительства Великобритании, решая их проблемы с помощью сервисов AWS. Вне работы Динеш любит проводить время со своей семьей, играть в шахматы и изучать разнообразную музыку.

Пранав Шарма — лидер AWS, реализующий инициативы по трансформации технологий и бизнеса в Европе, на Ближнем Востоке и в Африке. У него есть опыт проектирования и запуска платформ искусственного интеллекта в производстве, которые поддерживают миллионы клиентов и обеспечивают бизнес-результаты. Он занимал руководящие должности в области технологий и персонала в организациях, предоставляющих глобальные финансовые услуги. Вне работы он любит читать, играть с сыном в теннис и смотреть фильмы.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/evaluate-the-text-summarization-capabilities-of-llms-for-enhanced-decision-making-on-aws/

Генеративный анализ данных

Оцените возможности LLM по обобщению текста для более эффективного принятия решений на AWS | Веб-сервисы Amazon

Виды реферирования

Задача

Дублер, ориентированный на отзыв, для оценки Gisting (ROUGE)

Рассчитать показатель ROUGE-N

ограничения

Когда использовать РУМЯНУЮ

Метрика для оценки перевода с явным упорядочением (METEOR)

Подсчитать балл МЕТЕОР

ограничения

Когда использовать МЕТЕОР

BERTScore

Рассчитать BERTScore

Ограничения:

Когда использовать BERTScore

Рамки оценки моделей

Оцените точность суммирования Claude v2 с помощью Amazon Bedrock

Использование библиотеки FMEval для оценки обобщенных результатов Клода

Заключение

Об авторах

Количество пользователей Crypto.com превысило 100 миллионов по всему миру

Может ли биткойн достичь $73,000 XNUMX в мае? Коррекция окончена, время ралли! – КриптоИнфоНет

Последняя разведка

Zentry, ранее GuildFi, запускает Superlayer для объединения игровых платформ Web3 и Web2 | БитПинас

SIBAN сообщает о росте P2P-торговли в Нигерии из-за отсутствия регулирования криптовалюты – CryptoInfoNet

Менее 10% объема транзакций стейблкоина приходится на реальных пользователей: отчет

Сеть Биткойн превысила 1 миллиард транзакций

Будут ли крипторынки продолжать расти на фоне экономических данных этой недели?

«Не скупитесь» на раздачу токенов, говорит основатель Uniswap – Unchained

Чат с нами