AWS での意思決定を強化するために LLM のテキスト要約機能を評価する |アマゾンウェブサービス

さまざまな業界の組織が、自動テキスト要約を使用して、膨大な量の情報をより効率的に処理し、より適切な意思決定を行っています。金融セクターでは、投資銀行は四半期業績を迅速に分析するために、重要なポイントに絞って収益レポートを作成します。メディア企業は要約を使用してニュースやソーシャルメディアを監視し、ジャーナリストが発展途上の問題について記事を迅速に作成できるようにします。政府機関は、政策立案者が戦略を立て、目標に優先順位を付けるのに役立つよう、長大な政策文書や報告書を要約しています。

要約テクノロジーを使用すると、長く複雑な文書の要約バージョンを作成することで、ユーザーは最も重要なコンテンツに焦点を当てることができます。これにより、重要な情報の理解と保持が向上します。時間の節約により、関係者はより短い時間でより多くの資料をレビューでき、より広い視野を得ることができます。理解を強化し、より総合的な洞察を得ることで、組織はより適切な情報に基づいた戦略的意思決定を行い、研究を加速し、生産性を向上させ、その影響力を高めることができます。あふれる情報ストリームを活用するために人工知能 (AI) を導入する業界が増えるにつれて、高度な要約機能の変革力は今後も増大し続けるでしょう。

この投稿では、ROUGE メトリクス、METEOR、BERTScore など、要約の精度を客観的に評価するための主要なアプローチを検討します。これらの手法の長所と短所を理解することは、選択と改善の取り組みをガイドするのに役立ちます。この投稿の全体的な目標は、要約評価をわかりやすく説明し、チームが価値の最大化を目指す際に、この重要な機能のベンチマークパフォーマンスを向上できるようにすることです。

要約の種類

要約は一般に、抽出的要約と抽象的要約の 2 つの主なタイプに分類できます。どちらのアプローチも、長いテキストを短い形式に圧縮して、元のコンテンツの最も重要な情報や本質を捉えることを目的としていますが、その方法は根本的に異なります。

抽出的要約では、元のテキストからキーフレーズ、センテンス、セグメントを変更せずに特定して抽出します。システムは、テキストの中で最も有益または全体を代表していると思われる部分を選択します。抽出的要約は、正確さが重要であり、要約が元のテキストからの正確な情報を反映する必要がある場合に役立ちます。これらは、利用規約に概説されている特定の法的条件、義務、権利を強調するなどのユースケースである可能性があります。抽出的要約に使用される最も一般的な手法は、用語頻度 - 逆文書頻度 (TF-IDF)、文スコアリング、テキストランクアルゴリズム、および教師あり機械学習 (ML) です。

抽象的な要約は、元のテキストにはない新しいフレーズや文を生成することでさらに一歩進み、基本的に元の内容を言い換えて要約します。このアプローチでは、AI が意味を解釈して新しい簡潔な形式で表現する必要があるため、テキストをより深く理解する必要があります。大規模言語モデル (LLM) は、要約を生成するときに、トランスフォーマーモデルがアテンションメカニズムを使用して入力テキストの関連部分に焦点を当てるため、抽象的な要約に最適です。アテンションメカニズムにより、モデルは入力シーケンス内のさまざまな単語またはトークンにさまざまな重みを割り当てることができ、長距離の依存関係や文脈に関連した情報をキャプチャできるようになります。

これら 2 つの主要なタイプに加えて、抽出メソッドと抽象メソッドを組み合わせたハイブリッドアプローチもあります。これらのアプローチは、最も重要なコンテンツを特定するための抽出的な要約から開始し、次に抽象的な手法を使用してそのコンテンツを流暢な要約に書き直すか圧縮する場合があります。

課題

概要の品質を評価する最適な方法を見つけることは、依然として未解決の課題です。組織が文書から重要な情報を抽出するために自動テキスト要約への依存が高まるにつれ、要約の精度を測定するための標準化された技術の必要性が高まっています。理想的には、これらの評価指標は、機械生成された要約が原文から最も重要な内容をどの程度うまく抽出し、元の意味と文脈を反映した一貫した要約を提示するかを定量化します。

ただし、テキスト要約のための堅牢な評価方法を開発するには、次のような困難が伴います。

比較に使用される人間が作成した参考概要は、重要性の主観的な判断に基づいて大きなばらつきを示すことがよくあります。
流暢さ、読みやすさ、一貫性などの要約品質の微妙な側面は、プログラムで定量化することが難しいことが判明しています
統計アルゴリズムからニューラルネットワークに至るまで、集計方法には幅広いバリエーションが存在し、直接比較が複雑になっています。

要点評価のための想起指向の代役調査 (ROUGE)

ルージュの指標ROUGE-N や ROUGE-L などの要約は、人間が作成した参考要約と比較して、機械によって生成された要約の品質を評価する際に重要な役割を果たします。これらの指標は、単語またはトークンのグループである N グラムを分析することによって、機械が生成した要約の内容と人間が作成した要約の内容の重複を評価することに焦点を当てています。たとえば、ROUGE-1 は個々の単語 (ユニグラム) の一致を評価しますが、ROUGE-2 は単語のペア (バイグラム) を考慮します。さらに、ROUGE-N は XNUMX つのテキスト間で共通する最長の単語部分列を評価し、語順の柔軟性を可能にします。

これを説明するために、次の例を考えてみましょう。

ROGUE-1 メトリクス – ROUGE-1 は、生成された要約と参照要約の間のユニグラム (単一の単語) の重複を評価します。たとえば、参照概要に「茶色のキツネは素早くジャンプします」が含まれており、生成された概要が「茶色のキツネは素早くジャンプします」である場合、ROUGE-1 メトリクスは「茶色」、「キツネ」、および「ジャンプ」が重複しているとみなします。ユニグラム。 ROUGE-1 は、要約内の個々の単語の存在に焦点を当て、生成された要約が参考要約からのキーワードをどの程度うまく捉えているかを測定します。
ROGUE-2 メトリクス – ROUGE-2 は、生成された要約と参照要約の間のバイグラム (隣接する単語のペア) の重複を評価します。たとえば、参照概要に「猫は眠っている」があり、生成された概要が「猫が眠っている」である場合、ROUGE-2 は「猫がいる」と「眠っている」を重複するバイグラムとして識別します。 ROUGE-2 は、生成された要約が参照要約と比較して単語ペアの順序と文脈をどの程度維持しているかについての洞察を提供します。
ROUGE-N メトリクス – ROUGE-N は、N が任意の数値を表す一般化された形式であり、n グラム (N 個の単語のシーケンス) に基づいて評価できます。 N=3 と考えると、参照サマリーに「太陽が明るく輝いている」と記載されており、生成されたサマリーが「太陽が明るく輝いている」である場合、ROUGE-3 は「太陽が明るく輝いている」を一致するトリグラムとして認識します。 ROUGE-N は、さまざまな長さの単語シーケンスに基づいて要約を評価する柔軟性を提供し、コンテンツの重複についてより包括的な評価を提供します。

これらの例は、生成された要約をさまざまなレベルの単語シーケンスに基づいて参照要約と比較することによって、自動要約または機械翻訳タスクを評価する際に ROUGE-1、ROUGE-2、および ROUGE-N メトリクスがどのように機能するかを示しています。

ROUGE-N スコアを計算する

次の手順を使用して、ROUGE-N スコアを計算できます。

空白や自然言語処理 (NLP) ライブラリによる分割などの基本的なトークン化方法を使用して、生成された概要と参照概要を個々の単語またはトークンにトークン化します。
生成された要約と参照要約の両方から n グラム (N 個の単語の連続シーケンス) を生成します。
生成されたサマリーと参照サマリーの間で重複する n グラムの数をカウントします。
適合率、再現率、および F1 スコアを計算します。
- 精度 – 生成されたサマリー内の重複する n グラムの数を n グラムの総数で割った値。
- リコール – 重複する n グラムの数を参考資料の要約内の n グラムの総数で割った値。
- F1スコア – 適合率と再現率の調和平均。(2 * 適合率 * 再現率) / (適合率 + 再現率) として計算されます。
データセット内の各行の適合率、再現率、および F1 スコアを計算して得られた集計 F1 スコアは、ROUGE-N スコアと見なされます。

制限事項

ROGUE には次の制限があります。

語彙の重複に重点を置く – ROUGE の背後にある中心的なアイデアは、システムが生成した要約を一連の参照または人間が作成した要約と比較し、それらの間の語彙の重複を測定することです。これは、ROUGE が単語レベルの類似性に非常に限定的に焦点を当てていることを意味します。実際には、要約の意味論的な意味、一貫性、読みやすさは評価されません。システムは、一貫した簡潔な要約を生成しなくても、元のテキストから文を一語一語抽出するだけで、高い ROUGE スコアを達成できます。
言い換えに対する鈍感さ – ROUGE は語彙一致に依存しているため、単語とフレーズ間の意味上の同等性を検出できません。したがって、たとえ意味が保たれていたとしても、言い換えや同義語の使用は ROUGE スコアの低下につながることがよくあります。これは、抽象的な方法で言い換えたり要約したりするシステムにとって不利になります。
意味的理解の欠如 – ROUGE は、システムが原文の意味や概念を本当に理解したかどうかを評価しません。要約では、主要なアイデアが欠落していたり、事実の矛盾が含まれたりする一方で、参考文献と語彙的に重複する可能性が高くなります。 ROUGE はこれらの問題を特定しません。

ルージュを使うタイミング

ROUGE はシンプルかつ高速に計算できます。コンテンツの選択に関連する要約品質のベースラインまたはベンチマークとして使用します。 ROUGE メトリックは、抽象的な要約タスク、自動要約評価、LLM の評価、およびさまざまな要約アプローチの比較分析を含むシナリオで最も効果的に使用されます。こうした状況で ROUGE メトリクスを使用することで、関係者は概要生成プロセスの品質と有効性を定量的に評価できます。

明示的な順序付けによる翻訳の評価指標 (METEOR)

要約システムを評価する際の大きな課題の 1 つは、単にソーステキストから関連する単語や語句を選択するのではなく、生成された要約がどの程度論理的に流れているかを評価することです。関連するキーワードや文章を抽出するだけでは、必ずしも一貫性のある要約が得られるとは限りません。たとえ元の文書と同じ順序で提示されていなくても、要約はスムーズに流れ、アイデアを論理的に結び付ける必要があります。

単語をルートまたは基本形式に減らすことによる照合の柔軟性 (たとえば、ステミング後、「running」、「runs」、「ran」などの単語はすべて「run」になります) と同義語が意味します。 METEOR 要約の質に関する人間の判断との相関性が高くなります。たとえ表現が異なっていても、重要なコンテンツが保存されているかどうかを識別できます。これは、トークンの正確な一致のみを検索する ROUGE のような N グラムベースのメトリクスに比べて重要な利点です。 METEOR は、リファレンスの最も顕著な内容に焦点を当てた要約にも高いスコアを与えます。繰り返しの情報や無関係な情報には低いスコアが与えられます。これは、最も重要なコンテンツのみを保持するという要約の目的とよく一致しています。 METEOR は、テキスト要約を評価するための N グラムマッチングの制限の一部を克服できる、意味的に意味のあるメトリックです。ステミングと同義語を組み込むことで、情報の重複とコンテンツの正確性をより適切に評価できるようになります。

これを説明するために、次の例を考えてみましょう。

参考資料の概要: 秋には葉が落ちます。

生成された概要 1: 秋には葉が落ちます。

生成された概要 2: 夏には緑の葉を残します。

参照と生成された要約 1 の間で一致する単語が強調表示されます。

参考資料の概要: 葉秋秋の間に。

生成された概要 1: 葉ドロップイン秋.

「秋」と「秋」は異なるトークンですが、METEOR は同義語マッチングによってこれらを同義語として認識します。「Drop」と「fall」は語幹一致として識別されます。生成されたサマリー 2 では、「Leaves」以外に参照サマリーとの一致がないため、このサマリーははるかに低い METEOR スコアを受け取ります。意味的に意味のある一致が多いほど、METEOR スコアは高くなります。これにより、METEOR は、単純な N グラムマッチングと比較して、概要の内容と精度をより適切に評価できるようになります。

METEORスコアを計算する

METEOR スコアを計算するには、次の手順を実行します。

空白や NLP ライブラリによる分割などの基本的なトークン化方法を使用して、生成された概要と参照概要を個々の単語またはトークンにトークン化します。
ユニグラム精度、再現率、および F 平均スコアを計算し、精度よりも再現率に重みを付けます。
完全一致が強調されすぎないように、完全一致にはペナルティを適用します。ペナルティは、データセットの特性、タスク要件、精度と再現率のバランスに基づいて選択されます。ステップ 2 で計算された F 平均スコアからこのペナルティを減算します。
ステム形式 (単語を基本形式またはルート形式に還元) およびユニグラムの同義語 (該当する場合) の F 平均スコアを計算します。これを以前に計算された F 平均スコアと集計して、最終的な METEOR スコアを取得します。 METEOR スコアの範囲は 0 ～ 1 で、0 は生成された要約と参照要約の間に類似性がないことを示し、1 は完全に一致していることを示します。通常、要約スコアは 0 ～ 0.6 の範囲にあります。

制限事項

要約タスクの評価に METEOR メトリックを使用する場合、いくつかの課題が発生する可能性があります。

意味の複雑さ – METEOR は意味上の類似性を重視しているため、複雑な要約タスクで微妙な意味や文脈を捉えるのが難しく、評価が不正確になる可能性があります。
基準の変動性 – 参照内容の違いは機械が生成した概要の評価に影響を与える可能性があるため、人間が作成した参照概要のばらつきは METEOR スコアに影響を与える可能性があります。
言語の多様性 – METEOR の有効性は、言語の違い、構文の違い、意味上のニュアンスにより言語によって異なる可能性があり、多言語要約の評価に課題をもたらします。
長さの不一致 – さまざまな長さの要約を評価することは、METEOR にとって困難な場合があります。これは、参照要約と比較した長さの不一致がペナルティや評価の不正確さにつながる可能性があるためです。
パラメータチューニング – さまざまなデータセットや要約タスクに合わせて METEOR のパラメータを最適化するには時間がかかり、メトリクスが正確な評価を提供できるようにするために慎重な調整が必要です。
評価の偏り – 特定の要約ドメインまたはタスクに対して適切に調整または校正されていない場合、METEOR では評価にバイアスが生じるリスクがあります。これにより、結果が歪む可能性があり、評価プロセスの信頼性に影響を与える可能性があります。

これらの課題を認識し、METEOR を要約タスクの指標として使用するときに考慮することで、研究者や実務者は潜在的な制限を回避し、評価プロセスにおいてより多くの情報に基づいた意思決定を行うことができます。

METEORを使用する場合

METEOR は、テキストの概要の品質を自動的に評価するためによく使用されます。概要内のアイデア、コンセプト、またはエンティティの順序が重要な場合は、評価指標として METEOR を使用することが望ましいです。 METEOR は順序を考慮して、生成されたサマリーと参照サマリーの間で N-gram を照合します。連続した情報を保持する要約に報酬を与えます。 N-gram と参照概要の重複に依存する ROUGE のような指標とは異なり、METEOR は語幹、同義語、言い換えを照合します。 METEOR は、元のテキストを要約する正しい方法が複数ある場合に、より効果的に機能します。 METEOR には、N グラムの照合時に WordNet の同義語と語幹付きトークンが組み込まれています。つまり、意味的には似ていても、異なる単語やフレーズが使用されている要約でも、高いスコアが得られます。 METEOR には、n グラムが繰り返される要約に対するペナルティが組み込まれています。したがって、単語ごとの抽出や抽象化の欠如を妨げます。 METEOR は、概要の品質を判断するために意味上の類似性、アイデアの順序、流暢な表現が重要な場合に適しています。参考文献の概要との語彙の重複のみが問題となるタスクにはあまり適していません。

BERTScore

ROUGE や METEOR などの表面レベルの語彙測定では、要約候補と参照要約の間の単語の重複を比較することで要約システムを評価します。ただし、単語やフレーズ間の文字列の正確な一致に大きく依存しています。これは、表面的な形式は異なるが、根底にある意味は似ている単語やフレーズ間の意味上の類似性を見逃してしまう可能性があることを意味します。これらの指標は表面一致のみに依存するため、同義語を使用したり、参照概要とは異なる概念を言い換えたりするシステム概要の品質を過小評価する可能性があります。 2 つの要約はほぼ同じ情報を伝えますが、語彙の違いにより表面レベルのスコアが低くなります。

BERTScore これは、人間が作成した参考要約と比較することで、その要約がどの程度優れているかを自動的に評価する方法です。一般的な NLP 手法である BERT を使用して、候補の概要と参考資料の概要内の単語の意味とコンテキストを理解します。具体的には、候補概要内の各単語またはトークンを調べ、各単語の意味とコンテキストのベクトル表現である BERT 埋め込みに基づいて、参照概要内で最も類似した単語を見つけます。ベクトルが互いにどれだけ近いかを示すコサイン類似度を使用して類似性を測定します。候補概要内の単語ごとに、BERT の言語理解に基づいて、参考資料概要内で最も関連性の高い単語が検索されます。これらすべての単語の類似性をサマリー全体にわたって比較し、候補サマリーが参照サマリーと意味的にどの程度似ているかの総合スコアを取得します。 BERT によって取得された単語と意味が類似しているほど、BERTScore は高くなります。これにより、毎回人間による評価を必要とせずに、生成された概要を人間の参照と比較することで、その品質を自動的に評価できます。

これを説明するために、「機敏な茶色のキツネが怠惰な犬を飛び越える」という機械が生成した要約があると想像してください。ここで、人間が作成した参考文献の要約を考えてみましょう。「足の速い茶色のキツネが、眠っているイヌの上を飛び越えます。」

BERTScore を計算する

BERTScore を計算するには、次の手順を実行します。

BERTScore は、コンテキスト埋め込みを使用して、候補 (機械生成) 文と参照 (人間が作成した) 文の両方で各トークンを表します。コンテキスト埋め込みは、NLP における単語表現の一種で、文またはテキスト内のコンテキストに基づいて単語の意味を捕捉します。コンテキストに関係なく各単語に固定ベクトルを割り当てる従来の単語埋め込みとは異なり、コンテキスト埋め込みは周囲の単語を考慮して、特定の文での使用方法に応じて各単語に固有の表現を生成します。
次に、メトリックは、コサイン類似度を使用して、候補文の各トークンと参照文の各トークンの間の類似性を計算します。コサイン類似度は、多次元空間内でデータが指す方向に焦点を当てることで、2 セットのデータがどの程度密接に関連しているかを定量化するのに役立ち、検索アルゴリズム、NLP、レコメンデーションシステムなどのタスクにとって貴重なツールになります。
BERTScore は、コンテキストの埋め込みを比較し、すべてのトークンの類似性スコアを計算することで、人間が作成した参照と比較して、生成された概要の意味論的な関連性とコンテキストを捉える包括的な評価を生成します。
最終的な BERTScore 出力は、機械生成された概要が意味とコンテキストの点で参照概要とどの程度一致しているかを反映する類似性スコアを提供します。

本質的に、BERTScore は文の意味上のニュアンスとコンテキストを考慮することで従来の指標を超え、人間の判断を忠実に反映したより洗練された評価を提供します。この高度なアプローチにより、要約タスクの評価の精度と信頼性が向上し、BERTScore がテキスト生成システムを評価する際の貴重なツールになります。

制限事項：

BERTScore は要約タスクの評価において大きな利点を提供しますが、考慮する必要がある特定の制限もあります。

計算強度 – BERTScore は、BERT のような事前トレーニングされた言語モデルに依存しているため、計算負荷が高くなる可能性があります。これにより、特に大量のテキストデータを処理する場合、評価時間が長くなる可能性があります。
事前トレーニングされたモデルへの依存性 – BERTScore の有効性は、使用される事前トレーニング済み言語モデルの品質と関連性に大きく依存します。事前トレーニングされたモデルがテキストのニュアンスを適切に捉えていないシナリオでは、評価結果が影響を受ける可能性があります。
スケーラビリティ – 大規模なデータセットまたはリアルタイムアプリケーション向けに BERTScore をスケーリングすることは、計算上の需要があるため、困難になる場合があります。実稼働環境に BERTScore を実装するには、効率的なパフォーマンスを提供するための最適化戦略が必要になる場合があります。
ドメインの特異性 – BERTScore のパフォーマンスは、ドメインや特殊なテキストタイプによって異なる場合があります。メトリクスを特定のドメインまたはタスクに適合させるには、正確な評価を生成するために微調整または調整が必要になる場合があります。
解釈可能性 – BERTScore はコンテキストの埋め込みに基づいて包括的な評価を提供しますが、各トークンに対して生成された類似性スコアの背後にある特定の理由の解釈は複雑になる可能性があり、追加の分析が必要になる場合があります。
参照なしの評価 – BERTScore は評価における参考資料の要約への依存度を減らしますが、この参考資料を使用しないアプローチでは、特に内容の関連性と一貫性を評価するために人間が作成した参考資料が不可欠なシナリオでは、要約の品質のすべての側面を完全には捉えられない可能性があります。

これらの制限を認識すると、要約タスクを評価するための指標として BERTScore を使用するときに情報に基づいた意思決定を行うことができ、その長所と制約をバランスよく理解できるようになります。

BERTScore を使用する場合

BERTScore は、生成された要約を参照要約と比較することによって、テキスト要約の品質を評価できます。 BERT のようなニューラルネットワークを使用して、単語やフレーズの正確な一致だけでなく、意味的な類似性を測定します。これにより、完全な意味と内容を保持するセマンティック忠実度が要約タスクで重要な場合に、BERTScore が非常に役立ちます。 BERTScore は、異なる単語や文構造が使用されている場合でも、参考要約と同じ情報を伝える要約に高いスコアを与えます。要するに、BERTScore は、キーワードやトピックだけでなく完全な意味の意味を保持することが重要な要約タスクに最適であるということです。高度なニューラルスコアリングにより、表面レベルの単語の一致を超えて意味を比較できます。これにより、言葉遣いの微妙な違いが全体の意味や含意を大きく変える可能性がある場合に適しています。 BERTScore は、特に、意味的類似性の捕捉に優れています。これは、検索拡張生成 (RAG) モデルによって生成されるような抽象的な要約の品質を評価するために重要です。

モデル評価フレームワーク

モデル評価フレームワークは、さまざまな要約モデルのパフォーマンスを正確に測定するために不可欠です。これらのフレームワークは、モデルを比較し、生成された概要とソースコンテンツ間の一貫性を提供し、評価方法の不備を正確に指摘するのに役立ちます。これらのフレームワークは、徹底した評価と一貫したベンチマークを実施することで、標準化された評価実践を提唱し、多面的なモデル比較を可能にすることで、テキスト要約研究を推進します。

AWS では、 FMEval ライブラリ以内 Amazon SageMaker の明確化テキストの要約、質問応答、分類などのタスクのための基礎モデル (FM) の評価と選択を効率化します。これにより、精度、堅牢性、創造性、バイアス、有害性などの指標に基づいて FM を評価できるようになり、LLM の自動評価と人間による LLM 評価の両方をサポートします。 FMEval は、UI ベースまたはプログラムによる評価を使用して、不正確さ、毒性、バイアスなどのモデルのリスクを定量化するための視覚化を含む詳細なレポートを生成し、組織が責任ある生成 AI ガイドラインに準拠できるように支援します。このセクションでは、FMEval ライブラリの使用方法を説明します。

Amazon Bedrock を使用して要約精度について Claude v2 を評価する

次のコードスニペットは、Python コードを使用して Anthropic Claude モデルを操作する方法の例です。

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

簡単に言えば、このコードは次のアクションを実行します。

必要なライブラリをインポートします。 json、JSON データを操作します。
モデル ID を次のように定義します。 anthropic.claude-v2 リクエストのコンテンツタイプを設定します。
作る prompt_data クロードモデルの入力データを構造化する変数。この場合、「バラク・オバマとは誰ですか?」という質問が投げかけられます。モデルからの応答を期待します。
プロンプトデータを含む body という名前の JSON オブジェクトを構築し、生成するトークンの最大数などの追加パラメーターを指定します。
次を使用してクロードモデルを呼び出します。 bedrock_runtime.invoke_model 定義されたパラメータを使用して。
モデルからの応答を解析し、補完 (生成されたテキスト) を抽出し、出力します。

ことを確認してください AWS IDおよびアクセス管理に関連付けられた (IAM) ロール Amazon SageMakerスタジオユーザープロファイルにはアクセス権がありますアマゾンの岩盤呼び出されるモデル。参照する Amazon Bedrock の ID ベースのポリシーの例 Amazon Bedrock のベストプラクティスとアイデンティティベースのポリシーの例に関するガイダンスについては、こちらをご覧ください。

FMEval ライブラリを使用して Claude からの要約出力を評価する

次のコードを使用して、要約された出力を評価します。

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

前述のコードスニペットでは、FMEval ライブラリを使用してテキストの要約を評価するために、次の手順を実行します。

作る ModelRunner LLM で呼び出しを実行します。 FMEval ライブラリは、以下の組み込みサポートを提供します。アマゾンセージメーカーエンドポイントと Amazon SageMaker ジャンプスタート LLM。延長することもできます ModelRunner 任意の場所でホストされる LLM のインターフェイス。
サポートされている使用方法 eval_algorithms 評価のニーズに基づいて、毒性、要約、正確性、意味論、堅牢性など。
特定の使用例に合わせて評価構成パラメータをカスタマイズします。
組み込みデータセットまたはカスタムデータセットのいずれかで評価アルゴリズムを使用して、LLM モデルを評価します。このケースで使用されるデータセットは次のものから取得されています。 GitHubレポ.

Job Status ページの下部にある開発者ガイドと例評価アルゴリズムの詳細な使用方法については、こちらを参照してください。

評価結果を次の表にまとめます。

モデル_入力	モデル出力	ターゲット出力	プロンプト	スコア	流星スコア	ルージュスコア	ベルトスコア
ジョン·エドワード 0 ベイツ、元スポルディング、リンコ…。	決定的なことは言えない判決としては…	前者リンカンシャー警察が運び出したのは…	人間: ジョンエドワード・ベイツ、元スポルディング…	[{'名前': '流星', '値': 0.101010101010101 ...	0.10101	0	0.557155
23年 2015月日最終更新日 17:44 BST\|それでは…	ハリケーン/トロップに関する重要なポイントをいくつか紹介します。	ハリケーン・パトリシアは、カテゴリーとして評価されています。	人間: 23 2015年17月最終更新日 44:XNUMX B..。	[{'名前': 流星', “値': 0.102339181286549 ..	0.102339	0.018265	0.441421
フェラーリは、世界に挑戦する立場にある…	この記事の重要なポイントは次のとおりです:nin…	ルイス・ハミルトンが決勝レースでポールポジションを獲得した。	人間: フェラーリは挑戦できる立場に現れました…	[{'名前': '流星', '値': 0.322543352601156 ...	0.322543	0.078212	0.606487
バース生まれの28歳の選手は36得点を記録した現れる…	さて、重要なポイントを要約しましょう:/nin- E…..	ニューポート・グウェント・ドラゴンズの8番、エド・ジャクソン	人間: バース生まれの 28 歳のプレーヤーは、36 試合で成績を残しました。	[{'名前': '流星', '値': 0105740181268882 ...	0.10574	0.012987	0.539488
マウスがマウスとデータを交換する方法の弱点…	調査結果から私が収集した重要なポイントは次のとおりです。	ハッカーが自宅にアクセスしたり、	人間：の弱点 swar マウスがデータを交換した	[{'名前': '流星', '値': 0.201048289433848 ...	0.201048	0.021858	0.526947

サンプルをチェックしてくださいノートこの投稿で説明した要約評価の詳細については、をご覧ください。

まとめ

ROUGE、METEOR、BERTScore はすべて、機械生成された要約の品質を測定しますが、語彙の重複、流暢さ、意味上の類似性などのさまざまな側面に焦点を当てています。特定の要約ユースケースの「良い」の定義に一致する指標を必ず選択してください。メトリクスを組み合わせて使用することもできます。これにより、より包括的な評価が提供され、個々の指標の潜在的な弱点を防ぐことができます。適切な測定を行うことで、最も重要な精度の概念を満たすようにサマライザーを繰り返し改善できます。

さらに、これらのモデルを大規模に実稼働できるようにするには、FM および LLM の評価が必要です。 FMEval を使用すると、多くの NLP タスクにわたる膨大な組み込みアルゴリズムのセットが得られるだけでなく、独自のモデル、データセット、アルゴリズムの大規模評価のためのスケーラブルで柔軟なツールも得られます。スケールアップするには、LLMOps パイプラインでこのパッケージを使用して、複数のモデルを評価する。 AWS の FMEval とそれを効果的に使用する方法の詳細については、以下を参照してください。 SageMaker Clear を使用して大規模な言語モデルを評価する。 FM を評価する際の SageMaker Clear の機能についてのさらなる理解と洞察については、以下を参照してください。 Amazon SageMaker Clarify により、基盤モデルの評価と選択が容易になります.

著者について

ディネシュ・クマール・スブラマニ は、スコットランドのエディンバラを拠点とするシニアソリューションアーキテクトです。彼は人工知能と機械学習を専門とし、Amazon の技術分野コミュニティのメンバーです。 Dinesh は英国中央政府の顧客と緊密に連携し、AWS のサービスを使用して問題を解決しています。仕事以外では、ディネシュは家族と充実した時間を過ごしたり、チェスをしたり、さまざまな音楽を探索したりすることを楽しんでいます。

プラナフ・シャルマ は、ヨーロッパ、中東、アフリカ全体でテクノロジーとビジネス変革の取り組みを推進する AWS のリーダーです。彼は、数百万の顧客をサポートし、ビジネス成果をもたらす人工知能プラットフォームを実稼働環境で設計および実行した経験があります。彼は、グローバル金融サービス組織でテクノロジーと人事のリーダーとしての役割を果たしてきました。仕事以外では、読書、息子とテニス、映画鑑賞が好きです。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/evaluate-the-text-summarization-capabilities-of-llms-for-enhanced-decision-making-on-aws/

生成的データインテリジェンス

AWS での意思決定を強化するための LLM のテキスト要約機能を評価する |アマゾンウェブサービス

要約の種類

課題