生成的データ インテリジェンス

Amazon Engineering 向け Amazon SageMaker で人間と AI のフィードバックを使用して LLM のパフォーマンスを向上させる |アマゾン ウェブ サービス

日付:

Amazon EU Design and Construction (Amazon D&C) チームは、Amazon 倉庫の設計と建設を行うエンジニアリング チームです。チームは、倉庫の設計が最高の基準を満たしていることを確認するために、大量のドキュメントを参照して適切な情報を見つけます。ポストで Amazon EU の設計と構築を支援する、Amazon SageMaker 上の AI を活用した生成ソリューション、を使用した質問応答ボット ソリューションを紹介しました。 検索拡張生成 微調整された (RAG) パイプライン 大規模な言語モデル (LLM) は、Amazon D&C が大量の未整理のドキュメントから正確な情報を効率的に取得し、建設プロジェクトにタイムリーで高品質のサービスを提供できるようにします。 Amazon D&C チームは、Amazon エンジニア向けのパイロット版でソリューションを実装し、ユーザーのフィードバックを収集しました。

この投稿では、フィードバック データを分析し、RAG が提供する精度と幻覚の限界を特定し、人間の評価スコアを使用してモデルをトレーニングした方法を共有します。 強化学習。学習を改善するためにトレーニング サンプルを増やすために、別の LLM を使用してフィードバック スコアを生成しました。この方法は RAG の制限に対処し、ボットの応答品質をさらに向上させました。 LLM のパフォーマンス向上を実証するために、強化学習プロセスとベンチマーク結果を示します。ソリューションでは、 Amazon SageMaker ジャンプスタート モデルのデプロイ、微調整、強化学習の中核サービスとして。

パイロットプロジェクトでAmazonエンジニアからフィードバックを収集する

で説明されているソリューションを開発した後、 Amazon EU の設計と構築を支援する、Amazon SageMaker 上の AI を活用した生成ソリューション、Amazon D&C チームはソリューションをデプロイし、Amazon エンジニアとともにパイロット プロジェクトを実行しました。エンジニアは、開発した Web アプリケーションを通じてパイロット システムにアクセスしました。 ストリームライト、RAG パイプラインに接続されています。パイプラインで使用したのは、 AmazonOpenSearchサービス ベクトルデータベース用に構築し、微調整された Mistral-7B-Instruct モデルを Amazon SageMaker にデプロイしました。

このパイロットの重要な目的の 1 つは、Amazon のエンジニアからフィードバックを収集し、そのフィードバックを使用して LLM 幻覚をさらに軽減することです。これを実現するために、次の図に示すように、UI でフィードバック収集モジュールを開発し、Web セッション情報とユーザー フィードバックを Amazon DynamoDB。 Amazon エンジニアは、フィードバック収集 UI を通じて、1 ~ 5 のフィードバック スコアに応じて、「強く反対する」、「反対する」、「中立」、「同意する」、「強く同意する」の XNUMX つの満足度レベルから選択できます。また、質問に対してより適切な回答を提供したり、LLM の応答が満足できない理由についてコメントしたりすることもできます。

人間によるフィードバック UI

パイロット期間中、ユーザーは 118 件のフィードバック応答を提供しました。次のグラフは、マイナスからプラスへの分布を示しています。否定的なフィードバック (同意しない、または強く同意しない) でマークされた不正解は、フィードバック全体の 45% (53 件中 118 件) であることがわかりました。一部のエラー (否定的なフィードバックの約 10%、全体の回答の 7.5%) は、ユーザー教育と迅速なエンジニアリングによって対処できます。さらに、次のセクションで説明する LLM 微調整と強化学習のソリューションを使用して問題に対処できます。

パイロットからのユーザーのフィードバック

「素晴らしい!」などのメモを残すだけのユーザーもいます。強く同意する回答の場合は「質問に答えません」、強く同意しない回答の場合は「質問に答えません」。他のユーザーはスコアを提供し、LLM の回答をどのように正当化するかをメモで説明しました。次の例では、ユーザーは LLM 幻覚を修正するために適切な文書とコンテンツを具体的に提供しました。

質問 駐車スペースは何台ありますか?
ボットの回答

与えられたコンテキストに基づいて、駐車スペースの数を判断するのに十分な情報がありません。このコンテキストでは、駐車スペースの最小サイズと外部照明レベルの要件について説明していますが、駐車スペースの具体的な数は提供されていません。

**次のリソースで詳細な説明を参照できます:**

*ARS GEN 10.0/05.01.02。設計基準と付録/パフォーマンス パッケージ AR ソート可能設計基準 v20.1.1.pdf – ページ: 10

*ARS GEN 10.0/05.01.02。設計基準と付録/パフォーマンス パッケージ AR ソート可能設計基準 v20.1.1.pdf – ページ: 79

ユーザースコア 強く同意しない
ユーザーノート これは、設計基準セクション 21 01 13 の 10 ページに指定されています。

教師あり微調整と強化学習によりボットの応答を改善します

このソリューションは、次の 3 つの微調整ステップで構成されます。

  1. ラベル付きデータを使用して教師あり微調整を実行します。この方法はで説明されています Amazon EU の設計と構築を支援する、Amazon SageMaker 上の AI を活用した生成ソリューション.
  2. ユーザーのフィードバックを収集して、さらに LLM を調整するために質問と回答のペアにラベルを付けます。
  3. トレーニング データの準備ができたら、次を使用してモデルをさらに調整します。 人間のフィードバックから学ぶ強化 (RLHF)。

RLHF は、生成人工知能 (AI) および LLM アプリケーション全体で広く使用されています。報酬関数に人間のフィードバックを組み込み、強化学習アルゴリズムを使用してモデルをトレーニングして報酬を最大化します。これにより、モデルは人間の目標により沿ったタスクを実行できるようになります。次の図は、ステップのパイプラインを示しています。

微調整ワークフロー

SageMaker JumpStart の Mistral-7B モデルで Amazon D&C ドキュメントを使用して方法論をテストしました。

監視付き微調整

前回の投稿では、微調整された Falcon-7B モデルが RAG パイプラインよりも優れたパフォーマンスを発揮し、QA ボットの応答の品質と精度を向上させる方法を実証しました。この投稿では、Mistral-7B モデルに対して監視付き微調整を実行しました。監視付き微調整では、512 パラメーター (合計 1024 パラメーターの 436,207,616%) に対して PEFT/LoRA テクニック (LoRA_r = 5.68、LoRA_alpha = 7,677,964,288) が使用されました。トレーニングは、LLM によって合成的に生成され人間によって検証された 3.8 個のサンプルを含む p137x ノードで実施されました。次の図に示すように、プロセスは 20 エポック後に十分に収束します。

SFTトレーニングプロセス

微調整されたモデルは 274 のサンプルによって検証され、推論結果は意味的類似性スコアによって参照回答と比較されました。スコアは 0.8100 で、従来の RAG のスコア 0.6419 よりも高くなります。

強化学習のために人間と AI のフィードバックを収集する

RLHF の場合、対象分野の専門家 (SME) によってラベル付けされた十分な量の高品質のトレーニング サンプルが不可欠です。ただし、人間のラベルの品質が低いと、RLHF トレーニング後に元のモデルよりもモデルのパフォーマンスが低下する可能性があります。中小企業の時代は、 どの組織でも希少なリソース;何百、何千もの LLM 回答をレビューし、フィードバックを提供するには、明確な投資収益率が得られない可能性がある中小企業にとって、多大な時間の投資が必要です。

この課題に対処するために、私たちは AIフィードバックからの強化学習 (RLAIF) メソッド。 RLAIF は、人間ではなく AI アシスタント (別の LLM) を採用して評価スコアを提供します。このハイブリッド学習アプローチでは、学習エージェントは人間との対話だけでなく、別の AI モデルによって提供されるフィードバックにも基づいてアクションを洗練します。強化学習に十分なトレーニング データを提供する方がはるかに拡張性が高く、トレーニングが少数の中小企業グループの特定の好みに依存しないため、主観的ではなくなります。中小企業も引き続き関与する可能性がありますが、その目的はプロセスを監督し、AI フィードバックの品質を検査することだけです。 AI によって生成されたスコアとラベルは、中小企業にとって分析、フィルター、並べ替えの複雑さがはるかに軽減されるため、これにより中小企業の作業負荷が大幅に軽減されます。

この使用例では、強化学習ステップのトレーニング サンプルとして評価スコアを生成するために、Anthropic Claude 2 モデルに次のプロンプトを提供します。

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

Claude 2 モデルは、次の例に示すように、評価スコアとそのスコアが与えられた理由に関するコメントを生成します。

質問 この文脈における「Fit Out Works」とは何を意味しますか?
参考回答 フィットアウト作業とは、建設契約に基づいて、Amazon によって、または Amazon の代理として、開発者を介して概念的な開発者のシェルおよびコアベース構築の位置から最初の受領日までに実行される作業を指します。これらの作業には、Amazon が必要とするフィットアウト、大規模な設置、カスタム作業が含まれます。
QAボットの応答 フィットアウト作業とは、建設契約に基づいて、Amazon によって、または Amazon の代理として、開発者を介して概念的な開発者のシェルおよびコアベース構築の位置から最初の受領日までに実行される作業を指します。
AIスコア 4.5
AIコメント 機械回答は、標準回答からの重要な情報を提供します。つまり、Fit Out Works とは、建設契約に基づいて開発者を介して Amazon によって、または Amazon に代わって、概念的な開発者のシェルおよびコア ベース構築の位置から最初の受領日までに実行された作業を指します。 。 Amazon の必要なフィットアウト、大規模な設置、カスタマイズを含めることに関する追加の詳細は関連性があり、さらなるコンテキストの提供に役立つため、マシンの回答を 4.5 点満点中 5 と評価しました。標準的な回答の本質を捉えており、いくつかの点が提供されます。役立つ追加の詳細。

274 個の検証質問のうち、教師あり微調整モデルは、AI スコアが 159 を超える 4 個の回答を生成しました。スコアが 60 未満の回答が 3 個観察されました。全体的な応答品質を向上させる余地はあります。

RLHF前のフィードバックスコア

Amazon エンジニアリング SME は、この AI フィードバックを検証し、AI スコアを使用する利点を認めました。 AI フィードバックがなければ、中小企業は、各 LLM 応答をレビューおよび分析して、切り捨てられた応答と幻覚を特定し、LLM が正しい内容と重要な概念を返しているかどうかを判断するのに時間がかかるでしょう。 AI フィードバックは AI スコアを自動的に提供し、SME がフィルタリング、並べ替え、グループ化を使用してスコアを検証し、応答の傾向を特定できるようにします。これにより、中小企業の平均レビュー時間が 80% 短縮されます。

人間と AI のフィードバックからの強化学習

トレーニング サンプルの準備ができたら、 近接ポリシー最適化 (PPO) アルゴリズム 強化学習を実行します。 PPO は、学習プロセスで小さなステップを踏んでポリシーを更新するポリシー勾配法を使用するため、学習エージェントは最適なポリシー ネットワークに確実に到達できます。これにより、トレーニング プロセスがより安定し、発散の可能性が減ります。

トレーニング中は、まず人間と AI でラベル付けされたデータを使用して報酬モデルを構築します。このモデルは、学習プロセスでの重みの更新のガイドとして使用されます。このユースケースでは、distilroberta ベースの報酬モデルを選択し、次の形式のサンプルによってトレーニングします。

[Instruction, Chosen_response, Rejected_response]

以下はトレーニング記録の一例です。

命令 文脈に応じて、包括的でアクセシブルなデザインには何が指定されますか?
選択された応答 BREEAM Credit HEA06 – 包括的でアクセスしやすい設計 – この建物は、目的に適合し、適切で、すべての潜在的なユーザーがアクセスできるように設計されています。アクセス戦略は、BREEAM チェックリスト A3 に沿って開発されます。
拒否された応答 文脈によれば、

報酬モデルは学習率 1e-5 でトレーニングされます。次のグラフに示すように、トレーニング ウェルは 10 エポック後に収束します。

RLHFトレーニングプロセス

次に、報酬モデルは強化学習に使用されます。このユースケースでは、PEFT/LoRA を使用して学習を加速します。 LoRA_r は 32、LoRA_alpha は 64 です。PPO ベースの学習は、1.41 エポックで 5e-XNUMX のレートで行われます。強化トレーニングは非常に不安定であり、ラベル データとフィードバック データに非常に敏感です。学習プロセスを観察するために、報酬モデルを具体的に監視することによって環境から取得された平均報酬である、reward_mean メトリクスを使用します。

RLAIF 後、肯定的なスコア (3 以上) を持つボット応答の数が 78.1% から 85.5% に増加し、否定的なスコア (3 未満) を持つボット応答の数が 21.9% から 14.5% に減少していることがわかります。合計すると、AI フィードバック スコアの平均は 8 から 3.9 に最大 4.2% 増加しました。

RLAIFによる改善

次の例で改善が見られます。

質問 タイル張りの床エリアにはどのようなスクリードが必要ですか?
参照 コンクリートスクリード床は、床タイル張りのエリアにのみ適用されます。床タイルが適用される場所については、図面シリーズ A-32 を参照してください。
RLAIF 前のボットの応答 コンクリートスクリード床材は以下の地域にのみ適用されます。
RLAIF前のAIスコア 3
RLAIF 後のボットの応答 コンクリートスクリード床は、タイル張りのエリアにのみ適用されます。タイル床が適用される場所については、図面シリーズ A-32 を参照してください。
RLAIF後のAIスコア 4.5

まとめ

この投稿は、「Amazon EU の設計および構築チームとの作業の続きです」で説明したとおりです。 Amazon EU の設計と構築を支援する、Amazon SageMaker 上の AI を活用した生成ソリューション。この投稿では、強化学習を使用して Mistral-7B モデルを微調整するために人間と AI のフィードバック データを生成する方法を示しました。 RLAIF 後のモデルでは、Amazon Engineering の質問応答ボットのパフォーマンスが向上し、AI フィードバック スコアが 8% 向上しました。 Amazon D&C チームのパイロット プロジェクトでは、RLAIF を使用することで、中小企業の検証ワークロードが推定 80% 削減されました。次のステップとして、Amazon Engineering のデータ インフラストラクチャに接続することでこのソリューションをスケールアップし、人間が関与して継続的な学習プロセスを自動化するフレームワークを設計します。また、プロンプトテンプレートを調整することで、AI フィードバックの品質をさらに向上させます。

このプロセスを通じて、私たちは RLHF と RLAIF を通じて質問応答タスクの品質とパフォーマンスをさらに向上させる方法を学びました。

  • LLM から正確かつ責任ある出力を提供するには、人間による検証と拡張が不可欠です。人間のフィードバックを RLHF で使用して、モデルの応答をさらに改善できます。
  • RLAIF は評価と学習サイクルを自動化します。 AI が生成するフィードバックは、少数の中小企業の特定の好みに依存しないため、主観的ではありません。
  • RLAIF は拡張性が高く、SME に必要な労力を最小限に抑えながら、継続的な強化学習を通じてボットの品質を向上させます。これは、大規模な組織内でドメイン固有の生成 AI ソリューションを開発する場合に特に役立ちます。
  • このプロセスは、特にソリューションでカバーできる新しいドメイン データが利用可能な場合には、定期的に実行する必要があります。

このユースケースでは、SageMaker JumpStart を使用して複数の LLM をテストし、複数の LLM トレーニング アプローチを実験しました。 AI のフィードバックと学習サイクルが大幅に加速され、効率と品質が最大化されます。独自のプロジェクトでは、人間参加型アプローチを導入してユーザーのフィードバックを収集したり、別の LLM を使用して AI フィードバックを生成したりできます。その後、この投稿で定義されている 3 ステップのプロセスに従って、RLHF と RLAIF を使用してモデルを微調整できます。プロセスを高速化するために、SageMaker JumpStart を使用した方法を試してみることをお勧めします。


著者について

ユンフェイ白雲飛 AWS のシニア ソリューション アーキテクトです。 AI/ML、データサイエンス、分析のバックグラウンドを持つ Yunfei は、顧客が AWS サービスを導入してビジネス成果を達成できるよう支援します。 彼は、複雑な技術的課題を克服し、戦略的目標を推進する AI/ML およびデータ分析ソリューションを設計しています。 Yunfei は電子電気工学の博士号を取得しています。 仕事以外では、ユンフェイは読書と音楽を楽しんでいます。

エラド_写真エラド・ドゥエック Amazon の建設技術マネージャーです。 Elad は、建設およびプロジェクト管理のバックグラウンドを持ち、チームが新しいテクノロジーとデータベースのプロセスを導入して建設プロジェクトを遂行できるよう支援します。 彼はニーズとソリューションを特定し、オーダーメイドの特性の開発を促進します。 Elad は構造工学の MBA と BSc を取得しています。 仕事以外では、エラッドはヨガ、木工、家族との旅行を楽しんでいます。

ルカ_写真ルカ・セラボーン Amazon のビジネス インテリジェンス エンジニアです。 Luca は、データ サイエンスと分析のバックグラウンドを活かして、顧客の固有のニーズを満たすためにカスタマイズされた技術ソリューションを作成し、顧客をより持続可能でスケーラブルなプロセスに向けて推進します。データ サイエンスの修士号を取得したルカは、DIY プロジェクトに参加したり、ガーデニングをしたり、余暇においしい料理を試したりすることを楽しんでいます。

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?