Generative Data Intelligence

Покращуйте продуктивність LLM за допомогою відгуків людей і ШІ на Amazon SageMaker для Amazon Engineering | Веб-сервіси Amazon

Дата:

Команда Amazon EU Design and Construction (Amazon D&C) — це команда інженерів, яка проектує та будує склади Amazon. Команда переглядає великий обсяг документів і знаходить потрібну інформацію, щоб переконатися, що дизайн складу відповідає найвищим стандартам. У пост Генеративне рішення на базі штучного інтелекту на Amazon SageMaker для допомоги Amazon EU Design and Construction, ми представили бот-рішення для відповідей на запитання за допомогою a Доповнена генерація пошуку (RAG) конвеєр з тонким налаштуванням велика модель мови (LLM) для Amazon D&C, щоб ефективно отримувати точну інформацію з великого обсягу невпорядкованих документів і надавати своєчасні та високоякісні послуги в їхніх будівельних проектах. Команда Amazon D&C запровадила пілотне рішення для інженерів Amazon і зібрала відгуки користувачів.

У цій публікації ми розповідаємо про те, як ми проаналізували дані зворотного зв’язку та виявили обмеження точності та галюцинацій, наданих RAG, і використали оцінку людини для навчання моделі через навчання. Щоб збільшити навчальні зразки для кращого навчання, ми також використали ще один LLM для генерації балів зворотного зв’язку. Цей метод усунув обмеження RAG і ще більше покращив якість відповіді бота. Ми представляємо процес навчання підкріплення та результати порівняльного аналізу, щоб продемонструвати покращення продуктивності LLM. Розчин використовує Amazon SageMaker JumpStart як основний сервіс для розгортання моделі, тонкого налаштування та навчання з підкріпленням.

Збирайте відгуки інженерів Amazon у пілотному проекті

Після розробки рішення, описаного в Генеративне рішення на базі штучного інтелекту на Amazon SageMaker для допомоги Amazon EU Design and Construction, команда Amazon D&C розгорнула рішення та запустила пілотний проект з інженерами Amazon. Інженери отримали доступ до пілотної системи через веб-додаток, розроблений Стрітліт, з'єднаний з трубопроводом RAG. У конвеєрі ми використовували Служба Amazon OpenSearch для векторної бази даних і розгорнув налаштовану модель Mistral-7B-Instruct на Amazon SageMaker.

Однією з ключових цілей пілотного проекту є збір відгуків від інженерів Amazon і використання відгуків для подальшого зменшення галюцинацій LLM. Щоб досягти цього, ми розробили модуль збору відгуків в інтерфейсі користувача, як показано на малюнку нижче, і зберігали інформацію про веб-сеанси та відгуки користувачів у Amazon DynamoDB. За допомогою інтерфейсу користувача для збору відгуків інженери Amazon можуть вибрати один із п’яти рівнів задоволеності: абсолютно не згоден, не згоден, нейтральний, згоден і повністю згоден, що відповідає оцінкам відгуків від 1 до 5. Вони також можуть дати кращу відповідь на запитання або прокоментувати, чому відповідь LLM незадовільна.

інтерфейс користувача для зворотного зв'язку

Під час пілотування користувачі надали 118 відгуків. Наступна діаграма показує розподіл від негативного до позитивного. Ми спостерігали, що неправильні відповіді, позначені негативним відгуком (не згоден і категорично не згоден), становлять 45% від загальної кількості відгуків (53 із 118). Деякі з помилок (приблизно 10% негативних відгуків і 7.5% загальних відповідей) можна усунути шляхом навчання користувачів і швидкої розробки. Крім того, ми можемо вирішити проблему за допомогою рішення LLM для тонкого налаштування та навчання з підкріпленням, описаного в наступному розділі.

Відгуки користувачів від пілота

Деякі користувачі просто залишили записку, наприклад «Чудово!» для відповідей «повністю згоден» або «Не відповідає на запитання» для відповідей «зовсім не згоден». Інші користувачі надавали бали та пояснювали, як вони обґрунтовують відповіді LLM у своїх примітках. У наступному прикладі користувач спеціально надав відповідний документ і вміст для виправлення галюцинації LLM.

Питання Скільки у нас паркувальних місць?
Відповідь бота

Виходячи з наведеного контексту, ми не маємо достатньо інформації, щоб визначити кількість паркувальних місць. У контексті обговорюється мінімальний розмір місць для паркування та вимоги до рівня зовнішнього освітлення, але не вказується конкретна кількість місць для паркування.

**Додаткові пояснення можна знайти в наступних ресурсах:**

* ARS GEN 10.0/05.01.02. Критерії дизайну та додатки/Пакет продуктивності AR Sortable Design Criteria v20.1.1.pdf – сторінка: 10

* ARS GEN 10.0/05.01.02. Критерії дизайну та додатки/Пакет продуктивності AR Sortable Design Criteria v20.1.1.pdf – сторінка: 79

Оцінка користувача Категорично не згоден
Примітки користувачів Це зазначено на сторінці 21 розділу критеріїв проектування 01 13 10

Покращуйте реакцію бота за допомогою контрольованого тонкого налаштування та навчання з підкріпленням

Рішення складається з трьох етапів тонкого налаштування:

  1. Виконайте контрольоване точне налаштування, використовуючи позначені дані. Цей метод був описаний в Генеративне рішення на базі штучного інтелекту на Amazon SageMaker для допомоги Amazon EU Design and Construction.
  2. Збирайте відгуки користувачів, щоб позначити пари запитання-відповідь для подальшого налаштування LLM.
  3. Коли навчальні дані будуть готові, додатково налаштуйте модель за допомогою навчання з підкріпленням на основі зворотного зв’язку людини (RLHF).

RLHF широко використовується в програмах генеративного штучного інтелекту (AI) і LLM. Він включає зворотній зв’язок людини у функцію винагороди та навчає модель за допомогою алгоритму навчання з підкріпленням, щоб максимізувати винагороди, що змушує модель виконувати завдання, більш узгоджені з людськими цілями. На наступній схемі показано конвеєр сходинок.

Робочий процес тонкого налаштування

Ми перевірили методологію за допомогою документів Amazon D&C із моделлю Mistral-7B на SageMaker JumpStart.

Точне налаштування під наглядом

У попередній публікації ми продемонстрували, як налаштована модель Falcon-7B перевершує конвеєр RAG і покращує якість і точність відповіді бота QA. Для цієї публікації ми виконали налагодження під наглядом моделі Містраль-7Б. Контрольоване точне налаштування використовувало техніку PEFT/LoRA (LoRA_r = 512, LoRA_alpha = 1024) для 436,207,616 5.68 7,677,964,288 параметрів (3.8% від загальної кількості 137 20 XNUMX XNUMX параметрів). Навчання проводилося на вузлі pXNUMXx із XNUMX зразками, синтетично згенерованими LLM і перевіреними людьми; процес добре сходиться після XNUMX епох, як показано на наступному малюнку.

Навчальний процес SFT

Тонко налаштована модель була перевірена 274 зразками, а результати висновків порівнювалися з еталонними відповідями за балом семантичної подібності. Оцінка становить 0.8100, що вище за оцінку 0.6419 у традиційному RAG.

Збирайте відгуки людей і ШІ для навчання з підкріпленням

Для RLHF необхідна достатня кількість високоякісних навчальних зразків, маркованих експертами з предметної галузі (SMEs). Однак неякісні людські мітки, швидше за все, призведуть до погіршення продуктивності моделі, ніж вихідна модель після навчання RLHF. Час МСП настав дефіцитний ресурс у будь-якій організації; перегляд сотень чи тисяч відповідей LLM і надання зворотного зв’язку потребує значних інвестицій часу від МСП, які можуть не мати чіткого повернення інвестицій.

Щоб вирішити цю проблему, ми прийняли навчання з підкріпленням за допомогою зворотного зв’язку ШІ (RLAIF) метод. RLAIF наймає асистента зі штучним інтелектом (іншого магістра права), який надає оцінки, а не люди. У цьому гібридному підході до навчання навчальний агент вдосконалює дії не лише на основі взаємодії з людиною, але й на основі зворотного зв’язку, наданого іншою моделлю ШІ. Це набагато більш масштабоване, щоб надати достатню кількість навчальних даних для навчання з підкріпленням, і набагато менш суб’єктивне, оскільки навчання не залежить від конкретних уподобань невеликої групи МСП. Малі та середні підприємства все ще можуть бути залучені, але лише для нагляду за процесом і перевірки якості зворотного зв’язку ШІ. Це значно зменшує робоче навантаження на МСП, оскільки оцінки та мітки, згенеровані штучним інтелектом, набагато легше аналізувати, фільтрувати та сортувати.

У цьому випадку використання ми надаємо наступну підказку моделі Anthropic Claude 2 для генерації балів оцінки як навчальних зразків для етапу навчання з підкріпленням:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

Модель Claude 2 генерує оціночний бал і коментар про те, чому надається бал, як показано в наступному прикладі.

Питання Що означає «Fit Out Works» у цьому контексті?
Довідкова відповідь Роботи з комплектування стосуються робіт, які виконуються згідно з будівельним контрактом Amazon або від її імені через Розробника до Першої дати отримання від умовної посади розробника Shell & Core Base-build. Ці роботи включають необхідні комплектації Amazon, інсталяції у великих коробках і замовлення
Відповідь бота QA Роботи з комплектування стосуються робіт, які виконуються згідно з будівельним контрактом Amazon або від її імені через Розробника до Першої дати отримання від умовної посади розробника Shell & Core Base-build.
Оцінка ШІ 4.5
Коментар ШІ Машинна відповідь надає ключову інформацію зі стандартної відповіді – що Fit Out Works стосується робіт, які виконуються відповідно до будівельного контракту Amazon або від її імені через Розробника до Першої дати отримання з умовної позиції розробника Shell & Core Base-build . Додаткові відомості про включення обов’язкових комплектацій Amazon, встановлення великого ящика та налаштувань актуальні та допомагають надати додатковий контекст, тому я оцінив машинну відповідь 4.5 з 5. Вона відображає суть стандартної відповіді та надає деякі корисні додаткові деталі.

З 274 перевірочних запитань контрольована детально налаштована модель згенерувала 159 відповідей, які мали бали ШІ вище 4. Ми спостерігали 60 відповідей з балами нижче 3; є простір для покращення загальної якості відповіді.

Оцінка зворотного зв'язку перед RLHF

Малі та середні підприємства Amazon Engineering перевірили цей відгук і визнали переваги використання оцінок ШІ. Без зворотного зв’язку ШІ малим і середнім підприємствам знадобився б деякий час, щоб переглянути та проаналізувати кожну відповідь LLM, щоб визначити граничні відповіді та галюцинації, а також визначити, чи LLM повертає правильний вміст і ключові поняття. Зворотній зв’язок ШІ автоматично надає бали ШІ та дає змогу МСП використовувати фільтрацію, сортування та групування для перевірки балів і визначення тенденцій у відповідях. Це скорочує середній час розгляду SME на 80%.

Навчання з підкріпленням за допомогою відгуків людини та ШІ

Коли навчальні зразки готові, ми використовуємо алгоритм проксимальної оптимізації політики (PPO). виконувати навчання з підкріпленням. PPO використовує метод градієнта політики, який виконує невеликі кроки для оновлення політики в процесі навчання, щоб агенти навчання могли надійно досягти оптимальної мережі політик. Це робить тренувальний процес більш стабільним і зменшує можливість розбіжності.

Під час тренінгу ми спочатку використовуємо дані, позначені людиною та штучним інтелектом, щоб створити модель винагороди, яка використовуватиметься для оновлення вагових коефіцієнтів у процесі навчання. Для цього випадку використання ми вибираємо модель винагороди на основі distilroberta та навчаємо її за зразками в такому форматі:

[Instruction, Chosen_response, Rejected_response]

Нижче наведено приклад запису про навчання.

Інструкція Відповідно до контексту, що визначено для інклюзивного та доступного дизайну?
Вибрана_відповідь BREEAM Credit HEA06 – інклюзивний та доступний дизайн – Будівля спроектована таким чином, щоб відповідати цілям, відповідати та бути доступною для всіх потенційних користувачів. Стратегія доступу розроблена відповідно до контрольного списку A3 BREEAM
Відхилена_відповідь Контекст говорить про це

Модель винагороди навчається зі швидкістю навчання 1e-5. Як показано на наступній діаграмі, тренувальна свердловина сходиться після 10 епох.

Тренувальний процес РЛВЧ

Потім модель винагороди використовується для навчання з підкріпленням. Для цього використання ми використовуємо PEFT/LoRA для прискорення навчання. LoRA_r становить 32, а LoRA_alpha — 64. Навчання на основі PPO становить 1.41e-5 за три епохи. Навчання підкріплення є дуже мінливим і дуже чутливим до даних міток і даних зворотного зв’язку. Для спостереження за процесом навчання ми використовуємо метрику reward_mean, середню винагороду, отриману від середовища шляхом спеціального моніторингу моделі винагороди.

Після RLAIF ми бачимо, що кількість відповідей ботів із позитивними оцінками (вище 3) зросла з 78.1% до 85.5%, а тих, що мають негативні оцінки (нижче 3), зменшилася з 21.9% до 14.5%. Загалом середня оцінка зворотного зв’язку ШІ зростає до 8% з 3.9 до 4.2.

Покращення RLAIF

Ви можете побачити покращення в наступному прикладі.

Питання Яка потрібна стяжка для підлоги, що облицьована плиткою?
Посилання Бетонна стяжка підлоги застосовна тільки в приміщеннях, викладених плиткою. Зверніться до серії креслень A-32, щоб побачити, де можна використовувати плитку для підлоги.
Відповідь бота перед RLAIF Бетонна стяжка підлоги застосовується тільки в
Оцінка AI перед RLAIF 3
Відповідь бота після RLAIF Бетонна стяжка підлоги застосовується тільки в приміщеннях, які облицьовані плиткою. Зверніться до серії креслень A-32, щоб побачити, де можна використовувати плитку для підлоги.
Оцінка AI після RLAIF 4.5

Висновок

Ця публікація є продовженням нашої роботи з командою Amazon EU Design and Construction, як обговорювалося в Генеративне рішення на базі штучного інтелекту на Amazon SageMaker для допомоги Amazon EU Design and Construction. У цьому дописі ми показали, як ми генерували дані зворотного зв’язку людей і штучного інтелекту для точного налаштування моделі Mistral-7B за допомогою навчання з підкріпленням. Модель після RLAIF забезпечила кращу продуктивність бота Amazon Engineering, що відповідає на питання, покращила оцінку зворотного зв’язку ШІ на 8%. У пілотному проекті команди Amazon D&C використання RLAIF зменшило робоче навантаження з перевірки для МСП приблизно на 80%. Наступним кроком ми розширимо це рішення, підключившись до інфраструктури даних Amazon Engineering, і розробимо структуру для автоматизації процесу безперервного навчання з людиною в циклі. Ми також покращимо якість зворотного зв’язку AI, налаштувавши шаблон запиту.

Завдяки цьому процесу ми дізналися, як ще більше покращити якість і продуктивність завдань із відповідями на запитання через RLHF і RLAIF.

  • Людська перевірка та розширення є важливими для забезпечення точних і відповідальних результатів LLM. Зворотний зв’язок людини може бути використаний у RLHF для подальшого покращення реакції моделі.
  • RLAIF автоматизує цикл оцінювання та навчання. Зворотній зв’язок, створений штучним інтелектом, є менш суб’єктивним, оскільки він не залежить від конкретних уподобань невеликої групи МСП.
  • RLAIF є більш масштабованим, щоб покращити якість бота шляхом постійного підсилення навчання, зводячи до мінімуму зусилля, необхідні для МСП. Це особливо корисно для розробки предметно-спеціальних генеративних рішень ШІ у великих організаціях.
  • Цей процес слід виконувати регулярно, особливо коли доступні нові дані домену, які будуть охоплені рішенням.

У цьому випадку ми використовували SageMaker JumpStart для тестування кількох LLM і експериментів із кількома підходами до навчання LLM. Це значно прискорює зворотний зв’язок ШІ та цикл навчання з максимальною ефективністю та якістю. Для власного проекту ви можете запровадити підхід «людина в циклі», щоб збирати відгуки користувачів, або створювати відгуки ШІ за допомогою іншого магістра права. Потім ви можете виконувати триетапний процес, описаний у цій публікації, щоб точно налаштувати свої моделі за допомогою RLHF і RLAIF. Ми рекомендуємо поекспериментувати з методами за допомогою SageMaker JumpStart, щоб пришвидшити процес.


Про автора

ЮньфейЮньфей Бай є старшим архітектором рішень в AWS. Маючи досвід роботи зі штучним інтелектом/ML, наукою про дані та аналітикою, Yunfei допомагає клієнтам використовувати послуги AWS для досягнення бізнес-результатів. Він розробляє рішення для штучного інтелекту/ML і аналізу даних, які долають складні технічні проблеми та досягають стратегічних цілей. Юньфей має ступінь доктора філософії в галузі електроніки та електротехніки. Крім роботи, Юньфей захоплюється читанням і музикою.

Elad_photoЕлад Двек є менеджером з будівельних технологій в Amazon. Маючи досвід роботи в галузі будівництва та управління проектами, Elad допомагає командам застосовувати нові технології та процеси на основі даних для реалізації будівельних проектів. Він визначає потреби та рішення, а також сприяє розробці індивідуальних атрибутів. Елад має ступінь MBA та бакалавра будівельних і конструкцій. Поза роботою Елад захоплюється йогою, обробкою дерева та подорожує з родиною.

Luca_photoЛука Черабоне є інженером бізнес-аналітики в Amazon. Спираючись на свій досвід у науці про дані та аналітиці, Лука розробляє індивідуальні технічні рішення, щоб задовольнити унікальні потреби своїх клієнтів, спрямовуючи їх до більш стійких і масштабованих процесів. Озброївшись ступенем магістра наук про дані, Лука любить брати участь у проектах DIY, садівництві та експериментувати з кулінарними вишукуваннями під час дозвілля.

spot_img

Остання розвідка

spot_img

Зв'яжіться з нами!

Привіт! Чим я можу вам допомогти?