Повысьте производительность LLM с помощью обратной связи между людьми и искусственным интеллектом в Amazon SageMaker для Amazon Engineering | Веб-сервисы Amazon

Команда Amazon EU Design and Construction (Amazon D&C) — это команда инженеров, проектирующая и строящая склады Amazon. Команда просматривает большой объем документов и находит нужную информацию, чтобы убедиться, что проект склада соответствует самым высоким стандартам. В посте Генеративное решение на базе искусственного интеллекта на базе Amazon SageMaker, которое поможет Amazon в проектировании и строительстве в ЕС., мы представили решение для бота, отвечающего на вопросы, используя Извлечение дополненной генерации (RAG) конвейер с тонко настроенным большая языковая модель (LLM) для Amazon D&C, чтобы эффективно извлекать точную информацию из большого объема неорганизованных документов и предоставлять своевременные и качественные услуги в своих строительных проектах. Команда Amazon D&C реализовала это решение в пилотном режиме для инженеров Amazon и собрала отзывы пользователей.

В этом посте мы рассказываем, как мы проанализировали данные обратной связи и выявили ограничения точности и галлюцинации, предоставленные RAG, а также использовали оценку человеческой оценки для обучения модели посредством усиление обучения. Чтобы увеличить количество обучающих выборок и улучшить качество обучения, мы также использовали еще один LLM для получения оценок обратной связи. Этот метод устранил ограничение RAG и еще больше улучшил качество ответов бота. Мы представляем процесс обучения с подкреплением и результаты сравнительного анализа, чтобы продемонстрировать улучшение производительности LLM. В решении используется Amazon SageMaker JumpStart в качестве основного сервиса для развертывания моделей, точной настройки и обучения с подкреплением.

Соберите отзывы инженеров Amazon в пилотном проекте.

После разработки решения, описанного в Генеративное решение на базе искусственного интеллекта на базе Amazon SageMaker, которое поможет Amazon в проектировании и строительстве в ЕС., команда Amazon D&C развернула решение и запустила пилотный проект с инженерами Amazon. Инженеры получили доступ к пилотной системе через веб-приложение, разработанное стримлит, связанный с трубопроводом РАГ. В конвейере мы использовали Сервис Amazon OpenSearch для векторной базы данных и развернул точно настроенную модель Mistral-7B-Instruct на Amazon SageMaker.

Одна из ключевых задач пилотного проекта — собрать отзывы инженеров Amazon и использовать их для дальнейшего уменьшения галлюцинаций LLM. Для этого мы разработали модуль сбора отзывов в пользовательском интерфейсе, как показано на следующем рисунке, и сохранили информацию о веб-сессии и отзывы пользователей в Amazon DynamoDB. С помощью пользовательского интерфейса сбора отзывов инженеры Amazon могут выбирать один из пяти уровней удовлетворенности: категорически не согласен, не согласен, нейтрально, согласен и полностью согласен, что соответствует оценкам отзывов от 1 до 5. Они также могут дать лучший ответ на вопрос или прокомментировать, почему ответ LLM не является удовлетворительным.

пользовательский интерфейс обратной связи с человеком

В ходе пилотного проекта пользователи предоставили 118 ответов. На следующей диаграмме показано распределение от отрицательного к положительному. Мы заметили, что неправильные ответы, отмеченные отрицательным отзывом (не согласен и категорически не согласен), составляют 45% от общего числа отзывов (53 из 118). Некоторые ошибки (около 10 % отрицательных отзывов и 7.5 % от общего числа ответов) можно устранить путем обучения пользователей и оперативного проектирования. Кроме того, мы можем решить эту проблему с помощью решения тонкой настройки LLM и обучения с подкреплением, описанного в следующем разделе.

Отзывы пользователей от пилотного проекта

Некоторые пользователи просто оставляли заметки, например «Отлично!» для полностью согласных ответов или «Не отвечает на вопрос» для категорически несогласных ответов. Другие пользователи предоставили оценки и объяснили, как они обосновывают ответы LLM в своих заметках. В следующем примере пользователь специально предоставил соответствующий документ и контент для исправления галлюцинации LLM.

Question	Сколько у нас парковочных мест?
Бот Ответ	Исходя из данного контекста, у нас недостаточно информации для определения количества парковочных мест. В контексте обсуждаются минимальные размеры парковочных мест и требования к уровню внешнего освещения, но не указывается конкретное количество парковочных мест. Дополнительные пояснения можно найти в следующих ресурсах: * АРС ОБЩ 10.0/05.01.02. Критерии проектирования и приложения/Пакет производительности AR Sortable Design Criteria v20.1.1.pdf – страница: 10 * АРС ОБЩ 10.0/05.01.02. Критерии проектирования и приложения/Пакет производительности AR Sortable Design Criteria v20.1.1.pdf – страница: 79
Оценка пользователя	Полностью не согласен
Примечания пользователя	Это указано на стр. 21 раздела критериев проектирования 01 13 10.

Улучшите реакцию ботов с помощью контролируемой тонкой настройки и обучения с подкреплением.

Решение состоит из трех этапов тонкой настройки:

Проведите контролируемую точную настройку с использованием помеченных данных. Этот метод был описан в Генеративное решение на базе искусственного интеллекта на базе Amazon SageMaker, которое поможет Amazon в проектировании и строительстве в ЕС..
Соберите отзывы пользователей, чтобы пометить пары «вопрос-ответ» для дальнейшей настройки LLM.
Когда обучающие данные будут готовы, настройте модель, используя обучение с подкреплением на основе отзывов людей (РЛХФ).

RLHF широко используется в приложениях генеративного искусственного интеллекта (ИИ) и LLM. Он включает обратную связь с человеком в функцию вознаграждения и обучает модель с помощью алгоритма обучения с подкреплением для максимизации вознаграждения, что позволяет модели выполнять задачи, более соответствующие человеческим целям. На следующей диаграмме показан конвейер шагов.

Точная настройка рабочего процесса

Мы протестировали методологию с использованием документов Amazon D&C на модели Mistral-7B в SageMaker JumpStart.

Контролируемая тонкая настройка

В предыдущем посте мы продемонстрировали, как доработанная модель Falcon-7B превосходит конвейер RAG и повышает качество и точность ответов ботов QA. Для этого поста мы провели контролируемую доводку модели Мистраль-7Б. При контролируемой тонкой настройке использовался метод PEFT/LoRA (LoRA_r = 512, LoRA_alpha = 1024) для 436,207,616 5.68 7,677,964,288 параметров (3.8% от общего числа 137 20 XNUMX XNUMX параметров). Обучение проводилось на узле pXNUMXx с использованием XNUMX образцов, синтетически сгенерированных LLM и проверенных людьми; процесс хорошо сходится после XNUMX эпох, как показано на следующем рисунке.

Процесс обучения СФТ

Точная настройка модели была проверена на 274 образцах, а результаты вывода сравнивались с эталонными ответами по показателю семантического сходства. Показатель составляет 0.8100, что выше показателя 0.6419 традиционного RAG.

Собирайте отзывы людей и искусственного интеллекта для обучения с подкреплением

Для RLHF необходимо наличие достаточного количества высококачественных обучающих выборок, отмеченных экспертами в данной области (SME). Однако некачественные человеческие метки, вероятно, приведут к ухудшению производительности модели по сравнению с исходной моделью после обучения RLHF. Время МСП дефицитный ресурс в любой организации; рассмотрение сотен или тысяч ответов LLM и предоставление обратной связи требует значительных затрат времени со стороны МСП, которые могут не иметь четкой окупаемости инвестиций.

Для решения этой проблемы мы приняли обучение с подкреплением на основе отзывов ИИ (РЛАИФ) метод. RLAIF нанимает помощника искусственного интеллекта (еще один LLM) для получения оценок, а не людей. В этом гибридном подходе к обучению обучающийся агент уточняет действия не только на основе взаимодействия с человеком, но и на основе обратной связи, предоставляемой другой моделью ИИ. Это гораздо более масштабируемо, чтобы предоставить достаточные обучающие данные для обучения с подкреплением, и гораздо менее субъективно, поскольку обучение не зависит от конкретных предпочтений небольшой группы МСП. МСП по-прежнему могут участвовать, но только для контроля над процессом и проверки качества обратной связи с ИИ. Это значительно снижает рабочую нагрузку на МСП, поскольку малым и средним предприятиям гораздо проще анализировать, фильтровать и сортировать баллы и метки, генерируемые ИИ.

В этом случае использования мы предоставляем следующую подсказку модели Anthropic Claude 2 для создания оценок оценки в качестве обучающих выборок для этапа обучения с подкреплением:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

Модель Claude 2 генерирует оценку оценки и комментарий о том, почему выставляется оценка, как показано в следующем примере.

Question	Что подразумевается под «отделочными работами» в этом контексте?
Справочный ответ	Под отделочными работами понимаются Работы, выполняемые в соответствии с контрактом на строительство компанией Amazon или от ее имени через Застройщика до Даты первого получения с условной позиции разработчика Shell & Core Base-build. Эти работы включают в себя необходимые доработки Amazon, крупногабаритные установки и индивидуальные
Ответ QA-бота	Под отделочными работами понимаются Работы, выполняемые в рамках строительного контракта Amazon или от его имени через Застройщика до Даты первого получения с условной позиции Developer Shell & Core Base-build.
Оценка ИИ	4.5
комментарий ИИ	Машинный ответ предоставляет ключевую информацию из стандартного ответа: «Подготовочные работы» относятся к работам, выполняемым в рамках контракта на строительство компанией Amazon или от ее имени через Застройщика до даты первого получения из условной позиции разработчика Shell & Core Base-build. . Дополнительные сведения о включении необходимых доработок Amazon, крупных установках и настройках актуальны и помогают обеспечить дополнительный контекст, поэтому я поставил машинному ответу 4.5 балла из 5. Он отражает суть стандартного ответа и дает некоторые полезные дополнительные детали.

Из 274 проверочных вопросов контролируемая точно настроенная модель сгенерировала 159 ответов с оценкой ИИ выше 4. Мы наблюдали 60 ответов с оценкой ниже 3; есть возможности для улучшения общего качества ответов.

Оценка обратной связи перед RLHF

Представители малого и среднего бизнеса Amazon Engineering подтвердили эту информацию об искусственном интеллекте и признали преимущества использования оценок искусственного интеллекта. Без обратной связи с ИИ предприятиям малого и среднего бизнеса потребуется некоторое время для рассмотрения и анализа каждого ответа LLM, чтобы выявить недопустимые ответы и галлюцинации, а также оценить, возвращает ли LLM правильное содержание и ключевые понятия. Обратная связь с ИИ автоматически предоставляет оценки ИИ и позволяет МСП использовать фильтрацию, сортировку и группировку для проверки оценок и выявления тенденций в ответах. Это сокращает среднее время проверки МСП на 80%.

Обучение с подкреплением на основе отзывов людей и искусственного интеллекта

Когда обучающие выборки готовы, мы используем метод алгоритм оптимизации проксимальной политики (PPO) выполнять обучение с подкреплением. PPO использует метод градиента политики, который предпринимает небольшие шаги для обновления политики в процессе обучения, чтобы обучающиеся агенты могли надежно достичь оптимальной сети политики. Это делает процесс обучения более стабильным и снижает вероятность расхождений.

Во время обучения сначала мы используем данные, помеченные людьми и искусственным интеллектом, для построения модели вознаграждения, которая будет использоваться для обновления весов в процессе обучения. Для этого варианта использования мы выбираем модель вознаграждения на основе дистиллятора и обучаем ее с помощью образцов в следующем формате:

[Instruction, Chosen_response, Rejected_response]

Ниже приведен пример записи обучения.

инструкция	В зависимости от контекста, что подразумевается под инклюзивным и доступным дизайном?
Выбранный_ответ	Кредит BREEAM HEA06 – инклюзивный и доступный дизайн – здание спроектировано так, чтобы соответствовать своему назначению, быть подходящим и доступным для всех потенциальных пользователей. Стратегия доступа разрабатывается в соответствии с контрольным списком BREEAM A3.
Отклоненный_ответ	В контексте указано, что

Модель вознаграждения обучается со скоростью обучения 1e-5. Как показано на следующей диаграмме, обучение хорошо сходится после 10 эпох.

Тренировочный процесс РЛХФ

Затем модель вознаграждения используется для обучения с подкреплением. В этом случае мы используем PEFT/LoRA для ускорения обучения. LoRA_r равен 32, а LoRA_alpha равен 64. Обучение на основе PPO осуществляется со скоростью 1.41e-5 в течение трех эпох. Обучение с подкреплением очень нестабильно и очень чувствительно к данным меток и данным обратной связи. Для наблюдения за процессом обучения мы используем метрику вознаграждения_среднего — среднее вознаграждение, полученное из окружающей среды путем специального мониторинга модели вознаграждения.

После RLAIF мы видим, что количество ответов ботов с положительными оценками (выше 3) увеличилось с 78.1% до 85.5%, а с отрицательными оценками (ниже 3) уменьшилось с 21.9% до 14.5%. В целом средний балл обратной связи ИИ увеличивается до 8%, с 3.9 до 4.2.

Улучшение со стороны RLAIF

Вы можете увидеть улучшение в следующем примере.

Question	Какая стяжка нужна для пола, на котором выложена плитка?
Справка	Бетонная стяжка применима только в помещениях, где пол покрыт плиткой. Обратитесь к чертежу серии A-32, чтобы узнать, где можно использовать напольную плитку.
Ответ бота перед RLAIF	Бетонная стяжка применяется только в
Оценка AI перед RLAIF	3
Ответ бота после RLAIF	Бетонная стяжка пола применима только в помещениях, покрытых плиткой. Обратитесь к чертежу серии A-32, чтобы узнать, где можно использовать плиточный пол.
Оценка AI после RLAIF	4.5

Заключение

Этот пост является продолжением нашей работы с командой Amazon EU по проектированию и строительству, как обсуждалось в разделе Генеративное решение на базе искусственного интеллекта на базе Amazon SageMaker, которое поможет Amazon в проектировании и строительстве в ЕС.. В этом посте мы показали, как мы генерируем данные обратной связи от людей и искусственного интеллекта для точной настройки модели Mistral-7B с помощью обучения с подкреплением. Модель после RLAIF обеспечила более высокую производительность бота-ответа на вопросы Amazon Engineering и улучшила оценку обратной связи ИИ на 8%. В пилотном проекте команды Amazon D&C использование RLAIF снизило рабочую нагрузку по проверке для МСП примерно на 80%. В качестве следующего шага мы расширим это решение, подключившись к инфраструктуре данных Amazon Engineering, и разработаем структуру для автоматизации процесса непрерывного обучения с участием человека. Мы также улучшим качество обратной связи с ИИ, настроив шаблон подсказки.

Благодаря этому процессу мы узнали, как еще больше повысить качество и производительность задач по ответам на вопросы с помощью RLHF и RLAIF.

Человеческая проверка и расширение необходимы для обеспечения точных и ответственных результатов LLM. Обратная связь с человеком может быть использована в RLHF для дальнейшего улучшения реакции модели.
RLAIF автоматизирует цикл оценки и обучения. Обратная связь, генерируемая ИИ, менее субъективна, поскольку не зависит от конкретных предпочтений небольшого числа МСП.
RLAIF более масштабируем, что позволяет улучшить качество ботов за счет постоянного обучения с подкреплением и минимизации усилий, требуемых от МСП. Это особенно полезно для разработки генеративных решений искусственного интеллекта для конкретной предметной области в крупных организациях.
Этот процесс следует выполнять на регулярной основе, особенно когда доступны новые данные предметной области, которые можно охватить решением.

В этом случае мы использовали SageMaker JumpStart для тестирования нескольких LLM и экспериментов с несколькими подходами к обучению LLM. Это значительно ускоряет цикл обратной связи и обучения ИИ, обеспечивая максимальную эффективность и качество. В своем собственном проекте вы можете внедрить подход «человек в цикле» для сбора отзывов пользователей или генерировать отзывы ИИ с помощью другого LLM. Затем вы можете следовать трехэтапному процессу, описанному в этом посте, для точной настройки ваших моделей с использованием RLHF и RLAIF. Рекомендуем поэкспериментировать с методами с помощью SageMaker JumpStart, чтобы ускорить процесс.

Об авторе

Юнфэй Бай является старшим архитектором решений в AWS. Имея опыт работы в области искусственного интеллекта и машинного обучения, обработки данных и аналитики, Юнфэй помогает клиентам внедрять сервисы AWS для достижения бизнес-результатов. Он разрабатывает решения для искусственного интеллекта, машинного обучения и анализа данных, которые решают сложные технические задачи и достигают стратегических целей. Юнфэй имеет докторскую степень в области электроники и электротехники. Вне работы Юнфэй любит читать и слушать музыку.

Элад Двек — менеджер по строительным технологиям в Amazon. Имея опыт работы в сфере строительства и управления проектами, Элад помогает командам внедрять новые технологии и процессы, основанные на данных, для реализации строительных проектов. Он определяет потребности и решения, а также способствует разработке индивидуальных атрибутов. Элад имеет степень магистра делового администрирования и степень бакалавра в области строительного проектирования. Помимо работы Элад увлекается йогой, работой по дереву и путешествиями со своей семьей.

Лука Серабоне — инженер бизнес-аналитики в Amazon. Опираясь на свой опыт в области науки о данных и аналитики, Лука разрабатывает индивидуальные технические решения для удовлетворения уникальных потребностей своих клиентов, побуждая их к более устойчивым и масштабируемым процессам. Имея степень магистра в области науки о данных, Лука в свободное время любит заниматься DIY-проектами, заниматься садоводством и экспериментировать с кулинарными изысками.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/improve-llm-performance-with-human-and-ai-feedback-on-amazon-sagemaker-for-amazon-engineering/

Генеративный анализ данных

Повысьте производительность LLM с помощью отзывов людей и искусственного интеллекта об Amazon SageMaker для Amazon Engineering | Веб-сервисы Amazon

Соберите отзывы инженеров Amazon в пилотном проекте.

Улучшите реакцию ботов с помощью контролируемой тонкой настройки и обучения с подкреплением.

Контролируемая тонкая настройка

Собирайте отзывы людей и искусственного интеллекта для обучения с подкреплением

Обучение с подкреплением на основе отзывов людей и искусственного интеллекта

Заключение

Об авторе

OpenAI может бросить вызов Google и запутаться с помощью поиска на основе искусственного интеллекта: отчеты – расшифровать

Криптокиты украли биткойны на 2.9 миллиарда долларов в однодневном безумии

Последняя разведка

Нигерия готова объявить вне закона P2P-торговлю криптовалютой из соображений национальной безопасности

Восприятие игр Web3 меняется от скептицизма к энтузиазму: руководитель студии Shrapnel

SEC при Трампе будет «активно добиваться» регулирования криптовалюты – говорит бывший регулятор

Биткойн-ETF в оттенках серого прервал полосу неудач и заработал 63 миллиона долларов – расшифровать

Бывший руководитель FTX согласился передать недвижимость на Багамах на сумму 5.9 миллиона долларов в рамках сделки о признании вины

Криптовалютный спад – это возможность для покупки: основатель BitMEX говорит: «Покупай в мае, уходи»

Чат с нами