생성 데이터 인텔리전스

Amazon Engineering용 Amazon SageMaker에 대한 인간 및 AI 피드백을 통해 LLM 성능 개선 | 아마존 웹 서비스

시간

Amazon EU 설계 및 건설(Amazon D&C) 팀은 Amazon 창고를 설계하고 건설하는 엔지니어링 팀입니다. 팀은 창고 설계가 최고의 표준을 충족하는지 확인하기 위해 대량의 문서를 탐색하고 올바른 정보를 찾습니다. 게시물에서 Amazon EU 설계 및 건설을 지원하는 Amazon SageMaker의 생성적 AI 기반 솔루션, 우리는 질의 응답 봇 솔루션을 제시했습니다. 검색 증강 생성 (RAG) 미세 조정된 파이프라인 대형 언어 모델 (LLM)을 Amazon D&C가 사용하여 정리되지 않은 대량의 문서에서 정확한 정보를 효율적으로 검색하고 건설 프로젝트에서 적시에 고품질 서비스를 제공합니다. Amazon D&C 팀은 Amazon 엔지니어를 위한 파일럿 솔루션을 구현하고 사용자 피드백을 수집했습니다.

이번 포스팅에서는 피드백 데이터를 분석하여 RAG가 제공하는 정확도와 환각의 한계를 식별하고 인간 평가 점수를 사용하여 모델을 훈련시키는 방법을 공유합니다. 강화 학습. 더 나은 학습을 위한 훈련 샘플을 늘리기 위해 또 다른 LLM을 사용하여 피드백 점수를 생성했습니다. 이 방법은 RAG 제한을 해결하고 봇 응답 품질을 더욱 향상시켰습니다. LLM 성능 향상을 입증하기 위해 강화 학습 프로세스와 벤치마킹 결과를 제시합니다. 솔루션은 다음을 사용합니다. Amazon SageMaker 점프스타트 모델 배포, 미세 조정, 강화 학습을 위한 핵심 서비스입니다.

파일럿 프로젝트에서 Amazon 엔지니어로부터 피드백 수집

다음에 설명된 솔루션을 개발한 후 Amazon EU 설계 및 건설을 지원하는 Amazon SageMaker의 생성적 AI 기반 솔루션, Amazon D&C 팀은 솔루션을 배포하고 Amazon 엔지니어와 함께 파일럿 프로젝트를 실행했습니다. 엔지니어들은 에서 개발한 웹 애플리케이션을 통해 파일럿 시스템에 액세스했습니다. 스트림릿, RAG 파이프라인과 연결됩니다. 파이프라인에서 우리는 아마존 오픈서치 서비스 벡터 데이터베이스를 위해 Amazon SageMaker에 미세 조정된 Mistral-7B-Instruct 모델을 배포했습니다.

파일럿의 주요 목표 중 하나는 Amazon 엔지니어로부터 피드백을 수집하고 피드백을 사용하여 LLM 환각을 더욱 줄이는 것입니다. 이를 위해 다음 그림과 같이 UI에 피드백 수집 모듈을 개발하고 웹 세션 정보와 사용자 피드백을 저장했습니다. 아마존 DynamoDB. 피드백 수집 UI를 통해 Amazon 엔지니어는 1~5점의 피드백 점수에 따라 매우 반대, 반대, 중립, 동의, 강력 동의 등 XNUMX가지 만족도 수준 중에서 선택할 수 있습니다. 또한 질문에 대한 더 나은 답변을 제공하거나 LLM 응답이 만족스럽지 못한 이유에 대한 의견을 제공할 수도 있습니다.

인간 피드백 UI

파일럿 기간 동안 사용자는 118개의 피드백 응답을 제공했습니다. 다음 차트는 음수에서 양수로의 분포를 보여줍니다. 부정적인 피드백(동의하지 않음 및 매우 반대함)으로 표시된 오답이 전체 피드백 중 45%(53개 중 118개)인 것을 관찰했습니다. 일부 오류(부정적인 피드백의 약 10%, 전체 응답의 7.5%)는 사용자 교육 및 신속한 엔지니어링을 통해 해결될 수 있습니다. 또한 다음 섹션에서 설명하는 LLM 미세 조정 및 강화 학습 솔루션을 통해 문제를 해결할 수 있습니다.

파일럿의 사용자 피드백

일부 사용자는 단순히 “좋습니다!”와 같은 메모를 남겼습니다. 매우 동의하는 답변의 경우, 또는 매우 반대하는 답변의 경우 "질문에 답변하지 않음"입니다. 다른 사용자는 점수를 제공하고 노트에서 LLM 답변을 정당화하는 방법을 설명했습니다. 다음 예에서 사용자는 LLM 환각을 교정하기 위해 적절한 문서와 콘텐츠를 구체적으로 제공했습니다.

문제 주차 공간은 몇 대입니까?
봇 답변

주어진 상황에 따르면 주차 공간 수를 결정할 수 있는 정보가 충분하지 않습니다. 문맥에서는 주차 공간의 최소 크기와 외부 조명 수준에 대한 요구 사항을 논의하지만 구체적인 주차 공간 수를 제공하지는 않습니다.

**다음 리소스에서 추가 설명을 참조할 수 있습니다.**

* ARS GEN 10.0/05.01.02. 설계 기준 및 부록/성능 패키지 AR 정렬 가능 설계 기준 v20.1.1.pdf – 페이지: 10

* ARS GEN 10.0/05.01.02. 설계 기준 및 부록/성능 패키지 AR 정렬 가능 설계 기준 v20.1.1.pdf – 페이지: 79

사용자 점수 강하게 동의
사용자 메모 이는 설계 기준 섹션 21 01 13의 10페이지에 명시되어 있습니다.

지도형 미세 조정 및 강화 학습을 통해 봇 응답 개선

이 솔루션은 세 가지 단계의 미세 조정으로 구성됩니다.

  1. 레이블이 지정된 데이터를 사용하여 감독된 미세 조정을 수행합니다. 이 방법은 다음에 설명되어 있습니다. Amazon EU 설계 및 건설을 지원하는 Amazon SageMaker의 생성적 AI 기반 솔루션.
  2. 추가 LLM 조정을 위해 사용자 피드백을 수집하여 질문-답변 쌍에 레이블을 지정합니다.
  3. 훈련 데이터가 준비되면 다음을 사용하여 모델을 추가로 조정합니다. 사람의 피드백을 통한 강화 학습 (RLHF).

RLHF는 생성 인공 지능(AI) 및 LLM 애플리케이션 전반에 걸쳐 널리 사용됩니다. 보상 기능에 인간의 피드백을 통합하고 강화 학습 알고리즘으로 모델을 훈련하여 보상을 극대화함으로써 모델이 인간의 목표에 더욱 부합하는 작업을 수행하도록 만듭니다. 다음 다이어그램은 단계의 파이프라인을 보여줍니다.

미세 조정 작업 흐름

SageMaker JumpStart에서 Mistral-7B 모델과 함께 Amazon D&C 문서를 사용하여 방법론을 테스트했습니다.

감독된 미세 조정

이전 게시물에서는 미세 조정된 Falcon-7B 모델이 RAG 파이프라인보다 성능이 뛰어나고 QA 봇 응답의 품질과 정확성을 향상시키는 방법을 시연했습니다. 이 게시물에서는 Mistral-7B 모델에 대해 감독된 미세 조정을 수행했습니다. 감독된 미세 조정은 512개의 매개변수(전체 1024개의 매개변수 중 436,207,616%)에 대해 PEFT/LoRA 기술(LoRA_r = 5.68, LoRA_alpha = 7,677,964,288)을 사용했습니다. 훈련은 LLM에 의해 합성되고 인간에 의해 검증된 3.8개의 샘플이 있는 p137x 노드에서 수행되었습니다. 다음 그림에서 볼 수 있듯이 프로세스는 20개의 에포크 이후에 잘 수렴됩니다.

SFT 훈련 과정

미세 조정된 모델은 274개의 샘플을 통해 검증되었으며, 추론 결과는 의미 유사성 점수를 통해 참조 답변과 비교되었습니다. 점수는 0.8100으로 기존 RAG의 0.6419 점수보다 높습니다.

강화 학습을 위한 인간 및 AI 피드백 수집

RLHF의 경우 주제 전문가(SME)가 라벨을 붙인 충분한 양의 고품질 교육 샘플이 필수적입니다. 그러나 품질이 낮은 인간 라벨은 RLHF 훈련 후 원래 모델보다 모델 성능이 저하될 가능성이 높습니다. 중소기업의 시대는 어느 조직에서나 부족한 자원; 수백 또는 수천 개의 LLM 응답을 검토하고 피드백을 제공하려면 명확한 투자 수익을 얻지 못할 수 있는 SME의 상당한 시간 투자가 필요합니다.

이 문제를 해결하기 위해 우리는 다음을 채택했습니다. AI 피드백을 통한 강화 학습 (RLAIF) 방법. RLAIF는 인간이 아닌 AI 보조자(또 다른 LLM)를 고용하여 평가 점수를 제공합니다. 이 하이브리드 학습 접근 방식에서 학습 에이전트는 인간과의 상호 작용뿐만 아니라 다른 AI 모델이 제공하는 피드백을 기반으로 작업을 개선합니다. 강화 학습을 위한 충분한 훈련 데이터를 제공하기 위해 훨씬 더 확장성이 뛰어나고 훈련이 소규모 SME 그룹의 특정 선호도에 의존하지 않기 때문에 훨씬 덜 주관적입니다. SME는 여전히 참여할 수 있지만 프로세스를 감독하고 AI 피드백 품질을 검사하는 역할만 합니다. AI가 생성한 점수와 라벨은 SME가 분석, 필터링, 정렬하는 데 훨씬 덜 복잡하기 때문에 SME의 작업 부하가 크게 줄어듭니다.

이 사용 사례에서는 강화 학습 단계에 대한 훈련 샘플로 평가 점수를 생성하기 위해 Anthropic Claude 2 모델에 다음 프롬프트를 제공합니다.

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

Claude 2 모델은 다음 예와 같이 평가 점수와 점수가 부여된 이유에 대한 설명을 생성합니다.

문제 이 맥락에서 'Fit Out Works'는 무엇을 의미합니까?
참고 답변 Fit Out Works는 명목상의 개발자 쉘 및 코어 베이스 구축 위치에서 최초 수령일까지 Amazon에 의해 또는 Amazon을 대신하여 개발자를 통해 건설 계약에 따라 수행되는 작업을 의미합니다. 이러한 작업에는 Amazon의 필수 Fit-Out, 대형 박스 설치 및 맞춤형 작업이 포함됩니다.
QA 봇 응답 Fit Out Works는 명목상의 개발자 쉘 및 코어 베이스 구축 위치에서 최초 수령일까지 Amazon에 의해 또는 Amazon을 대신하여 개발자를 통해 건설 계약에 따라 수행된 작업을 의미합니다.
AI 점수 4.5
AI 코멘트 기계 답변은 표준 답변의 주요 정보를 제공합니다. Fit Out Works는 명목상의 개발자 쉘 및 코어 베이스 구축 위치에서 최초 수신 날짜까지 개발자를 통해 Amazon을 대신하여 건설 계약에 따라 수행되는 작업을 의미합니다. . Amazon의 필수 Fit-Out, 대형 박스 설치 및 사용자 정의에 대한 추가 세부 정보는 관련성이 있고 추가 컨텍스트를 제공하는 데 도움이 되므로 기계 답변은 4.5점 만점에 5점을 받았습니다. 이는 표준 답변의 본질을 포착하고 일부를 제공합니다. 유용한 추가 세부 정보.

274개의 검증 질문 중에서 지도 미세 조정 모델은 AI 점수가 159보다 큰 4개의 응답을 생성했습니다. 우리는 점수가 60보다 낮은 3개의 답변을 관찰했습니다. 전반적인 응답 품질을 향상시킬 여지가 있습니다.

RLHF 이전 피드백 점수

Amazon Engineering SME는 이 AI 피드백을 검증하고 AI 점수 사용의 이점을 인정했습니다. AI 피드백이 없으면 SME는 각 LLM 응답을 검토 및 분석하여 컷오프 답변과 환각을 식별하고 LLM이 올바른 콘텐츠와 핵심 개념을 반환하는지 판단하는 데 시간이 필요할 것입니다. AI 피드백은 AI 점수를 자동으로 제공하며 SME는 필터링, 정렬, 그룹화를 사용하여 점수를 검증하고 응답의 추세를 식별할 수 있습니다. 이를 통해 평균 SME의 검토 시간이 80% 단축됩니다.

인간과 AI 피드백을 통한 강화 학습

훈련 샘플이 준비되면 다음을 사용합니다. PPO(근위 정책 최적화) 알고리즘 강화학습을 수행합니다. PPO는 학습 에이전트가 최적의 정책 네트워크에 안정적으로 도달할 수 있도록 학습 프로세스에서 정책을 업데이트하기 위해 작은 단계를 수행하는 정책 그라데이션 방법을 사용합니다. 이는 훈련 과정을 더욱 안정적으로 만들고 발산 가능성을 줄입니다.

훈련 중에 먼저 인간 및 AI 레이블이 지정된 데이터를 사용하여 학습 프로세스에서 가중치 업데이트를 안내하는 데 사용될 보상 모델을 구축합니다. 이 사용 사례에서는 distilroberta 기반 보상 모델을 선택하고 다음 형식의 샘플을 통해 학습합니다.

[Instruction, Chosen_response, Rejected_response]

다음은 훈련 기록의 예입니다.

교수 맥락에 따라 포용적이고 접근 가능한 디자인을 위해 무엇이 지정됩니까?
선택된_응답 BREEAM Credit HEA06 – 포용적이고 접근 가능한 디자인 – 건물은 모든 잠재적 사용자가 목적에 적합하고 적절하며 접근할 수 있도록 설계되었습니다. BREEAM 체크리스트 A3에 따라 액세스 전략이 개발되었습니다.
거부됨_응답 문맥에 따르면

보상 모델은 학습률 1e-5로 훈련되었습니다. 다음 차트에서 볼 수 있듯이 훈련 우물은 10개의 에포크 이후에 수렴됩니다.

RLHF 훈련 과정

그런 다음 강화 학습에 보상 모델이 사용됩니다. 이 사용 사례에서는 PEFT/LoRA를 사용하여 학습을 가속화합니다. LoRA_r은 32이고 LoRA_alpha는 64입니다. PPO 기반 학습은 세 에포크에서 1.41e-5의 비율입니다. 강화 훈련은 변동성이 크고 라벨 데이터와 피드백 데이터에 매우 민감합니다. 우리는 학습 과정을 관찰하기 위해 보상 모델을 구체적으로 모니터링하여 환경에서 얻은 평균 보상인 Reward_Mean 지표를 사용합니다.

RLAIF 후에는 긍정적인 점수(3점 이상)를 가진 봇 응답 수가 78.1%에서 85.5%로 증가하고, 부정적인 점수(3점 미만)를 가진 봇 응답 수가 21.9%에서 14.5%로 감소한 것을 볼 수 있습니다. 전체적으로 평균 AI 피드백 점수는 8에서 3.9로 최대 4.2% 증가합니다.

RLAIF에 의한 개선

다음 예에서 개선 사항을 확인할 수 있습니다.

문제 바닥 타일을 깔려면 어떤 스크리드가 필요합니까?
참조 콘크리트 스크리드 바닥재는 바닥 타일 영역에만 적용 가능합니다. 바닥 타일이 적용 가능한 위치를 보려면 도면 시리즈 A-32를 참조하십시오.
RLAIF 전 봇 응답 콘크리트 스크리드 바닥재는 다음에만 적용 가능합니다.
RLAIF 이전의 AI 점수 3
RLAIF 후 봇 응답 콘크리트 스크리드 바닥재는 타일로 마감된 지역에만 적용할 수 있습니다. 타일 ​​바닥이 적용 가능한 위치를 보려면 도면 시리즈 A-32를 참조하십시오.
RLAIF 이후 AI 점수 4.5

결론

이 게시물은 Amazon EU 설계 및 건설 팀과의 지속적인 작업입니다. Amazon EU 설계 및 건설을 지원하는 Amazon SageMaker의 생성적 AI 기반 솔루션. 이 게시물에서는 강화 학습을 통해 Mistral-7B 모델을 미세 조정하기 위해 인간 및 AI 피드백 데이터를 생성하는 방법을 보여주었습니다. RLAIF 이후 모델은 Amazon Engineering의 질문 응답 봇에 더 나은 성능을 제공하고 AI 피드백 점수를 8% 향상시켰습니다. Amazon D&C 팀의 파일럿 프로젝트에서 RLAIF를 사용하면 SME의 검증 워크로드가 약 80% 감소했습니다. 다음 단계로 우리는 Amazon Engineering의 데이터 인프라와 연결하여 이 솔루션을 확장하고 인간이 루프에 참여하여 지속적인 학습 프로세스를 자동화하는 프레임워크를 설계할 것입니다. 또한 프롬프트 템플릿을 조정하여 AI 피드백 품질을 더욱 향상시킬 예정입니다.

이 과정을 통해 우리는 RLHF와 RLAIF를 통해 질의응답 업무의 질과 성과를 더욱 향상시키는 방법을 배웠습니다.

  • LLM에서 정확하고 책임감 있는 결과를 제공하려면 사람의 검증과 보강이 필수적입니다. 인간의 피드백은 RLHF에서 모델 응답을 더욱 향상시키는 데 사용될 수 있습니다.
  • RLAIF는 평가 및 학습 주기를 자동화합니다. AI가 생성한 피드백은 소규모 SME 풀의 특정 선호도에 의존하지 않기 때문에 덜 주관적입니다.
  • RLAIF는 SME에 필요한 노력을 최소화하면서 지속적인 강화 학습을 통해 봇 품질을 향상시킬 수 있도록 확장성이 뛰어납니다. 대규모 조직 내에서 도메인별 생성 AI 솔루션을 개발하는 데 특히 유용합니다.
  • 이 프로세스는 정기적으로 수행되어야 하며, 특히 솔루션에서 처리할 수 있는 새 도메인 데이터가 있는 경우에는 더욱 그렇습니다.

이 사용 사례에서는 SageMaker JumpStart를 사용하여 여러 LLM을 테스트하고 여러 LLM 교육 접근 방식을 실험했습니다. 효율성과 품질을 극대화하여 AI 피드백 및 학습 주기를 크게 가속화합니다. 자체 프로젝트의 경우 인간 참여형 접근 방식을 도입하여 사용자 피드백을 수집하거나 다른 LLM을 사용하여 AI 피드백을 생성할 수 있습니다. 그런 다음 이 게시물에 정의된 3단계 프로세스에 따라 RLHF 및 RLAIF를 사용하여 모델을 미세 조정할 수 있습니다. 프로세스 속도를 높이려면 SageMaker JumpStart를 사용하여 방법을 실험해 보는 것이 좋습니다.


저자에 관하여

윤페이바이 윤페이 AWS의 선임 솔루션 아키텍트입니다. AI/ML, 데이터 과학 및 분석에 대한 배경 지식을 갖춘 Yunfei는 고객이 AWS 서비스를 채택하여 비즈니스 결과를 제공하도록 돕습니다. 그는 복잡한 기술적 과제를 극복하고 전략적 목표를 추진하는 AI/ML 및 데이터 분석 솔루션을 설계합니다. Yunfei는 전자 및 전기 공학 박사 학위를 받았습니다. 업무 외 시간에 Yunfei는 독서와 음악을 즐깁니다.

엘라드_사진엘라드 드웩 Amazon의 건설 기술 관리자입니다. 건설 및 프로젝트 관리에 대한 배경 지식을 바탕으로 Elad는 팀이 건설 프로젝트를 제공하기 위해 새로운 기술과 데이터 기반 프로세스를 채택하도록 돕습니다. 그는 요구 사항과 솔루션을 식별하고 맞춤형 특성 개발을 촉진합니다. Elad는 구조 공학 분야에서 MBA와 BSc를 취득했습니다. 업무 외에 Elad는 요가, 목공, 가족과 함께 여행하는 것을 즐깁니다.

루카_사진루카 세라본 Amazon의 비즈니스 인텔리전스 엔지니어입니다. Luca는 데이터 과학 및 분석에 대한 배경 지식을 바탕으로 고객의 고유한 요구 사항을 충족하는 맞춤형 기술 솔루션을 제작하여 보다 지속 가능하고 확장 가능한 프로세스를 지향하도록 유도합니다. 데이터 과학 석사 학위를 취득한 Luca는 여가 시간에 DIY 프로젝트에 참여하고, 정원을 가꾸고, 요리의 즐거움을 실험하는 것을 즐깁니다.

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?