ความฉลาดทางข้อมูลเชิงกำเนิด

ปรับปรุงประสิทธิภาพ LLM ด้วยคำติชมของมนุษย์และ AI บน Amazon SageMaker สำหรับ Amazon Engineering | อเมซอนเว็บเซอร์วิส

วันที่:

ทีม Amazon EU Design and Construction (Amazon D&C) เป็นทีมวิศวกรที่ออกแบบและสร้างคลังสินค้าของ Amazon ทีมงานใช้เอกสารจำนวนมากและค้นหาข้อมูลที่ถูกต้องเพื่อให้แน่ใจว่าการออกแบบคลังสินค้าตรงตามมาตรฐานสูงสุด ในการโพสต์ โซลูชันที่ขับเคลื่อนด้วย AI แบบเจนเนอเรชั่นบน Amazon SageMaker เพื่อช่วยการออกแบบและการก่อสร้างของ Amazon EUเราได้นำเสนอคำถามที่ตอบวิธีแก้ปัญหาบอทโดยใช้ การดึงข้อมูล Augmented Generation (RAG) ไปป์ไลน์ที่มีการปรับแต่งอย่างละเอียด แบบจำลองภาษาขนาดใหญ่ (LLM) สำหรับ Amazon D&C เพื่อดึงข้อมูลที่ถูกต้องอย่างมีประสิทธิภาพจากเอกสารจำนวนมากที่ไม่ได้จัดระเบียบ และให้บริการที่ทันท่วงทีและมีคุณภาพสูงในโครงการก่อสร้างของพวกเขา ทีม Amazon D&C นำโซลูชันไปใช้ในโครงการนำร่องสำหรับวิศวกรของ Amazon และรวบรวมความคิดเห็นของผู้ใช้

ในโพสต์นี้ เราแบ่งปันวิธีที่เราวิเคราะห์ข้อมูลคำติชมและระบุข้อจำกัดของความถูกต้องและภาพหลอนที่ RAG มอบให้ และใช้คะแนนการประเมินโดยมนุษย์เพื่อฝึกแบบจำลองผ่าน การเรียนรู้การเสริมแรง- เพื่อเพิ่มตัวอย่างการฝึกอบรมเพื่อการเรียนรู้ที่ดีขึ้น เรายังใช้ LLM อื่นเพื่อสร้างคะแนนคำติชม วิธีการนี้แก้ไขข้อจำกัด RAG และปรับปรุงคุณภาพการตอบสนองของบอทให้ดียิ่งขึ้น เรานำเสนอกระบวนการเรียนรู้แบบเสริมกำลังและผลการเปรียบเทียบเพื่อแสดงให้เห็นถึงการปรับปรุงประสิทธิภาพของ LLM วิธีแก้ปัญหาใช้ Amazon SageMaker JumpStart เป็นบริการหลักสำหรับการปรับใช้โมเดล การปรับแต่ง และการเรียนรู้แบบเสริมกำลัง

รวบรวมคำติชมจากวิศวกรของ Amazon ในโครงการนำร่อง

หลังจากพัฒนาวิธีแก้ปัญหาตามที่อธิบายไว้ใน โซลูชันที่ขับเคลื่อนด้วย AI แบบเจนเนอเรชั่นบน Amazon SageMaker เพื่อช่วยการออกแบบและการก่อสร้างของ Amazon EUทีม Amazon D&C ได้ปรับใช้โซลูชันและดำเนินโครงการนำร่องร่วมกับวิศวกรของ Amazon วิศวกรเข้าถึงระบบนำร่องผ่านเว็บแอปพลิเคชันที่พัฒนาโดย สตรีมไลท์เชื่อมต่อกับไปป์ไลน์ RAG ในไปป์ไลน์เราใช้ บริการ Amazon OpenSearch สำหรับฐานข้อมูลเวกเตอร์ และปรับใช้โมเดล Mistral-7B-Instruct ที่ได้รับการปรับแต่งอย่างละเอียดบน Amazon SageMaker

วัตถุประสงค์หลักประการหนึ่งของโครงการนำร่องคือการรวบรวมความคิดเห็นจากวิศวกรของ Amazon และใช้ความคิดเห็นดังกล่าวเพื่อลดภาพหลอน LLM ต่อไป เพื่อให้บรรลุเป้าหมายนี้ เราได้พัฒนาโมดูลการรวบรวมคำติชมใน UI ดังแสดงในรูปต่อไปนี้ และจัดเก็บข้อมูลเซสชันเว็บและคำติชมของผู้ใช้ไว้ใน อเมซอน ไดนาโมดีบี- วิศวกรของ Amazon สามารถเลือกระดับความพึงพอใจได้ห้าระดับผ่าน UI การรวบรวมคำติชม: ไม่เห็นด้วยอย่างยิ่ง ไม่เห็นด้วย เป็นกลาง เห็นด้วย และเห็นด้วยอย่างยิ่ง ซึ่งสอดคล้องกับคะแนนคำติชมตั้งแต่ 1–5 พวกเขายังสามารถให้คำตอบที่ดีกว่าสำหรับคำถามหรือความคิดเห็นว่าเหตุใดการตอบกลับของ LLM จึงไม่เป็นที่พอใจ

UI ข้อเสนอแนะของมนุษย์

ในระหว่างโครงการนำร่อง ผู้ใช้ให้การตอบกลับ 118 รายการ แผนภูมิต่อไปนี้แสดงการกระจายตัวจากลบไปบวก เราสังเกตเห็นคำตอบที่ไม่ถูกต้องซึ่งทำเครื่องหมายโดยการตอบรับเชิงลบ (ไม่เห็นด้วยและไม่เห็นด้วยอย่างยิ่ง) อยู่ที่ 45% จากความคิดเห็นทั้งหมด (53 จาก 118) ข้อผิดพลาดบางส่วน (ประมาณ 10% ของผลตอบรับเชิงลบ และ 7.5% ของผลตอบรับโดยรวม) สามารถแก้ไขได้โดยการให้ความรู้แก่ผู้ใช้และวิศวกรรมที่ทันท่วงที นอกจากนี้ เราสามารถแก้ไขปัญหาด้วยโซลูชันการปรับแต่ง LLM และการเรียนรู้การเสริมกำลังตามที่อธิบายไว้ในส่วนถัดไป

ความคิดเห็นของผู้ใช้จากนักบิน

ผู้ใช้บางคนทิ้งข้อความไว้ เช่น “เยี่ยมมาก!” สำหรับคำตอบที่เห็นด้วยอย่างยิ่ง หรือ “ไม่ตอบคำถาม” สำหรับคำตอบที่ไม่เห็นด้วยอย่างยิ่ง ผู้ใช้รายอื่นให้คะแนนและอธิบายว่าพวกเขาปรับคำตอบ LLM อย่างไรในบันทึกย่อของพวกเขา ในตัวอย่างต่อไปนี้ ผู้ใช้จัดเตรียมเอกสารและเนื้อหาที่เพียงพอเพื่อแก้ไขภาพหลอน LLM โดยเฉพาะ

คำถาม เรามีที่จอดรถได้กี่คัน?
คำตอบของบอท

จากบริบทที่กำหนด เราไม่มีข้อมูลเพียงพอที่จะกำหนดจำนวนที่จอดรถ บริบทกล่าวถึงขนาดพื้นที่จอดรถขั้นต่ำและข้อกำหนดสำหรับระดับแสงสว่างภายนอก แต่ไม่ได้ระบุจำนวนช่องจอดรถที่เฉพาะเจาะจง

**คุณสามารถดูคำอธิบายเพิ่มเติมได้ในแหล่งข้อมูลต่อไปนี้:**

* ARS GEN 10.0/05.01.02 เกณฑ์การออกแบบและภาคผนวก/แพ็คเกจประสิทธิภาพ AR เกณฑ์การออกแบบที่เรียงลำดับได้ v20.1.1.pdf – หน้า: 10

* ARS GEN 10.0/05.01.02 เกณฑ์การออกแบบและภาคผนวก/แพ็คเกจประสิทธิภาพ AR เกณฑ์การออกแบบที่เรียงลำดับได้ v20.1.1.pdf – หน้า: 79

คะแนนผู้ใช้ ไม่เห็นด้วยอย่างยิ่ง
บันทึกผู้ใช้ สิ่งนี้ระบุไว้ในหน้า 21 ของเกณฑ์การออกแบบมาตรา 01 13 10

ปรับปรุงการตอบสนองของบอทด้วยการปรับแต่งแบบละเอียดและการเรียนรู้แบบเสริมภายใต้การดูแล

โซลูชันประกอบด้วยการปรับแต่งอย่างละเอียดสามขั้นตอน:

  1. ดำเนินการปรับแต่งแบบละเอียดภายใต้การดูแลโดยใช้ข้อมูลที่ติดป้ายกำกับ วิธีการนี้ได้อธิบายไว้ใน โซลูชันที่ขับเคลื่อนด้วย AI แบบเจนเนอเรชั่นบน Amazon SageMaker เพื่อช่วยการออกแบบและการก่อสร้างของ Amazon EU.
  2. รวบรวมคำติชมของผู้ใช้เพื่อติดป้ายกำกับคู่คำถาม-คำตอบเพื่อการปรับแต่ง LLM เพิ่มเติม
  3. เมื่อข้อมูลการฝึกพร้อมแล้ว ให้ปรับแต่งโมเดลเพิ่มเติมโดยใช้ การเรียนรู้การเสริมแรงจากคำติชมของมนุษย์ (RLHF)

RLHF ถูกนำมาใช้กันอย่างแพร่หลายตลอดทั้งแอปพลิเคชัน generative Artificial Intelligence (AI) และ LLM โดยจะรวมความคิดเห็นของมนุษย์ไว้ในฟังก์ชันการให้รางวัล และฝึกฝนโมเดลด้วยอัลกอริธึมการเรียนรู้แบบเสริมกำลังเพื่อเพิ่มรางวัลสูงสุด ซึ่งทำให้โมเดลทำงานได้สอดคล้องกับเป้าหมายของมนุษย์มากขึ้น แผนภาพต่อไปนี้แสดงไปป์ไลน์ของขั้นตอนต่างๆ

ขั้นตอนการทำงานแบบละเอียด

เราทดสอบวิธีการโดยใช้เอกสาร Amazon D&C กับโมเดล Mistral-7B บน SageMaker JumpStart

มีการดูแลปรับแต่งอย่างละเอียด

ในโพสต์ก่อนหน้านี้ เราได้แสดงให้เห็นว่าโมเดล Falcon-7B ที่ปรับแต่งอย่างละเอียดมีประสิทธิภาพเหนือกว่าไปป์ไลน์ RAG และปรับปรุงคุณภาพและความแม่นยำของการตอบสนองของบอท QA อย่างไร สำหรับโพสต์นี้ เราได้ดำเนินการปรับแต่งอย่างละเอียดภายใต้การดูแลของรุ่น Mistral-7B การปรับแต่งอย่างละเอียดภายใต้การดูแลใช้เทคนิค PEFT/LoRA (LoRA_r = 512, LoRA_alpha = 1024) บนพารามิเตอร์ 436,207,616 ตัว (5.68% ของพารามิเตอร์ทั้งหมด 7,677,964,288 ตัว) การฝึกอบรมดำเนินการบนโหนด p3.8x โดยมีตัวอย่าง 137 ตัวอย่างที่สร้างขึ้นโดย LLM สังเคราะห์และตรวจสอบโดยมนุษย์ กระบวนการนี้มาบรรจบกันอย่างดีหลังจาก 20 ยุค ดังแสดงในรูปต่อไปนี้

กระบวนการฝึกอบรม SFT

โมเดลที่ได้รับการปรับแต่งอย่างละเอียดได้รับการตรวจสอบโดยตัวอย่าง 274 ตัวอย่าง และผลการอนุมานถูกนำมาเปรียบเทียบกับคำตอบอ้างอิงด้วยคะแนนความคล้ายคลึงทางความหมาย คะแนนอยู่ที่ 0.8100 ซึ่งสูงกว่าคะแนน RAG แบบเดิมที่ได้ 0.6419

รวบรวมคำติชมของมนุษย์และ AI เพื่อการเรียนรู้แบบเสริมกำลัง

สำหรับ RLHF ตัวอย่างการฝึกอบรมคุณภาพสูงที่มีป้ายกำกับโดยผู้เชี่ยวชาญเฉพาะด้าน (SMEs) ในจำนวนที่เพียงพอถือเป็นสิ่งสำคัญ อย่างไรก็ตาม ป้ายกำกับของมนุษย์ที่มีคุณภาพต่ำอาจทำให้ประสิทธิภาพของโมเดลแย่ลงกว่าโมเดลดั้งเดิมหลังจากการฝึกอบรม RLHF ถึงเวลาของ SMEs แล้ว ทรัพยากรที่ขาดแคลนในองค์กรใดๆ- การตรวจสอบคำตอบของ LLM นับร้อยหรือหลายพันรายการและการให้ข้อเสนอแนะต้องใช้เวลาอย่างมากจาก SMEs ซึ่งอาจไม่ได้รับผลตอบแทนจากการลงทุนที่ชัดเจน

เพื่อจัดการกับความท้าทายนี้ เราได้นำ การเรียนรู้การเสริมกำลังจากข้อเสนอแนะของ AI (RLAIF) วิธีการ RLAIF จ้างผู้ช่วย AI (LLM อื่น) เพื่อให้คะแนนการประเมิน แทนที่จะจ้างจากมนุษย์ ในแนวทางการเรียนรู้แบบผสมผสานนี้ ตัวแทนการเรียนรู้จะปรับแต่งการกระทำไม่เพียงแต่ขึ้นอยู่กับการโต้ตอบกับมนุษย์เท่านั้น แต่ยังมาจากผลตอบรับที่ได้รับจากโมเดล AI อื่นด้วย สามารถปรับขนาดได้มากกว่ามากในการให้ข้อมูลการฝึกอบรมที่เพียงพอสำหรับการเรียนรู้แบบเสริมกำลัง และเป็นแบบอัตนัยน้อยกว่ามาก เนื่องจากการฝึกอบรมไม่ได้ขึ้นอยู่กับความชอบเฉพาะจาก SME กลุ่มเล็กๆ SMEs อาจยังคงมีส่วนร่วม แต่เพียงเพื่อดูแลกระบวนการและตรวจสอบคุณภาพผลตอบรับของ AI เท่านั้น สิ่งนี้ช่วยลดภาระงานของ SMEs ได้อย่างมาก เนื่องจากคะแนนและป้ายกำกับที่สร้างโดย AI นั้นมีความซับซ้อนน้อยกว่ามากสำหรับ SMEs ในการวิเคราะห์ กรอง และจัดเรียง

ในกรณีการใช้งานนี้ เราจัดเตรียมคำแนะนำต่อไปนี้ให้กับแบบจำลอง Anthropic Claude 2 เพื่อสร้างคะแนนการประเมินเป็นตัวอย่างการฝึกอบรมสำหรับขั้นตอนการเรียนรู้แบบเสริมกำลัง:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

แบบจำลอง Claude 2 จะสร้างคะแนนการประเมินและความคิดเห็นว่าเหตุใดจึงให้คะแนน ดังที่แสดงในตัวอย่างต่อไปนี้

คำถาม 'Fit Out Works' มีความหมายว่าอะไรในบริบทนี้
คำตอบอ้างอิง Fit Out Works หมายถึงงานที่ดำเนินการภายใต้สัญญาก่อสร้างโดยหรือในนามของ Amazon ผ่านทางนักพัฒนาจนถึงวันที่ได้รับครั้งแรกจากตำแหน่ง Developer Shell & Core Base-build โดยประมาณ งานเหล่านี้ประกอบด้วย Fit-Outs ที่จำเป็นของ Amazon การติดตั้งแบบ Big-Box และแบบกำหนดเอง
การตอบสนองของบอท QA Fit Out Works หมายถึงงานที่ดำเนินการภายใต้สัญญาก่อสร้างโดยหรือในนามของ Amazon ผ่านทางนักพัฒนาจนถึงวันที่ได้รับครั้งแรกจากตำแหน่ง Developer Shell และ Core Base-build โดยประมาณ
คะแนนเอไอ 4.5
ความคิดเห็นของเอไอ คำตอบของเครื่องให้ข้อมูลสำคัญจากคำตอบมาตรฐาน โดยที่ Fit Out Works หมายถึงงานที่ดำเนินการภายใต้สัญญาก่อสร้างโดยหรือในนามของ Amazon ผ่านทางนักพัฒนาจนถึงวันที่ได้รับครั้งแรกจากตำแหน่ง Developer Shell และ Core Base โดยประมาณ . รายละเอียดเพิ่มเติมเกี่ยวกับการรวม Fit-Outs ที่จำเป็นของ Amazon การติดตั้ง Big-Box และการปรับแต่งต่างๆ มีความเกี่ยวข้องและช่วยให้บริบทเพิ่มเติม ดังนั้นฉันจึงได้คะแนนคำตอบของเครื่อง 4.5 จาก 5 คะแนน ซึ่งรวบรวมสาระสำคัญของคำตอบมาตรฐานและให้บางส่วน รายละเอียดเพิ่มเติมที่เป็นประโยชน์

จากคำถามตรวจสอบความถูกต้อง 274 ข้อ โมเดลที่ได้รับการปรับแต่งอย่างละเอียดนั้นสร้างคำตอบได้ 159 คำตอบที่มีคะแนน AI มากกว่า 4 เราสังเกตคำตอบ 60 คำตอบที่มีคะแนนต่ำกว่า 3; มีพื้นที่ในการปรับปรุงคุณภาพการตอบสนองโดยรวม

คะแนนตอบรับก่อน RLHF

Amazon Engineering SMEs ตรวจสอบผลตอบรับ AI นี้และรับทราบถึงประโยชน์ของการใช้คะแนน AI หากไม่มีข้อเสนอแนะจาก AI SMEs จะต้องใช้เวลาในการตรวจสอบและวิเคราะห์การตอบสนองของ LLM แต่ละรายการเพื่อระบุคำตอบที่ถูกตัดออกและภาพหลอน และเพื่อตัดสินว่า LLM ส่งเนื้อหาและแนวคิดหลักที่ถูกต้องกลับมาหรือไม่ ข้อเสนอแนะของ AI จะให้คะแนน AI โดยอัตโนมัติ และช่วยให้ SMEs สามารถใช้การกรอง การเรียงลำดับ และการจัดกลุ่มเพื่อตรวจสอบคะแนนและระบุแนวโน้มในการตอบกลับ ซึ่งจะช่วยลดเวลาในการตรวจสอบโดยเฉลี่ยของ SME ได้ถึง 80%

การเรียนรู้แบบเสริมกำลังจากการตอบสนองของมนุษย์และ AI

เมื่อตัวอย่างการฝึกอบรมพร้อม เราจะใช้ อัลกอริธึมการเพิ่มประสิทธิภาพนโยบายใกล้เคียง (PPO) เพื่อทำการเรียนรู้แบบเสริมกำลัง PPO ใช้วิธีการไล่ระดับนโยบาย ซึ่งใช้ขั้นตอนเล็กๆ ในการอัปเดตนโยบายในกระบวนการเรียนรู้ เพื่อให้ตัวแทนการเรียนรู้สามารถเข้าถึงเครือข่ายนโยบายที่เหมาะสมที่สุดได้อย่างน่าเชื่อถือ ทำให้กระบวนการฝึกอบรมมีเสถียรภาพมากขึ้น และลดโอกาสที่จะเกิดความแตกต่าง

ในระหว่างการฝึกอบรม ขั้นแรกเราใช้ข้อมูลที่ติดป้ายกำกับโดยมนุษย์และ AI เพื่อสร้างโมเดลรางวัล ซึ่งจะใช้เป็นแนวทางในการอัปเดตน้ำหนักในกระบวนการเรียนรู้ สำหรับกรณีการใช้งานนี้ เราเลือกแบบจำลองการให้รางวัลแบบฐานดิสทิลโรแบร์ตา และฝึกอบรมตามตัวอย่างในรูปแบบต่อไปนี้:

[Instruction, Chosen_response, Rejected_response]

ต่อไปนี้เป็นตัวอย่างของบันทึกการฝึกอบรม

การแนะนำ ตามบริบท อะไรคือสิ่งที่ระบุไว้สำหรับการออกแบบที่ครอบคลุมและเข้าถึงได้?
เลือกแล้ว_ตอบกลับ BREEAM Credit HEA06 - การออกแบบที่ครอบคลุมและเข้าถึงได้ - อาคารได้รับการออกแบบให้เหมาะสมกับวัตถุประสงค์ เหมาะสม และเข้าถึงได้โดยผู้ใช้ที่มีศักยภาพทุกคน กลยุทธ์การเข้าถึงได้รับการพัฒนาให้สอดคล้องกับรายการตรวจสอบ BREEAM A3
ถูกปฏิเสธ_ตอบกลับ บริบทระบุไว้ว่า

โมเดลรางวัลได้รับการฝึกฝนด้วยอัตราการเรียนรู้ 1e-5 ดังที่แสดงในแผนภูมิต่อไปนี้ บ่อน้ำการฝึกอบรมจะมาบรรจบกันหลังจากผ่านไป 10 ยุค

กระบวนการฝึกอบรม RLHF

จากนั้นโมเดลรางวัลจะถูกนำมาใช้เพื่อการเรียนรู้แบบเสริมกำลัง สำหรับกรณีการใช้งานนี้ เราใช้ PEFT/LoRA เพื่อเร่งการเรียนรู้ LoRA_r คือ 32 และ LoRA_alpha คือ 64 การเรียนรู้แบบ PPO อยู่ที่อัตรา 1.41e-5 ในสามยุค การฝึกอบรมการเสริมกำลังมีความผันผวนสูงและมีความอ่อนไหวมากต่อข้อมูลฉลากและข้อมูลป้อนกลับ เราใช้ตัวชี้วัดรางวัลเฉลี่ย ซึ่งเป็นรางวัลโดยเฉลี่ยที่ได้รับจากสภาพแวดล้อมโดยการตรวจสอบโมเดลรางวัลโดยเฉพาะ เพื่อสังเกตกระบวนการเรียนรู้

หลังจาก RLAIF เราจะเห็นจำนวนการตอบสนองของบอทที่มีคะแนนเป็นบวก (สูงกว่า 3) เพิ่มขึ้นจาก 78.1% เป็น 85.5% และผู้ที่มีคะแนนติดลบ (ต่ำกว่า 3) ลดลงจาก 21.9% เป็น 14.5% โดยรวมแล้วคะแนนตอบรับ AI โดยเฉลี่ยเพิ่มขึ้นถึง 8% จาก 3.9 เป็น 4.2

การปรับปรุงโดย RLAIF

คุณสามารถดูการปรับปรุงได้ในตัวอย่างต่อไปนี้

คำถาม พื้นที่พื้นปูกระเบื้อง จำเป็นต้องปูกระเบื้องอะไร?
อ้างอิง พื้นคอนกรีตปาดใช้ได้เฉพาะในพื้นที่ปูกระเบื้องเท่านั้น อ้างถึงภาพวาดซีรีส์ A-32 เพื่อดูว่าสามารถใช้กระเบื้องปูพื้นได้ที่ไหน
การตอบสนองของบอทก่อน RLAIF พื้นคอนกรีตปาดใช้ได้เฉพาะใน
คะแนน AI ก่อน RLAIF 3
การตอบสนองของบอทหลังจาก RLAIF พื้นคอนกรีตปาดใช้ได้เฉพาะในพื้นที่ปูกระเบื้องเท่านั้น อ้างถึงภาพวาดซีรีส์ A-32 เพื่อดูว่าพื้นกระเบื้องสามารถใช้ได้ในส่วนใดบ้าง
คะแนน AI หลังจาก RLAIF 4.5

สรุป

โพสต์นี้เป็นความต่อเนื่องของการทำงานของเรากับทีมออกแบบและก่อสร้างของ Amazon EU ตามที่กล่าวไว้ใน โซลูชันที่ขับเคลื่อนด้วย AI แบบเจนเนอเรชั่นบน Amazon SageMaker เพื่อช่วยการออกแบบและการก่อสร้างของ Amazon EU- ในโพสต์นี้ เราได้แสดงให้เห็นว่าเราสร้างข้อมูลตอบรับของมนุษย์และ AI เพื่อปรับแต่งโมเดล Mistral-7B ด้วยการเรียนรู้แบบเสริมกำลังได้อย่างไร โมเดลหลังจาก RLAIF มอบประสิทธิภาพที่ดีขึ้นสำหรับบอตตอบคำถามของ Amazon Engineering ทำให้คะแนนคำติชมของ AI ดีขึ้น 8% ในโครงการนำร่องของทีม Amazon D&C การใช้ RLAIF ช่วยลดปริมาณงานการตรวจสอบสำหรับ SME ลงได้ประมาณ 80% ในขั้นตอนถัดไป เราจะขยายขนาดโซลูชันนี้โดยการเชื่อมต่อกับโครงสร้างพื้นฐานข้อมูลของ Amazon Engineering และออกแบบเฟรมเวิร์กเพื่อทำให้กระบวนการเรียนรู้อย่างต่อเนื่องเป็นอัตโนมัติโดยมีมนุษย์อยู่ในลูป นอกจากนี้เรายังจะปรับปรุงคุณภาพผลตอบรับของ AI เพิ่มเติมด้วยการปรับแต่งเทมเพลตพร้อมท์

ผ่านกระบวนการนี้ เราได้เรียนรู้วิธีปรับปรุงคุณภาพและประสิทธิภาพของงานตอบคำถามผ่าน RLHF และ RLAIF เพิ่มเติม

  • การตรวจสอบและเสริมโดยมนุษย์ถือเป็นสิ่งสำคัญเพื่อให้ผลลัพธ์ที่ถูกต้องและมีความรับผิดชอบจาก LLM ผลตอบรับจากมนุษย์สามารถนำมาใช้ใน RLHF เพื่อปรับปรุงการตอบสนองของโมเดลให้ดียิ่งขึ้น
  • RLAIF ทำให้วงจรการประเมินและการเรียนรู้เป็นแบบอัตโนมัติ ความคิดเห็นที่สร้างโดย AI นั้นมีความเป็นส่วนตัวน้อยกว่า เนื่องจากไม่ได้ขึ้นอยู่กับความชอบเฉพาะจากกลุ่ม SME กลุ่มเล็กๆ
  • RLAIF สามารถปรับขนาดได้มากขึ้นเพื่อปรับปรุงคุณภาพบอทผ่านการเรียนรู้แบบเสริมกำลังอย่างต่อเนื่อง ในขณะเดียวกันก็ลดความพยายามที่จำเป็นจาก SMEs ให้เหลือน้อยที่สุด มีประโยชน์อย่างยิ่งสำหรับการพัฒนาโซลูชัน AI ที่สร้างเฉพาะโดเมนภายในองค์กรขนาดใหญ่
  • กระบวนการนี้ควรทำเป็นประจำ โดยเฉพาะอย่างยิ่งเมื่อมีข้อมูลโดเมนใหม่เพื่อให้โซลูชันครอบคลุม

ในกรณีการใช้งานนี้ เราใช้ SageMaker JumpStart เพื่อทดสอบ LLM หลายรายการ และทดสอบด้วยวิธีการฝึกอบรม LLM หลายวิธี ช่วยเร่งการตอบสนองของ AI และวงจรการเรียนรู้อย่างมีนัยสำคัญด้วยประสิทธิภาพและคุณภาพสูงสุด สำหรับโปรเจ็กต์ของคุณเอง คุณสามารถแนะนำแนวทางแบบมนุษย์ในวงเพื่อรวบรวมคำติชมของผู้ใช้ของคุณ หรือสร้างคำติชม AI โดยใช้ LLM อื่น จากนั้น คุณสามารถปฏิบัติตามกระบวนการสามขั้นตอนที่กำหนดไว้ในโพสต์นี้เพื่อปรับแต่งโมเดลของคุณโดยใช้ RLHF และ RLAIF เราขอแนะนำให้ทดลองใช้วิธีการต่างๆ โดยใช้ SageMaker JumpStart เพื่อเร่งกระบวนการ


เกี่ยวกับผู้เขียน

หยุนเฟยหยุนเฟยไป๋ เป็นสถาปนิกโซลูชันอาวุโสที่ AWS ด้วยพื้นฐานด้าน AI/ML วิทยาศาสตร์ข้อมูล และการวิเคราะห์ Yunfei ช่วยให้ลูกค้าเลือกใช้บริการของ AWS เพื่อส่งมอบผลลัพธ์ทางธุรกิจ เขาออกแบบโซลูชัน AI/ML และการวิเคราะห์ข้อมูลที่เอาชนะความท้าทายด้านเทคนิคที่ซับซ้อนและขับเคลื่อนวัตถุประสงค์เชิงกลยุทธ์ หยุนเฟยสำเร็จการศึกษาระดับปริญญาเอกสาขาวิศวกรรมอิเล็กทรอนิกส์และไฟฟ้า นอกเวลางาน หยุนเฟยชอบอ่านหนังสือและฟังเพลง

เอลาด_โฟโต้เอลาด ดเว็ก เป็นผู้จัดการเทคโนโลยีการก่อสร้างที่ Amazon ด้วยพื้นฐานด้านการก่อสร้างและการบริหารโครงการ Elad ช่วยให้ทีมนำเทคโนโลยีใหม่และกระบวนการที่อิงข้อมูลมาใช้ในการส่งมอบโครงการก่อสร้าง เขาระบุความต้องการและแนวทางแก้ไข และอำนวยความสะดวกในการพัฒนาคุณลักษณะที่ตรงตามความต้องการ เอลาดสำเร็จการศึกษาระดับปริญญาโทสาขาบริหารธุรกิจและปริญญาตรีสาขาวิศวกรรมโครงสร้าง นอกเหนือจากการทำงาน เอลาดชอบเล่นโยคะ ทำงานไม้ และท่องเที่ยวกับครอบครัว

ลูก้า_ภาพถ่ายลูก้า เซราโบน เป็นวิศวกรระบบธุรกิจอัจฉริยะที่ Amazon จากภูมิหลังของเขาในด้านวิทยาศาสตร์ข้อมูลและการวิเคราะห์ Luca สร้างสรรค์โซลูชันทางเทคนิคที่ปรับแต่งให้ตรงกับความต้องการเฉพาะของลูกค้า ขับเคลื่อนพวกเขาไปสู่กระบวนการที่ยั่งยืนและปรับขนาดได้มากขึ้น ด้วยปริญญาโทสาขาวิทยาศาสตร์ข้อมูล Luca สนุกกับการทำโปรเจ็กต์ DIY ทำสวน และทดลองทำอาหารในช่วงเวลาว่าง

จุด_img

ข่าวกรองล่าสุด

จุด_img

แชทกับเรา

สวัสดี! ฉันจะช่วยคุณได้อย่างไร?