Trí thông minh dữ liệu tạo

Cải thiện hiệu suất LLM bằng phản hồi của con người và AI trên Amazon SageMaker for Amazon Engineering | Dịch vụ web của Amazon

Ngày:

Nhóm Thiết kế và Xây dựng của Amazon EU (Amazon D&C) là nhóm kỹ thuật thiết kế và xây dựng các nhà kho của Amazon. Nhóm điều hướng một khối lượng lớn tài liệu và tìm đúng thông tin để đảm bảo thiết kế nhà kho đáp ứng các tiêu chuẩn cao nhất. trong bài viết Một giải pháp tổng hợp được hỗ trợ bởi AI trên Amazon SageMaker để hỗ trợ Thiết kế và Xây dựng của Amazon EU, chúng tôi đã trình bày giải pháp bot trả lời câu hỏi bằng cách sử dụng Truy xuất thế hệ tăng cường (RAG) đường ống được tinh chỉnh mô hình ngôn ngữ lớn (LLM) để Amazon D&C truy xuất thông tin chính xác một cách hiệu quả từ một khối lượng lớn tài liệu chưa được sắp xếp và cung cấp dịch vụ kịp thời và chất lượng cao trong các dự án xây dựng của họ. Nhóm Amazon D&C đã triển khai thử nghiệm giải pháp này cho các kỹ sư của Amazon và thu thập phản hồi của người dùng.

Trong bài đăng này, chúng tôi chia sẻ cách chúng tôi phân tích dữ liệu phản hồi và xác định các hạn chế về độ chính xác cũng như ảo giác mà RAG cung cấp, đồng thời sử dụng điểm đánh giá của con người để đào tạo mô hình thông qua học tăng cường. Để tăng các mẫu đào tạo giúp học tập tốt hơn, chúng tôi cũng sử dụng một LLM khác để tạo điểm phản hồi. Phương pháp này giải quyết được hạn chế của RAG và cải thiện hơn nữa chất lượng phản hồi của bot. Chúng tôi trình bày quá trình học tăng cường và kết quả đo điểm chuẩn để chứng minh sự cải thiện hiệu suất LLM. Giải pháp sử dụng Khởi động Amazon SageMaker là dịch vụ cốt lõi để triển khai mô hình, tinh chỉnh và học tập tăng cường.

Thu thập phản hồi từ các kỹ sư của Amazon trong một dự án thí điểm

Sau khi phát triển giải pháp được mô tả trong Một giải pháp tổng hợp được hỗ trợ bởi AI trên Amazon SageMaker để hỗ trợ Thiết kế và Xây dựng của Amazon EU, nhóm Amazon D&C đã triển khai giải pháp và chạy một dự án thí điểm với các kỹ sư của Amazon. Các kỹ sư đã truy cập hệ thống thí điểm thông qua một ứng dụng web được phát triển bởi Hợp lý hóa, được kết nối với đường ống RAG. Trong quy trình, chúng tôi đã sử dụng Dịch vụ Tìm kiếm Mở của Amazon cho cơ sở dữ liệu vectơ và triển khai mô hình Mistral-7B-Instruct được tinh chỉnh trên Amazon SageMaker.

Một trong những mục tiêu chính của chương trình thí điểm là thu thập phản hồi từ các kỹ sư của Amazon và sử dụng phản hồi đó để giảm bớt ảo giác LLM hơn nữa. Để đạt được điều này, chúng tôi đã phát triển mô-đun thu thập phản hồi trong giao diện người dùng, như minh họa trong hình dưới đây và lưu trữ thông tin phiên web cũng như phản hồi của người dùng trong Máy phát điện Amazon. Thông qua giao diện người dùng thu thập phản hồi, các kỹ sư của Amazon có thể chọn trong số năm mức độ hài lòng: hoàn toàn không đồng ý, không đồng ý, trung lập, đồng ý và hoàn toàn đồng ý, tương ứng với điểm phản hồi từ 1–5. Họ cũng có thể đưa ra câu trả lời tốt hơn cho câu hỏi hoặc nhận xét về lý do tại sao phản hồi LLM không thỏa đáng.

giao diện người dùng phản hồi của con người

Trong quá trình thí điểm, người dùng đã cung cấp 118 phản hồi phản hồi. Biểu đồ sau đây cho thấy sự phân bổ từ âm sang dương. Chúng tôi quan sát thấy các câu trả lời sai được đánh dấu bằng phản hồi tiêu cực (không đồng ý và hoàn toàn không đồng ý) chiếm 45% trong tổng số phản hồi (53 trên 118). Một số lỗi (khoảng 10% phản hồi tiêu cực và 7.5% phản hồi tổng thể) có thể được giải quyết bằng cách đào tạo người dùng và kỹ thuật nhanh chóng. Ngoài ra, chúng ta có thể giải quyết vấn đề bằng giải pháp tinh chỉnh và học tăng cường LLM, được mô tả trong phần tiếp theo.

Phản hồi của người dùng từ thí điểm

Một số người dùng chỉ để lại ghi chú, chẳng hạn như “Tuyệt vời!” cho những câu trả lời hoàn toàn đồng ý hoặc “Không trả lời câu hỏi” cho những câu trả lời hoàn toàn không đồng ý. Những người dùng khác đã cung cấp điểm số và giải thích cách họ biện minh cho các câu trả lời LLM trong ghi chú của họ. Trong ví dụ sau, người dùng đã cung cấp cụ thể tài liệu và nội dung đầy đủ để khắc phục ảo giác LLM.

câu hỏi Chúng ta có bao nhiêu chỗ đậu xe?
Trả lời của Bot

Dựa trên bối cảnh nhất định, chúng tôi không có đủ thông tin để xác định số lượng chỗ đỗ xe. Bối cảnh thảo luận về kích thước tối thiểu của chỗ đỗ xe và các yêu cầu về mức độ chiếu sáng bên ngoài, nhưng nó không cung cấp số lượng chỗ đỗ xe cụ thể.

**Bạn có thể tham khảo thêm phần giải thích ở các nguồn sau:**

* ARS THẾ HỆ 10.0/05.01.02. Tiêu chí thiết kế & Phụ lục/Gói hiệu suất AR Tiêu chí thiết kế có thể sắp xếp v20.1.1.pdf – trang: 10

* ARS THẾ HỆ 10.0/05.01.02. Tiêu chí thiết kế & Phụ lục/Gói hiệu suất AR Tiêu chí thiết kế có thể sắp xếp v20.1.1.pdf – trang: 79

Điểm người dùng Mạnh mẽ phủ quyết
Ghi chú của người dùng Điều này được quy định ở trang 21 của tiêu chí thiết kế phần 01 13 10

Cải thiện phản hồi của bot bằng tính năng học tăng cường và tinh chỉnh có giám sát

Giải pháp bao gồm ba bước tinh chỉnh:

  1. Tiến hành tinh chỉnh có giám sát bằng cách sử dụng dữ liệu được gắn nhãn. Phương pháp này đã được mô tả ở Một giải pháp tổng hợp được hỗ trợ bởi AI trên Amazon SageMaker để hỗ trợ Thiết kế và Xây dựng của Amazon EU.
  2. Thu thập phản hồi của người dùng để gắn nhãn cho các cặp câu hỏi-câu trả lời để điều chỉnh LLM thêm.
  3. Khi dữ liệu huấn luyện đã sẵn sàng, hãy điều chỉnh thêm mô hình bằng cách sử dụng tăng cường học hỏi từ phản hồi của con người (RLHF).

RLHF được sử dụng rộng rãi trong các ứng dụng trí tuệ nhân tạo tổng quát (AI) và LLM. Nó kết hợp phản hồi của con người trong chức năng khen thưởng và huấn luyện mô hình bằng thuật toán học tăng cường để tối đa hóa phần thưởng, giúp mô hình thực hiện các nhiệm vụ phù hợp hơn với mục tiêu của con người. Sơ đồ sau đây cho thấy quy trình của các bước.

Tinh chỉnh quy trình làm việc

Chúng tôi đã thử nghiệm phương pháp này bằng tài liệu Amazon D&C với mô hình Mistral-7B trên SageMaker JumpStart.

Tinh chỉnh có giám sát

Trong bài đăng trước, chúng tôi đã trình bày cách mô hình Falcon-7B được tinh chỉnh hoạt động tốt hơn đường ống RAG và cải thiện chất lượng cũng như độ chính xác của phản hồi của bot QA. Đối với bài đăng này, chúng tôi đã thực hiện tinh chỉnh có giám sát trên mô hình Mistral-7B. Việc tinh chỉnh có giám sát đã sử dụng kỹ thuật PEFT/LoRA (LoRA_r = 512, LoRA_alpha = 1024) trên 436,207,616 tham số (5.68% trong tổng số 7,677,964,288 tham số). Quá trình đào tạo được thực hiện trên nút p3.8x với 137 mẫu do LLM tổng hợp tạo ra và được con người xác nhận; quá trình này được hội tụ tốt sau 20 kỷ nguyên, như thể hiện trong hình dưới đây.

Quá trình đào tạo SFT

Mô hình tinh chỉnh đã được xác thực bằng 274 mẫu và kết quả suy luận được so sánh với các câu trả lời tham chiếu bằng điểm tương tự về ngữ nghĩa. Điểm là 0.8100, cao hơn điểm 0.6419 của RAG truyền thống.

Thu thập phản hồi của con người và AI để học tăng cường

Đối với RLHF, cần có đủ số lượng mẫu đào tạo chất lượng cao được các chuyên gia về chủ đề (SME) dán nhãn. Tuy nhiên, nhãn do con người cung cấp chất lượng kém có thể sẽ gây ra hiệu suất mô hình kém hơn mô hình ban đầu sau khi đào tạo RLHF. Thời của SME là một nguồn lực khan hiếm trong bất kỳ tổ chức nào; việc xem xét hàng trăm hoặc hàng nghìn phản hồi LLM và cung cấp phản hồi đòi hỏi một khoản đầu tư thời gian đáng kể từ các doanh nghiệp vừa và nhỏ có thể không có lợi tức đầu tư rõ ràng.

Để giải quyết thách thức này, chúng tôi đã áp dụng học tăng cường từ phản hồi của AI (RLAIF) phương pháp. RLAIF sử dụng trợ lý AI (một LLM khác) để cung cấp điểm đánh giá chứ không phải từ con người. Trong phương pháp học tập kết hợp này, tác nhân học tập sẽ tinh chỉnh các hành động không chỉ dựa trên sự tương tác với con người mà còn từ phản hồi do một mô hình AI khác cung cấp. Việc cung cấp đủ dữ liệu đào tạo cho học tập tăng cường sẽ có khả năng mở rộng dễ dàng hơn nhiều và ít chủ quan hơn nhiều vì việc đào tạo không phụ thuộc vào sở thích cụ thể của một nhóm nhỏ các doanh nghiệp vừa và nhỏ. Các doanh nghiệp vừa và nhỏ vẫn có thể tham gia nhưng chỉ để giám sát quá trình và kiểm tra chất lượng phản hồi AI. Điều này giúp giảm đáng kể khối lượng công việc của các doanh nghiệp vừa và nhỏ vì điểm số và nhãn do AI tạo ra ít phức tạp hơn nhiều đối với các doanh nghiệp vừa và nhỏ trong việc phân tích, lọc và sắp xếp.

Trong trường hợp sử dụng này, chúng tôi cung cấp lời nhắc sau cho mô hình Anthropic Claude 2 để tạo điểm đánh giá làm mẫu đào tạo cho bước học tăng cường:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

Mô hình Claude 2 tạo ra điểm đánh giá và nhận xét về lý do đưa ra điểm đó, như trong ví dụ sau.

câu hỏi 'Fit Out Works' có nghĩa là gì trong bối cảnh này?
Câu trả lời tham khảo Fit Out Works đề cập đến Công việc được thực hiện theo hợp đồng xây dựng bởi hoặc thay mặt Amazon thông qua Nhà phát triển cho đến Ngày nhận đầu tiên từ vị trí xây dựng cơ sở cốt lõi & vỏ vỏ danh nghĩa của nhà phát triển. Những Tác phẩm này bao gồm các Fit-Out được yêu cầu của Amazon, các bản cài đặt hộp lớn và các sản phẩm tùy chỉnh
Phản hồi của Bot QA Fit Out Works đề cập đến Công việc được thực hiện theo hợp đồng xây dựng bởi hoặc thay mặt Amazon thông qua Nhà phát triển cho đến Ngày nhận đầu tiên từ vị trí xây dựng cơ sở cốt lõi & vỏ vỏ danh nghĩa của nhà phát triển.
Điểm AI 4.5
Bình luận AI Câu trả lời của máy cung cấp thông tin chính từ câu trả lời tiêu chuẩn – rằng Fit Out Works đề cập đến Công việc được thực hiện theo hợp đồng xây dựng bởi hoặc thay mặt Amazon thông qua Nhà phát triển cho đến Ngày nhận đầu tiên từ vị trí xây dựng cơ sở Shell & Core cơ bản danh nghĩa của Nhà phát triển . Các chi tiết bổ sung về việc bao gồm Fit-Outs bắt buộc của Amazon, cài đặt hộp lớn và các tùy chỉnh đều có liên quan và giúp cung cấp thêm ngữ cảnh, vì vậy tôi đã chấm cho câu trả lời của máy 4.5 trên 5. Nó nắm bắt được bản chất của câu trả lời tiêu chuẩn và cung cấp một số chi tiết bổ sung hữu ích.

Trong số 274 câu hỏi xác thực, mô hình tinh chỉnh có giám sát đã tạo ra 159 câu trả lời có điểm AI lớn hơn 4. Chúng tôi quan sát thấy 60 câu trả lời có điểm thấp hơn 3; có không gian để cải thiện chất lượng phản hồi tổng thể.

Điểm phản hồi trước RLHF

Các doanh nghiệp vừa và nhỏ của Amazon Engineering đã xác thực phản hồi AI này và thừa nhận lợi ích của việc sử dụng điểm AI. Nếu không có phản hồi của AI, các doanh nghiệp vừa và nhỏ sẽ cần một thời gian để xem xét và phân tích từng phản hồi LLM để xác định các câu trả lời giới hạn và ảo giác, đồng thời đánh giá xem liệu LLM có trả về nội dung và khái niệm chính chính xác hay không. Phản hồi của AI tự động cung cấp điểm AI và cho phép các doanh nghiệp vừa và nhỏ sử dụng tính năng lọc, sắp xếp và nhóm để xác thực điểm số và xác định xu hướng trong các phản hồi. Điều này giúp giảm 80% thời gian xem xét trung bình của SME.

Học tăng cường từ phản hồi của con người và AI

Khi các mẫu huấn luyện đã sẵn sàng, chúng ta sử dụng thuật toán tối ưu hóa chính sách gần nhất (PPO) để thực hiện việc học tăng cường. PPO sử dụng phương pháp gradient chính sách, thực hiện các bước nhỏ để cập nhật chính sách trong quá trình học tập, để các tác nhân học tập có thể tiếp cận mạng chính sách tối ưu một cách đáng tin cậy. Điều này làm cho quá trình đào tạo ổn định hơn và giảm khả năng phân kỳ.

Trong quá trình đào tạo, trước tiên, chúng tôi sử dụng dữ liệu do con người và AI gắn nhãn để xây dựng mô hình phần thưởng. Mô hình này sẽ được sử dụng để hướng dẫn cập nhật trọng số trong quá trình học tập. Đối với trường hợp sử dụng này, chúng tôi chọn mô hình phần thưởng dựa trên distilroberta và huấn luyện nó theo mẫu theo định dạng sau:

[Instruction, Chosen_response, Rejected_response]

Sau đây là một ví dụ về hồ sơ đào tạo.

Hướng dẫn Theo ngữ cảnh, điều gì được quy định cho thiết kế toàn diện và dễ tiếp cận?
Đã chọn_phản hồi BREEAM Credit HEA06 – thiết kế toàn diện và dễ tiếp cận – Tòa nhà được thiết kế phù hợp với mục đích, phù hợp và dễ tiếp cận bởi tất cả người dùng tiềm năng. Chiến lược truy cập được phát triển phù hợp với Danh sách kiểm tra BREEAM A3
Bị từ chối_response Bối cảnh nói rằng

Mô hình phần thưởng được đào tạo với tỷ lệ học tập 1e-5. Như được hiển thị trong biểu đồ sau, quá trình đào tạo sẽ hội tụ sau 10 kỷ nguyên.

Quá trình đào tạo RLHF

Sau đó, mô hình khen thưởng được sử dụng cho việc học tăng cường. Đối với trường hợp sử dụng này, chúng tôi sử dụng PEFT/LoRA để đẩy nhanh quá trình học tập. LoRA_r là 32 và LoRA_alpha là 64. Quá trình học dựa trên PPO có tốc độ 1.41e-5 trong ba kỷ nguyên. Đào tạo tăng cường có tính biến động cao và rất nhạy cảm với dữ liệu nhãn và dữ liệu phản hồi. Chúng tôi sử dụng số liệu bonus_mean, phần thưởng trung bình thu được từ môi trường bằng cách giám sát cụ thể mô hình phần thưởng, để quan sát quá trình học tập.

Sau RLAIF, chúng ta có thể thấy số lượng phản hồi của bot có điểm tích cực (trên 3) tăng từ 78.1% lên 85.5% và những phản hồi có điểm tiêu cực (dưới 3) giảm từ 21.9% xuống 14.5%. Tổng cộng, điểm phản hồi AI trung bình tăng tới 8%, từ 3.9 lên 4.2.

Cải tiến bởi RLAIF

Bạn có thể thấy sự cải thiện trong ví dụ sau.

câu hỏi Đối với khu vực sàn được lát gạch, cần sử dụng loại vữa nào?
Tài liệu tham khảo Sàn bê tông láng chỉ được áp dụng ở những khu vực lát sàn. Tham khảo loạt bản vẽ A-32 để biết vị trí có thể áp dụng gạch lát sàn.
Phản hồi của bot trước RLAIF Sàn bê tông láng chỉ được áp dụng ở
Điểm AI trước RLAIF 3
Phản hồi của bot sau RLAIF Sàn bê tông láng chỉ được áp dụng ở những khu vực được lát gạch. Tham khảo loạt bản vẽ A-32 để biết vị trí áp dụng sàn gạch.
Điểm AI sau RLAIF 4.5

Kết luận

Bài đăng này là sự tiếp nối công việc của chúng tôi với nhóm Thiết kế và Xây dựng Amazon EU như đã thảo luận trong Một giải pháp tổng hợp được hỗ trợ bởi AI trên Amazon SageMaker để hỗ trợ Thiết kế và Xây dựng của Amazon EU. Trong bài đăng này, chúng tôi đã trình bày cách chúng tôi tạo ra dữ liệu phản hồi của con người và AI để tinh chỉnh mô hình Mistral-7B với tính năng học tăng cường. Mô hình sau RLAIF mang lại hiệu suất tốt hơn cho bot trả lời câu hỏi của Amazon Engineering, cải thiện điểm phản hồi AI lên 8%. Trong dự án thí điểm của nhóm Amazon D&C, việc sử dụng RLAIF đã giảm khối lượng công việc xác thực cho các doanh nghiệp vừa và nhỏ ước tính khoảng 80%. Bước tiếp theo, chúng tôi sẽ mở rộng giải pháp này bằng cách kết nối với cơ sở hạ tầng dữ liệu của Amazon Engineering và thiết kế một khung để tự động hóa quá trình học tập liên tục có con người tham gia. Chúng tôi cũng sẽ cải thiện hơn nữa chất lượng phản hồi AI bằng cách điều chỉnh mẫu lời nhắc.

Thông qua quá trình này, chúng tôi đã học được cách cải thiện hơn nữa chất lượng và hiệu suất của các nhiệm vụ trả lời câu hỏi thông qua RLHF và RLAIF.

  • Xác nhận và tăng cường của con người là điều cần thiết để cung cấp kết quả đầu ra chính xác và có trách nhiệm từ LLM. Phản hồi của con người có thể được sử dụng trong RLHF để cải thiện hơn nữa phản hồi của mô hình.
  • RLAIF tự động hóa chu trình đánh giá và học tập. Phản hồi do AI tạo ra ít chủ quan hơn vì nó không phụ thuộc vào sở thích cụ thể từ một nhóm nhỏ các doanh nghiệp vừa và nhỏ.
  • RLAIF có khả năng mở rộng cao hơn để cải thiện chất lượng bot thông qua việc liên tục học tăng cường đồng thời giảm thiểu những nỗ lực cần thiết từ các doanh nghiệp vừa và nhỏ. Nó đặc biệt hữu ích để phát triển các giải pháp AI tổng quát theo miền cụ thể trong các tổ chức lớn.
  • Quá trình này phải được thực hiện thường xuyên, đặc biệt là khi giải pháp có sẵn dữ liệu miền mới.

Trong trường hợp sử dụng này, chúng tôi đã sử dụng SageMaker JumpStart để kiểm tra nhiều LLM và thử nghiệm nhiều phương pháp đào tạo LLM. Nó tăng tốc đáng kể chu trình học tập và phản hồi AI với hiệu quả và chất lượng tối đa. Đối với dự án của riêng bạn, bạn có thể giới thiệu phương pháp tiếp cận con người trong vòng lặp để thu thập phản hồi của người dùng hoặc tạo phản hồi AI bằng cách sử dụng LLM khác. Sau đó, bạn có thể làm theo quy trình ba bước được xác định trong bài đăng này để tinh chỉnh các mô hình của mình bằng RLHF và RLAIF. Chúng tôi khuyên bạn nên thử nghiệm các phương pháp bằng SageMaker JumpStart để tăng tốc quá trình.


Lưu ý

Vân PhiVân Phi Bạch là Kiến trúc sư giải pháp cấp cao tại AWS. Với nền tảng về AI/ML, khoa học dữ liệu và phân tích, Yunfei giúp khách hàng áp dụng các dịch vụ AWS để mang lại kết quả kinh doanh. Ông thiết kế các giải pháp AI/ML và phân tích dữ liệu để vượt qua các thách thức kỹ thuật phức tạp và thúc đẩy các mục tiêu chiến lược. Yunfei có bằng Tiến sĩ về Kỹ thuật Điện và Điện tử. Ngoài công việc, Yunfei thích đọc sách và âm nhạc.

Elad_photoElad Dwek là Giám đốc Công nghệ Xây dựng tại Amazon. Với nền tảng về xây dựng và quản lý dự án, Elad giúp các nhóm áp dụng các công nghệ mới và quy trình dựa trên dữ liệu để thực hiện các dự án xây dựng. Anh ấy xác định các nhu cầu và giải pháp, đồng thời tạo điều kiện phát triển các thuộc tính riêng biệt. Elad có bằng MBA và bằng Cử nhân Kỹ thuật Kết cấu. Ngoài công việc, Elad thích tập yoga, làm đồ mộc và đi du lịch cùng gia đình.

Luca_photoLuca Cerabone là Kỹ sư thông minh kinh doanh tại Amazon. Dựa trên nền tảng về khoa học và phân tích dữ liệu, Luca đã tạo ra các giải pháp kỹ thuật phù hợp để đáp ứng nhu cầu riêng biệt của khách hàng, thúc đẩy họ hướng tới các quy trình bền vững và có thể mở rộng hơn. Có bằng Thạc sĩ Khoa học Dữ liệu, Luca thích tham gia vào các dự án DIY, làm vườn và thử nghiệm những thú vui ẩm thực trong những giây phút giải trí của mình.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?