Kecerdasan Data Generatif

Tingkatkan kinerja LLM dengan umpan balik manusia dan AI di Amazon SageMaker untuk Amazon Engineering | Layanan Web Amazon

Tanggal:

Tim Desain dan Konstruksi Amazon EU (Amazon D&C) adalah tim teknik yang merancang dan membangun gudang Amazon. Tim menavigasi dokumen dalam jumlah besar dan menemukan informasi yang tepat untuk memastikan desain gudang memenuhi standar tertinggi. Di pos Solusi generatif yang didukung AI di Amazon SageMaker untuk membantu Desain dan Konstruksi Amazon UE, kami menyajikan solusi bot penjawab pertanyaan menggunakan a Pengambilan Augmented Generation (RAG) pipa dengan fine-tuned model bahasa besar (LLM) agar Amazon D&C secara efisien mengambil informasi akurat dari sejumlah besar dokumen yang tidak terorganisir, dan memberikan layanan tepat waktu dan berkualitas tinggi dalam proyek konstruksi mereka. Tim Amazon D&C menerapkan solusi ini dalam uji coba untuk para insinyur Amazon dan mengumpulkan umpan balik pengguna.

Dalam postingan ini, kami berbagi bagaimana kami menganalisis data umpan balik dan mengidentifikasi batasan akurasi dan halusinasi yang diberikan RAG, dan menggunakan skor evaluasi manusia untuk melatih model melalui penguatan pembelajaran. Untuk meningkatkan sampel pelatihan agar pembelajaran lebih baik, kami juga menggunakan LLM lain untuk menghasilkan skor umpan balik. Metode ini mengatasi keterbatasan RAG dan semakin meningkatkan kualitas respons bot. Kami menyajikan proses pembelajaran penguatan dan hasil benchmarking untuk menunjukkan peningkatan kinerja LLM. Solusinya menggunakan Mulai Lompatan Amazon SageMaker sebagai layanan inti untuk penerapan model, penyesuaian, dan pembelajaran penguatan.

Kumpulkan masukan dari para insinyur Amazon dalam proyek percontohan

Setelah mengembangkan solusi yang dijelaskan dalam Solusi generatif yang didukung AI di Amazon SageMaker untuk membantu Desain dan Konstruksi Amazon UE, tim Amazon D&C menerapkan solusi dan menjalankan proyek percontohan dengan para insinyur Amazon. Para insinyur mengakses sistem percontohan melalui aplikasi web yang dikembangkan oleh merampingkan, terhubung dengan pipa RAG. Di dalam pipa, kami menggunakan Layanan Pencarian Terbuka Amazon untuk database vektor, dan menerapkan model Mistral-7B-Instruct yang telah disesuaikan di Amazon SageMaker.

Salah satu tujuan utama uji coba ini adalah mengumpulkan umpan balik dari para insinyur Amazon dan menggunakan umpan balik tersebut untuk lebih mengurangi halusinasi LLM. Untuk mencapai hal ini, kami mengembangkan modul pengumpulan umpan balik di UI, seperti yang ditunjukkan pada gambar berikut, dan menyimpan informasi sesi web dan umpan balik pengguna di Amazon DynamoDB. Melalui UI pengumpulan umpan balik, teknisi Amazon dapat memilih dari lima tingkat kepuasan: sangat tidak setuju, tidak setuju, netral, setuju, dan sangat setuju, sesuai dengan skor umpan balik dari 1–5. Mereka juga dapat memberikan jawaban yang lebih baik atas pertanyaan atau komentar mengapa respons LLM tidak memuaskan.

UI umpan balik manusia

Selama uji coba, pengguna memberikan 118 tanggapan umpan balik. Bagan berikut menunjukkan distribusi dari negatif ke positif. Kami mengamati jawaban yang salah yang ditandai dengan tanggapan negatif (tidak setuju dan sangat tidak setuju) berjumlah 45% dari total tanggapan (53 dari 118). Beberapa kesalahan (sekitar 10% dari masukan negatif dan 7.5% dari keseluruhan tanggapan) dapat diatasi dengan pendidikan pengguna dan rekayasa yang cepat. Selain itu, kita dapat mengatasi masalah ini dengan solusi pembelajaran penyempurnaan dan penguatan LLM, yang dijelaskan di bagian berikutnya.

Umpan balik pengguna dari pilot

Beberapa pengguna hanya meninggalkan catatan, seperti “Hebat!” untuk jawaban sangat setuju, atau “Tidak menjawab pertanyaan”, untuk jawaban sangat tidak setuju. Pengguna lain memberikan skor dan menjelaskan bagaimana mereka membenarkan jawaban LLM dalam catatan mereka. Dalam contoh berikut, pengguna secara khusus menyediakan dokumen dan konten yang memadai untuk memperbaiki halusinasi LLM.

Pertanyaan Berapa banyak tempat parkir mobil yang kita miliki?
Jawaban Bot

Berdasarkan konteks yang diberikan, kami tidak memiliki informasi yang cukup untuk menentukan jumlah tempat parkir mobil. Konteksnya membahas ukuran minimum ruang parkir dan persyaratan tingkat pencahayaan eksternal, namun tidak memberikan jumlah ruang parkir tertentu.

**Anda dapat merujuk pada penjelasan lebih lanjut pada sumber berikut:**

* ARS GEN 10.0/05.01.02. Kriteria Desain & Lampiran/Paket Kinerja AR Kriteria Desain yang Dapat Diurutkan v20.1.1.pdf – halaman: 10

* ARS GEN 10.0/05.01.02. Kriteria Desain & Lampiran/Paket Kinerja AR Kriteria Desain yang Dapat Diurutkan v20.1.1.pdf – halaman: 79

Skor pengguna Sangat tidak setuju
Catatan pengguna Hal ini ditentukan pada halaman 21 kriteria desain bagian 01 13 10

Tingkatkan respons bot dengan penyesuaian yang diawasi dan pembelajaran penguatan

Solusinya terdiri dari tiga langkah penyesuaian:

  1. Lakukan penyesuaian yang diawasi menggunakan data berlabel. Metode ini dijelaskan dalam Solusi generatif yang didukung AI di Amazon SageMaker untuk membantu Desain dan Konstruksi Amazon UE.
  2. Kumpulkan umpan balik pengguna untuk memberi label pada pasangan pertanyaan-jawaban untuk penyetelan LLM lebih lanjut.
  3. Saat data pelatihan sudah siap, sesuaikan lebih lanjut model yang digunakan penguatan belajar dari umpan balik manusia (RLHF).

RLHF banyak digunakan di seluruh aplikasi kecerdasan buatan generatif (AI) dan LLM. Ini menggabungkan umpan balik manusia dalam fungsi penghargaan dan melatih model dengan algoritma pembelajaran penguatan untuk memaksimalkan penghargaan, yang membuat model melakukan tugas lebih selaras dengan tujuan manusia. Diagram berikut menunjukkan alur langkah-langkahnya.

Menyempurnakan alur kerja

Kami menguji metodologi menggunakan dokumen Amazon D&C dengan model Mistral-7B di SageMaker JumpStart.

Penyempurnaan yang diawasi

Pada postingan sebelumnya, kami mendemonstrasikan bagaimana model Falcon-7B yang telah disempurnakan mengungguli pipeline RAG dan meningkatkan kualitas serta akurasi respons bot QA. Untuk postingan ini, kami melakukan penyempurnaan terawasi pada model Mistral-7B. Supervisory fine-tuning menggunakan teknik PEFT/LoRA (LoRA_r = 512, LoRA_alpha = 1024) pada 436,207,616 parameter (5.68% dari total 7,677,964,288 parameter). Pelatihan dilakukan pada node p3.8x dengan 137 sampel yang dihasilkan secara sintetis oleh LLM dan divalidasi oleh manusia; prosesnya terkonvergensi dengan baik setelah 20 epoch, seperti yang ditunjukkan pada gambar berikut.

Proses pelatihan SFT

Model yang disempurnakan divalidasi oleh 274 sampel, dan hasil inferensi dibandingkan dengan jawaban referensi berdasarkan skor kesamaan semantik. Skornya adalah 0.8100, lebih tinggi dari skor RAG tradisional sebesar 0.6419.

Kumpulkan umpan balik manusia dan AI untuk pembelajaran penguatan

Bagi RLHF, jumlah sampel pelatihan berkualitas tinggi yang diberi label oleh ahli materi pelajaran (UKM) dalam jumlah yang memadai sangatlah penting. Namun, label manusia berkualitas buruk kemungkinan akan menyebabkan performa model lebih buruk dibandingkan model asli setelah pelatihan RLHF. Saatnya UKM adalah sumber daya yang langka di organisasi mana pun; meninjau ratusan atau ribuan tanggapan LLM dan memberikan umpan balik memerlukan investasi waktu yang signifikan dari UKM yang mungkin tidak memiliki laba atas investasi yang jelas.

Untuk mengatasi tantangan ini, kami mengadopsi pembelajaran penguatan dari umpan balik AI (RLAIF). RLAIF mempekerjakan asisten AI (LLM lain) untuk memberikan skor evaluasi, bukan dari manusia. Dalam pendekatan pembelajaran hibrid ini, agen pembelajaran menyempurnakan tindakan tidak hanya berdasarkan interaksi dengan manusia tetapi juga berdasarkan umpan balik yang diberikan oleh model AI lainnya. Menyediakan data pelatihan yang memadai untuk pembelajaran penguatan akan jauh lebih terukur, dan tidak terlalu subjektif karena pelatihan tidak bergantung pada preferensi tertentu dari sekelompok kecil UKM. UKM mungkin masih dilibatkan, namun hanya untuk mengawasi proses dan memeriksa kualitas umpan balik AI. Hal ini sangat mengurangi beban kerja UKM, karena skor dan label yang dihasilkan AI jauh lebih mudah untuk dianalisis, difilter, dan disortir oleh UKM.

Dalam kasus penggunaan ini, kami memberikan perintah berikut ke model Anthropic Claude 2 untuk menghasilkan skor evaluasi sebagai sampel pelatihan untuk langkah pembelajaran penguatan:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

Model Claude 2 menghasilkan skor evaluasi dan komentar mengapa skor tersebut diberikan, seperti yang ditunjukkan pada contoh berikut.

Pertanyaan Apa yang dimaksud dengan 'Fit Out Works' dalam konteks ini?
Jawaban Referensi Pekerjaan Fit Out mengacu pada Pekerjaan yang dilakukan berdasarkan kontrak konstruksi oleh atau atas nama Amazon melalui Pengembang hingga Tanggal Penerimaan Pertama dari posisi pembangunan Basis Inti & Shell Pengembang. Karya-karya ini mencakup Fit-Out yang diperlukan Amazon, instalasi kotak besar, dan kustom
Respons Bot QA Pekerjaan Fit Out mengacu pada Pekerjaan yang dilakukan berdasarkan kontrak konstruksi oleh atau atas nama Amazon melalui Pengembang hingga Tanggal Penerimaan Pertama dari posisi pembangunan Basis Inti & Shell Pengembang.
skor AI 4.5
komentar AI Jawaban mesin memberikan informasi penting dari jawaban standar – bahwa Fit Out Works mengacu pada Pekerjaan yang dilakukan berdasarkan kontrak konstruksi oleh atau atas nama Amazon melalui Pengembang hingga Tanggal Penerimaan Pertama dari posisi pembangunan Shell & Basis Inti Pengembang yang nosional . Detail tambahan tentang menyertakan Fit-Out yang diperlukan Amazon, instalasi besar-besaran, dan penyesuaian relevan dan membantu memberikan konteks lebih lanjut, jadi saya memberi skor pada jawaban mesin 4.5 dari 5. Ini menangkap inti dari jawaban standar dan memberikan beberapa detail tambahan yang berguna.

Dari 274 pertanyaan validasi, model yang diawasi menghasilkan 159 respons yang memiliki skor AI lebih besar dari 4. Kami mengamati 60 jawaban dengan skor lebih rendah dari 3; ada ruang untuk meningkatkan kualitas respons secara keseluruhan.

Skor umpan balik sebelum RLHF

UKM Amazon Engineering memvalidasi masukan AI ini dan mengakui manfaat penggunaan skor AI. Tanpa umpan balik AI, UKM akan memerlukan waktu untuk meninjau dan menganalisis setiap respons LLM untuk mengidentifikasi jawaban dan halusinasi yang tidak tepat, dan untuk menilai apakah LLM mengembalikan konten dan konsep utama yang benar. Umpan balik AI memberikan skor AI secara otomatis dan memungkinkan UKM menggunakan pemfilteran, pengurutan, dan pengelompokan untuk memvalidasi skor dan mengidentifikasi tren dalam respons. Hal ini mengurangi waktu peninjauan rata-rata UKM sebesar 80%.

Pembelajaran penguatan dari umpan balik manusia dan AI

Ketika sampel pelatihan sudah siap, kami menggunakan algoritma optimasi kebijakan proksimal (PPO). untuk melakukan pembelajaran penguatan. PPO menggunakan metode gradien kebijakan, yang mengambil langkah-langkah kecil untuk memperbarui kebijakan dalam proses pembelajaran, sehingga agen pembelajaran dapat mencapai jaringan kebijakan yang optimal secara andal. Hal ini membuat proses pelatihan lebih stabil dan mengurangi kemungkinan perbedaan.

Selama pelatihan, pertama-tama kami menggunakan data berlabel manusia dan AI untuk membangun model penghargaan, yang akan digunakan untuk memandu pembaruan bobot dalam proses pembelajaran. Untuk kasus penggunaan ini, kami memilih model imbalan berbasis distilroberta dan melatihnya dengan sampel dalam format berikut:

[Instruction, Chosen_response, Rejected_response]

Berikut ini adalah contoh catatan pelatihan.

Pengajaran Berdasarkan konteksnya, apa yang dimaksud dengan desain inklusif dan aksesibel?
Terpilih_respons BREEAM Credit HEA06 – desain inklusif dan mudah diakses – Bangunan dirancang agar sesuai dengan tujuan, sesuai dan dapat diakses oleh semua pengguna potensial. Strategi akses dikembangkan sejalan dengan Daftar Periksa BREEAM A3
Ditolak_respons Konteksnya menyatakan bahwa

Model reward dilatih dengan kecepatan pembelajaran 1e-5. Seperti yang ditunjukkan pada bagan berikut, sumur pelatihan menyatu setelah 10 epoch.

Proses pelatihan RLHF

Kemudian model reward digunakan untuk pembelajaran penguatan. Untuk kasus penggunaan ini, kami menggunakan PEFT/LoRA untuk mempercepat pembelajaran. LoRA_r adalah 32 dan LoRA_alpha adalah 64. Pembelajaran berbasis PPO berada pada kecepatan 1.41e-5 dalam tiga epoch. Pelatihan penguatan sangat fluktuatif dan sangat sensitif terhadap data label dan data umpan balik. Kami menggunakan metrik reward_mean, yaitu rata-rata reward yang diperoleh dari lingkungan dengan memantau model reward secara khusus, untuk mengamati proses pembelajaran.

Setelah RLAIF, kita dapat melihat jumlah respons bot dengan skor positif (di atas 3) meningkat dari 78.1% menjadi 85.5%, dan respons bot dengan skor negatif (di bawah 3) menurun dari 21.9% menjadi 14.5%. Secara total, rata-rata skor umpan balik AI meningkat hingga 8%, dari 3.9 menjadi 4.2.

Perbaikan oleh RLAIF

Anda dapat melihat peningkatannya pada contoh berikut.

Pertanyaan Untuk area lantai yang diberi ubin, screed apa yang dibutuhkan?
Referensi Lantai Screed Beton hanya berlaku di area lantai keramik. Lihat gambar seri A-32 untuk melihat di mana ubin lantai dapat diterapkan.
Respons bot sebelum RLAIF Lantai Screed Beton hanya berlaku di
Skor AI sebelum RLAIF 3
Respons bot setelah RLAIF Lantai Screed Beton hanya berlaku di area yang diberi ubin. Lihat gambar seri A-32 untuk melihat di mana lantai ubin dapat diterapkan.
Skor AI setelah RLAIF 4.5

Kesimpulan

Postingan ini merupakan kelanjutan dari pekerjaan kami dengan tim Desain dan Konstruksi Amazon EU seperti yang dibahas di Solusi generatif yang didukung AI di Amazon SageMaker untuk membantu Desain dan Konstruksi Amazon UE. Dalam postingan ini, kami menunjukkan bagaimana kami menghasilkan data umpan balik manusia dan AI untuk menyempurnakan model Mistral-7B dengan pembelajaran penguatan. Model setelah RLAIF memberikan kinerja yang lebih baik untuk bot penjawab pertanyaan Amazon Engineering, meningkatkan skor umpan balik AI sebesar 8%. Dalam proyek percontohan tim Amazon D&C, penggunaan RLAIF mengurangi beban kerja validasi untuk UKM sekitar 80%. Sebagai langkah berikutnya, kami akan meningkatkan solusi ini dengan menghubungkan infrastruktur data Amazon Engineering, dan merancang kerangka kerja untuk mengotomatisasi proses pembelajaran berkelanjutan dengan manusia yang terlibat. Kami juga akan lebih meningkatkan kualitas umpan balik AI dengan menyesuaikan template prompt.

Melalui proses ini, kami belajar bagaimana meningkatkan kualitas dan kinerja tugas menjawab pertanyaan melalui RLHF dan RLAIF.

  • Validasi dan augmentasi manusia sangat penting untuk memberikan keluaran LLM yang akurat dan bertanggung jawab. Umpan balik manusia dapat digunakan di RLHF untuk lebih meningkatkan respons model.
  • RLAIF mengotomatiskan siklus evaluasi dan pembelajaran. Umpan balik yang dihasilkan AI kurang subjektif karena tidak bergantung pada preferensi tertentu dari sekelompok kecil UKM.
  • RLAIF lebih terukur untuk meningkatkan kualitas bot melalui pembelajaran penguatan berkelanjutan sambil meminimalkan upaya yang diperlukan dari UKM. Hal ini sangat berguna untuk mengembangkan solusi AI generatif khusus domain dalam organisasi besar.
  • Proses ini harus dilakukan secara rutin, terutama ketika data domain baru tersedia untuk dicakup oleh solusi.

Dalam kasus penggunaan ini, kami menggunakan SageMaker JumpStart untuk menguji beberapa LLM dan bereksperimen dengan beberapa pendekatan pelatihan LLM. Hal ini secara signifikan mempercepat umpan balik dan siklus pembelajaran AI dengan efisiensi dan kualitas maksimal. Untuk proyek Anda sendiri, Anda dapat memperkenalkan pendekatan human-in-the-loop untuk mengumpulkan masukan pengguna, atau menghasilkan masukan AI menggunakan LLM lain. Kemudian Anda dapat mengikuti proses tiga langkah yang ditentukan dalam postingan ini untuk menyempurnakan model Anda menggunakan RLHF dan RLAIF. Kami merekomendasikan bereksperimen dengan metode menggunakan SageMaker JumpStart untuk mempercepat prosesnya.


tentang Penulis

YunfeiYun Fei Bai adalah Arsitek Solusi Senior di AWS. Dengan latar belakang AI/ML, ilmu data, dan analitik, Yunfei membantu pelanggan mengadopsi layanan AWS untuk memberikan hasil bisnis. Dia merancang AI/ML dan solusi analitik data yang mengatasi tantangan teknis yang rumit dan mendorong tujuan strategis. Yunfei memiliki gelar PhD di bidang Teknik Elektronik dan Listrik. Di luar pekerjaan, Yunfei menikmati membaca dan musik.

Elad_fotoElad Dwek adalah Manajer Teknologi Konstruksi di Amazon. Dengan latar belakang konstruksi dan manajemen proyek, Elad membantu tim mengadopsi teknologi baru dan proses berbasis data untuk menyelesaikan proyek konstruksi. Dia mengidentifikasi kebutuhan dan solusi, serta memfasilitasi pengembangan atribut yang dipesan lebih dahulu. Elad memiliki gelar MBA dan BSc di bidang Teknik Struktural. Di luar pekerjaan, Elad menikmati yoga, pertukangan kayu, dan jalan-jalan bersama keluarganya.

Luca_fotoLuca Cerabone adalah Insinyur Intelijen Bisnis di Amazon. Berdasarkan latar belakangnya di bidang ilmu data dan analitik, Luca merancang solusi teknis yang disesuaikan untuk memenuhi kebutuhan unik pelanggannya, mendorong mereka menuju proses yang lebih berkelanjutan dan terukur. Berbekal gelar MSc dalam Ilmu Data, Luca senang terlibat dalam proyek DIY, berkebun, dan bereksperimen dengan kuliner di waktu senggangnya.

tempat_img

Intelijen Terbaru

tempat_img

Hubungi kami

Hai, yang di sana! Apa yang bisa saya bantu?