Üretken Veri Zekası

Amazon Mühendisliği için Amazon SageMaker'da insan ve yapay zeka geri bildirimleriyle LLM performansını iyileştirin | Amazon Web Hizmetleri

Tarih:

Amazon AB Tasarım ve İnşaat (Amazon D&C) ekibi, Amazon depolarını tasarlayan ve inşa eden mühendislik ekibidir. Ekip, depo tasarımının en yüksek standartları karşıladığından emin olmak için büyük miktarda belgeyi inceler ve doğru bilgileri bulur. Gönderide Amazon AB Tasarım ve İnşaatına yardımcı olmak için Amazon SageMaker'da yapay zeka destekli üretken bir çözümkullanarak bir soru yanıtlayan bot çözümü sunduk. Alma Artırılmış Nesil (RAG) boru hattı ile ince ayarlı büyük dil modeli (LLM) Amazon D&C'nin büyük miktarda düzensiz belgeden doğru bilgileri verimli bir şekilde alması ve inşaat projelerinde zamanında ve yüksek kaliteli hizmetler sunması için. Amazon D&C ekibi, çözümü Amazon mühendisleri için bir pilot uygulamada uyguladı ve kullanıcı geri bildirimlerini topladı.

Bu yazıda, geri bildirim verilerini nasıl analiz ettiğimizi ve RAG'ın sağladığı doğruluk ve halüsinasyon sınırlamalarını nasıl belirlediğimizi ve modeli eğitmek için insan değerlendirme puanını nasıl kullandığımızı paylaşacağız. takviye öğrenme. Daha iyi öğrenme için eğitim örneklerini artırmak amacıyla geri bildirim puanları oluşturmak için başka bir LLM de kullandık. Bu yöntem, RAG sınırlamasını giderdi ve bot yanıt kalitesini daha da geliştirdi. LLM performans gelişimini göstermek için takviyeli öğrenme sürecini ve kıyaslama sonuçlarını sunuyoruz. Çözümün kullandığı Amazon SageMaker Hızlı Başlangıç model dağıtımı, ince ayar ve takviyeli öğrenim için temel hizmet olarak.

Bir pilot projede Amazon mühendislerinden geri bildirim toplayın

bölümünde açıklanan çözümü geliştirdikten sonra Amazon AB Tasarım ve İnşaatına yardımcı olmak için Amazon SageMaker'da yapay zeka destekli üretken bir çözümAmazon D&C ekibi çözümü devreye aldı ve Amazon mühendisleriyle bir pilot proje yürüttü. Mühendisler pilot sisteme, tarafından geliştirilen bir web uygulaması aracılığıyla erişti. AkışlıRAG boru hattına bağlı. Boru hattında kullandık Amazon Açık Arama Hizmeti vektör veritabanı için ince ayarlı bir Mistral-7B-Instruct modelini Amazon SageMaker'da devreye aldı.

Pilot çalışmanın temel hedeflerinden biri, Amazon mühendislerinden geri bildirim toplamak ve bu geri bildirimi Yüksek Lisans halüsinasyonlarını daha da azaltmak için kullanmaktır. Bunu başarmak için, aşağıdaki şekilde gösterildiği gibi kullanıcı arayüzünde bir geri bildirim toplama modülü geliştirdik ve web oturumu bilgilerini ve kullanıcı geri bildirimlerini burada sakladık. Amazon DinamoDB. Geri bildirim toplama kullanıcı arayüzü aracılığıyla Amazon mühendisleri, 1'den 5'e kadar olan geri bildirim puanlarına karşılık gelen beş memnuniyet düzeyi arasından seçim yapabilir: Kesinlikle katılmıyorum, katılmıyorum, tarafsız, katılıyorum ve kesinlikle katılıyorum. Ayrıca, LLM yanıtının neden tatmin edici olmadığı sorusuna daha iyi bir yanıt verebilir veya yorum yapabilirler.

insan geri bildirimi kullanıcı arayüzü

Pilot uygulama sırasında kullanıcılar 118 geri bildirim yanıtı sağladı. Aşağıdaki grafik negatiften pozitife doğru dağılımı göstermektedir. Olumsuz geri bildirimle işaretlenen yanlış cevapların (katılmıyorum ve kesinlikle katılmıyorum) toplam geri bildirimde %45 (53 üzerinden 118) olduğunu gözlemledik. Hatalardan bazıları (olumsuz geri bildirimlerin yaklaşık %10'u ve genel yanıtların %7.5'i), kullanıcı eğitimi ve hızlı mühendislik ile giderilebilir. Ek olarak, bir sonraki bölümde açıklanan LLM ince ayarı ve takviyeli öğrenme çözümüyle de bu sorunu çözebiliriz.

Pilottan kullanıcı geri bildirimi

Bazı kullanıcılar "Harika!" gibi bir not bıraktı. Kesinlikle katılıyorum yanıtları için veya kesinlikle katılmıyorum yanıtları için “Soruyu yanıtlamıyor”. Diğer kullanıcılar notlarında puanlar verdi ve Yüksek Lisans cevaplarını nasıl gerekçelendirdiklerini açıkladılar. Aşağıdaki örnekte kullanıcı, LLM halüsinasyonunu düzeltmek için özellikle yeterli belgeyi ve içeriği sağlamıştır.

Soru Kaç araçlık park yerimiz var?
Bot Yanıtı

Verilen bağlama göre, araba park yeri sayısını belirlemek için yeterli bilgiye sahip değiliz. Bağlamda park yerlerinin minimum boyutu ve dış aydınlatma seviyelerine ilişkin gereksinimler ele alınmakta, ancak belirli sayıda park yeri belirtilmemektedir.

**Aşağıdaki kaynaklarda daha fazla açıklama bulabilirsiniz:**

*ARS GEN 10.0/05.01.02. Tasarım Kriterleri ve Ekler/Performans Paketi AR Sıralanabilir Tasarım Kriterleri v20.1.1.pdf – sayfa: 10

*ARS GEN 10.0/05.01.02. Tasarım Kriterleri ve Ekler/Performans Paketi AR Sıralanabilir Tasarım Kriterleri v20.1.1.pdf – sayfa: 79

Kullanıcı puanı Kesinlikle katılmamak
Kullanıcı notları Bu, tasarım kriterleri bölümü 21 01 13'un 10. sayfasında belirtilmiştir.

Denetimli ince ayar ve pekiştirmeli öğrenmeyle bot yanıtını geliştirin

Çözüm üç adımlı ince ayardan oluşur:

  1. Etiketli verileri kullanarak denetimli ince ayar yapın. Bu yöntem şurada anlatılmıştı: Amazon AB Tasarım ve İnşaatına yardımcı olmak için Amazon SageMaker'da yapay zeka destekli üretken bir çözüm.
  2. Daha fazla Yüksek Lisans ayarlaması için soru-cevap çiftlerini etiketlemek üzere kullanıcı geri bildirimlerini toplayın.
  3. Eğitim verileri hazır olduğunda modeli kullanarak daha fazla ayarlama yapın. insan geribildiriminden pekiştirici öğrenme (RLHF).

RLHF, üretken yapay zeka (AI) ve LLM uygulamalarında yaygın olarak kullanılmaktadır. Ödül fonksiyonuna insan geri bildirimini dahil eder ve ödülleri en üst düzeye çıkarmak için modeli takviyeli öğrenme algoritmasıyla eğitir, bu da modelin görevleri insan hedefleriyle daha uyumlu bir şekilde gerçekleştirmesini sağlar. Aşağıdaki diyagramda adımların akışı gösterilmektedir.

İnce ayar iş akışı

Metodolojiyi Amazon D&C belgelerini kullanarak SageMaker JumpStart'ta Mistral-7B modeliyle test ettik.

Denetimli ince ayar

Önceki gönderide, ince ayarlı Falcon-7B modelinin RAG hattından nasıl daha iyi performans gösterdiğini ve QA bot yanıtının kalitesini ve doğruluğunu nasıl geliştirdiğini göstermiştik. Bu yazı için Mistral-7B modelinde denetimli ince ayar gerçekleştirdik. Denetimli ince ayarda 512 parametrede (toplam 1024 parametrenin %436,207,616'i) PEFT/LoRA tekniği (LoRA_r = 5.68, LoRA_alpha = 7,677,964,288) kullanıldı. Eğitim, LLM tarafından sentetik olarak oluşturulan ve insanlar tarafından doğrulanan 3.8 örnekle bir p137x düğümü üzerinde gerçekleştirildi; süreç, aşağıdaki şekilde gösterildiği gibi, 20 çağdan sonra iyi bir şekilde yakınsamıştır.

SFT eğitim süreci

İnce ayarlı model 274 örnekle doğrulandı ve çıkarım sonuçları anlamsal benzerlik puanına göre referans cevaplarla karşılaştırıldı. Puan 0.8100 olup, geleneksel RAG'ın 0.6419 puanından daha yüksektir.

Takviyeli öğrenme için insan ve yapay zeka geri bildirimlerini toplayın

RLHF için, konunun uzmanları (KOBİ'ler) tarafından etiketlenen yeterli miktarda yüksek kaliteli eğitim örnekleri önemlidir. Ancak düşük kaliteli insan etiketleri, RLHF eğitiminden sonra muhtemelen orijinal modele göre daha kötü model performansına neden olacaktır. KOBİ'lerin zamanı geldi herhangi bir kuruluşta kıt bir kaynak; Yüzlerce veya binlerce LLM yanıtını incelemek ve geri bildirim sağlamak, KOBİ'lerin önemli bir zaman yatırımı yapmasını gerektirir ve bu da net bir yatırım getirisi olmayabilir.

Bu zorluğun üstesinden gelmek için, Yapay zeka geri bildiriminden pekiştirmeli öğrenme (RLAIF) yöntemi. RLAIF, değerlendirme puanlarını sağlamak için insanlardan ziyade bir AI asistanı (başka bir LLM) kullanır. Bu hibrit öğrenme yaklaşımında, öğrenme aracısı eylemleri yalnızca bir insanla etkileşime dayalı olarak değil, aynı zamanda başka bir yapay zeka modeli tarafından sağlanan geri bildirimlere göre de geliştirir. Takviyeli öğrenim için yeterli eğitim verisi sağlamak çok daha ölçeklenebilir ve çok daha az özneldir çünkü eğitim küçük bir KOBİ grubunun belirli tercihlerine bağlı değildir. KOBİ'ler yine de sürece dahil olabilir, ancak yalnızca süreci denetlemek ve yapay zeka geri bildirim kalitesini incelemek için. Bu, KOBİ'lerin iş yükünü büyük ölçüde azaltır çünkü yapay zeka tarafından oluşturulan puanların ve etiketlerin KOBİ'ler tarafından analiz edilmesi, filtrelenmesi ve sıralanması çok daha az karmaşıktır.

Bu kullanım durumunda, takviyeli öğrenme adımına yönelik eğitim örnekleri olarak değerlendirme puanlarını oluşturmak için Antropik Claude 2 modeline aşağıdaki istemi sağlıyoruz:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

Claude 2 modeli, aşağıdaki örnekte gösterildiği gibi bir değerlendirme puanı ve puanın neden verildiğine ilişkin bir yorum oluşturur.

Soru Bu bağlamda 'Fit Out Works' ile kastedilen nedir?
Referans Cevabı Fit Out İşleri, inşaat sözleşmesi kapsamında Amazon tarafından veya Amazon adına Geliştirici aracılığıyla İlk Teslim Alma Tarihine kadar kavramsal bir Geliştirici Kabuk ve Çekirdek Üssü Oluşturma pozisyonundan gerçekleştirilen İşleri ifade eder. Bu Çalışmalar Amazon'un gerekli Donanımlarını, büyük kutu kurulumlarını ve özel
QA Bot yanıtı Fit Out İşleri, inşaat sözleşmesi kapsamında Amazon tarafından veya Amazon adına Geliştirici aracılığıyla İlk Teslim Alma Tarihine kadar kavramsal bir Geliştirici Kabuk ve Çekirdek Üssü Oluşturma pozisyonundan gerçekleştirilen İşleri ifade eder.
Yapay zeka puanı 4.5
Yapay zeka yorumu Makine yanıtı standart yanıttaki temel bilgileri sağlar: Fit Out Works, inşaat sözleşmesi kapsamında Amazon tarafından veya Amazon adına Geliştirici aracılığıyla, kavramsal bir Geliştirici Kabuğu ve Çekirdek Temel Oluşturma pozisyonundan İlk Teslim Alma Tarihine kadar gerçekleştirilen İşleri ifade eder. . Amazon'un gerekli Donanımlarını, büyük kutu kurulumlarını ve özelleştirmeleri dahil etmeyle ilgili ek ayrıntılar konuyla ilgilidir ve daha fazla bağlam sağlamaya yardımcı olur, bu nedenle makine yanıtına 4.5 üzerinden 5 puan verdim. Standart yanıtın özünü yakalıyor ve bazı bilgiler veriyor. yararlı ekstra ayrıntılar.

Denetimli ince ayarlı model, 274 doğrulama sorusundan AI puanı 159'ün üzerinde olan 4 yanıt üretti. Puanı 60'ün altında olan 3 yanıt gözlemledik; Genel yanıt kalitesinin iyileştirilmesi için alan vardır.

RLHF öncesi geri bildirim puanı

Amazon Mühendislik KOBİ'leri bu yapay zeka geri bildirimini doğruladı ve yapay zeka puanlarını kullanmanın faydalarını kabul etti. Yapay zeka geri bildirimi olmasaydı, KOBİ'lerin, kesilen cevapları ve halüsinasyonları belirlemek ve LLM'nin doğru içerikleri ve anahtar kavramları döndürüp döndürmediğini yargılamak için her bir LLM yanıtını gözden geçirip analiz etmek için biraz zamana ihtiyacı olacaktı. Yapay zeka geri bildirimi, yapay zeka puanlarını otomatik olarak sağlar ve KOBİ'lerin puanları doğrulamak ve yanıtlardaki eğilimleri belirlemek için filtreleme, sıralama ve gruplandırmayı kullanmasına olanak tanır. Bu, ortalama KOBİ'nin inceleme süresini %80 oranında azaltır.

İnsan ve yapay zeka geri bildirimlerinden pekiştirici öğrenme

Eğitim örnekleri hazır olduğunda, yakınsal politika optimizasyonu (PPO) algoritması Takviyeli öğrenme gerçekleştirmek için. PPO, öğrenme aracılarının optimum politika ağına güvenilir bir şekilde ulaşabilmesi için öğrenme sürecindeki politikayı güncellemek için küçük adımlar atan bir politika gradyan yöntemini kullanır. Bu, eğitim sürecini daha istikrarlı hale getirir ve sapma olasılığını azaltır.

Eğitim sırasında, öncelikle öğrenme sürecinde ağırlıkların güncellenmesine rehberlik edecek bir ödül modeli oluşturmak için insan ve yapay zeka etiketli verileri kullanıyoruz. Bu kullanım durumu için bir distilroberta bazlı ödül modeli seçiyoruz ve onu aşağıdaki formatta örneklerle eğitiyoruz:

[Instruction, Chosen_response, Rejected_response]

Aşağıda bir eğitim kaydı örneği verilmiştir.

Talimat Bağlama göre kapsayıcı ve erişilebilir tasarım için neler belirtilmiştir?
Seçilen_yanıt BREEAM Credit HEA06 – kapsayıcı ve erişilebilir tasarım – Bina amaca uygun, uygun ve tüm potansiyel kullanıcılar tarafından erişilebilir olacak şekilde tasarlanmıştır. BREEAM Kontrol Listesi A3 doğrultusunda bir erişim stratejisi geliştirildi
Reddedilen_yanıt Bağlam şunu belirtiyor

Ödül modeli 1e-5 öğrenme oranıyla eğitilir. Aşağıdaki grafikte gösterildiği gibi, eğitim kuyusu 10 çağdan sonra yakınsar.

RLHF eğitim süreci

Daha sonra takviyeli öğrenme için ödül modeli kullanılır. Bu kullanım durumunda öğrenmeyi hızlandırmak için PEFT/LoRA kullanıyoruz. LoRA_r 32 ve LoRA_alpha 64'tür. PPO tabanlı öğrenme üç dönemde 1.41e-5 oranındadır. Takviye eğitimi oldukça değişkendir ve etiket verilerine ve geri bildirim verilerine karşı çok hassastır. Öğrenme sürecini gözlemlemek için ödül modelini özel olarak izleyerek ortamdan elde edilen ortalama ödül olanwards_mean metriğini kullanıyoruz.

RLAIF sonrasında pozitif puanlı (3'ün üzerinde) bot yanıtlarının sayısının %78.1'den %85.5'e çıktığını, negatif puanlı (3'ün altında) bot yanıtlarının sayısının ise %21.9'dan %14.5'e düştüğünü görebiliyoruz. Toplamda ortalama AI geri bildirim puanı %8'e çıkarak 3.9'dan 4.2'ye çıkıyor.

RLAIF tarafından iyileştirme

Aşağıdaki örnekte iyileşmeyi görebilirsiniz.

Soru Fayans döşenen zemin alanları için hangi şap gereklidir?
Referans Beton Şap döşeme yalnızca zemini döşenen alanlarda uygulanabilir. Yer karolarının nerede uygulanabileceğini görmek için A-32 çizim serisine bakın.
RLAIF'den önce bot yanıtı Beton Şap döşeme yalnızca
RLAIF öncesi AI puanı 3
RLAIF sonrasında bot yanıtı Beton Şap döşeme yalnızca fayans döşenecek alanlarda uygulanır. Fayans döşemenin nerede uygulanabileceğini görmek için A-32 çizim serisine bakın.
RLAIF sonrası AI puanı 4.5

Sonuç

Bu yazı, Amazon AB Tasarım ve İnşaat ekibiyle daha önce tartışıldığı gibi yaptığımız çalışmanın devamı niteliğindedir. Amazon AB Tasarım ve İnşaatına yardımcı olmak için Amazon SageMaker'da yapay zeka destekli üretken bir çözüm. Bu yazıda, Mistral-7B modeline takviyeli öğrenmeyle ince ayar yapmak için insan ve yapay zeka geri bildirim verilerini nasıl oluşturduğumuzu gösterdik. RLAIF sonrası model, Amazon Engineering'in soru yanıtlama botu için daha iyi performans sağladı ve AI geri bildirim puanını %8 artırdı. Amazon D&C ekibinin pilot projesinde RLAIF'in kullanılması, KOBİ'lerin doğrulama iş yükünü tahminen %80 oranında azalttı. Bir sonraki adım olarak, Amazon Engineering'in veri altyapısına bağlanarak bu çözümün ölçeğini büyüteceğiz ve döngüdeki bir insanla sürekli öğrenme sürecini otomatikleştirmek için bir çerçeve tasarlayacağız. Ayrıca istem şablonunu ayarlayarak AI geri bildirim kalitesini daha da iyileştireceğiz.

Bu süreç sayesinde, RLHF ve RLAIF aracılığıyla soru yanıtlama görevlerinin kalitesini ve performansını nasıl daha da geliştirebileceğimizi öğrendik.

  • Yüksek Lisans'tan doğru ve sorumlu çıktılar sağlamak için insan doğrulaması ve güçlendirme esastır. Model tepkisini daha da geliştirmek için insan geri bildirimi RLHF'de kullanılabilir.
  • RLAIF değerlendirme ve öğrenme döngüsünü otomatikleştirir. Yapay zeka tarafından oluşturulan geri bildirim daha az özneldir çünkü küçük bir KOBİ havuzunun belirli bir tercihine bağlı değildir.
  • RLAIF, KOBİ'lerin gerektirdiği çabaları en aza indirirken sürekli takviyeli öğrenme yoluyla bot kalitesini artırmak için daha ölçeklenebilirdir. Özellikle büyük kuruluşlarda alana özgü üretken yapay zeka çözümleri geliştirmek için kullanışlıdır.
  • Bu işlem, özellikle çözümün kapsayacağı yeni etki alanı verileri mevcut olduğunda düzenli olarak yapılmalıdır.

Bu kullanım örneğinde, birden fazla LLM'yi test etmek ve birden fazla LLM eğitim yaklaşımını denemek için SageMaker JumpStart'ı kullandık. Maksimum verimlilik ve kaliteyle yapay zeka geri bildirimi ve öğrenme döngüsünü önemli ölçüde hızlandırır. Kendi projeniz için, kullanıcılarınızın geri bildirimlerini toplamak amacıyla döngüdeki insan yaklaşımını tanıtabilir veya başka bir Yüksek Lisans kullanarak yapay zeka geri bildirimi oluşturabilirsiniz. Ardından, RLHF ve RLAIF kullanarak modellerinize ince ayar yapmak için bu yazıda tanımlanan üç adımlı süreci takip edebilirsiniz. Süreci hızlandırmak için SageMaker JumpStart'ı kullanan yöntemleri denemenizi öneririz.


Yazar Hakkında

YunfeiYunfei Bai AWS'de Kıdemli Çözüm Mimarıdır. AI/ML, veri bilimi ve analitik alanında bir geçmişe sahip olan Yunfei, müşterilerin iş sonuçları elde etmek için AWS hizmetlerini benimsemesine yardımcı olur. Karmaşık teknik zorlukların üstesinden gelen ve stratejik hedeflere yön veren AI/ML ve veri analitiği çözümleri tasarlıyor. Yunfei, Elektronik ve Elektrik Mühendisliği alanında doktora derecesine sahiptir. Yunfei, iş dışında kitap okumaktan ve müzik dinlemekten hoşlanır.

Elad_photoElad Dwek Amazon'da İnşaat Teknolojisi Müdürüdür. İnşaat ve proje yönetimi alanında geçmişi olan Elad, ekiplerin inşaat projeleri sunmak için yeni teknolojileri ve veri tabanlı süreçleri benimsemelerine yardımcı oluyor. İhtiyaçları ve çözümleri belirler ve ısmarlama niteliklerin geliştirilmesini kolaylaştırır. Elad'ın Yapı Mühendisliği alanında MBA ve lisans derecesi vardır. Elad, iş dışında yoga yapmaktan, ahşap işçiliğinden ve ailesiyle seyahat etmekten hoşlanıyor.

Luca_photoLuca Cerabone Amazon'da İş Zekası Mühendisidir. Luca, veri bilimi ve analitik alanındaki geçmişinden yararlanarak müşterilerinin benzersiz ihtiyaçlarını karşılamak ve onları daha sürdürülebilir ve ölçeklenebilir süreçlere yönlendirmek için özel teknik çözümler üretiyor. Veri Bilimi alanında yüksek lisans derecesine sahip olan Luca, boş zamanlarında Kendin Yap projeleri yapmaktan, bahçecilik yapmaktan ve mutfak lezzetleri denemekten hoşlanıyor.

spot_img

En Son İstihbarat

spot_img

Bizimle sohbet

Merhaba! Size nasıl yardım edebilirim?