ذكاء البيانات التوليدية

تحسين أداء LLM من خلال التعليقات البشرية والذكاء الاصطناعي على Amazon SageMaker for Amazon Engineering | خدمات الويب الأمازون

التاريخ:

فريق Amazon EU Design and Construction (Amazon D&C) هو الفريق الهندسي الذي يقوم بتصميم وبناء مستودعات Amazon. يتنقل الفريق في كمية كبيرة من المستندات ويحدد المعلومات الصحيحة للتأكد من أن تصميم المستودع يلبي أعلى المعايير. في هذا المنصب حل مبتكر مدعوم بالذكاء الاصطناعي على Amazon SageMaker لمساعدة Amazon EU في التصميم والإنشاء، قدمنا ​​سؤالاً يجيب على حل الروبوت باستخدام الجيل المعزز الاسترداد (RAG) خط أنابيب ذو ضبط دقيق نموذج لغة كبير (LLM) لشركة Amazon D&C لاسترداد المعلومات الدقيقة بكفاءة من حجم كبير من المستندات غير المنظمة، وتقديم خدمات عالية الجودة في الوقت المناسب في مشاريع البناء الخاصة بهم. قام فريق Amazon D&C بتنفيذ الحل بشكل تجريبي لمهندسي Amazon وجمع تعليقات المستخدمين.

في هذا المنشور، نشارك كيف قمنا بتحليل بيانات التعليقات وتحديد القيود على الدقة والهلوسة التي قدمها RAG، واستخدمنا درجة التقييم البشري لتدريب النموذج من خلال تعزيز التعلم. لزيادة عينات التدريب من أجل تعلم أفضل، استخدمنا أيضًا ماجستيرًا آخر في إدارة الأعمال (LLM) لتوليد درجات التعليقات. عالجت هذه الطريقة قيود RAG وحسّنت جودة استجابة الروبوت. نقدم عملية التعلم المعزز ونتائج المقارنة لإثبات تحسن أداء LLM. يستخدم الحل أمازون سيج ميكر جومب ستارت باعتبارها الخدمة الأساسية لنشر النماذج والضبط الدقيق والتعلم المعزز.

جمع التعليقات من مهندسي أمازون في مشروع تجريبي

بعد تطوير الحل الموضح في حل مبتكر مدعوم بالذكاء الاصطناعي على Amazon SageMaker لمساعدة Amazon EU في التصميم والإنشاء، قام فريق Amazon D&C بنشر الحل وأدار مشروعًا تجريبيًا مع مهندسي Amazon. تمكن المهندسون من الوصول إلى النظام التجريبي من خلال تطبيق ويب تم تطويره بواسطة انسيابي، متصل بخط أنابيب RAG. في خط الأنابيب، استخدمنا خدمة Amazon OpenSearch لقاعدة بيانات المتجهات، ونشرت نموذج Mistral-7B-Instruct المضبوط بدقة على Amazon SageMaker.

أحد الأهداف الرئيسية للبرنامج التجريبي هو جمع التعليقات من مهندسي أمازون واستخدام التعليقات لتقليل هلوسة LLM بشكل أكبر. ولتحقيق ذلك، قمنا بتطوير وحدة جمع التعليقات في واجهة المستخدم، كما هو موضح في الشكل التالي، وقمنا بتخزين معلومات جلسة الويب وتعليقات المستخدم في الأمازون DynamoDB. من خلال واجهة مستخدم مجموعة التعليقات، يمكن لمهندسي أمازون الاختيار من بين خمسة مستويات للرضا: غير موافق بشدة، غير موافق، محايد، أوافق، وأوافق بشدة، بما يتوافق مع درجات التعليقات من 1 إلى 5. يمكنهم أيضًا تقديم إجابة أفضل للسؤال أو التعليق على سبب عدم كون استجابة LLM مرضية.

واجهة المستخدم للتعليقات البشرية

خلال الفترة التجريبية، قدم المستخدمون 118 ردًا على الملاحظات. والرسم البياني التالي يوضح التوزيع من سلبي إلى إيجابي. وقد لاحظنا أن الإجابات غير الصحيحة التي تحمل ردود فعل سلبية (لا أوافق ولا أوافق بشدة) بلغت 45% من إجمالي ردود الفعل (53 من أصل 118). يمكن معالجة بعض الأخطاء (حوالي 10% من التعليقات السلبية و7.5% من الاستجابات الإجمالية) من خلال تعليم المستخدم والهندسة السريعة. بالإضافة إلى ذلك، يمكننا معالجة المشكلة من خلال حل الضبط الدقيق وتعزيز التعلم LLM، الموضح في القسم التالي.

تعليقات المستخدم من الطيار

لقد ترك بعض المستخدمين ببساطة ملاحظة، مثل "رائع!" للإجابات التي أوافق عليها بشدة، أو "لا يجيب على السؤال" للإجابات التي لا أوافق عليها بشدة. قدم المستخدمون الآخرون النتائج وأوضحوا كيف يبررون إجابات LLM في ملاحظاتهم. في المثال التالي، قدم المستخدم على وجه التحديد المستند والمحتوى المناسبين لتصحيح هلوسة LLM.

سؤال كم عدد أماكن وقوف السيارات لدينا؟
الإجابة بوت

بناءً على السياق المحدد، ليس لدينا معلومات كافية لتحديد عدد أماكن انتظار السيارات. يناقش السياق الحد الأدنى لحجم أماكن وقوف السيارات ومتطلبات مستويات الإضاءة الخارجية، لكنه لا يوفر عددًا محددًا من أماكن وقوف السيارات.

**يمكنك الرجوع إلى المزيد من التوضيحات في المصادر التالية:**

* آرس جين 10.0/05.01.02. معايير التصميم والملاحق/حزمة الأداء معايير التصميم القابلة للفرز للواقع المعزز v20.1.1.pdf – الصفحة: 10

* آرس جين 10.0/05.01.02. معايير التصميم والملاحق/حزمة الأداء معايير التصميم القابلة للفرز للواقع المعزز v20.1.1.pdf – الصفحة: 79

نقاط المستخدم لا أوافق بشدة
ملاحظات المستخدم تم تحديد ذلك في الصفحة 21 من قسم معايير التصميم 01 13 10

تحسين استجابة الروبوت من خلال الضبط الدقيق والتعلم المعزز الخاضع للإشراف

يتكون الحل من ثلاث خطوات للضبط الدقيق:

  1. إجراء الضبط الدقيق تحت الإشراف باستخدام البيانات المصنفة. تم وصف هذه الطريقة في حل مبتكر مدعوم بالذكاء الاصطناعي على Amazon SageMaker لمساعدة Amazon EU في التصميم والإنشاء.
  2. اجمع تعليقات المستخدمين لتسمية أزواج الأسئلة والأجوبة لمزيد من ضبط LLM.
  3. عندما تكون بيانات التدريب جاهزة، قم بضبط النموذج باستخدام التعزيز التعلم من ردود الفعل البشرية (RLHF).

يستخدم RLHF على نطاق واسع في تطبيقات الذكاء الاصطناعي التوليدي (AI) وLLM. فهو يدمج التعليقات البشرية في وظيفة المكافآت ويدرب النموذج باستخدام خوارزمية التعلم المعزز لتعظيم المكافآت، مما يجعل النموذج يؤدي مهام أكثر توافقًا مع الأهداف البشرية. ويوضح الرسم البياني التالي مسار الخطوات.

ضبط سير العمل بدقة

لقد اختبرنا المنهجية باستخدام مستندات Amazon D&C مع نموذج Mistral-7B على SageMaker JumpStart.

ضبط دقيق تحت الإشراف

في المنشور السابق، أوضحنا كيف يتفوق نموذج Falcon-7B المضبوط بدقة على خط أنابيب RAG ويحسن جودة ودقة استجابة روبوت ضمان الجودة. في هذا المنشور، أجرينا ضبطًا دقيقًا تحت الإشراف على طراز Mistral-7B. استخدم الضبط الدقيق الخاضع للإشراف تقنية PEFT/LoRA (LoRA_r = 512، LoRA_alpha = 1024) على 436,207,616 معلمة (5.68% من إجمالي 7,677,964,288 معلمة). تم إجراء التدريب على عقدة p3.8x مع 137 عينة تم إنشاؤها صناعيًا بواسطة LLM وتم التحقق من صحتها بواسطة البشر؛ وتتقارب العملية جيدًا بعد 20 حقبة، كما هو موضح في الشكل التالي.

عملية التدريب SFT

تم التحقق من صحة النموذج المضبوط من خلال 274 عينة، وتمت مقارنة نتائج الاستدلال مع الإجابات المرجعية من خلال درجة التشابه الدلالي. النتيجة هي 0.8100، وهي أعلى من النتيجة 0.6419 من RAG التقليدي.

جمع ردود الفعل البشرية والذكاء الاصطناعي لتعزيز التعلم

بالنسبة لـ RLHF، يعد وجود كمية كافية من عينات التدريب عالية الجودة التي تم تصنيفها بواسطة خبراء في الموضوع (SMEs) أمرًا ضروريًا. ومع ذلك، من المحتمل أن تتسبب الملصقات البشرية ذات الجودة الرديئة في أداء نموذج أسوأ من النموذج الأصلي بعد تدريب RLHF. الوقت للشركات الصغيرة والمتوسطة هو مورد نادر في أي منظمة; تتطلب مراجعة مئات أو آلاف استجابات LLM وتقديم التعليقات استثمارًا كبيرًا للوقت من الشركات الصغيرة والمتوسطة التي قد لا يكون لها عائد واضح على الاستثمار.

ولمواجهة هذا التحدي، اعتمدنا التعلم المعزز من ردود فعل الذكاء الاصطناعي طريقة (رليف). يستخدم RLAIF مساعد الذكاء الاصطناعي (ماجستير في القانون آخر) لتقديم درجات التقييم، وليس من البشر. في نهج التعلم المختلط هذا، يقوم وكيل التعلم بتحسين الإجراءات ليس فقط بناءً على التفاعل مع الإنسان ولكن أيضًا من التعليقات المقدمة من نموذج ذكاء اصطناعي آخر. إنه أكثر قابلية للتوسع لتوفير بيانات تدريب كافية لتعزيز التعلم، وأقل ذاتية بكثير لأن التدريب لا يعتمد على تفضيلات معينة من مجموعة صغيرة من الشركات الصغيرة والمتوسطة. ربما تظل الشركات الصغيرة والمتوسطة مشاركة، ولكن فقط للإشراف على العملية وفحص جودة ردود الفعل الخاصة بالذكاء الاصطناعي. وهذا يقلل بشكل كبير من عبء العمل الواقع على الشركات الصغيرة والمتوسطة، لأن النتائج والتسميات التي يولدها الذكاء الاصطناعي أقل تعقيدا بكثير بالنسبة للشركات الصغيرة والمتوسطة من حيث التحليل والتصفية والفرز.

في حالة الاستخدام هذه، نقدم المطالبة التالية لنموذج Anthropic Claude 2 لتوليد درجات التقييم كعينات تدريب لخطوة التعلم المعزز:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

يقوم نموذج كلود 2 بإنشاء درجة تقييم وتعليق على سبب إعطاء الدرجة، كما هو موضح في المثال التالي.

سؤال ما المقصود بـ "Fit Out Works" في هذا السياق؟
الإجابة المرجعية تشير Fit Out Works إلى الأعمال التي يتم تنفيذها بموجب عقد البناء من قبل أمازون أو بالنيابة عنها عبر المطور حتى تاريخ الاستلام الأول من موقع البناء الافتراضي للمطور Shell & Core Base. تتضمن هذه الأعمال التجهيزات المطلوبة من أمازون، والتركيبات الكبيرة، والتخصيص
استجابة QA بوت تشير Fit Out Works إلى الأعمال التي يتم تنفيذها بموجب عقد البناء من قبل أمازون أو بالنيابة عنها عبر المطور حتى تاريخ الاستلام الأول من موقع البناء الافتراضي للمطور Shell & Core Base.
درجة الذكاء الاصطناعي 4.5
تعليق منظمة العفو الدولية توفر الإجابة الآلية المعلومات الأساسية من الإجابة القياسية - التي تشير فيها Fit Out Works إلى الأعمال التي يتم تنفيذها بموجب عقد البناء بواسطة أمازون أو بالنيابة عنها عبر المطور حتى تاريخ الاستلام الأول من موقع البناء الأساسي والهيكل الأساسي للمطور . تعد التفاصيل الإضافية حول تضمين عمليات التجهيز والتركيبات الكبيرة والتخصيصات المطلوبة من Amazon ذات صلة وتساعد في توفير المزيد من السياق، لذا فقد سجلت إجابة الآلة 4.5 من 5. إنها تجسد جوهر الإجابة القياسية وتوفر بعضًا منها تفاصيل اضافية مفيدة.

من بين 274 سؤالًا للتحقق من الصحة، أنتج النموذج الدقيق الخاضع للإشراف 159 إجابة ذات درجات ذكاء اصطناعي أكبر من 4. لاحظنا 60 إجابة بدرجات أقل من 3؛ هناك مساحة لتحسين جودة الاستجابة الشاملة.

درجة ردود الفعل قبل RLHF

تحققت الشركات الصغيرة والمتوسطة في شركة Amazon Engineering من صحة تعليقات الذكاء الاصطناعي هذه واعترفت بفوائد استخدام نتائج الذكاء الاصطناعي. بدون ردود فعل الذكاء الاصطناعي، ستحتاج الشركات الصغيرة والمتوسطة إلى بعض الوقت لمراجعة وتحليل كل استجابة في LLM لتحديد الإجابات المقطوعة والهلوسة، وللحكم على ما إذا كانت LLM تعيد المحتويات الصحيحة والمفاهيم الأساسية. توفر تعليقات الذكاء الاصطناعي نتائج الذكاء الاصطناعي تلقائيًا وتمكن الشركات الصغيرة والمتوسطة من استخدام التصفية والفرز والتجميع للتحقق من صحة النتائج وتحديد الاتجاهات في الاستجابات. وهذا يقلل من متوسط ​​وقت المراجعة الذي تستغرقه الشركات الصغيرة والمتوسطة بنسبة 80%.

تعزيز التعلم من ردود الفعل البشرية والذكاء الاصطناعي

عندما تصبح نماذج التدريب جاهزة نستخدم خوارزمية تحسين السياسة القريبة (PPO). لأداء التعلم المعزز. يستخدم PPO طريقة تدرج السياسة، والتي تتخذ خطوات صغيرة لتحديث السياسة في عملية التعلم، حتى يتمكن وكلاء التعلم من الوصول بشكل موثوق إلى شبكة السياسة المثالية. وهذا يجعل عملية التدريب أكثر استقرارًا ويقلل من احتمالية الاختلاف.

أثناء التدريب، نستخدم أولاً البيانات البشرية وبيانات الذكاء الاصطناعي لبناء نموذج مكافأة، والذي سيتم استخدامه لتوجيه تحديث الأوزان في عملية التعلم. بالنسبة لحالة الاستخدام هذه، نختار نموذج مكافأة قائم على distilroberta ونقوم بتدريبه من خلال عينات بالتنسيق التالي:

[Instruction, Chosen_response, Rejected_response]

فيما يلي مثال على سجل التدريب.

تعليمات وفقا للسياق، ما هو المحدد للتصميم الشامل والميسر؟
Chosen_response BREEAM Credit HEA06 - تصميم شامل ويمكن الوصول إليه - تم تصميم المبنى ليكون مناسبًا للغرض ومناسبًا ويمكن الوصول إليه من قبل جميع المستخدمين المحتملين. تم تطوير استراتيجية الوصول بما يتماشى مع قائمة فحص BREEAM A3
Rejected_response السياق ينص على ذلك

يتم تدريب نموذج المكافأة بمعدل التعلم 1e-5. كما هو موضح في الرسم البياني التالي، يتقارب بئر التدريب بعد 10 فترات.

عملية التدريب RLHF

ثم يتم استخدام نموذج المكافأة للتعلم المعزز. بالنسبة لحالة الاستخدام هذه، نستخدم PEFT/LoRA لتسريع عملية التعلم. يبلغ LoRA_r 32 وLoRA_alpha هو 64. ويكون التعلم القائم على PPO بمعدل 1.41e-5 في ثلاث حقب. يعد التدريب المعزز شديد التقلب وحساسًا جدًا لبيانات الملصقات وبيانات التعليقات. نحن نستخدم مقياس متوسط ​​المكافأة، وهو متوسط ​​المكافأة التي تم الحصول عليها من البيئة من خلال مراقبة نموذج المكافأة على وجه التحديد، لمراقبة عملية التعلم.

بعد RLAIF، يمكننا أن نرى عدد استجابات الروبوتات ذات الدرجات الإيجابية (أعلى من 3) تزيد من 78.1% إلى 85.5%، وتلك ذات الدرجات السلبية (أقل من 3) تنخفض من 21.9% إلى 14.5%. في المجمل، ارتفع متوسط ​​درجة ردود الفعل الخاصة بالذكاء الاصطناعي بنسبة تصل إلى 8%، من 3.9 إلى 4.2.

التحسين بواسطة RLAIF

يمكنك رؤية التحسن في المثال التالي.

سؤال بالنسبة لمناطق الأرضيات التي يتم تبليطها، ما هو ذراع التسوية المطلوب؟
الرقم المرجعي تنطبق أرضيات ذراع التسوية الخرسانية فقط على المناطق المغطاة بالبلاط. ارجع إلى سلسلة الرسم A-32 لمعرفة الأماكن التي يمكن استخدام بلاط الأرضيات فيها.
استجابة بوت قبل RLAIF الأرضيات المملهة الخرسانية قابلة للتطبيق فقط في
يسجل الذكاء الاصطناعي قبل RLAIF 3
استجابة بوت بعد RLAIF تنطبق الأرضيات الخرسانية فقط على المناطق التي يتم تبليطها. ارجع إلى سلسلة الرسم A-32 لمعرفة مكان تطبيق أرضيات البلاط.
درجة الذكاء الاصطناعي بعد RLAIF 4.5

وفي الختام

يعد هذا المنشور استمرارًا لعملنا مع فريق التصميم والإنشاء التابع لشركة Amazon EU كما تمت مناقشته في حل مبتكر مدعوم بالذكاء الاصطناعي على Amazon SageMaker لمساعدة Amazon EU في التصميم والإنشاء. في هذا المنشور، أظهرنا كيف أنشأنا بيانات ردود الفعل البشرية والذكاء الاصطناعي لضبط نموذج Mistral-7B من خلال التعلم المعزز. قدم النموذج بعد RLAIF أداءً أفضل لروبوت الإجابة على الأسئلة الخاص بشركة Amazon Engineering، مما أدى إلى تحسين درجة تعليقات الذكاء الاصطناعي بنسبة 8%. في المشروع التجريبي لفريق Amazon D&C، أدى استخدام RLAIF إلى تقليل عبء عمل التحقق من الصحة على الشركات الصغيرة والمتوسطة بنسبة تقدر بـ 80%. كخطوة تالية، سنقوم بتوسيع نطاق هذا الحل من خلال الاتصال بالبنية التحتية لبيانات Amazon Engineering، وتصميم إطار عمل لأتمتة عملية التعلم المستمر مع وجود إنسان في الحلقة. سنقوم أيضًا بتحسين جودة تعليقات الذكاء الاصطناعي من خلال ضبط القالب الفوري.

من خلال هذه العملية، تعلمنا كيفية تحسين جودة وأداء مهام الإجابة على الأسئلة من خلال RLHF وRLAIF.

  • يعد التحقق من صحة الإنسان وتعزيزه ضروريين لتوفير مخرجات دقيقة ومسؤولة من LLM. يمكن استخدام التعليقات البشرية في RLHF لزيادة تحسين استجابة النموذج.
  • يقوم RLAIF بأتمتة دورة التقييم والتعلم. تعتبر ردود الفعل الناتجة عن الذكاء الاصطناعي أقل ذاتية لأنها لا تعتمد على تفضيل معين من مجموعة صغيرة من الشركات الصغيرة والمتوسطة.
  • يعد RLAIF أكثر قابلية للتطوير لتحسين جودة الروبوت من خلال التعلم المعزز المستمر مع تقليل الجهود المطلوبة من الشركات الصغيرة والمتوسطة. إنه مفيد بشكل خاص لتطوير حلول الذكاء الاصطناعي التوليدية الخاصة بالمجال داخل المؤسسات الكبيرة.
  • يجب أن تتم هذه العملية بشكل منتظم، خاصة عند توفر بيانات المجال الجديدة ليغطيها الحل.

في حالة الاستخدام هذه، استخدمنا SageMaker JumpStart لاختبار العديد من دورات LLM وتجربة أساليب تدريب LLM متعددة. فهو يعمل على تسريع ردود الفعل ودورة التعلم الخاصة بالذكاء الاصطناعي بشكل كبير مع أقصى قدر من الكفاءة والجودة. بالنسبة لمشروعك الخاص، يمكنك تقديم نهج الإنسان في الحلقة لجمع تعليقات المستخدمين، أو إنشاء تعليقات الذكاء الاصطناعي باستخدام ماجستير إدارة أعمال آخر. بعد ذلك، يمكنك اتباع العملية المكونة من ثلاث خطوات المحددة في هذا المنشور لضبط النماذج الخاصة بك باستخدام RLHF وRLAIF. نوصي بتجربة الطرق التي تستخدم SageMaker JumpStart لتسريع العملية.


عن المؤلف

يونفييونفي باي هو مهندس حلول أول في AWS. من خلال خلفية في AI / ML وعلوم البيانات والتحليلات ، تساعد Yunfei العملاء على اعتماد خدمات AWS لتحقيق نتائج الأعمال. يقوم بتصميم حلول الذكاء الاصطناعي / التعلم الآلي وتحليلات البيانات التي تتغلب على التحديات التقنية المعقدة وتؤدي إلى تحقيق الأهداف الاستراتيجية. Yunfei حاصل على درجة الدكتوراه في الهندسة الإلكترونية والكهربائية. خارج العمل ، يستمتع Yunfei بالقراءة والموسيقى.

Elad_photoالعاد دويك هو مدير تكنولوجيا البناء في أمازون. بفضل خلفيتها في البناء وإدارة المشاريع، تساعد Elad الفرق على اعتماد تقنيات جديدة وعمليات قائمة على البيانات لتسليم مشاريع البناء. فهو يحدد الاحتياجات والحلول، ويسهل تطوير السمات المخصصة. حصل إيلاد على درجة الماجستير في إدارة الأعمال والبكالوريوس في الهندسة الإنشائية. خارج العمل، يستمتع إيلاد باليوغا والأعمال الخشبية والسفر مع عائلته.

Luca_photoلوكا سيرابوني هو مهندس ذكاء الأعمال في أمازون. وبالاعتماد على خلفيته في علوم البيانات والتحليلات، صمم لوكا حلولاً تقنية مصممة لتلبية الاحتياجات الفريدة لعملائه، ودفعهم نحو عمليات أكثر استدامة وقابلة للتطوير. مسلحًا بدرجة الماجستير في علوم البيانات، يستمتع لوكا بالمشاركة في مشاريع الأعمال اليدوية والبستنة وتجربة المأكولات اللذيذة في أوقات فراغه.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة

الدردشة معنا

أهلاً! كيف يمكنني مساعدك؟