जनरेटिव डेटा इंटेलिजेंस

अमेज़ॅन इंजीनियरिंग के लिए अमेज़ॅन सेजमेकर पर मानव और एआई फीडबैक के साथ एलएलएम प्रदर्शन में सुधार करें | अमेज़न वेब सेवाएँ

दिनांक:

अमेज़ॅन ईयू डिज़ाइन एंड कंस्ट्रक्शन (अमेज़ॅन डी एंड सी) टीम अमेज़ॅन गोदामों को डिजाइन और निर्माण करने वाली इंजीनियरिंग टीम है। टीम बड़ी मात्रा में दस्तावेजों को नेविगेट करती है और यह सुनिश्चित करने के लिए सही जानकारी का पता लगाती है कि गोदाम का डिज़ाइन उच्चतम मानकों को पूरा करता है। पोस्ट में अमेज़ॅन ईयू डिजाइन और निर्माण में सहायता के लिए अमेज़ॅन सेजमेकर पर एक जेनरेटिव एआई-संचालित समाधान, हमने एक प्रश्न का उत्तर देने वाला बॉट समाधान प्रस्तुत किया है पुनर्प्राप्ति संवर्धित पीढ़ी (आरएजी) पाइपलाइन को सुव्यवस्थित किया गया है बड़ी भाषा मॉडल (एलएलएम) अमेज़ॅन डी एंड सी के लिए बड़ी मात्रा में असंगठित दस्तावेज़ों से कुशलतापूर्वक सटीक जानकारी प्राप्त करने और उनकी निर्माण परियोजनाओं में समय पर और उच्च गुणवत्ता वाली सेवाएं प्रदान करने के लिए। अमेज़ॅन डी एंड सी टीम ने अमेज़ॅन इंजीनियरों के लिए एक पायलट कार्यक्रम में समाधान लागू किया और उपयोगकर्ता की प्रतिक्रिया एकत्र की।

इस पोस्ट में, हम साझा करते हैं कि हमने फीडबैक डेटा का विश्लेषण कैसे किया और आरएजी द्वारा प्रदान की गई सटीकता और मतिभ्रम की सीमाओं की पहचान की, और मॉडल को प्रशिक्षित करने के लिए मानव मूल्यांकन स्कोर का उपयोग किया। सुदृढीकरण सीखना. बेहतर शिक्षण के लिए प्रशिक्षण नमूने बढ़ाने के लिए, हमने फीडबैक स्कोर उत्पन्न करने के लिए एक और एलएलएम का भी उपयोग किया। इस पद्धति ने आरएजी सीमा को संबोधित किया और बॉट प्रतिक्रिया गुणवत्ता में और सुधार किया। हम एलएलएम प्रदर्शन में सुधार प्रदर्शित करने के लिए सुदृढीकरण सीखने की प्रक्रिया और बेंचमार्किंग परिणाम प्रस्तुत करते हैं। समाधान का उपयोग करता है अमेज़न SageMaker जम्पस्टार्ट मॉडल परिनियोजन, फ़ाइन-ट्यूनिंग और सुदृढीकरण सीखने के लिए मुख्य सेवा के रूप में।

एक पायलट प्रोजेक्ट में अमेज़ॅन इंजीनियरों से फीडबैक एकत्र करें

में वर्णित समाधान विकसित करने के बाद अमेज़ॅन ईयू डिजाइन और निर्माण में सहायता के लिए अमेज़ॅन सेजमेकर पर एक जेनरेटिव एआई-संचालित समाधान, अमेज़ॅन डी एंड सी टीम ने समाधान तैनात किया और अमेज़ॅन इंजीनियरों के साथ एक पायलट प्रोजेक्ट चलाया। इंजीनियरों ने विकसित एक वेब एप्लिकेशन के माध्यम से पायलट सिस्टम तक पहुंच बनाई स्ट्रीमलाइट, RAG पाइपलाइन से जुड़ा हुआ है। पाइपलाइन में, हमने उपयोग किया अमेज़न ओपन सर्च सर्विस वेक्टर डेटाबेस के लिए, और अमेज़ॅन सेजमेकर पर एक सुव्यवस्थित मिस्ट्रल-7बी-इंस्ट्रक्ट मॉडल तैनात किया।

पायलट का एक प्रमुख उद्देश्य अमेज़ॅन इंजीनियरों से फीडबैक एकत्र करना और एलएलएम मतिभ्रम को और कम करने के लिए फीडबैक का उपयोग करना है। इसे प्राप्त करने के लिए, हमने यूआई में एक फीडबैक संग्रह मॉड्यूल विकसित किया है, जैसा कि निम्नलिखित चित्र में दिखाया गया है, और वेब सत्र की जानकारी और उपयोगकर्ता फीडबैक को संग्रहीत किया है अमेज़ॅन डायनेमोडीबी. फीडबैक संग्रह यूआई के माध्यम से, अमेज़ॅन इंजीनियर पांच संतुष्टि स्तरों में से चयन कर सकते हैं: दृढ़ता से असहमत, असहमत, तटस्थ, सहमत और दृढ़ता से सहमत, 1-5 के फीडबैक स्कोर के अनुरूप। वे प्रश्न का बेहतर उत्तर भी दे सकते हैं या इस पर टिप्पणी कर सकते हैं कि एलएलएम प्रतिक्रिया संतोषजनक क्यों नहीं है।

मानव प्रतिक्रिया यूआई

पायलट के दौरान, उपयोगकर्ताओं ने 118 फीडबैक प्रतिक्रियाएं प्रदान कीं। निम्नलिखित चार्ट नकारात्मक से सकारात्मक तक वितरण दिखाता है। हमने देखा कि नकारात्मक प्रतिक्रिया (असहमत और दृढ़ता से असहमत) द्वारा चिह्नित गलत उत्तर कुल प्रतिक्रिया (45 में से 53) में 118% हैं। कुछ त्रुटियाँ (लगभग 10% नकारात्मक प्रतिक्रिया और 7.5% समग्र प्रतिक्रियाएँ) को उपयोगकर्ता शिक्षा और शीघ्र इंजीनियरिंग द्वारा संबोधित किया जा सकता है। इसके अतिरिक्त, हम अगले भाग में वर्णित एलएलएम फाइन-ट्यूनिंग और सुदृढीकरण सीखने के समाधान के साथ समस्या का समाधान कर सकते हैं।

पायलट से उपयोगकर्ता प्रतिक्रिया

कुछ उपयोगकर्ताओं ने बस एक नोट छोड़ा, जैसे "बहुत बढ़िया!" दृढ़तापूर्वक सहमत उत्तरों के लिए, या दृढ़तापूर्वक असहमत उत्तरों के लिए "प्रश्न का उत्तर नहीं देता"। अन्य उपयोगकर्ताओं ने अंक प्रदान किए और बताया कि वे अपने नोट्स में एलएलएम उत्तरों को कैसे उचित ठहराते हैं। निम्नलिखित उदाहरण में, उपयोगकर्ता ने विशेष रूप से एलएलएम मतिभ्रम को ठीक करने के लिए पर्याप्त दस्तावेज़ और सामग्री प्रदान की है।

सवाल हमारे पास कितने कार पार्किंग स्थान हैं?
बॉट उत्तर

दिए गए संदर्भ के आधार पर, हमारे पास कार पार्किंग स्थानों की संख्या निर्धारित करने के लिए पर्याप्त जानकारी नहीं है। संदर्भ में पार्किंग स्थानों के न्यूनतम आकार और बाहरी प्रकाश स्तर की आवश्यकताओं पर चर्चा की गई है, लेकिन यह पार्किंग स्थानों की एक विशिष्ट संख्या प्रदान नहीं करता है।

**आप निम्नलिखित संसाधनों में और स्पष्टीकरण देख सकते हैं:**

* एआरएस जनरल 10.0/05.01.02। डिज़ाइन मानदंड और परिशिष्ट/प्रदर्शन पैकेज एआर सॉर्ट करने योग्य डिज़ाइन मानदंड v20.1.1.pdf - पेज: 10

* एआरएस जनरल 10.0/05.01.02। डिज़ाइन मानदंड और परिशिष्ट/प्रदर्शन पैकेज एआर सॉर्ट करने योग्य डिज़ाइन मानदंड v20.1.1.pdf - पेज: 79

उपयोगकर्ता स्कोर दृढ़तापूर्वक असहमत
उपयोगकर्ता नोट यह डिज़ाइन मानदंड अनुभाग 21 01 13 के पृष्ठ 10 पर निर्दिष्ट है

पर्यवेक्षित फ़ाइन-ट्यूनिंग और सुदृढीकरण शिक्षण के साथ बॉट प्रतिक्रिया में सुधार करें

समाधान में फ़ाइन-ट्यूनिंग के तीन चरण शामिल हैं:

  1. लेबल किए गए डेटा का उपयोग करके पर्यवेक्षित फाइन-ट्यूनिंग का संचालन करें। इस विधि का वर्णन किया गया था अमेज़ॅन ईयू डिजाइन और निर्माण में सहायता के लिए अमेज़ॅन सेजमेकर पर एक जेनरेटिव एआई-संचालित समाधान.
  2. आगे एलएलएम ट्यूनिंग के लिए प्रश्न-उत्तर युग्मों को लेबल करने के लिए उपयोगकर्ता प्रतिक्रिया एकत्र करें।
  3. जब प्रशिक्षण डेटा तैयार हो जाए, तो मॉडल का उपयोग करके उसे और ट्यून करें मानवीय प्रतिक्रिया से सुदृढीकरण सीखना (आरएलएचएफ)।

आरएलएचएफ का व्यापक रूप से जनरेटिव आर्टिफिशियल इंटेलिजेंस (एआई) और एलएलएम अनुप्रयोगों में उपयोग किया जाता है। यह पुरस्कार फ़ंक्शन में मानवीय प्रतिक्रिया को शामिल करता है और पुरस्कारों को अधिकतम करने के लिए मॉडल को सुदृढीकरण सीखने के एल्गोरिदम के साथ प्रशिक्षित करता है, जिससे मॉडल मानवीय लक्ष्यों के साथ कार्यों को अधिक संरेखित करता है। निम्नलिखित आरेख चरणों की पाइपलाइन दिखाता है।

वर्कफ़्लो को ठीक से ट्यून करना

हमने सेजमेकर जम्पस्टार्ट पर मिस्ट्रल-7बी मॉडल के साथ अमेज़ॅन डी एंड सी दस्तावेज़ों का उपयोग करके कार्यप्रणाली का परीक्षण किया।

फाइन-ट्यूनिंग का पर्यवेक्षण किया

पिछली पोस्ट में, हमने दिखाया था कि कैसे फाइन-ट्यून फाल्कन-7बी मॉडल आरएजी पाइपलाइन से बेहतर प्रदर्शन करता है और क्यूए बॉट प्रतिक्रिया की गुणवत्ता और सटीकता में सुधार करता है। इस पोस्ट के लिए, हमने मिस्ट्रल-7बी मॉडल पर पर्यवेक्षित फाइन-ट्यूनिंग का प्रदर्शन किया। पर्यवेक्षित फाइन-ट्यूनिंग में 512 पैरामीटर (कुल 1024 पैरामीटर का 436,207,616%) पर PEFT/LoRA तकनीक (LoRA_r = 5.68, LoRA_alpha = 7,677,964,288) का उपयोग किया गया। प्रशिक्षण एलएलएम द्वारा कृत्रिम रूप से उत्पन्न और मनुष्यों द्वारा मान्य 3.8 नमूनों के साथ पी137एक्स नोड पर आयोजित किया गया था; यह प्रक्रिया 20 युगों के बाद अच्छी तरह से परिवर्तित हो गई है, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

एसएफटी प्रशिक्षण प्रक्रिया

सुव्यवस्थित मॉडल को 274 नमूनों द्वारा मान्य किया गया था, और सिमेंटिक समानता स्कोर द्वारा संदर्भ उत्तरों के साथ अनुमान परिणामों की तुलना की गई थी। स्कोर 0.8100 है, जो पारंपरिक आरएजी के 0.6419 के स्कोर से अधिक है।

सुदृढीकरण सीखने के लिए मानव और एआई प्रतिक्रिया एकत्र करें

आरएलएचएफ के लिए, विषय वस्तु विशेषज्ञों (एसएमई) द्वारा लेबल किए गए पर्याप्त मात्रा में उच्च गुणवत्ता वाले प्रशिक्षण नमूने आवश्यक हैं। हालाँकि, आरएलएचएफ प्रशिक्षण के बाद खराब-गुणवत्ता वाले मानव लेबल मूल मॉडल की तुलना में खराब मॉडल प्रदर्शन का कारण बनेंगे। एसएमई का समय है किसी भी संगठन में एक दुर्लभ संसाधन; सैकड़ों या हजारों एलएलएम प्रतिक्रियाओं की समीक्षा करने और फीडबैक प्रदान करने के लिए एसएमई से महत्वपूर्ण समय के निवेश की आवश्यकता होती है, जिनके पास निवेश पर स्पष्ट रिटर्न नहीं हो सकता है।

इस चुनौती से निपटने के लिए हमने इसे अपनाया एआई फीडबैक से सुदृढीकरण सीखना (आरएलएआईएफ) विधि। आरएलएआईएफ मूल्यांकन स्कोर प्रदान करने के लिए मनुष्यों के बजाय एक एआई सहायक (एक अन्य एलएलएम) को नियुक्त करता है। इस हाइब्रिड लर्निंग दृष्टिकोण में, लर्निंग एजेंट न केवल मानव के साथ बातचीत के आधार पर बल्कि किसी अन्य एआई मॉडल द्वारा प्रदान की गई प्रतिक्रिया के आधार पर कार्यों को परिष्कृत करता है। सुदृढीकरण सीखने के लिए पर्याप्त प्रशिक्षण डेटा प्रदान करना अधिक स्केलेबल है, और बहुत कम व्यक्तिपरक है क्योंकि प्रशिक्षण एसएमई के एक छोटे समूह की विशेष प्राथमिकताओं पर निर्भर नहीं है। एसएमई अभी भी शामिल हो सकते हैं, लेकिन केवल प्रक्रिया की निगरानी करने और एआई फीडबैक गुणवत्ता की जांच करने के लिए। यह एसएमई के कार्यभार को काफी कम कर देता है, क्योंकि एआई-जनरेटेड स्कोर और लेबल एसएमई के लिए विश्लेषण, फ़िल्टर और सॉर्ट करना बहुत कम जटिल होते हैं।

इस उपयोग के मामले में, हम सुदृढीकरण सीखने के चरण के लिए प्रशिक्षण नमूने के रूप में मूल्यांकन स्कोर उत्पन्न करने के लिए एंथ्रोपिक क्लाउड 2 मॉडल को निम्नलिखित संकेत प्रदान करते हैं:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

क्लाउड 2 मॉडल एक मूल्यांकन स्कोर और एक टिप्पणी उत्पन्न करता है कि स्कोर क्यों दिया गया है, जैसा कि निम्नलिखित उदाहरण में दिखाया गया है।

सवाल इस संदर्भ में 'फिट आउट वर्क्स' का क्या मतलब है?
संदर्भ उत्तर फिट आउट वर्क्स का तात्पर्य एक काल्पनिक डेवलपर शेल और कोर बेस-बिल्ड स्थिति से पहली प्राप्ति तिथि तक डेवलपर के माध्यम से या अमेज़ॅन की ओर से निर्माण अनुबंध के तहत किए गए कार्यों से है। इन कार्यों में अमेज़ॅन के आवश्यक फिट-आउट, बड़े-बॉक्स इंस्टॉलेशन और कस्टम शामिल हैं
क्यूए बॉट प्रतिक्रिया फिट आउट वर्क्स का तात्पर्य एक काल्पनिक डेवलपर शेल और कोर बेस-बिल्ड स्थिति से पहली प्राप्ति तिथि तक डेवलपर के माध्यम से या अमेज़ॅन की ओर से निर्माण अनुबंध के तहत किए गए कार्यों से है।
एआई स्कोर 4.5
ऐ टिप्पणी मशीन उत्तर मानक उत्तर से महत्वपूर्ण जानकारी प्रदान करता है - फिट आउट वर्क्स एक काल्पनिक डेवलपर शेल और कोर बेस-बिल्ड स्थिति से पहली प्राप्ति तिथि तक डेवलपर के माध्यम से अमेज़ॅन की ओर से निर्माण अनुबंध के तहत किए गए कार्यों को संदर्भित करता है। . अमेज़ॅन के आवश्यक फिट-आउट, बिग-बॉक्स इंस्टॉलेशन और अनुकूलन सहित अतिरिक्त विवरण प्रासंगिक हैं और आगे के संदर्भ प्रदान करने में मदद करते हैं, इसलिए मैंने मशीन उत्तर को 4.5 में से 5 अंक दिए हैं। यह मानक उत्तर का सार पकड़ता है और कुछ प्रदान करता है उपयोगी अतिरिक्त विवरण.

274 सत्यापन प्रश्नों में से, पर्यवेक्षित फाइन-ट्यून किए गए मॉडल ने 159 प्रतिक्रियाएं उत्पन्न कीं जिनमें एआई स्कोर 4 से अधिक था। हमने 60 से कम स्कोर वाले 3 उत्तर देखे; समग्र प्रतिक्रिया गुणवत्ता में सुधार करने की गुंजाइश है।

आरएलएचएफ से पहले फीडबैक स्कोर

अमेज़ॅन इंजीनियरिंग एसएमई ने इस एआई फीडबैक को मान्य किया और एआई स्कोर का उपयोग करने के लाभों को स्वीकार किया। एआई फीडबैक के बिना, एसएमई को कट-ऑफ उत्तरों और मतिभ्रम की पहचान करने के लिए प्रत्येक एलएलएम प्रतिक्रिया की समीक्षा और विश्लेषण करने और यह तय करने के लिए कुछ समय की आवश्यकता होगी कि एलएलएम सही सामग्री और मुख्य अवधारणाओं को लौटा रहा है या नहीं। एआई फीडबैक स्वचालित रूप से एआई स्कोर प्रदान करता है और एसएमई को स्कोर को मान्य करने और प्रतिक्रियाओं में रुझानों की पहचान करने के लिए फ़िल्टरिंग, सॉर्टिंग और ग्रुपिंग का उपयोग करने में सक्षम बनाता है। इससे एसएमई की समीक्षा का औसत समय 80% कम हो जाता है।

मानव और एआई फीडबैक से सुदृढीकरण सीखना

जब प्रशिक्षण नमूने तैयार हो जाते हैं, तो हम इसका उपयोग करते हैं समीपस्थ नीति अनुकूलन (पीपीओ) एल्गोरिदम सुदृढीकरण सीखने का कार्य करना। पीपीओ एक पॉलिसी ग्रेडिएंट पद्धति का उपयोग करता है, जो सीखने की प्रक्रिया में नीति को अद्यतन करने के लिए छोटे कदम उठाता है, ताकि सीखने वाले एजेंट विश्वसनीय रूप से इष्टतम नीति नेटवर्क तक पहुंच सकें। इससे प्रशिक्षण प्रक्रिया अधिक स्थिर हो जाती है और विचलन की संभावना कम हो जाती है।

प्रशिक्षण के दौरान, सबसे पहले हम एक इनाम मॉडल बनाने के लिए मानव- और एआई-लेबल डेटा का उपयोग करते हैं, जिसका उपयोग सीखने की प्रक्रिया में वजन अद्यतन को निर्देशित करने के लिए किया जाएगा। इस उपयोग के मामले के लिए, हम एक डिस्टिलरोबर्टा-बेस रिवॉर्ड मॉडल का चयन करते हैं और इसे निम्नलिखित प्रारूप में नमूनों द्वारा प्रशिक्षित करते हैं:

[Instruction, Chosen_response, Rejected_response]

निम्नलिखित एक प्रशिक्षण रिकॉर्ड का एक उदाहरण है.

अनुदेश प्रसंग के अनुसार समावेशी एवं सुलभ डिज़ाइन के लिए क्या निर्दिष्ट है?
चुना_प्रतिक्रिया ब्रीम क्रेडिट HEA06 - समावेशी और सुलभ डिज़ाइन - इमारत को सभी संभावित उपयोगकर्ताओं के लिए उपयुक्त, उपयुक्त और सुलभ बनाने के लिए डिज़ाइन किया गया है। ब्रीम चेक सूची A3 के अनुरूप एक एक्सेस रणनीति विकसित की गई है
अस्वीकृत_प्रतिक्रिया सन्दर्भ यही कहता है

इनाम मॉडल को सीखने की दर 1e-5 के साथ प्रशिक्षित किया जाता है। जैसा कि निम्नलिखित चार्ट में दिखाया गया है, प्रशिक्षण 10 युगों के बाद अच्छी तरह से एकत्रित हो जाता है।

आरएलएचएफ प्रशिक्षण प्रक्रिया

फिर इनाम मॉडल का उपयोग सुदृढीकरण सीखने के लिए किया जाता है। इस उपयोग के मामले में, हम सीखने में तेजी लाने के लिए PEFT/LoRA का उपयोग करते हैं। LoRA_r 32 है और LoRA_alpha 64 है। PPO-आधारित शिक्षा तीन युगों में 1.41e-5 की दर पर है। सुदृढीकरण प्रशिक्षण अत्यधिक अस्थिर है और लेबल डेटा और फीडबैक डेटा के प्रति बहुत संवेदनशील है। हम सीखने की प्रक्रिया का निरीक्षण करने के लिए रिवार्ड_मीन मीट्रिक, विशेष रूप से रिवॉर्ड मॉडल की निगरानी करके पर्यावरण से प्राप्त औसत इनाम का उपयोग करते हैं।

आरएलएआईएफ के बाद, हम देख सकते हैं कि सकारात्मक स्कोर (3 से ऊपर) वाले बॉट प्रतिक्रियाओं की संख्या 78.1% से बढ़कर 85.5% हो गई है, और नकारात्मक स्कोर (3 से नीचे) वाले बॉट प्रतिक्रियाओं की संख्या 21.9% से घटकर 14.5% हो गई है। कुल मिलाकर, औसत एआई फीडबैक स्कोर 8 से 3.9 तक 4.2% तक बढ़ जाता है।

आरएलएआईएफ द्वारा सुधार

आप निम्न उदाहरण में सुधार देख सकते हैं.

सवाल फर्श क्षेत्रों पर टाइल लगाने के लिए किस पेंच की आवश्यकता है?
संदर्भ कंक्रीट स्क्रीड फर्श केवल फर्श-टाइल वाले क्षेत्रों में लागू होता है। यह देखने के लिए कि फर्श-टाइलें कहाँ लागू हैं, ड्राइंग श्रृंखला ए-32 देखें।
RLAIF के समक्ष बॉट की प्रतिक्रिया कंक्रीट स्क्रीड फर्श केवल में लागू होता है
RLAIF से पहले AI स्कोर 3
RLAIF के बाद बॉट प्रतिक्रिया कंक्रीट स्क्रीड फर्श केवल टाइल वाले क्षेत्रों में लागू होता है। यह देखने के लिए कि टाइल फर्श कहाँ लागू है, ड्राइंग श्रृंखला ए-32 देखें।
RLAIF के बाद AI स्कोर 4.5

निष्कर्ष

जैसा कि चर्चा की गई है, यह पोस्ट अमेज़ॅन ईयू डिज़ाइन और कंस्ट्रक्शन टीम के साथ हमारे काम की निरंतरता है अमेज़ॅन ईयू डिजाइन और निर्माण में सहायता के लिए अमेज़ॅन सेजमेकर पर एक जेनरेटिव एआई-संचालित समाधान. इस पोस्ट में, हमने दिखाया कि कैसे हमने सुदृढीकरण सीखने के साथ मिस्ट्रल -7 बी मॉडल को ठीक करने के लिए मानव और एआई फीडबैक डेटा तैयार किया। आरएलएआईएफ के बाद मॉडल ने अमेज़ॅन इंजीनियरिंग के प्रश्न उत्तर देने वाले बॉट के लिए बेहतर प्रदर्शन प्रदान किया, जिससे एआई फीडबैक स्कोर में 8% का सुधार हुआ। अमेज़ॅन डी एंड सी टीम के पायलट प्रोजेक्ट में, आरएलएआईएफ का उपयोग करने से एसएमई के लिए सत्यापन कार्यभार अनुमानित 80% कम हो गया। अगले चरण के रूप में, हम अमेज़ॅन इंजीनियरिंग के डेटा इंफ्रास्ट्रक्चर से जुड़कर इस समाधान को बढ़ाएंगे, और लूप में एक मानव के साथ निरंतर सीखने की प्रक्रिया को स्वचालित करने के लिए एक रूपरेखा तैयार करेंगे। हम प्रॉम्प्ट टेम्पलेट को ट्यून करके एआई फीडबैक गुणवत्ता में और सुधार करेंगे।

इस प्रक्रिया के माध्यम से, हमने सीखा कि आरएलएचएफ और आरएलएआईएफ के माध्यम से प्रश्न उत्तर कार्यों की गुणवत्ता और प्रदर्शन को और कैसे बेहतर बनाया जाए।

  • एलएलएम से सटीक और जिम्मेदार आउटपुट प्रदान करने के लिए मानव सत्यापन और संवर्द्धन आवश्यक है। मॉडल प्रतिक्रिया को और बेहतर बनाने के लिए आरएलएचएफ में मानवीय प्रतिक्रिया का उपयोग किया जा सकता है।
  • RLAIF मूल्यांकन और सीखने के चक्र को स्वचालित करता है। एआई-जनित फीडबैक कम व्यक्तिपरक है क्योंकि यह एसएमई के एक छोटे समूह की किसी विशेष प्राथमिकता पर निर्भर नहीं करता है।
  • एसएमई से आवश्यक प्रयासों को कम करते हुए निरंतर सुदृढीकरण सीखने के माध्यम से बॉट गुणवत्ता में सुधार करने के लिए आरएलएआईएफ अधिक स्केलेबल है। यह बड़े संगठनों के भीतर डोमेन-विशिष्ट जेनेरिक एआई समाधान विकसित करने के लिए विशेष रूप से उपयोगी है।
  • यह प्रक्रिया नियमित आधार पर की जानी चाहिए, खासकर जब समाधान द्वारा कवर करने के लिए नया डोमेन डेटा उपलब्ध हो।

इस उपयोग के मामले में, हमने कई एलएलएम का परीक्षण करने और कई एलएलएम प्रशिक्षण दृष्टिकोणों के साथ प्रयोग करने के लिए सेजमेकर जम्पस्टार्ट का उपयोग किया। यह अधिकतम दक्षता और गुणवत्ता के साथ एआई फीडबैक और सीखने के चक्र को महत्वपूर्ण रूप से तेज करता है। अपने स्वयं के प्रोजेक्ट के लिए, आप अपने उपयोगकर्ताओं की प्रतिक्रिया एकत्र करने के लिए मानव-इन-द-लूप दृष्टिकोण पेश कर सकते हैं, या किसी अन्य एलएलएम का उपयोग करके एआई फीडबैक उत्पन्न कर सकते हैं। फिर आप आरएलएचएफ और आरएलएआईएफ का उपयोग करके अपने मॉडलों को बेहतर बनाने के लिए इस पोस्ट में परिभाषित तीन-चरणीय प्रक्रिया का पालन कर सकते हैं। हम प्रक्रिया को तेज़ करने के लिए सेजमेकर जम्पस्टार्ट का उपयोग करके तरीकों का प्रयोग करने की सलाह देते हैं।


लेखक के बारे में

युनफेईयुनफेई बाई AWS में वरिष्ठ समाधान वास्तुकार हैं। एआई/एमएल, डेटा साइंस और एनालिटिक्स में पृष्ठभूमि के साथ, युनफेई ग्राहकों को व्यावसायिक परिणाम देने के लिए एडब्ल्यूएस सेवाओं को अपनाने में मदद करता है। वह एआई/एमएल और डेटा एनालिटिक्स समाधान डिजाइन करते हैं जो जटिल तकनीकी चुनौतियों को दूर करते हैं और रणनीतिक उद्देश्यों को आगे बढ़ाते हैं। युनफेई ने इलेक्ट्रॉनिक और इलेक्ट्रिकल इंजीनियरिंग में पीएचडी की है। काम के अलावा युनफेई को पढ़ना और संगीत पसंद है।

एलाड_फोटोएलाड ड्वेक अमेज़न में कंस्ट्रक्शन टेक्नोलॉजी मैनेजर हैं। निर्माण और परियोजना प्रबंधन में पृष्ठभूमि के साथ, एलाड निर्माण परियोजनाओं को पूरा करने के लिए टीमों को नई प्रौद्योगिकियों और डेटा-आधारित प्रक्रियाओं को अपनाने में मदद करता है। वह आवश्यकताओं और समाधानों की पहचान करता है, और विशिष्ट विशेषताओं के विकास को सुविधाजनक बनाता है। एलाड के पास स्ट्रक्चरल इंजीनियरिंग में एमबीए और बीएससी है। काम के अलावा, एलाड को योग करना, लकड़ी का काम करना और अपने परिवार के साथ यात्रा करना पसंद है।

लुका_फोटोलुका सेराबोन अमेज़न में बिजनेस इंटेलिजेंस इंजीनियर हैं। डेटा साइंस और एनालिटिक्स में अपनी पृष्ठभूमि से प्रेरणा लेते हुए, लुका ने अपने ग्राहकों की अनूठी जरूरतों को पूरा करने के लिए तकनीकी समाधान तैयार किए, जो उन्हें अधिक टिकाऊ और स्केलेबल प्रक्रियाओं की ओर ले जाता है। डेटा साइंस में एमएससी के साथ, लुका को अपने ख़ाली क्षणों में DIY परियोजनाओं में संलग्न होना, बागवानी करना और पाक व्यंजनों के साथ प्रयोग करना पसंद है।

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी

हमारे साथ चैट करें

नमस्ते! मैं आपकी कैसे मदद कर सकता हूँ?