ភាពវៃឆ្លាតទិន្នន័យជំនាន់

កែលម្អការអនុវត្ត LLM ជាមួយនឹងមតិកែលម្អរបស់មនុស្ស និង AI នៅលើ Amazon SageMaker សម្រាប់ Amazon Engineering | សេវាកម្មគេហទំព័រ Amazon

កាលបរិច្ឆេទ:

ក្រុម Amazon EU Design and Construction (Amazon D&C) គឺជាក្រុមវិស្វករដែលរចនា និងសាងសង់ឃ្លាំង Amazon ។ ក្រុមរុករកឯកសារមួយចំនួនធំ និងស្វែងរកព័ត៌មានត្រឹមត្រូវ ដើម្បីប្រាកដថាការរចនាឃ្លាំងត្រូវតាមស្តង់ដារខ្ពស់បំផុត។ នៅក្នុងប្រកាស ដំណោះស្រាយដែលដំណើរការដោយ AI ទូទៅនៅលើ Amazon SageMaker ដើម្បីជួយ Amazon EU Design and Constructionយើងបានបង្ហាញពីសំណួរដែលឆ្លើយនូវដំណោះស្រាយ bot ដោយប្រើ a ទាញយកជំនាន់ដែលបានបន្ថែម (RAG) បំពង់ដែលមានការលៃតម្រូវ គំរូភាសាធំ (LLM) សម្រាប់ Amazon D&C ដើម្បីទាញយកព័ត៌មានត្រឹមត្រូវពីបរិមាណដ៏ច្រើននៃឯកសារដែលមិនមានការរៀបចំប្រកបដោយប្រសិទ្ធភាព និងផ្តល់សេវាកម្មទាន់ពេលវេលា និងគុណភាពខ្ពស់នៅក្នុងគម្រោងសាងសង់របស់ពួកគេ។ ក្រុមការងារ Amazon D&C បានអនុវត្តដំណោះស្រាយក្នុងការសាកល្បងសម្រាប់វិស្វករ Amazon និងប្រមូលមតិអ្នកប្រើ។

នៅក្នុងការបង្ហោះនេះ យើងចែករំលែកពីរបៀបដែលយើងវិភាគទិន្នន័យមតិកែលម្អ និងកំណត់ការកំណត់នៃភាពត្រឹមត្រូវ និងការយល់ច្រលំដែល RAG បានផ្តល់ ហើយប្រើប្រាស់ពិន្ទុវាយតម្លៃរបស់មនុស្សដើម្បីបណ្តុះបណ្តាលគំរូតាមរយៈ ការពង្រឹងការរៀន។. ដើម្បីបង្កើនគំរូបណ្តុះបណ្តាលសម្រាប់ការរៀនសូត្រកាន់តែប្រសើរ យើងក៏បានប្រើ LLM ផ្សេងទៀតដើម្បីបង្កើតពិន្ទុមតិកែលម្អផងដែរ។ វិធីសាស្រ្តនេះបានដោះស្រាយដែនកំណត់ RAG និងធ្វើឱ្យប្រសើរឡើងបន្ថែមទៀតនូវគុណភាពការឆ្លើយតបរបស់ bot ។ យើងធ្វើបទបង្ហាញអំពីដំណើរការសិក្សាពង្រឹង និងលទ្ធផលគោលដើម្បីបង្ហាញពីការកែលម្អការអនុវត្ត LLM ។ ដំណោះស្រាយប្រើ ក្រុមហ៊ុន Amazon SageMaker JumpStart ជាសេវាកម្មស្នូលសម្រាប់ការដាក់ពង្រាយគំរូ ការកែតម្រូវ និងការរៀនពង្រឹង។

ប្រមូលមតិកែលម្អពីវិស្វករ Amazon នៅក្នុងគម្រោងសាកល្បង

បន្ទាប់ពីបង្កើតដំណោះស្រាយដែលបានពិពណ៌នានៅក្នុង ដំណោះស្រាយដែលដំណើរការដោយ AI ទូទៅនៅលើ Amazon SageMaker ដើម្បីជួយ Amazon EU Design and Constructionក្រុមការងារ Amazon D&C បានដាក់ពង្រាយដំណោះស្រាយ និងដំណើរការគម្រោងសាកល្បងជាមួយវិស្វករ Amazon ។ វិស្វករបានចូលប្រើប្រព័ន្ធសាកល្បងតាមរយៈកម្មវិធីគេហទំព័រដែលបង្កើតឡើងដោយ ស្ទ្រីមភ្ជាប់ជាមួយបំពង់ RAG ។ នៅក្នុងបំពង់បង្ហូរប្រេងយើងបានប្រើ សេវាកម្ម Amazon OpenSearch សម្រាប់មូលដ្ឋានទិន្នន័យវ៉ិចទ័រ ហើយបានដាក់ពង្រាយគំរូ Mistral-7B-Instruct ដែលបានកែសម្រួលយ៉ាងល្អនៅលើ Amazon SageMaker ។

គោលបំណងសំខាន់មួយរបស់អ្នកបើកយន្តហោះគឺដើម្បីប្រមូលមតិកែលម្អពីវិស្វករ Amazon និងប្រើប្រាស់មតិកែលម្អដើម្បីកាត់បន្ថយការយល់ច្រលំ LLM បន្ថែមទៀត។ ដើម្បីសម្រេចបាននូវចំណុចនេះ យើងបានបង្កើតម៉ូឌុលប្រមូលមតិកែលម្អនៅក្នុង UI ដូចបង្ហាញក្នុងរូបភាពខាងក្រោម ហើយបានរក្សាទុកព័ត៌មាននៃវគ្គគេហទំព័រ និងមតិអ្នកប្រើនៅក្នុង ក្រុមហ៊ុន Amazon DynamoDB. តាមរយៈ UI ការប្រមូលមតិកែលម្អ វិស្វករ Amazon អាចជ្រើសរើសពីកម្រិតពេញចិត្តចំនួនប្រាំ៖ មិនយល់ស្រប មិនយល់ស្រប អព្យាក្រឹត យល់ព្រម និងយល់ព្រមយ៉ាងខ្លាំង ដែលត្រូវគ្នានឹងពិន្ទុមតិកែលម្អពី 1-5 ។ ពួកគេក៏អាចផ្តល់ចម្លើយប្រសើរជាងមុនចំពោះសំណួរ ឬមតិយោបល់អំពីមូលហេតុដែលការឆ្លើយតបរបស់ LLM មិនពេញចិត្ត។

UI មតិកែលម្អរបស់មនុស្ស

ក្នុងអំឡុងពេលសាកល្បង អ្នកប្រើប្រាស់បានផ្តល់ការឆ្លើយតប 118 ។ តារាងខាងក្រោមបង្ហាញពីការចែកចាយពីអវិជ្ជមានទៅវិជ្ជមាន។ យើងបានសង្កេតឃើញចម្លើយមិនត្រឹមត្រូវដែលត្រូវបានសម្គាល់ដោយមតិរិះគន់អវិជ្ជមាន (មិនយល់ស្រប និងមិនយល់ស្របយ៉ាងខ្លាំង) គឺ 45% ក្នុងចំណោមមតិស្ថាបនាសរុប (53 ក្នុងចំណោម 118)។ កំហុសមួយចំនួន (ប្រហែល 10% នៃមតិរិះគន់អវិជ្ជមាន និង 7.5% នៃការឆ្លើយតបសរុប) អាចត្រូវបានដោះស្រាយដោយការអប់រំអ្នកប្រើប្រាស់ និងវិស្វកម្មភ្លាមៗ។ លើសពីនេះ យើងអាចដោះស្រាយបញ្ហាជាមួយនឹងដំណោះស្រាយនៃការកែតម្រូវ និងការរៀនពង្រឹង LLM ដែលបានពិពណ៌នានៅក្នុងផ្នែកបន្ទាប់។

មតិអ្នកប្រើពីអ្នកបើកយន្តហោះ

អ្នក​ប្រើ​មួយ​ចំនួន​គ្រាន់​តែ​ទុក​ចំណាំ​មួយ​ចំនួន​ដូច​ជា "អស្ចារ្យ!" សម្រាប់ចម្លើយដែលយល់ព្រមយ៉ាងខ្លាំង ឬ "មិនឆ្លើយសំណួរ" សម្រាប់ចម្លើយដែលមិនយល់ស្របយ៉ាងខ្លាំង។ អ្នក​ប្រើ​ផ្សេង​ទៀត​បាន​ផ្តល់​ពិន្ទុ និង​ពន្យល់​ពី​របៀប​ដែល​ពួក​គេ​បង្ហាញ​ពី​ភាពត្រឹមត្រូវ​នៃ​ចម្លើយ LLM ក្នុង​កំណត់​ត្រា​របស់​ពួកគេ។ ក្នុងឧទាហរណ៍ខាងក្រោម អ្នកប្រើប្រាស់បានផ្តល់ជាពិសេសនូវឯកសារ និងខ្លឹមសារគ្រប់គ្រាន់ ដើម្បីកែតម្រូវការយល់ច្រលំ LLM ។

សំនួរ តើ​យើង​មាន​ចំណត​រថយន្ត​ប៉ុន្មាន?
Bot ចម្លើយ

ដោយផ្អែកលើបរិបទដែលបានផ្តល់ឱ្យ យើងមិនមានព័ត៌មានគ្រប់គ្រាន់ដើម្បីកំណត់ចំនួនកន្លែងចតរថយន្តទេ។ បរិបទពិភាក្សាអំពីទំហំអប្បបរមានៃចំណតរថយន្ត និងតម្រូវការសម្រាប់កម្រិតភ្លើងបំភ្លឺខាងក្រៅ ប៉ុន្តែវាមិនផ្តល់ចំនួនជាក់លាក់នៃចំណតរថយន្តទេ។

**អ្នកអាចយោងទៅលើការពន្យល់បន្ថែមនៅក្នុងធនធានខាងក្រោម៖**

* ARS GEN 10.0/05.01.02 ។ លក្ខណៈវិនិច្ឆ័យនៃការរចនា និងឧបសម្ព័ន្ធ/កញ្ចប់ការអនុវត្ត AR លក្ខណៈវិនិច្ឆ័យរចនាដែលអាចតម្រៀបបាន v20.1.1.pdf – ទំព័រ៖ 10

* ARS GEN 10.0/05.01.02 ។ លក្ខណៈវិនិច្ឆ័យនៃការរចនា និងឧបសម្ព័ន្ធ/កញ្ចប់ការអនុវត្ត AR លក្ខណៈវិនិច្ឆ័យរចនាដែលអាចតម្រៀបបាន v20.1.1.pdf – ទំព័រ៖ 79

ពិន្ទុអ្នកប្រើប្រាស់ មិនយល់ស្របខ្លាំង
កំណត់ចំណាំអ្នកប្រើប្រាស់ នេះត្រូវបានបញ្ជាក់នៅទំព័រ 21 នៃលក្ខណៈវិនិច្ឆ័យនៃការរចនាផ្នែក 01 13 10

ធ្វើអោយប្រសើរឡើងនូវការឆ្លើយតបរបស់ bot ជាមួយនឹងការត្រួតពិនិត្យការកែតម្រូវ និងការពង្រឹងការរៀនសូត្រ

ដំណោះស្រាយមានបីជំហាននៃការកែតម្រូវ៖

  1. ធ្វើការកែតម្រូវការផាកពិន័យដែលមានការត្រួតពិនិត្យដោយប្រើទិន្នន័យដែលមានស្លាក។ វិធីសាស្រ្តនេះត្រូវបានពិពណ៌នានៅក្នុង ដំណោះស្រាយដែលដំណើរការដោយ AI ទូទៅនៅលើ Amazon SageMaker ដើម្បីជួយ Amazon EU Design and Construction.
  2. ប្រមូលមតិអ្នកប្រើដើម្បីដាក់ស្លាកគូសំណួរ-ចម្លើយសម្រាប់ការលៃតម្រូវ LLM បន្ថែមទៀត។
  3. នៅពេលដែលទិន្នន័យបណ្តុះបណ្តាលរួចរាល់ សូមកែតម្រូវគំរូដោយប្រើ ការពង្រឹងការរៀនពីមតិកែលម្អរបស់មនុស្ស (RLHF) ។

RLHF ត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយនៅទូទាំងកម្មវិធីបញ្ញាសិប្បនិមិត្ត (AI) និង LLM ។ វារួមបញ្ចូលមតិកែលម្អរបស់មនុស្សនៅក្នុងមុខងារផ្តល់រង្វាន់ និងបណ្តុះបណ្តាលគំរូជាមួយនឹងក្បួនដោះស្រាយការរៀនពង្រឹងដើម្បីបង្កើនរង្វាន់ ដែលធ្វើឱ្យគំរូអនុវត្តកិច្ចការកាន់តែសមស្របទៅនឹងគោលដៅរបស់មនុស្ស។ ដ្យាក្រាមខាងក្រោមបង្ហាញពីបំពង់នៃជំហាន។

សម្រួលលំហូរការងារ

យើងបានសាកល្បងវិធីសាស្រ្តដោយប្រើឯកសារ Amazon D&C ជាមួយនឹងគំរូ Mistral-7B នៅលើ SageMaker JumpStart ។

ការត្រួតពិនិត្យការកែតម្រូវ

នៅក្នុងការប្រកាសមុន យើងបានបង្ហាញពីរបៀបដែលម៉ូដែល Falcon-7B ដែលត្រូវបានកែសម្រួលយ៉ាងល្អប្រសើរជាងបំពង់ RAG និងធ្វើអោយប្រសើរឡើងនូវគុណភាព និងភាពត្រឹមត្រូវនៃការឆ្លើយតបរបស់ QA bot ។ សម្រាប់ការប្រកាសនេះ យើងបានធ្វើការកែសម្រួលការផាកពិន័យលើគំរូ Mistral-7B ។ ការលៃតម្រូវការផាកពិន័យដែលបានត្រួតពិនិត្យបានប្រើបច្ចេកទេស PEFT/LoRA (LoRA_r = 512, LoRA_alpha = 1024) លើប៉ារ៉ាម៉ែត្រ 436,207,616 (5.68% នៃប៉ារ៉ាម៉ែត្រសរុប 7,677,964,288) ។ ការបណ្តុះបណ្តាលត្រូវបានធ្វើឡើងនៅលើថ្នាំង p3.8x ជាមួយនឹងសំណាកចំនួន 137 ដែលសំយោគដោយ LLM និងត្រូវបានបញ្ជាក់ដោយមនុស្ស។ ដំណើរការនេះត្រូវបានបង្រួបបង្រួមយ៉ាងល្អបន្ទាប់ពី 20 សម័យ ដូចដែលបានបង្ហាញក្នុងរូបខាងក្រោម។

ដំណើរការបណ្តុះបណ្តាល SFT

គំរូដែលបានកែតម្រូវត្រូវបានផ្ទៀងផ្ទាត់ដោយគំរូចំនួន 274 ហើយលទ្ធផលសន្និដ្ឋានត្រូវបានប្រៀបធៀបជាមួយនឹងចម្លើយយោងដោយពិន្ទុភាពស្រដៀងគ្នានៃន័យធៀប។ ពិន្ទុគឺ 0.8100 ដែលខ្ពស់ជាងពិន្ទុ 0.6419 ពី RAG ប្រពៃណី។

ប្រមូលមតិកែលម្អរបស់មនុស្ស និង AI សម្រាប់ការពង្រឹងការរៀនសូត្រ

សម្រាប់ RLHF ចំនួនគ្រប់គ្រាន់នៃសំណាកបណ្តុះបណ្តាលដែលមានគុណភាពខ្ពស់ដាក់ស្លាកដោយអ្នកជំនាញប្រធានបទ (SMEs) គឺចាំបាច់ណាស់។ ទោះជាយ៉ាងណាក៏ដោយ ស្លាកសញ្ញាមនុស្សដែលមានគុណភាពអន់នឹងបណ្តាលឱ្យដំណើរការគំរូអាក្រក់ជាងគំរូដើមបន្ទាប់ពីការបណ្តុះបណ្តាល RLHF ។ ពេលវេលារបស់ SMEs គឺ ធនធានកម្រនៅក្នុងអង្គការណាមួយ។; ការពិនិត្យឡើងវិញនូវការឆ្លើយតបរាប់រយ ឬរាប់ពាន់នៃ LLM និងការផ្តល់នូវមតិកែលម្អតម្រូវឱ្យមានការវិនិយោគពេលវេលាដ៏សំខាន់ពីសហគ្រាសធុនតូច និងមធ្យម ដែលអាចមិនមានផលចំណេញច្បាស់លាស់លើការវិនិយោគ។

ដើម្បីដោះស្រាយបញ្ហាប្រឈមនេះ យើងបានអនុម័ត ការពង្រឹងការរៀនពីមតិកែលម្អ AI (RLAIF) វិធីសាស្រ្ត។ RLAIF ជួលជំនួយការ AI (LLM ផ្សេងទៀត) ដើម្បីផ្តល់ពិន្ទុវាយតម្លៃជាជាងពីមនុស្ស។ នៅក្នុងវិធីសាស្រ្តសិក្សាបែបកូនកាត់នេះ ភ្នាក់ងារសិក្សាបានកែលម្អសកម្មភាពមិនត្រឹមតែផ្អែកលើអន្តរកម្មជាមួយមនុស្សប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងពីមតិកែលម្អដែលផ្តល់ដោយគំរូ AI មួយផ្សេងទៀតផងដែរ។ វាអាចធ្វើមាត្រដ្ឋានបានច្រើនក្នុងការផ្តល់នូវទិន្នន័យបណ្តុះបណ្តាលគ្រប់គ្រាន់សម្រាប់ការពង្រឹងការរៀនសូត្រ និងតិចជាងប្រធានបទ ដោយសារការបណ្តុះបណ្តាលមិនអាស្រ័យលើចំណង់ចំណូលចិត្តជាក់លាក់ពីក្រុមតូចនៃសហគ្រាសធុនតូច និងមធ្យម។ សហគ្រាសធុនតូច និងមធ្យមអាចនៅតែពាក់ព័ន្ធ ប៉ុន្តែគ្រាន់តែដើម្បីត្រួតពិនិត្យដំណើរការ និងពិនិត្យមើលគុណភាពនៃមតិកែលម្អ AI ប៉ុណ្ណោះ។ នេះកាត់បន្ថយបន្ទុកការងាររបស់សហគ្រាសធុនតូច និងមធ្យមយ៉ាងច្រើន ដោយសារតែពិន្ទុ និងស្លាកដែលបង្កើតដោយ AI មានភាពស្មុគស្មាញតិចជាងសម្រាប់សហគ្រាសធុនតូច និងមធ្យមក្នុងការវិភាគ ត្រង និងតម្រៀប។

ក្នុង​ករណី​ប្រើប្រាស់​នេះ យើង​ផ្តល់​ការ​ជំរុញ​ដូច​ខាង​ក្រោម​ដល់​គំរូ Anthropic Claude 2 ដើម្បី​បង្កើត​ពិន្ទុ​វាយ​តម្លៃ​ជា​គំរូ​បណ្ដុះបណ្ដាល​សម្រាប់​ជំហាន​សិក្សា​ពង្រឹង៖

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

គំរូ Claude 2 បង្កើតពិន្ទុវាយតម្លៃ និងមតិយោបល់អំពីមូលហេតុដែលពិន្ទុត្រូវបានផ្តល់ឱ្យ ដូចដែលបានបង្ហាញក្នុងឧទាហរណ៍ខាងក្រោម។

សំនួរ តើ 'Fit Out Works' មានន័យយ៉ាងណាក្នុងបរិបទនេះ?
ចម្លើយយោង Fit Out Works សំដៅលើការងារដែលបានអនុវត្តក្រោមកិច្ចសន្យាសាងសង់ដោយ ឬក្នុងនាមក្រុមហ៊ុន Amazon តាមរយៈអ្នកអភិវឌ្ឍន៍រហូតដល់ថ្ងៃទទួលដំបូងពីទីតាំងបង្កើត Shell & Core Base-build គួរឱ្យកត់សម្គាល់។ ការងារទាំងនេះរួមមាន Fit-Outs ដែលត្រូវការរបស់ Amazon ការដំឡើងប្រអប់ធំ និងផ្ទាល់ខ្លួន
ការឆ្លើយតប QA Bot Fit Out Works សំដៅលើការងារដែលបានអនុវត្តក្រោមកិច្ចសន្យាសាងសង់ដោយ ឬក្នុងនាមក្រុមហ៊ុន Amazon តាមរយៈអ្នកអភិវឌ្ឍន៍រហូតដល់ថ្ងៃទទួលដំបូងពីទីតាំងបង្កើត Shell & Core Base-build គួរឱ្យកត់សម្គាល់។
ពិន្ទុ AI 4.5
យោបល់ AI ចម្លើយរបស់ម៉ាស៊ីនផ្តល់ព័ត៌មានសំខាន់ៗពីចម្លើយស្តង់ដារ – ដែល Fit Out Works សំដៅលើការងារដែលបានអនុវត្តក្រោមកិច្ចសន្យាសាងសង់ដោយ ឬក្នុងនាមក្រុមហ៊ុន Amazon តាមរយៈអ្នកអភិវឌ្ឍន៍រហូតដល់កាលបរិច្ឆេទទទួលដំបូងពីអ្នកអភិវឌ្ឍន៍ Shell & Core Base-Build . ព័ត៌មានលម្អិតបន្ថែមអំពីការរួមបញ្ចូល Fit-Outs ដែលត្រូវការរបស់ Amazon ការដំឡើងប្រអប់ធំ និងការប្ដូរតាមបំណងគឺពាក់ព័ន្ធ និងជួយផ្តល់បរិបទបន្ថែមទៀត ដូច្នេះខ្ញុំបានពិន្ទុម៉ាស៊ីនឆ្លើយ 4.5 ក្នុងចំណោម 5 ។ វាចាប់យកខ្លឹមសារនៃចម្លើយស្តង់ដារ និងផ្តល់នូវមួយចំនួន ព័ត៌មានលម្អិតបន្ថែមមានប្រយោជន៍។

ក្នុងចំណោមសំណួរដែលមានសុពលភាព 274 នោះ គំរូដែលបានកែតម្រូវដោយការត្រួតពិនិត្យបានបង្កើតការឆ្លើយតប 159 ដែលមានពិន្ទុ AI ធំជាង 4។ យើងបានសង្កេតឃើញចម្លើយចំនួន 60 ដែលមានពិន្ទុទាបជាង 3។ មានកន្លែងដើម្បីកែលម្អគុណភាពឆ្លើយតបទាំងមូល។

ពិន្ទុមតិត្រឡប់មុន RLHF

សហគ្រាសធុនតូច និងមធ្យមវិស្វកម្ម Amazon បានផ្ទៀងផ្ទាត់មតិកែលម្អ AI នេះហើយបានទទួលស្គាល់អត្ថប្រយោជន៍នៃការប្រើប្រាស់ពិន្ទុ AI ។ បើគ្មានមតិកែលម្អពី AI សហគ្រាសធុនតូច និងមធ្យមនឹងត្រូវការពេលវេលាខ្លះដើម្បីពិនិត្យមើល និងវិភាគការឆ្លើយតបរបស់ LLM នីមួយៗដើម្បីកំណត់ចម្លើយដែលកាត់ចេញ និងការយល់ច្រលំ ហើយដើម្បីវិនិច្ឆ័យថាតើ LLM ត្រលប់មកវិញនូវខ្លឹមសារត្រឹមត្រូវ និងគោលគំនិតសំខាន់ៗដែរឬទេ។ មតិកែលម្អរបស់ AI ផ្តល់នូវពិន្ទុ AI ដោយស្វ័យប្រវត្តិ និងអនុញ្ញាតឱ្យសហគ្រាសធុនតូច និងមធ្យមប្រើប្រាស់ការច្រោះ តម្រៀប និងការដាក់ជាក្រុម ដើម្បីធ្វើភាពត្រឹមត្រូវនៃពិន្ទុ និងកំណត់និន្នាការក្នុងការឆ្លើយតប។ នេះកាត់បន្ថយពេលវេលាពិនិត្យជាមធ្យមរបស់ SME 80%។

ការពង្រឹងការរៀនពីមតិយោបល់របស់មនុស្ស និង AI

នៅពេលដែលគំរូបណ្តុះបណ្តាលរួចរាល់ យើងប្រើ ក្បួនដោះស្រាយការបង្កើនប្រសិទ្ធភាពគោលនយោបាយជិតៗ (PPO) ដើម្បីអនុវត្តការរៀនពង្រឹង។ PPO ប្រើវិធីសាស្ត្រជម្រាលគោលនយោបាយ ដែលចាត់វិធានការតិចតួចដើម្បីធ្វើបច្ចុប្បន្នភាពគោលការណ៍ក្នុងដំណើរការសិក្សា ដូច្នេះភ្នាក់ងារសិក្សាអាចជឿជាក់បានទៅដល់បណ្តាញគោលនយោបាយដ៏ល្អប្រសើរ។ នេះធ្វើឱ្យដំណើរការបណ្តុះបណ្តាលកាន់តែមានស្ថេរភាព និងកាត់បន្ថយលទ្ធភាពនៃការបង្វែរ។

ក្នុងអំឡុងពេលបណ្តុះបណ្តាល ជាដំបូងយើងប្រើប្រាស់ទិន្នន័យដែលមានស្លាកមនុស្ស និង AI ដើម្បីបង្កើតគំរូរង្វាន់ ដែលនឹងត្រូវបានប្រើណែនាំការអាប់ដេតទម្ងន់នៅក្នុងដំណើរការសិក្សា។ សម្រាប់ករណីប្រើប្រាស់នេះ យើងជ្រើសរើសគំរូរង្វាន់ distilroberta-base ហើយបណ្តុះបណ្តាលវាតាមគំរូក្នុងទម្រង់ខាងក្រោម៖

[Instruction, Chosen_response, Rejected_response]

ខាង​ក្រោម​នេះ​គឺ​ជា​ឧទាហរណ៍​នៃ​កំណត់​ត្រា​បណ្ដុះ​បណ្ដាល។

ការណែនាំ យោងតាមបរិបទ តើអ្វីដែលបានបញ្ជាក់សម្រាប់ការរចនារួមបញ្ចូល និងអាចចូលដំណើរការបាន?
Chosen_ឆ្លើយតប BREEAM Credit HEA06 – ការរចនារួមបញ្ចូល និងអាចចូលដំណើរការបាន – អគារនេះត្រូវបានរចនាឡើងដើម្បីឱ្យមានគោលបំណង សមស្រប និងអាចចូលប្រើបានដោយអ្នកប្រើប្រាស់សក្តានុពលទាំងអស់។ យុទ្ធសាស្ត្រចូលប្រើត្រូវបានបង្កើតឡើងស្របតាម BREEAM Check list A3
Rejected_ឆ្លើយតប បរិបទ​បញ្ជាក់​ថា​

គំរូរង្វាន់ត្រូវបានបណ្តុះបណ្តាលជាមួយនឹងអត្រាសិក្សា 1e-5 ។ ដូចដែលបានបង្ហាញនៅក្នុងតារាងខាងក្រោម ការបណ្តុះបណ្តាលបានបញ្ចូលគ្នាយ៉ាងល្អបន្ទាប់ពី 10 សម័យ។

ដំណើរការបណ្តុះបណ្តាល RLHF

បន្ទាប់មកគំរូរង្វាន់ត្រូវបានប្រើសម្រាប់ការពង្រឹងការរៀនសូត្រ។ សម្រាប់ករណីប្រើប្រាស់នេះ យើងប្រើ PEFT/LoRA ដើម្បីពន្លឿនការរៀនសូត្រ។ LoRA_r គឺ 32 ហើយ LoRA_alpha គឺ 64 ។ ការរៀនផ្អែកលើ PPO គឺស្ថិតនៅលើអត្រា 1.41e-5 ក្នុងបីសម័យកាល។ ការបណ្តុះបណ្តាលពង្រឹងគឺមានភាពប្រែប្រួលខ្លាំង និងមានភាពរសើបខ្លាំងចំពោះទិន្នន័យស្លាក និងទិន្នន័យមតិកែលម្អ។ យើងប្រើម៉ែត្ររង្វាន់ reward_mean ដែលជារង្វាន់ជាមធ្យមដែលទទួលបានពីបរិស្ថានដោយការត្រួតពិនិត្យជាពិសេសទៅលើគំរូរង្វាន់ ដើម្បីសង្កេតមើលដំណើរការសិក្សា។

បន្ទាប់ពី RLAIF យើងអាចមើលឃើញចំនួននៃការឆ្លើយតប bot ជាមួយនឹងពិន្ទុវិជ្ជមាន (ខាងលើ 3) កើនឡើងពី 78.1% ទៅ 85.5% ហើយអ្នកដែលមានពិន្ទុអវិជ្ជមាន (ខាងក្រោម 3) ថយចុះពី 21.9% ទៅ 14.5% ។ សរុបមក ពិន្ទុមតិយោបល់ AI ជាមធ្យមកើនឡើងដល់ 8% ពី 3.9 ដល់ 4.2។

ការកែលម្អដោយ RLAIF

អ្នកអាចឃើញភាពប្រសើរឡើងក្នុងឧទាហរណ៍ខាងក្រោម។

សំនួរ សម្រាប់កម្រាលឥដ្ឋ តើត្រូវការកម្រាលឥដ្ឋអ្វីខ្លះ?
ឯកសារយោង កម្រាលបេតុងអាចអនុវត្តបានតែក្នុងបរិវេណដែលមានកម្រាលឥដ្ឋប៉ុណ្ណោះ។ សូមមើលគំនូរស៊េរី A-32 ដើម្បីមើលកន្លែងដែលកម្រាលឥដ្ឋអាចអនុវត្តបាន។
ការឆ្លើយតប Bot មុនពេល RLAIF កម្រាលបេតុងអាចអនុវត្តបានតែនៅក្នុង
ពិន្ទុ AI មុន RLAIF 3
ការឆ្លើយតបរបស់ Bot បន្ទាប់ពី RLAIF កម្រាលឥដ្ឋបេតុងអាចអនុវត្តបានតែក្នុងផ្នែកដែលកំពុងដាក់ក្បឿងប៉ុណ្ណោះ។ សូមមើលគំនូរស៊េរី A-32 ដើម្បីមើលកន្លែងដែលកម្រាលឥដ្ឋអាចអនុវត្តបាន។
ពិន្ទុ AI បន្ទាប់ពី RLAIF 4.5

សន្និដ្ឋាន

ប្រកាសនេះគឺជាការបន្តនៃការងាររបស់យើងជាមួយក្រុម Amazon EU Design and Construction ដូចដែលបានពិភាក្សានៅក្នុង ដំណោះស្រាយដែលដំណើរការដោយ AI ទូទៅនៅលើ Amazon SageMaker ដើម្បីជួយ Amazon EU Design and Construction. នៅក្នុងការបង្ហោះនេះ យើងបានបង្ហាញពីរបៀបដែលយើងបង្កើតទិន្នន័យមតិត្រឡប់របស់មនុស្ស និង AI ដើម្បីកែសម្រួលគំរូ Mistral-7B ជាមួយនឹងការរៀនពង្រឹង។ គំរូបន្ទាប់ពី RLAIF ផ្តល់នូវការអនុវត្តកាន់តែប្រសើរឡើងសម្រាប់ bot ឆ្លើយសំណួររបស់ Amazon Engineering បានធ្វើឱ្យពិន្ទុមតិត្រឡប់ AI ប្រសើរឡើង 8% ។ នៅក្នុងគម្រោងសាកល្បងរបស់ក្រុម Amazon D&C ការប្រើប្រាស់ RLAIF បានកាត់បន្ថយបន្ទុកការងារដែលមានសុពលភាពសម្រាប់សហគ្រាសធុនតូច និងមធ្យមដោយប៉ាន់ស្មាន 80% ។ ជាជំហានបន្ទាប់ យើងនឹងពង្រីកដំណោះស្រាយនេះដោយភ្ជាប់ជាមួយហេដ្ឋារចនាសម្ព័ន្ធទិន្នន័យរបស់ក្រុមហ៊ុន Amazon Engineering និងរចនាក្របខ័ណ្ឌមួយដើម្បីធ្វើស្វ័យប្រវត្តិកម្មដំណើរការសិក្សាជាបន្តបន្ទាប់ជាមួយនឹងមនុស្សនៅក្នុងរង្វិលជុំ។ យើងក៏នឹងធ្វើឲ្យប្រសើរឡើងបន្ថែមទៀតនូវគុណភាពនៃមតិកែលម្អ AI ដោយការកែសម្រួលគំរូប្រអប់បញ្ចូល។

តាមរយៈដំណើរការនេះ យើងបានរៀនពីរបៀបធ្វើឱ្យប្រសើរឡើងបន្ថែមទៀតនូវគុណភាព និងការអនុវត្តភារកិច្ចឆ្លើយសំណួរតាមរយៈ RLHF និង RLAIF ។

  • ការធ្វើឱ្យមានសុពលភាព និងការបង្កើនចំនួនមនុស្សមានសារៈសំខាន់ក្នុងការផ្តល់នូវលទ្ធផលត្រឹមត្រូវ និងការទទួលខុសត្រូវពី LLM ។ មតិកែលម្អរបស់មនុស្សអាចត្រូវបានប្រើនៅក្នុង RLHF ដើម្បីកែលម្អការឆ្លើយតបគំរូ។
  • RLAIF ធ្វើឱ្យវដ្តនៃការវាយតម្លៃ និងការសិក្សាដោយស្វ័យប្រវត្តិ។ មតិកែលម្អដែលបង្កើតដោយ AI គឺមិនសូវជាប្រធានបទទេ ព្រោះវាមិនអាស្រ័យលើចំណូលចិត្តជាក់លាក់ណាមួយពីក្រុម SMEs តូចមួយ។
  • RLAIF គឺអាចធ្វើមាត្រដ្ឋានបានកាន់តែច្រើន ដើម្បីបង្កើនគុណភាព bot តាមរយៈការសិក្សាបន្ថែម ខណៈពេលដែលកាត់បន្ថយកិច្ចខិតខំប្រឹងប្រែងដែលត្រូវការពីសហគ្រាសធុនតូច និងមធ្យម។ វាមានប្រយោជន៍ជាពិសេសសម្រាប់ការបង្កើតដំណោះស្រាយ AI ជំនាន់ជាក់លាក់នៃដែននៅក្នុងអង្គការធំៗ។
  • ដំណើរការនេះគួរតែត្រូវបានធ្វើជាប្រចាំ ជាពិសេសនៅពេលដែលទិន្នន័យដែនថ្មីអាចរកបាន ដើម្បីគ្របដណ្តប់ដោយដំណោះស្រាយ។

នៅក្នុងករណីនៃការប្រើប្រាស់នេះ យើងបានប្រើ SageMaker JumpStart ដើម្បីសាកល្បង LLMs ជាច្រើន និងពិសោធន៍ជាមួយវិធីសាស្រ្តបណ្តុះបណ្តាល LLM ជាច្រើន។ វាបង្កើនល្បឿនយ៉ាងសំខាន់នូវមតិកែលម្អ AI និងវដ្តនៃការរៀនសូត្រជាមួយនឹងប្រសិទ្ធភាព និងគុណភាពអតិបរមា។ សម្រាប់គម្រោងផ្ទាល់ខ្លួនរបស់អ្នក អ្នកអាចណែនាំវិធីសាស្រ្តរបស់មនុស្សក្នុងរង្វង់ដើម្បីប្រមូលមតិអ្នកប្រើរបស់អ្នក ឬបង្កើតមតិកែលម្អ AI ដោយប្រើ LLM ផ្សេងទៀត។ បន្ទាប់មក អ្នកអាចអនុវត្តតាមដំណើរការបីជំហានដែលបានកំណត់ក្នុងប្រកាសនេះ ដើម្បីកែសម្រួលគំរូរបស់អ្នកដោយប្រើ RLHF និង RLAIF ។ យើងសូមផ្តល់អនុសាសន៍ឱ្យពិសោធន៍ជាមួយវិធីសាស្រ្តដោយប្រើ SageMaker JumpStart ដើម្បីបង្កើនល្បឿនដំណើរការ។


អំពី​អ្នកនិពន្ធ

យុនហ្វៃយុនហ្វៃបៃ គឺជាស្ថាបត្យករដំណោះស្រាយជាន់ខ្ពស់នៅ AWS ។ ជាមួយនឹងផ្ទៃខាងក្រោយនៅក្នុង AI/ML វិទ្យាសាស្ត្រទិន្នន័យ និងការវិភាគ Yunfei ជួយអតិថិជនទទួលយកសេវាកម្ម AWS ដើម្បីផ្តល់លទ្ធផលអាជីវកម្ម។ គាត់រចនា AI/ML និងដំណោះស្រាយវិភាគទិន្នន័យដែលយកឈ្នះលើបញ្ហាប្រឈមផ្នែកបច្ចេកទេសដ៏ស្មុគស្មាញ និងជំរុញគោលបំណងយុទ្ធសាស្ត្រ។ Yunfei មានបណ្ឌិតផ្នែកវិស្វកម្មអេឡិចត្រូនិច និងអគ្គិសនី។ នៅខាងក្រៅការងារ Yunfei ចូលចិត្តអាន និងតន្ត្រី។

Elad_photoអេឡាដ វេក គឺជាអ្នកគ្រប់គ្រងផ្នែកបច្ចេកវិទ្យាសំណង់នៅ Amazon ។ ជាមួយនឹងសាវតានៃការសាងសង់ និងការគ្រប់គ្រងគម្រោង Elad ជួយក្រុមឱ្យទទួលយកបច្ចេកវិទ្យាថ្មី និងដំណើរការផ្អែកលើទិន្នន័យ ដើម្បីផ្តល់គម្រោងសាងសង់។ គាត់កំណត់ពីតម្រូវការ និងដំណោះស្រាយ និងជួយសម្រួលដល់ការអភិវឌ្ឍន៍នៃលក្ខណៈផ្ទាល់ខ្លួន។ Elad មាន MBA និង BSc ផ្នែកវិស្វកម្មរចនាសម្ព័ន្ធ។ ក្រៅ​ពី​ការងារ Elad ចូលចិត្ត​ហាត់​យូហ្គា ធ្វើ​ឈើ និង​ធ្វើ​ដំណើរ​ជាមួយ​ក្រុម​គ្រួសារ។

Luca_photoLuca Cerabone គឺជាវិស្វករស៊ើបការណ៍ពាណិជ្ជកម្មនៅ Amazon ។ ដោយគូរពីសាវតារបស់គាត់នៅក្នុងវិទ្យាសាស្ត្រទិន្នន័យ និងការវិភាគ សិប្បកម្ម Luca បានកែសម្រួលដំណោះស្រាយបច្ចេកទេសដើម្បីបំពេញតម្រូវការពិសេសរបស់អតិថិជនរបស់គាត់ ដោយជំរុញពួកគេឆ្ពោះទៅរកដំណើរការប្រកបដោយនិរន្តរភាព និងអាចធ្វើមាត្រដ្ឋានបាន។ ប្រដាប់ដោយអនុបណ្ឌិតផ្នែកវិទ្យាសាស្ត្រទិន្នន័យ Luca រីករាយក្នុងការចូលរួមក្នុងគម្រោង DIY ថែសួន និងពិសោធជាមួយការធ្វើម្ហូបដ៏រីករាយនៅក្នុងពេលទំនេររបស់គាត់។

spot_img

បញ្ញាចុងក្រោយ

spot_img

ជជែកជាមួយយើង

សួស្តី! តើខ្ញុំអាចជួយអ្នកដោយរបៀបណា?