ភាពវៃឆ្លាតទិន្នន័យជំនាន់

Pervasive LLM Hallucinations ពង្រីកកូដអ្នកអភិវឌ្ឍន៍វាយប្រហារលើផ្ទៃ

កាលបរិច្ឆេទ:

ការប្រើប្រាស់គំរូភាសាធំ (LLMs) របស់អ្នកអភិវឌ្ឍន៍កម្មវិធីបង្ហាញនូវឱកាសធំជាងការគិតពីមុនសម្រាប់អ្នកវាយប្រហារក្នុងការចែកចាយកញ្ចប់ព្យាបាទទៅកាន់បរិស្ថានអភិវឌ្ឍន៍ នេះបើយោងតាមការស្រាវជ្រាវដែលបានចេញផ្សាយនាពេលថ្មីៗនេះ។

ការសិក្សាពីអ្នកលក់សន្តិសុខ LLM Lasso Security គឺជាការតាមដានរបាយការណ៍កាលពីឆ្នាំមុនស្តីពីសក្តានុពលសម្រាប់ អ្នកវាយប្រហារបំពានទំនោររបស់ LLMs ក្នុងការធ្វើឱ្យយល់ច្រលំឬដើម្បីបង្កើតលទ្ធផលដែលមើលទៅហាក់ដូចជាអាចជឿទុកចិត្តបាន ប៉ុន្តែមិនមានមូលដ្ឋានពិតប្រាកដ លទ្ធផលនៅក្នុងការឆ្លើយតបទៅនឹងការបញ្ចូលរបស់អ្នកប្រើប្រាស់។

AI Package Hallucination

នេះ ការសិក្សាពីមុន បានផ្តោតលើទំនោរនៃ ChatGPT ក្នុងការប្រឌិតឈ្មោះនៃបណ្ណាល័យកូដ — ក្នុងចំណោមការប្រឌិតផ្សេងទៀត — នៅពេលដែលអ្នកបង្កើតកម្មវិធីបានស្នើសុំជំនួយរបស់ chatbot ដែលបើកដោយ AI នៅក្នុងបរិយាកាសអភិវឌ្ឍន៍។ ម៉្យាងទៀត chatbot ពេលខ្លះបានបញ្ចេញតំណភ្ជាប់ទៅកាន់កញ្ចប់ដែលមិនមាននៅលើឃ្លាំងកូដសាធារណៈ នៅពេលដែលអ្នកអភិវឌ្ឍន៍អាចស្នើឱ្យវាស្នើកញ្ចប់ដើម្បីប្រើនៅក្នុងគម្រោងមួយ។

អ្នកស្រាវជ្រាវផ្នែកសន្តិសុខ Bar Lanyado ដែលជាអ្នកនិពន្ធនៃការសិក្សា ហើយឥឡូវនេះនៅ Lasso Security បានរកឃើញថាអ្នកវាយប្រហារអាចទម្លាក់កញ្ចប់ព្យាបាទពិតប្រាកដមួយយ៉ាងងាយស្រួលនៅទីតាំងដែល ChatGPT ចង្អុល ហើយដាក់ឈ្មោះដូចគ្នាទៅនឹងកញ្ចប់ដែលបំភាន់ភ្នែក។ អ្នកអភិវឌ្ឍន៍ណាមួយដែលទាញយកកញ្ចប់ដោយផ្អែកលើការណែនាំរបស់ ChatGPT បន្ទាប់មកអាចបញ្ចប់ការណែនាំមេរោគទៅក្នុងបរិយាកាសអភិវឌ្ឍន៍របស់ពួកគេ។

ឡានយ៉ាដូ ការស្រាវជ្រាវតាមដាន បានពិនិត្យមើលភាពរីករាលដាលនៃបញ្ហាការយល់ច្រលំកញ្ចប់នៅទូទាំងគំរូភាសាធំៗចំនួនបួនផ្សេងគ្នា៖ GPT-3.5-Turbo, GPT-4, Gemini Pro (អតីត Bard) និង Coral (Cohere)។ គាត់ក៏បានសាកល្បងភាពរីកចម្រើនរបស់ម៉ូដែលនីមួយៗ ដើម្បីបង្កើតកញ្ចប់ដែលយល់ស្របតាមភាសាសរសេរកម្មវិធីផ្សេងៗគ្នា និងភាពញឹកញាប់ដែលពួកគេបង្កើតកញ្ចប់ដែលគួរឱ្យចាប់អារម្មណ៍ដូចគ្នា។

សម្រាប់ការធ្វើតេស្ត Lanyado បានចងក្រងបញ្ជីសំណួរ "របៀប" រាប់ពាន់ដែលអ្នកអភិវឌ្ឍន៍នៅក្នុងបរិយាកាសកម្មវិធីផ្សេងៗគ្នា - python, node.js, go, .net, ruby ​​— ភាគច្រើនស្វែងរកជំនួយពី LLMs នៅក្នុងបរិស្ថានអភិវឌ្ឍន៍។ បន្ទាប់មក Lanyado បានសួរម៉ូដែលនីមួយៗនូវសំណួរទាក់ទងនឹងការសរសេរកូដ ក៏ដូចជាការណែនាំសម្រាប់កញ្ចប់ដែលទាក់ទងនឹងសំណួរ។ លោក​ក៏​បាន​ស្នើ​ឲ្យ​ម៉ូដែល​នីមួយៗ​ណែនាំ​១០​កញ្ចប់​បន្ថែម​ទៀត ដើម្បី​ដោះស្រាយ​បញ្ហា​ដូច​គ្នា។

លទ្ធផលដដែលៗ

លទ្ធផល​មាន​បញ្ហា។ គួរឱ្យភ្ញាក់ផ្អើល 64.5% នៃ "ការសន្ទនា" Lanyado មានជាមួយ Gemini បានបង្កើតកញ្ចប់ដែលគួរឱ្យភ្ញាក់ផ្អើល។ ជាមួយនឹងផ្កាថ្ម ចំនួននោះគឺ 29.1%; LLMs ផ្សេងទៀតដូចជា GPT-4 (24.2%) និង GPT3.5 (22.5%) មិនប្រសើរជាងនេះទេ។

នៅពេលដែល Lanyado បានសួរម៉ូដែលនីមួយៗនូវសំណួរដូចគ្នា 100 ដង ដើម្បីមើលថាតើញឹកញាប់ប៉ុណ្ណាដែលម៉ូដែលនឹងធ្វើឱ្យមានការភ្ញាក់ផ្អើលចំពោះកញ្ចប់ដូចគ្នានោះ គាត់បានរកឃើញអត្រាដដែលៗដើម្បីជាការលើកចិញ្ចើមផងដែរ។ ជាឧទាហរណ៍ Cohere បានបញ្ចេញកញ្ចប់ដែលគួរឱ្យខ្លាចដូចគ្នាជាង 24% នៃពេលវេលា។ ជជែក GPT-3.5 និង Gemini ប្រហែល 14% និង GPT-4 នៅ 20% ។ ក្នុង​ករណី​ជា​ច្រើន ម៉ូដែល​ផ្សេង​គ្នា​បាន​យល់​ឃើញ​នូវ​កញ្ចប់​ដូចគ្នា ឬ​ស្រដៀង​គ្នា។ ចំនួនខ្ពស់បំផុតនៃគំរូឆ្លងមេរោគបែបនេះបានកើតឡើងរវាង GPT-3.5 និង Gemini ។

Lanyado និយាយថា ទោះបីជាអ្នកអភិវឌ្ឍន៍ផ្សេងៗគ្នាបានសួរ LLM នូវសំណួរមួយលើប្រធានបទដូចគ្នា ប៉ុន្តែបង្កើតសំណួរខុសគ្នា វាមានលទ្ធភាពដែល LLM នឹងណែនាំកញ្ចប់ដែលគួរឱ្យភ្ញាក់ផ្អើលដូចគ្នានៅក្នុងករណីនីមួយៗ។ ម្យ៉ាងវិញទៀត អ្នកអភិវឌ្ឍន៍ណាមួយដែលប្រើ LLM សម្រាប់ជំនួយការសរសេរកូដ ទំនងជានឹងជួបប្រទះនូវកញ្ចប់ដែលគួរឱ្យភ្ញាក់ផ្អើលដូចគ្នា។

Lanyado និយាយថា "សំណួរអាចខុសគ្នាទាំងស្រុង ប៉ុន្តែនៅលើប្រធានបទស្រដៀងគ្នា ហើយការយល់ច្រលំនឹងនៅតែកើតឡើង ដែលធ្វើឱ្យបច្ចេកទេសនេះមានប្រសិទ្ធភាពខ្លាំង" ។ "នៅក្នុងការស្រាវជ្រាវបច្ចុប្បន្ន យើងបានទទួល 'កញ្ចប់ដដែលៗ' សម្រាប់សំណួរ និងមុខវិជ្ជាផ្សេងៗគ្នាជាច្រើន និងសូម្បីតែនៅទូទាំងម៉ូដែលផ្សេងៗគ្នា ដែលបង្កើនប្រូបាប៊ីលីតេនៃកញ្ចប់ដែលគួរឱ្យភ្ញាក់ផ្អើលទាំងនេះដែលត្រូវប្រើ។"

ងាយ​ស្រួល​ក្នុង​ការ​ទាញ​យក​

ជាឧទាហរណ៍ អ្នកវាយប្រហារដែលប្រដាប់ដោយឈ្មោះកញ្ចប់ដែលបំភាន់ភ្នែកមួយចំនួន អាចផ្ទុកឡើងកញ្ចប់ដែលមានឈ្មោះដូចគ្នាទៅកាន់ឃ្លាំងសមស្រប ដោយដឹងថាមានលទ្ធភាពល្អ LLM នឹងចង្អុលអ្នកអភិវឌ្ឍន៍ទៅវា។ ដើម្បីបង្ហាញពីការគម្រាមកំហែងមិនមែនជាទ្រឹស្តី Lanyado បានយកកញ្ចប់មួយដែលហៅថា “huggingface-cli” ដែលគាត់បានជួបប្រទះអំឡុងពេលធ្វើតេស្តរបស់គាត់ ហើយបានបង្ហោះកញ្ចប់ទទេដែលមានឈ្មោះដូចគ្នាទៅកាន់ឃ្លាំង Hugging Face សម្រាប់ម៉ូដែលរៀនម៉ាស៊ីន។ គាត់និយាយថាអ្នកអភិវឌ្ឍន៍បានទាញយកកញ្ចប់នោះច្រើនជាង 32,000 ដង។

តាមទស្សនៈរបស់តួអង្គគំរាមកំហែង ការយល់ច្រលំជាកញ្ចប់ផ្តល់នូវវ៉ិចទ័រសាមញ្ញសម្រាប់ចែកចាយមេរោគ។ គាត់និយាយថា "ដូចដែលយើង [បានឃើញ] ពីលទ្ធផលស្រាវជ្រាវ វាមិនមែនជារឿងពិបាកនោះទេ។ Lanyado បន្ថែមថាជាមធ្យម ម៉ូដែលទាំងអស់យល់ស្របគ្នា 35% សម្រាប់សំណួរជិត 48,000 ។ GPT-3.5 មានភាគរយទាបបំផុតនៃការយល់ឃើញ; Gemini ទទួលបានពិន្ទុខ្ពស់បំផុត ជាមួយនឹងភាពច្រំដែលជាមធ្យម 18% នៅគ្រប់ម៉ូដែលទាំងបួន។

Lanyado ណែនាំថាអ្នកអភិវឌ្ឍន៍អនុវត្តការប្រុងប្រយ័ត្ននៅពេលធ្វើសកម្មភាពលើការណែនាំកញ្ចប់ពី LLM នៅពេលដែលពួកគេមិនប្រាកដទាំងស្រុងអំពីភាពត្រឹមត្រូវរបស់វា។ គាត់ក៏និយាយផងដែរថា នៅពេលដែលអ្នកអភិវឌ្ឍន៍ជួបប្រទះកញ្ចប់ប្រភពបើកចំហដែលមិនធ្លាប់ស្គាល់ ពួកគេត្រូវចូលទៅកាន់ឃ្លាំងកញ្ចប់ ហើយពិនិត្យមើលទំហំនៃសហគមន៍ កំណត់ត្រាថែទាំរបស់វា ភាពងាយរងគ្រោះដែលគេស្គាល់ និងអត្រាការចូលរួមសរុបរបស់វា។ អ្នកអភិវឌ្ឍន៍ក៏គួរតែស្កេនកញ្ចប់ឱ្យបានហ្មត់ចត់មុនពេលណែនាំវាទៅក្នុងបរិយាកាសអភិវឌ្ឍន៍។

spot_img

បញ្ញាចុងក្រោយ

spot_img

ជជែកជាមួយយើង

សួស្តី! តើខ្ញុំអាចជួយអ្នកដោយរបៀបណា?