ភាពវៃឆ្លាតទិន្នន័យជំនាន់

Claude AI របស់ Anthropic ផ្តួលរំលំ ChatGPT នៅលើ Chatbot Arena Leaderboard - ឌិគ្រីប

កាលបរិច្ឆេទ:

ខណៈពេលដែល ChatGPT ពី Open AI រីករាយនឹងការចែករំលែកគំនិតដ៏ធំបំផុតនៃឧបករណ៍ AI ជំនាន់ទាំងអស់នោះ កន្លែងកំពូលរបស់វាត្រូវបានលួចដោយ Claude 3 Opus កំពូលនៃបន្ទាត់ពីអ្នកប្រកួតប្រជែងដែលមានអាយុច្រើនឆ្នាំ Anthropic នៅលើតារាងនាំមុខគេដែលពេញនិយមប្រើដោយអ្នកស្រាវជ្រាវ AI ។

ការឡើងឋានន្តរស័ក្តិរបស់ក្លូដនៅក្នុងចំណាត់ថ្នាក់ Chatbot Arena គឺជាលើកទីមួយហើយដែល OpenAI's GPT-4 ដែលផ្តល់ថាមពលដល់ ChatGPT Plus ត្រូវបានទម្លាក់ចាប់តាំងពីវាបានបង្ហាញខ្លួនជាលើកដំបូងនៅលើតារាងពិន្ទុក្នុងខែឧសភាឆ្នាំមុន។

Chatbot Arena ដំណើរការដោយ Large Model Systems Organization (LMSYS ORG) ដែលជាអង្គការស្រាវជ្រាវដែលឧទ្ទិសដល់គំរូបើកចំហដែលគាំទ្រដល់កិច្ចសហការរវាងនិស្សិត និងមហាវិទ្យាល័យនៅសាកលវិទ្យាល័យ California, Berkeley, UC San Diego និងសាកលវិទ្យាល័យ Carnegie Mellon។ វេទិកានេះបង្ហាញអ្នកប្រើប្រាស់នូវគំរូភាសាដែលមិនមានស្លាកចំនួនពីរ ហើយស្នើឱ្យពួកគេវាយតម្លៃថាតើមួយណាដំណើរការប្រសើរជាងដោយផ្អែកលើលក្ខណៈវិនិច្ឆ័យណាមួយដែលពួកគេយល់ថាសម។

បន្ទាប់ពីប្រមូលផ្តុំការប្រៀបធៀបប្រធានបទរាប់ពាន់ Chatbot Arena គណនាគំរូ "ល្អបំផុត" សម្រាប់តារាងពិន្ទុ ដោយធ្វើបច្ចុប្បន្នភាពវាតាមពេលវេលា។

វិធីសាស្រ្តប្រធានបទនោះ ដោយផ្អែកលើចំណង់ចំណូលចិត្តផ្ទាល់ខ្លួនខុសគ្នារបស់អ្នកចូលរួម គឺជាអ្វីដែលកំណត់ Chatbot Arena ខុសពីស្តង់ដារ AI ផ្សេងទៀត។ គ្រូបង្ហាត់គំរូមិនអាច "បោកប្រាស់" ដោយកាត់តម្រឹមម៉ូដែលរបស់ពួកគេដើម្បីយកឈ្នះលើក្បួនដោះស្រាយ ដូចដែលពួកគេអាចជាមួយនឹងស្តង់ដារបរិមាណ។ តាមរយៈការវាស់ស្ទង់នូវអ្វីដែលមនុស្សចូលចិត្តនោះ Chatbot Arena គឺជាធនធានដ៏មានតម្លៃ និងគុណភាពសម្រាប់អ្នកស្រាវជ្រាវ AI ។

The platform collects users’ feedback and runs it through the Bradley-Terry statistical model to predict the likelihood of a particular model outperforming others in direct competition. វិធីសាស្រ្តនេះ enables the generation of comprehensive statistics, including confidence interval ranges for Elo rating estimates—the same technique used to measure the skill of chess players.

LLMs កំពូលទាំង 10 ដែលត្រូវបានចាត់ថ្នាក់ដោយ Chatbot Arena ។ រូបភាព៖ ឱបមុខ
LLMs កំពូលទាំង 10 ដែលត្រូវបានចាត់ថ្នាក់ដោយ Chatbot Arena ។ រូបភាព៖ ឱបមុខ

ការឡើងដល់កំពូលរបស់ Claude 3 Opus មិនមែនជាការអភិវឌ្ឍន៍ដ៏សំខាន់តែមួយគត់នៅលើតារាងពិន្ទុនោះទេ។ Claude 3 Sonnet (ម៉ូដែលទំហំមធ្យមអាចប្រើបានដោយឥតគិតថ្លៃ) និង Claude 3 Haiku (ម៉ូដែលតូចជាង និងលឿនជាង) ដែលបង្កើតឡើងដោយ Anthropic បច្ចុប្បន្នស្ថិតនៅលំដាប់ទី 4 និងទី 6 រៀងគ្នា។

តារាងពិន្ទុរួមមានកំណែផ្សេងៗនៃ GPT-4 ដូចជា GPT-4-0314 (កំណែ "ដើម" នៃ GPT-4 ចាប់ពីខែមីនា ឆ្នាំ 2023), GPT-4-0613, GPT-4-1106-preview និង GPT-4 -0125-ការមើលជាមុន (ម៉ូដែល GPT-4 Turbo ចុងក្រោយបង្អស់ដែលមានតាមរយៈ API ចាប់ពីខែមករា ឆ្នាំ 2024)។ យោងតាមចំណាត់ថ្នាក់ Sonnet និង Haiku ទាំងពីរគឺល្អជាង GPT-4 ដើមជាមួយ Sonnet ក៏លើសពីកំណែកែប្រែដែលបានបើកដំណើរការដោយ OpenAI នៅខែមិថុនាឆ្នាំ 2023 ។

នេះក៏មានន័យផងដែរថា គួរឱ្យស្តាយ មានប្រភពបើកចំហតែមួយគត់ LLM បច្ចុប្បន្ននៅក្នុងកំពូលទាំង 10៖ Qwen ជាមួយនឹង Starling 7b និង Mixtral 8x7B គឺជាម៉ូដែលបើកតែមួយគត់ផ្សេងទៀតនៅក្នុងកំពូលទាំង 20។

One of the advantages of Claude over GPT-4 is its token context capacity and retrieval capability. The public version of Claude 3 Opus handles over 200K—and the organization claims to have a restricted version capable of handling 1 million tokens with almost perfect retrieval rates. This means that Claude can understand longer prompts and retain information more effectively than compared to GPT-4 Turbo, which handles 128K tokens and loses its retrieval capabilities with long prompts.

រំលឹកឡើងវិញនូវភាពត្រឹមត្រូវនៃ Claude 3 Opus vs GPT-4 Turbo ។ រូបភាពពីការឌិគ្រីបដោយប្រើទិន្នន័យពី Anthropic និង Greg Kamradt
រំលឹកឡើងវិញនូវភាពត្រឹមត្រូវនៃ Claude 3 Opus vs GPT-4 Turbo ។ រូបភាពពីការឌិគ្រីបដោយប្រើទិន្នន័យពី Anthropic និង Greg Kamradt ។

របស់ Google Gemini កម្រិតខ្ពស់ has also been gaining traction in the AI assistant space. The company offers a plan that includes 2TB of storage and AI capabilities in the suite of Google products for the same price as a Chat GPT Plus subscription ($20 per month).

Gemini Pro ឥតគិតថ្លៃបច្ចុប្បន្នកំពុងជាប់ចំណាត់ថ្នាក់លេខ 4 រវាង GPT-4 Turbo និង Claude 3 Sonnet ។ ម៉ូដែល Gemini Ultra កំពូលនៃបន្ទាត់គឺមិនមានសម្រាប់ការសាកល្បងទេ ហើយមិនទាន់មានលក្ខណៈពិសេសនៅក្នុងចំណាត់ថ្នាក់នៅឡើយ។

កែសម្រួល​ដោយ លោក Ryan Ozawa.

ស្ថិតនៅលើកំពូលនៃព័ត៌មានគ្រីបតូ ទទួលបានព័ត៌មានថ្មីៗប្រចាំថ្ងៃនៅក្នុងប្រអប់សំបុត្ររបស់អ្នក។

spot_img

បញ្ញាចុងក្រោយ

spot_img

ជជែកជាមួយយើង

សួស្តី! តើខ្ញុំអាចជួយអ្នកដោយរបៀបណា?