জেনারেটিভ ডেটা ইন্টেলিজেন্স

Claude 3 Opus চ্যাটবট র‌্যাঙ্কিংয়ে শীর্ষস্থান দখল করে

তারিখ:

Anthropic এর পরবর্তী প্রজন্মের AI মডেল Claude 3 Opus Chatbot Arena লিডারবোর্ডে পোল পজিশন নিয়েছে, OpenAI এর GPT-4 কে দ্বিতীয় সেরাতে ঠেলে দিয়েছে।

যেহেতু এটি গত বছর চালু হয়েছে, এই প্রথমবারের মতো ক্লাউড 3 ওপাস মডেল চ্যাটবট এরিনা তালিকার শীর্ষে রয়েছে, যার তিনটি ক্লাউড 3 সংস্করণ শীর্ষ 10-এ স্থান পেয়েছে।

Claude 3 মডেল একটি চিহ্ন তৈরি

LMSYS চ্যাটবট এরিনা র‌্যাঙ্কিং দেখায় যে Claude 3 Sonnet জেমিনি প্রো-এর সাথে যৌথভাবে চতুর্থ স্থান দখল করেছে যখন Claude 3 হাইকু, যা এই বছর চালু করা হয়েছিল GPT-4 এর আগের সংস্করণের সাথে ষষ্ঠ স্থানে রয়েছে।

যদিও ক্লদ 3 হাইকু সনেট বা ওপাসের মতো বুদ্ধিমান নাও হতে পারে, মডেলটি দ্রুততর এবং উল্লেখযোগ্যভাবে সস্তা, তবুও এটি "অন্ধ পরীক্ষায় অনেক বড় মডেলের মতোই ভাল," এরিনার ফলাফলগুলি প্রকাশ করে৷

“ক্লদ 3 হাইকু সবাইকে মুগ্ধ করেছে, এমনকি আমাদের ব্যবহারকারীর পছন্দ অনুসারে GPT-4 স্তরে পৌঁছেছে! এর গতি, ক্ষমতা এবং প্রসঙ্গ দৈর্ঘ্য এখন বাজারে তুলনাহীন, "LMSYS ব্যাখ্যা করেছে৷

টমস গাইডের মতে, হাইকুকে যা আরও চিত্তাকর্ষক করে তোলে তা হল এটি "জেমিনি ন্যানোর সাথে তুলনীয় স্থানীয় আকারের মডেল।" এটা হতে পারে পড়া এবং তথ্য-ঘন গবেষণা প্রক্রিয়া তিন সেকেন্ডেরও কম সময়ের মধ্যে কাগজপত্র।

Opus এর ট্রিলিয়ন প্লাস প্যারামিটার স্কেল বা GPT-4-শ্রেণীর যেকোনো মডেল ছাড়াই মডেলটি দুর্দান্ত ফলাফল অর্জন করছে।

এটি একটি স্বল্পস্থায়ী সাফল্য হতে পারে?

দ্বিতীয় অবস্থানে ঠেলে দেওয়া সত্ত্বেও, OpenAI-এর GPT-4 সংস্করণগুলি এখনও চারটি সংস্করণ সহ তালিকার শীর্ষ 10 তে আধিপত্য বিস্তার করেছে।

অনুসারে টম এর গাইড, ওপেনএআই-এর GPT-4 সংস্করণগুলি তাদের বিভিন্ন আকারে শীর্ষস্থান ধরে রেখেছে "এতদিন ধরে যে অন্য কোনও মডেল এর মানদণ্ডের কাছাকাছি আসা একটি GPT-4-শ্রেণীর মডেল হিসাবে পরিচিত।"

এই বছর কিছু সময়ের জন্য প্রত্যাশিত একটি "উল্লেখযোগ্যভাবে ভিন্ন" GPT-5 সহ, অ্যানথ্রোপিক হয়তো সেই অবস্থানটি খুব বেশিদিন ধরে রাখতে পারবে না, কারণ Claude 3 Opus এবং GPT-4 এর মধ্যে স্কোরের ব্যবধান সংকীর্ণ।

যদিও ওপেনএআই এর প্রকৃত প্রকাশের বিষয়ে আঁটসাঁট রয়ে গেছে GPT-5, বাজার অত্যন্ত তার লঞ্চ প্রত্যাশিত. মডেলের কিছু চলছে বলে জানা গেছে "কঠোর নিরাপত্তা পরীক্ষা” এবং সিমুলেটেড আক্রমণ যা মুক্তির আগে অত্যন্ত গুরুত্বপূর্ণ।

LMSYS চ্যাটবট এরিনা

এই র‍্যাঙ্কিংটি মানুষের ভোটের উপর নির্ভর করে, যেমন AI মডেলের জন্য বেঞ্চমার্কিংয়ের অন্যান্য ফর্মের বিপরীতে। এটির মাধ্যমে, লোকেরা একই প্রম্পটে দুটি ভিন্ন মডেলের আউটপুটকে অন্ধ-র্যাঙ্ক করে।

চ্যাটবট এরিনা LMSYS দ্বারা পরিচালিত হয় এবং এতে অনেক বড় ল্যাঙ্গুয়েজ মডেল (LLM) রয়েছে যেগুলি "বেনামী এলোমেলো যুদ্ধে" লড়াই করছে৷

এটি গত মে মাসে প্রথম চালু করা হয়েছিল এবং Google, Anthropic এবং থেকে AI মডেল আছে এমন ব্যবহারকারীদের থেকে 400,000 এরও বেশি ভোট সংগ্রহ করেছে OpenAI.

“LMSYS চ্যাটবট এরিনা হল এলএলএম ইভালদের জন্য একটি ক্রাউডসোর্সড ওপেন প্ল্যাটফর্ম। Elo র‌্যাঙ্কিং সিস্টেমের সাথে LLM-কে র‌্যাঙ্ক করার জন্য আমরা 400,000-এরও বেশি মানুষের পছন্দের ভোট সংগ্রহ করেছি,” LMSYS বলেছে।

ইলো সিস্টেমটি বেশিরভাগ ক্ষেত্রেই একজন খেলোয়াড়ের আপেক্ষিক দক্ষতা মূল্যায়ন করার জন্য দাবা খেলায় ব্যবহৃত হয়। কিন্তু এই ক্ষেত্রে, র‍্যাঙ্কিংটি চ্যাটবটে প্রয়োগ করা হয় এবং "মানুষের মডেলটি ব্যবহার করে নয়।"

এছাড়াও পড়ুন: মাইক্রোসফ্ট কপিলট এআই বোতাম সহ 'প্রথম' সারফেস পিসি প্রকাশ করেছে

ঘাটতিগুলো

চ্যাটবট এরিনা র‌্যাঙ্কিংয়ে কোনো ত্রুটি নেই। টমস গাইড অনুসারে, এতে সমস্ত মডেল বা মডেলের সংস্করণ অন্তর্ভুক্ত করা হয় না যখন ব্যবহারকারীদের মাঝে মাঝে GPT-4 লোড করতে ব্যর্থ হওয়ার সাথে খারাপ অভিজ্ঞতা হয়। এটি এমন কিছু মডেলের পক্ষেও যেতে পারে যেখানে লাইভ ইন্টারনেট অ্যাক্সেস রয়েছে, উদাহরণস্বরূপ Google Gemini Pro।

অন্যান্য মডেল যেমন ফরাসি AI স্টার্টআপ থেকে মিস্ত্রাল এবং আলিবাবার মতো চীনা সংস্থাগুলি সম্প্রতি ওপেন-সোর্স মডেলগুলি ছাড়াও এরেনায় শীর্ষস্থানে তাদের পথ তৈরি করেছে, এরিনা এখনও কিছু হাই প্রোফাইল মডেল মিস করে। উদাহরণস্বরূপ, এটি গুগলের জেমিনি প্রো 1.5 এর মতো মডেলগুলি অনুপস্থিত

স্পট_আইএমজি

সর্বশেষ বুদ্ধিমত্তা

স্পট_আইএমজি

আমাদের সাথে খোস গল্প কর

হাই সেখানে! আপনাকে কিভাবে সাহায্য করতে পারি?