জেনারেটিভ ডেটা ইন্টেলিজেন্স

অ্যানথ্রোপিকস ক্লড এআই চ্যাটবট এরিনা লিডারবোর্ডে চ্যাটজিপিটি-কে বাতিল করেছে - ডিক্রিপ্ট

তারিখ:

ওপেন AI থেকে ChatGPT সমস্ত জেনারেটিভ AI সরঞ্জামগুলির মধ্যে সবচেয়ে বড় মূলধারার মাইন্ডশেয়ার উপভোগ করে, AI গবেষকদের দ্বারা ব্যবহৃত জনপ্রিয় ক্রাউডসোর্সড লিডারবোর্ডে বহুবর্ষজীবী প্রতিযোগী অ্যানথ্রোপিক-এর টপ-অফ-দ্য-লাইন ক্লাউড 3 ওপাস এর শীর্ষস্থানটি চুরি করেছে।

চ্যাটবট এরিনা র‌্যাঙ্কিংয়ে ক্লডের আরোহন প্রথমবারের মতো চিহ্নিত করে যে OpenAI-এর GPT-4, যা ChatGPT প্লাসকে ক্ষমতা দেয়, গত বছরের মে মাসে লিডারবোর্ডে প্রথম উপস্থিত হওয়ার পর থেকে এটিকে অপসারিত করা হয়েছে।

চ্যাটবট এরিনা লার্জ মডেল সিস্টেমস অর্গানাইজেশন (LMSYS ORG) দ্বারা পরিচালিত হয়, একটি গবেষণা প্রতিষ্ঠান যা খোলা মডেলগুলির জন্য নিবেদিত যা ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে, UC সান দিয়েগো এবং কার্নেগি মেলন বিশ্ববিদ্যালয়ের ছাত্র এবং শিক্ষকদের মধ্যে সহযোগিতা সমর্থন করে৷ প্ল্যাটফর্মটি ব্যবহারকারীদের দুটি লেবেলবিহীন ভাষার মডেলের সাথে উপস্থাপন করে এবং তাদের উপযুক্ত মনে করা যেকোনো মানদণ্ডের উপর ভিত্তি করে কোনটি ভাল পারফর্ম করে তা রেট দিতে বলে।

হাজার হাজার বিষয়গত তুলনা একত্রিত করার পরে, চ্যাটবট এরিনা লিডারবোর্ডের জন্য "সেরা" মডেলগুলি গণনা করে, সময়ের সাথে সাথে এটি আপডেট করে৷

অংশগ্রহণকারীদের পৃথক ব্যক্তিগত রুচির উপর ভিত্তি করে এই বিষয়গত পদ্ধতি, যা চ্যাটবট এরিনাকে অন্যান্য এআই বেঞ্চমার্ক থেকে আলাদা করে। মডেল প্রশিক্ষকরা তাদের মডেলগুলিকে অ্যালগরিদমকে হারানোর জন্য সেলাই করে "প্রতারণা" করতে পারে না, যেমন তারা পরিমাণগত বেঞ্চমার্কের সাথে হতে পারে। লোকেরা কী পছন্দ করে তা পরিমাপ করে, চ্যাটবট এরিনা AI গবেষকদের জন্য একটি মূল্যবান, গুণগত সম্পদ।

প্ল্যাটফর্মটি ব্যবহারকারীদের প্রতিক্রিয়া সংগ্রহ করে এবং এর মাধ্যমে এটি চালায় ব্র্যাডলি-টেরি পরিসংখ্যান মডেল প্রত্যক্ষ প্রতিযোগিতায় একটি নির্দিষ্ট মডেল অন্যদের ছাড়িয়ে যাওয়ার সম্ভাবনার পূর্বাভাস দিতে। এই পদ্ধতির Elo রেটিং অনুমানের জন্য আত্মবিশ্বাসের ব্যবধানের রেঞ্জ সহ ব্যাপক পরিসংখ্যান তৈরি করতে সক্ষম করে—দাবা খেলোয়াড়দের দক্ষতা পরিমাপ করতে ব্যবহৃত একই কৌশল।

চ্যাটবট এরিনা দ্বারা র‌্যাঙ্ক করা শীর্ষ 10টি এলএলএম। ছবি: আলিঙ্গনমুখ
চ্যাটবট এরিনা দ্বারা র‌্যাঙ্ক করা শীর্ষ 10টি এলএলএম। ছবি: আলিঙ্গনমুখ

ক্লাউড 3 ওপাসের শীর্ষে উত্থান লিডারবোর্ডে একমাত্র উল্লেখযোগ্য উন্নয়ন নয়। ক্লদ 3 সনেট (বিনামূল্যে উপলব্ধ মাঝারি আকারের মডেল) এবং ক্লদ 3 হাইকু (একটি ছোট, দ্রুত মডেল), এছাড়াও অ্যানথ্রোপিক দ্বারা বিকাশ করা হয়েছে, বর্তমানে যথাক্রমে 4 র্থ এবং 6 তম স্থানে রয়েছে৷

লিডারবোর্ডে GPT-4-এর বিভিন্ন সংস্করণ রয়েছে, যেমন GPT-4-0314 (মার্চ 4 থেকে GPT-2023-এর "মূল" সংস্করণ), GPT-4-0613, GPT-4-1106-প্রিভিউ এবং GPT-4 -0125-প্রিভিউ (জানুয়ারি 4 থেকে API-এর মাধ্যমে উপলব্ধ সর্বশেষ GPT-2024 Turbo মডেল)। র‌্যাঙ্কিং অনুসারে, সনেট এবং হাইকু উভয়ই আসল GPT-4 এর থেকে ভাল এবং সনেটও জুন 2023-এ OpenAI দ্বারা লঞ্চ করা একটি টুইক করা সংস্করণকে ছাড়িয়ে গেছে।

এর মানে এই যে, দুঃখজনকভাবে, বর্তমানে শীর্ষ 10-এ শুধুমাত্র একটি ওপেন-সোর্স LLM রয়েছে: Qwen, Starling 7b এবং Mixtral 8x7B শীর্ষ 20-এর মধ্যে একমাত্র অন্য উন্মুক্ত মডেল।

GPT-4 এর উপর Claude এর একটি সুবিধা হল এর টোকেন প্রসঙ্গ ক্ষমতা এবং পুনরুদ্ধারের ক্ষমতা। Claude 3 Opus-এর সর্বজনীন সংস্করণ 200K-এর বেশি পরিচালনা করে—এবং সংস্থাটি প্রায় নিখুঁত পুনরুদ্ধারের হার সহ 1 মিলিয়ন টোকেন পরিচালনা করতে সক্ষম একটি সীমাবদ্ধ সংস্করণ রয়েছে বলে দাবি করে। এর মানে হল যে Claude দীর্ঘ সময়ের প্রম্পট বুঝতে পারে এবং তার চেয়ে বেশি কার্যকরভাবে তথ্য ধরে রাখতে পারে জিপিটি-৪ টার্বোর তুলনায়, যা 128K টোকেন পরিচালনা করে এবং দীর্ঘ প্রম্পট সহ এর পুনরুদ্ধারের ক্ষমতা হারায়।

Claude 3 Opus বনাম GPT-4 Turbo-এর যথার্থতা প্রত্যাহার করুন। Anthropic এবং Greg Kamradt থেকে ডেটা ব্যবহার করে ডিক্রিপ্ট থেকে ছবি
Claude 3 Opus বনাম GPT-4 Turbo-এর যথার্থতা প্রত্যাহার করুন। Anthropic এবং Greg Kamradt থেকে ডেটা ব্যবহার করে ডিক্রিপ্ট থেকে ছবি।

Google এর মিথুন অ্যাডভান্সড এআই অ্যাসিস্ট্যান্ট স্পেসেও ট্র্যাকশন লাভ করছে। কোম্পানি একটি প্ল্যান অফার করে যাতে 2TB স্টোরেজ এবং AI ক্ষমতাগুলি Google পণ্যগুলির স্যুটে চ্যাট জিপিটি প্লাস সাবস্ক্রিপশনের সমান মূল্যে (প্রতি মাসে $20) রয়েছে৷

ফ্রি জেমিনি প্রো বর্তমানে GPT-4 টার্বো এবং ক্লড 4 সনেটের মধ্যে 3 নম্বরে রয়েছে। টপ-অফ-দ্য-লাইন জেমিনি আল্ট্রা মডেলটি পরীক্ষার জন্য অনুপলব্ধ এবং এখনও র‍্যাঙ্কিংয়ে বৈশিষ্ট্যযুক্ত নয়৷

দ্বারা সম্পাদিত রায়ান ওজাওয়া.

ক্রিপ্টো খবরের শীর্ষে থাকুন, আপনার ইনবক্সে প্রতিদিনের আপডেট পান।

স্পট_আইএমজি

সর্বশেষ বুদ্ধিমত্তা

স্পট_আইএমজি

আমাদের সাথে খোস গল্প কর

হাই সেখানে! আপনাকে কিভাবে সাহায্য করতে পারি?