هوش داده های تولیدی

کلود هوش مصنوعی آنتروپیک ChatGPT را در تابلوی برتر Chatbot Arena سرنگون کرد - رمزگشایی

تاریخ:

در حالی که ChatGPT از Open AI از بزرگترین اشتراک ذهنی اصلی در بین تمام ابزارهای مولد هوش مصنوعی برخوردار است، رتبه برتر آن توسط برترین Claude 3 Opus از رقیب همیشگی Anthropic در تابلوی امتیازات جمع سپاری محبوبی که توسط محققان هوش مصنوعی استفاده می شود ربوده است.

صعود کلود در رتبه بندی Chatbot Arena اولین بار است که GPT-4 OpenAI، که قدرت ChatGPT Plus را بر عهده دارد، از زمانی که برای اولین بار در ماه می سال گذشته در جدول امتیازات ظاهر شد، سقوط کرد.

Chatbot Arena توسط Large Model Systems Organization (LMSYS ORG)، یک سازمان تحقیقاتی اختصاص داده شده به مدل های باز که از همکاری بین دانشجویان و اساتید در دانشگاه کالیفرنیا، برکلی، UC San Diego و دانشگاه Carnegie Mellon پشتیبانی می کند، اداره می شود. این پلتفرم دو مدل زبان بدون برچسب را به کاربران ارائه می‌کند و از آنها می‌خواهد بر اساس معیارهایی که مناسب می‌دانند، عملکرد بهتری را ارزیابی کنند.

پس از جمع آوری هزاران مقایسه ذهنی، Chatbot Arena "بهترین" مدل ها را برای تابلوی امتیازات محاسبه می کند و در طول زمان آن را به روز می کند.

این رویکرد ذهنی، بر اساس سلیقه‌های شخصی متفاوت شرکت‌کنندگان، چیزی است که Chatbot Arena را از سایر معیارهای هوش مصنوعی متمایز می‌کند. مربیان مدل نمی توانند با طراحی مدل های خود به گونه ای که الگوریتم را شکست دهند، «تقلب» کنند، همانطور که ممکن است با معیارهای کمی. Chatbot Arena با اندازه‌گیری آنچه مردم به سادگی ترجیح می‌دهند، منبعی با ارزش و کیفی برای محققان هوش مصنوعی است.

این پلتفرم بازخورد کاربران را جمع آوری می کند و آن را از طریق آن اجرا می کند مدل آماری بردلی تری برای پیش بینی احتمال عملکرد بهتر یک مدل خاص از سایرین در رقابت مستقیم. این رویکرد امکان تولید آمار جامع، از جمله محدوده فاصله اطمینان برای تخمین‌های رتبه‌بندی Elo را فراهم می‌کند - همان تکنیکی که برای اندازه‌گیری مهارت بازیکنان شطرنج استفاده می‌شود.

10 LLM برتر رتبه بندی شده توسط Chatbot Arena. تصویر: صورت در آغوش گرفته
10 LLM برتر رتبه بندی شده توسط Chatbot Arena. تصویر: صورت در آغوش گرفته

صعود Claude 3 Opus به اوج تنها پیشرفت قابل توجه در جدول امتیازات نیست. Claude 3 Sonnet (مدل سایز متوسط ​​که به صورت رایگان در دسترس است) و Claude 3 Haiku (مدل کوچکتر و سریعتر) که توسط Anthropic نیز ساخته شده است، در حال حاضر به ترتیب در جایگاه چهارم و ششم قرار دارند.

تابلوی امتیازات شامل نسخه‌های مختلف GPT-4، مانند GPT-4-0314 (نسخه اصلی GPT-4 از مارس 2023)، GPT-4-0613، GPT-4-1106-preview، و GPT-4 است. -0125-preview (آخرین مدل GPT-4 Turbo در دسترس از طریق API از ژانویه 2024). با توجه به رتبه بندی، Sonnet و Haiku هر دو بهتر از GPT-4 اصلی هستند و Sonnet نیز از نسخه بهینه سازی شده ای که توسط OpenAI در ژوئن 2023 راه اندازی شد، پیشی گرفت.

این همچنین به این معنی است که، متأسفانه، در حال حاضر تنها یک LLM منبع باز در بین 10 برتر وجود دارد: Qwen، با Starling 7b و Mixtral 8x7B تنها مدل های باز دیگر در 20 مدل برتر.

یکی از مزایای Claude نسبت به GPT-4 ظرفیت زمینه توکن و قابلیت بازیابی آن است. نسخه عمومی Claude 3 Opus بیش از 200K را مدیریت می کند - و این سازمان ادعا می کند که نسخه محدودی دارد که می تواند 1 میلیون توکن را با نرخ بازیابی تقریباً عالی مدیریت کند. این بدان معناست که کلود می‌تواند اعلان‌های طولانی‌تر را درک کند و اطلاعات را موثرتر از آن حفظ کند در مقایسه با GPT-4 Turbo، که 128 هزار توکن را مدیریت می کند و با درخواست های طولانی قابلیت بازیابی خود را از دست می دهد.

دقت Claude 3 Opus در مقابل GPT-4 Turbo را به یاد بیاورید. تصویر از رمزگشایی با استفاده از داده‌های Anthropic و Greg Kamradt
دقت Claude 3 Opus در مقابل GPT-4 Turbo را به یاد بیاورید. تصویر از رمزگشایی با استفاده از داده‌های Anthropic و Greg Kamradt.

گوگل جمینی پیشرفته در فضای دستیار هوش مصنوعی نیز مورد توجه قرار گرفته است. این شرکت طرحی را ارائه می‌کند که شامل 2 ترابایت فضای ذخیره‌سازی و قابلیت‌های هوش مصنوعی در مجموعه محصولات Google با همان قیمت اشتراک Chat GPT Plus (20 دلار در ماه) است.

Gemini Pro رایگان در حال حاضر در رتبه 4 بین GPT-4 Turbo و Claude 3 Sonnet قرار دارد. مدل برتر جمینی اولترا برای آزمایش در دسترس نیست و هنوز در رتبه بندی معرفی نشده است.

ویرایش شده توسط رایان اوزاوا.

از اخبار ارزهای دیجیتال مطلع باشید، به‌روزرسانی‌های روزانه را در صندوق ورودی خود دریافت کنید.

نقطه_img

جدیدترین اطلاعات

نقطه_img

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟