در حالی که ChatGPT از Open AI از بزرگترین اشتراک ذهنی اصلی در بین تمام ابزارهای مولد هوش مصنوعی برخوردار است، رتبه برتر آن توسط برترین Claude 3 Opus از رقیب همیشگی Anthropic در تابلوی امتیازات جمع سپاری محبوبی که توسط محققان هوش مصنوعی استفاده می شود ربوده است.
صعود کلود در رتبه بندی Chatbot Arena اولین بار است که GPT-4 OpenAI، که قدرت ChatGPT Plus را بر عهده دارد، از زمانی که برای اولین بار در ماه می سال گذشته در جدول امتیازات ظاهر شد، سقوط کرد.
Chatbot Arena توسط Large Model Systems Organization (LMSYS ORG)، یک سازمان تحقیقاتی اختصاص داده شده به مدل های باز که از همکاری بین دانشجویان و اساتید در دانشگاه کالیفرنیا، برکلی، UC San Diego و دانشگاه Carnegie Mellon پشتیبانی می کند، اداره می شود. این پلتفرم دو مدل زبان بدون برچسب را به کاربران ارائه میکند و از آنها میخواهد بر اساس معیارهایی که مناسب میدانند، عملکرد بهتری را ارزیابی کنند.
پس از جمع آوری هزاران مقایسه ذهنی، Chatbot Arena "بهترین" مدل ها را برای تابلوی امتیازات محاسبه می کند و در طول زمان آن را به روز می کند.
این رویکرد ذهنی، بر اساس سلیقههای شخصی متفاوت شرکتکنندگان، چیزی است که Chatbot Arena را از سایر معیارهای هوش مصنوعی متمایز میکند. مربیان مدل نمی توانند با طراحی مدل های خود به گونه ای که الگوریتم را شکست دهند، «تقلب» کنند، همانطور که ممکن است با معیارهای کمی. Chatbot Arena با اندازهگیری آنچه مردم به سادگی ترجیح میدهند، منبعی با ارزش و کیفی برای محققان هوش مصنوعی است.
این پلتفرم بازخورد کاربران را جمع آوری می کند و آن را از طریق آن اجرا می کند مدل آماری بردلی تری برای پیش بینی احتمال عملکرد بهتر یک مدل خاص از سایرین در رقابت مستقیم. این رویکرد امکان تولید آمار جامع، از جمله محدوده فاصله اطمینان برای تخمینهای رتبهبندی Elo را فراهم میکند - همان تکنیکی که برای اندازهگیری مهارت بازیکنان شطرنج استفاده میشود.
صعود Claude 3 Opus به اوج تنها پیشرفت قابل توجه در جدول امتیازات نیست. Claude 3 Sonnet (مدل سایز متوسط که به صورت رایگان در دسترس است) و Claude 3 Haiku (مدل کوچکتر و سریعتر) که توسط Anthropic نیز ساخته شده است، در حال حاضر به ترتیب در جایگاه چهارم و ششم قرار دارند.
تابلوی امتیازات شامل نسخههای مختلف GPT-4، مانند GPT-4-0314 (نسخه اصلی GPT-4 از مارس 2023)، GPT-4-0613، GPT-4-1106-preview، و GPT-4 است. -0125-preview (آخرین مدل GPT-4 Turbo در دسترس از طریق API از ژانویه 2024). با توجه به رتبه بندی، Sonnet و Haiku هر دو بهتر از GPT-4 اصلی هستند و Sonnet نیز از نسخه بهینه سازی شده ای که توسط OpenAI در ژوئن 2023 راه اندازی شد، پیشی گرفت.
این همچنین به این معنی است که، متأسفانه، در حال حاضر تنها یک LLM منبع باز در بین 10 برتر وجود دارد: Qwen، با Starling 7b و Mixtral 8x7B تنها مدل های باز دیگر در 20 مدل برتر.
یکی از مزایای Claude نسبت به GPT-4 ظرفیت زمینه توکن و قابلیت بازیابی آن است. نسخه عمومی Claude 3 Opus بیش از 200K را مدیریت می کند - و این سازمان ادعا می کند که نسخه محدودی دارد که می تواند 1 میلیون توکن را با نرخ بازیابی تقریباً عالی مدیریت کند. این بدان معناست که کلود میتواند اعلانهای طولانیتر را درک کند و اطلاعات را موثرتر از آن حفظ کند در مقایسه با GPT-4 Turbo، که 128 هزار توکن را مدیریت می کند و با درخواست های طولانی قابلیت بازیابی خود را از دست می دهد.
گوگل جمینی پیشرفته در فضای دستیار هوش مصنوعی نیز مورد توجه قرار گرفته است. این شرکت طرحی را ارائه میکند که شامل 2 ترابایت فضای ذخیرهسازی و قابلیتهای هوش مصنوعی در مجموعه محصولات Google با همان قیمت اشتراک Chat GPT Plus (20 دلار در ماه) است.
Gemini Pro رایگان در حال حاضر در رتبه 4 بین GPT-4 Turbo و Claude 3 Sonnet قرار دارد. مدل برتر جمینی اولترا برای آزمایش در دسترس نیست و هنوز در رتبه بندی معرفی نشده است.
ویرایش شده توسط رایان اوزاوا.
از اخبار ارزهای دیجیتال مطلع باشید، بهروزرسانیهای روزانه را در صندوق ورودی خود دریافت کنید.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://decrypt.co/223787/anthropic-claude-ai-versus-openai-chatgpt-llm-arena-ranking