ذكاء البيانات التوليدية

Claude 3 Opus يحتل المركز الأول في تصنيفات Chatbot

التاريخ:

احتل نموذج الذكاء الاصطناعي للجيل القادم من Anthropic، Claude 3 Opus، المركز الأول في لوحة المتصدرين في Chatbot Arena، مما دفع GPT-4 من OpenAI إلى المركز الثاني.

منذ إطلاقه العام الماضي، هذه هي المرة الأولى التي يتصدر فيها نموذج Claude 3 Opus قائمة Chatbot Arena، التي صنفت جميع إصدارات Claud 3 الثلاثة في المراكز العشرة الأولى.

نماذج كلود 3 تصنع بصمة

ساحة الدردشة الآلية LMSYS ويظهر التصنيف أن Claude 3 Sonnet احتل المركز الرابع مناصفة مع Gemini Pro، في حين احتل Claude 3 Haiku الذي تم إطلاقه هذا العام المركز السادس مع نسخة سابقة من GPT-4.

بالرغم ان كلود 3 هايكو قد لا يكون هذا النموذج ذكيًا مثل Sonnet أو Opus، إلا أنه أسرع وأرخص بكثير، ومع ذلك فهو "جيد مثل النماذج الأكبر بكثير في الاختبارات العمياء"، كما تكشف نتائج الساحة.

"لقد أثار كلود 3 هايكو إعجاب الجميع، حتى أنه وصل إلى مستوى GPT-4 حسب تفضيلات المستخدم لدينا! وأوضح LMSYS أن سرعته وإمكانياته وطول سياقه لا مثيل لها الآن في السوق.

وفقًا لدليل توم، فإن ما يجعل Haiku أكثر إثارة للإعجاب هو أنه "نموذج الحجم المحلي المشابه لـ Gemini Nano". يمكن قراءة ومعالجة البحوث كثيفة المعلومات الأوراق في أقل من ثلاث ثوان.

يحقق النموذج نتائج رائعة حتى بدون مقياس المعلمة تريليون زائد لـ Opus أو أي من نماذج فئة GPT-4.

هل يمكن أن يكون هذا نجاحًا قصير الأمد؟

على الرغم من دفعها إلى المركز الثاني، لا تزال إصدارات GPT-4 من OpenAI تهيمن على المراكز العشرة الأولى في القائمة بأربعة إصدارات.

وفقًا دليل توم، احتلت إصدارات GPT-4 من OpenAI بأشكالها المختلفة المركز الأول "لفترة طويلة حتى أن أي نموذج آخر يقترب من معاييره يُعرف باسم نموذج فئة GPT-4."

مع توقع صدور GPT-5 "مختلف بشكل ملحوظ" في وقت ما من هذا العام، قد لا تحتفظ Anthropic بهذا المنصب لفترة طويلة، حيث أن الفجوة في الدرجات بين Claude 3 Opus وGPT-4 ضيقة.

على الرغم من أن OpenAI ظلت ملتزمة الصمت بشأن الإصدار الفعلي لها GPT-5، ويتوقع السوق إطلاقه بشدة. ويقال أن النموذج يخضع لبعض "اختبارات السلامة الصارمة"والهجمات المحاكاة التي تعتبر حاسمة قبل الإصدار.

ساحة الدردشة الآلية LMSYS

يعتمد هذا التصنيف على الأصوات البشرية، بدلاً من الأشكال الأخرى لقياس نماذج الذكاء الاصطناعي. باستخدام هذا النموذج، يقوم الأشخاص بتصنيف مخرجات نموذجين مختلفين لنفس الموجه.

تتم إدارة Chatbot Arena بواسطة LMSYS وتتميز بمجموعة من نماذج اللغات الكبيرة (LLMs) التي تقاتل في "معارك عشوائية مجهولة".

تم إطلاقه لأول مرة في مايو الماضي، وقد جمع أكثر من 400,000 ألف صوت من المستخدمين الذين لديهم نماذج ذكاء اصطناعي من Google وAnthropic و OpenAI.

"LMSYS Chatbot Arena عبارة عن منصة مفتوحة جماعية لتقييم LLM. لقد جمعنا ما يزيد عن 400,000 صوت من تفضيلات الإنسان لتصنيف حاملي شهادة الماجستير في القانون باستخدام نظام التصنيف Elo،" قال LMSYS.

يُستخدم نظام Elo في الغالب في ألعاب مثل الشطرنج لتقييم المهارة النسبية للاعب. ولكن في هذه الحالة، يتم تطبيق التصنيف على برنامج الدردشة الآلي، وليس على الإنسان الذي يستخدم النموذج.

اقرأ أيضا: مايكروسوفت تكشف عن أجهزة الكمبيوتر السطحية "الأولى" المزودة بزر Copilot AI

العيوب

تصنيف Chatbot Arena لا يخلو من الأخطاء. وفقًا لدليل Tom's Guide، فإنه لا يتضمن جميع الطرز أو إصدارات الطرز المضمنة بينما يواجه المستخدمون أحيانًا تجارب سيئة مع فشل تحميل GPT-4. ويمكنه أيضًا تفضيل بعض الطرز التي تتمتع بإمكانية الوصول المباشر إلى الإنترنت، على سبيل المثال Google Gemini Pro.

في حين أن النماذج الأخرى مثل تلك التي تنتجها شركة AI الفرنسية الناشئة الميسترال ريح شمالية والشركات الصينية مثل علي بابا قد شقت طريقها مؤخرًا إلى المراكز الأولى على الساحة بالإضافة إلى النماذج مفتوحة المصدر، لا تزال الساحة تفتقد بعض النماذج البارزة. على سبيل المثال، يفتقد نماذج مثل Gemini Pro 1.5 من Google

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة

الدردشة معنا

أهلاً! كيف يمكنني مساعدك؟