Claude 3 Opus يحتل المركز الأول في تصنيفات Chatbot

احتل نموذج الذكاء الاصطناعي للجيل القادم من Anthropic، Claude 3 Opus، المركز الأول في لوحة المتصدرين في Chatbot Arena، مما دفع GPT-4 من OpenAI إلى المركز الثاني.

منذ إطلاقه العام الماضي، هذه هي المرة الأولى التي يتصدر فيها نموذج Claude 3 Opus قائمة Chatbot Arena، التي صنفت جميع إصدارات Claud 3 الثلاثة في المراكز العشرة الأولى.

نماذج كلود 3 تصنع بصمة

ساحة الدردشة الآلية LMSYS ويظهر التصنيف أن Claude 3 Sonnet احتل المركز الرابع مناصفة مع Gemini Pro، في حين احتل Claude 3 Haiku الذي تم إطلاقه هذا العام المركز السادس مع نسخة سابقة من GPT-4.

بالرغم ان كلود 3 هايكو قد لا يكون هذا النموذج ذكيًا مثل Sonnet أو Opus، إلا أنه أسرع وأرخص بكثير، ومع ذلك فهو "جيد مثل النماذج الأكبر بكثير في الاختبارات العمياء"، كما تكشف نتائج الساحة.

"لقد أثار كلود 3 هايكو إعجاب الجميع، حتى أنه وصل إلى مستوى GPT-4 حسب تفضيلات المستخدم لدينا! وأوضح LMSYS أن سرعته وإمكانياته وطول سياقه لا مثيل لها الآن في السوق.

وفقًا لدليل توم، فإن ما يجعل Haiku أكثر إثارة للإعجاب هو أنه "نموذج الحجم المحلي المشابه لـ Gemini Nano". يمكن قراءة ومعالجة البحوث كثيفة المعلومات الأوراق في أقل من ثلاث ثوان.

يحقق النموذج نتائج رائعة حتى بدون مقياس المعلمة تريليون زائد لـ Opus أو أي من نماذج فئة GPT-4.

[تحديث الساحة]

أكثر من 70 ألف صوت جديد في الساحة🗳️ متاحة!

نال كلود-3 هايكو إعجاب الجميع، حتى أنه وصل إلى مستوى GPT-4 حسب تفضيلات المستخدم لدينا! سرعته وإمكانياته وطول سياقه لا مثيل لها الآن في السوق🔥

مبروك تضمين التغريدة على إطلاق Claude-3 المذهل!

أكثر تشويقا… pic.twitter.com/p1Guuf0B3K

— lmsys.org (@lmsysorg) 26 آذار، 2024

هل يمكن أن يكون هذا نجاحًا قصير الأمد؟

على الرغم من دفعها إلى المركز الثاني، لا تزال إصدارات GPT-4 من OpenAI تهيمن على المراكز العشرة الأولى في القائمة بأربعة إصدارات.

وفقًا دليل توم، احتلت إصدارات GPT-4 من OpenAI بأشكالها المختلفة المركز الأول "لفترة طويلة حتى أن أي نموذج آخر يقترب من معاييره يُعرف باسم نموذج فئة GPT-4."

مع توقع صدور GPT-5 "مختلف بشكل ملحوظ" في وقت ما من هذا العام، قد لا تحتفظ Anthropic بهذا المنصب لفترة طويلة، حيث أن الفجوة في الدرجات بين Claude 3 Opus وGPT-4 ضيقة.

على الرغم من أن OpenAI ظلت ملتزمة الصمت بشأن الإصدار الفعلي لها GPT-5، ويتوقع السوق إطلاقه بشدة. ويقال أن النموذج يخضع لبعض "اختبارات السلامة الصارمة"والهجمات المحاكاة التي تعتبر حاسمة قبل الإصدار.

ساحة الدردشة الآلية LMSYS

يعتمد هذا التصنيف على الأصوات البشرية، بدلاً من الأشكال الأخرى لقياس نماذج الذكاء الاصطناعي. باستخدام هذا النموذج، يقوم الأشخاص بتصنيف مخرجات نموذجين مختلفين لنفس الموجه.

تتم إدارة Chatbot Arena بواسطة LMSYS وتتميز بمجموعة من نماذج اللغات الكبيرة (LLMs) التي تقاتل في "معارك عشوائية مجهولة".

تم إطلاقه لأول مرة في مايو الماضي، وقد جمع أكثر من 400,000 ألف صوت من المستخدمين الذين لديهم نماذج ذكاء اصطناعي من Google وAnthropic و OpenAI.

"LMSYS Chatbot Arena عبارة عن منصة مفتوحة جماعية لتقييم LLM. لقد جمعنا ما يزيد عن 400,000 صوت من تفضيلات الإنسان لتصنيف حاملي شهادة الماجستير في القانون باستخدام نظام التصنيف Elo،" قال LMSYS.

يُستخدم نظام Elo في الغالب في ألعاب مثل الشطرنج لتقييم المهارة النسبية للاعب. ولكن في هذه الحالة، يتم تطبيق التصنيف على برنامج الدردشة الآلي، وليس على الإنسان الذي يستخدم النموذج.

العيوب

تصنيف Chatbot Arena لا يخلو من الأخطاء. وفقًا لدليل Tom's Guide، فإنه لا يتضمن جميع الطرز أو إصدارات الطرز المضمنة بينما يواجه المستخدمون أحيانًا تجارب سيئة مع فشل تحميل GPT-4. ويمكنه أيضًا تفضيل بعض الطرز التي تتمتع بإمكانية الوصول المباشر إلى الإنترنت، على سبيل المثال Google Gemini Pro.

في حين أن النماذج الأخرى مثل تلك التي تنتجها شركة AI الفرنسية الناشئة الميسترال ريح شمالية والشركات الصينية مثل علي بابا قد شقت طريقها مؤخرًا إلى المراكز الأولى على الساحة بالإضافة إلى النماذج مفتوحة المصدر، لا تزال الساحة تفتقد بعض النماذج البارزة. على سبيل المثال، يفتقد نماذج مثل Gemini Pro 1.5 من Google

محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
المصدر https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/

ذكاء البيانات التوليدية

Claude 3 Opus يحتل المركز الأول في تصنيفات Chatbot

نماذج كلود 3 تصنع بصمة

هل يمكن أن يكون هذا نجاحًا قصير الأمد؟

ساحة الدردشة الآلية LMSYS

العيوب

افتتاح غرفة الهروب ذات الطابع الكمي في متحف العلوم الألماني – عالم الفيزياء

Cleffa Hatch Day-بوكيمون GO

أحدث المعلومات الاستخباراتية

تصر وزارة العدل على أن تورنادو كاش تعمل كـ "مؤسسة تجارية"

7 عوامل أساسية لاختيار أفضل أدوات SIEM

أفضل 8 عروض أولية للعملة لعام 2024: BlockDAG تتصدر مبيعاتها المسبقة التي حطمت الأرقام القياسية

العملة المشفرة: أفضل 3 عملات تعمل بالذكاء الاصطناعي يجب مراقبتها لتحقيق مكاسب مكونة من رقمين

العرض المسبق لـ BDAG بقيمة 20.7 مليون دولار، يتفوق على Galaxy Fox لأول مرة

Upbit تهيمن على سوق العملات المشفرة في كوريا الجنوبية، وتحتل المرتبة الخامسة عالميًا: تقرير

الدردشة معنا