جنریٹیو ڈیٹا انٹیلی جنس

اینتھروپک کے کلاڈ اے آئی نے چیٹ بوٹ ایرینا لیڈر بورڈ پر چیٹ جی پی ٹی کو ختم کردیا - ڈکرپٹ

تاریخ:

اگرچہ اوپن AI سے ChatGPT تمام جنریٹیو AI ٹولز میں سب سے بڑے مین اسٹریم مائنڈ شیئر سے لطف اندوز ہوتا ہے، اس کا ٹاپ اسپاٹ AI محققین کے استعمال کردہ مقبول کراؤڈ سورس لیڈر بورڈ پر بارہماسی دعویدار Anthropic سے ٹاپ آف دی لائن Claude 3 Opus نے چرا لیا ہے۔

چیٹ بوٹ ایرینا کی درجہ بندی میں کلاڈ کا اضافہ پہلی بار نشان زد کرتا ہے کہ OpenAI کا GPT-4، جو ChatGPT Plus کو طاقت دیتا ہے، پچھلے سال مئی میں لیڈر بورڈ پر پہلی بار نمودار ہونے کے بعد سے معزول کر دیا گیا ہے۔

چیٹ بوٹ ایرینا کو لارج ماڈل سسٹمز آرگنائزیشن (LMSYS ORG) چلاتا ہے، جو ایک تحقیقی تنظیم ہے جو ان ماڈلز کے لیے وقف ہے جو یونیورسٹی آف کیلیفورنیا، برکلے، UC سان ڈیاگو، اور کارنیگی میلن یونیورسٹی کے طلباء اور فیکلٹی کے درمیان تعاون کی حمایت کرتے ہیں۔ پلیٹ فارم صارفین کو دو بغیر لیبل والے لینگویج ماڈلز کے ساتھ پیش کرتا ہے اور ان سے اس بات کی درجہ بندی کرنے کو کہتا ہے کہ ان کے مناسب سمجھے جانے والے معیار کی بنیاد پر کون بہتر کارکردگی کا مظاہرہ کرتا ہے۔

ہزاروں موضوعی موازنہ کو جمع کرنے کے بعد، چیٹ بوٹ ایرینا لیڈر بورڈ کے لیے "بہترین" ماڈلز کا حساب لگاتا ہے، اسے وقت کے ساتھ ساتھ اپ ڈیٹ کرتا ہے۔

وہ ساپیکش نقطہ نظر، جو شرکاء کے مختلف ذاتی ذوق پر مبنی ہے، وہی ہے جو چیٹ بوٹ ایرینا کو دوسرے AI معیارات سے الگ کرتا ہے۔ ماڈل ٹرینرز اپنے ماڈلز کو الگورتھم کو مات دینے کے لیے تیار کر کے "دھوکہ" نہیں دے سکتے، جیسا کہ وہ مقداری معیارات کے ساتھ ہو سکتے ہیں۔ یہ پیمائش کرکے کہ لوگ کس چیز کو ترجیح دیتے ہیں، چیٹ بوٹ ایرینا AI محققین کے لیے ایک قابل قدر، معیاری وسیلہ ہے۔

پلیٹ فارم صارفین کے تاثرات جمع کرتا ہے اور اسے اس کے ذریعے چلاتا ہے۔ بریڈلی ٹیری شماریاتی ماڈل کسی خاص ماڈل کے براہ راست مقابلے میں دوسروں کو پیچھے چھوڑنے کے امکان کی پیش گوئی کرنا۔ یہ نقطہ نظر جامع اعدادوشمار تیار کرنے کے قابل بناتا ہے، بشمول Elo درجہ بندی کے تخمینوں کے لیے اعتماد کے وقفے کی حدود — وہی تکنیک جو شطرنج کے کھلاڑیوں کی مہارت کی پیمائش کے لیے استعمال ہوتی ہے۔

چیٹ بوٹ ایرینا کے ذریعہ درجہ بندی کردہ سرفہرست 10 LLMs۔ تصویر: گلے ملنے والا چہرہ
چیٹ بوٹ ایرینا کے ذریعہ درجہ بندی کردہ سرفہرست 10 LLMs۔ تصویر: گلے ملنے والا چہرہ

Claude 3 Opus کا سب سے اوپر جانا لیڈر بورڈ پر واحد اہم پیشرفت نہیں ہے۔ Claude 3 Sonnet (درمیانے سائز کا ماڈل مفت میں دستیاب ہے) اور Claude 3 Haiku (ایک چھوٹا، تیز ماڈل)، جسے Anthropic نے بھی تیار کیا ہے، اس وقت بالترتیب 4 ویں اور 6 ویں نمبر پر ہیں۔

لیڈر بورڈ میں GPT-4 کے مختلف ورژن شامل ہیں، جیسے GPT-4-0314 (مارچ 4 سے GPT-2023 کا "اصل" ورژن)، GPT-4-0613، GPT-4-1106-preview، اور GPT-4 -0125-پیش نظارہ (جدید ترین GPT-4 ٹربو ماڈل API کے ذریعے جنوری 2024 سے دستیاب ہے)۔ درجہ بندی کے مطابق، Sonnet اور Haiku دونوں اصل GPT-4 سے بہتر ہیں اور Sonnet نے جون 2023 کو OpenAI کی طرف سے شروع کیے گئے ٹوئیک ورژن کو بھی پیچھے چھوڑ دیا ہے۔

اس کا مطلب یہ بھی ہے کہ، افسوس کی بات ہے کہ، اس وقت ٹاپ 10 میں صرف ایک اوپن سورس LLM ہے: Qwen، Starling 7b اور Mixtral 8x7B کے ساتھ ٹاپ 20 میں صرف دوسرے اوپن ماڈلز ہیں۔

GPT-4 پر کلاڈ کا ایک فائدہ اس کی ٹوکن سیاق و سباق کی صلاحیت اور بازیافت کی صلاحیت ہے۔ Claude 3 Opus کا عوامی ورژن 200K سے زیادہ ہینڈل کرتا ہے — اور تنظیم کا دعویٰ ہے کہ ایک محدود ورژن ہے جو تقریباً کامل بازیافت کی شرحوں کے ساتھ 1 ملین ٹوکنز کو ہینڈل کرنے کے قابل ہے۔ اس کا مطلب یہ ہے کہ Claude طویل اشارے کو سمجھ سکتا ہے اور معلومات کو زیادہ مؤثر طریقے سے برقرار رکھ سکتا ہے۔ GPT-4 ٹربو کے مقابلے، جو 128K ٹوکن کو ہینڈل کرتا ہے اور طویل اشارے کے ساتھ اپنی بازیافت کی صلاحیتوں کو کھو دیتا ہے۔

کلاڈ 3 اوپس بمقابلہ GPT-4 ٹربو کی درستگی کو یاد کریں۔ Anthropic اور Greg Kamradt کے ڈیٹا کا استعمال کرتے ہوئے Decrypt سے تصویر
کلاڈ 3 اوپس بمقابلہ GPT-4 ٹربو کی درستگی کو یاد کریں۔ Anthropic اور Greg Kamradt کے ڈیٹا کا استعمال کرتے ہوئے Decrypt سے تصویر۔

گوگل جیمنی ایڈوانسڈ AI اسسٹنٹ اسپیس میں بھی کرشن حاصل کر رہا ہے۔ کمپنی ایک ایسا منصوبہ پیش کرتی ہے جس میں گوگل پروڈکٹس کے سوٹ میں 2TB سٹوریج اور AI صلاحیتیں شامل ہیں جس قیمت پر چیٹ GPT پلس سبسکرپشن ($20 فی مہینہ)۔

مفت Gemini Pro فی الحال GPT-4 Turbo اور Claude 4 Sonnet کے درمیان نمبر 3 پر ہے۔ ٹاپ آف دی لائن جیمنی الٹرا ماڈل جانچ کے لیے دستیاب نہیں ہے اور ابھی تک درجہ بندی میں نمایاں نہیں ہے۔

کی طرف سے ترمیم ریان اوزاوا.

کرپٹو خبروں سے باخبر رہیں، اپنے ان باکس میں روزانہ کی تازہ ترین معلومات حاصل کریں۔

اسپاٹ_مگ

تازہ ترین انٹیلی جنس

اسپاٹ_مگ

ہمارے ساتھ بات چیت

ہیلو وہاں! میں آپ کی کیسے مدد کر سکتا ہوں؟