אינטליגנציה של נתונים גנרטיביים

קלוד 3 אופוס תופס מקום ראשון בדירוג הצ'אטבוטים

תאריך:

דגם ה-AI של Anthropic מהדור הבא, קלוד 3 Opus, תפס עמדה בולט בטבלת ה-Chatbot Arena, ודחף את ה-GPT-4 של OpenAI למקום השני הטוב ביותר.

מאז שהושק בשנה שעברה, זו הפעם הראשונה שדגם קלוד 3 אופוס נמצא בראש רשימת הצ'אטבוט ארנה, שבה כל שלוש גרסאות הקלוד 3 מדורגות ב-10 המובילות.

דגמי קלוד 3 מטביעים חותם

ה-LMSYS Chatbot Arena הדירוגים מראים שקלוד 3 סונט תפס מקום רביעי משותף עם Gemini Pro בעוד שקלוד 3 Haiku, שהושק השנה, דורג במקום השישי יחד עם גרסה קודמת של GPT-4.

למרות קלוד 3 הייקו אולי לא אינטליגנטי כמו סונט או אופוס, הדגם מהיר יותר וזול משמעותית, אך הוא "טוב כמו הדגמים הגדולים בהרבה במבחנים עיוורים", כפי שחושפות תוצאות הזירה.

"קלוד 3 Haiku הרשים את כולם, אפילו הגיע לרמת GPT-4 לפי העדפת המשתמש שלנו! המהירות, היכולות ואורך ההקשר שלו הם ללא תחרות עכשיו בשוק", הסביר LMSYS.

לפי המדריך של טום, מה שהופך את הייקו למרשים יותר הוא שזהו "הדגם בגודל מקומי הדומה ל-Gemini Nano". זה יכול לקרוא ולעבד מחקרים עתירי מידע ניירות בפחות משלוש שניות.

הדגם משיג תוצאות מצוינות גם ללא קנה מידה של טריליון פלוס פרמטרים של Opus או כל אחד מהדגמים מסוג GPT-4.

האם זו יכולה להיות הצלחה קצרת מועד?

למרות הדחיפה למיקום השני, גרסאות ה-GPT-4 של OpenAI עדיין שלטו ב-10 המובילים ברשימה עם ארבע גרסאות.

לפי מדריך של טום, גרסאות ה-GPT-4 של OpenAI בצורותיהן השונות החזיקו במקום הראשון "כל כך הרבה זמן שכל דגם אחר שמתקרב לאמות מידה שלו ידוע בתור דגם מסוג GPT-4".

עם GPT-5 "שונה באופן ניכר" שצפוי לתקופה מסוימת השנה, ייתכן שאנתרופיק לא יחזיק בעמדה הזו יותר מדי זמן, מכיוון שהפער בציונים בין קלוד 3 אופוס ל-GPT-4 צר.

למרות ש-OpenAI נותרה קשוחה על השחרור בפועל שלו GPT-5, השוק צופה מאוד את השקתו. על פי הדיווחים, הדגם עובר כמה "בדיקות בטיחות קפדניות" והתקפות מדומות שהן חיוניות לפני השחרור.

ה-LMSYS Chatbot Arena

דירוג זה מסתמך על קולות אנושיים, בניגוד לצורות אחרות של השוואת ביצועים עבור מודלים של AI. עם זה, אנשים מדרגים עיוור את הפלט של שני דגמים שונים לאותה הנחיה.

זירת הצ'טבוט מנוהלת על ידי LMSYS וכוללת שורה של דגמי שפה גדולים (LLMs) שנלחמים בו ב"קרבות אקראיים אנונימיים".

הוא הושק לראשונה במאי האחרון ואסף יותר מ-400,000 הצבעות ממשתמשים בעלי דגמי בינה מלאכותית מגוגל, אנתרופיק ו OpenAI.

"LMSYS Chatbot Arena היא פלטפורמה פתוחה במקור המונים עבור evals LLM. אספנו למעלה מ-400,000 קולות העדפה אנושית כדי לדרג את ה-LLM עם מערכת הדירוג Elo", אמר LMSYS.

מערכת Elo משמשת בעיקר במשחקים כמו שחמט כדי להעריך את המיומנות היחסית של שחקן. אבל במקרה זה, הדירוג מוחל על הצ'אטבוט ולא על האדם המשתמש במודל.

גם לקרוא: מיקרוסופט חושפת מחשבי שטח "ראשונים" עם כפתור AI Copilot

החסרונות

דירוג הצ'אטבוט ארנה אינו חסר תקלות. על פי המדריך של Tom, הוא אינו כולל את כל הדגמים או הגרסאות של הדגמים הכלולים בעוד שלמשתמשים יש לפעמים חוויות רעות עם כשל בטעינת GPT-4. זה יכול גם להעדיף כמה דגמים שיש להם גישה לאינטרנט חי, למשל Google Gemini Pro.

בעוד דגמים אחרים כמו אלה של סטארט-אפ AI צרפתי Mistral וחברות סיניות כמו עליבאבא עשו לאחרונה את דרכן למקומות הראשונים בזירה בנוסף לדגמי קוד פתוח, הזירה עדיין חסרה לכמה דגמים בעלי פרופיל גבוה. לדוגמה, חסרים לו דגמים כמו Gemini Pro 1.5 של גוגל

ספוט_ימג

המודיעין האחרון

ספוט_ימג

דבר איתנו

שלום שם! איך אני יכול לעזור לך?