דגם ה-AI של Anthropic מהדור הבא, קלוד 3 Opus, תפס עמדה בולט בטבלת ה-Chatbot Arena, ודחף את ה-GPT-4 של OpenAI למקום השני הטוב ביותר.
מאז שהושק בשנה שעברה, זו הפעם הראשונה שדגם קלוד 3 אופוס נמצא בראש רשימת הצ'אטבוט ארנה, שבה כל שלוש גרסאות הקלוד 3 מדורגות ב-10 המובילות.
דגמי קלוד 3 מטביעים חותם
ה-LMSYS Chatbot Arena הדירוגים מראים שקלוד 3 סונט תפס מקום רביעי משותף עם Gemini Pro בעוד שקלוד 3 Haiku, שהושק השנה, דורג במקום השישי יחד עם גרסה קודמת של GPT-4.
למרות קלוד 3 הייקו אולי לא אינטליגנטי כמו סונט או אופוס, הדגם מהיר יותר וזול משמעותית, אך הוא "טוב כמו הדגמים הגדולים בהרבה במבחנים עיוורים", כפי שחושפות תוצאות הזירה.
"קלוד 3 Haiku הרשים את כולם, אפילו הגיע לרמת GPT-4 לפי העדפת המשתמש שלנו! המהירות, היכולות ואורך ההקשר שלו הם ללא תחרות עכשיו בשוק", הסביר LMSYS.
לפי המדריך של טום, מה שהופך את הייקו למרשים יותר הוא שזהו "הדגם בגודל מקומי הדומה ל-Gemini Nano". זה יכול לקרוא ולעבד מחקרים עתירי מידע ניירות בפחות משלוש שניות.
הדגם משיג תוצאות מצוינות גם ללא קנה מידה של טריליון פלוס פרמטרים של Opus או כל אחד מהדגמים מסוג GPT-4.
[עדכון זירה]
70K+ הצבעות חדשות בארנה🗳️ נכנסו!
Claude-3 Haiku הרשים את כולם, אפילו הגיע לרמת GPT-4 לפי העדפת המשתמש שלנו! המהירות, היכולות ואורך ההקשר שלו הם ללא תחרות עכשיו בשוק🔥
מזל טוב @AnthropicAI על ההשקה המדהימה של קלוד-3!
יותר מרגש… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) במרץ 26, 2024
האם זו יכולה להיות הצלחה קצרת מועד?
למרות הדחיפה למיקום השני, גרסאות ה-GPT-4 של OpenAI עדיין שלטו ב-10 המובילים ברשימה עם ארבע גרסאות.
לפי מדריך של טום, גרסאות ה-GPT-4 של OpenAI בצורותיהן השונות החזיקו במקום הראשון "כל כך הרבה זמן שכל דגם אחר שמתקרב לאמות מידה שלו ידוע בתור דגם מסוג GPT-4".
עם GPT-5 "שונה באופן ניכר" שצפוי לתקופה מסוימת השנה, ייתכן שאנתרופיק לא יחזיק בעמדה הזו יותר מדי זמן, מכיוון שהפער בציונים בין קלוד 3 אופוס ל-GPT-4 צר.
למרות ש-OpenAI נותרה קשוחה על השחרור בפועל שלו GPT-5, השוק צופה מאוד את השקתו. על פי הדיווחים, הדגם עובר כמה "בדיקות בטיחות קפדניות" והתקפות מדומות שהן חיוניות לפני השחרור.
ה-LMSYS Chatbot Arena
דירוג זה מסתמך על קולות אנושיים, בניגוד לצורות אחרות של השוואת ביצועים עבור מודלים של AI. עם זה, אנשים מדרגים עיוור את הפלט של שני דגמים שונים לאותה הנחיה.
זירת הצ'טבוט מנוהלת על ידי LMSYS וכוללת שורה של דגמי שפה גדולים (LLMs) שנלחמים בו ב"קרבות אקראיים אנונימיים".
הוא הושק לראשונה במאי האחרון ואסף יותר מ-400,000 הצבעות ממשתמשים בעלי דגמי בינה מלאכותית מגוגל, אנתרופיק ו OpenAI.
"LMSYS Chatbot Arena היא פלטפורמה פתוחה במקור המונים עבור evals LLM. אספנו למעלה מ-400,000 קולות העדפה אנושית כדי לדרג את ה-LLM עם מערכת הדירוג Elo", אמר LMSYS.
מערכת Elo משמשת בעיקר במשחקים כמו שחמט כדי להעריך את המיומנות היחסית של שחקן. אבל במקרה זה, הדירוג מוחל על הצ'אטבוט ולא על האדם המשתמש במודל.
גם לקרוא: מיקרוסופט חושפת מחשבי שטח "ראשונים" עם כפתור AI Copilot
החסרונות
דירוג הצ'אטבוט ארנה אינו חסר תקלות. על פי המדריך של Tom, הוא אינו כולל את כל הדגמים או הגרסאות של הדגמים הכלולים בעוד שלמשתמשים יש לפעמים חוויות רעות עם כשל בטעינת GPT-4. זה יכול גם להעדיף כמה דגמים שיש להם גישה לאינטרנט חי, למשל Google Gemini Pro.
בעוד דגמים אחרים כמו אלה של סטארט-אפ AI צרפתי Mistral וחברות סיניות כמו עליבאבא עשו לאחרונה את דרכן למקומות הראשונים בזירה בנוסף לדגמי קוד פתוח, הזירה עדיין חסרה לכמה דגמים בעלי פרופיל גבוה. לדוגמה, חסרים לו דגמים כמו Gemini Pro 1.5 של גוגל
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/