Модель штучного інтелекту наступного покоління від Anthropic Claude 3 Opus зайняла першу позицію в таблиці лідерів Chatbot Arena, посунувши OpenAI GPT-4 на друге місце.
З моменту запуску минулого року це перший випадок, коли модель Claude 3 Opus очолила список Chatbot Arena, у якому всі три версії Claud 3 потрапили в топ-10.
Моделі Claude 3 залишають слід
Арена чат-ботів LMSYS рейтинги показують, що Claude 3 Sonnet займає четверту позицію спільно з Gemini Pro, а Claude 3 Haiku, який був запущений цього року, посів шосте місце разом із попередньою версією GPT-4.
хоча Клод 3 Хайку може бути не настільки розумним, як Sonnet або Opus, ця модель швидша та значно дешевша, але вона «така ж хороша, як набагато більші моделі під час сліпих тестів», як показують результати арени.
«Claude 3 Haiku вразив усіх, навіть досягнувши рівня GPT-4 за нашими перевагами користувачів! Його швидкість, можливості та довжина контексту зараз не мають собі рівних на ринку», — пояснили в LMSYS.
Відповідно до Tom's Guide, що робить Haiku більш вражаючим, це те, що це «модель місцевого розміру, порівнянна з Gemini Nano». Це може читати та обробляти інформаційно-насичене дослідження документи менш ніж за три секунди.
Модель досягає чудових результатів навіть без трильйонної шкали параметрів Opus або будь-якої моделі класу GPT-4.
[Оновлення Арени]
Понад 70 тисяч нових голосів на Арені🗳️!
Claude-3 Haiku вразив усіх, навіть досягнувши рівня GPT-4 за нашими перевагами користувачів! Його швидкість, можливості та довжина контексту зараз не мають собі рівних на ринку🔥
вітаю @AnthropicAI про неймовірний запуск Клод-3!
Більш захоплюючий… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) Березня 26, 2024
Чи може це бути короткочасним успіхом?
Незважаючи на те, що версії OpenAI GPT-4 потрапили на друге місце, вони все ще домінували в топ-10 списку з чотирма версіями.
За оцінками Керівництво Тома, версії OpenAI GPT-4 у своїх різних формах утримували перше місце «так довго, що будь-яка інша модель, яка наближається до її тестів, відома як модель класу GPT-4».
З огляду на те, що цього року очікується «помітно інший» GPT-5, Anthropic може не утримувати цю позицію надто довго, оскільки розрив у балах між Claude 3 Opus і GPT-4 невеликий.
Хоча OpenAI залишався мовчазним щодо фактичного випуску GPT-5ринок з нетерпінням чекає його запуску. Повідомляється, що модель проходить деякі випробування «суворе тестування безпеки» та симульовані атаки, які мають вирішальне значення перед випуском.
Арена чат-ботів LMSYS
Цей рейтинг ґрунтується на голосуванні людей, на відміну від інших форм порівняльного аналізу моделей ШІ. З цим люди сліпо ранжують вихід двох різних моделей за одним запитом.
Chatbot Arena керується LMSYS і містить безліч великих мовних моделей (LLM), які борються в «анонімних рандомізованих боях».
Він був вперше запущений у травні минулого року та зібрав понад 400,000 XNUMX голосів від користувачів, які мають моделі ШІ від Google, Anthropic і OpenAI.
«LMSYS Chatbot Arena — це краудсорсингова відкрита платформа для оцінювання LLM. Ми зібрали понад 400,000 XNUMX людських голосів, щоб класифікувати магістерів права за системою рейтингу Elo», – сказав LMSYS.
Система Elo здебільшого використовується в таких іграх, як шахи, для оцінки відносної майстерності гравця. Але в цьому випадку рейтинг застосовується до чат-бота, а не до «людини, яка використовує модель».
Читайте також: Microsoft представляє «перші» ПК Surface із кнопкою Copilot AI
Недоліки
У рейтингу Chatbot Arena не бракує недоліків. Відповідно до Tom's Guide, він не включає всі моделі або версії включених моделей, хоча користувачі іноді мають поганий досвід, коли GPT-4 не завантажується. Він також може віддавати перевагу деяким моделям, які мають живий доступ до Інтернету, наприклад Google Gemini Pro.
У той час як інші моделі схожі на моделі французького стартапу AI містраль і китайські фірми, такі як Alibaba, нещодавно зайняли перші місця на арені на додаток до моделей з відкритим кодом, арені все ще бракує деяких високопоставлених моделей. Наприклад, відсутні такі моделі, як Google Gemini Pro 1.5
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/