Claude 3 Opus займає перше місце в рейтингу чат-ботів

Модель штучного інтелекту наступного покоління від Anthropic Claude 3 Opus зайняла першу позицію в таблиці лідерів Chatbot Arena, посунувши OpenAI GPT-4 на друге місце.

З моменту запуску минулого року це перший випадок, коли модель Claude 3 Opus очолила список Chatbot Arena, у якому всі три версії Claud 3 потрапили в топ-10.

Моделі Claude 3 залишають слід

Арена чат-ботів LMSYS рейтинги показують, що Claude 3 Sonnet займає четверту позицію спільно з Gemini Pro, а Claude 3 Haiku, який був запущений цього року, посів шосте місце разом із попередньою версією GPT-4.

хоча Клод 3 Хайку може бути не настільки розумним, як Sonnet або Opus, ця модель швидша та значно дешевша, але вона «така ж хороша, як набагато більші моделі під час сліпих тестів», як показують результати арени.

«Claude 3 Haiku вразив усіх, навіть досягнувши рівня GPT-4 за нашими перевагами користувачів! Його швидкість, можливості та довжина контексту зараз не мають собі рівних на ринку», — пояснили в LMSYS.

Відповідно до Tom's Guide, що робить Haiku більш вражаючим, це те, що це «модель місцевого розміру, порівнянна з Gemini Nano». Це може читати та обробляти інформаційно-насичене дослідження документи менш ніж за три секунди.

Модель досягає чудових результатів навіть без трильйонної шкали параметрів Opus або будь-якої моделі класу GPT-4.

[Оновлення Арени]

Понад 70 тисяч нових голосів на Арені🗳️!

Claude-3 Haiku вразив усіх, навіть досягнувши рівня GPT-4 за нашими перевагами користувачів! Його швидкість, можливості та довжина контексту зараз не мають собі рівних на ринку🔥

вітаю @AnthropicAI про неймовірний запуск Клод-3!

Більш захоплюючий… pic.twitter.com/p1Guuf0B3K

— lmsys.org (@lmsysorg) Березня 26, 2024

Чи може це бути короткочасним успіхом?

Незважаючи на те, що версії OpenAI GPT-4 потрапили на друге місце, вони все ще домінували в топ-10 списку з чотирма версіями.

За оцінками Керівництво Тома, версії OpenAI GPT-4 у своїх різних формах утримували перше місце «так довго, що будь-яка інша модель, яка наближається до її тестів, відома як модель класу GPT-4».

З огляду на те, що цього року очікується «помітно інший» GPT-5, Anthropic може не утримувати цю позицію надто довго, оскільки розрив у балах між Claude 3 Opus і GPT-4 невеликий.

Хоча OpenAI залишався мовчазним щодо фактичного випуску GPT-5ринок з нетерпінням чекає його запуску. Повідомляється, що модель проходить деякі випробування «суворе тестування безпеки» та симульовані атаки, які мають вирішальне значення перед випуском.

Арена чат-ботів LMSYS

Цей рейтинг ґрунтується на голосуванні людей, на відміну від інших форм порівняльного аналізу моделей ШІ. З цим люди сліпо ранжують вихід двох різних моделей за одним запитом.

Chatbot Arena керується LMSYS і містить безліч великих мовних моделей (LLM), які борються в «анонімних рандомізованих боях».

Він був вперше запущений у травні минулого року та зібрав понад 400,000 XNUMX голосів від користувачів, які мають моделі ШІ від Google, Anthropic і OpenAI.

«LMSYS Chatbot Arena — це краудсорсингова відкрита платформа для оцінювання LLM. Ми зібрали понад 400,000 XNUMX людських голосів, щоб класифікувати магістерів права за системою рейтингу Elo», – сказав LMSYS.

Система Elo здебільшого використовується в таких іграх, як шахи, для оцінки відносної майстерності гравця. Але в цьому випадку рейтинг застосовується до чат-бота, а не до «людини, яка використовує модель».

Читайте також: Microsoft представляє «перші» ПК Surface із кнопкою Copilot AI

Недоліки

У рейтингу Chatbot Arena не бракує недоліків. Відповідно до Tom's Guide, він не включає всі моделі або версії включених моделей, хоча користувачі іноді мають поганий досвід, коли GPT-4 не завантажується. Він також може віддавати перевагу деяким моделям, які мають живий доступ до Інтернету, наприклад Google Gemini Pro.

У той час як інші моделі схожі на моделі французького стартапу AI містраль і китайські фірми, такі як Alibaba, нещодавно зайняли перші місця на арені на додаток до моделей з відкритим кодом, арені все ще бракує деяких високопоставлених моделей. Наприклад, відсутні такі моделі, як Google Gemini Pro 1.5

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
джерело: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/

Generative Data Intelligence

Claude 3 Opus займає перше місце в рейтингу чат-ботів

Моделі Claude 3 залишають слід

Чи може це бути короткочасним успіхом?

Арена чат-ботів LMSYS

Недоліки

Найкращі недрафтовані вільні агенти з драфту НФЛ 2024

Baldur's Gate 3 – оновлення спільноти 26

Остання розвідка

Новий закон в Оклахомі захищає права громадян на володіння біткойнами – CryptoInfoNet

Нова рекламна акція Bitget «Trade to Mine» дозволяє трейдерам зберігати всі комісії за торгівлю

Wondra: переосмислення плану для Metaverse 2.0 – CryptoInfoNet

Експерт каже, що ціна біткойна досягла вершини та знаходиться в експоненціальному спаді, чому це не погано

Пробний драфт НФЛ 2025 27 квітня

BlockDAG перевершує ринковий ентузіазм ETH і TRON із пропозицією 1 долар на день із мобільним додатком для майнінгу X1

Зв'яжіться з нами!