Generative Data Intelligence

Claude 3 Opus займає перше місце в рейтингу чат-ботів

Дата:

Модель штучного інтелекту наступного покоління від Anthropic Claude 3 Opus зайняла першу позицію в таблиці лідерів Chatbot Arena, посунувши OpenAI GPT-4 на друге місце.

З моменту запуску минулого року це перший випадок, коли модель Claude 3 Opus очолила список Chatbot Arena, у якому всі три версії Claud 3 потрапили в топ-10.

Моделі Claude 3 залишають слід

Арена чат-ботів LMSYS рейтинги показують, що Claude 3 Sonnet займає четверту позицію спільно з Gemini Pro, а Claude 3 Haiku, який був запущений цього року, посів шосте місце разом із попередньою версією GPT-4.

хоча Клод 3 Хайку може бути не настільки розумним, як Sonnet або Opus, ця модель швидша та значно дешевша, але вона «така ж хороша, як набагато більші моделі під час сліпих тестів», як показують результати арени.

«Claude 3 Haiku вразив усіх, навіть досягнувши рівня GPT-4 за нашими перевагами користувачів! Його швидкість, можливості та довжина контексту зараз не мають собі рівних на ринку», — пояснили в LMSYS.

Відповідно до Tom's Guide, що робить Haiku більш вражаючим, це те, що це «модель місцевого розміру, порівнянна з Gemini Nano». Це може читати та обробляти інформаційно-насичене дослідження документи менш ніж за три секунди.

Модель досягає чудових результатів навіть без трильйонної шкали параметрів Opus або будь-якої моделі класу GPT-4.

Чи може це бути короткочасним успіхом?

Незважаючи на те, що версії OpenAI GPT-4 потрапили на друге місце, вони все ще домінували в топ-10 списку з чотирма версіями.

За оцінками Керівництво Тома, версії OpenAI GPT-4 у своїх різних формах утримували перше місце «так довго, що будь-яка інша модель, яка наближається до її тестів, відома як модель класу GPT-4».

З огляду на те, що цього року очікується «помітно інший» GPT-5, Anthropic може не утримувати цю позицію надто довго, оскільки розрив у балах між Claude 3 Opus і GPT-4 невеликий.

Хоча OpenAI залишався мовчазним щодо фактичного випуску GPT-5ринок з нетерпінням чекає його запуску. Повідомляється, що модель проходить деякі випробування «суворе тестування безпеки» та симульовані атаки, які мають вирішальне значення перед випуском.

Арена чат-ботів LMSYS

Цей рейтинг ґрунтується на голосуванні людей, на відміну від інших форм порівняльного аналізу моделей ШІ. З цим люди сліпо ранжують вихід двох різних моделей за одним запитом.

Chatbot Arena керується LMSYS і містить безліч великих мовних моделей (LLM), які борються в «анонімних рандомізованих боях».

Він був вперше запущений у травні минулого року та зібрав понад 400,000 XNUMX голосів від користувачів, які мають моделі ШІ від Google, Anthropic і OpenAI.

«LMSYS Chatbot Arena — це краудсорсингова відкрита платформа для оцінювання LLM. Ми зібрали понад 400,000 XNUMX людських голосів, щоб класифікувати магістерів права за системою рейтингу Elo», – сказав LMSYS.

Система Elo здебільшого використовується в таких іграх, як шахи, для оцінки відносної майстерності гравця. Але в цьому випадку рейтинг застосовується до чат-бота, а не до «людини, яка використовує модель».

Читайте також: Microsoft представляє «перші» ПК Surface із кнопкою Copilot AI

Недоліки

У рейтингу Chatbot Arena не бракує недоліків. Відповідно до Tom's Guide, він не включає всі моделі або версії включених моделей, хоча користувачі іноді мають поганий досвід, коли GPT-4 не завантажується. Він також може віддавати перевагу деяким моделям, які мають живий доступ до Інтернету, наприклад Google Gemini Pro.

У той час як інші моделі схожі на моделі французького стартапу AI містраль і китайські фірми, такі як Alibaba, нещодавно зайняли перші місця на арені на додаток до моделей з відкритим кодом, арені все ще бракує деяких високопоставлених моделей. Наприклад, відсутні такі моделі, як Google Gemini Pro 1.5

spot_img

Остання розвідка

spot_img

Зв'яжіться з нами!

Привіт! Чим я можу вам допомогти?