Генеративный анализ данных

Клод ИИ из Anthropic побеждает ChatGPT в таблице лидеров Chatbot Arena – расшифровать

Дата:

Хотя ChatGPT от Open AI пользуется наибольшим вниманием среди всех инструментов генеративного ИИ, его первое место уступило топовому Claude 3 Opus от постоянного конкурента Anthropic в популярной краудсорсинговой таблице лидеров, используемой исследователями ИИ.

Вознесение Клода в рейтинге Chatbot Arena знаменует собой первый случай, когда GPT-4 OpenAI, лежащий в основе ChatGPT Plus, был свергнут с момента его первого появления в таблице лидеров в мае прошлого года.

Chatbot Arena управляется организацией Large Model Systems Organization (LMSYS ORG), исследовательской организацией, занимающейся открытыми моделями, которые поддерживают сотрудничество между студентами и преподавателями Калифорнийского университета, Беркли, Калифорнийского университета в Сан-Диего и Университета Карнеги-Меллона. Платформа предлагает пользователям две немаркированные языковые модели и просит их оценить, какая из них работает лучше, основываясь на любых критериях, которые они считают подходящими.

После агрегирования тысяч субъективных сравнений Chatbot Arena вычисляет «лучшие» модели для таблицы лидеров, обновляя ее с течением времени.

Именно этот субъективный подход, основанный на различных личных вкусах участников, отличает Chatbot Arena от других тестов искусственного интеллекта. Тренеры моделей не могут «обманывать», адаптируя свои модели так, чтобы они обыграли алгоритм, как они могли бы это сделать с количественными показателями. Измеряя то, что люди просто предпочитают, Chatbot Arena является ценным качественным ресурсом для исследователей ИИ.

Платформа собирает отзывы пользователей и пропускает их через Статистическая модель Брэдли-Терри предсказать вероятность того, что конкретная модель превзойдет другие в прямой конкуренции. Этот подход позволяет генерировать комплексную статистику, включая диапазоны доверительных интервалов для оценок рейтинга Эло — тот же метод, который используется для измерения навыков шахматистов.

10 лучших студентов LLM по версии Chatbot Arena. Изображение: Обнимающее лицо
10 лучших студентов LLM по версии Chatbot Arena. Изображение: Обнимающее лицо

Подъем Claude 3 Opus на вершину — не единственное значительное событие в таблице лидеров. Claude 3 Sonnet (модель среднего размера, доступная бесплатно) и Claude 3 Haiku (меньшая, но более быстрая модель), также разработанные Anthropic, в настоящее время находятся на 4-м и 6-м месте соответственно.

В таблицу лидеров входят различные версии GPT-4, такие как GPT-4-0314 («исходная» версия GPT-4 от марта 2023 г.), GPT-4-0613, GPT-4-1106-preview и GPT-4. -0125-превью (последняя модель GPT-4 Turbo, доступная через API с января 2024 г.). Согласно рейтингу, Sonnet и Haiku лучше оригинального GPT-4, причем Sonnet также опережает модифицированную версию, выпущенную OpenAI в июне 2023 года.

Это также означает, что, к сожалению, в настоящее время в топ-10 входит только одна LLM с открытым исходным кодом: Qwen, а Starling 7b и Mixtral 8x7B — единственные другие открытые модели в топ-20.

Одним из преимуществ Claude перед GPT-4 является емкость контекста токена и возможность извлечения. Публичная версия Claude 3 Opus обрабатывает более 200 тысяч токенов, и организация утверждает, что у нее есть ограниченная версия, способная обрабатывать 1 миллион токенов с почти идеальной скоростью извлечения. Это означает, что Клод может понимать более длинные подсказки и сохранять информацию более эффективно, чем по сравнению с ГПТ-4 Турбо, который обрабатывает 128 тыс. токенов и теряет возможности извлечения при длинных подсказках.

Вспомним точность Claude 3 Opus vs GPT-4 Turbo. Изображение из Decrypt с использованием данных Anthropic и Грега Камрадта.
Вспомним точность Claude 3 Opus vs GPT-4 Turbo. Изображение из Decrypt с использованием данных Anthropic и Грега Камрадта.

Google Gemini Advanced также набирает обороты в сфере ИИ-помощников. Компания предлагает план, который включает 2 ТБ хранилища и возможности искусственного интеллекта в наборе продуктов Google по той же цене, что и подписка Chat GPT Plus (20 долларов в месяц).

Бесплатная версия Gemini Pro в настоящее время занимает 4-е место между GPT-4 Turbo и Claude 3 Sonnet. Топовая модель Gemini Ultra недоступна для тестирования и пока не представлена ​​в рейтингах.

Под редакцией Райан Одзава.

Будьте в курсе крипто-новостей, получайте ежедневные обновления на свой почтовый ящик.

Spot_img

Последняя разведка

Spot_img

Чат с нами

Всем привет! Могу я чем-нибудь помочь?