Генеративный анализ данных

Claude 3 Opus занял первое место в рейтинге чат-ботов

Дата:

Модель искусственного интеллекта следующего поколения от Anthropic Claude 3 Opus заняла поул-позицию в таблице лидеров Chatbot Arena, подняв GPT-4 от OpenAI на второе место.

С момента запуска в прошлом году модель Claude 3 Opus впервые возглавила список Chatbot Arena, в котором все три версии Claud 3 вошли в десятку лучших.

Модели Claude 3 производят впечатление

Арена чат-ботов LMSYS Рейтинги показывают, что Claude 3 Sonnet занял четвертую позицию вместе с Gemini Pro, а Claude 3 Haiku, выпущенный в этом году, занял шестое место вместе с более ранней версией GPT-4.

Несмотря на то, что Клод 3 Хайку может быть, не так интеллектуальна, как Sonnet или Opus, модель быстрее и значительно дешевле, но, как показывают результаты арены, она «так же хороша, как и гораздо более крупные модели на слепых тестах».

«Claude 3 Haiku впечатлил всех, даже достигнув уровня GPT-4 по предпочтениям наших пользователей! Его скорость, возможности и длина контекста не имеют себе равных на рынке», — пояснили в LMSYS.

По данным Tom's Guide, Haiku более впечатляет то, что это «модель местного размера, сравнимая с Gemini Nano». Он может читать и обрабатывать информативные исследования документы менее чем за три секунды.

Модель достигает отличных результатов даже без шкалы параметров в триллион с лишним, как у Opus или любой из моделей класса GPT-4.

Может ли это быть кратковременным успехом?

Несмотря на то, что версии OpenAI GPT-4 были отодвинуты на вторую позицию, они по-прежнему доминировали в первой десятке списка с четырьмя версиями.

По Руководство пользователя Tom's GuideВерсии GPT-4 от OpenAI в различных формах удерживали первое место «настолько долго, что любая другая модель, приближающаяся к ее эталонам, называется моделью класса GPT-4».

Поскольку в этом году ожидается «заметно другой» GPT-5, Anthropic, возможно, не будет удерживать эту позицию слишком долго, поскольку разрыв в баллах между Claude 3 Opus и GPT-4 невелик.

Хотя OpenAI по-прежнему хранит молчание о фактическом выпуске своей GPT-5, рынок с нетерпением ожидает его запуска. Сообщается, что модель проходит некоторые «строгие испытания на безопасность» и смоделированные атаки, которые имеют решающее значение перед выпуском.

Арена чат-ботов LMSYS

Этот рейтинг основан на голосах людей, в отличие от других форм сравнительного анализа моделей ИИ. В этом случае люди ранжируют результаты двух разных моделей вслепую по одному и тому же запросу.

Арена чат-ботов находится под управлением LMSYS и включает в себя множество крупных языковых моделей (LLM), которые сражаются в «анонимных случайных битвах».

Впервые он был запущен в мае прошлого года и собрал более 400,000 XNUMX голосов от пользователей, у которых есть модели искусственного интеллекта от Google, Anthropic и OpenAI.

«LMSYS Chatbot Arena — это краудсорсинговая открытая платформа для оценки LLM. Мы собрали более 400,000 XNUMX человеческих голосов, чтобы ранжировать LLM с помощью рейтинговой системы Elo», — заявили в LMSYS.

Система Эло в основном используется в таких играх, как шахматы, для оценки относительного мастерства игрока. Но в данном случае рейтинг применяется к чат-боту, а «а не к человеку, использующему модель».

Читайте также: Microsoft представляет «первые» ПК Surface с кнопкой Copilot AI

Недостатки

Рейтинг Chatbot Arena не лишен недостатков. Согласно Tom's Guide, он не включает все модели или версии включенных моделей, хотя у пользователей иногда возникают неприятные ситуации, когда GPT-4 не загружается. Он также может отдавать предпочтение некоторым моделям с прямым доступом в Интернет, например Google Gemini Pro.

В то время как другие модели, например модели французского стартапа в области искусственного интеллекта, Мистраль и китайские фирмы, такие как Alibaba, недавно заняли первые места на арене, помимо моделей с открытым исходным кодом, на арене все еще отсутствуют некоторые высококлассные модели. Например, отсутствуют такие модели, как Gemini Pro 1.5 от Google.

Spot_img

Последняя разведка

Spot_img

Чат с нами

Всем привет! Могу я чем-нибудь помочь?