Inteligência de dados generativa

Claude 3 Opus ocupa o primeiro lugar nas classificações do Chatbot

Data:

O modelo de IA de próxima geração da Anthropic, Claude 3 Opus, assumiu a pole position na tabela de classificação da Chatbot Arena, empurrando o GPT-4 da OpenAI para o segundo melhor.

Desde que foi lançado no ano passado, esta é a primeira vez que o modelo Claude 3 Opus está no topo da lista do Chatbot Arena, que tem todas as três versões do Claud 3 classificadas no top 10.

Os modelos Claude 3 deixam sua marca

Arena de chatbot LMSYS as classificações mostram que Claude 3 Sonnet ocupou uma quarta posição conjunta com Gemini Pro, enquanto Claude 3 Haiku, que foi lançado este ano, ficou em sexto lugar junto com uma versão anterior do GPT-4.

Apesar Claude 3 Haiku Embora possa não ser tão inteligente quanto o Sonnet ou o Opus, o modelo é mais rápido e significativamente mais barato, mas é “tão bom quanto os modelos muito maiores em testes cegos”, como revelam os resultados da arena.

“Claude 3 Haiku impressionou a todos, chegando até ao nível GPT-4 pela preferência do usuário! Sua velocidade, capacidades e extensão de contexto são incomparáveis ​​no mercado”, explicou LMSYS.

De acordo com o Tom's Guide, o que torna o Haiku mais impressionante é que ele é o “modelo de tamanho local comparável ao Gemini Nano”. Pode ler e processar pesquisas com muita informação documentos em menos de três segundos.

O modelo está alcançando ótimos resultados mesmo sem a escala de trilhões de parâmetros do Opus ou qualquer um dos modelos da classe GPT-4.

Isso poderia ser um sucesso de curta duração?

Apesar de terem sido empurradas para a segunda posição, as versões GPT-4 da OpenAI ainda dominaram o top 10 da lista com quatro versões.

De acordo com o Guia do Tom, as versões GPT-4 da OpenAI em suas diversas formas mantiveram o primeiro lugar “por tanto tempo que qualquer outro modelo que se aproxime de seus benchmarks é conhecido como modelo da classe GPT-4”.

Com um GPT-5 “marcadamente diferente” esperado ainda este ano, a Anthropic pode não manter essa posição por muito tempo, já que a diferença nas pontuações entre Claude 3 Opus e GPT-4 é estreita.

Embora a OpenAI tenha permanecido calada sobre o lançamento real de seu GPT-5, o mercado antecipa muito o seu lançamento. O modelo está supostamente passando por algumas “testes de segurança rigorosos”E ataques simulados que são cruciais antes do lançamento.

Arena de chatbot LMSYS

Esta classificação baseia-se em votos humanos, em oposição a outras formas de benchmarking para modelos de IA. Com este, as pessoas classificam cegamente a saída de dois modelos diferentes para o mesmo prompt.

O Chatbot Arena é administrado pela LMSYS e apresenta uma série de grandes modelos de linguagem (LLMs) que estão lutando em “batalhas aleatórias anônimas”.

Foi lançado em maio passado e coletou mais de 400,000 votos de usuários que possuem modelos de IA do Google, Anthropic e OpenAI.

“LMSYS Chatbot Arena é uma plataforma aberta de crowdsourcing para avaliações LLM. Coletamos mais de 400,000 votos de preferência humana para classificar LLMs com o sistema de classificação Elo”, disse LMSYS.

O sistema Elo é usado principalmente em jogos como xadrez para avaliar a habilidade relativa de um jogador. Mas, neste caso, a classificação é aplicada ao chatbot e “não ao humano que utiliza o modelo”.

Veja também: Microsoft revela os 'primeiros' Surface PCs com botão Copilot AI

As deficiências

A classificação do Chatbot Arena não deixa de ter falhas. De acordo com o Guia do Tom, ele não inclui todos os modelos ou versões dos modelos incluídos, embora os usuários às vezes tenham experiências ruins com falha no carregamento do GPT-4. Também pode favorecer alguns modelos que possuem acesso ao vivo à Internet, por exemplo Google Gemini Pro.

Enquanto outros modelos como os da startup francesa de IA Mistral e empresas chinesas como a Alibaba conquistaram recentemente lugares de destaque na arena. Além dos modelos de código aberto, a arena ainda carece de alguns modelos de alto perfil. Por exemplo, faltam modelos como o Gemini Pro 1.5 do Google

local_img

Inteligência mais recente

local_img

Fale Conosco

Olá! Como posso ajudá-lo?