O modelo de IA de próxima geração da Anthropic, Claude 3 Opus, assumiu a pole position na tabela de classificação da Chatbot Arena, empurrando o GPT-4 da OpenAI para o segundo melhor.
Desde que foi lançado no ano passado, esta é a primeira vez que o modelo Claude 3 Opus está no topo da lista do Chatbot Arena, que tem todas as três versões do Claud 3 classificadas no top 10.
Os modelos Claude 3 deixam sua marca
Arena de chatbot LMSYS as classificações mostram que Claude 3 Sonnet ocupou uma quarta posição conjunta com Gemini Pro, enquanto Claude 3 Haiku, que foi lançado este ano, ficou em sexto lugar junto com uma versão anterior do GPT-4.
Apesar Claude 3 Haiku Embora possa não ser tão inteligente quanto o Sonnet ou o Opus, o modelo é mais rápido e significativamente mais barato, mas é “tão bom quanto os modelos muito maiores em testes cegos”, como revelam os resultados da arena.
“Claude 3 Haiku impressionou a todos, chegando até ao nível GPT-4 pela preferência do usuário! Sua velocidade, capacidades e extensão de contexto são incomparáveis no mercado”, explicou LMSYS.
De acordo com o Tom's Guide, o que torna o Haiku mais impressionante é que ele é o “modelo de tamanho local comparável ao Gemini Nano”. Pode ler e processar pesquisas com muita informação documentos em menos de três segundos.
O modelo está alcançando ótimos resultados mesmo sem a escala de trilhões de parâmetros do Opus ou qualquer um dos modelos da classe GPT-4.
[Atualização da Arena]
Mais de 70 mil novos votos na Arena🗳️ chegaram!
Claude-3 Haiku impressionou a todos, chegando até ao nível GPT-4 pela preferência dos nossos usuários! Sua velocidade, capacidades e duração do contexto são incomparáveis agora no mercado🔥
Parabéns @AnthropicAI no incrível lançamento do Claude-3!
Mais emocionante… pic.twitter.com/p1Guuf0B3K
-lmsys.org (@lmsysorg) 26 de março de 2024
Isso poderia ser um sucesso de curta duração?
Apesar de terem sido empurradas para a segunda posição, as versões GPT-4 da OpenAI ainda dominaram o top 10 da lista com quatro versões.
De acordo com o Guia do Tom, as versões GPT-4 da OpenAI em suas diversas formas mantiveram o primeiro lugar “por tanto tempo que qualquer outro modelo que se aproxime de seus benchmarks é conhecido como modelo da classe GPT-4”.
Com um GPT-5 “marcadamente diferente” esperado ainda este ano, a Anthropic pode não manter essa posição por muito tempo, já que a diferença nas pontuações entre Claude 3 Opus e GPT-4 é estreita.
Embora a OpenAI tenha permanecido calada sobre o lançamento real de seu GPT-5, o mercado antecipa muito o seu lançamento. O modelo está supostamente passando por algumas “testes de segurança rigorosos”E ataques simulados que são cruciais antes do lançamento.
Arena de chatbot LMSYS
Esta classificação baseia-se em votos humanos, em oposição a outras formas de benchmarking para modelos de IA. Com este, as pessoas classificam cegamente a saída de dois modelos diferentes para o mesmo prompt.
O Chatbot Arena é administrado pela LMSYS e apresenta uma série de grandes modelos de linguagem (LLMs) que estão lutando em “batalhas aleatórias anônimas”.
Foi lançado em maio passado e coletou mais de 400,000 votos de usuários que possuem modelos de IA do Google, Anthropic e OpenAI.
“LMSYS Chatbot Arena é uma plataforma aberta de crowdsourcing para avaliações LLM. Coletamos mais de 400,000 votos de preferência humana para classificar LLMs com o sistema de classificação Elo”, disse LMSYS.
O sistema Elo é usado principalmente em jogos como xadrez para avaliar a habilidade relativa de um jogador. Mas, neste caso, a classificação é aplicada ao chatbot e “não ao humano que utiliza o modelo”.
Veja também: Microsoft revela os 'primeiros' Surface PCs com botão Copilot AI
As deficiências
A classificação do Chatbot Arena não deixa de ter falhas. De acordo com o Guia do Tom, ele não inclui todos os modelos ou versões dos modelos incluídos, embora os usuários às vezes tenham experiências ruins com falha no carregamento do GPT-4. Também pode favorecer alguns modelos que possuem acesso ao vivo à Internet, por exemplo Google Gemini Pro.
Enquanto outros modelos como os da startup francesa de IA Mistral e empresas chinesas como a Alibaba conquistaram recentemente lugares de destaque na arena. Além dos modelos de código aberto, a arena ainda carece de alguns modelos de alto perfil. Por exemplo, faltam modelos como o Gemini Pro 1.5 do Google
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
- Fonte: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/