Claude 3 Opus ocupa o primeiro lugar nas classificações do Chatbot

O modelo de IA de próxima geração da Anthropic, Claude 3 Opus, assumiu a pole position na tabela de classificação da Chatbot Arena, empurrando o GPT-4 da OpenAI para o segundo melhor.

Desde que foi lançado no ano passado, esta é a primeira vez que o modelo Claude 3 Opus está no topo da lista do Chatbot Arena, que tem todas as três versões do Claud 3 classificadas no top 10.

Os modelos Claude 3 deixam sua marca

Arena de chatbot LMSYS as classificações mostram que Claude 3 Sonnet ocupou uma quarta posição conjunta com Gemini Pro, enquanto Claude 3 Haiku, que foi lançado este ano, ficou em sexto lugar junto com uma versão anterior do GPT-4.

Apesar Claude 3 Haiku Embora possa não ser tão inteligente quanto o Sonnet ou o Opus, o modelo é mais rápido e significativamente mais barato, mas é “tão bom quanto os modelos muito maiores em testes cegos”, como revelam os resultados da arena.

“Claude 3 Haiku impressionou a todos, chegando até ao nível GPT-4 pela preferência do usuário! Sua velocidade, capacidades e extensão de contexto são incomparáveis no mercado”, explicou LMSYS.

De acordo com o Tom's Guide, o que torna o Haiku mais impressionante é que ele é o “modelo de tamanho local comparável ao Gemini Nano”. Pode ler e processar pesquisas com muita informação documentos em menos de três segundos.

O modelo está alcançando ótimos resultados mesmo sem a escala de trilhões de parâmetros do Opus ou qualquer um dos modelos da classe GPT-4.

[Atualização da Arena]

Mais de 70 mil novos votos na Arena🗳️ chegaram!

Claude-3 Haiku impressionou a todos, chegando até ao nível GPT-4 pela preferência dos nossos usuários! Sua velocidade, capacidades e duração do contexto são incomparáveis agora no mercado🔥

Parabéns @AnthropicAI no incrível lançamento do Claude-3!

Mais emocionante… pic.twitter.com/p1Guuf0B3K

-lmsys.org (@lmsysorg) 26 de março de 2024

Isso poderia ser um sucesso de curta duração?

Apesar de terem sido empurradas para a segunda posição, as versões GPT-4 da OpenAI ainda dominaram o top 10 da lista com quatro versões.

De acordo com o Guia do Tom, as versões GPT-4 da OpenAI em suas diversas formas mantiveram o primeiro lugar “por tanto tempo que qualquer outro modelo que se aproxime de seus benchmarks é conhecido como modelo da classe GPT-4”.

Com um GPT-5 “marcadamente diferente” esperado ainda este ano, a Anthropic pode não manter essa posição por muito tempo, já que a diferença nas pontuações entre Claude 3 Opus e GPT-4 é estreita.

Embora a OpenAI tenha permanecido calada sobre o lançamento real de seu GPT-5, o mercado antecipa muito o seu lançamento. O modelo está supostamente passando por algumas “testes de segurança rigorosos”E ataques simulados que são cruciais antes do lançamento.

Arena de chatbot LMSYS

Esta classificação baseia-se em votos humanos, em oposição a outras formas de benchmarking para modelos de IA. Com este, as pessoas classificam cegamente a saída de dois modelos diferentes para o mesmo prompt.

O Chatbot Arena é administrado pela LMSYS e apresenta uma série de grandes modelos de linguagem (LLMs) que estão lutando em “batalhas aleatórias anônimas”.

Foi lançado em maio passado e coletou mais de 400,000 votos de usuários que possuem modelos de IA do Google, Anthropic e OpenAI.

“LMSYS Chatbot Arena é uma plataforma aberta de crowdsourcing para avaliações LLM. Coletamos mais de 400,000 votos de preferência humana para classificar LLMs com o sistema de classificação Elo”, disse LMSYS.

O sistema Elo é usado principalmente em jogos como xadrez para avaliar a habilidade relativa de um jogador. Mas, neste caso, a classificação é aplicada ao chatbot e “não ao humano que utiliza o modelo”.

Veja também: Microsoft revela os 'primeiros' Surface PCs com botão Copilot AI

As deficiências

A classificação do Chatbot Arena não deixa de ter falhas. De acordo com o Guia do Tom, ele não inclui todos os modelos ou versões dos modelos incluídos, embora os usuários às vezes tenham experiências ruins com falha no carregamento do GPT-4. Também pode favorecer alguns modelos que possuem acesso ao vivo à Internet, por exemplo Google Gemini Pro.

Enquanto outros modelos como os da startup francesa de IA Mistral e empresas chinesas como a Alibaba conquistaram recentemente lugares de destaque na arena. Além dos modelos de código aberto, a arena ainda carece de alguns modelos de alto perfil. Por exemplo, faltam modelos como o Gemini Pro 1.5 do Google

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/

Inteligência de dados generativa

Claude 3 Opus ocupa o primeiro lugar nas classificações do Chatbot

Os modelos Claude 3 deixam sua marca

Isso poderia ser um sucesso de curta duração?

Arena de chatbot LMSYS

As deficiências

Melhores agentes livres não draftados do draft de 2024 da NFL

Baldur's Gate 3 – Atualização da comunidade 26

Inteligência mais recente

Nova lei em Oklahoma protege os direitos dos cidadãos de possuir Bitcoin – CryptoInfoNet

A nova promoção 'Trade to Mine' da Bitget permite que os comerciantes mantenham todas as taxas de negociação

Wondra: Redefinindo o projeto para o Metaverso 2.0 – CryptoInfoNet

Especialista diz que o preço do Bitcoin subiu e está em decadência exponencial, por que isso não é uma coisa ruim

2025 NFL Mock Draft 27 de abril

BlockDAG se destaca com proposta de US$ 1 por dia com aplicativo de mineração móvel X1, superando o entusiasmo do mercado de ETH e TRON

Fale Conosco