Claude 3 Opus conquista il primo posto nelle classifiche di Chatbot

Il modello AI di prossima generazione di Anthropic, Claude 3 Opus, ha conquistato la pole position nella classifica di Chatbot Arena, spingendo il GPT-4 di OpenAI al secondo posto.

Da quando è stato lanciato l'anno scorso, questa è la prima volta che il modello Claude 3 Opus è in cima alla lista di Chatbot Arena, che vede tutte e tre le versioni di Claud 3 classificate nella top 10.

I modelli Claude 3 lasciano il segno

L'arena dei chatbot LMSYS le classifiche mostrano che Claude 3 Sonnet occupava la quarta posizione insieme a Gemini Pro mentre Claude 3 Haiku, lanciato quest'anno, si è classificato al sesto posto insieme a una versione precedente di GPT-4.

Sebbene il Claude 3 Haiku potrebbe non essere intelligente come Sonnet o Opus, il modello è più veloce e significativamente più economico, ma è “buono quanto i modelli molto più grandi nei test alla cieca”, come rivelano i risultati dell’arena.

“Claude 3 Haiku ha impressionato tutti, raggiungendo anche il livello GPT-4 secondo le nostre preferenze utente! La sua velocità, capacità e durata del contesto non hanno eguali sul mercato”, ha spiegato LMSYS.

Secondo Tom's Guide, ciò che rende Haiku più impressionante è che è il "modello di dimensioni locali paragonabile a Gemini Nano". Può leggere ed elaborare ricerche dense di informazioni documenti in meno di tre secondi.

Il modello sta ottenendo ottimi risultati anche senza la scala di parametri di oltre trilioni di Opus o qualsiasi modello di classe GPT-4.

[Aggiornamento dell'Arena]

Sono arrivati più di 70 nuovi voti nell'Arena🗳️!

Claude-3 Haiku ha impressionato tutti, raggiungendo anche il livello GPT-4 secondo le nostre preferenze utente! La sua velocità, capacità e durata del contesto non hanno eguali sul mercato🔥

congratulazioni @AnthropicAI sull'incredibile lancio di Claude-3!

Più eccitante… pic.twitter.com/p1Guuf0B3K

— lmsys.org (@lmsysorg) 26 Marzo 2024

Potrebbe trattarsi di un successo di breve durata?

Nonostante siano state spinte in seconda posizione, le versioni GPT-4 di OpenAI hanno comunque dominato la top 10 della lista con quattro versioni.

Secondo Guida di Tom, le versioni GPT-4 di OpenAI nelle loro varie forme hanno mantenuto il primo posto "per così tanto tempo che qualsiasi altro modello che si avvicina ai suoi benchmark è noto come modello di classe GPT-4".

Con un GPT-5 "decisamente diverso" previsto quest'anno, Anthropic potrebbe non mantenere quella posizione per troppo tempo, poiché il divario nei punteggi tra Claude 3 Opus e GPT-4 è stretto.

Sebbene OpenAI sia rimasta a bocca chiusa sull'effettivo rilascio del suo GPT-5, il mercato attende con grande attesa il suo lancio. Secondo quanto riferito, il modello ne sta subendo alcuni “rigorosi test di sicurezza" e attacchi simulati che sono cruciali prima del rilascio.

L'arena dei chatbot LMSYS

Questa classifica si basa sui voti umani, a differenza di altre forme di benchmarking per i modelli di intelligenza artificiale. Con questo, le persone classificano alla cieca l'output di due modelli diversi sullo stesso prompt.

La Chatbot Arena è gestita da LMSYS e presenta una serie di modelli linguistici di grandi dimensioni (LLM) che si combattono in "battaglie casuali anonime".

È stato lanciato per la prima volta lo scorso maggio e ha raccolto più di 400,000 voti da utenti che dispongono di modelli AI di Google, Anthropic e OpenAI.

“LMSYS Chatbot Arena è una piattaforma aperta in crowdsourcing per le valutazioni LLM. Abbiamo raccolto oltre 400,000 voti di preferenza umana per classificare gli LLM con il sistema di classificazione Elo", ha affermato LMSYS.

Il sistema Elo viene utilizzato principalmente in giochi come gli scacchi per valutare l'abilità relativa di un giocatore. Ma in questo caso la classifica viene applicata al chatbot e “non all’essere umano che utilizza il modello”.

Le carenze

La classifica di Chatbot Arena non è priva di difetti. Secondo Tom's Guide, non include tutti i modelli o le versioni dei modelli inclusi mentre gli utenti a volte hanno esperienze negative con il mancato caricamento di GPT-4. Può anche favorire alcuni modelli che hanno accesso a Internet live, ad esempio Google Gemini Pro.

Mentre altri modelli come quelli della startup francese AI Maestrale e aziende cinesi come Alibaba si sono recentemente fatte strada ai primi posti dell'arena, oltre ai modelli open source, nell'arena mancano ancora alcuni modelli di alto profilo. Ad esempio, mancano modelli come Gemini Pro 1.5 di Google

Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
PlatoneESG. Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
Fonte: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/

Intelligenza generativa dei dati

Claude 3 Opus occupa il primo posto nelle classifiche di Chatbot

I modelli Claude 3 lasciano il segno

Potrebbe trattarsi di un successo di breve durata?

L'arena dei chatbot LMSYS

Le carenze

Il Dipartimento di Giustizia contesta la caratterizzazione delle operazioni Tornado Cash da parte di Roman Storm in un nuovo documento

Le 5 migliori prevendite di criptovalute: BDAG guida il gruppo con un potenziale ROI pari a 30,000 volte

L'ultima intelligenza

Forbes svela 20 "zombi" crittografici e dichiara Ripple e XRP tra i non morti

La Consob, l'autorità di vigilanza italiana, vieta ulteriori siti web di trading di Forex e criptovalute - CryptoInfoNet

L'indicatore dell'inflazione della Fed si surriscalda, i tagli dei tassi sono in sospeso mentre Bitcoin e le azioni scivolano

Esplora le 6 migliori criptovalute per il 2024: BlockDAG è leader con un potenziale di ROI senza precedenti

L'ETF spot Ethereum di Franklin Templeton quotato su DTCC

Bitcoin Bloodbath: l'analista crittografico individua la "croce della morte" dopo un calo dei prezzi dell'8%.

Parla con noi