Intelligenza generativa dei dati

Claude 3 Opus occupa il primo posto nelle classifiche di Chatbot

Data:

Il modello AI di prossima generazione di Anthropic, Claude 3 Opus, ha conquistato la pole position nella classifica di Chatbot Arena, spingendo il GPT-4 di OpenAI al secondo posto.

Da quando è stato lanciato l'anno scorso, questa è la prima volta che il modello Claude 3 Opus è in cima alla lista di Chatbot Arena, che vede tutte e tre le versioni di Claud 3 classificate nella top 10.

I modelli Claude 3 lasciano il segno

L'arena dei chatbot LMSYS le classifiche mostrano che Claude 3 Sonnet occupava la quarta posizione insieme a Gemini Pro mentre Claude 3 Haiku, lanciato quest'anno, si è classificato al sesto posto insieme a una versione precedente di GPT-4.

Sebbene il Claude 3 Haiku potrebbe non essere intelligente come Sonnet o Opus, il modello è più veloce e significativamente più economico, ma è “buono quanto i modelli molto più grandi nei test alla cieca”, come rivelano i risultati dell’arena.

“Claude 3 Haiku ha impressionato tutti, raggiungendo anche il livello GPT-4 secondo le nostre preferenze utente! La sua velocità, capacità e durata del contesto non hanno eguali sul mercato”, ha spiegato LMSYS.

Secondo Tom's Guide, ciò che rende Haiku più impressionante è che è il "modello di dimensioni locali paragonabile a Gemini Nano". Può leggere ed elaborare ricerche dense di informazioni documenti in meno di tre secondi.

Il modello sta ottenendo ottimi risultati anche senza la scala di parametri di oltre trilioni di Opus o qualsiasi modello di classe GPT-4.

Potrebbe trattarsi di un successo di breve durata?

Nonostante siano state spinte in seconda posizione, le versioni GPT-4 di OpenAI hanno comunque dominato la top 10 della lista con quattro versioni.

Secondo Guida di Tom, le versioni GPT-4 di OpenAI nelle loro varie forme hanno mantenuto il primo posto "per così tanto tempo che qualsiasi altro modello che si avvicina ai suoi benchmark è noto come modello di classe GPT-4".

Con un GPT-5 "decisamente diverso" previsto quest'anno, Anthropic potrebbe non mantenere quella posizione per troppo tempo, poiché il divario nei punteggi tra Claude 3 Opus e GPT-4 è stretto.

Sebbene OpenAI sia rimasta a bocca chiusa sull'effettivo rilascio del suo GPT-5, il mercato attende con grande attesa il suo lancio. Secondo quanto riferito, il modello ne sta subendo alcuni “rigorosi test di sicurezza" e attacchi simulati che sono cruciali prima del rilascio.

L'arena dei chatbot LMSYS

Questa classifica si basa sui voti umani, a differenza di altre forme di benchmarking per i modelli di intelligenza artificiale. Con questo, le persone classificano alla cieca l'output di due modelli diversi sullo stesso prompt.

La Chatbot Arena è gestita da LMSYS e presenta una serie di modelli linguistici di grandi dimensioni (LLM) che si combattono in "battaglie casuali anonime".

È stato lanciato per la prima volta lo scorso maggio e ha raccolto più di 400,000 voti da utenti che dispongono di modelli AI di Google, Anthropic e OpenAI.

“LMSYS Chatbot Arena è una piattaforma aperta in crowdsourcing per le valutazioni LLM. Abbiamo raccolto oltre 400,000 voti di preferenza umana per classificare gli LLM con il sistema di classificazione Elo", ha affermato LMSYS.

Il sistema Elo viene utilizzato principalmente in giochi come gli scacchi per valutare l'abilità relativa di un giocatore. Ma in questo caso la classifica viene applicata al chatbot e “non all’essere umano che utilizza il modello”.

Leggi anche: Microsoft rivela i "primi" PC Surface con il pulsante AI Copilot

Le carenze

La classifica di Chatbot Arena non è priva di difetti. Secondo Tom's Guide, non include tutti i modelli o le versioni dei modelli inclusi mentre gli utenti a volte hanno esperienze negative con il mancato caricamento di GPT-4. Può anche favorire alcuni modelli che hanno accesso a Internet live, ad esempio Google Gemini Pro.

Mentre altri modelli come quelli della startup francese AI Maestrale e aziende cinesi come Alibaba si sono recentemente fatte strada ai primi posti dell'arena, oltre ai modelli open source, nell'arena mancano ancora alcuni modelli di alto profilo. Ad esempio, mancano modelli come Gemini Pro 1.5 di Google

spot_img

L'ultima intelligenza

spot_img

Parla con noi

Ciao! Come posso aiutarla?