A Claude 3 Opus az első helyet foglalja el a chatbotok rangsorában

Az Anthropic következő generációs mesterséges intelligencia modellje, a Claude 3 Opus megszerezte a pole pozíciót a Chatbot Arena ranglistáján, ezzel az OpenAI GPT-4-ét a második legjobbra tolta.

Tavalyi bevezetése óta ez az első alkalom, hogy a Claude 3 Opus modell a Chatbot Arena listájának élére került, amelyen mindhárom Claud 3 verzió a legjobb 10-ben szerepel.

A Claude 3 modellek nyomot hagynak

Az LMSYS Chatbot Aréna A rangsorok azt mutatják, hogy a Claude 3 Sonnet a Gemini Pro-val közösen a negyedik helyet foglalta el, míg az idén piacra dobott Claude 3 Haiku a hatodik helyen végzett a GPT-4 korábbi verziójával együtt.

Bár Claude 3 Haiku Lehet, hogy nem olyan intelligens, mint a Sonnet vagy az Opus, a modell gyorsabb és lényegesen olcsóbb, mégis „olyan jó, mint a vakteszteken a sokkal nagyobb modellek”, amint azt az aréna eredményei mutatják.

„A Claude 3 Haiku mindenkit lenyűgözött, még a GPT-4 szintet is elérte felhasználói preferenciáink alapján! Sebessége, képességei és kontextushossza páratlan a piacon” – magyarázta az LMSYS.

A Tom's Guide szerint az teszi lenyűgözőbbé a Haiku-t, hogy „a Gemini Nanohoz hasonló helyi méretű modell”. Az tud információsűrű kutatást olvasni és feldolgozni papírokat kevesebb mint három másodperc alatt.

A modell kiváló eredményeket ér el az Opus vagy bármelyik GPT-4 osztályú modell billió plusz paraméterskálája nélkül is.

[Aréna frissítés]

70 ezer+ új Aréna szavazat🗳️ érkezett!

A Claude-3 Haiku mindenkit lenyűgözött, még a GPT-4 szintet is elérte felhasználói preferenciáink alapján! Sebessége, képességei és kontextushossza páratlan a piacon🔥

gratula @AnthropicAI a hihetetlen Claude-3 kilövésen!

Izgalmasabb… pic.twitter.com/p1Guuf0B3K

— lmsys.org (@lmsysorg) Március 26, 2024

Lehet, hogy ez egy rövid távú siker?

Annak ellenére, hogy a második helyre szorultak, az OpenAI GPT-4 verziói négy verzióval továbbra is uralták a lista első 10-ét.

Szerint Tom's Guide, az OpenAI GPT-4 változatai a maguk különböző formáiban „olyan sokáig tartották a vezető helyet, hogy minden más modell, amely közel áll a benchmarkokhoz, GPT-4-osztályú modellként ismert”.

Mivel idén valamikor egy „markánsan eltérő” GPT-5 várható, az Anthropic talán nem fogja túl sokáig tartani ezt a pozíciót, mivel a Claude 3 Opus és a GPT-4 közötti pontszámok közötti különbség szűk.

Bár az OpenAI szűkszavú maradt a tényleges kiadásával kapcsolatban GPT-5, a piac nagyon várja az indulást. A modell állítólag néhányon megy keresztül „Szigorú biztonsági tesztelés” és szimulált támadások, amelyek kulcsfontosságúak a kiadás előtt.

Az LMSYS Chatbot Aréna

Ez a rangsor az emberi szavazatokon alapul, szemben az AI-modellek más benchmarking formáival. Ezzel az emberek vakon rangsorolják két különböző modell kimenetét ugyanahhoz a prompthoz.

A Chatbot Arénát az LMSYS üzemelteti, és számos nagy nyelvi modellt (LLM) tartalmaz, amelyek „névtelen véletlenszerű csatákban” vívják meg a küzdelmet.

Tavaly májusban indították el először, és több mint 400,000 XNUMX szavazatot gyűjtött be olyan felhasználóktól, akik mesterséges intelligencia modellekkel rendelkeznek a Google, az Anthropic és a OpenAI.

„Az LMSYS Chatbot Arena egy közösségi forrásból származó nyílt platform az LLM evals számára. Több mint 400,000 XNUMX emberi preferencia szavazatot gyűjtöttünk össze, hogy rangsoroljuk az LLM-eket az Elo rangsorolási rendszerrel” – mondta az LMSYS.

Az Elo rendszert leginkább olyan játékokban használják, mint a sakk, hogy értékeljék a játékos relatív képességeit. De ebben az esetben a rangsor a chatbotra vonatkozik, és „nem a modellt használó emberre”.

Lásd még: A Microsoft bemutatja az „első” felületi PC-ket a Copilot AI gombbal

A hiányosságok

A Chatbot Arena rangsora nem szűkölködik hibákban. A Tom's Guide szerint nem tartalmazza az összes modellt vagy modellverziót, miközben a felhasználóknak néha rossz tapasztalataik vannak a GPT-4 betöltésének sikertelenségével. Előnyben részesíthet néhány olyan modellt is, amelyek rendelkeznek élő internet-hozzáféréssel, például a Google Gemini Pro-val.

Míg más modellek, mint például a francia mesterséges intelligencia indulása Misztrál és az olyan kínai cégek, mint az Alibaba, a közelmúltban a nyílt forráskódú modellek mellett az aréna élvonalába kerültek, de az arénából még mindig hiányzik néhány nagy horderejű modell. Hiányoznak például olyan modellek, mint a Google Gemini Pro 1.5

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/

Generatív adatintelligencia

A Claude 3 Opus a Chatbot-ranglista első helyére került

A Claude 3 modellek nyomot hagynak

Lehet, hogy ez egy rövid távú siker?

Az LMSYS Chatbot Aréna

A hiányosságok

A DOJ vitatja a Roman Storm által a Tornado készpénzes műveletek jellemzését új bejelentésben

Az 5 legjobb kriptográfiai előértékesítés: 30,000 XNUMX-szeres ROI potenciállal a BDAG vezeti a csomagot

Legújabb intelligencia

A Forbes bemutatott 20 kriptozombit, a Ripple-t és az XRP-t az élőhalottak között

A Consob, az olasz őrkutya betiltja a további deviza- és kriptovaluta kereskedési webhelyeket – CryptoInfoNet

A Fed inflációs mérője felmelegszik, a kamatláb csökken, ahogy a Bitcoin és a részvények zuhannak

Fedezze fel a 6-es 2024 legjobb kriptot: A BlockDAG vezetők példátlan megtérülési potenciállal

Franklin Templeton Ethereum spot ETF-je a DTCC-n szerepel

Bitcoin Bloodbath: A kriptoelemző 8%-os áresés után „halálkeresztet” észlel

Beszélj velünk