Generatív adatintelligencia

A Claude 3 Opus a Chatbot-ranglista első helyére került

Találka:

Az Anthropic következő generációs mesterséges intelligencia modellje, a Claude 3 Opus megszerezte a pole pozíciót a Chatbot Arena ranglistáján, ezzel az OpenAI GPT-4-ét a második legjobbra tolta.

Tavalyi bevezetése óta ez az első alkalom, hogy a Claude 3 Opus modell a Chatbot Arena listájának élére került, amelyen mindhárom Claud 3 verzió a legjobb 10-ben szerepel.

A Claude 3 modellek nyomot hagynak

Az LMSYS Chatbot Aréna A rangsorok azt mutatják, hogy a Claude 3 Sonnet a Gemini Pro-val közösen a negyedik helyet foglalta el, míg az idén piacra dobott Claude 3 Haiku a hatodik helyen végzett a GPT-4 korábbi verziójával együtt.

Bár Claude 3 Haiku Lehet, hogy nem olyan intelligens, mint a Sonnet vagy az Opus, a modell gyorsabb és lényegesen olcsóbb, mégis „olyan jó, mint a vakteszteken a sokkal nagyobb modellek”, amint azt az aréna eredményei mutatják.

„A Claude 3 Haiku mindenkit lenyűgözött, még a GPT-4 szintet is elérte felhasználói preferenciáink alapján! Sebessége, képességei és kontextushossza páratlan a piacon” – magyarázta az LMSYS.

A Tom's Guide szerint az teszi lenyűgözőbbé a Haiku-t, hogy „a Gemini Nanohoz hasonló helyi méretű modell”. Az tud információsűrű kutatást olvasni és feldolgozni papírokat kevesebb mint három másodperc alatt.

A modell kiváló eredményeket ér el az Opus vagy bármelyik GPT-4 osztályú modell billió plusz paraméterskálája nélkül is.

Lehet, hogy ez egy rövid távú siker?

Annak ellenére, hogy a második helyre szorultak, az OpenAI GPT-4 verziói négy verzióval továbbra is uralták a lista első 10-ét.

Szerint Tom's Guide, az OpenAI GPT-4 változatai a maguk különböző formáiban „olyan sokáig tartották a vezető helyet, hogy minden más modell, amely közel áll a benchmarkokhoz, GPT-4-osztályú modellként ismert”.

Mivel idén valamikor egy „markánsan eltérő” GPT-5 várható, az Anthropic talán nem fogja túl sokáig tartani ezt a pozíciót, mivel a Claude 3 Opus és a GPT-4 közötti pontszámok közötti különbség szűk.

Bár az OpenAI szűkszavú maradt a tényleges kiadásával kapcsolatban GPT-5, a piac nagyon várja az indulást. A modell állítólag néhányon megy keresztül „Szigorú biztonsági tesztelés” és szimulált támadások, amelyek kulcsfontosságúak a kiadás előtt.

Az LMSYS Chatbot Aréna

Ez a rangsor az emberi szavazatokon alapul, szemben az AI-modellek más benchmarking formáival. Ezzel az emberek vakon rangsorolják két különböző modell kimenetét ugyanahhoz a prompthoz.

A Chatbot Arénát az LMSYS üzemelteti, és számos nagy nyelvi modellt (LLM) tartalmaz, amelyek „névtelen véletlenszerű csatákban” vívják meg a küzdelmet.

Tavaly májusban indították el először, és több mint 400,000 XNUMX szavazatot gyűjtött be olyan felhasználóktól, akik mesterséges intelligencia modellekkel rendelkeznek a Google, az Anthropic és a OpenAI.

„Az LMSYS Chatbot Arena egy közösségi forrásból származó nyílt platform az LLM evals számára. Több mint 400,000 XNUMX emberi preferencia szavazatot gyűjtöttünk össze, hogy rangsoroljuk az LLM-eket az Elo rangsorolási rendszerrel” – mondta az LMSYS.

Az Elo rendszert leginkább olyan játékokban használják, mint a sakk, hogy értékeljék a játékos relatív képességeit. De ebben az esetben a rangsor a chatbotra vonatkozik, és „nem a modellt használó emberre”.

Lásd még: A Microsoft bemutatja az „első” felületi PC-ket a Copilot AI gombbal

A hiányosságok

A Chatbot Arena rangsora nem szűkölködik hibákban. A Tom's Guide szerint nem tartalmazza az összes modellt vagy modellverziót, miközben a felhasználóknak néha rossz tapasztalataik vannak a GPT-4 betöltésének sikertelenségével. Előnyben részesíthet néhány olyan modellt is, amelyek rendelkeznek élő internet-hozzáféréssel, például a Google Gemini Pro-val.

Míg más modellek, mint például a francia mesterséges intelligencia indulása Misztrál és az olyan kínai cégek, mint az Alibaba, a közelmúltban a nyílt forráskódú modellek mellett az aréna élvonalába kerültek, de az arénából még mindig hiányzik néhány nagy horderejű modell. Hiányoznak például olyan modellek, mint a Google Gemini Pro 1.5

spot_img

Legújabb intelligencia

spot_img

Beszélj velünk

Szia! Miben segíthetek?