Míg az Open AI ChatGPT-je az összes generatív mesterségesintelligencia-eszköz közül a legnagyobb mainstream mindshare-t élvezi, első helyét a csúcskategóriás Claude 3 Opus lopta el az örökké tartó Anthropictól a mesterséges intelligenciakutatók által használt népszerű, tömeges ranglistán.
Claude feljutása a Chatbot Arena ranglistájára az első alkalom, hogy az OpenAI GPT-4-jét, amely a ChatGPT Plus-t vezérli, letaszították a trónról, mióta tavaly májusban először megjelent a ranglistán.
A Chatbot Arénát a Large Model Systems Organisation (LMSYS ORG) üzemelteti, amely olyan nyílt modellekkel foglalkozik, amelyek támogatják a Kaliforniai Egyetem, Berkeley, UC San Diego és Carnegie Mellon Egyetem hallgatói és oktatói közötti együttműködést. A platform két címkézetlen nyelvi modellt kínál a felhasználóknak, és arra kéri őket, hogy értékeljék, melyik teljesít jobban az általuk megfelelőnek ítélt kritériumok alapján.
Több ezer szubjektív összehasonlítás összesítése után a Chatbot Arena kiszámítja a „legjobb” modelleket a ranglistához, és idővel frissíti.
Ez a szubjektív megközelítés, amely a résztvevők eltérő személyes ízlésén alapul, az, ami megkülönbözteti a Chatbot Arenát a többi mesterséges intelligencia-benchmarktól. A modelltrénerek nem „csalhatnak” azzal, hogy modelljeiket úgy alakítják át, hogy azok felülmúlják az algoritmust, ahogyan azt a mennyiségi benchmarkok esetében tennék. Azáltal, hogy megmérjük, mit szeretnek az emberek egyszerűen, a Chatbot Arena értékes, minőségi erőforrás az AI-kutatók számára.
A platform összegyűjti a felhasználók visszajelzéseit, és végigfut a Bradley-Terry statisztikai modell megjósolni annak valószínűségét, hogy egy adott modell túlteljesít másokat a közvetlen versenyben. Ez a megközelítés lehetővé teszi átfogó statisztikák generálását, beleértve az Elo értékelési becslések konfidencia intervallumtartományait – ugyanazt a technikát, amelyet a sakkozók képességeinek mérésére használnak.
A Claude 3 Opus felemelkedése nem az egyetlen jelentős fejlemény a ranglistán. A szintén az Anthropic által fejlesztett Claude 3 Sonnet (a közepes méretű modell ingyenesen) és a Claude 3 Haiku (egy kisebb, gyorsabb modell) jelenleg a 4., illetve a 6. helyen áll.
A ranglista a GPT-4 különböző verzióit tartalmazza, például a GPT-4-0314-et (a GPT-4 „eredeti” verziója 2023 márciusából), a GPT-4-0613-at, a GPT-4-1106-előnézetet és a GPT-4-et. -0125-előzetes verzió (a legújabb GPT-4 Turbo modell API-n keresztül elérhető 2024 januárjától). A rangsor szerint a Sonnet és a Haiku is jobbak, mint az eredeti GPT-4, és a Sonnet is megelőzi az OpenAI által 2023 júniusában elindított módosított verziót.
Ez azt is jelenti, hogy sajnos jelenleg csak egy nyílt forráskódú LLM van a top 10-ben: a Qwen, a Starling 7b és a Mixtral 8x7B pedig az egyetlen nyitott modell a top 20-ban.
A Claude egyik előnye a GPT-4-gyel szemben a token kontextus kapacitása és visszakeresési képessége. A Claude 3 Opus nyilvános verziója több mint 200 1-t kezel – és a szervezet azt állítja, hogy van egy korlátozott verziója, amely XNUMX millió token kezelésére képes, szinte tökéletes lekérési arány mellett. Ez azt jelenti, hogy Claude képes megérteni a hosszabb felszólításokat, és hatékonyabban megőrzi az információkat, mint a GPT-4 Turbóhoz képest, amely 128K tokent kezel, és elveszíti visszakeresési képességeit a hosszú promptokkal.
Google Gemini Advanced az AI-asszisztens terén is egyre nagyobb teret hódított. A cég olyan csomagot kínál, amely 2 TB tárhelyet és mesterséges intelligencia képességeket tartalmaz a Google-termékek csomagjában, ugyanolyan áron, mint a Chat GPT Plus előfizetés (havi 20 USD).
Az ingyenes Gemini Pro jelenleg a 4. helyen áll, a GPT-4 Turbo és a Claude 3 Sonnet között. A csúcskategóriás Gemini Ultra modell nem tesztelhető, és még nem szerepel a rangsorban.
Szerkesztette Ryan Ozawa.
Maradjon naprakész a kriptográfiai hírekkel, és napi frissítéseket kaphat a postaládájában.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://decrypt.co/223787/anthropic-claude-ai-versus-openai-chatgpt-llm-arena-ranking