Generatív adatintelligencia

Az Anthropic Claude AI megdöntötte a ChatGPT-t a Chatbot Arena ranglistáján – Decrypt

Találka:

Míg az Open AI ChatGPT-je az összes generatív mesterségesintelligencia-eszköz közül a legnagyobb mainstream mindshare-t élvezi, első helyét a csúcskategóriás Claude 3 Opus lopta el az örökké tartó Anthropictól a mesterséges intelligenciakutatók által használt népszerű, tömeges ranglistán.

Claude feljutása a Chatbot Arena ranglistájára az első alkalom, hogy az OpenAI GPT-4-jét, amely a ChatGPT Plus-t vezérli, letaszították a trónról, mióta tavaly májusban először megjelent a ranglistán.

A Chatbot Arénát a Large Model Systems Organisation (LMSYS ORG) üzemelteti, amely olyan nyílt modellekkel foglalkozik, amelyek támogatják a Kaliforniai Egyetem, Berkeley, UC San Diego és Carnegie Mellon Egyetem hallgatói és oktatói közötti együttműködést. A platform két címkézetlen nyelvi modellt kínál a felhasználóknak, és arra kéri őket, hogy értékeljék, melyik teljesít jobban az általuk megfelelőnek ítélt kritériumok alapján.

Több ezer szubjektív összehasonlítás összesítése után a Chatbot Arena kiszámítja a „legjobb” modelleket a ranglistához, és idővel frissíti.

Ez a szubjektív megközelítés, amely a résztvevők eltérő személyes ízlésén alapul, az, ami megkülönbözteti a Chatbot Arenát a többi mesterséges intelligencia-benchmarktól. A modelltrénerek nem „csalhatnak” azzal, hogy modelljeiket úgy alakítják át, hogy azok felülmúlják az algoritmust, ahogyan azt a mennyiségi benchmarkok esetében tennék. Azáltal, hogy megmérjük, mit szeretnek az emberek egyszerűen, a Chatbot Arena értékes, minőségi erőforrás az AI-kutatók számára.

A platform összegyűjti a felhasználók visszajelzéseit, és végigfut a Bradley-Terry statisztikai modell megjósolni annak valószínűségét, hogy egy adott modell túlteljesít másokat a közvetlen versenyben. Ez a megközelítés lehetővé teszi átfogó statisztikák generálását, beleértve az Elo értékelési becslések konfidencia intervallumtartományait – ugyanazt a technikát, amelyet a sakkozók képességeinek mérésére használnak.

A Chatbot Arena által rangsorolt ​​10 legjobb LLM. Kép: Huggingface
A Chatbot Arena által rangsorolt ​​10 legjobb LLM. Kép: Huggingface

A Claude 3 Opus felemelkedése nem az egyetlen jelentős fejlemény a ranglistán. A szintén az Anthropic által fejlesztett Claude 3 Sonnet (a közepes méretű modell ingyenesen) és a Claude 3 Haiku (egy kisebb, gyorsabb modell) jelenleg a 4., illetve a 6. helyen áll.

A ranglista a GPT-4 különböző verzióit tartalmazza, például a GPT-4-0314-et (a GPT-4 „eredeti” verziója 2023 márciusából), a GPT-4-0613-at, a GPT-4-1106-előnézetet és a GPT-4-et. -0125-előzetes verzió (a legújabb GPT-4 Turbo modell API-n keresztül elérhető 2024 januárjától). A rangsor szerint a Sonnet és a Haiku is jobbak, mint az eredeti GPT-4, és a Sonnet is megelőzi az OpenAI által 2023 júniusában elindított módosított verziót.

Ez azt is jelenti, hogy sajnos jelenleg csak egy nyílt forráskódú LLM van a top 10-ben: a Qwen, a Starling 7b és a Mixtral 8x7B pedig az egyetlen nyitott modell a top 20-ban.

A Claude egyik előnye a GPT-4-gyel szemben a token kontextus kapacitása és visszakeresési képessége. A Claude 3 Opus nyilvános verziója több mint 200 1-t kezel – és a szervezet azt állítja, hogy van egy korlátozott verziója, amely XNUMX millió token kezelésére képes, szinte tökéletes lekérési arány mellett. Ez azt jelenti, hogy Claude képes megérteni a hosszabb felszólításokat, és hatékonyabban megőrzi az információkat, mint a GPT-4 Turbóhoz képest, amely 128K tokent kezel, és elveszíti visszakeresési képességeit a hosszú promptokkal.

Emlékezzünk vissza a Claude 3 Opus vs GPT-4 Turbo pontosságára. Kép a Decryptből az Anthropic és Greg Kamradt adatainak felhasználásával
Emlékezzünk vissza a Claude 3 Opus vs GPT-4 Turbo pontosságára. Kép a Decryptből az Anthropic és Greg Kamradt adatainak felhasználásával.

Google Gemini Advanced az AI-asszisztens terén is egyre nagyobb teret hódított. A cég olyan csomagot kínál, amely 2 TB tárhelyet és mesterséges intelligencia képességeket tartalmaz a Google-termékek csomagjában, ugyanolyan áron, mint a Chat GPT Plus előfizetés (havi 20 USD).

Az ingyenes Gemini Pro jelenleg a 4. helyen áll, a GPT-4 Turbo és a Claude 3 Sonnet között. A csúcskategóriás Gemini Ultra modell nem tesztelhető, és még nem szerepel a rangsorban.

Szerkesztette Ryan Ozawa.

Maradjon naprakész a kriptográfiai hírekkel, és napi frissítéseket kaphat a postaládájában.

spot_img

Legújabb intelligencia

spot_img

Beszélj velünk

Szia! Miben segíthetek?