Az Anthropic Claude AI megdöntötte a ChatGPT-t a Chatbot Arena ranglistáján – Decrypt

Míg az Open AI ChatGPT-je az összes generatív mesterségesintelligencia-eszköz közül a legnagyobb mainstream mindshare-t élvezi, első helyét a csúcskategóriás Claude 3 Opus lopta el az örökké tartó Anthropictól a mesterséges intelligenciakutatók által használt népszerű, tömeges ranglistán.

Claude feljutása a Chatbot Arena ranglistájára az első alkalom, hogy az OpenAI GPT-4-jét, amely a ChatGPT Plus-t vezérli, letaszították a trónról, mióta tavaly májusban először megjelent a ranglistán.

A Chatbot Arénát a Large Model Systems Organisation (LMSYS ORG) üzemelteti, amely olyan nyílt modellekkel foglalkozik, amelyek támogatják a Kaliforniai Egyetem, Berkeley, UC San Diego és Carnegie Mellon Egyetem hallgatói és oktatói közötti együttműködést. A platform két címkézetlen nyelvi modellt kínál a felhasználóknak, és arra kéri őket, hogy értékeljék, melyik teljesít jobban az általuk megfelelőnek ítélt kritériumok alapján.

Több ezer szubjektív összehasonlítás összesítése után a Chatbot Arena kiszámítja a „legjobb” modelleket a ranglistához, és idővel frissíti.

Ez a szubjektív megközelítés, amely a résztvevők eltérő személyes ízlésén alapul, az, ami megkülönbözteti a Chatbot Arenát a többi mesterséges intelligencia-benchmarktól. A modelltrénerek nem „csalhatnak” azzal, hogy modelljeiket úgy alakítják át, hogy azok felülmúlják az algoritmust, ahogyan azt a mennyiségi benchmarkok esetében tennék. Azáltal, hogy megmérjük, mit szeretnek az emberek egyszerűen, a Chatbot Arena értékes, minőségi erőforrás az AI-kutatók számára.

A platform összegyűjti a felhasználók visszajelzéseit, és végigfut a Bradley-Terry statisztikai modell megjósolni annak valószínűségét, hogy egy adott modell túlteljesít másokat a közvetlen versenyben. Ez a megközelítés lehetővé teszi átfogó statisztikák generálását, beleértve az Elo értékelési becslések konfidencia intervallumtartományait – ugyanazt a technikát, amelyet a sakkozók képességeinek mérésére használnak.

*A Chatbot Arena által rangsorolt 10 legjobb LLM. Kép: Huggingface*

A Claude 3 Opus felemelkedése nem az egyetlen jelentős fejlemény a ranglistán. A szintén az Anthropic által fejlesztett Claude 3 Sonnet (a közepes méretű modell ingyenesen) és a Claude 3 Haiku (egy kisebb, gyorsabb modell) jelenleg a 4., illetve a 6. helyen áll.

A ranglista a GPT-4 különböző verzióit tartalmazza, például a GPT-4-0314-et (a GPT-4 „eredeti” verziója 2023 márciusából), a GPT-4-0613-at, a GPT-4-1106-előnézetet és a GPT-4-et. -0125-előzetes verzió (a legújabb GPT-4 Turbo modell API-n keresztül elérhető 2024 januárjától). A rangsor szerint a Sonnet és a Haiku is jobbak, mint az eredeti GPT-4, és a Sonnet is megelőzi az OpenAI által 2023 júniusában elindított módosított verziót.

Ez azt is jelenti, hogy sajnos jelenleg csak egy nyílt forráskódú LLM van a top 10-ben: a Qwen, a Starling 7b és a Mixtral 8x7B pedig az egyetlen nyitott modell a top 20-ban.

A Claude egyik előnye a GPT-4-gyel szemben a token kontextus kapacitása és visszakeresési képessége. A Claude 3 Opus nyilvános verziója több mint 200 1-t kezel – és a szervezet azt állítja, hogy van egy korlátozott verziója, amely XNUMX millió token kezelésére képes, szinte tökéletes lekérési arány mellett. Ez azt jelenti, hogy Claude képes megérteni a hosszabb felszólításokat, és hatékonyabban megőrzi az információkat, mint a GPT-4 Turbóhoz képest, amely 128K tokent kezel, és elveszíti visszakeresési képességeit a hosszú promptokkal.

*Emlékezzünk vissza a Claude 3 Opus vs GPT-4 Turbo pontosságára. Kép a Decryptből az Anthropic és Greg Kamradt adatainak felhasználásával.*

Google Gemini Advanced az AI-asszisztens terén is egyre nagyobb teret hódított. A cég olyan csomagot kínál, amely 2 TB tárhelyet és mesterséges intelligencia képességeket tartalmaz a Google-termékek csomagjában, ugyanolyan áron, mint a Chat GPT Plus előfizetés (havi 20 USD).

Az ingyenes Gemini Pro jelenleg a 4. helyen áll, a GPT-4 Turbo és a Claude 3 Sonnet között. A csúcskategóriás Gemini Ultra modell nem tesztelhető, és még nem szerepel a rangsorban.

Szerkesztette Ryan Ozawa.

Maradjon naprakész a kriptográfiai hírekkel, és napi frissítéseket kaphat a postaládájában.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://decrypt.co/223787/anthropic-claude-ai-versus-openai-chatgpt-llm-arena-ranking

Generatív adatintelligencia

Az Anthropic Claude AI megdöntötte a ChatGPT-t a Chatbot Arena ranglistáján – Decrypt

Maradjon naprakész a kriptográfiai hírekkel, és napi frissítéseket kaphat a postaládájában.

Drake perrel fenyegetőzött a Tupac AI-ének miatt

Shiba Inu vezeti a Robinhood Crypto Performance-ját

Legújabb intelligencia

2024 legjobb kripto kaszinói: Átfogó útmutató

A DOJ vitatja a Roman Storm által a Tornado készpénzes műveletek jellemzését új bejelentésben

A 3-es NFL-draft 2024. napján elérhető legjobb játékosok

Az 5 legjobb kriptográfiai előértékesítés: 30,000 XNUMX-szeres ROI potenciállal a BDAG vezeti a csomagot

A Forbes bemutatott 20 kriptozombit, a Ripple-t és az XRP-t az élőhalottak között

A Consob, az olasz őrkutya betiltja a további deviza- és kriptovaluta kereskedési webhelyeket – CryptoInfoNet

Beszélj velünk