Generatiivne andmeluure

Anthropici Claude AI kukutas Chatbot Arena edetabelis ChatGPT – dekrüpt

kuupäev:

Kuigi avatud tehisintellekti ChatGPT-l on kõigist generatiivsetest AI-tööriistadest suurim mainstream mõttekasutus, on selle esikoha varastanud tipptasemel Claude 3 Opus mitmeaastaselt konkurendilt Anthropic populaarsel tehisintellekti teadlaste kasutataval edetabelis.

Claude'i tõus Chatbot Arena edetabelis tähistab esimest korda, kui OpenAI GPT-4, mis juhib ChatGPT Plusi, troonilt kukutatakse pärast seda, kui see eelmise aasta mais esimest korda edetabelis ilmus.

Chatbot Arena juhib Large Model Systems Organisation (LMSYS ORG), uurimisorganisatsioon, mis on pühendunud avatud mudelitele, mis toetavad California ülikooli Berkeley, UC San Diego ja Carnegie Melloni ülikooli üliõpilaste ja õppejõudude vahelist koostööd. Platvorm esitab kasutajatele kaks märgistamata keelemudelit ja palub neil hinnata, milline neist toimib paremini, lähtudes nende sobivaks peetud kriteeriumidest.

Pärast tuhandete subjektiivsete võrdluste koondamist arvutab Chatbot Arena edetabeli jaoks "parimad" mudelid, värskendades seda aja jooksul.

See subjektiivne lähenemine, mis põhineb osalejate erinevatel isiklikel maitsetel, eristab Chatbot Arena teistest tehisintellekti kriteeriumidest. Mudelite koolitajad ei saa "petta", kohandades oma mudeleid algoritmi ületama, nagu nad saaksid teha kvantitatiivsete võrdlusnäitajate puhul. Mõõtes seda, mida inimesed lihtsalt eelistavad, on Chatbot Arena AI-uurijatele väärtuslik ja kvalitatiivne ressurss.

Platvorm kogub kasutajate tagasisidet ja juhib seda läbi Bradley-Terry statistiline mudel ennustada tõenäosust, et konkreetne mudel ületab otseses konkurentsis teisi. Selline lähenemine võimaldab koostada põhjalikku statistikat, sealhulgas Elo reitinguhinnangute usaldusvahemiku vahemikke – sama tehnikat, mida kasutatakse maletajate oskuste mõõtmiseks.

Chatbot Arena järjestatud 10 parimat LLM-i. Pilt: Huggingface
Chatbot Arena järjestatud 10 parimat LLM-i. Pilt: Huggingface

Claude 3 Opuse tõus tippu pole ainus märkimisväärne areng edetabelis. Claude 3 Sonnet (keskmise suurusega mudel tasuta saadaval) ja Claude 3 Haiku (väiksem ja kiirem mudel), samuti Anthropicu arendatud, on hetkel vastavalt 4. ja 6. kohal.

Edetabel sisaldab erinevaid GPT-4 versioone, nagu GPT-4-0314 (GPT-4 algversioon 2023. aasta märtsist), GPT-4-0613, GPT-4-1106-eelvaade ja GPT-4 -0125-eelvaade (uusim GPT-4 Turbo mudel, mis on saadaval API kaudu alates 2024. aasta jaanuarist). Edetabeli järgi on Sonnet ja Haiku mõlemad paremad kui algne GPT-4, kusjuures Sonnet edestab ka OpenAI 2023. aasta juunis käivitatud kohandatud versiooni.

See tähendab ka seda, et kahjuks on praegu 10 parima hulgas ainult üks avatud lähtekoodiga LLM: Qwen, Starling 7b ja Mixtral 8x7B on ainsad teised avatud mudelid top 20 hulgas.

Üks Claude'i eeliseid GPT-4 ees on selle sümboolse konteksti suutlikkus ja otsinguvõime. Claude 3 Opuse avalik versioon käsitleb üle 200 1 ja organisatsioon väidab, et tal on piiratud versioon, mis suudab käsitleda XNUMX miljonit žetoonit peaaegu täiusliku otsingumääraga. See tähendab, et Claude mõistab pikemaid viipasid ja säilitab teavet tõhusamalt kui võrreldes GPT-4 Turboga, mis käsitleb 128 XNUMX žetoone ja kaotab pikkade viipade tõttu oma otsinguvõimalused.

Tuletage meelde Claude 3 Opuse vs GPT-4 Turbo täpsust. Pilt rakendusest Decrypt, kasutades Anthropicu ja Greg Kamradti andmeid
Tuletage meelde Claude 3 Opuse vs GPT-4 Turbo täpsust. Pilt rakendusest Decrypt, kasutades Anthropicu ja Greg Kamradti andmeid.

Google Kaksikud Advanced on kogunud haardejõudu ka AI assistendi ruumis. Ettevõte pakub paketti, mis sisaldab 2TB salvestusruumi ja AI-võimalusi Google'i toodete komplektis sama hinnaga kui Chat GPT Plusi tellimus (20 dollarit kuus).

Tasuta Gemini Pro on hetkel 4. kohal, GPT-4 Turbo ja Claude 3 Sonneti vahel. Tipptasemel Gemini Ultra mudel pole testimiseks saadaval ega ole veel edetabelis esile tõstetud.

Muutis Ryan Ozawa.

Olge kursis krüptouudistega, saate oma postkasti igapäevaseid värskendusi.

spot_img

Uusim intelligentsus

spot_img

Jututuba koos meiega

Tere! Kuidas ma teid aidata saan?