Generatiivinen tiedustelu

Anthropicin Claude AI kaatoi ChatGPT:n Chatbot Arenan tulostaulukossa – Pura salaus

Treffi:

Vaikka Open AI:n ChatGPT nauttii kaikista generatiivisista tekoälytyökaluista suurimmalla valtavirran mindshare-osuudella, sen kärkipaikan on varastanut huippuluokan Claude 3 Opus monivuotiselta kilpailijalta Anthropicilta AI-tutkijoiden käyttämillä suositulla joukkolähdetaulukolla.

Clauden nousu Chatbot Arenan rankingissa on ensimmäinen kerta, kun OpenAI:n GPT-4, joka toimii ChatGPT Plus:ssa, on syrjäytetty sen jälkeen, kun se ilmestyi ensimmäisen kerran tulostaulukolle viime vuoden toukokuussa.

Chatbot Arenaa johtaa Large Model Systems Organization (LMSYS ORG), tutkimusorganisaatio, joka on omistautunut avoimille malleille, jotka tukevat Kalifornian yliopiston Berkeleyn, UC San Diegon ja Carnegie Mellonin yliopiston opiskelijoiden ja tiedekunnan välistä yhteistyötä. Alusta esittelee käyttäjille kaksi nimeämätöntä kielimallia ja pyytää heitä arvioimaan, kumpi toimii paremmin sopiviksi katsomiensa kriteerien perusteella.

Yhdistettyään tuhansia subjektiivisia vertailuja Chatbot Arena laskee tulostaulukon "parhaat" mallit ja päivittää niitä ajan myötä.

Tämä subjektiivinen lähestymistapa, joka perustuu osallistujien erilaisiin henkilökohtaisiin makuun, erottaa Chatbot Arenan muista tekoälyn vertailuarvoista. Mallikouluttajat eivät voi "huijata" räätälöimällä mallejaan algoritmin päihittämiseksi, kuten he voisivat tehdä kvantitatiivisten vertailuarvojen kanssa. Mittaamalla sitä, mitä ihmiset yksinkertaisesti pitävät, Chatbot Arena on arvokas ja laadukas resurssi tekoälytutkijoille.

Alusta kerää käyttäjien palautetta ja suorittaa sen läpi Bradley-Terryn tilastollinen malli ennustaa todennäköisyyttä, että tietty malli ylittää muut suorassa kilpailussa. Tämä lähestymistapa mahdollistaa kattavien tilastojen luomisen, mukaan lukien luottamusvälialueet Elo-luokitusestimaateille – sama tekniikka, jota käytetään shakinpelaajien taitojen mittaamiseen.

Chatbot Arenan 10 parasta LLM:ää. Kuva: Huggingface
Chatbot Arenan 10 parasta LLM:ää. Kuva: Huggingface

Claude 3 Opusin nousu huipulle ei ole ainoa merkittävä kehitys tulostaulukossa. Anthropicin kehittämä Claude 3 Sonnet (keskikokoinen malli ilmaiseksi) ja Claude 3 Haiku (pienempi, nopeampi malli) ovat tällä hetkellä 4. ja 6. sijalla.

Tulostaulukko sisältää eri versioita GPT-4:stä, kuten GPT-4-0314 (GPT-4:n "alkuperäinen" versio maaliskuusta 2023), GPT-4-0613, GPT-4-1106-esikatselu ja GPT-4 -0125-esikatselu (uusin GPT-4 Turbo -malli saatavilla API:n kautta tammikuusta 2024). Luokituksen mukaan Sonnet ja Haiku ovat molemmat parempia kuin alkuperäinen GPT-4, ja Sonnet ohittaa myös OpenAI:n kesäkuussa 2023 julkaiseman muokatun version.

Tämä tarkoittaa myös sitä, että tällä hetkellä kymmenen parhaan joukossa on valitettavasti vain yksi avoimen lähdekoodin LLM: Qwen, ja Starling 10b ja Mixtral 7x8B ovat ainoat muut avoimet mallit 7 parhaan joukossa.

Yksi Clauden eduista GPT-4:ään verrattuna on sen merkkikontekstikapasiteetti ja hakukyky. Claude 3 Opuksen julkinen versio käsittelee yli 200 1 – ja organisaatio väittää, että sillä on rajoitettu versio, joka pystyy käsittelemään miljoona tokenia lähes täydellisellä hakunopeudella. Tämä tarkoittaa, että Claude voi ymmärtää pidempiä kehotteita ja säilyttää tiedot tehokkaammin kuin verrattuna GPT-4 Turboon, joka käsittelee 128 XNUMX tokenia ja menettää hakukykynsä pitkillä kehotteilla.

Muista Claude 3 Opus vs GPT-4 Turbo -tarkkuus. Kuva Decryptistä käyttämällä Anthropicin ja Greg Kamradtin tietoja
Muista Claude 3 Opus vs GPT-4 Turbo -tarkkuus. Kuva Decryptistä käyttämällä Anthropicin ja Greg Kamradtin tietoja.

Googlen Gemini Advanced on myös saanut vetoa tekoälyn avustajatilassa. Yritys tarjoaa paketin, joka sisältää 2 Tt tallennustilaa ja AI-ominaisuudet Google-tuotteisiin samaan hintaan kuin Chat GPT Plus -tilaus (20 dollaria kuukaudessa).

Ilmainen Gemini Pro on tällä hetkellä sijalla 4, GPT-4 Turbon ja Claude 3 Sonnetin välissä. Huippuluokan Gemini Ultra -malli ei ole testattavissa, eikä sitä ole vielä listattu.

Muokannut Ryan Ozawa.

Pysy ajan tasalla kryptouutisista, saat päivittäiset päivitykset postilaatikkoosi.

spot_img

Uusin älykkyys

spot_img

Keskustele kanssamme

Hei siellä! Kuinka voin olla avuksi?