Anthropics Claude AI vælter ChatGPT på Chatbot Arena Leaderboard - Dekrypter

Mens ChatGPT fra Open AI nyder godt af den største mainstream-mindshare af alle generative AI-værktøjer, er dens topplacering blevet stjålet af top-of-the-line Claude 3 Opus fra den flerårige konkurrent Anthropic på et populært crowdsourcet leaderboard, der bruges af AI-forskere.

Claudes opstigning i Chatbot Arena-ranglisten markerer første gang, at OpenAI's GPT-4, som driver ChatGPT Plus, er blevet detroniseret, siden den først dukkede op på ranglisten i maj sidste år.

Chatbot Arena drives af Large Model Systems Organization (LMSYS ORG), en forskningsorganisation dedikeret til åbne modeller, der understøtter samarbejde mellem studerende og fakulteter ved University of California, Berkeley, UC San Diego og Carnegie Mellon University. Platformen præsenterer brugere for to umærkede sprogmodeller og beder dem om at vurdere, hvilken der klarer sig bedst baseret på de kriterier, de finder passende.

Efter at have samlet tusindvis af subjektive sammenligninger, beregner Chatbot Arena de "bedste" modeller til ranglisten og opdaterer den over tid.

Den subjektive tilgang, baseret på deltagernes forskellige personlige smag, er det, der adskiller Chatbot Arena fra andre AI-benchmarks. Modeltrænere kan ikke "snyde" ved at skræddersy deres modeller til at slå algoritmen, som de kan med kvantitative benchmarks. Ved at måle, hvad folk simpelthen foretrækker, er Chatbot Arena en værdifuld, kvalitativ ressource for AI-forskere.

Platformen indsamler brugernes feedback og kører den igennem Bradley-Terry statistisk model at forudsige sandsynligheden for, at en bestemt model klarer sig bedre end andre i direkte konkurrence. Denne tilgang muliggør generering af omfattende statistikker, herunder konfidensintervaller for Elo-vurderingsestimater – den samme teknik, der bruges til at måle skakspilleres færdigheder.

*De 10 bedste LLM'er rangeret af Chatbot Arena. Billede: Huggingface*

Claude 3 Opus' stigning til toppen er ikke den eneste væsentlige udvikling på ranglisten. Claude 3 Sonnet (den mellemstore model tilgængelig gratis) og Claude 3 Haiku (en mindre, hurtigere model), også udviklet af Anthropic, ligger i øjeblikket på henholdsvis 4. og 6. pladsen.

Leaderboardet inkluderer forskellige versioner af GPT-4, såsom GPT-4-0314 (den "originale" version af GPT-4 fra marts 2023), GPT-4-0613, GPT-4-1106-preview og GPT-4 -0125-preview (den seneste GPT-4 Turbo-model tilgængelig via API fra januar 2024). Ifølge ranglisten er Sonnet og Haiku begge bedre end den originale GPT-4, hvor Sonnet også overgår en tweaket version lanceret af OpenAI i juni 2023.

Dette betyder også, at der desværre kun er én open source LLM i øjeblikket i top 10: Qwen, med Starling 7b og Mixtral 8x7B de eneste andre åbne modeller i top 20.

En af fordelene ved Claude frem for GPT-4 er dens token-kontekstkapacitet og genfindingskapacitet. Den offentlige version af Claude 3 Opus håndterer over 200 – og organisationen hævder at have en begrænset version, der er i stand til at håndtere 1 million tokens med næsten perfekte genfindingshastigheder. Det betyder, at Claude kan forstå længere prompter og opbevare information mere effektivt end sammenlignet med GPT-4 Turbo, som håndterer 128K tokens og mister sine genfindingsmuligheder med lange prompter.

*Husk nøjagtigheden af Claude 3 Opus vs GPT-4 Turbo. Billede fra Dekrypter ved hjælp af data fra Anthropic og Greg Kamradt.*

Googles Gemini Avanceret har også vundet indpas i AI-assistentrummet. Virksomheden tilbyder en plan, der inkluderer 2 TB lagerplads og AI-funktioner i pakken af Google-produkter til samme pris som et Chat GPT Plus-abonnement ($20 pr. måned).

Den gratis Gemini Pro er i øjeblikket rangeret som nummer 4, mellem GPT-4 Turbo og Claude 3 Sonnet. Top-of-the-line Gemini Ultra-modellen er ikke tilgængelig til test og er endnu ikke med på ranglisten.

Redigeret af Ryan Ozawa.

Hold dig opdateret med kryptonyheder, få daglige opdateringer i din indbakke.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://decrypt.co/223787/anthropic-claude-ai-versus-openai-chatgpt-llm-arena-ranking

Generativ dataintelligens

Anthropics Claude AI vælter ChatGPT på Chatbot Arena Leaderboard – Dekrypter

Hold dig opdateret med kryptonyheder, få daglige opdateringer i din indbakke.

DOJ bestrider Roman Storms karakterisering af Tornado Cash-operationer i ny arkivering

Top 5 Crypto Presales: BDAG fører pakken med 30,000x ROI-potentiale

Seneste efterretninger

Forbes afslører 20 Crypto 'Zombies', erklærer Ripple og XRP blandt de udøde

Consob, Italiens vagthund, forbyder yderligere valuta- og kryptovalutahandelswebsteder – CryptoInfoNet

Feds inflationsmåler varmes op, rentenedsættelser på hold, mens Bitcoin og aktier glider

Udforsk Top 6 Cryptos for 2024: BlockDAG Leads med hidtil uset ROI-potentiale

Franklin Templetons Ethereum spot ETF noteret på DTCC

Bitcoin Bloodbath: Kryptoanalytiker opdager 'Death Cross' efter 8 % prisfald

Chat med os