Generativ dataintelligens

Anthropics Claude AI vælter ChatGPT på Chatbot Arena Leaderboard – Dekrypter

Dato:

Mens ChatGPT fra Open AI nyder godt af den største mainstream-mindshare af alle generative AI-værktøjer, er dens topplacering blevet stjålet af top-of-the-line Claude 3 Opus fra den flerårige konkurrent Anthropic på et populært crowdsourcet leaderboard, der bruges af AI-forskere.

Claudes opstigning i Chatbot Arena-ranglisten markerer første gang, at OpenAI's GPT-4, som driver ChatGPT Plus, er blevet detroniseret, siden den først dukkede op på ranglisten i maj sidste år.

Chatbot Arena drives af Large Model Systems Organization (LMSYS ORG), en forskningsorganisation dedikeret til åbne modeller, der understøtter samarbejde mellem studerende og fakulteter ved University of California, Berkeley, UC San Diego og Carnegie Mellon University. Platformen præsenterer brugere for to umærkede sprogmodeller og beder dem om at vurdere, hvilken der klarer sig bedst baseret på de kriterier, de finder passende.

Efter at have samlet tusindvis af subjektive sammenligninger, beregner Chatbot Arena de "bedste" modeller til ranglisten og opdaterer den over tid.

Den subjektive tilgang, baseret på deltagernes forskellige personlige smag, er det, der adskiller Chatbot Arena fra andre AI-benchmarks. Modeltrænere kan ikke "snyde" ved at skræddersy deres modeller til at slå algoritmen, som de kan med kvantitative benchmarks. Ved at måle, hvad folk simpelthen foretrækker, er Chatbot Arena en værdifuld, kvalitativ ressource for AI-forskere.

Platformen indsamler brugernes feedback og kører den igennem Bradley-Terry statistisk model at forudsige sandsynligheden for, at en bestemt model klarer sig bedre end andre i direkte konkurrence. Denne tilgang muliggør generering af omfattende statistikker, herunder konfidensintervaller for Elo-vurderingsestimater – den samme teknik, der bruges til at måle skakspilleres færdigheder.

De 10 bedste LLM'er rangeret af Chatbot Arena. Billede: Huggingface
De 10 bedste LLM'er rangeret af Chatbot Arena. Billede: Huggingface

Claude 3 Opus' stigning til toppen er ikke den eneste væsentlige udvikling på ranglisten. Claude 3 Sonnet (den mellemstore model tilgængelig gratis) og Claude 3 Haiku (en mindre, hurtigere model), også udviklet af Anthropic, ligger i øjeblikket på henholdsvis 4. og 6. pladsen.

Leaderboardet inkluderer forskellige versioner af GPT-4, såsom GPT-4-0314 (den "originale" version af GPT-4 fra marts 2023), GPT-4-0613, GPT-4-1106-preview og GPT-4 -0125-preview (den seneste GPT-4 Turbo-model tilgængelig via API fra januar 2024). Ifølge ranglisten er Sonnet og Haiku begge bedre end den originale GPT-4, hvor Sonnet også overgår en tweaket version lanceret af OpenAI i juni 2023.

Dette betyder også, at der desværre kun er én open source LLM i øjeblikket i top 10: Qwen, med Starling 7b og Mixtral 8x7B de eneste andre åbne modeller i top 20.

En af fordelene ved Claude frem for GPT-4 er dens token-kontekstkapacitet og genfindingskapacitet. Den offentlige version af Claude 3 Opus håndterer over 200 – og organisationen hævder at have en begrænset version, der er i stand til at håndtere 1 million tokens med næsten perfekte genfindingshastigheder. Det betyder, at Claude kan forstå længere prompter og opbevare information mere effektivt end sammenlignet med GPT-4 Turbo, som håndterer 128K tokens og mister sine genfindingsmuligheder med lange prompter.

Husk nøjagtigheden af ​​Claude 3 Opus vs GPT-4 Turbo. Billede fra Dekrypter ved hjælp af data fra Anthropic og Greg Kamradt
Husk nøjagtigheden af ​​Claude 3 Opus vs GPT-4 Turbo. Billede fra Dekrypter ved hjælp af data fra Anthropic og Greg Kamradt.

Googles Gemini Avanceret har også vundet indpas i AI-assistentrummet. Virksomheden tilbyder en plan, der inkluderer 2 TB lagerplads og AI-funktioner i pakken af ​​Google-produkter til samme pris som et Chat GPT Plus-abonnement ($20 pr. måned).

Den gratis Gemini Pro er i øjeblikket rangeret som nummer 4, mellem GPT-4 Turbo og Claude 3 Sonnet. Top-of-the-line Gemini Ultra-modellen er ikke tilgængelig til test og er endnu ikke med på ranglisten.

Redigeret af Ryan Ozawa.

Hold dig opdateret med kryptonyheder, få daglige opdateringer i din indbakke.

spot_img

Seneste efterretninger

spot_img

Chat med os

Hej! Hvordan kan jeg hjælpe dig?