Anthropic 的 Claude AI 在 Chatbot Arena 排行榜上推翻了 ChatGPT - 解密

儘管Open AI 的ChatGPT 在所有生成式AI 工具中享有最大的主流關注度，但在AI 研究人員使用的流行眾包排行榜上，其頭把交椅已被常年競爭者Anthropic 的頂級Claude 3 Opus 搶走。

Claude 在 Chatbot Arena 排名中的提升標誌著自去年 4 月首次出現在排行榜上以來，為 ChatGPT Plus 提供支援的 OpenAI 的 GPT-XNUMX 首次被取代。

Chatbot Arena 由大型模型系統組織 (LMSYS ORG) 運營，這是一個致力於開放模型的研究組織，支持加州大學柏克萊分校、加州大學聖地牙哥分校和卡內基梅隆大學的學生和教師之間的協作。該平台向使用者提供兩種未標記的語言模型，並要求他們根據他們認為合適的標準來評價哪一種表現較好。

在匯總了數千個主觀比較後，Chatbot Arena 計算出排行榜的「最佳」模型，並隨著時間的推移進行更新。

這種基於參與者不同個人品味的主觀方法使 Chatbot Arena 與其他人工智慧基準區別開來。模型訓練者不能透過自訂模型來擊敗演算法來“作弊”，就像他們使用定量基準一樣。透過衡量人們的喜好，Chatbot Arena 對於人工智慧研究人員來說是一個有價值的定性資源。

平台收集用戶回饋並透過 Bradley-Terry 統計模型預測特定模型在直接競爭中優於其他模型的可能性。這種方法能夠產生全面的統計數據，包括 Elo 評級估計的置信區間範圍——與衡量國際象棋棋手技能的技術相同。

Claude 3 Opus 登上榜首並不是排行榜上唯一的重大進展。同樣由 Anthropic 開發的 Claude 3 Sonnet（免費的中型模型）和 Claude 3 Haiku（更小、更快的模型）目前分別排名第四和第六。

排行榜包括不同版本的 GPT-4，例如 GPT-4-0314（4 年 2023 月起的 GPT-4 的“原始”版本）、GPT-0613-4、GPT-1106-4-preview 和 GPT-0125 -4-預覽（從2024 年4 月起透過API 提供最新的GPT-2023 Turbo 模型）。根據排名，Sonnet 和 Haiku 均優於原始 GPT-XNUMX，其中 Sonnet 也超過了 OpenAI 於 XNUMX 年 XNUMX 月推出的調整版本。

遺憾的是，這也意味著目前只有一個開源 LLM 進入前 10 名：Qwen，Starling 7b 和 Mixtral 8x7B 是前 20 名中唯一的其他開放模型。

Claude 相對於 GPT-4 的優勢之一是它的 token 上下文容量和檢索能力。 Claude 3 Opus 的公共版本可處理超過 200 萬個令牌，該組織聲稱其受限版本能夠處理 1 萬個令牌，且檢索率幾乎完美。這意味著克勞德可以比其他人更有效地理解更長的提示並更有效地記住訊息與 GPT-4 Turbo 相比，它處理 128K 令牌，並在長提示下失去檢索功能。

*Claude 3 Opus 與 GPT-4 Turbo 的回憶準確度。圖片來自 Decrypt，使用 Anthropic 和 Greg Kamradt 的數據。*

谷歌的雙子座高級版在人工智慧助理領域也越來越受到重視。該公司提供的方案包括 Google 產品套件中的 2TB 儲存和 AI 功能，價格與 Chat GPT Plus 訂閱價格相同（每月 20 美元）。

免費的 Gemini Pro 目前排名第四，位於 GPT-4 Turbo 和 Claude 4 Sonnet 之間。頂級的 Gemini Ultra 型號還無法進行測試，也尚未出現在排行榜中。

編輯小澤賴恩.

隨時了解加密新聞，在您的收件箱中獲取每日更新。

SEO 支持的內容和 PR 分發。今天得到放大。
PlatoData.Network 垂直生成人工智能。賦予自己力量。訪問這裡。
柏拉圖愛流。 Web3 智能。知識放大。訪問這裡。
柏拉圖ESG。碳，清潔科技, 能源，環境，太陽能，廢物管理。訪問這裡。
柏拉圖健康。生物技術和臨床試驗情報。訪問這裡。
資源： https://decrypt.co/223787/anthropic-claude-ai-versus-openai-chatgpt-llm-arena-ranking

生成數據智能

Anthropic 的 Claude AI 在 Chatbot Arena 排行榜上推翻了 ChatGPT – 解密

隨時了解加密新聞，在您的收件箱中獲取每日更新。

美國司法部在新提交的文件中對羅馬風暴對龍捲風現金業務的描述提出異議

前 5 名加密貨幣預售：BDAG 以 30,000 倍的投資回報率領先

最新情報

福布斯揭曉 20 個加密貨幣“殭屍”，宣稱 Ripple 和 XRP 屬於不死生物

義大利監管機構 Consob 禁止其他外匯和加密貨幣交易網站 – CryptoInfoNet

聯準會通膨指標升溫，因比特幣和股市下滑而暫停降息

探索 6 年六大加密貨幣：BlockDAG 具有前所未有的投資回報潛力領先

富蘭克林鄧普頓的以太坊現貨 ETF 在 DTCC 上市

比特幣大屠殺：加密貨幣分析師在價格下跌 8% 後發現“死亡交叉”

和我們線上諮詢