生成數據智能

Anthropic 的 Claude AI 在 Chatbot Arena 排行榜上推翻了 ChatGPT – 解密

日期:

儘管Open AI 的ChatGPT 在所有生成式AI 工具中享有最大的主流關注度,但在AI 研究人員使用的流行眾包排行榜上,其頭把交椅已被常年競爭者Anthropic 的頂級Claude 3 Opus 搶走。

Claude 在 Chatbot Arena 排名中的提升標誌著自去年 4 月首次出現在排行榜上以來,為 ChatGPT Plus 提供支援的 OpenAI 的 GPT-XNUMX 首次被取代。

Chatbot Arena 由大型模型系統組織 (LMSYS ORG) 運營,這是一個致力於開放模型的研究組織,支持加州大學柏克萊分校、加州大學聖地牙哥分校和卡內基梅隆大學的學生和教師之間的協作。該平台向使用者提供兩種未標記的語言模型,並要求他們根據他們認為合適的標準來評價哪一種表現較好。

在匯總了數千個主觀比較後,Chatbot Arena 計算出排行榜的「最佳」模型,並隨著時間的推移進行更新。

這種基於參與者不同個人品味的主觀方法使 Chatbot Arena 與其他人工智慧基準區別開來。模型訓練者不能透過自訂模型來擊敗演算法來“作弊”,就像他們使用定量基準一樣。透過衡量人們的喜好,Chatbot Arena 對於人工智慧研究人員來說是一個有價值的定性資源。

平台收集用戶回饋並透過 Bradley-Terry 統計模型 預測特定模型在直接競爭中優於其他模型的可能性。 這種方法 能夠產生全面的統計數據,包括 Elo 評級估計的置信區間範圍——與衡量國際象棋棋手技能的技術相同。

Chatbot Arena 排名前 10 名的法學碩士。圖:擁抱臉
Chatbot Arena 排名前 10 名的法學碩士。圖:擁抱臉

Claude 3 Opus 登上榜首並不是排行榜上唯一的重大進展。同樣由 Anthropic 開發的 Claude 3 Sonnet(免費的中型模型)和 Claude 3 Haiku(更小、更快的模型)目前分別排名第四和第六。

排行榜包括不同版本的 GPT-4,例如 GPT-4-0314(4 年 2023 月起的 GPT-4 的“原始”版本)、GPT-0613-4、GPT-1106-4-preview 和 GPT-0125 -4-預覽(從2024 年4 月起透過API 提供最新的GPT-2023 Turbo 模型)。根據排名,Sonnet 和 Haiku 均優於原始 GPT-XNUMX,其中 Sonnet 也超過了 OpenAI 於 XNUMX 年 XNUMX 月推出的調整版本。

遺憾的是,這也意味著目前只有一個開源 LLM 進入前 10 名:Qwen,Starling 7b 和 Mixtral 8x7B 是前 20 名中唯一的其他開放模型。

Claude 相對於 GPT-4 的優勢之一是它的 token 上下文容量和檢索能力。 Claude 3 Opus 的公共版本可處理超過 200 萬個令牌,該組織聲稱其受限版本能夠處理 1 萬個令牌,且檢索率幾乎完美。這意味著克勞德可以比其他人更有效地理解更長的提示並更有效地記住訊息 與 GPT-4 Turbo 相比,它處理 128K 令牌,並在長提示下失去檢索功能。

Claude 3 Opus 與 GPT-4 Turbo 的回憶準確度。圖片來自 Decrypt,使用 Anthropic 和 Greg Kamradt 的數據
Claude 3 Opus 與 GPT-4 Turbo 的回憶準確度。圖片來自 Decrypt,使用 Anthropic 和 Greg Kamradt 的數據。

谷歌的 雙子座高級版 在人工智慧助理領域也越來越受到重視。該公司提供的方案包括 Google 產品套件中的 2TB 儲存和 AI 功能,價格與 Chat GPT Plus 訂閱價格相同(每月 20 美元)。

免費的 Gemini Pro 目前排名第四,位於 GPT-4 Turbo 和 Claude 4 Sonnet 之間。頂級的 Gemini Ultra 型號還無法進行測試,也尚未出現在排行榜中。

編輯 小澤賴恩.

隨時了解加密新聞,在您的收件箱中獲取每日更新。

現貨圖片

最新情報

現貨圖片

和我們線上諮詢

你好呀!我怎麼幫你?