Anthropic の Claude AI がチャットボットアリーナリーダーボードで ChatGPT を破る - 解読

Open AI の ChatGPT は、すべての生成 AI ツールの中で最大の主流マインドシェアを享受していますが、AI 研究者が使用する人気のクラウドソーシングリーダーボードでは、そのトップの座を永遠の候補者 Anthropic の最上位の Claude 3 Opus に奪われています。

Chatbot Arena ランキングでのクロードの昇格は、ChatGPT Plus を支える OpenAI の GPT-4 が、昨年 XNUMX 月に初めてリーダーボードに登場して以来、その座を奪われるのは初めてです。

Chatbot Arena は、カリフォルニア大学バークレー校、カリフォルニア大学サンディエゴ校、カーネギーメロン大学の学生と教員間のコラボレーションをサポートするオープンモデルに特化した研究組織である Large Model Systems Orgnament (LMSYS ORG) によって運営されています。このプラットフォームは、ラベルのない 2 つの言語モデルをユーザーに提示し、適合すると思われる基準に基づいてどちらのパフォーマンスが優れているかを評価するよう求めます。

Chatbot Arena は、何千もの主観的な比較を集約した後、リーダーボードに「最適な」モデルを計算し、時間の経過とともに更新します。

参加者の異なる個人的な好みに基づいた主観的なアプローチが、Chatbot Arena を他の AI ベンチマークと区別するものです。モデルトレーナーは、定量的なベンチマークの場合のように、アルゴリズムに勝つようにモデルを調整することで「不正行為」をすることはできません。 Chatbot Arena は、人々が単に好むものを測定することにより、AI 研究者にとって価値のある定性的なリソースとなります。

プラットフォームはユーザーのフィードバックを収集し、それを実行します。ブラッドリー・テリー統計モデル直接的な競合において、特定のモデルが他のモデルよりも優れたパフォーマンスを発揮する可能性を予測するため。このアプローチ Elo レーティング推定値の信頼区間範囲を含む包括的な統計の生成を可能にします。これは、チェスプレイヤーのスキルを測定するために使用されるのと同じ手法です。

*Chatbot Arena によってランク付けされた上位 10 の LLM。画像: 抱き合う顔*

Claude 3 Opus のトップへの上昇は、リーダーボードにおける唯一の重要な進歩ではありません。 Claude 3 Sonnet (無料で利用できる中型モデル) と Claude 3 Haiku (小型で高速なモデル) は、同じく Anthropic によって開発され、現在それぞれ 4 位と 6 位に位置しています。

リーダーボードには、GPT-4-4 (0314 年 4 月の GPT-2023 の「オリジナル」バージョン)、GPT-4-0613、GPT-4-1106-preview、GPT-4 など、GPT-0125 のさまざまなバージョンが含まれています。 -4-プレビュー (最新の GPT-2024 Turbo モデルは 4 年 2023 月から API 経由で利用可能)。ランキングによると、Sonnet と Haiku はどちらもオリジナルの GPT-XNUMX よりも優れており、Sonnet は XNUMX 年 XNUMX 月に OpenAI によって発売された調整バージョンも上回っています。

これは、悲しいことに、現在トップ 10 に入っているオープンソース LLM は Qwen の 7 つだけであり、トップ 8 に入っている他のオープンモデルは Starling 7b と Mixtral 20xXNUMXB だけであることも意味します。

GPT-4 に対する Claude の利点の 3 つは、トークンコンテキストの容量と取得機能です。 Claude 200 Opus の公開バージョンは 1 個以上を処理し、組織はほぼ完璧な取得率で XNUMX 万個のトークンを処理できる制限付きバージョンがあると主張しています。これは、クロードが長いプロンプトを理解し、情報をより効果的に保持できることを意味します。 GPT-4ターボとの比較、128K トークンを処理し、長いプロンプトが表示されると取得機能が失われます。

クロード 3 オーパスと GPT-4 ターボの精度を再現します。 Anthropic と Greg Kamradt のデータを使用した復号化の画像 — *クロード 3 オーパスと GPT-4 ターボの精度を再現します。 Anthropic と Greg Kamradt のデータを使用した Decrypt の画像。*

Googleのジェミニアドバンスト AI アシスタントの分野でも注目を集めています。同社は、Google 製品スイートに 2TB のストレージと AI 機能を含むプランを、Chat GPT Plus サブスクリプション (月額 20 ドル) と同じ価格で提供しています。

無料の Gemini Pro は現在、GPT-4 Turbo と Claude 4 Sonnet の間で第 3 位にランクされています。最上位モデルの Gemini Ultra はテストできず、ランキングにもまだ掲載されていません。

による編集ライアン・オザワ.

暗号ニュースを常に把握し、受信トレイで毎日更新を入手してください。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://decrypt.co/223787/anthropic-claude-ai-versus-openai-chatgpt-llm-arena-ranking

生成的データインテリジェンス

Anthropic の Claude AI がチャットボットアリーナリーダーボードで ChatGPT を破る – 復号化

暗号ニュースを常に把握し、受信トレイで毎日更新を入手してください。

柴犬がロビンフッドの暗号通貨パフォーマンスでリード

司法省、ローマン・ストームによるトルネード・キャッシュ・オペレーションの特徴付けについて新たな申請で異議を唱える

最新のインテリジェンス

トップ 5 の暗号通貨プリセール: BDAG が 30,000 倍の ROI の可能性で群をリード

フォーブスが20種類の仮想通貨「ゾンビ」を公開、アンデッドの中にはリップルとXRPがあると宣言

イタリアの監視機関であるコンソブ、追加の外国為替および仮想通貨取引ウェブサイトを禁止 – CryptoInfoNet

FRBのインフレ率が上昇、ビットコインと株の下落で利下げは保留

6 年のトップ 2024 暗号を探る: BlockDAG が前例のない ROI の可能性でリード

フランクリン・テンプルトンのイーサリアム・スポットETFがDTCCに上場

私たちとチャット

生成的データ インテリジェンス

Anthropic の Claude AI がチャットボット アリーナ リーダーボードで ChatGPT を破る – 復号化

暗号ニュースを常に把握し、受信トレイで毎日更新を入手してください。

最新のインテリジェンス

私たちとチャット

生成的データインテリジェンス

Anthropic の Claude AI がチャットボットアリーナリーダーボードで ChatGPT を破る – 復号化