生成的データ インテリジェンス

Anthropic の Claude AI がチャットボット アリーナ リーダーボードで ChatGPT を破る – 復号化

日付:

Open AI の ChatGPT は、すべての生成 AI ツールの中で最大の主流マインドシェアを享受していますが、AI 研究者が使用する人気のクラウドソーシング リーダーボードでは、そのトップの座を永遠の候補者 Anthropic の最上位の Claude 3 Opus に奪われています。

Chatbot Arena ランキングでのクロードの昇格は、ChatGPT Plus を支える OpenAI の GPT-4 が、昨年 XNUMX 月に初めてリーダーボードに登場して以来、その座を奪われるのは初めてです。

Chatbot Arena は、カリフォルニア大学バークレー校、カリフォルニア大学サンディエゴ校、カーネギー メロン大学の学生と教員間のコラボレーションをサポートするオープン モデルに特化した研究組織である Large Model Systems Orgnament (LMSYS ORG) によって運営されています。このプラットフォームは、ラベルのない 2 つの言語モデルをユーザーに提示し、適合すると思われる基準に基づいてどちらのパフォーマンスが優れているかを評価するよう求めます。

Chatbot Arena は、何千もの主観的な比較を集約した後、リーダーボードに「最適な」モデルを計算し、時間の経過とともに更新します。

参加者の異なる個人的な好みに基づいた主観的なアプローチが、Chatbot Arena を他の AI ベンチマークと区別するものです。モデルトレーナーは、定量的なベンチマークの場合のように、アルゴリズムに勝つようにモデルを調整することで「不正行為」をすることはできません。 Chatbot Arena は、人々が単に好むものを測定することにより、AI 研究者にとって価値のある定性的なリソースとなります。

プラットフォームはユーザーのフィードバックを収集し、それを実行します。 ブラッドリー・テリー統計モデル 直接的な競合において、特定のモデルが他のモデルよりも優れたパフォーマンスを発揮する可能性を予測するため。 このアプローチ Elo レーティング推定値の信頼区間範囲を含む包括的な統計の生成を可能にします。これは、チェスプレイヤーのスキルを測定するために使用されるのと同じ手法です。

Chatbot Arena によってランク付けされた上位 10 の LLM。画像: 抱き合う顔
Chatbot Arena によってランク付けされた上位 10 の LLM。画像: 抱き合う顔

Claude 3 Opus のトップへの上昇は、リーダーボードにおける唯一の重要な進歩ではありません。 Claude 3 Sonnet (無料で利用できる中型モデル) と Claude 3 Haiku (小型で高速なモデル) は、同じく Anthropic によって開発され、現在それぞれ 4 位と 6 位に位置しています。

リーダーボードには、GPT-4-4 (0314 年 4 月の GPT-2023 の「オリジナル」バージョン)、GPT-4-0613、GPT-4-1106-preview、GPT-4 など、GPT-0125 のさまざまなバージョンが含まれています。 -4-プレビュー (最新の GPT-2024 Turbo モデルは 4 年 2023 月から API 経由で利用可能)。ランキングによると、Sonnet と Haiku はどちらもオリジナルの GPT-XNUMX よりも優れており、Sonnet は XNUMX 年 XNUMX 月に OpenAI によって発売された調整バージョンも上回っています。

これは、悲しいことに、現在トップ 10 に入っているオープンソース LLM は Qwen の 7 つだけであり、トップ 8 に入っている他のオープン モデルは Starling 7b と Mixtral 20xXNUMXB だけであることも意味します。

GPT-4 に対する Claude の利点の 3 つは、トークン コンテキストの容量と取得機能です。 Claude 200 Opus の公開バージョンは 1 個以上を処理し、組織はほぼ完璧な取得率で XNUMX 万個のトークンを処理できる制限付きバージョンがあると主張しています。これは、クロードが長いプロンプトを理解し、情報をより効果的に保持できることを意味します。 GPT-4ターボとの比較、128K トークンを処理し、長いプロンプトが表示されると取得機能が失われます。

クロード 3 オーパスと GPT-4 ターボの精度を再現します。 Anthropic と Greg Kamradt のデータを使用した復号化の画像
クロード 3 オーパスと GPT-4 ターボの精度を再現します。 Anthropic と Greg Kamradt のデータを使用した Decrypt の画像。

Googleの ジェミニアドバンスト AI アシスタントの分野でも注目を集めています。同社は、Google 製品スイートに 2TB のストレージと AI 機能を含むプランを、Chat GPT Plus サブスクリプション (月額 20 ドル) と同じ価格で提供しています。

無料の Gemini Pro は現在、GPT-4 Turbo と Claude 4 Sonnet の間で第 3 位にランクされています。最上位モデルの Gemini Ultra はテストできず、ランキングにもまだ掲載されていません。

による編集 ライアン・オザワ.

暗号ニュースを常に把握し、受信トレイで毎日更新を入手してください。

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?