生成的データ インテリジェンス

Databricks は、オープンソース LLM が GPT-3.5 を上回ると主張しています

日付:

分析プラットフォーム Databricks は、企業がそのツールを使用して LLM の時流に乗ることを期待して、オープンソースの基本的な大規模言語モデルを立ち上げました。

Apache Spark を中心に設立されたこのビジネスは、DBRX と呼ばれる汎用 LLM が言語理解、プログラミング、数学の点でオープンソースのライバルに勝ると主張する多数のベンチマークを公開しました。開発者はまた、同じ基準で OpenAI 独自の GPT-3.5 を上回ったと主張しました。

DBRX は Mosaic AI によって開発されました。 データブリックを取得しました 1.3 億ドルで、Nvidia DGX Cloud でトレーニングされました。 Databricks は、複数の専門家ネットワークまたは学習者が問題を分割する、専門家混合 (MoE) アーキテクチャと呼ばれるものを使用して効率を高めるために DBRX を最適化したと主張しています。

Databricks 氏は、このモデルには 132 億個のパラメーターがあるが、36 つの入力でアクティブになるのは XNUMX 億個だけであると説明しました。

Databricks マーケティング副社長の Joel Minnick 氏は次のように述べています。 登録: 「それが、このモデルがこれほど効率的に実行できるだけでなく、驚くほど高速に実行できる大きな理由です。実際のところ、現在世に出ている主要なチャットボットを使用している場合は、おそらく、回答が生成されるのを待って見守ることに慣れているでしょう。 DBRX を使用すると、ほぼ瞬時に完了します。」

ただし、モデル自体のパフォーマンスは Databricks にとって重要ではありません。結局のところ、ビジネスの目的は、DBRX を次の目的で利用できるようにすることです。 GitHub で無料 & ハグ顔.

Databricks は、顧客がこのモデルを独自の LLM の基礎として使用することを望んでいます。そうなれば、顧客のチャットボットや社内の質問応答が改善される可能性があると同時に、Databricks 独自のツールを使用して DBRX がどのように構築されたかも示される可能性があります。

Databricks は、データ処理に Apache Spark と Databricks ノートブック、データ管理とガバナンスに Unity Catalog、実験追跡に MLflow を使用して、DBRX の開発元となったデータセットをまとめました。

ミニク氏は、サードパーティの所有権とガバナンスに対する懸念により、企業のLLMへの投資が遅れていることを明らかにした。 「データをサードパーティに移さなければならないこと、モデルの重みに対する所有権を持たないこと、データのガバナンスをエンドツーエンドで完全に制御できないこと、これらが速度を低下させる要因です」と彼は説明しました。

「私たちが構築しようとしたのは、企業が独自の特定のユースケースに合わせて独自のアプリケーションに導入するために使用できる、非常に効率的なモデルでした。」

Amalgam Insights の CEO 兼主任アナリストである Hyun Park 氏は、DBRX の重要性は、Databricks がモデルがどのように構築されたかを、他の企業がフォローして微調整するためのプロセスとして段階的に表示できることであると述べました。

「エンドツーエンドのモデルのチューニング、テスト、運用化における系統、可視性、再現性、モデルの所有権の組み合わせが重要です。」

Park 氏は、Databricks がクライアント向けにすでに 50,000 を超えるカスタム モデルを構築していることを理解していると述べました。 「モデル構築の経験と、最高の民間およびオープンソースの取り組みと同等の高性能モデルを大規模に実行できる能力の組み合わせこそが、この発表をエンタープライズ IT の観点から私にとって注目すべきものにしているのです。」

DBRX ニュースは、Databricks の競争環境の変化を背景に展開されます。この業界は Microsoft と長期的な戦略的パートナーシップを結んでおり、その結果、Azure Databricks が誕生しました。ユーザーは、レドモンドの巨人のクラウド プラットフォームと緊密に連携した統合データ サービスが約束されています。

しかし、2017 年にこのサービスが開始されて以来、Microsoft は Databricks のレイクハウス市場に参入しており、ユーザーには XNUMX つの環境でデータ ウェアハウジングとデータ レイクが提供されており、エンタープライズ グレードの LLM をユーザーに約束しています。 その10億ドル OpenAI パートナーシップ。ファブリック環境では、 マイクロソフトも提供できます トランザクション データベース システム Azure Cosmos DB および Azure SQL DB からの「ミラーリング」により、データを移動せずに分析サービスへのアクセスを提供します。

Databricks と Microsoft の両方の戦略にかかっている未解決の疑問は、LLM テクノロジーへの予想される大量の投資がいつ到着するかということです。 1月に、 ガートナーの予測 このテクノロジーに対する企業の支出は今年は予定されておらず、他の IT 投資への影響はほとんどないでしょう。 ®

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?