Generative Datenintelligenz

Databricks behauptet, dass sein Open-Source-LLM GPT-3.5 übertrifft

Datum:

Die Analyseplattform Databricks hat ein grundlegendes Open-Source-Modell für große Sprachen auf den Markt gebracht und hofft, dass sich Unternehmen dafür entscheiden, ihre Tools zu nutzen, um auf den LLM-Zug aufzuspringen.

Das rund um Apache Spark gegründete Unternehmen veröffentlichte eine Reihe von Benchmarks, in denen behauptet wurde, dass sein Allzweck-LLM – genannt DBRX – Open-Source-Konkurrenten in den Bereichen Sprachverständnis, Programmierung und Mathematik geschlagen habe. Der Entwickler behauptete auch, dass es OpenAIs proprietäres GPT-3.5 in den gleichen Maßstäben geschlagen habe.

DBRX wurde von Mosaik AI entwickelt, das Databricks erworben für 1.3 Milliarden US-Dollar und Schulung in der Nvidia DGX Cloud. Databricks gibt an, DBRX mit einer sogenannten Mix-of-Experts-Architektur (MoE) auf Effizienz optimiert zu haben – bei der mehrere Expertennetzwerke oder Lernende ein Problem aufteilen.

Databricks erklärte, dass das Modell über 132 Milliarden Parameter verfügt, aber nur 36 Milliarden bei einer Eingabe aktiv sind.

Joel Minnick, Marketing-Vizepräsident von Databricks, sagte Das Register: „Das ist ein wichtiger Grund dafür, dass das Modell nicht nur so effizient, sondern auch unglaublich schnell läuft.“ Praktisch ausgedrückt: Wenn Sie die großen Chatbots verwenden, die es heute gibt, sind Sie es wahrscheinlich gewohnt, abzuwarten und zuzusehen, wie die Antwort generiert wird. Mit DBRX geschieht dies nahezu augenblicklich.“

Aber die Leistung des Modells selbst ist für Databricks nicht der Punkt. Schließlich stellt das Unternehmen DBRX zur Verfügung kostenlos auf GitHub und Gesicht umarmen.

Databricks hofft, dass Kunden das Modell als Grundlage für ihre eigenen LLMs nutzen. Wenn das passiert, könnte es Kunden-Chatbots oder die Beantwortung interner Fragen verbessern und gleichzeitig zeigen, wie DBRX mit den proprietären Tools von Databricks erstellt wurde.

Databricks hat den Datensatz, aus dem DBRX entwickelt wurde, mithilfe von Apache Spark- und Databricks-Notebooks für die Datenverarbeitung, Unity Catalog für Datenverwaltung und Governance sowie MLflow für die Experimentverfolgung zusammengestellt.

Minnick gab bekannt, dass Unternehmensinvestitionen in LLMs durch Ängste hinsichtlich der Eigentumsverhältnisse und der Governance Dritter verzögert wurden. „Daten an Dritte weitergeben zu müssen, kein Eigentum an den Modellgewichten zu haben, die End-to-End-Governance der Daten nicht vollständig kontrollieren zu können – das sind Dinge, die sie verlangsamen“, erklärte er.

„Unser Ziel war es, ein äußerst effizientes … Modell zu entwickeln, mit dem Unternehmen ihre eigenen Anwendungen für ihre eigenen spezifischen Anwendungsfälle integrieren können.“

Hyoun Park, CEO und Chefanalyst bei Amalgam Insights, stellte fest, dass die Bedeutung von DBRX darin besteht, dass Databricks Schritt für Schritt zeigen kann, wie das Modell erstellt wurde, und zwar als einen Prozess, den andere Unternehmen verfolgen und verfeinern können.

„Diese Kombination aus Herkunft, Sichtbarkeit, Wiederholbarkeit und Modellbesitz bei der durchgängigen Modelloptimierung, -prüfung und -operationalisierung ist wichtig.“

Park bemerkte, dass er wusste, dass Databricks bereits über 50,000 benutzerdefinierte Modelle für Kunden erstellt hatte. „Es ist diese Kombination aus Erfahrung in der Modellerstellung und der Fähigkeit, dies in großem Maßstab mit einem leistungsstarken Modell durchzuführen, das den besten privaten und Open-Source-Anstrengungen ebenbürtig ist, die diese Ankündigung für mich aus Sicht der Unternehmens-IT bemerkenswert macht.“

Die DBRX-Neuigkeiten spielen sich vor dem Hintergrund eines sich verändernden Wettbewerbsumfelds für Databricks ab. Das Unternehmen unterhält eine langfristige strategische Partnerschaft mit Microsoft, die zu Azure Databricks führte – wobei den Benutzern integrierte Datendienste versprochen werden, die eng mit der Cloud-Plattform des Redmond-Riesen verknüpft sind.

Doch seit das Angebot im Jahr 2017 eingeführt wurde, ist Microsoft in den Lakehouse-Markt von Databricks vorgedrungen – wo Benutzern Data Warehousing und Data Lakes in einer Umgebung angeboten werden – und verspricht Benutzern LLMs der Enterprise-Klasse mit Es sind 10 Milliarden Dollar OpenAI-Partnerschaft. In seiner Fabric-Umgebung Auch Microsoft kann anbieten „Spiegelung“ seiner transaktionalen Datenbanksysteme Azure Cosmos DB und Azure SQL DB und bietet Zugriff auf Analysedienste ohne Datenverschiebung.

Eine offene Frage über den Strategien von Databricks und Microsoft ist, wann die erwartete Flut an Investitionen in LLM-Technologien eintreffen wird. Im Januar, Gartner sagte voraus Unternehmensausgaben für die Technologie werden in diesem Jahr nicht anfallen und hätten kaum Auswirkungen auf andere IT-Investitionen. ®

spot_img

Neueste Intelligenz

spot_img

Chat mit uns

Hallo! Wie kann ich dir helfen?