Generativní datová inteligence

Databricks tvrdí, že její open source LLM přechytračí GPT-3.5

Datum:

Analytická platforma Databricks spustila základní velký jazykový model s otevřeným zdrojovým kódem a doufá, že se podniky rozhodnou použít její nástroje, aby naskočily do rozjetého vlaku LLM.

Biznis, založený kolem Apache Spark, publikoval spoustu benchmarků, které tvrdily, že jeho univerzální LLM – nazvaný DBRX – porazilo open source rivaly v porozumění jazyku, programování a matematice. Vývojář také tvrdil, že ve stejných měřítcích porazil proprietární GPT-3.5 OpenAI.

DBRX byl vyvinut společností Mosaic AI, která Databrick získané za 1.3 miliardy dolarů a vyškoleni na Nvidia DGX Cloud. Databricks tvrdí, že optimalizovala DBRX pro efektivitu s tím, co nazývá architekturou mix-of-experts (MoE) – kde několik expertních sítí nebo studentů rozděluje problém.

Databricks vysvětlil, že model má 132 miliard parametrů, ale pouze 36 miliard je aktivních na jednom vstupu.

Řekl to Joel Minnick, marketingový viceprezident Databricks Registru: „To je velký důvod, proč je model schopen běžet stejně efektivně jako on, ale také běží neuvěřitelně rychle. Prakticky řečeno, pokud používáte jakýkoli druh velkých chatbotů, kteří dnes existují, pravděpodobně jste zvyklí čekat a sledovat, jak se generuje odpověď. S DBRX je to téměř okamžité.“

Ale výkon samotného modelu není pro Databricks bodem. Podnikem je koneckonců zpřístupnění DBRX zdarma na GitHubu a Objímání obličeje.

Databricks doufá, že zákazníci použijí model jako základ pro své vlastní LLM. Pokud k tomu dojde, může to zlepšit zákaznické chatboty nebo interní odpovědi na otázky a zároveň ukázat, jak byl DBRX vytvořen pomocí proprietárních nástrojů Databricks.

Databricks dal dohromady datovou sadu, ze které byl DBRX vyvinut, pomocí notebooků Apache Spark a Databricks pro zpracování dat, Unity Catalog pro správu a správu dat a MLflow pro sledování experimentů.

Minnick odhalil, že podnikové investice do LLM byly zpožděny kvůli obavám z vlastnictví a správy třetích stran. „Potřeba přesouvat data třetím stranám, nemít vlastnictví nad váhami modelu, neschopnost plně kontrolovat správu dat od začátku do konce – to jsou věci, které je zpomalují,“ vysvětlil.

"To, co jsme se rozhodli vybudovat, byl extrémně efektivní... model, který mohou podniky použít k tomu, aby vstoupily do svých vlastních aplikací pro své vlastní specifické případy použití."

Hyoun Park, generální ředitel a hlavní analytik společnosti Amalgam Insights, si všiml, že význam DBRX spočívá v tom, že Databricks může ukázat, jak byl model vytvořen, krok za krokem, jako proces, který mohou ostatní podniky sledovat a dolaďovat.

"Tato kombinace linie, viditelnosti, opakovatelnosti a vlastnictví modelu při ladění, testování a provozuschopnosti modelu od začátku do konce je důležitá."

Park poznamenal, že pochopil, že Databricks již pro klienty postavil přes 50,000 XNUMX vlastních modelů. "Právě tato kombinace zkušeností s vytvářením modelů a schopnosti dělat to ve velkém měřítku s vysoce výkonným modelem na stejné úrovni jako nejlepší soukromé a open source snahy, díky nimž je toto oznámení pro mě pozoruhodné z pohledu podnikového IT."

Novinky DBRX se odehrávají v měnícím se konkurenčním prostředí pro Databricks. Tento podnik má dlouhodobé strategické partnerství s Microsoftem, jehož výsledkem je Azure Databricks – kde jsou uživatelům slíbeny integrované datové služby úzce propojené s cloudovou platformou redmondského giganta.

Od té doby, co byla nabídka spuštěna v roce 2017, se Microsoft přesunul na trh Lakehouse společnosti Databricks – kde jsou uživatelům nabízeny datové sklady a datová jezera v jednom prostředí – a slibuje uživatelům podnikové LLM s jeho 10 miliard dolarů Partnerství OpenAI. Ve svém Fabric prostředí Microsoft může také nabídnout „zrcadlení“ ze svých transakčních databázových systémů Azure Cosmos DB a Azure SQL DB, které nabízí přístup k analytickým službám bez přesouvání dat.

Otevřenou otázkou visící nad strategiemi Databricks i Microsoftu je, kdy dorazí záplava očekávaných investic do technologií LLM. V lednu, Gartner předpověděl Podnikové výdaje na technologii letos nepřijdou a budou mít malý dopad na další investice do IT. ®

spot_img

Nejnovější inteligence

spot_img