Inteligența generativă a datelor

Databricks susține că LLM open source depășește GPT-3.5

Data:

Platforma de analiză Databricks a lansat un model de limbă mare de bază cu sursă deschisă, în speranța că întreprinderile vor opta să-și folosească instrumentele pentru a se lansa în cursul LLM.

Compania, fondată în jurul Apache Spark, a publicat o mulțime de benchmark-uri susținând că LLM-ul său cu scop general – denumit DBRX – a învins rivalii open source în înțelegerea limbajului, programare și matematică. Dezvoltatorul a susținut, de asemenea, că a depășit GPT-3.5 proprietar OpenAI prin aceleași măsuri.

DBRX a fost dezvoltat de Mosaic AI, care Databricks achiziționate pentru 1.3 miliarde USD și instruit pe Nvidia DGX Cloud. Databricks susține că a optimizat DBRX pentru eficiență cu ceea ce numește o arhitectură mixture-of-experts (MoE) – în care mai multe rețele de experți sau cursanți împart o problemă.

Databricks a explicat că modelul posedă 132 de miliarde de parametri, dar doar 36 de miliarde sunt activi pe orice intrare.

Joel Minnick, vicepreședinte de marketing Databricks, a spus Registrul: „Acesta este un motiv important pentru care modelul este capabil să ruleze la fel de eficient, dar și uluitor de rapid. În termeni practici, dacă utilizați orice fel de chatbot-uri majore care există astăzi, probabil că sunteți obișnuit să așteptați și să urmăriți cum se generează răspunsul. Cu DBRX este aproape instantaneu.”

Dar performanța modelului în sine nu este esențial pentru Databricks. La urma urmei, afacerea face DBRX disponibil pentru gratuit pe GitHub și Fata îmbrățișată.

Databricks speră că clienții folosesc modelul ca bază pentru propriile LLM. Dacă se întâmplă acest lucru, ar putea îmbunătăți chatbot-urile clienților sau răspunsul la întrebările interne, arătând, de asemenea, cum a fost construit DBRX folosind instrumentele proprietare Databricks.

Databricks a creat setul de date din care a fost dezvoltat DBRX utilizând notebook-uri Apache Spark și Databricks pentru procesarea datelor, Unity Catalog pentru gestionarea și guvernanța datelor și MLflow pentru urmărirea experimentelor.

Minnick a dezvăluit că investiția întreprinderilor în LLM-uri a fost amânată de temerile legate de proprietatea și guvernanța terților. „Trebuie să transfere datele către terți, să nu dețină proprietatea asupra ponderilor modelului, să nu fii capabil să controlezi pe deplin guvernarea datelor de la un capăt la altul – acestea sunt lucruri care le încetinesc”, a explicat el.

„Ceea ce ne-am propus să construim a fost un model... extrem de eficient pe care întreprinderile îl pot folosi pentru a merge și a aduce în propriile aplicații pentru propriile lor cazuri de utilizare specifice.”

Hyoun Park, CEO și analist șef la Amalgam Insights, a observat că semnificația DBRX este că Databricks poate arăta modul în care a fost construit modelul, pas cu pas, ca proces pe care alte întreprinderi să-l urmărească și să-l ajusteze.

„Acea combinație de descendență, vizibilitate, repetabilitate și proprietate a modelului în reglarea, testarea și operaționalizarea modelelor de la capăt la capăt este importantă.”

Park a remarcat că a înțeles că Databricks a construit deja peste 50,000 de modele personalizate pentru clienți. „Este acea combinație de experiență de construire a modelelor și capacitatea de a face acest lucru la scară cu un model de înaltă performanță, la egalitate cu cele mai bune eforturi private și open source, care face ca acest anunț să fie remarcabil pentru mine din perspectiva IT de întreprindere.”

Știrile DBRX se desfășoară pe un fundal competitiv în schimbare pentru Databricks. Compania are un parteneriat strategic pe termen lung cu Microsoft, care a dus la Azure Databricks – în care utilizatorilor li se promite servicii de date integrate strâns legate de platforma cloud a gigantului Redmond.

Dar, de la oferta lansată în 2017, Microsoft s-a mutat pe piața de lakehouse a Databricks – unde utilizatorilor li se oferă depozitare de date și lacuri de date într-un singur mediu – și promite utilizatorilor LLM-uri de nivel enterprise cu ei 10 miliarde de dolari Parteneriat OpenAI. În mediul său Fabric, Microsoft poate oferi, de asemenea „oglindirea” din sistemele sale de baze de date tranzacționale Azure Cosmos DB și Azure SQL DB, oferind acces la servicii de analiză fără a muta datele.

O întrebare deschisă care planează asupra strategiilor atât ale Databricks, cât și ale Microsoft este când va sosi valul de investiții așteptate în tehnologiile LLM. În ianuarie, Gartner a prezis Cheltuielile întreprinderilor pentru tehnologie nu vor veni anul acesta și ar avea un impact redus asupra altor investiții IT. ®

spot_img

Ultimele informații

spot_img

Chat cu noi

Bună! Cu ce ​​​​vă pot ajuta?