Intelligenza generativa dei dati

Apple rilascia OpenELM, un LLM leggermente più accurato

Data:

Apple, normalmente non nota per la sua apertura, ha rilasciato un modello di intelligenza artificiale generativa chiamato OpenELM che apparentemente supera una serie di altri modelli linguistici addestrati su set di dati pubblici.

Non è molto, in confronto a OLMo, che ha debuttato a febbraio, OpenELM è più preciso del 2.36% utilizzando il doppio dei token di pre-addestramento. Ma forse è sufficiente per ricordare alla gente che Apple non si accontenta più di essere la tappezzeria del rave del settore dell'intelligenza artificiale.

L'affermazione di apertura di Apple deriva dalla sua decisione di rilasciare non solo il modello, ma il suo quadro di formazione e valutazione.

“Diversamente dalle pratiche precedenti che fornivano solo pesi del modello e codice di inferenza e pre-addestramento su set di dati privati, la nostra versione include il quadro completo per la formazione e la valutazione del modello linguistico su set di dati disponibili pubblicamente, inclusi registri di addestramento, checkpoint multipli e pre -configurazioni di formazione", spiegano undici ricercatori Apple nell'associato carta tecnica.

E diversamente dalla pratica accademica, gli indirizzi email degli autori non sono elencati. Lo attribuiamo all'interpretazione di apertura di Apple, che è in qualche modo paragonabile al non molto aperto OpenAI.

L'accompagnatore rilascio del software non è una licenza open source riconosciuta. Non è eccessivamente restrittivo, ma chiarisce che Apple si riserva il diritto di presentare una richiesta di brevetto se si ritiene che qualsiasi lavoro derivato basato su OpenELM violi i suoi diritti.

OpenELM utilizza una tecnica chiamata ridimensionamento a livello per allocare i parametri in modo più efficiente nel modello del trasformatore. Quindi, invece di avere ogni livello con lo stesso set di parametri, i livelli del trasformatore di OpenELM hanno configurazioni e parametri diversi. Il risultato è migliore precisione, mostrato nella percentuale di previsioni corrette dal modello nei test benchmark.

Ci è stato detto che OpenELM è stato pre-addestrato utilizzando il file Pigiama rosso set di dati da GitHub, un sacco di libri, Wikipedia, post di StackExchange, documenti ArXiv e altro ancora, e il Dolma set da Reddit, Wikibooks, Project Gutenberg e altro ancora. Il modello può essere utilizzato come ci si potrebbe aspettare: gli si dà un prompt e lui tenta di rispondere o di completarlo automaticamente.

Un aspetto degno di nota del rilascio è che è accompagnato da “codice per convertire i modelli nella libreria MLX per l’inferenza e la messa a punto sui dispositivi Apple”.

MLX è un framework rilasciato lo scorso anno per eseguire l'apprendimento automatico sul silicio Apple. La capacità di operare localmente sui dispositivi Apple, piuttosto che sulla rete, dovrebbe rendere OpenELM più interessante per gli sviluppatori.

“La versione OpenELM di Apple segna un progresso significativo per la comunità AI, offrendo un’elaborazione AI efficiente e on-device, ideale per app mobili e dispositivi IoT con potenza di calcolo limitata”, ha dichiarato Shahar Chen, CEO e co-fondatore di AI service biz Aquant. Il registro. “Ciò consente un processo decisionale rapido e locale, essenziale per qualsiasi cosa, dagli smartphone ai dispositivi domestici intelligenti, espandendo il potenziale dell’intelligenza artificiale nella tecnologia di tutti i giorni”.

Apple è ansiosa di mostrare i meriti della sua architettura di chip sviluppata internamente per l'apprendimento automatico, specificamente supportata nell'hardware da quando Cupertino ha introdotto il suo Motore Neurale nel 2017. Ciononostante OpenELM, sebbene possa ottenere punteggi più alti nei benchmark di precisione, non è all'altezza in termini di prestazioni.

"Nonostante la maggiore precisione di OpenELM per un conteggio di parametri simile, osserviamo che è più lento di OLMo", spiega il documento, citando test eseguiti utilizzando CUDA di Nvidia su Linux e la versione MLX di OpenELM su Apple Silicon.

La ragione del risultato tutt'altro che vittorioso, dicono gli esperti di Apple, è la loro “ingenua implementazione di Norma RMS", una tecnica per normalizzare i dati nell'apprendimento automatico. In futuro, intendono esplorare ulteriori ottimizzazioni.

OpenELM è disponibile in modelli preaddestrati e ottimizzati per le istruzioni con 270 milioni, 450 milioni, 1.1 miliardi e 3 miliardi di parametri. Coloro che lo utilizzano sono avvisati di esercitare la dovuta diligenza prima di provare il modello per qualsiasi cosa significativa.

"Il rilascio dei modelli OpenELM mira a potenziare e arricchire la comunità di ricerca aperta fornendo accesso a modelli linguistici all'avanguardia", afferma il documento. “Addestrati su set di dati disponibili al pubblico, questi modelli sono resi disponibili senza alcuna garanzia di sicurezza”. ®

spot_img

L'ultima intelligenza

spot_img

Parla con noi

Ciao! Come posso aiutarla?