Generatieve data-intelligentie

Apple brengt OpenELM uit, een iets nauwkeurigere LLM

Datum:

Apple, normaal gesproken niet bekend om zijn openheid, heeft een generatief AI-model uitgebracht, OpenELM genaamd, dat blijkbaar beter presteert dan een reeks andere taalmodellen die zijn getraind op openbare datasets.

Het is niet veel โ€“ vergeleken met OLMo, dat in februari debuteerde, OpenELM is 2.36 procent nauwkeuriger terwijl er 2x minder pretraining-tokens worden gebruikt. Maar het is misschien genoeg om mensen eraan te herinneren dat Apple er niet langer tevreden mee is het muurbloempje te zijn op de AI-rave in de industrie.

Apple's claim op openheid komt voort uit het besluit om niet alleen het model, maar ook het trainings- en evaluatiekader vrij te geven.

โ€œAfwijkend van eerdere praktijken die alleen modelgewichten en gevolgtrekkingscode bieden, en vooraf trainen op privรฉdatasets, bevat onze release het volledige raamwerk voor training en evaluatie van het taalmodel op openbaar beschikbare datasets, inclusief trainingslogboeken, meerdere controlepunten en pre -trainingsconfiguratiesโ€, leggen elf Apple-onderzoekers uit in de bijbehorende technisch papier.

En in afwijking van de academische praktijk worden de e-mailadressen van de auteurs niet vermeld. Vergelijk het met Apple's interpretatie van openheid, die enigszins vergelijkbaar is met het niet erg open OpenAI.

De begeleidende software release is geen erkende open source-licentie. Het is niet overdreven beperkend, maar het maakt wel duidelijk dat Apple zich het recht voorbehoudt om een โ€‹โ€‹patentclaim in te dienen als afgeleid werk gebaseerd op OpenELM geacht wordt inbreuk te maken op zijn rechten.

OpenELM maakt gebruik van een techniek genaamd layer-wise scaling om parameters efficiรซnter toe te wijzen in het transformatormodel. Dus in plaats van dat elke laag dezelfde set parameters heeft, hebben de transformatorlagen van OpenELM verschillende configuraties en parameters. Het resultaat is beter nauwkeurigheid, weergegeven in het percentage correcte voorspellingen van het model in benchmarktests.

Er is ons verteld dat OpenELM vooraf is getraind met behulp van de Rode pyjama dataset van GitHub, een heleboel boeken, Wikipedia, StackExchange-berichten, ArXiv-artikelen en meer, en de Dolma ingesteld van Reddit, Wikibooks, Project Gutenberg en meer. Het model kan worden gebruikt zoals u zou verwachten: u geeft het een prompt en het probeert het te beantwoorden of automatisch aan te vullen.

Een opmerkelijk aspect van de release is dat deze vergezeld gaat van โ€œcode om modellen naar de MLX-bibliotheek te converteren voor gevolgtrekking en verfijning op Apple-apparaten.โ€

MLX is een raamwerk dat vorig jaar werd uitgebracht voor het uitvoeren van machine learning op Apple Silicon. De mogelijkheid om lokaal op Apple-apparaten te werken, in plaats van via het netwerk, zou OpenELM interessanter moeten maken voor ontwikkelaars.

โ€œDe OpenELM-release van Apple markeert een aanzienlijke vooruitgang voor de AI-gemeenschap en biedt efficiรซnte AI-verwerking op het apparaat, ideaal voor mobiele apps en IoT-apparaten met beperkte rekenkrachtโ€, zegt Shahar Chen, CEO en medeoprichter van AI-servicebiz Aquant. Het register. โ€œDit maakt snelle, lokale besluitvorming mogelijk die essentieel is voor alles, van smartphones tot slimme apparaten voor thuisgebruik, waardoor het potentieel voor AI in de dagelijkse technologie wordt vergroot.โ€

Apple wil graag de voordelen laten zien van zijn eigen chiparchitectuur voor machinaal leren, die specifiek wordt ondersteund in hardware sinds Cupertino zijn eigen chiparchitectuur introduceerde Neurale motor in 2017. Desalniettemin schiet OpenELM, hoewel het misschien hoger scoort op nauwkeurigheidsbenchmarks, tekort qua prestaties.

"Ondanks de hogere nauwkeurigheid van OpenELM voor een vergelijkbaar aantal parameters, zien we dat het langzamer is dan OLMo", legt het artikel uit, waarbij tests worden aangehaald die zijn uitgevoerd met Nvidia's CUDA op Linux en de MLX-versie van OpenELM op Apple Silicon.

De reden voor de weinig overtuigende vertoning, zeggen de techneuten van Apple, is hun โ€œnaรฏeve implementatie van RMSNormโ€, een techniek voor het normaliseren van gegevens in machine learning. In de toekomst zijn ze van plan verdere optimalisaties te onderzoeken.

OpenELM is beschikbaar in vooraf getrainde en op instructies afgestemde modellen met 270 miljoen, 450 miljoen, 1.1 miljard en 3 miljard parameters. Degenen die het gebruiken, worden gewaarschuwd om de nodige zorgvuldigheid te betrachten voordat ze het model voor iets zinvols uitproberen.

โ€œDe release van OpenELM-modellen heeft tot doel de open onderzoeksgemeenschap te versterken en te verrijken door toegang te bieden tot de modernste taalmodellenโ€, aldus de krant. โ€œDeze modellen zijn getraind op publiek beschikbare datasets en worden zonder enige veiligheidsgarantie beschikbaar gesteld.โ€ ยฎ

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?