Apple brengt OpenELM uit, een iets nauwkeurigere LLM

Apple, normaal gesproken niet bekend om zijn openheid, heeft een generatief AI-model uitgebracht, OpenELM genaamd, dat blijkbaar beter presteert dan een reeks andere taalmodellen die zijn getraind op openbare datasets.

Het is niet veel – vergeleken met OLMo, dat in februari debuteerde, OpenELM is 2.36 procent nauwkeuriger terwijl er 2x minder pretraining-tokens worden gebruikt. Maar het is misschien genoeg om mensen eraan te herinneren dat Apple er niet langer tevreden mee is het muurbloempje te zijn op de AI-rave in de industrie.

Apple's claim op openheid komt voort uit het besluit om niet alleen het model, maar ook het trainings- en evaluatiekader vrij te geven.

“Afwijkend van eerdere praktijken die alleen modelgewichten en gevolgtrekkingscode bieden, en vooraf trainen op privédatasets, bevat onze release het volledige raamwerk voor training en evaluatie van het taalmodel op openbaar beschikbare datasets, inclusief trainingslogboeken, meerdere controlepunten en pre -trainingsconfiguraties”, leggen elf Apple-onderzoekers uit in de bijbehorende technisch papier.

En in afwijking van de academische praktijk worden de e-mailadressen van de auteurs niet vermeld. Vergelijk het met Apple's interpretatie van openheid, die enigszins vergelijkbaar is met het niet erg open OpenAI.

De begeleidende software release is geen erkende open source-licentie. Het is niet overdreven beperkend, maar het maakt wel duidelijk dat Apple zich het recht voorbehoudt om een patentclaim in te dienen als afgeleid werk gebaseerd op OpenELM geacht wordt inbreuk te maken op zijn rechten.

OpenELM maakt gebruik van een techniek genaamd layer-wise scaling om parameters efficiënter toe te wijzen in het transformatormodel. Dus in plaats van dat elke laag dezelfde set parameters heeft, hebben de transformatorlagen van OpenELM verschillende configuraties en parameters. Het resultaat is beter nauwkeurigheid, weergegeven in het percentage correcte voorspellingen van het model in benchmarktests.

Er is ons verteld dat OpenELM vooraf is getraind met behulp van de Rode pyjama dataset van GitHub, een heleboel boeken, Wikipedia, StackExchange-berichten, ArXiv-artikelen en meer, en de Dolma ingesteld van Reddit, Wikibooks, Project Gutenberg en meer. Het model kan worden gebruikt zoals u zou verwachten: u geeft het een prompt en het probeert het te beantwoorden of automatisch aan te vullen.

Een opmerkelijk aspect van de release is dat deze vergezeld gaat van “code om modellen naar de MLX-bibliotheek te converteren voor gevolgtrekking en verfijning op Apple-apparaten.”

MLX is een raamwerk dat vorig jaar werd uitgebracht voor het uitvoeren van machine learning op Apple Silicon. De mogelijkheid om lokaal op Apple-apparaten te werken, in plaats van via het netwerk, zou OpenELM interessanter moeten maken voor ontwikkelaars.

“De OpenELM-release van Apple markeert een aanzienlijke vooruitgang voor de AI-gemeenschap en biedt efficiënte AI-verwerking op het apparaat, ideaal voor mobiele apps en IoT-apparaten met beperkte rekenkracht”, zegt Shahar Chen, CEO en medeoprichter van AI-servicebiz Aquant. Het register. “Dit maakt snelle, lokale besluitvorming mogelijk die essentieel is voor alles, van smartphones tot slimme apparaten voor thuisgebruik, waardoor het potentieel voor AI in de dagelijkse technologie wordt vergroot.”

Apple wil graag de voordelen laten zien van zijn eigen chiparchitectuur voor machinaal leren, die specifiek wordt ondersteund in hardware sinds Cupertino zijn eigen chiparchitectuur introduceerde Neurale motor in 2017. Desalniettemin schiet OpenELM, hoewel het misschien hoger scoort op nauwkeurigheidsbenchmarks, tekort qua prestaties.

"Ondanks de hogere nauwkeurigheid van OpenELM voor een vergelijkbaar aantal parameters, zien we dat het langzamer is dan OLMo", legt het artikel uit, waarbij tests worden aangehaald die zijn uitgevoerd met Nvidia's CUDA op Linux en de MLX-versie van OpenELM op Apple Silicon.

De reden voor de weinig overtuigende vertoning, zeggen de techneuten van Apple, is hun “naïeve implementatie van RMSNorm”, een techniek voor het normaliseren van gegevens in machine learning. In de toekomst zijn ze van plan verdere optimalisaties te onderzoeken.

OpenELM is beschikbaar in vooraf getrainde en op instructies afgestemde modellen met 270 miljoen, 450 miljoen, 1.1 miljard en 3 miljard parameters. Degenen die het gebruiken, worden gewaarschuwd om de nodige zorgvuldigheid te betrachten voordat ze het model voor iets zinvols uitproberen.

“De release van OpenELM-modellen heeft tot doel de open onderzoeksgemeenschap te versterken en te verrijken door toegang te bieden tot de modernste taalmodellen”, aldus de krant. “Deze modellen zijn getraind op publiek beschikbare datasets en worden zonder enige veiligheidsgarantie beschikbaar gesteld.” ®

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
Bron: https://go.theregister.com/feed/www.theregister.com/2024/04/24/apple_openelm_ai/

Generatieve data-intelligentie

Apple brengt OpenELM uit, een iets nauwkeurigere LLM

OpenAI kan Google en verwarring uitdagen met AI-aangedreven zoeken: rapporten – ontsleutelen

Crypto-walvissen pakken $2.9 miljard aan Bitcoin binnen in eendaagse waanzin

Laatste intelligentie

Nigeria staat op het punt om P2P-cryptohandel te verbieden vanwege zorgen over de nationale veiligheid

De ontvangst van web3-gaming verschuift van scepticisme naar enthousiasme: Shrapnel's Head of Studio

SEC onder Trump zou crypto-regulering ‘krachtig nastreven’ – zegt de voormalige toezichthouder

Grijswaarden Bitcoin ETF breekt verliesreeks, haalt $63 miljoen binnen – ontsleutelen

CISO Corner: Verizon DBIR-lessen; Micro-agressie op de werkplek; Schaduw-API's

CISO Corner: Verizon DBIR-lessen; Micro-agressie op de werkplek; Schaduw-API's

Chat met ons