Generativ dataintelligens

Apple släpper OpenELM, en lite mer exakt LLM

Datum:

Apple, normalt inte känt för sin öppenhet, har släppt en generativ AI-modell som heter OpenELM som tydligen överträffar en uppsättning andra språkmodeller som tränats på offentliga datamängder.

Det är inte mycket – jämfört med OLMo, som debuterade i februari, ÖppnaELM är 2.36 procent mer exakt samtidigt som du använder 2 gånger färre förträningspoletter. Men det räcker kanske för att påminna folk om att Apple inte längre nöjer sig med att vara väggblomman på branschens AI-rave.

Apples anspråk på öppenhet kommer från dess beslut att släppa inte bara modellen, utan dess utbildnings- och utvärderingsramverk.

"Med avvikelse från tidigare praxis som endast tillhandahåller modellvikter och slutledningskod, och förträning på privata datauppsättningar, inkluderar vår release det kompletta ramverket för utbildning och utvärdering av språkmodellen på allmänt tillgängliga datauppsättningar, inklusive träningsloggar, flera kontrollpunkter och pre -träningskonfigurationer, förklarar elva Apple-forskare i associerade teknisk papper.

Och avviker från akademisk praxis, är författarnas e-postadresser inte listade. Krita upp det till Apples tolkning av öppenhet, som är lite jämförbar med den inte särskilt öppna OpenAI.

Den medföljande programversion är inte en erkänd licens för öppen källkod. Det är inte onödigt restriktivt, men det gör klart att Apple förbehåller sig rätten att lämna in ett patentanspråk om något härlett verk baserat på OpenELM anses göra intrång i dess rättigheter.

OpenELM använder en teknik som kallas lagervis skalning för att allokera parametrar mer effektivt i transformatormodellen. Så istället för att varje lager har samma uppsättning parametrar, har OpenELMs transformatorlager olika konfigurationer och parametrar. Resultatet är bättre noggrannhet, visas i procentandelen korrekta förutsägelser från modellen i benchmarktest.

Vi får veta att OpenELM var förtränad med hjälp av Röd pyjamas dataset från GitHub, massor av böcker, Wikipedia, StackExchange-inlägg, ArXiv-artiklar och mer, och fylld set från Reddit, Wikibooks, Project Gutenberg och mer. Modellen kan användas som du kan förvänta dig: Du ger den en uppmaning och den försöker svara eller fylla i den automatiskt.

En anmärkningsvärd aspekt av utgåvan är att den åtföljs av "kod för att konvertera modeller till MLX-bibliotek för slutledning och finjustering på Apple-enheter."

MLX är ett ramverk som släpptes förra året för att köra maskininlärning på Apple silicon. Möjligheten att arbeta lokalt på Apple-enheter, snarare än över nätverket, borde göra OpenELM mer intressant för utvecklare.

"Apples OpenELM-utgåva markerar ett betydande framsteg för AI-communityt, och erbjuder effektiv AI-bearbetning på enheten idealisk för mobilappar och IoT-enheter med begränsad datorkraft," sa Shahar Chen, VD och medgrundare av AI service biz Aquant. Registret. "Detta möjliggör snabbt, lokalt beslutsfattande som är viktigt för allt från smartphones till smarta hemenheter, vilket utökar potentialen för AI i vardagsteknik."

Apple är angelägen om att visa fördelarna med sin egentillverkade chiparkitektur för maskininlärning, särskilt stödd i hårdvara sedan Cupertino introducerade sin Neuromotor 2017. Ändå kommer OpenELM, även om det kan få högre poäng på riktmärken för noggrannhet, inte desto mindre när det gäller prestanda.

"Trots OpenELMs högre noggrannhet för en liknande parameterräkning, observerar vi att den är långsammare än OLMo", förklarar tidningen och hänvisar till tester som körs med Nvidias CUDA på Linux samt MLX-versionen av OpenELM på Apple Silicon.

Anledningen till den mindre än segerrika visningen, säger Apples boffins, är deras "naiva implementering av RMSNorm", en teknik för att normalisera data i maskininlärning. I framtiden planerar de att utforska ytterligare optimeringar.

OpenELM finns i förtränade och instruktionstrimmade modeller med 270 miljoner, 450 miljoner, 1.1 miljarder och 3 miljarder parametrar. De som använder den uppmanas att utöva due diligence innan de provar modellen för något meningsfullt.

"Utgivningen av OpenELM-modeller syftar till att stärka och berika det öppna forskarsamhället genom att ge tillgång till toppmoderna språkmodeller", står det i tidningen. "Utbildade på allmänt tillgängliga datauppsättningar görs dessa modeller tillgängliga utan några säkerhetsgarantier." ®

plats_img

Senaste intelligens

plats_img

Chatta med oss

Hallå där! Hur kan jag hjälpa dig?