Generativ dataintelligens

Apple frigiver OpenELM, en lidt mere præcis LLM

Dato:

Apple, der normalt ikke er kendt for sin åbenhed, har udgivet en generativ AI-model kaldet OpenELM, som tilsyneladende overgår et sæt andre sprogmodeller, der er trænet på offentlige datasæt.

Det er ikke meget – i forhold til OLMo, der debuterede i februar, OpenELM er 2.36 procent mere præcis, mens du bruger 2x færre fortrænings-tokens. Men det er måske nok til at minde folk om, at Apple ikke længere er tilfreds med at være vægblomsten i branchens AI-rave.

Apples påstand om åbenhed kommer fra dets beslutning om at frigive ikke kun modellen, men også dens trænings- og evalueringsramme.

"Idet vi afviger fra tidligere praksis, der kun giver modelvægte og slutningskode og præ-train på private datasæt, inkluderer vores udgivelse den komplette ramme for træning og evaluering af sprogmodellen på offentligt tilgængelige datasæt, herunder træningslogfiler, flere kontrolpunkter og præstationer. -træningskonfigurationer,” forklarer elleve Apple-forskere i den tilknyttede teknisk papir.

Og afviger fra akademisk praksis, er forfatternes e-mailadresser ikke anført. Kald det op til Apples fortolkning af åbenhed, som er lidt sammenlignelig med den ikke særlig åbne OpenAI.

Den ledsagende softwareudgivelse er ikke en anerkendt open source-licens. Det er ikke unødigt restriktivt, men det gør det klart, at Apple forbeholder sig retten til at indgive et patentkrav, hvis noget afledt arbejde baseret på OpenELM anses for at krænke dets rettigheder.

OpenELM bruger en teknik kaldet lagvis skalering til at allokere parametre mere effektivt i transformermodellen. Så i stedet for at hvert lag har det samme sæt af parametre, har OpenELMs transformerlag forskellige konfigurationer og parametre. Resultatet er bedre nøjagtighed, vist i procentdelen af ​​korrekte forudsigelser fra modellen i benchmarktests.

Vi får at vide, at OpenELM blev fortrænet ved hjælp af Rød Pyjamas datasæt fra GitHub, et væld af bøger, Wikipedia, StackExchange-indlæg, ArXiv-papirer og mere, og fyldt sæt fra Reddit, Wikibooks, Project Gutenberg og mere. Modellen kan bruges, som du kunne forvente: Du giver den en prompt, og den forsøger at besvare eller automatisk udfylde den.

Et bemærkelsesværdigt aspekt af udgivelsen er, at den er ledsaget af "kode til at konvertere modeller til MLX-bibliotek til inferens og finjustering på Apple-enheder."

MLX er en ramme udgivet sidste år til at køre maskinlæring på Apple silicium. Muligheden for at operere lokalt på Apple-enheder, snarere end over netværket, burde gøre OpenELM mere interessant for udviklere.

"Apples OpenELM-udgivelse markerer et betydeligt fremskridt for AI-fællesskabet, der tilbyder effektiv, on-device AI-behandling ideel til mobile apps og IoT-enheder med begrænset computerkraft," fortalte Shahar Chen, CEO og medstifter af AI service biz Aquant, Registret. "Dette muliggør hurtig, lokal beslutningstagning, der er afgørende for alt fra smartphones til smarte hjemmeenheder, hvilket udvider potentialet for kunstig intelligens i dagligdags teknologi."

Apple er opsat på at vise fordelene ved sin hjemmelavede chip-arkitektur til maskinlæring, der er specifikt understøttet i hardware, siden Cupertino introducerede sin Neurale motor i 2017. Ikke desto mindre kommer OpenELM, selvom det muligvis scorer højere på nøjagtighedsbenchmarks, til kort med hensyn til ydeevne.

"På trods af OpenELM's højere nøjagtighed for en lignende parametertælling, observerer vi, at den er langsommere end OLMo," forklarer avisen og citerer tests, der er kørt med Nvidias CUDA på Linux samt MLX-versionen af ​​OpenELM på Apple Silicon.

Årsagen til den mindre end sejrrige fremvisning, siger Apples boffins, er deres "naive implementering af RMSNorm," en teknik til at normalisere data i maskinlæring. I fremtiden planlægger de at udforske yderligere optimeringer.

OpenELM er tilgængelig i fortrænede og instruktionstunede modeller med 270 millioner, 450 millioner, 1.1 milliarder og 3 milliarder parametre. De, der bruger det, advares om at udvise rettidig omhu, før de prøver modellen for noget meningsfuldt.

"Udgivelsen af ​​OpenELM-modeller har til formål at styrke og berige det åbne forskningssamfund ved at give adgang til avancerede sprogmodeller," står der i papiret. "Uddannet på offentligt tilgængelige datasæt, er disse modeller gjort tilgængelige uden nogen sikkerhedsgarantier." ®

spot_img

Seneste efterretninger

spot_img

Chat med os

Hej! Hvordan kan jeg hjælpe dig?