Generativ dataintelligens

Apple slipper OpenELM, en litt mer nøyaktig LLM

Dato:

Apple, som vanligvis ikke er kjent for sin åpenhet, har gitt ut en generativ AI-modell kalt OpenELM som tilsynelatende overgår et sett med andre språkmodeller som er trent på offentlige datasett.

Det er ikke mye – sammenlignet med OLMo, som debuterte i februar, OpenELM er 2.36 prosent mer nøyaktig mens du bruker 2 ganger færre fortreningsbrikker. Men det er kanskje nok til å minne folk på at Apple ikke lenger er fornøyd med å være veggblomsten på industriens AI-rave.

Apples påstand om åpenhet kommer fra beslutningen om å gi ut ikke bare modellen, men også rammeverket for opplæring og evaluering.

"Med avvik fra tidligere praksis som bare gir modellvekter og slutningskode, og pre-train på private datasett, inkluderer vår utgivelse det komplette rammeverket for opplæring og evaluering av språkmodellen på offentlig tilgjengelige datasett, inkludert treningslogger, flere sjekkpunkter og pre -treningskonfigurasjoner,” forklarer elleve Apple-forskere i den tilknyttede teknisk papir.

Og avvikende fra akademisk praksis, er ikke forfatternes e-postadresser oppført. Kritt det opp til Apples tolkning av åpenhet, som er litt sammenlignbar med den ikke veldig åpne OpenAI.

Den medfølgende programvareutgivelse er ikke en anerkjent åpen kildekode-lisens. Det er ikke unødvendig restriktivt, men det gjør det klart at Apple forbeholder seg retten til å sende inn et patentkrav hvis noe avledet arbeid basert på OpenELM anses å krenke rettighetene.

OpenELM bruker en teknikk som kalles lagvis skalering for å allokere parametere mer effektivt i transformatormodellen. Så i stedet for at hvert lag har samme sett med parametere, har OpenELMs transformatorlag forskjellige konfigurasjoner og parametere. Resultatet er bedre nøyaktighet, vist i prosentandelen av riktige spådommer fra modellen i benchmark-tester.

Vi blir fortalt at OpenELM ble forhåndsopplært ved å bruke Rød pyjamas datasett fra GitHub, massevis av bøker, Wikipedia, StackExchange-innlegg, ArXiv-artikler og mer, og fylt sett fra Reddit, Wikibooks, Project Gutenberg og mer. Modellen kan brukes som du kanskje forventer: Du gir den en melding, og den prøver å svare eller automatisk fullføre den.

Et bemerkelsesverdig aspekt ved utgivelsen er at den er ledsaget av "kode for å konvertere modeller til MLX-bibliotek for inferens og finjustering på Apple-enheter."

MLX er et rammeverk utgitt i fjor for å kjøre maskinlæring på Apples silisium. Muligheten til å operere lokalt på Apple-enheter, snarere enn over nettverket, bør gjøre OpenELM mer interessant for utviklere.

"Apples OpenELM-utgivelse markerer et betydelig fremskritt for AI-fellesskapet, og tilbyr effektiv AI-behandling på enheten som er ideell for mobilapper og IoT-enheter med begrenset datakraft," sa Shahar Chen, administrerende direktør og medgründer av AI service biz Aquant. Registeret. "Dette muliggjør rask, lokal beslutningstaking som er avgjørende for alt fra smarttelefoner til smarte hjemmeenheter, og utvider potensialet for AI i dagligdags teknologi."

Apple er opptatt av å vise fordelene med sin hjemmelagde brikkearkitektur for maskinlæring, spesielt støttet i maskinvare siden Cupertino introduserte sin Neural Engine i 2017. Ikke desto mindre kommer OpenELM til kort når det gjelder ytelse, selv om den kan skåre høyere på benchmarks for nøyaktighet.

"Til tross for OpenELMs høyere nøyaktighet for en lignende parametertelling, observerer vi at den er tregere enn OLMo," forklarer avisen, og siterer tester som kjøres med Nvidias CUDA på Linux, så vel som MLX-versjonen av OpenELM på Apple Silicon.

Årsaken til den mindre seirende visningen, sier Apples boffins, er deres "naive implementering av RMSNorm", en teknikk for å normalisere data i maskinlæring. I fremtiden planlegger de å utforske ytterligere optimaliseringer.

OpenELM er tilgjengelig i forhåndstrente og instruksjonsinnstilte modeller med 270 millioner, 450 millioner, 1.1 milliarder og 3 milliarder parametere. De som bruker den blir advart om å utvise due diligence før de prøver modellen for noe meningsfullt.

"Utgivelsen av OpenELM-modeller har som mål å styrke og berike det åpne forskningsmiljøet ved å gi tilgang til toppmoderne språkmodeller," heter det i avisen. "Opplært på offentlig tilgjengelige datasett, er disse modellene gjort tilgjengelige uten noen sikkerhetsgarantier." ®

spot_img

Siste etterretning

spot_img

Chat med oss

Hei der! Hvordan kan jeg hjelpe deg?