Generativna podatkovna inteligenca

Apple izda OpenELM, nekoliko natančnejšo LLM

Datum:

Apple, ki običajno ni znan po svoji odprtosti, je izdal generativni model umetne inteligence, imenovan OpenELM, ki očitno prekaša nabor drugih jezikovnih modelov, usposobljenih za javne nize podatkov.

Ni veliko – v primerjavi z OLMo, ki je debitiral februarja, OpenELM je 2.36 odstotka bolj natančen, medtem ko uporablja 2x manj žetonov pred usposabljanjem. Toda to je morda dovolj, da opomni ljudi, da Apple ni več zadovoljen s tem, da bi bil le mrk v industriji AI.

Appleova trditev o odprtosti izhaja iz njegove odločitve, da izda ne le model, ampak tudi okvir za usposabljanje in ocenjevanje.

»V nasprotju s prejšnjimi praksami, ki zagotavljajo samo uteži modela in kodo sklepanja ter predhodno usposabljanje na zasebnih nizih podatkov, naša izdaja vključuje celoten okvir za usposabljanje in vrednotenje jezikovnega modela na javno dostopnih nizih podatkov, vključno z dnevniki usposabljanja, več kontrolnimi točkami in pred -konfiguracije usposabljanja,« pojasnjuje enajst Applovih raziskovalcev v združenju tehnični papir.

In zaradi odstopanja od akademske prakse e-poštni naslovi avtorjev niso navedeni. Pripišite ga Applovi interpretaciji odprtosti, ki je nekoliko primerljiva z ne zelo odprtim OpenAI.

Spremljevalni izdaja programske opreme ni priznana odprtokodna licenca. Ni neupravičeno omejujoč, vendar pojasnjuje, da si Apple pridržuje pravico do vložitve patentnega zahtevka, če se ugotovi, da katero koli izvedeno delo, ki temelji na OpenELM, krši njegove pravice.

OpenELM uporablja tehniko, imenovano skaliranje po plasteh, za učinkovitejšo dodelitev parametrov v modelu transformatorja. Namesto da bi imela vsaka plast enak nabor parametrov, imajo transformatorske plasti OpenELM različne konfiguracije in parametre. Rezultat je boljši natančnost, prikazano v odstotku pravilnih napovedi iz modela v primerjalnih testih.

Povedali so nam, da je bil OpenELM vnaprej usposobljen za uporabo Rdeča pižama nabor podatkov iz GitHuba, ogromno knjig, Wikipedije, objav StackExchange, dokumentov ArXiv in še več ter polnjene niz iz Reddita, Wikibooks, Project Gutenberg itd. Model je mogoče uporabiti, kot morda pričakujete: daste mu poziv, on pa poskuša odgovoriti ali ga samodejno dokončati.

Eden omembe vreden vidik izdaje je, da jo spremlja "koda za pretvorbo modelov v knjižnico MLX za sklepanje in natančno nastavitev na napravah Apple."

MLX je lansko leto izdano ogrodje za izvajanje strojnega učenja na Apple siliciju. Zaradi zmožnosti lokalnega delovanja na napravah Apple, namesto prek omrežja, bo OpenELM bolj zanimiv za razvijalce.

"Applova izdaja OpenELM pomeni pomemben napredek za skupnost umetne inteligence, saj ponuja učinkovito obdelavo umetne inteligence v napravi, idealno za mobilne aplikacije in naprave IoT z omejeno računalniško močjo," je povedal Shahar Chen, izvršni direktor in soustanovitelj podjetja za storitve umetne inteligence Aquant. Register. "To omogoča hitro lokalno odločanje, ki je bistveno za vse, od pametnih telefonov do pametnih domačih naprav, s čimer se razširi potencial za AI v vsakodnevni tehnologiji."

Apple želi pokazati prednosti svoje domače arhitekture čipov za strojno učenje, posebej podprte v strojni opremi, odkar je Cupertino predstavil Neuralni motor leta 2017. Kljub temu je OpenELM morda dosegel višjo oceno pri merilih natančnosti, vendar je premajhen v smislu zmogljivosti.

»Kljub večji natančnosti OpenELM za podobno število parametrov opažamo, da je počasnejši od OLMo,« pojasnjuje članek in navaja teste, izvedene z uporabo Nvidijinega CUDA na Linuxu in različico MLX OpenELM na Apple Silicon.

Razlog za manj kot zmagovit prikaz, pravijo Applovi boffini, je njihova »naivna implementacija RMSNorm,« tehnika za normalizacijo podatkov v strojnem učenju. V prihodnosti nameravajo raziskati nadaljnje optimizacije.

OpenELM je na voljo v vnaprej pripravljenih in z navodili prilagojenih modelih z 270 milijoni, 450 milijoni, 1.1 milijarde in 3 milijardami parametrov. Tisti, ki ga uporabljajo, so opozorjeni, naj bodo skrbni, preden preizkusijo model za kar koli pomembnega.

"Namen izdaje modelov OpenELM je opolnomočiti in obogatiti odprto raziskovalno skupnost z zagotavljanjem dostopa do najsodobnejših jezikovnih modelov," piše v prispevku. "Usposobljeni na javno dostopnih zbirkah podatkov so ti modeli na voljo brez kakršnih koli varnostnih zagotovil." ®

spot_img

Najnovejša inteligenca

spot_img

Klepetajte z nami

Zdravo! Kako vam lahko pomagam?