Apple annab välja OpenELM-i, pisut täpsema LLM-i

Apple, mis pole tavaliselt oma avatuse poolest tuntud, on välja andnud generatiivse AI-mudeli nimega OpenELM, mis ilmselt ületab teiste avalike andmekogumitega koolitatud keelemudelite komplekti.

Seda pole palju – võrreldes OLMo, mis debüteeris veebruaris, OpenELM on 2.36 protsenti täpsem, kui kasutatakse 2x vähem treeningumärke. Kuid võib-olla piisab, kui meenutada inimestele, et Apple ei ole enam rahul tööstuse tehisintellekti rave müürilillega.

Apple'i avatusnõue tuleneb tema otsusest vabastada mitte ainult mudel, vaid ka selle koolitus- ja hindamisraamistik.

"Erinevalt varasematest tavadest, mis pakuvad ainult mudelite kaalu ja järelduskoodi ning eelkoolitust privaatsete andmekogumite jaoks, sisaldab meie väljalase täielikku raamistikku keelemudeli koolitamiseks ja hindamiseks avalikult kättesaadavates andmekogumites, sealhulgas koolituslogid, mitmed kontrollpunktid ja eeluuringud. -koolituskonfiguratsioonid,” selgitavad üksteist Apple’i teadlast tehniline paber.

Ja erinevalt akadeemilisest praktikast pole autorite e-posti aadresse loetletud. Võrrelge seda Apple'i tõlgendusega avatusest, mis on mõnevõrra võrreldav mitte eriti avatud OpenAI-ga.

Kaasnev tarkvara väljalase ei ole tunnustatud avatud lähtekoodiga litsents. See ei ole ülemäära piirav, kuid teeb selgeks, et Apple jätab endale õiguse esitada patendinõue, kui OpenELM-il põhinev tuletatud teos loetakse tema õigusi rikkuvaks.

OpenELM kasutab trafo mudelis parameetrite tõhusamaks eraldamiseks tehnikat, mida nimetatakse kihiliseks skaleerimiseks. Seega selle asemel, et igal kihil oleks samad parameetrid, on OpenELMi trafokihtidel erinevad konfiguratsioonid ja parameetrid. Tulemus on parem täpsus, mis on näidatud mudeli õigete ennustuste protsendina võrdlustestides.

Meile öeldi, et OpenELM oli selle kasutamiseks eelkoolitatud Punane pidžaama GitHubi andmekogum, hulk raamatuid, Wikipedia, StackExchange'i postitused, ArXivi paberid ja palju muud ning täidetud komplekt Redditist, Wikibooksist, Project Gutenbergist ja mujalt. Mudelit saab kasutada ootuspäraselt: annate sellele viipa ja see proovib sellele vastata või seda automaatselt täita.

Väljalaske üks tähelepanuväärne aspekt on see, et sellega on kaasas "kood mudelite teisendamiseks MLX teegiks, et Apple'i seadmetes järeldusi teha ja peenhäälestada".

MLX on eelmisel aastal välja antud raamistik masinõppe käitamiseks Apple'i ränil. Võimalus töötada kohapeal Apple'i seadmetes, mitte võrgu kaudu, peaks OpenELM-i arendajatele huvitavamaks muutma.

"Apple'i OpenELM-i väljalase tähistab tehisintellekti kogukonna jaoks olulist edasiminekut, pakkudes tõhusat seadmesisest tehisintellekti töötlemist, mis sobib ideaalselt mobiilsetele rakendustele ja piiratud arvutusvõimsusega asjade Interneti-seadmetele," ütles AI-teenuste äriettevõtte Aquant tegevjuht ja kaasasutaja Shahar Chen. Register. "See võimaldab kiiret kohalikku otsustamist, mis on hädavajalik kõige jaoks alates nutitelefonidest kuni nutikate koduseadmeteni, laiendades tehisintellekti potentsiaali igapäevases tehnoloogias."

Apple soovib näidata oma koduse kiibiarhitektuuri eeliseid masinõppe jaoks, mida on spetsiaalselt riistvara toetatud alates sellest ajast, kui Cupertino oma Neuraalne mootor 2017. aastal. Sellegipoolest on OpenELM, kuigi see võib täpsuse võrdlusnäitajatel saavutada kõrgemaid tulemusi, jõudluse osas madalam.

"Hoolimata OpenELM-i suuremast täpsusest sarnase parameetrite loendamisel, täheldame, et see on aeglasem kui OLMo," selgitab artikkel, viidates testidele, mis on tehtud Linuxis Nvidia CUDA-ga ja Apple Siliconil OpenELM-i MLX-versiooniga.

Vähem kui võiduka esituse põhjus, ütlevad Apple'i pätid, nende "naiivne rakendamine RMSNorm”, meetod andmete normaliseerimiseks masinõppes. Tulevikus kavatsevad nad uurida täiendavaid optimeerimisi.

OpenELM on saadaval eelkoolitatud ja juhistega häälestatud mudelitena 270 miljoni, 450 miljoni, 1.1 miljardi ja 3 miljardi parameetriga. Neid, kes seda kasutavad, hoiatatakse, et nad järgiksid hoolsuskohustust, enne kui proovivad mudelit millegi tähendusliku saavutamiseks.

"OpenELM-i mudelite avaldamise eesmärk on anda avatud teadusringkondadele võimalus ja rikastada seda, pakkudes juurdepääsu tipptasemel keelemudelitele," öeldakse dokumendis. "Need mudelid, mis on koolitatud avalikult kättesaadavate andmekogumite põhjal, tehakse kättesaadavaks ilma ohutustagatisteta." ®

SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
Allikas: https://go.theregister.com/feed/www.theregister.com/2024/04/24/apple_openelm_ai/

Generatiivne andmeluure

Apple annab välja OpenELM-i, pisut täpsema LLM-i

OpenAI võib AI-põhise otsinguga Google'ile ja segadusele väljakutse esitada: aruanded – dekrüpteerida

Krüptovaalad haaravad ühe päeva hullusega 2.9 miljardit dollarit Bitcoini

Uusim intelligentsus

Nigeeria kavatseb riikliku julgeolekuga seotud probleemide tõttu keelata P2P krüptokaubanduse

Web3 mängude vastuvõtt nihkub skeptilisuselt entusiasmile: Shrapneli stuudio juht

Trumpi alluvuses asuv SEC järgiks jõuliselt krüptoregulatsiooni, ütles endine regulaator

Halltoonides Bitcoini ETF kaotab kaotuse, teenib 63 miljonit dollarit – dekrüpteeri

CISO Corner: Verizon DBIR Lessons; Töökoha mikroagressioon; Shadow API-d

CISO Corner: Verizon DBIR Lessons; Töökoha mikroagressioon; Shadow API-d

Jututuba koos meiega