Generatiivne andmeluure

Apple annab välja OpenELM-i, pisut täpsema LLM-i

kuupäev:

Apple, mis pole tavaliselt oma avatuse poolest tuntud, on välja andnud generatiivse AI-mudeli nimega OpenELM, mis ilmselt ületab teiste avalike andmekogumitega koolitatud keelemudelite komplekti.

Seda pole palju – võrreldes OLMo, mis debüteeris veebruaris, OpenELM on 2.36 protsenti täpsem, kui kasutatakse 2x vähem treeningumärke. Kuid võib-olla piisab, kui meenutada inimestele, et Apple ei ole enam rahul tööstuse tehisintellekti rave müürilillega.

Apple'i avatusnõue tuleneb tema otsusest vabastada mitte ainult mudel, vaid ka selle koolitus- ja hindamisraamistik.

"Erinevalt varasematest tavadest, mis pakuvad ainult mudelite kaalu ja järelduskoodi ning eelkoolitust privaatsete andmekogumite jaoks, sisaldab meie väljalase täielikku raamistikku keelemudeli koolitamiseks ja hindamiseks avalikult kättesaadavates andmekogumites, sealhulgas koolituslogid, mitmed kontrollpunktid ja eeluuringud. -koolituskonfiguratsioonid,” selgitavad üksteist Apple’i teadlast tehniline paber.

Ja erinevalt akadeemilisest praktikast pole autorite e-posti aadresse loetletud. Võrrelge seda Apple'i tõlgendusega avatusest, mis on mõnevõrra võrreldav mitte eriti avatud OpenAI-ga.

Kaasnev tarkvara väljalase ei ole tunnustatud avatud lähtekoodiga litsents. See ei ole ülemäära piirav, kuid teeb selgeks, et Apple jätab endale õiguse esitada patendinõue, kui OpenELM-il põhinev tuletatud teos loetakse tema õigusi rikkuvaks.

OpenELM kasutab trafo mudelis parameetrite tõhusamaks eraldamiseks tehnikat, mida nimetatakse kihiliseks skaleerimiseks. Seega selle asemel, et igal kihil oleks samad parameetrid, on OpenELMi trafokihtidel erinevad konfiguratsioonid ja parameetrid. Tulemus on parem täpsus, mis on näidatud mudeli õigete ennustuste protsendina võrdlustestides.

Meile öeldi, et OpenELM oli selle kasutamiseks eelkoolitatud Punane pidžaama GitHubi andmekogum, hulk raamatuid, Wikipedia, StackExchange'i postitused, ArXivi paberid ja palju muud ning täidetud komplekt Redditist, Wikibooksist, Project Gutenbergist ja mujalt. Mudelit saab kasutada ootuspäraselt: annate sellele viipa ja see proovib sellele vastata või seda automaatselt täita.

Väljalaske üks tähelepanuväärne aspekt on see, et sellega on kaasas "kood mudelite teisendamiseks MLX teegiks, et Apple'i seadmetes järeldusi teha ja peenhäälestada".

MLX on eelmisel aastal välja antud raamistik masinõppe käitamiseks Apple'i ränil. Võimalus töötada kohapeal Apple'i seadmetes, mitte võrgu kaudu, peaks OpenELM-i arendajatele huvitavamaks muutma.

"Apple'i OpenELM-i väljalase tähistab tehisintellekti kogukonna jaoks olulist edasiminekut, pakkudes tõhusat seadmesisest tehisintellekti töötlemist, mis sobib ideaalselt mobiilsetele rakendustele ja piiratud arvutusvõimsusega asjade Interneti-seadmetele," ütles AI-teenuste äriettevõtte Aquant tegevjuht ja kaasasutaja Shahar Chen. Register. "See võimaldab kiiret kohalikku otsustamist, mis on hädavajalik kõige jaoks alates nutitelefonidest kuni nutikate koduseadmeteni, laiendades tehisintellekti potentsiaali igapäevases tehnoloogias."

Apple soovib näidata oma koduse kiibiarhitektuuri eeliseid masinõppe jaoks, mida on spetsiaalselt riistvara toetatud alates sellest ajast, kui Cupertino oma Neuraalne mootor 2017. aastal. Sellegipoolest on OpenELM, kuigi see võib täpsuse võrdlusnäitajatel saavutada kõrgemaid tulemusi, jõudluse osas madalam.

"Hoolimata OpenELM-i suuremast täpsusest sarnase parameetrite loendamisel, täheldame, et see on aeglasem kui OLMo," selgitab artikkel, viidates testidele, mis on tehtud Linuxis Nvidia CUDA-ga ja Apple Siliconil OpenELM-i MLX-versiooniga.

Vähem kui võiduka esituse põhjus, ütlevad Apple'i pätid, nende "naiivne rakendamine RMSNorm”, meetod andmete normaliseerimiseks masinõppes. Tulevikus kavatsevad nad uurida täiendavaid optimeerimisi.

OpenELM on saadaval eelkoolitatud ja juhistega häälestatud mudelitena 270 miljoni, 450 miljoni, 1.1 miljardi ja 3 miljardi parameetriga. Neid, kes seda kasutavad, hoiatatakse, et nad järgiksid hoolsuskohustust, enne kui proovivad mudelit millegi tähendusliku saavutamiseks.

"OpenELM-i mudelite avaldamise eesmärk on anda avatud teadusringkondadele võimalus ja rikastada seda, pakkudes juurdepääsu tipptasemel keelemudelitele," öeldakse dokumendis. "Need mudelid, mis on koolitatud avalikult kättesaadavate andmekogumite põhjal, tehakse kättesaadavaks ilma ohutustagatisteta." ®

spot_img

Uusim intelligentsus

spot_img

Jututuba koos meiega

Tere! Kuidas ma teid aidata saan?