Generatiivinen tiedustelu

Apple julkaisee OpenELM:n, hieman tarkemman LLM:n

Treffi:

Apple, joka ei yleensä tunneta avoimuudestaan, on julkaissut generatiivisen AI-mallin nimeltä OpenELM, joka ilmeisesti ylittää joukon muita julkisiin tietosarjoihin koulutettuja kielimalleja.

Se ei ole paljoa - verrattuna OLMo, joka debytoi helmikuussa, OpenELM on 2.36 prosenttia tarkempi, kun käytetään 2x vähemmän esiharjoittelua. Mutta ehkä se riittää muistuttamaan ihmisiä siitä, että Apple ei enää tyydy olemaan teollisuuden AI-rave -seinäkukka.

Applen väite avoimuudesta johtuu sen päätöksestä julkaista mallin lisäksi sen koulutus- ja arviointikehys.

"Poikkeamalla aikaisemmista käytännöistä, jotka tarjoavat vain mallin painotuksia ja päättelykoodia ja esiopettavat yksityisiä tietojoukkoja, julkaisumme sisältää täydellisen kehyksen kielimallin koulutukselle ja arvioinnille julkisesti saatavilla olevissa tietojoukoissa, mukaan lukien koulutuslokit, useat tarkistuspisteet ja esitiedot. -koulutuskokoonpanot”, selittää yksitoista Applen tutkijaa asiaan liittyen tekninen paperi.

Ja akateemisesta käytännöstä poiketen tekijöiden sähköpostiosoitteita ei ole listattu. Ota huomioon Applen tulkinta avoimuudesta, joka on jossain määrin verrattavissa ei kovin avoimeen OpenAI:han.

Mukana ohjelmiston julkaisu ei ole tunnustettu avoimen lähdekoodin lisenssi. Se ei ole kohtuuttoman rajoittava, mutta se tekee selväksi, että Apple varaa oikeuden tehdä patenttivaatimuksen, jos minkä tahansa OpenELM:ään perustuvan johdannaisteoksen katsotaan loukkaavan sen oikeuksia.

OpenELM hyödyntää tekniikkaa, jota kutsutaan kerroskohtaiseksi skaalaukseksi parametrien allokoimiseksi tehokkaammin muuntajamallissa. Joten sen sijaan, että jokaisella kerroksella olisi samat parametrit, OpenELM:n muuntajakerroksilla on erilaiset konfiguraatiot ja parametrit. Tulos on parempi tarkkuus, joka näkyy mallin oikeiden ennusteiden prosenttiosuutena vertailutesteissä.

Meille kerrottiin, että OpenELM oli esikoulutettu käyttämään PunainenPjama tietojoukko GitHubista, joukko kirjoja, Wikipedia, StackExchange-julkaisut, ArXiv-paperit ja paljon muuta, ja täytetty sarja Redditistä, Wikibookeista, Project Gutenbergistä ja muista. Mallia voidaan käyttää odotetulla tavalla: Annat sille kehotteen ja se yrittää vastata siihen tai täydentää sitä automaattisesti.

Yksi julkaisun huomionarvoinen näkökohta on, että siihen liittyy "koodi mallien muuntamiseksi MLX-kirjastoon Apple-laitteiden päätelmien ja hienosäädön tekemiseksi".

MLX on viime vuonna julkaistu kehys koneoppimisen suorittamiseen Applen piillä. Mahdollisuuden toimia paikallisesti Apple-laitteilla verkon kautta, pitäisi tehdä OpenELM:stä kiinnostavampi kehittäjille.

"Applen OpenELM-julkaisu on merkittävä edistysaskel tekoälyyhteisölle, sillä se tarjoaa tehokkaan, laitteessa olevan tekoälynkäsittelyn, joka sopii erinomaisesti mobiilisovelluksille ja IoT-laitteille, joiden laskentateho on rajoitettu", sanoi Shahar Chen, tekoälypalvelubiz Aquantin toimitusjohtaja ja toinen perustaja. Rekisteri. "Tämä mahdollistaa nopean, paikallisen päätöksenteon, joka on välttämätöntä kaikessa älypuhelimista kodin älylaitteisiin, mikä laajentaa tekoälyn mahdollisuuksia jokapäiväisessä teknologiassa."

Apple haluaa esitellä kotitekoisen siruarkkitehtuurinsa ansioita koneoppimisessa, ja sitä tuetaan erityisesti laitteistoissa sen jälkeen kun Cupertino esitteli Neural Engine Vuonna 2017. Siitä huolimatta OpenELM, vaikka se voi saavuttaa korkeamman pistemäärän tarkkuusvertailuissa, on suorituskyvyltään heikko.

"Huolimatta OpenELM:n suuremmasta tarkkuudesta samanlaisella parametrien määrällä, havaitsemme, että se on hitaampi kuin OLMo", paperi selittää ja viittaa testeihin, jotka on suoritettu käyttämällä Nvidian CUDA:ta Linuxissa sekä OpenELM:n MLX-versiota Apple Siliconissa.

Syy vähemmän kuin voittaneeseen esitykseen, Applen boffinit sanovat, on heidän "naiivi täytäntöönpanonsa RMSNorm”, tekniikka tietojen normalisoimiseksi koneoppimisessa. Jatkossa he aikovat tutkia lisää optimointeja.

OpenELM on saatavilla esikoulutettuina ja ohjeistettuina malleina 270 miljoonalla, 450 miljoonalla, 1.1 miljardilla ja 3 miljardilla parametrilla. Sen käyttäjiä varoitetaan noudattamaan asianmukaista huolellisuutta ennen kuin kokeilevat mallia mihinkään merkitykselliseen.

"OpenELM-mallien julkaisun tavoitteena on vahvistaa ja rikastuttaa avointa tutkimusyhteisöä tarjoamalla pääsy uusimpiin kielimalleihin", lehti sanoo. "Nämä mallit on koulutettu julkisesti saatavilla oleviin tietokokonaisuuksiin, ja ne ovat saatavilla ilman turvallisuustakuita." ®

spot_img

Uusin älykkyys

spot_img

Keskustele kanssamme

Hei siellä! Kuinka voin olla avuksi?