Generatív adatintelligencia

Az Apple kiadja az OpenELM-et, egy kicsit pontosabb LLM-et

Találka:

Az Apple, amely általában nem a nyitottságáról ismert, kiadott egy generatív mesterséges intelligencia-modellt OpenELM néven, amely nyilvánvalóan felülmúlja a nyilvános adathalmazokra kiképzett más nyelvi modelleket.

Nem sok – ehhez képest OLMo, amely februárban debütált, OpenELM 2.36 százalékkal pontosabb, miközben kétszer kevesebb előképzési tokent használ. De talán elég is emlékeztetni az embereket arra, hogy az Apple már nem elégszik meg azzal, hogy az iparági AI-rave falvirágja legyen.

Az Apple nyitottság iránti igénye abból fakad, hogy nem csak a modellt, hanem annak képzési és értékelési keretét is kiadja.

„Eltérve azoktól a korábbi gyakorlatoktól, amelyek csak modellsúlyokat és következtetési kódot adnak meg, valamint a privát adatkészletekre előtanítanak, kiadásunk tartalmazza a nyelvi modell betanításának és értékelésének teljes keretét a nyilvánosan elérhető adatkészleteken, beleértve a képzési naplókat, a többszörös ellenőrzőpontokat és az előzetes adatokat. -képzési konfigurációk” – magyarázza tizenegy Apple-kutató a kapcsolódó műszaki papír.

És az akadémiai gyakorlattól eltérően a szerzők e-mail címei nem szerepelnek a listán. Vegye figyelembe az Apple nyitottság-értelmezését, amely némileg összevethető a nem túl nyitott OpenAI-val.

A kísérő szoftver kiadás nem elismert nyílt forráskódú licenc. Nem túlzottan korlátozó, de világossá teszi, hogy az Apple fenntartja a jogot szabadalmi kereset benyújtására, ha az OpenELM-en alapuló származékos munka sérti jogait.

Az OpenELM a rétegenkénti skálázásnak nevezett technikát alkalmazza a paraméterek hatékonyabb kiosztására a transzformátormodellben. Tehát ahelyett, hogy minden rétegnek ugyanaz a paraméterkészlete lenne, az OpenELM transzformátorrétegei eltérő konfigurációkkal és paraméterekkel rendelkeznek. Az eredmény jobb pontosság, amely a modellből származó helyes előrejelzések százalékában jelenik meg a benchmark tesztekben.

Azt mondták, hogy az OpenELM-et előzetesen kiképezte a PirosPizsama adatkészlet a GitHubból, egy csomó könyv, a Wikipedia, a StackExchange-bejegyzések, az ArXiv-papírok és egyebek, valamint töltött készlet Redditből, Wikibooksból, Project Gutenbergből és sok másból. A modell az elvárásoknak megfelelően használható: Ön egy felszólítást ad neki, és megkísérli válaszolni vagy automatikusan kitölteni.

A kiadás egyik figyelemreméltó aspektusa, hogy „a modelleket MLX könyvtárba konvertáló kóddal járul hozzá következtetések és finomhangolás céljából az Apple eszközökön”.

Mlx egy tavaly kiadott keretrendszer a gépi tanulás futtatásához Apple szilíciumban. Az OpenELM-et a fejlesztők számára érdekesebbé kell tennie, ha az Apple eszközökön helyileg, nem pedig hálózaton keresztül működhet.

„Az Apple OpenELM-kiadása jelentős előrelépést jelent az AI-közösség számára, mivel hatékony, eszközön lévő mesterségesintelligencia-feldolgozást kínál, amely ideális mobilalkalmazásokhoz és korlátozott számítási teljesítménnyel rendelkező IoT-eszközökhöz” – mondta Shahar Chen, az AI-szolgáltatási biznisz Aquant vezérigazgatója és társalapítója. A regisztráció. „Ez lehetővé teszi a gyors, helyi döntéshozatalt, ami elengedhetetlen az okostelefonoktól az intelligens otthoni eszközökig, és kibővíti a mesterséges intelligencia lehetőségeit a mindennapi technológiában.”

Az Apple szeretné bemutatni saját fejlesztésű chiparchitektúrájának előnyeit a gépi tanuláshoz, amely kifejezetten hardveresen támogatott, mióta Cupertino bemutatta Neurális motor Mindazonáltal az OpenELM, bár magasabb pontszámot érhet el a pontossági benchmarkokon, teljesítményt tekintve alulmarad.

„Annak ellenére, hogy az OpenELM nagyobb pontossággal rendelkezik a hasonló paraméterek számához, azt tapasztaljuk, hogy lassabb, mint az OLMo” – magyarázza a lap, hivatkozva az Nvidia CUDA-jával Linuxon, valamint az OpenELM MLX verziójával az Apple Silicon rendszeren futtatott tesztekre.

A kevésbé győztes bemutatkozás oka az Apple tréfái szerint a „naiv megvalósításuk RMSNorm”, egy technika az adatok normalizálására a gépi tanulásban. A jövőben további optimalizációk vizsgálatát tervezik.

Az OpenELM 270 millió, 450 millió, 1.1 milliárd és 3 milliárd paraméterrel előre betanított és utasításra hangolt modellekben érhető el. A modellt használókat figyelmeztetik, hogy kellő gondossággal járjanak el, mielőtt bármi értelmes dologra kipróbálnák a modellt.

„Az OpenELM-modellek kiadásának célja a nyitott kutatói közösség megerősítése és gazdagítása azáltal, hogy hozzáférést biztosít a legmodernebb nyelvi modellekhez” – írja a lap. „A nyilvánosan elérhető adatkészletekre kiképzett modellek biztonsági garanciák nélkül állnak rendelkezésre.” ®

spot_img

Legújabb intelligencia

spot_img

Beszélj velünk

Szia! Miben segíthetek?