Generative Data Intelligence

Apple випускає OpenELM, дещо точнішу LLM

Дата:

Apple, яка зазвичай не відома своєю відкритістю, випустила генеративну модель AI під назвою OpenELM, яка, очевидно, перевершує набір інших мовних моделей, навчених на загальнодоступних наборах даних.

Це не так багато – порівняно з OLMo, який дебютував у лютому, OpenELM на 2.36 відсотка точніший, використовуючи вдвічі менше жетонів попереднього навчання. Але, мабуть, цього достатньо, щоб нагадати людям, що Apple більше не задовольняється тим, що залишається на стіні в індустрії AI-рейвів.

Претензія Apple на відкритість походить від її рішення випустити не лише модель, але й її систему навчання та оцінювання.

«На відміну від попередніх практик, які надають лише вагові коефіцієнти моделі та код висновку та попереднє навчання на приватних наборах даних, наш випуск включає повну структуру для навчання та оцінки мовної моделі на загальнодоступних наборах даних, включаючи журнали навчання, кілька контрольних точок і попередні -навчальні конфігурації», – пояснюють одинадцять дослідників Apple у асоціації технічний папір.

І, всупереч академічній практиці, електронні адреси авторів не вказані. Припишіть це до інтерпретації Apple відкритості, яка дещо порівнюється з не дуже відкритим OpenAI.

Супровідний випуск програмного забезпечення не є визнаною ліцензією з відкритим кодом. Він не є надмірно обмежувальним, але чітко вказує на те, що Apple залишає за собою право подати патентну претензію, якщо буде визнано, що будь-яка похідна робота, заснована на OpenELM, порушує її права.

OpenELM використовує техніку, що називається пошаровим масштабуванням, щоб більш ефективно розподіляти параметри в моделі трансформатора. Тож замість того, щоб кожен шар мав однаковий набір параметрів, шари трансформатора OpenELM мають різні конфігурації та параметри. Результат кращий точність, що відображається у відсотках правильних прогнозів від моделі в контрольних тестах.

Нам сказали, що OpenELM було попередньо навчено використовувати Червона піжама набір даних із GitHub, купа книг, Вікіпедія, публікації StackExchange, документи ArXiv тощо, а також фарширований набір із Reddit, Wikibooks, Project Gutenberg тощо. Модель можна використовувати так, як ви могли очікувати: ви даєте їй підказку, і вона намагається відповісти або автоматично завершити його.

Одним із важливих аспектів випуску є те, що він супроводжується «кодом для перетворення моделей у бібліотеку MLX для висновків і тонкого налаштування на пристроях Apple».

MLX — це платформа, випущена минулого року для запуску машинного навчання на силіконах Apple. Можливість працювати локально на пристроях Apple, а не через мережу, має зробити OpenELM більш цікавим для розробників.

«Випуск OpenELM від Apple знаменує значний прогрес для спільноти штучного інтелекту, пропонуючи ефективну обробку штучного інтелекту на пристрої, ідеальну для мобільних додатків і пристроїв Інтернету речей з обмеженою обчислювальною потужністю», — сказав Шахар Чен, генеральний директор і співзасновник служби штучного інтелекту Aquant. Реєстр. «Це дає змогу швидко приймати локальні рішення, необхідні для всього, починаючи від смартфонів і закінчуючи розумними домашніми пристроями, розширюючи потенціал штучного інтелекту в повсякденних технологіях».

Apple прагне продемонструвати переваги своєї домашньої архітектури мікросхем для машинного навчання, яка підтримується апаратним забезпеченням після того, як Купертіно представив Нейронний двигун у 2017 році. Незважаючи на те, що OpenELM може отримати вищу оцінку за тестами точності, він поступається продуктивності.

«Незважаючи на вищу точність OpenELM для аналогічної кількості параметрів, ми спостерігаємо, що він повільніший, ніж OLMo», — пояснюється в статті, посилаючись на тести, проведені з використанням CUDA Nvidia на Linux, а також версії MLX OpenELM на Apple Silicon.

Причиною не дуже виграшного результату, кажуть бофіни Apple, є їхня «наївна реалізація RMSNorm”, техніка нормалізації даних у машинному навчанні. У майбутньому вони планують вивчити подальшу оптимізацію.

OpenELM доступний у попередньо підготовлених і налаштованих моделях із 270 мільйонами, 450 мільйонами, 1.1 мільярдами та 3 мільярдами параметрів. Тих, хто використовує її, попереджають проявити належну обачність, перш ніж спробувати модель для чогось значущого.

«Випуск моделей OpenELM має на меті розширити можливості та збагатити спільноту відкритих дослідників, надавши доступ до найсучасніших мовних моделей», — йдеться в документі. «Навчені на загальнодоступних наборах даних, ці моделі доступні без будь-яких гарантій безпеки». ®

spot_img

Остання розвідка

spot_img

Зв'яжіться з нами!

Привіт! Чим я можу вам допомогти?