Generatywna analiza danych

Apple wypuszcza OpenELM, nieco dokładniejszy LLM

Data:

Firma Apple, zwykle nie znana ze swojej otwartości, wypuściła generatywny model sztucznej inteligencji o nazwie OpenELM, który najwyraźniej przewyższa zestaw innych modeli językowych trenowanych na publicznych zbiorach danych.

To niewiele – w porównaniu do OLMo, który zadebiutował w lutym, OtwórzELM jest o 2.36 procent dokładniejszy przy użyciu 2 razy mniej tokenów przedtreningowych. Być może jednak wystarczy, aby przypomnieć ludziom, że Apple nie zadowala się już byciem podporą na imprezie branżowej AI.

Twierdzenie Apple dotyczące otwartości wynika z decyzji o wydaniu nie tylko modelu, ale także ram szkoleniowych i ewaluacyjnych.

„Odbiegając od wcześniejszych praktyk, które zapewniały jedynie wagi modeli i kod wnioskowania oraz wstępne uczenie na prywatnych zbiorach danych, nasza wersja zawiera pełną platformę do uczenia i ewaluacji modelu językowego na publicznie dostępnych zbiorach danych, w tym dzienniki szkoleniowe, wiele punktów kontrolnych i wstępne -konfiguracje szkoleniowe” – wyjaśnia jedenastu badaczy Apple w powiązanym artykule papier techniczny.

Odbiegając od praktyki akademickiej, adresy e-mail autorów nie są wymienione. Można to zrzucić na interpretację otwartości Apple'a, która jest w pewnym stopniu porównywalna z niezbyt otwartym OpenAI.

Towarzyszący wydanie oprogramowania nie jest uznawaną licencją typu open source. Nie jest to nadmiernie restrykcyjne, ale jasno pokazuje, że Apple zastrzega sobie prawo do złożenia wniosku patentowego, jeśli jakiekolwiek dzieło pochodne oparte na OpenELM zostanie uznane za naruszające jego prawa.

OpenELM wykorzystuje technikę zwaną skalowaniem warstwowym, aby efektywniej przydzielać parametry w modelu transformatora. Zamiast więc każda warstwa ma ten sam zestaw parametrów, warstwy transformatora OpenELM mają różne konfiguracje i parametry. Wynik jest lepszy precyzja, pokazany jako procent poprawnych przewidywań z modelu w testach porównawczych.

Powiedziano nam, że OpenELM został wstępnie przeszkolony przy użyciu czerwona piżama zbiór danych z GitHub, mnóstwo książek, Wikipedia, posty na StackExchange, dokumenty ArXiv i nie tylko, a także nadziewany zestaw z Reddit, Wikibooks, Project Gutenberg i nie tylko. Modelu można używać zgodnie z oczekiwaniami: podajesz mu monit, a on próbuje odpowiedzieć lub automatycznie go uzupełnić.

Godnym uwagi aspektem tej wersji jest to, że towarzyszy jej „kod do konwersji modeli do biblioteki MLX w celu wnioskowania i dostrajania na urządzeniach Apple”.

MLX to wydany w zeszłym roku framework do uruchamiania uczenia maszynowego na krzemie Apple. Możliwość działania lokalnie na urządzeniach Apple, a nie w sieci, powinna uczynić OpenELM bardziej interesującym dla programistów.

„Wersja OpenELM firmy Apple oznacza znaczący postęp dla społeczności sztucznej inteligencji, oferując wydajne przetwarzanie sztucznej inteligencji na urządzeniu, idealne dla aplikacji mobilnych i urządzeń IoT o ograniczonej mocy obliczeniowej” – powiedział Shahar Chen, dyrektor generalny i współzałożyciel firmy Aquant, zajmującej się usługami AI Rejestr. „Umożliwia to szybkie, lokalne podejmowanie decyzji niezbędnych we wszystkim, od smartfonów po inteligentne urządzenia domowe, zwiększając potencjał sztucznej inteligencji w codziennej technologii”.

Apple pragnie pokazać zalety własnej architektury układów scalonych na potrzeby uczenia maszynowego, szczególnie wspieranego sprzętowo od czasu wprowadzenia przez Cupertino Neural Engine w 2017 r. Niemniej jednak OpenELM, choć może uzyskać lepsze wyniki w testach dokładności, wypada słabo pod względem wydajności.

„Pomimo wyższej dokładności OpenELM przy podobnej liczbie parametrów, zauważamy, że jest on wolniejszy niż OLMo” – wyjaśnia artykuł, cytując testy przeprowadzone przy użyciu CUDA firmy Nvidia w systemie Linux oraz wersji MLX OpenELM na Apple Silicon.

Miłośnicy Apple twierdzą, że powodem niezbyt zwycięskiego pokazu jest ich „naiwne wdrożenie Norma RMS”, technika normalizacji danych w uczeniu maszynowym. W przyszłości planują zbadać dalsze optymalizacje.

OpenELM jest dostępny w modelach wstępnie wyszkolonych i dostrojonych zgodnie z instrukcjami z 270 milionami, 450 milionami, 1.1 miliarda i 3 miliardami parametrów. Osoby korzystające z niego ostrzega się, aby zachowały należytą staranność przed wypróbowaniem modelu pod kątem jakichkolwiek znaczących zastosowań.

„Wypuszczenie modeli OpenELM ma na celu wzmocnienie pozycji i wzbogacenie otwartej społeczności badawczej poprzez zapewnienie dostępu do najnowocześniejszych modeli językowych” – czytamy w artykule. „Modele te, wyszkolone na publicznie dostępnych zbiorach danych, są udostępniane bez żadnych gwarancji bezpieczeństwa”. ®

spot_img

Najnowsza inteligencja

spot_img

Czat z nami

Cześć! Jak mogę ci pomóc?