Генеративный анализ данных

Apple выпускает OpenELM, немного более точную версию LLM

Дата:

Apple, обычно не известная своей открытостью, выпустила генеративную модель искусственного интеллекта под названием OpenELM, которая, очевидно, превосходит набор других языковых моделей, обученных на общедоступных наборах данных.

Это не так уж много – по сравнению с ОЛМо, дебютировавший в феврале, ОпенЭЛМ на 2.36 процента точнее при использовании в 2 раза меньше жетонов предварительной подготовки. Но, возможно, этого достаточно, чтобы напомнить людям, что Apple больше не довольствуется тем, что остается в стороне на рейве в сфере искусственного интеллекта.

Заявление Apple об открытости связано с ее решением выпустить не только модель, но и систему обучения и оценки.

«В отличие от предыдущих практик, которые предоставляют только веса модели и код вывода, а также предварительное обучение на частных наборах данных, наша версия включает в себя полную структуру для обучения и оценки языковой модели на общедоступных наборах данных, включая журналы обучения, несколько контрольных точек и предварительные -конфигурации обучения», — объясняют одиннадцать исследователей Apple в связанном техническая документация.

И, в отличие от академической практики, адреса электронной почты авторов не указаны. Объясните это интерпретацией открытости Apple, которую можно сравнить с не очень открытым OpenAI.

Сопровождающий выпуск программного обеспечения не является признанной лицензией с открытым исходным кодом. Он не является чрезмерно ограничительным, но ясно дает понять, что Apple оставляет за собой право подать патентную заявку, если считается, что какая-либо производная работа на основе OpenELM нарушает ее права.

OpenELM использует метод, называемый послойным масштабированием, для более эффективного распределения параметров в модели трансформатора. Таким образом, вместо того, чтобы каждый уровень имел одинаковый набор параметров, уровни преобразователя OpenELM имеют разные конфигурации и параметры. Результат лучше точность, показанный в процентах правильных прогнозов модели в тестах производительности.

Нам сказали, что OpenELM был предварительно обучен с использованием Красная пижама набор данных из GitHub, тонна книг, Википедия, сообщения StackExchange, документы ArXiv и многое другое, а также Долма набор из Reddit, Wikibooks, Project Gutenberg и других источников. Модель можно использовать так, как вы ожидаете: вы даете ей подсказку, и она пытается ответить на нее или автоматически заполнить ее.

Примечательным аспектом релиза является то, что он сопровождается «кодом для преобразования моделей в библиотеку MLX для вывода и точной настройки на устройствах Apple».

MLX — это платформа, выпущенная в прошлом году для запуска машинного обучения на процессорах Apple. Возможность работать на устройствах Apple локально, а не по сети, должна сделать OpenELM более интересным для разработчиков.

«Выпуск Apple OpenELM знаменует собой значительный прогресс для сообщества искусственного интеллекта, предлагая эффективную обработку искусственного интеллекта на устройстве, идеально подходящую для мобильных приложений и устройств Интернета вещей с ограниченной вычислительной мощностью», — сказал Шахар Чен, генеральный директор и соучредитель подразделения услуг искусственного интеллекта Aquant. Регистр. «Это позволяет быстро принимать локальные решения, необходимые для всего: от смартфонов до устройств умного дома, расширяя потенциал искусственного интеллекта в повседневных технологиях».

Apple стремится продемонстрировать преимущества своей собственной архитектуры чипов для машинного обучения, специально поддерживаемой аппаратно с тех пор, как Купертино представил свою технологию. Нейронный двигатель в 2017 году. Тем не менее, OpenELM, хотя и может набрать более высокие баллы по тестам точности, уступает с точки зрения производительности.

«Несмотря на более высокую точность OpenELM при аналогичном подсчете параметров, мы наблюдаем, что он медленнее, чем OLMo», — поясняется в документе, ссылаясь на тесты, проведенные с использованием CUDA Nvidia в Linux, а также версии OpenELM MLX на Apple Silicon.

Причина менее чем победного результата, по словам специалистов Apple, заключается в их «наивной реализации RMSНорма», метод нормализации данных в машинном обучении. В будущем они планируют изучить дальнейшие оптимизации.

OpenELM доступен в предварительно обученных и настроенных инструкциях моделях с 270 миллионами, 450 миллионами, 1.1 миллиардами и 3 миллиардами параметров. Тем, кто использует ее, рекомендуется проявить должную осмотрительность, прежде чем пытаться использовать модель для чего-либо значимого.

«Выпуск моделей OpenELM направлен на расширение возможностей и обогащение открытого исследовательского сообщества путем предоставления доступа к самым современным языковым моделям», — говорится в документе. «Эти модели, обученные на общедоступных наборах данных, доступны без каких-либо гарантий безопасности». ®

Spot_img

Последняя разведка

Spot_img

Чат с нами

Всем привет! Могу я чем-нибудь помочь?