Intelligence de données générative

Apple lance OpenELM, un LLM légèrement plus précis

Date :

Apple, qui n'est normalement pas connu pour son ouverture, a publié un modèle d'IA génératif appelé OpenELM qui surpasse apparemment un ensemble d'autres modèles de langage formés sur des ensembles de données publics.

Ce n'est pas grand-chose – comparé à OLMo, qui a fait ses débuts en février, OuvrirELM est 2.36 % plus précis tout en utilisant 2 fois moins de jetons de pré-entraînement. Mais c'est peut-être suffisant pour rappeler aux gens qu'Apple ne se contente plus d'être la giroflée de la rave de l'industrie de l'IA.

La revendication d'ouverture d'Apple vient de sa décision de publier non seulement le modèle, mais aussi son cadre de formation et d'évaluation.

« Contrairement aux pratiques antérieures qui fournissent uniquement des pondérations de modèle et du code d'inférence, et pré-entraînent sur des ensembles de données privés, notre version inclut le cadre complet pour l'entraînement et l'évaluation du modèle de langage sur des ensembles de données accessibles au public, y compris les journaux d'entraînement, plusieurs points de contrôle et pré-entraînement. -configurations de formation », expliquent onze chercheurs Apple dans le journal associé papier technique.

Et contrairement à la pratique académique, les adresses e-mail des auteurs ne sont pas répertoriées. Mettez cela sur le compte de l'interprétation d'Apple de l'ouverture, qui est quelque peu comparable à l'OpenAI pas très ouvert.

L'accompagnement version du logiciel n'est pas une licence open source reconnue. Ce n'est pas indûment restrictif, mais cela indique clairement qu'Apple se réserve le droit de déposer une demande de brevet si un travail dérivé basé sur OpenELM est considéré comme portant atteinte à ses droits.

OpenELM utilise une technique appelée mise à l'échelle par couche pour allouer les paramètres plus efficacement dans le modèle de transformateur. Ainsi, au lieu que chaque couche ait le même ensemble de paramètres, les couches de transformateur d'OpenELM ont des configurations et des paramètres différents. Le résultat est meilleur précision, indiqué dans le pourcentage de prédictions correctes du modèle dans les tests de référence.

On nous dit qu'OpenELM a été pré-entraîné à l'aide du RougePyjama ensemble de données de GitHub, une tonne de livres, Wikipédia, des articles StackExchange, des articles ArXiv, et plus encore, et le Dolma défini à partir de Reddit, Wikibooks, Project Gutenberg, etc. Le modèle peut être utilisé comme vous pouvez vous y attendre : vous lui donnez une invite et il tente d'y répondre ou de la compléter automatiquement.

Un aspect remarquable de la version est qu'elle est accompagnée de « code pour convertir les modèles en bibliothèque MLX pour l'inférence et le réglage fin sur les appareils Apple ».

MLX est un framework publié l'année dernière pour exécuter l'apprentissage automatique sur le silicium Apple. La possibilité de fonctionner localement sur des appareils Apple, plutôt que sur le réseau, devrait rendre OpenELM plus intéressant pour les développeurs.

"La version OpenELM d'Apple marque une avancée significative pour la communauté de l'IA, offrant un traitement efficace de l'IA sur l'appareil, idéal pour les applications mobiles et les appareils IoT avec une puissance de calcul limitée", a déclaré Shahar Chen, PDG et co-fondateur de l'entreprise de services d'IA Aquant. Le registre. "Cela permet une prise de décision rapide et locale, essentielle pour tout, des smartphones aux appareils domestiques intelligents, élargissant ainsi le potentiel de l'IA dans la technologie quotidienne."

Apple tient à montrer les mérites de son architecture de puces maison pour l'apprentissage automatique, spécifiquement prise en charge dans le matériel depuis que Cupertino a présenté son Moteur neuronal en 2017. Néanmoins, OpenELM, même s'il obtient des résultats plus élevés dans les tests de précision, n'est pas à la hauteur en termes de performances.

"Malgré la plus grande précision d'OpenELM pour un nombre de paramètres similaire, nous observons qu'il est plus lent qu'OLMo", explique le document, citant des tests effectués avec CUDA de Nvidia sur Linux ainsi que la version MLX d'OpenELM sur Apple Silicon.

La raison de cette performance peu victorieuse, disent les experts d'Apple, est leur « mise en œuvre naïve de Norme RMS», une technique de normalisation des données dans l’apprentissage automatique. À l’avenir, ils prévoient d’explorer d’autres optimisations.

OpenELM est disponible en modèles pré-entraînés et optimisés pour les instructions avec 270 millions, 450 millions, 1.1 milliard et 3 milliards de paramètres. Ceux qui l’utilisent sont avertis de faire preuve de diligence raisonnable avant d’essayer le modèle pour quelque chose de significatif.

"La publication des modèles OpenELM vise à responsabiliser et à enrichir la communauté de recherche ouverte en donnant accès à des modèles de langage de pointe", indique le document. "Formés sur des ensembles de données accessibles au public, ces modèles sont mis à disposition sans aucune garantie de sécurité." ®

spot_img

Dernières informations

spot_img

Discutez avec nous

Salut! Comment puis-je t'aider?