Generative Datenintelligenz

Apple veröffentlicht OpenELM, ein etwas genaueres LLM

Datum:

Apple, das normalerweise nicht für seine Offenheit bekannt ist, hat ein generatives KI-Modell namens OpenELM veröffentlicht, das offenbar eine Reihe anderer Sprachmodelle übertrifft, die auf öffentlichen Datensätzen trainiert wurden.

Es ist nicht viel – im Vergleich zu OLMo, das im Februar debütierte, OpenELM ist 2.36 Prozent genauer und verwendet gleichzeitig 2x weniger Vortrainings-Token. Aber es reicht vielleicht aus, um die Leute daran zu erinnern, dass Apple sich nicht länger damit zufrieden gibt, das Mauerblümchen beim Branchen-KI-Rave zu sein.

Der Anspruch von Apple an Offenheit ergibt sich aus der Entscheidung, nicht nur das Modell, sondern auch dessen Trainings- und Bewertungsrahmen zu veröffentlichen.

„Im Gegensatz zu früheren Praktiken, die nur Modellgewichtungen und Inferenzcode bereitstellen und auf privaten Datensätzen vorab trainieren, umfasst unsere Version das vollständige Framework für das Training und die Bewertung des Sprachmodells auf öffentlich verfügbaren Datensätzen, einschließlich Trainingsprotokollen, mehreren Prüfpunkten und Vorab-Training „Trainingskonfigurationen“, erklären elf Apple-Forscher im Beitrag technisches Papier.

Und abweichend von der wissenschaftlichen Praxis werden die E-Mail-Adressen der Autoren nicht aufgeführt. Bringen Sie es mit Apples Interpretation von Offenheit in Verbindung, die in gewisser Weise mit der nicht sehr offenen OpenAI vergleichbar ist.

Das begleitende Softwareveröffentlichung ist keine anerkannte Open-Source-Lizenz. Es ist nicht übermäßig restriktiv, macht aber deutlich, dass Apple sich das Recht vorbehält, einen Patentanspruch einzureichen, wenn abgeleitete Arbeiten auf Basis von OpenELM als Verletzung seiner Rechte angesehen werden.

OpenELM nutzt eine Technik namens schichtweise Skalierung, um Parameter im Transformatormodell effizienter zuzuordnen. Anstatt also, dass jede Schicht den gleichen Parametersatz hat, haben die Transformatorschichten von OpenELM unterschiedliche Konfigurationen und Parameter. Das Ergebnis ist besser Genauigkeit, angezeigt als Prozentsatz der korrekten Vorhersagen des Modells in Benchmark-Tests.

Uns wurde gesagt, dass OpenELM mit dem vorab trainiert wurde Roter Pyjama Datensatz von GitHub, einer Menge Büchern, Wikipedia, StackExchange-Beiträgen, ArXiv-Artikeln und mehr, und das Dolma Set von Reddit, Wikibooks, Project Gutenberg und mehr. Das Modell kann wie erwartet verwendet werden: Sie geben ihm eine Eingabeaufforderung und es versucht, diese zu beantworten oder automatisch zu vervollständigen.

Ein bemerkenswerter Aspekt der Veröffentlichung ist, dass sie von „Code zum Konvertieren von Modellen in die MLX-Bibliothek zur Inferenz und Feinabstimmung auf Apple-Geräten“ begleitet wird.

MLX ist ein im letzten Jahr veröffentlichtes Framework zum Ausführen von maschinellem Lernen auf Apple-Silizium. Die Möglichkeit, lokal auf Apple-Geräten statt über das Netzwerk zu arbeiten, dürfte OpenELM für Entwickler interessanter machen.

„Apples OpenELM-Release stellt einen bedeutenden Fortschritt für die KI-Community dar und bietet eine effiziente KI-Verarbeitung auf dem Gerät, ideal für mobile Apps und IoT-Geräte mit begrenzter Rechenleistung“, sagte Shahar Chen, CEO und Mitbegründer des KI-Dienstleistungsunternehmens Aquant Das Register. „Dies ermöglicht eine schnelle, lokale Entscheidungsfindung, die für alles von Smartphones bis hin zu Smart-Home-Geräten unerlässlich ist, und erweitert das Potenzial für KI in der Alltagstechnologie.“

Apple möchte die Vorzüge seiner selbst entwickelten Chip-Architektur für maschinelles Lernen unter Beweis stellen, die seit der Einführung in Cupertino speziell in der Hardware unterstützt wird Neuronale Maschine im Jahr 2017. Nichtsdestotrotz schneidet OpenELM zwar bei Genauigkeits-Benchmarks besser ab, schneidet jedoch in puncto Leistung hinterher.

„Trotz der höheren Genauigkeit von OpenELM bei einer ähnlichen Parameteranzahl stellen wir fest, dass es langsamer ist als OLMo“, erklärt das Papier und zitiert Tests, die mit Nvidias CUDA unter Linux sowie der MLX-Version von OpenELM auf Apple Silicon durchgeführt wurden.

Der Grund für das alles andere als siegreiche Abschneiden liegt laut Apple-Experten in ihrer „naiven Umsetzung“. RMSNorm„, eine Technik zur Normalisierung von Daten beim maschinellen Lernen. Für die Zukunft planen sie, weitere Optimierungen zu prüfen.

OpenELM ist in vorab trainierten und durch Anweisungen abgestimmten Modellen mit 270 Millionen, 450 Millionen, 1.1 Milliarden und 3 Milliarden Parametern verfügbar. Diejenigen, die es verwenden, werden gewarnt, die gebotene Sorgfalt walten zu lassen, bevor sie das Modell für irgendetwas Sinnvolles ausprobieren.

„Die Veröffentlichung von OpenELM-Modellen zielt darauf ab, die offene Forschungsgemeinschaft durch den Zugang zu modernsten Sprachmodellen zu stärken und zu bereichern“, heißt es in dem Papier. „Diese Modelle basieren auf öffentlich verfügbaren Datensätzen und werden ohne jegliche Sicherheitsgarantien zur Verfügung gestellt.“ ®

spot_img

Neueste Intelligenz

spot_img

Chat mit uns

Hallo! Wie kann ich dir helfen?