Generative Data Intelligence

Η Apple κυκλοφορεί το OpenELM, ένα ελαφρώς πιο ακριβές LLM

Ημερομηνία:

Η Apple, που συνήθως δεν είναι γνωστή για την ανοιχτότητά της, κυκλοφόρησε ένα μοντέλο παραγωγής τεχνητής νοημοσύνης που ονομάζεται OpenELM, το οποίο προφανώς υπερέχει από ένα σύνολο μοντέλων άλλων γλωσσών που έχουν εκπαιδευτεί σε δημόσια σύνολα δεδομένων.

Δεν είναι πολύ - σε σύγκριση με OLMo, που έκανε το ντεμπούτο του τον Φεβρουάριο, OpenELM είναι 2.36 τοις εκατό πιο ακριβής ενώ χρησιμοποιεί 2 φορές λιγότερα κουπόνια προπόνησης. Αλλά είναι ίσως αρκετό για να υπενθυμίσουμε στους ανθρώπους ότι η Apple δεν είναι πλέον ικανοποιημένη με το να είναι το wallflower στη βιομηχανία AI rave.

Ο ισχυρισμός της Apple για διαφάνεια προέρχεται από την απόφασή της να κυκλοφορήσει όχι μόνο το μοντέλο, αλλά το πλαίσιο εκπαίδευσης και αξιολόγησης.

«Αποκλίνοντας από προηγούμενες πρακτικές που παρέχουν μόνο βάρη μοντέλων και κώδικα συμπερασμάτων και προ-εκπαίδευση σε ιδιωτικά σύνολα δεδομένων, η έκδοσή μας περιλαμβάνει το πλήρες πλαίσιο εκπαίδευσης και αξιολόγησης του μοντέλου γλώσσας σε δημόσια διαθέσιμα σύνολα δεδομένων, συμπεριλαμβανομένων αρχείων καταγραφής εκπαίδευσης, πολλαπλών σημείων ελέγχου και προ -διαμορφώσεις εκπαίδευσης», εξηγούν έντεκα ερευνητές της Apple στο σχετικό τεχνικό χαρτί.

Και αποκλίνοντας από την ακαδημαϊκή πρακτική, οι διευθύνσεις ηλεκτρονικού ταχυδρομείου των συγγραφέων δεν αναφέρονται. Αναφέρετε την ερμηνεία της Apple για το άνοιγμα, η οποία είναι κάπως συγκρίσιμη με το όχι πολύ ανοιχτό OpenAI.

Τα συνοδευτικά έκδοση λογισμικού δεν είναι αναγνωρισμένη άδεια ανοιχτού κώδικα. Δεν είναι αδικαιολόγητα περιοριστικό, αλλά καθιστά σαφές ότι η Apple διατηρεί το δικαίωμα να υποβάλει αξίωση για δίπλωμα ευρεσιτεχνίας εάν οποιαδήποτε παράγωγη εργασία που βασίζεται στο OpenELM κριθεί ότι παραβιάζει τα δικαιώματά της.

Το OpenELM χρησιμοποιεί μια τεχνική που ονομάζεται κλιμάκωση βάσει στρώσης για να κατανείμει τις παραμέτρους πιο αποτελεσματικά στο μοντέλο του μετασχηματιστή. Αντί λοιπόν κάθε στρώμα να έχει το ίδιο σύνολο παραμέτρων, τα επίπεδα μετασχηματιστή του OpenELM έχουν διαφορετικές διαμορφώσεις και παραμέτρους. Το αποτέλεσμα είναι καλύτερο ακρίβεια, φαίνεται στο ποσοστό των σωστών προβλέψεων από το μοντέλο σε δοκιμές αναφοράς.

Μας είπαν ότι το OpenELM ήταν προεκπαιδευμένο χρησιμοποιώντας το RedPijama σύνολο δεδομένων από το GitHub, έναν τόνο βιβλίων, Wikipedia, αναρτήσεις StackExchange, έγγραφα ArXiv και άλλα, και γεμιστό σύνολο από το Reddit, τα Wikibooks, το Project Gutenberg και άλλα. Το μοντέλο μπορεί να χρησιμοποιηθεί όπως θα περίμενε κανείς: Του δίνετε μια προτροπή και προσπαθεί να απαντήσει ή να το συμπληρώσει αυτόματα.

Μια αξιοσημείωτη πτυχή της έκδοσης είναι ότι συνοδεύεται από "κώδικα για τη μετατροπή μοντέλων σε βιβλιοθήκη MLX για συμπέρασμα και λεπτομέρεια σε συσκευές Apple".

MLX είναι ένα πλαίσιο που κυκλοφόρησε πέρυσι για την εκτέλεση μηχανικής εκμάθησης σε πυρίτιο της Apple. Η δυνατότητα τοπικής λειτουργίας σε συσκευές Apple, αντί μέσω δικτύου, θα πρέπει να κάνει το OpenELM πιο ενδιαφέρον για τους προγραμματιστές.

«Η κυκλοφορία OpenELM της Apple σηματοδοτεί μια σημαντική πρόοδο για την κοινότητα τεχνητής νοημοσύνης, προσφέροντας αποτελεσματική επεξεργασία τεχνητής νοημοσύνης στη συσκευή, ιδανική για κινητές εφαρμογές και συσκευές IoT με περιορισμένη υπολογιστική ισχύ», είπε ο Shahar Chen, Διευθύνων Σύμβουλος και συνιδρυτής της υπηρεσίας AI biz Aquant. Το μητρώο. «Αυτό επιτρέπει τη γρήγορη, τοπική λήψη αποφάσεων απαραίτητη για τα πάντα, από smartphone έως έξυπνες οικιακές συσκευές, επεκτείνοντας τις δυνατότητες για AI στην καθημερινή τεχνολογία».

Η Apple επιθυμεί να δείξει τα πλεονεκτήματα της εγχώριας αρχιτεκτονικής τσιπ για μηχανική εκμάθηση, η οποία υποστηρίζεται ειδικά σε υλικό από τότε που το Cupertino παρουσίασε Νευρικός κινητήρας το 2017. Ωστόσο, το OpenELM, αν και μπορεί να σκοράρει υψηλότερα σε δείκτες αξιολόγησης ακρίβειας, υστερεί σε επίπεδο απόδοσης.

«Παρά την υψηλότερη ακρίβεια του OpenELM για παρόμοια μέτρηση παραμέτρων, παρατηρούμε ότι είναι πιο αργή από το OLMo», εξηγεί η εφημερίδα, παραθέτοντας δοκιμές που εκτελούνται χρησιμοποιώντας το CUDA της Nvidia σε Linux καθώς και την έκδοση MLX του OpenELM στο Apple Silicon.

Ο λόγος για τη λιγότερο από νικηφόρα εμφάνιση, λένε οι μπόφιν της Apple, είναι η «αφελής εφαρμογή τους RMSNorm», μια τεχνική για την κανονικοποίηση δεδομένων στη μηχανική μάθηση. Στο μέλλον, σχεδιάζουν να διερευνήσουν περαιτέρω βελτιστοποιήσεις.

Το OpenELM είναι διαθέσιμο σε προεκπαιδευμένα και συντονισμένα μοντέλα με 270 εκατομμύρια, 450 εκατομμύρια, 1.1 δισεκατομμύρια και 3 δισεκατομμύρια παραμέτρους. Όσοι το χρησιμοποιούν προειδοποιούνται να επιδείξουν τη δέουσα επιμέλεια πριν δοκιμάσουν το μοντέλο για οτιδήποτε έχει νόημα.

«Η κυκλοφορία των μοντέλων OpenELM στοχεύει να ενδυναμώσει και να εμπλουτίσει την ανοιχτή ερευνητική κοινότητα παρέχοντας πρόσβαση σε γλωσσικά μοντέλα τελευταίας τεχνολογίας», αναφέρει η εφημερίδα. "Εκπαιδευμένα σε δημόσια διαθέσιμα σύνολα δεδομένων, αυτά τα μοντέλα διατίθενται χωρίς καμία εγγύηση ασφάλειας." ®

spot_img

Τελευταία Νοημοσύνη

spot_img

Συνομιλία με μας

Γεια σου! Πώς μπορώ να σε βοηθήσω?