Generative Data Intelligence

Η Microsoft μειώνει την τεχνητή νοημοσύνη σε μέγεθος τσέπης με το Phi-3 Mini

Ημερομηνία:

Η Microsoft ισχυρίζεται ότι η πιο πρόσφατη ενσάρκωση του ελαφρού μοντέλου Phi-3 Mini AI ανταγωνίζεται ανταγωνιστές όπως το GPT-3.5, ενώ είναι αρκετά μικρό ώστε να μπορεί να αναπτυχθεί σε ένα τηλέφωνο.

Το Phi-3 Mini είναι ένα μοντέλο γλώσσας 3.8 δισεκατομμυρίων παραμέτρων που εκπαιδεύεται σε 3.3 τρισεκατομμύρια μάρκες. Αυτός ο αριθμός είναι υψηλότερος από τις 2.7 δισεκατομμύρια παραμέτρους του Phi-2, που έχει η Microsoft εισήγαγε τον Δεκέμβριο του 2023.

Αντί να φτυαρίζουμε όσο το δυνατόν περισσότερο στα μοντέλα εκπαίδευσης, η εστίαση ήταν στη συλλογιστική. Η Microsoft είπε: «Για παράδειγμα, το αποτέλεσμα ενός παιχνιδιού στην Πρέμιερ Λιγκ σε μια συγκεκριμένη ημέρα μπορεί να είναι καλά δεδομένα προπόνησης για μοντέλα προορισμού, αλλά πρέπει να αφαιρέσουμε αυτές τις πληροφορίες για να αφήσουμε μεγαλύτερη χωρητικότητα του μοντέλου για «συλλογισμό» για τα μοντέλα μίνι μεγέθους .»

Η στοχευμένη προσέγγιση σημαίνει ότι ενώ το Phi-3 μπορεί να μην έχει το τεράστιο εύρος γνώσεων των ανταγωνιστών του, είναι τουλάχιστον εξίσου καλή, αν όχι καλύτερη, όταν πρόκειται για συλλογισμό, ή έτσι ισχυρίζεται η Microsoft. Σε ένα ερευνητική εργασία [PDF], η Microsoft σημειώνει ότι αυτό επέτρεψε στο μοντέλο της μικρής γλώσσας «να φτάσει στο επίπεδο μοντέλων υψηλής ικανότητας όπως το GPT-3.5 ή το Mixtral με μόνο 3.8B συνολικές παραμέτρους (ενώ το Mixtral έχει 45B συνολικές παραμέτρους για παράδειγμα).

Η έρευνα σημειώνει επίσης ότι τα δεδομένα εκπαίδευσης που χρησιμοποιήθηκαν αποτελούνταν από «πολύ φιλτραρισμένα δεδομένα ιστού… από διάφορες ανοιχτές πηγές διαδικτύου» και δεδομένα που δημιουργήθηκαν από το LLM. Οι πηγές δεδομένων που χρησιμοποιούνται για την εκπαίδευση των LLM είναι το αντικείμενο αρκετές αγωγές.

Το μικρό μέγεθος του Phi-3 Mini σημαίνει ότι μπορεί να λειτουργήσει εκτός σύνδεσης σε smartphone, όπως μας είπαν. Οι ερευνητές είπαν ότι θα μπορούσε να κατασκευαστεί για να καταλαμβάνει περίπου 1.8 GB μνήμης και το δοκίμασαν εκτός σύνδεσης σε ένα iPhone 14 με ένα τσιπ A16 Bionic που λειτουργεί εγγενώς σε μια συσκευή. Στο έγγραφο, οι ερευνητές δείχνουν στιγμιότυπα οθόνης του Phi-3 Mini που γράφει ένα ποίημα και προτείνει πράγματα που πρέπει να κάνετε στο Χιούστον.

Οι ερευνητές υπογραμμίζουν επίσης τα μειονεκτήματα που είναι εγγενή στην εστίαση στην κατανόηση και τη συλλογιστική της γλώσσας. «Το μοντέλο απλά δεν έχει την ικανότητα να αποθηκεύσει πάρα πολλές «πραγματικές γνώσεις», κάτι που μπορεί να μετριαστεί σε κάποιο βαθμό επαυξάνοντάς το με μια μηχανή αναζήτησης. Ωστόσο, αυτό θα καταργούσε το νόημα της δυνατότητας εκτέλεσης του εκτός σύνδεσης.

Προς το παρόν, η γλώσσα περιορίζεται κυρίως στα Αγγλικά και προβλήματα που είναι εγγενή στα περισσότερα LLM - παραισθήσεις, ενίσχυση μεροληψίας και δημιουργία ακατάλληλου περιεχομένου - μπορούν επίσης να βρεθούν στο Phi-3 Mini.

Οι ερευνητές λένε στην εφημερίδα: «Υπάρχει σημαντική δουλειά μπροστά για την πλήρη αντιμετώπιση αυτών των προκλήσεων».

Μεγαλύτερα μοντέλα -σχετικά μιλώντας- έχουν επίσης ανακοινωθεί με τη μορφή Phi-3 Small και Phi-3 Medium με 7 και 14 δισεκατομμύρια παραμέτρους αντίστοιχα.

Victor Botev, CTO και συνιδρυτής στο Ίρις.αι, μας είπε: «Η ανακοίνωση της Microsoft για το μοντέλο Phi-3 αντιπροσωπεύει μια συνεχή τάση στην ανάπτυξη της τεχνητής νοημοσύνης. Αντί να κυνηγά ολοένα μεγαλύτερα μοντέλα, η Microsoft αναπτύσσει εργαλεία με πιο προσεκτικά επιμελημένα δεδομένα και εξειδικευμένη εκπαίδευση. Αυτό επιτρέπει βελτιωμένες επιδόσεις και συλλογιστικές ικανότητες χωρίς το τεράστιο υπολογιστικό κόστος μοντέλων με τρισεκατομμύρια παραμέτρους. Η εκπλήρωση αυτής της υπόσχεσης θα σήμαινε την κατάρριψη ενός τεράστιου φραγμού υιοθέτησης για τις επιχειρήσεις που αναζητούν λύσεις τεχνητής νοημοσύνης.

«Η Microsoft κοιτάζει σοφά πέρα ​​από τη νοοτροπία «μεγαλύτερο, τόσο καλύτερο». Για ευρέως διαδεδομένες εφαρμογές τεχνητής νοημοσύνης για επιχειρήσεις και καταναλωτές, η σκοπιμότητα και η εξειδίκευση είναι πιο σημαντικές από τις μαζικές μετρήσεις παραμέτρων. Μοντέλα όπως το Phi-3 αποδεικνύουν ξεκάθαρα ότι με τη σωστή προσέγγιση δεδομένων και εκπαίδευσης, οι προηγμένες δυνατότητες τεχνητής νοημοσύνης δεν χρειάζεται να απαιτούν τη δημιουργία ολοένα και μεγαλύτερων μοντέλων – ένας αποφασιστικός παράγοντας για επιχειρήσεις όπου η αναλογία κόστους προς ποιότητα είναι κρίσιμη. ®

spot_img

Τελευταία Νοημοσύνη

spot_img

Συνομιλία με μας

Γεια σου! Πώς μπορώ να σε βοηθήσω?