Generative Data Intelligence

Αξιολογήστε τις δυνατότητες σύνοψης κειμένων των LLM για βελτιωμένη λήψη αποφάσεων σχετικά με το AWS | Υπηρεσίες Ιστού της Amazon

Ημερομηνία:

Οργανισμοί σε όλους τους κλάδους χρησιμοποιούν αυτόματη σύνοψη κειμένων για να χειρίζονται πιο αποτελεσματικά τεράστιες ποσότητες πληροφοριών και να λαμβάνουν καλύτερες αποφάσεις. Στον χρηματοπιστωτικό τομέα, οι επενδυτικές τράπεζες συμπυκνώνουν τις αναφορές κερδών σε βασικά στοιχεία για την ταχεία ανάλυση της τριμηνιαίας απόδοσης. Οι εταιρείες πολυμέσων χρησιμοποιούν τη σύνοψη για την παρακολούθηση των ειδήσεων και των μέσων κοινωνικής δικτύωσης, ώστε οι δημοσιογράφοι να μπορούν να γράφουν γρήγορα ιστορίες για αναπτυσσόμενα θέματα. Οι κυβερνητικές υπηρεσίες συνοψίζουν μεγάλα έγγραφα πολιτικής και εκθέσεις για να βοηθήσουν τους υπεύθυνους χάραξης πολιτικής να χαράξουν στρατηγική και να ιεραρχήσουν στόχους.

Δημιουργώντας συνοπτικές εκδόσεις μεγάλων, πολύπλοκων εγγράφων, η τεχνολογία σύνοψης επιτρέπει στους χρήστες να εστιάζουν στο πιο σημαντικό περιεχόμενο. Αυτό οδηγεί σε καλύτερη κατανόηση και διατήρηση κρίσιμων πληροφοριών. Η εξοικονόμηση χρόνου επιτρέπει στους ενδιαφερόμενους να αναθεωρήσουν περισσότερο υλικό σε λιγότερο χρόνο, αποκτώντας μια ευρύτερη προοπτική. Με βελτιωμένη κατανόηση και πιο συνθετικές γνώσεις, οι οργανισμοί μπορούν να λαμβάνουν καλύτερα ενημερωμένες στρατηγικές αποφάσεις, να επιταχύνουν την έρευνα, να βελτιώσουν την παραγωγικότητα και να αυξήσουν τον αντίκτυπό τους. Η μεταμορφωτική δύναμη των προηγμένων δυνατοτήτων σύνοψης θα συνεχίσει να αυξάνεται καθώς περισσότερες βιομηχανίες υιοθετούν την τεχνητή νοημοσύνη (AI) για να αξιοποιήσουν τις υπερχειλισμένες ροές πληροφοριών.

Σε αυτήν την ανάρτηση, διερευνούμε κορυφαίες προσεγγίσεις για την αντικειμενική αξιολόγηση της ακρίβειας της σύνοψης, συμπεριλαμβανομένων των μετρήσεων ROUGE, του METEOR και του BERTScore. Η κατανόηση των δυνατών και των αδυναμιών αυτών των τεχνικών μπορεί να βοηθήσει στην καθοδήγηση των προσπαθειών επιλογής και βελτίωσης. Ο γενικός στόχος αυτής της ανάρτησης είναι να απομυθοποιήσει την αξιολόγηση της σύνοψης για να βοηθήσει τις ομάδες να αξιολογήσουν καλύτερα την απόδοση σε αυτήν την κρίσιμη ικανότητα, καθώς επιδιώκουν να μεγιστοποιήσουν την αξία.

Τύποι περίληψης

Η περίληψη μπορεί γενικά να χωριστεί σε δύο βασικούς τύπους: εξαγωγική περίληψη και αφηρημένη περίληψη. Και οι δύο προσεγγίσεις στοχεύουν στη συμπύκνωση μεγάλων κομματιών κειμένου σε μικρότερες μορφές, συλλαμβάνοντας τις πιο κρίσιμες πληροφορίες ή την ουσία του αρχικού περιεχομένου, αλλά το κάνουν με θεμελιωδώς διαφορετικούς τρόπους.

Η εξαγωγική περίληψη περιλαμβάνει τον εντοπισμό και την εξαγωγή φράσεων-κλειδιά, προτάσεων ή τμημάτων από το αρχικό κείμενο χωρίς να τις τροποποιήσετε. Το σύστημα επιλέγει μέρη του κειμένου που θεωρούνται πιο ενημερωτικά ή αντιπροσωπευτικά του συνόλου. Η συνοπτική περίληψη είναι χρήσιμη εάν η ακρίβεια είναι κρίσιμη και η περίληψη πρέπει να αντικατοπτρίζει τις ακριβείς πληροφορίες από το αρχικό κείμενο. Αυτές θα μπορούσαν να είναι περιπτώσεις χρήσης όπως η επισήμανση συγκεκριμένων νομικών όρων, υποχρεώσεων και δικαιωμάτων που περιγράφονται στους όρους χρήσης. Οι πιο κοινές τεχνικές που χρησιμοποιούνται για την εξαγωγή σύνοψης είναι ο όρος συχνότητα αντίστροφης συχνότητας εγγράφου (TF-IDF), η βαθμολογία προτάσεων, ο αλγόριθμος κατάταξης κειμένου και η εποπτευόμενη μηχανική μάθηση (ML).

Η αφηρημένη περίληψη προχωρά ένα βήμα παραπέρα δημιουργώντας νέες φράσεις και προτάσεις που δεν υπήρχαν στο αρχικό κείμενο, ουσιαστικά παραφράζοντας και συμπυκνώνοντας το αρχικό περιεχόμενο. Αυτή η προσέγγιση απαιτεί μια βαθύτερη κατανόηση του κειμένου, επειδή η τεχνητή νοημοσύνη πρέπει να ερμηνεύσει το νόημα και στη συνέχεια να το εκφράσει σε μια νέα, συνοπτική μορφή. Τα μοντέλα μεγάλων γλωσσών (LLM) ταιριάζουν καλύτερα για αφηρημένη σύνοψη, επειδή τα μοντέλα μετασχηματιστή χρησιμοποιούν μηχανισμούς προσοχής για να εστιάζουν σε σχετικά μέρη του κειμένου εισόδου κατά τη δημιουργία περιλήψεων. Ο μηχανισμός προσοχής επιτρέπει στο μοντέλο να εκχωρεί διαφορετικά βάρη σε διαφορετικές λέξεις ή διακριτικά στην ακολουθία εισαγωγής, επιτρέποντάς του να συλλαμβάνει εξαρτήσεις μεγάλης εμβέλειας και σχετικές πληροφορίες.

Εκτός από αυτούς τους δύο κύριους τύπους, υπάρχουν υβριδικές προσεγγίσεις που συνδυάζουν εξαγωγικές και αφαιρετικές μεθόδους. Αυτές οι προσεγγίσεις μπορεί να ξεκινήσουν με εξαγωγική σύνοψη για να προσδιορίσουν το πιο σημαντικό περιεχόμενο και στη συνέχεια να χρησιμοποιήσουν αφηρημένες τεχνικές για να ξαναγράψουν ή να συμπυκνώσουν αυτό το περιεχόμενο σε μια ευχάριστη περίληψη.

Η πρόκληση

Η εύρεση της βέλτιστης μεθόδου για την αξιολόγηση της ποιότητας της σύνοψης παραμένει μια ανοιχτή πρόκληση. Καθώς οι οργανισμοί βασίζονται όλο και περισσότερο στην αυτόματη σύνοψη κειμένων για την απόσταξη βασικών πληροφοριών από έγγραφα, αυξάνεται η ανάγκη για τυποποιημένες τεχνικές για τη μέτρηση της ακρίβειας της σύνοψης. Στην ιδανική περίπτωση, αυτές οι μετρήσεις αξιολόγησης θα ποσοτικοποιούσαν πόσο καλά οι περιλήψεις που δημιουργούνται από μηχανή εξάγουν το πιο σημαντικό περιεχόμενο από κείμενα πηγής και παρουσιάζουν συνεκτικές περιλήψεις που αντικατοπτρίζουν το αρχικό νόημα και το πλαίσιο.

Ωστόσο, η ανάπτυξη ισχυρών μεθοδολογιών αξιολόγησης για τη σύνοψη κειμένων παρουσιάζει δυσκολίες:

  • Οι περιλήψεις αναφοράς που έχουν συνταχθεί από τον άνθρωπο που χρησιμοποιούνται για σύγκριση συχνά παρουσιάζουν υψηλή μεταβλητότητα με βάση υποκειμενικούς προσδιορισμούς σπουδαιότητας
  • Οι διαφοροποιημένες πτυχές της ποιότητας σύνοψης όπως η ευχέρεια, η αναγνωσιμότητα και η συνοχή αποδεικνύονται δύσκολο να ποσοτικοποιηθούν μέσω προγραμματισμού
  • Υπάρχει μεγάλη ποικιλία μεταξύ των μεθόδων περίληψης από στατιστικούς αλγόριθμους έως νευρωνικά δίκτυα, περιπλέκοντας τις άμεσες συγκρίσεις

Υπενθύμιση προσανατολισμένης στην ανάκληση για την αξιολόγηση Gisting (ROUGE)

ROUGE μετρήσεις, όπως το ROUGE-N και το ROUGE-L, διαδραματίζουν κρίσιμο ρόλο στην αξιολόγηση της ποιότητας των περιλήψεων που δημιουργούνται από μηχανή σε σύγκριση με τις περιλήψεις αναφοράς που έχουν γραφτεί από τον άνθρωπο. Αυτές οι μετρήσεις επικεντρώνονται στην αξιολόγηση της αλληλεπικάλυψης μεταξύ του περιεχομένου των περιλήψεων που δημιουργούνται από μηχανή και των ανθρώπων, αναλύοντας n-γραμμάρια, τα οποία είναι ομάδες λέξεων ή διακριτικών. Για παράδειγμα, το ROUGE-1 αξιολογεί την αντιστοίχιση μεμονωμένων λέξεων (μονόγραμμα), ενώ το ROUGE-2 εξετάζει ζεύγη λέξεων (διγράμματα). Επιπλέον, το ROUGE-N αξιολογεί τη μεγαλύτερη κοινή υποακολουθία λέξεων μεταξύ των δύο κειμένων, επιτρέποντας την ευελιξία στη σειρά των λέξεων.

Για να το δείξετε αυτό, εξετάστε τα ακόλουθα παραδείγματα:

  • Μέτρηση ROGUE-1 – Το ROUGE-1 αξιολογεί την επικάλυψη μονογραμμάτων (μεμονωμένων λέξεων) μεταξύ μιας σύνοψης που δημιουργείται και μιας σύνοψης αναφοράς. Για παράδειγμα, εάν μια σύνοψη αναφοράς περιέχει "Η καφετιά αλεπού πηδά γρήγορα" και η σύνοψη που δημιουργείται είναι "Η καφετιά αλεπού πηδά γρήγορα", η μέτρηση ROUGE-1 θα θεωρούσε τα "καφέ", "αλεπού" και "άλματα" ως επικαλυπτόμενα μονογραμμάρια. Το ROUGE-1 εστιάζει στην παρουσία μεμονωμένων λέξεων στις περιλήψεις, μετρώντας πόσο καλά η σύνοψη που δημιουργείται αποτυπώνει τις λέξεις-κλειδιά από την περίληψη αναφοράς.
  • Μέτρηση ROGUE-2 – Το ROUGE-2 αξιολογεί την επικάλυψη διγραμμάτων (ζευγών γειτονικών λέξεων) μεταξύ μιας σύνοψης που δημιουργείται και μιας σύνοψης αναφοράς. Για παράδειγμα, εάν η περίληψη αναφοράς έχει "Η γάτα κοιμάται" και η σύνοψη που δημιουργείται είναι "Μια γάτα κοιμάται", το ROUGE-2 θα προσδιόριζε το "γάτα είναι" και το "κοιμάται" ως επικαλυπτόμενο διγράμμα. Το ROUGE-2 παρέχει πληροφορίες σχετικά με το πόσο καλά η σύνοψη που δημιουργείται διατηρεί τη σειρά και το περιβάλλον των ζευγών λέξεων σε σύγκριση με την περίληψη αναφοράς.
  • ROUGE-N μετρική – Το ROUGE-N είναι μια γενικευμένη μορφή όπου το N αντιπροσωπεύει οποιονδήποτε αριθμό, επιτρέποντας την αξιολόγηση με βάση n-γραμμάρια (ακολουθίες N λέξεων). Λαμβάνοντας υπόψη το N=3, εάν η σύνοψη αναφοράς αναφέρει "Ο ήλιος λάμπει έντονα" και η σύνοψη που δημιουργείται είναι "Ο ήλιος λάμπει έντονα", το ROUGE-3 θα αναγνώριζε το "sun που λάμπει έντονα" ως αντίστοιχο τρίγραμμα. Το ROUGE-N προσφέρει ευελιξία στην αξιολόγηση περιλήψεων με βάση διαφορετικά μήκη ακολουθιών λέξεων, παρέχοντας μια πιο ολοκληρωμένη αξιολόγηση της επικάλυψης περιεχομένου.

Αυτά τα παραδείγματα επεξηγούν πώς λειτουργούν οι μετρήσεις ROUGE-1, ROUGE-2 και ROUGE-N στην αξιολόγηση των εργασιών αυτόματης σύνοψης ή μηχανικής μετάφρασης συγκρίνοντας περιλήψεις που δημιουργούνται με περιλήψεις αναφοράς που βασίζονται σε διαφορετικά επίπεδα ακολουθιών λέξεων.

Υπολογίστε μια βαθμολογία ROUGE-N

Μπορείτε να χρησιμοποιήσετε τα παρακάτω βήματα για να υπολογίσετε μια βαθμολογία ROUGE-N:

  1. Προσαρμόστε τη σύνοψη που δημιουργείται και τη σύνοψη αναφοράς σε μεμονωμένες λέξεις ή διακριτικά χρησιμοποιώντας βασικές μεθόδους δημιουργίας διακριτικών, όπως διαχωρισμός κατά κενό διάστημα ή βιβλιοθήκες επεξεργασίας φυσικής γλώσσας (NLP).
  2. Δημιουργήστε n-γραμμάρια (συνεχείς ακολουθίες Ν λέξεων) τόσο από τη σύνοψη που δημιουργήθηκε όσο και από την περίληψη αναφοράς.
  3. Μετρήστε τον αριθμό των επικαλυπτόμενων n-γραμμαρίων μεταξύ της σύνοψης που δημιουργήθηκε και της περίληψης αναφοράς.
  4. Υπολογίστε την ακρίβεια, την ανάκληση και τη βαθμολογία F1:
    • Ακρίβεια – Ο αριθμός των επικαλυπτόμενων n-γραμμαρίων διαιρεμένος με τον συνολικό αριθμό των n-γραμμαρίων στη σύνοψη που δημιουργήθηκε.
    • Ανάκληση – Ο αριθμός των επικαλυπτόμενων n-γραμμαρίων διαιρεμένος με τον συνολικό αριθμό των n-γραμμαρίων στην περίληψη αναφοράς.
    • Βαθμολογία F1 – Ο αρμονικός μέσος όρος ακρίβειας και ανάκλησης, που υπολογίζεται ως (2 * ακρίβεια * ανάκληση) / (ακρίβεια + ανάκληση).
  5. Η συνολική βαθμολογία F1 που προκύπτει από τον υπολογισμό της ακρίβειας, της ανάκλησης και της βαθμολογίας F1 για κάθε σειρά στο σύνολο δεδομένων θεωρείται ως η βαθμολογία ROUGE-N.

Περιορισμοί

Το ROGUE έχει τους ακόλουθους περιορισμούς:

  • Περιορισμένη εστίαση στη λεξιλογική επικάλυψη – Η βασική ιδέα πίσω από το ROUGE είναι να συγκρίνετε τη σύνοψη που δημιουργείται από το σύστημα με ένα σύνολο περιλήψεων αναφοράς ή που δημιουργήθηκαν από τον άνθρωπο και να μετρήσετε τη λεξιλογική επικάλυψη μεταξύ τους. Αυτό σημαίνει ότι το ROUGE έχει μια πολύ στενή εστίαση στην ομοιότητα σε επίπεδο λέξης. Στην πραγματικότητα δεν αξιολογεί το σημασιολογικό νόημα, τη συνοχή ή την αναγνωσιμότητα της περίληψης. Ένα σύστημα θα μπορούσε να επιτύχει υψηλές βαθμολογίες ROUGE εξάγοντας απλώς προτάσεις λέξη προς λέξη από το αρχικό κείμενο, χωρίς να δημιουργεί μια συνεκτική ή συνοπτική περίληψη.
  • Αναισθησία στην παράφραση – Επειδή το ROUGE βασίζεται στη λεξιλογική αντιστοίχιση, δεν μπορεί να εντοπίσει σημασιολογική ισοδυναμία μεταξύ λέξεων και φράσεων. Ως εκ τούτου, η παράφραση και η χρήση συνωνύμων συχνά οδηγεί σε χαμηλότερες βαθμολογίες ROUGE, ακόμη και αν διατηρηθεί το νόημα. Αυτό θέτει σε μειονεκτική θέση τα συστήματα που παραφράζουν ή συνοψίζουν με αφαιρετικό τρόπο.
  • Έλλειψη σημασιολογικής κατανόησης – Το ROUGE δεν αξιολογεί εάν το σύστημα κατανοούσε πραγματικά τις έννοιες και τις έννοιες στο αρχικό κείμενο. Μια περίληψη θα μπορούσε να επιτύχει υψηλή λεξιλογική επικάλυψη με αναφορές, ενώ λείπουν οι κύριες ιδέες ή περιέχει πραγματικές ασυνέπειες. Ο ROUGE δεν θα προσδιόριζε αυτά τα ζητήματα.

Πότε να χρησιμοποιήσετε το ROUGE

Το ROUGE είναι απλό και γρήγορο στον υπολογισμό. Χρησιμοποιήστε το ως βάση ή ως σημείο αναφοράς για την ποιότητα σύνοψης που σχετίζεται με την επιλογή περιεχομένου. Οι μετρήσεις ROUGE χρησιμοποιούνται πιο αποτελεσματικά σε σενάρια που περιλαμβάνουν εργασίες αφηρημένης σύνοψης, αξιολόγηση αυτόματης σύνοψης, αξιολογήσεις LLM και συγκριτικές αναλύσεις διαφορετικών προσεγγίσεων περίληψης. Χρησιμοποιώντας τις μετρήσεις ROUGE σε αυτά τα πλαίσια, οι ενδιαφερόμενοι μπορούν να αξιολογήσουν ποσοτικά την ποιότητα και την αποτελεσματικότητα των διαδικασιών σύνοψης παραγωγής.

Μέτρηση για την αξιολόγηση της μετάφρασης με ρητή σειρά (METEOR)

Μία από τις κύριες προκλήσεις στην αξιολόγηση των συστημάτων περίληψης είναι η αξιολόγηση του πόσο καλά ρέει λογικά η παραγόμενη σύνοψη, αντί να επιλέγουμε απλώς σχετικές λέξεις και φράσεις από το κείμενο πηγής. Η απλή εξαγωγή σχετικών λέξεων-κλειδιών και προτάσεων δεν παράγει απαραίτητα μια συνεκτική και συνεκτική περίληψη. Η περίληψη πρέπει να ρέει ομαλά και να συνδέει τις ιδέες λογικά, ακόμα κι αν δεν παρουσιάζονται με την ίδια σειρά με το αρχικό έγγραφο.

Η ευελιξία της αντιστοίχισης με τη μείωση των λέξεων στη ρίζα ή τη βασική τους μορφή (Για παράδειγμα, μετά το stemming, λέξεις όπως «τρέχω», «τρέχω» και «τρέχω» γίνονται όλες «τρέχω») και συνώνυμα σημαίνει METEOR συσχετίζεται καλύτερα με ανθρώπινες κρίσεις συνοπτικής ποιότητας. Μπορεί να προσδιορίσει εάν διατηρείται σημαντικό περιεχόμενο, ακόμη και αν η διατύπωση διαφέρει. Αυτό είναι ένα βασικό πλεονέκτημα έναντι των μετρήσεων που βασίζονται σε n-gram, όπως το ROUGE, που αναζητούν μόνο ακριβείς αντιστοιχίσεις διακριτικών. Το METEOR δίνει επίσης υψηλότερες βαθμολογίες σε περιλήψεις που εστιάζουν στο πιο σημαντικό περιεχόμενο από την αναφορά. Χαμηλότερες βαθμολογίες δίνονται σε επαναλαμβανόμενες ή άσχετες πληροφορίες. Αυτό ευθυγραμμίζεται καλά με τον στόχο της σύνοψης για τη διατήρηση μόνο του πιο σημαντικού περιεχομένου. Το METEOR είναι μια σημασιολογικά σημαντική μέτρηση που μπορεί να ξεπεράσει ορισμένους από τους περιορισμούς της αντιστοίχισης n-gram για την αξιολόγηση της σύνοψης κειμένου. Η ενσωμάτωση βασικών και συνωνύμων επιτρέπει την καλύτερη αξιολόγηση της επικάλυψης πληροφοριών και της ακρίβειας του περιεχομένου.

Για να το δείξετε αυτό, εξετάστε τα ακόλουθα παραδείγματα:

Περίληψη αναφοράς: Τα φύλλα πέφτουν το φθινόπωρο.

Σύνοψη που δημιουργήθηκε 1: Τα φύλλα πέφτουν το φθινόπωρο.

Σύνοψη που δημιουργήθηκε 2: Πράσινα φύλλα το καλοκαίρι.

Οι λέξεις που ταιριάζουν μεταξύ της αναφοράς και της δημιουργούμενης σύνοψης 1 επισημαίνονται:

Περίληψη αναφοράς: Φύλλα πτώση κατά τη διάρκεια του φθινοπώρου.

Σύνοψη που δημιουργήθηκε 1: Φύλλα πέσε μέσα πτώση.

Παρόλο που το "φθινόπωρο" και το "φθινόπωρο" είναι διαφορετικά διακριτικά, το METEOR τα αναγνωρίζει ως συνώνυμα μέσω της αντιστοίχισης συνωνύμων του. Το "Drop" και το "fall" προσδιορίζονται ως αντιστοιχία με βλαστικά. Για τη σύνοψη 2 που δημιουργήθηκε, δεν υπάρχουν αντιστοιχίσεις με τη σύνοψη αναφοράς εκτός από τα "Φύλλα", επομένως αυτή η σύνοψη θα λάβει πολύ χαμηλότερη βαθμολογία METEOR. Όσο πιο σημασιολογικά σημαντικές αντιστοιχίσεις, τόσο υψηλότερη είναι η βαθμολογία METEOR. Αυτό επιτρέπει στο METEOR να αξιολογεί καλύτερα το περιεχόμενο και την ακρίβεια των περιλήψεων σε σύγκριση με την απλή αντιστοίχιση n-gram.

Υπολογίστε μια βαθμολογία METEOR

Ολοκληρώστε τα παρακάτω βήματα για να υπολογίσετε τη βαθμολογία METEOR:

  1. Προσαρμόστε τη σύνοψη που δημιουργήθηκε και τη σύνοψη αναφοράς σε μεμονωμένες λέξεις ή διακριτικά χρησιμοποιώντας βασικές μεθόδους δημιουργίας διακριτικών, όπως διαχωρισμός κατά κενό διάστημα ή βιβλιοθήκες NLP.
  2. Υπολογίστε την ακρίβεια μονόγραμμα, την ανάκληση και τη μέση βαθμολογία F, δίνοντας μεγαλύτερη βαρύτητα στην ανάκληση παρά στην ακρίβεια.
  3. Εφαρμόστε ποινή για ακριβείς αγώνες για να αποφύγετε την υπερβολική έμφαση. Η ποινή επιλέγεται με βάση τα χαρακτηριστικά του συνόλου δεδομένων, τις απαιτήσεις εργασιών και την ισορροπία μεταξύ ακρίβειας και ανάκλησης. Αφαιρέστε αυτήν την ποινή από τη μέση βαθμολογία F που υπολογίστηκε στο Βήμα 2.
  4. Υπολογίστε τη μέση βαθμολογία F για μορφές με στέλεχος (μειώνοντας τις λέξεις στη βάση ή τη ρίζα τους) και τα συνώνυμα για τα μονογράμματα όπου ισχύει. Συγκεντρώστε το με την προηγουμένως υπολογισμένη βαθμολογία F-mean για να λάβετε την τελική βαθμολογία METEOR. Η βαθμολογία METEOR κυμαίνεται από 0–1, όπου το 0 υποδηλώνει καμία ομοιότητα μεταξύ της σύνοψης που δημιουργήθηκε και της σύνοψης αναφοράς και το 1 υποδηλώνει τέλεια ευθυγράμμιση. Συνήθως, οι βαθμολογίες περίληψης πέφτουν μεταξύ 0-0.6.

Περιορισμοί

Όταν χρησιμοποιείται η μέτρηση METEOR για την αξιολόγηση των εργασιών σύνοψης, ενδέχεται να προκύψουν διάφορες προκλήσεις:

  • Σημασιολογική πολυπλοκότητα – Η έμφαση του METEOR στη σημασιολογική ομοιότητα μπορεί να δυσκολευτεί να συλλάβει τις αποχρώσεις και το πλαίσιο σε περίπλοκες εργασίες περίληψης, οδηγώντας ενδεχομένως σε ανακρίβειες στην αξιολόγηση.
  • Μεταβλητότητα αναφοράς – Η μεταβλητότητα στις περιλήψεις αναφοράς που δημιουργούνται από τον άνθρωπο μπορεί να επηρεάσει τις βαθμολογίες METEOR, επειδή οι διαφορές στο περιεχόμενο αναφοράς μπορεί να επηρεάσουν την αξιολόγηση των περιλήψεων που δημιουργούνται από μηχανή.
  • Γλωσσική πολυμορφία – Η αποτελεσματικότητα του METEOR μπορεί να διαφέρει μεταξύ των γλωσσών λόγω γλωσσικών παραλλαγών, συντακτικών διαφορών και σημασιολογικών αποχρώσεων, θέτοντας προκλήσεις στις πολυγλωσσικές αξιολογήσεις περίληψης.
  • Ασυμφωνία μήκους – Η αξιολόγηση περιλήψεων διαφορετικού μήκους μπορεί να είναι πρόκληση για το METEOR, επειδή οι αποκλίσεις στο μήκος σε σύγκριση με την περίληψη αναφοράς μπορεί να οδηγήσουν σε κυρώσεις ή ανακρίβειες στην αξιολόγηση.
  • Ρύθμιση παραμέτρων – Η βελτιστοποίηση των παραμέτρων του METEOR για διαφορετικά σύνολα δεδομένων και εργασίες σύνοψης μπορεί να είναι χρονοβόρα και απαιτεί προσεκτική ρύθμιση για να βεβαιωθείτε ότι η μέτρηση παρέχει ακριβείς αξιολογήσεις.
  • Μεροληψία αξιολόγησης – Υπάρχει κίνδυνος μεροληψίας αξιολόγησης με το METEOR εάν δεν ρυθμιστεί ή βαθμονομηθεί σωστά για συγκεκριμένους τομείς ή εργασίες σύνοψης. Αυτό μπορεί ενδεχομένως να οδηγήσει σε λοξά αποτελέσματα και να επηρεάσει την αξιοπιστία της διαδικασίας αξιολόγησης.

Έχοντας επίγνωση αυτών των προκλήσεων και λαμβάνοντας υπόψη τους όταν χρησιμοποιούν το METEOR ως μέτρηση για εργασίες σύνοψης, οι ερευνητές και οι επαγγελματίες μπορούν να περιηγηθούν σε πιθανούς περιορισμούς και να λάβουν πιο ενημερωμένες αποφάσεις στις διαδικασίες αξιολόγησής τους.

Πότε να χρησιμοποιήσετε το METEOR

Το METEOR χρησιμοποιείται συνήθως για την αυτόματη αξιολόγηση της ποιότητας των περιλήψεων κειμένου. Είναι προτιμότερο να χρησιμοποιείται το METEOR ως μέτρηση αξιολόγησης όταν έχει σημασία η σειρά των ιδεών, των εννοιών ή των οντοτήτων στη σύνοψη. Το METEOR εξετάζει τη σειρά και αντιστοιχίζει n-γραμμάρια μεταξύ της σύνοψης που δημιουργείται και των περιλήψεων αναφοράς. Επιβραβεύει περιλήψεις που διατηρούν διαδοχικές πληροφορίες. Σε αντίθεση με τις μετρήσεις όπως το ROUGE, οι οποίες βασίζονται στην επικάλυψη n-γραμμαρίων με περιλήψεις αναφοράς, το METEOR ταιριάζει με στελέχη, συνώνυμα και παραφράσεις. Το METEOR λειτουργεί καλύτερα όταν υπάρχουν πολλοί σωστοί τρόποι σύνοψης του αρχικού κειμένου. Το METEOR ενσωματώνει συνώνυμα του WordNet και στοιχειώδεις δείκτες κατά την αντιστοίχιση n-γραμμαρίων. Εν ολίγοις, οι περιλήψεις που είναι σημασιολογικά παρόμοιες αλλά χρησιμοποιούν διαφορετικές λέξεις ή φράσεις θα εξακολουθούν να έχουν καλή βαθμολογία. Το METEOR έχει ενσωματωμένη ποινή για περιλήψεις με επαναλαμβανόμενα n-γραμμάρια. Ως εκ τούτου, αποθαρρύνει την εξαγωγή λέξη προς λέξη ή την έλλειψη αφαίρεσης. Το METEOR είναι μια καλή επιλογή όταν η σημασιολογική ομοιότητα, η σειρά των ιδεών και η άπταιστη διατύπωση είναι σημαντικές για την αξιολόγηση της ποιότητας της περίληψης. Είναι λιγότερο κατάλληλο για εργασίες όπου έχει σημασία μόνο η λεξιλογική επικάλυψη με τις περιλήψεις αναφοράς.

BERTScore

Τα λεξιλογικά μέτρα σε επίπεδο επιφάνειας όπως το ROUGE και το METEOR αξιολογούν τα συστήματα σύνοψης συγκρίνοντας την επικάλυψη λέξεων μεταξύ μιας υποψήφιας περίληψης και μιας περίληψης αναφοράς. Ωστόσο, βασίζονται σε μεγάλο βαθμό στην ακριβή αντιστοίχιση συμβολοσειρών μεταξύ λέξεων και φράσεων. Αυτό σημαίνει ότι μπορεί να χάνουν σημασιολογικές ομοιότητες μεταξύ λέξεων και φράσεων που έχουν διαφορετικές επιφανειακές μορφές αλλά παρόμοιες υποκείμενες έννοιες. Βασιζόμενοι μόνο στην αντιστοίχιση επιφανειών, αυτές οι μετρήσεις ενδέχεται να υποτιμούν την ποιότητα των περιλήψεων συστημάτων που χρησιμοποιούν συνώνυμες λέξεις ή παραφράζουν έννοιες διαφορετικά από τις περιλήψεις αναφοράς. Δύο περιλήψεις θα μπορούσαν να μεταφέρουν σχεδόν πανομοιότυπες πληροφορίες, αλλά να λαμβάνουν χαμηλές βαθμολογίες σε επίπεδο επιφάνειας λόγω διαφορών στο λεξιλόγιο.

BERTScore είναι ένας τρόπος αυτόματης αξιολόγησης του πόσο καλή είναι μια περίληψη συγκρίνοντάς την με μια περίληψη αναφοράς που έχει γράψει ένας άνθρωπος. Χρησιμοποιεί το BERT, μια δημοφιλή τεχνική NLP, για να κατανοήσει τη σημασία και το πλαίσιο των λέξεων στην περίληψη υποψηφίων και στην περίληψη αναφοράς. Συγκεκριμένα, εξετάζει κάθε λέξη ή διακριτικό στην περίληψη υποψηφίου και βρίσκει την πιο παρόμοια λέξη στην περίληψη αναφοράς με βάση τις ενσωματώσεις BERT, οι οποίες είναι διανυσματικές αναπαραστάσεις της σημασίας και του πλαισίου κάθε λέξης. Μετρά την ομοιότητα χρησιμοποιώντας ομοιότητα συνημιτόνου, η οποία λέει πόσο κοντά είναι τα διανύσματα μεταξύ τους. Για κάθε λέξη στην περίληψη του υποψηφίου, βρίσκει την πιο σχετική λέξη στην περίληψη αναφοράς χρησιμοποιώντας τη γλώσσα που κατανοεί ο BERT. Συγκρίνει όλες αυτές τις ομοιότητες λέξεων σε ολόκληρη την περίληψη για να πάρει μια συνολική βαθμολογία για το πόσο σημασιολογικά παρόμοια είναι η περίληψη του υποψηφίου με την περίληψη αναφοράς. Όσο πιο όμοιες είναι οι λέξεις και οι έννοιες που αποτυπώνει ο BERT, τόσο υψηλότερο είναι το BERTScore. Αυτό του επιτρέπει να αξιολογεί αυτόματα την ποιότητα μιας σύνοψης που δημιουργείται συγκρίνοντάς την με ανθρώπινη αναφορά χωρίς να χρειάζεται ανθρώπινη αξιολόγηση κάθε φορά.

Για να το δείξετε αυτό, φανταστείτε ότι έχετε μια σύνοψη που δημιουργήθηκε από μηχανή: «Η γρήγορη καφετιά αλεπού πηδά πάνω από τον τεμπέλικο σκύλο». Τώρα, ας εξετάσουμε μια σύνοψη αναφοράς κατασκευασμένη από τον άνθρωπο: «Μια γρήγορη καφέ αλεπού πηδά πάνω από έναν σκύλο που κοιμάται».

Υπολογίστε ένα BERTScore

Ολοκληρώστε τα παρακάτω βήματα για να υπολογίσετε ένα BERTScore:

  1. Το BERTScore χρησιμοποιεί ενσωματώσεις με βάση τα συμφραζόμενα για να αναπαραστήσει κάθε διακριτικό τόσο στις υποψήφιες (μηχανικά δημιουργημένες) όσο και στις προτάσεις αναφοράς (ανθρώπινα δημιουργημένα). Οι ενσωματώσεις με βάση τα συμφραζόμενα είναι ένας τύπος αναπαράστασης λέξεων στο NLP που αποτυπώνει το νόημα μιας λέξης με βάση το περιεχόμενό της μέσα σε μια πρόταση ή κείμενο. Σε αντίθεση με τις παραδοσιακές ενσωματώσεις λέξεων που εκχωρούν ένα σταθερό διάνυσμα σε κάθε λέξη ανεξάρτητα από το συμφραζόμενό της, οι ενσωματώσεις με βάση τα συμφραζόμενα θεωρούν ότι οι γύρω λέξεις δημιουργούν μια μοναδική αναπαράσταση για κάθε λέξη ανάλογα με τον τρόπο χρήσης της σε μια συγκεκριμένη πρόταση.
  2. Στη συνέχεια, η μέτρηση υπολογίζει την ομοιότητα μεταξύ κάθε διακριτικού στην υποψήφια πρόταση με κάθε διακριτικό στην πρόταση αναφοράς χρησιμοποιώντας ομοιότητα συνημιτόνου. Η ομοιότητα συνημιτονίου μας βοηθά να ποσοτικοποιήσουμε πόσο στενά συνδέονται δύο σύνολα δεδομένων εστιάζοντας στην κατεύθυνση που δείχνουν σε έναν πολυδιάστατο χώρο, καθιστώντας το πολύτιμο εργαλείο για εργασίες όπως αλγόριθμοι αναζήτησης, NLP και συστήματα συστάσεων.
  3. Συγκρίνοντας τις ενσωματώσεις με βάση τα συμφραζόμενα και υπολογισμούς βαθμολογίες ομοιότητας για όλα τα διακριτικά, το BERTScore δημιουργεί μια ολοκληρωμένη αξιολόγηση που καταγράφει τη σημασιολογική συνάφεια και το πλαίσιο της σύνοψης που δημιουργείται σε σύγκριση με την αναφορά που έχει δημιουργηθεί από τον άνθρωπο.
  4. Η τελική έξοδος BERTScore παρέχει μια βαθμολογία ομοιότητας που αντικατοπτρίζει πόσο καλά η σύνοψη που δημιουργείται από μηχανή ευθυγραμμίζεται με τη σύνοψη αναφοράς όσον αφορά το νόημα και το πλαίσιο.

Ουσιαστικά, το BERTScore υπερβαίνει τις παραδοσιακές μετρήσεις λαμβάνοντας υπόψη τις σημασιολογικές αποχρώσεις και το πλαίσιο των προτάσεων, προσφέροντας μια πιο περίπλοκη αξιολόγηση που αντικατοπτρίζει στενά την ανθρώπινη κρίση. Αυτή η προηγμένη προσέγγιση ενισχύει την ακρίβεια και την αξιοπιστία της αξιολόγησης των εργασιών σύνοψης, καθιστώντας το BERTScore ένα πολύτιμο εργαλείο για την αξιολόγηση των συστημάτων παραγωγής κειμένου.

Περιορισμοί:

Αν και το BERTScore προσφέρει σημαντικά πλεονεκτήματα στην αξιολόγηση των εργασιών σύνοψης, συνοδεύεται επίσης από ορισμένους περιορισμούς που πρέπει να ληφθούν υπόψη:

  • Υπολογιστική ένταση – Το BERTScore μπορεί να είναι υπολογιστικά εντατικό λόγω της εξάρτησής του από προεκπαιδευμένα γλωσσικά μοντέλα όπως το BERT. Αυτό μπορεί να οδηγήσει σε μεγαλύτερους χρόνους αξιολόγησης, ειδικά κατά την επεξεργασία μεγάλων όγκων δεδομένων κειμένου.
  • Εξάρτηση από προεκπαιδευμένα μοντέλα – Η αποτελεσματικότητα του BERTScore εξαρτάται σε μεγάλο βαθμό από την ποιότητα και τη συνάφεια του προεκπαιδευμένου γλωσσικού μοντέλου που χρησιμοποιείται. Σε σενάρια όπου το εκ των προτέρων εκπαιδευμένο μοντέλο μπορεί να μην αποτυπώνει επαρκώς τις αποχρώσεις του κειμένου, τα αποτελέσματα της αξιολόγησης ενδέχεται να επηρεαστούν.
  • Απεριόριστες δυνατότητες – Η κλιμάκωση του BERTScore για μεγάλα σύνολα δεδομένων ή εφαρμογές σε πραγματικό χρόνο μπορεί να είναι δύσκολη λόγω των υπολογιστικών του απαιτήσεων. Η εφαρμογή του BERTScore σε περιβάλλοντα παραγωγής μπορεί να απαιτεί στρατηγικές βελτιστοποίησης για την παροχή αποτελεσματικής απόδοσης.
  • Ειδικότητα τομέα – Η απόδοση του BERTScore μπορεί να διαφέρει σε διαφορετικούς τομείς ή εξειδικευμένους τύπους κειμένου. Η προσαρμογή της μέτρησης σε συγκεκριμένους τομείς ή εργασίες ενδέχεται να απαιτεί λεπτομέρεια ή προσαρμογές για την παραγωγή ακριβών αξιολογήσεων.
  • Ερμηνευσιμότητα – Παρόλο που το BERTScore παρέχει μια ολοκληρωμένη αξιολόγηση που βασίζεται σε ενσωματώσεις με βάση τα συμφραζόμενα, η ερμηνεία των συγκεκριμένων λόγων πίσω από τις βαθμολογίες ομοιότητας που δημιουργούνται για κάθε διακριτικό μπορεί να είναι περίπλοκη και μπορεί να απαιτεί πρόσθετη ανάλυση.
  • Αξιολόγηση χωρίς αναφορά – Παρόλο που το BERTScore μειώνει την εξάρτηση από τις περιλήψεις αναφοράς για την αξιολόγηση, αυτή η προσέγγιση χωρίς αναφορά ενδέχεται να μην καταγράφει πλήρως όλες τις πτυχές της ποιότητας της σύνοψης, ιδιαίτερα σε σενάρια όπου οι ανθρωπογενείς αναφορές είναι απαραίτητες για την αξιολόγηση της συνάφειας και της συνοχής του περιεχομένου.

Η αναγνώριση αυτών των περιορισμών μπορεί να σας βοηθήσει να λάβετε τεκμηριωμένες αποφάσεις όταν χρησιμοποιείτε το BERTScore ως μέτρηση για την αξιολόγηση των εργασιών σύνοψης, παρέχοντας μια ισορροπημένη κατανόηση των δυνατών και των περιορισμών του.

Πότε να χρησιμοποιήσετε το BERTScore

Το BERTScore μπορεί να αξιολογήσει την ποιότητα της σύνοψης κειμένου συγκρίνοντας μια σύνοψη που δημιουργείται με μια περίληψη αναφοράς. Χρησιμοποιεί νευρωνικά δίκτυα όπως το BERT για τη μέτρηση της σημασιολογικής ομοιότητας πέρα ​​από την ακριβή αντιστοίχιση λέξεων ή φράσεων. Αυτό κάνει το BERTScore πολύ χρήσιμο όταν η σημασιολογική πιστότητα που διατηρεί το πλήρες νόημα και το περιεχόμενο είναι κρίσιμης σημασίας για την εργασία σύνοψής σας. Το BERTScore θα δώσει υψηλότερες βαθμολογίες σε περιλήψεις που μεταφέρουν τις ίδιες πληροφορίες με την περίληψη αναφοράς, ακόμα κι αν χρησιμοποιούν διαφορετικές λέξεις και δομές προτάσεων. Το συμπέρασμα είναι ότι το BERTScore είναι ιδανικό για εργασίες σύνοψης όπου είναι ζωτικής σημασίας η διατήρηση της πλήρους σημασιολογικής σημασίας και όχι μόνο των λέξεων-κλειδιών ή των θεμάτων. Η προηγμένη νευρωνική βαθμολόγηση του επιτρέπει να συγκρίνει νόημα πέρα ​​από την αντιστοίχιση λέξεων σε επίπεδο επιφάνειας. Αυτό το καθιστά κατάλληλο για περιπτώσεις όπου οι λεπτές διαφορές στη διατύπωση μπορούν να αλλάξουν ουσιαστικά το συνολικό νόημα και τις επιπτώσεις. Το BERTScore, ειδικότερα, διαπρέπει στην αποτύπωση της σημασιολογικής ομοιότητας, η οποία είναι ζωτικής σημασίας για την αξιολόγηση της ποιότητας των αφηρητικών περιλήψεων όπως αυτές που παράγονται από μοντέλα Augmented Generation (RAG).

Πρότυπα πλαίσια αξιολόγησης

Τα πλαίσια αξιολόγησης μοντέλων είναι απαραίτητα για την ακριβή μέτρηση της απόδοσης διαφόρων μοντέλων περίληψης. Αυτά τα πλαίσια είναι καθοριστικής σημασίας για τη σύγκριση μοντέλων, παρέχοντας συνοχή μεταξύ των παραγόμενων περιλήψεων και του περιεχομένου της πηγής και τον εντοπισμό των ελλείψεων στις μεθόδους αξιολόγησης. Διεξάγοντας ενδελεχείς αξιολογήσεις και συνεπή συγκριτική αξιολόγηση, αυτά τα πλαίσια προωθούν την έρευνα σύνοψης κειμένων, υποστηρίζοντας τυποποιημένες πρακτικές αξιολόγησης και επιτρέποντας πολύπλευρες συγκρίσεις μοντέλων.

Στο AWS, το Βιβλιοθήκη FMEval εντός Amazon SageMaker Clerify βελτιστοποιεί την αξιολόγηση και την επιλογή των μοντέλων θεμελίωσης (FM) για εργασίες όπως η σύνοψη κειμένου, η απάντηση σε ερωτήσεις και η ταξινόμηση. Σας δίνει τη δυνατότητα να αξιολογείτε τα FM με βάση μετρήσεις όπως η ακρίβεια, η ευρωστία, η δημιουργικότητα, η μεροληψία και η τοξικότητα, υποστηρίζοντας τόσο τις αυτοματοποιημένες όσο και τις ανθρώπινες αξιολογήσεις για LLM. Με αξιολογήσεις που βασίζονται στο περιβάλλον χρήστη ή μέσω προγραμματισμού, το FMEval δημιουργεί λεπτομερείς αναφορές με οπτικοποιήσεις για να ποσοτικοποιήσει τους κινδύνους του μοντέλου όπως ανακρίβειες, τοξικότητα ή μεροληψία, βοηθώντας τους οργανισμούς να ευθυγραμμιστούν με τις υπεύθυνες κατευθυντήριες γραμμές τεχνητής νοημοσύνης. Σε αυτήν την ενότητα, παρουσιάζουμε πώς να χρησιμοποιήσετε τη βιβλιοθήκη FMEval.

Αξιολογήστε το Claude v2 σχετικά με την ακρίβεια της σύνοψης χρησιμοποιώντας το Amazon Bedrock

Το παρακάτω απόσπασμα κώδικα είναι ένα παράδειγμα του τρόπου αλληλεπίδρασης με το μοντέλο Anthropic Claude χρησιμοποιώντας κώδικα Python:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

Με απλά λόγια, αυτός ο κώδικας εκτελεί τις ακόλουθες ενέργειες:

  1. Εισαγάγετε τις απαραίτητες βιβλιοθήκες, συμπεριλαμβανομένων json, για εργασία με δεδομένα JSON.
  2. Ορίστε το αναγνωριστικό μοντέλου ως anthropic.claude-v2 και ορίστε τον τύπο περιεχομένου για το αίτημα.
  3. Δημιουργία prompt_data μεταβλητή που δομεί τα δεδομένα εισόδου για το μοντέλο Claude. Σε αυτή την περίπτωση, θέτει το ερώτημα "Ποιος είναι ο Μπαράκ Ομπάμα;" και αναμένει ανταπόκριση από το μοντέλο.
  4. Κατασκευάστε ένα αντικείμενο JSON με το όνομα σώμα που περιλαμβάνει τα δεδομένα προτροπής και καθορίστε πρόσθετες παραμέτρους όπως ο μέγιστος αριθμός διακριτικών που θα δημιουργηθούν.
  5. Επικαλέστε το μοντέλο Claude χρησιμοποιώντας bedrock_runtime.invoke_model με τις καθορισμένες παραμέτρους.
  6. Αναλύστε την απάντηση από το μοντέλο, εξαγάγετε τη συμπλήρωση (δημιουργημένο κείμενο) και εκτυπώστε την.

Βεβαιωθείτε ότι η Διαχείριση ταυτότητας και πρόσβασης AWS (IAM) ρόλος που σχετίζεται με το Στούντιο Amazon SageMaker το προφίλ χρήστη έχει πρόσβαση στο Θεμέλιο του Αμαζονίου μοντέλα που επικαλούνται. Αναφέρομαι σε Παραδείγματα πολιτικής βάσει ταυτότητας για το Amazon Bedrock για καθοδήγηση σχετικά με τις βέλτιστες πρακτικές και παραδείγματα πολιτικών που βασίζονται στην ταυτότητα για το Amazon Bedrock.

Χρησιμοποιώντας τη βιβλιοθήκη FMEval για την αξιολόγηση της συνοπτικής εξόδου από τον Claude

Χρησιμοποιούμε τον ακόλουθο κώδικα για να αξιολογήσουμε τη συνοπτική έξοδο:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

Στο προηγούμενο απόσπασμα κώδικα, για να αξιολογήσουμε τη σύνοψη κειμένου χρησιμοποιώντας τη βιβλιοθήκη FMEval, ολοκληρώνουμε τα ακόλουθα βήματα:

  1. Δημιουργία ModelRunner για να εκτελέσετε επίκληση στο LLM σας. Η βιβλιοθήκη FMEval παρέχει ενσωματωμένη υποστήριξη για Amazon Sage Maker καταληκτικά σημεία και Amazon SageMaker JumpStart LLMs. Μπορείτε επίσης να επεκτείνετε το ModelRunner διεπαφή για οποιοδήποτε LLM που φιλοξενείται οπουδήποτε.
  2. Υποστηρίζεται η χρήση eval_algorithms όπως η τοξικότητα, η περίληψη, η ακρίβεια, η σημασιολογία και η ευρωστία, με βάση τις ανάγκες αξιολόγησής σας.
  3. Προσαρμόστε τις παραμέτρους διαμόρφωσης αξιολόγησης για τη συγκεκριμένη περίπτωση χρήσης σας.
  4. Χρησιμοποιήστε τον αλγόριθμο αξιολόγησης είτε με ενσωματωμένα είτε με προσαρμοσμένα σύνολα δεδομένων για να αξιολογήσετε το μοντέλο LLM σας. Το σύνολο δεδομένων που χρησιμοποιείται σε αυτήν την περίπτωση προέρχεται από τα ακόλουθα GitHub repo.

Αναφέρομαι στο οδηγός προγραμματιστή και παραδείγματα για λεπτομερή χρήση αλγορίθμων αξιολόγησης.

Ο παρακάτω πίνακας συνοψίζει τα αποτελέσματα της αξιολόγησης.

μοντέλο _εισαγωγή model_output στόχος_εξόδου έγκαιρη αποτελέσματα meteor_score rouge_score bert_score
John Edward
0 Bates, πρώην Spalding, Linco…..
Δεν μπορώ να κάνω κάποιο οριστικό
κρίσεις, όπως ο…
Ενας πρώην
Αξιωματικός της αστυνομίας του Lincolnshire μετέφερε…
Άνθρωπος: Γιάννης
Edward Bates, πρώην Spalding…
[{'name': 'meteor', 'value':
0.101010101010101 ...
0.10101 0 0.557155
23 2015 Οκτωβρίου
Τελευταία ενημέρωση στο
17:44 BST|δεν...
Εδώ είναι μερικά βασικά σημεία σχετικά με τον τυφώνα/τροπ.. Ο τυφώνας Πατρίτσια έχει χαρακτηριστεί ως κατηγορία… Άνθρωπος: 23
Οκτώβριος 2015 Τελευταία ενημέρωση στις 17:44
ΣΙ…
[{'name': meteor', "value":
0.102339181286549 ..
0.102339 0.018265 0.441421
Η Ferrari εμφανίστηκε σε θέση να αμφισβητήσει τον… Εδώ είναι τα βασικά σημεία από το άρθρο:nin… Ο Λιούις Χάμιλτον έφτασε στην pole position στο… Άνθρωπος: Η Ferrari εμφανίστηκε σε θέση να αμφισβητήσει… [{'name': 'meteor', 'value':
0.322543352601156 ...
0.322543 0.078212 0.606487
Ο γεννημένος στο Bath παίκτης, 28 ετών, έχει κάνει 36
εμφανιζόμενος…
Εντάξει, επιτρέψτε μου να συνοψίσω τα βασικά σημεία:/nin- E….. Newport Gwent Dragons νούμερο οκτώ Ed Jackson Human: Ο γεννημένος στο Bath παίκτης, 28 ετών, έχει κάνει 36… [{'name': 'meteor', 'value':
0105740181268882 ...
0.10574 0.012987 0.539488
Αδυναμίες στον τρόπο με τον οποίο τα ποντίκια αντάλλαξαν δεδομένα με c… Εδώ είναι τα βασικά σημεία που συγκέντρωσα από το… Οι χάκερ θα μπορούσαν να αποκτήσουν πρόσβαση στο σπίτι και Ανθρώπινα:
Αδυναμίες στο
Τα ποντίκια swar αντάλλαξαν δεδομένα
[{'name': 'meteor', 'value':
0.201048289433848 ...
0.201048 0.021858 0.526947

Ελέγξτε το δείγμα σημειωματάριο για περισσότερες λεπτομέρειες σχετικά με τη συνοπτική αξιολόγηση που συζητήσαμε σε αυτήν την ανάρτηση.

Συμπέρασμα

Το ROUGE, το METEOR και το BERTScore μετρούν την ποιότητα των περιλήψεων που δημιουργούνται από μηχανή, αλλά εστιάζουν σε διαφορετικές πτυχές όπως η λεξιλογική επικάλυψη, η ευχέρεια ή η σημασιολογική ομοιότητα. Φροντίστε να επιλέξετε τη μέτρηση που ευθυγραμμίζεται με αυτό που ορίζει το "καλό" για τη συγκεκριμένη περίπτωση χρήσης περίληψης. Μπορείτε επίσης να χρησιμοποιήσετε έναν συνδυασμό μετρήσεων. Αυτό παρέχει μια πιο ολοκληρωμένη αξιολόγηση και προφυλάσσει από πιθανές αδυναμίες οποιασδήποτε μεμονωμένης μέτρησης. Με τις σωστές μετρήσεις, μπορείτε να βελτιώσετε επαναληπτικά τους συνοψιστές σας για να ανταποκριθείτε σε οποιαδήποτε έννοια ακρίβειας έχει μεγαλύτερη σημασία.

Επιπλέον, η αξιολόγηση FM και LLM είναι απαραίτητη για να μπορέσουμε να παράγουμε αυτά τα μοντέλα σε κλίμακα. Με το FMEval, λαμβάνετε ένα τεράστιο σύνολο ενσωματωμένων αλγορίθμων σε πολλές εργασίες NLP, αλλά και ένα επεκτάσιμο και ευέλικτο εργαλείο για μεγάλης κλίμακας αξιολογήσεις των δικών σας μοντέλων, συνόλων δεδομένων και αλγορίθμων. Για να αυξήσετε την κλίμακα, μπορείτε να χρησιμοποιήσετε αυτό το πακέτο στους αγωγούς LLMOps αξιολογήσει πολλά μοντέλα. Για να μάθετε περισσότερα σχετικά με το FMEval στο AWS και πώς να το χρησιμοποιήσετε αποτελεσματικά, ανατρέξτε στο Χρησιμοποιήστε το SageMaker Clarify για να αξιολογήσετε μεγάλα μοντέλα γλώσσας. Για περαιτέρω κατανόηση και πληροφορίες σχετικά με τις δυνατότητες του SageMaker Clarify στην αξιολόγηση FM, βλ. Το Amazon SageMaker Clarify διευκολύνει την αξιολόγηση και την επιλογή μοντέλων θεμελίων.


Σχετικά με τους Συγγραφείς


Ντινές Κουμάρ Σουμπραμάνι είναι Senior Solutions Architect με έδρα το Εδιμβούργο της Σκωτίας. Εξειδικεύεται στην τεχνητή νοημοσύνη και τη μηχανική μάθηση και είναι μέλος της κοινότητας τεχνικού τομέα στο Amazon. Η Dinesh συνεργάζεται στενά με πελάτες της Κεντρικής Κυβέρνησης του Ηνωμένου Βασιλείου για την επίλυση των προβλημάτων τους χρησιμοποιώντας τις υπηρεσίες AWS. Εκτός δουλειάς, ο Dinesh απολαμβάνει να περνά ποιοτικό χρόνο με την οικογένειά του, να παίζει σκάκι και να εξερευνά μια μεγάλη ποικιλία μουσικής.


Pranav Sharma είναι ηγέτης της AWS που οδηγεί σε πρωτοβουλίες τεχνολογίας και επιχειρηματικού μετασχηματισμού σε όλη την Ευρώπη, τη Μέση Ανατολή και την Αφρική. Έχει εμπειρία στο σχεδιασμό και τη λειτουργία πλατφορμών τεχνητής νοημοσύνης στην παραγωγή που υποστηρίζουν εκατομμύρια πελάτες και προσφέρουν επιχειρηματικά αποτελέσματα. Έχει παίξει ηγετικούς ρόλους στην τεχνολογία και στους ανθρώπους για οργανισμούς Global Financial Services. Εκτός δουλειάς, του αρέσει να διαβάζει, να παίζει τένις με τον γιο του και να βλέπει ταινίες.

spot_img

Τελευταία Νοημοσύνη

spot_img

Συνομιλία με μας

Γεια σου! Πώς μπορώ να σε βοηθήσω?