Kecerdasan Data Generatif

Evaluasi kemampuan peringkasan teks LLM untuk meningkatkan pengambilan keputusan di AWS | Layanan Web Amazon

Tanggal:

Organisasi di seluruh industri menggunakan peringkasan teks otomatis untuk menangani informasi dalam jumlah besar secara lebih efisien dan membuat keputusan yang lebih baik. Di sektor keuangan, bank investasi menyingkat laporan pendapatan menjadi hal-hal penting untuk menganalisis kinerja triwulanan dengan cepat. Perusahaan media menggunakan rangkuman untuk memantau berita dan media sosial sehingga jurnalis dapat dengan cepat menulis berita tentang isu-isu yang berkembang. Instansi pemerintah merangkum dokumen dan laporan kebijakan yang panjang untuk membantu pembuat kebijakan menyusun strategi dan memprioritaskan tujuan.

Dengan membuat versi ringkas dari dokumen yang panjang dan rumit, teknologi peringkasan memungkinkan pengguna untuk fokus pada konten yang paling menonjol. Hal ini mengarah pada pemahaman dan penyimpanan informasi penting yang lebih baik. Penghematan waktu memungkinkan pemangku kepentingan meninjau lebih banyak materi dalam waktu lebih singkat, sehingga memperoleh perspektif yang lebih luas. Dengan pemahaman yang lebih baik dan wawasan yang lebih tersintesis, organisasi dapat membuat keputusan strategis yang lebih tepat, mempercepat penelitian, meningkatkan produktivitas, dan meningkatkan dampaknya. Kekuatan transformatif dari kemampuan peringkasan tingkat lanjut akan terus berkembang seiring dengan semakin banyaknya industri yang mengadopsi kecerdasan buatan (AI) untuk memanfaatkan arus informasi yang melimpah.

Dalam postingan ini, kami mengeksplorasi pendekatan terdepan untuk mengevaluasi akurasi peringkasan secara objektif, termasuk metrik ROUGE, METEOR, dan BERTScore. Memahami kekuatan dan kelemahan teknik ini dapat membantu memandu upaya seleksi dan perbaikan. Tujuan keseluruhan dari postingan ini adalah untuk memperjelas evaluasi peringkasan guna membantu tim melakukan tolok ukur kinerja yang lebih baik pada kemampuan penting ini saat mereka berupaya memaksimalkan nilai.

Jenis ringkasan

Peringkasan secara umum dapat dibagi menjadi dua jenis utama: peringkasan ekstraktif dan peringkasan abstraktif. Kedua pendekatan tersebut bertujuan untuk menyingkat teks yang panjang menjadi bentuk yang lebih pendek, menangkap informasi paling penting atau esensi dari konten asli, namun keduanya melakukannya dengan cara yang berbeda secara mendasar.

Peringkasan ekstraktif melibatkan identifikasi dan penggalian frasa kunci, kalimat, atau segmen dari teks asli tanpa mengubahnya. Sistem memilih bagian teks yang dianggap paling informatif atau mewakili keseluruhan. Peringkasan ekstraktif berguna jika akurasi sangat penting dan ringkasan perlu mencerminkan informasi yang tepat dari teks asli. Ini bisa berupa kasus penggunaan seperti menyoroti ketentuan hukum tertentu, kewajiban, dan hak yang diuraikan dalam ketentuan penggunaan. Teknik yang paling umum digunakan untuk peringkasan ekstraktif adalah frekuensi dokumen invers frekuensi istilah (TF-IDF), penilaian kalimat, algoritma peringkat teks, dan pembelajaran mesin yang diawasi (ML).

Peringkasan abstraktif melangkah lebih jauh dengan menghasilkan frasa dan kalimat baru yang tidak ada dalam teks asli, yang pada dasarnya memparafrasekan dan memadatkan konten asli. Pendekatan ini memerlukan pemahaman teks yang lebih dalam, karena AI perlu menafsirkan maknanya dan kemudian mengungkapkannya dalam bentuk baru yang ringkas. Model bahasa besar (LLM) paling cocok untuk peringkasan abstrak karena model transformator menggunakan mekanisme perhatian untuk fokus pada bagian relevan dari teks masukan saat membuat ringkasan. Mekanisme perhatian memungkinkan model untuk menetapkan bobot berbeda pada kata atau token berbeda dalam urutan masukan, sehingga memungkinkan model menangkap ketergantungan jangka panjang dan informasi relevan secara kontekstual.

Selain kedua tipe utama tersebut, terdapat pendekatan hibrid yang menggabungkan metode ekstraktif dan abstraktif. Pendekatan ini mungkin dimulai dengan peringkasan ekstraktif untuk mengidentifikasi konten yang paling penting dan kemudian menggunakan teknik abstraktif untuk menulis ulang atau memadatkan konten tersebut menjadi ringkasan yang lancar.

Tantangan

Menemukan metode optimal untuk mengevaluasi kualitas ringkasan masih merupakan tantangan terbuka. Ketika organisasi semakin mengandalkan peringkasan teks otomatis untuk menyaring informasi penting dari dokumen, kebutuhan akan teknik standar untuk mengukur akurasi peringkasan semakin meningkat. Idealnya, metrik evaluasi ini akan mengukur seberapa baik ringkasan yang dihasilkan mesin mengekstrak konten paling menonjol dari teks sumber dan menyajikan ringkasan yang koheren yang mencerminkan makna dan konteks aslinya.

Namun, mengembangkan metodologi evaluasi yang kuat untuk peringkasan teks menimbulkan kesulitan:

  • Ringkasan referensi buatan manusia yang digunakan untuk perbandingan sering kali menunjukkan variabilitas tinggi berdasarkan penentuan kepentingan subjektif
  • Berbagai aspek kualitas ringkasan seperti kelancaran, keterbacaan, dan koherensi terbukti sulit diukur secara terprogram
  • Variasi yang luas terdapat di seluruh metode peringkasan mulai dari algoritme statistik hingga jaringan saraf, sehingga mempersulit perbandingan langsung

Siswa Berorientasi Ingatan untuk Evaluasi Gisting (ROUGE)

Metrik ROUGE, seperti ROUGE-N dan ROUGE-L, memainkan peran penting dalam mengevaluasi kualitas ringkasan yang dihasilkan mesin dibandingkan dengan ringkasan referensi yang ditulis manusia. Metrik ini berfokus pada penilaian tumpang tindih antara konten ringkasan yang dibuat oleh mesin dan yang dibuat oleh manusia dengan menganalisis n-gram, yang merupakan kelompok kata atau token. Misalnya, ROUGE-1 mengevaluasi kecocokan kata individual (unigram), sedangkan ROUGE-2 mempertimbangkan pasangan kata (bigram). Selain itu, ROUGE-N menilai urutan kata yang paling panjang di antara kedua teks, sehingga memungkinkan fleksibilitas dalam urutan kata.

Untuk mengilustrasikannya, perhatikan contoh berikut:

  • Metrik ROGUE-1 – ROUGE-1 mengevaluasi tumpang tindih unigram (satu kata) antara ringkasan yang dihasilkan dan ringkasan referensi. Misalnya, jika ringkasan referensi berisi “Rubah coklat cepat melompat”, dan ringkasan yang dihasilkan adalah “Rubah coklat melompat dengan cepat”, metrik ROUGE-1 akan menganggap “coklat”, “rubah”, dan “melompat” sebagai tumpang tindih unigram. ROUGE-1 berfokus pada keberadaan kata-kata individual dalam ringkasan, mengukur seberapa baik ringkasan yang dihasilkan menangkap kata-kata kunci dari ringkasan referensi.
  • Metrik ROGUE-2 – ROUGE-2 menilai tumpang tindih bigram (pasangan kata yang berdekatan) antara ringkasan yang dihasilkan dan ringkasan referensi. Misalnya, jika ringkasan referensi memiliki “Kucing sedang tidur,” dan ringkasan yang dihasilkan berbunyi “Kucing sedang tidur,” ROUGE-2 akan mengidentifikasi “kucing sedang” dan “sedang tidur” sebagai bigram yang tumpang tindih. ROUGE-2 memberikan wawasan tentang seberapa baik ringkasan yang dihasilkan mempertahankan urutan dan konteks pasangan kata dibandingkan dengan ringkasan referensi.
  • Metrik ROUGE-N – ROUGE-N adalah bentuk umum di mana N mewakili angka apa pun, memungkinkan evaluasi berdasarkan n-gram (urutan N kata). Mengingat N=3, jika ringkasan referensi menyatakan “Matahari bersinar terang,” dan ringkasan yang dihasilkan adalah “Matahari bersinar terang,” ROUGE-3 akan mengenali “matahari bersinar terang” sebagai trigram yang cocok. ROUGE-N menawarkan fleksibilitas untuk mengevaluasi ringkasan berdasarkan panjang rangkaian kata yang berbeda, memberikan penilaian yang lebih komprehensif tentang konten yang tumpang tindih.

Contoh-contoh ini menggambarkan bagaimana metrik ROUGE-1, ROUGE-2, dan ROUGE-N berfungsi dalam mengevaluasi tugas peringkasan otomatis atau terjemahan mesin dengan membandingkan ringkasan yang dihasilkan dengan ringkasan referensi berdasarkan tingkat urutan kata yang berbeda.

Hitung skor ROUGE-N

Anda dapat menggunakan langkah-langkah berikut untuk menghitung skor ROUGE-N:

  1. Tokenisasi ringkasan yang dihasilkan dan ringkasan referensi menjadi kata atau token individual menggunakan metode tokenisasi dasar seperti pemisahan berdasarkan spasi atau pustaka pemrosesan bahasa alami (NLP).
  2. Hasilkan n-gram (urutan N kata yang berdekatan) dari ringkasan yang dihasilkan dan ringkasan referensi.
  3. Hitung jumlah n-gram yang tumpang tindih antara ringkasan yang dihasilkan dan ringkasan referensi.
  4. Hitung presisi, perolehan, dan skor F1:
    • Ketelitian – Jumlah n-gram yang tumpang tindih dibagi dengan jumlah total n-gram dalam ringkasan yang dihasilkan.
    • Mengingat kembali – Jumlah n-gram yang tumpang tindih dibagi dengan jumlah total n-gram dalam ringkasan referensi.
    • Skor F1 – Rata-rata harmonik presisi dan recall, dihitung sebagai (2 * presisi * recall) / (presisi + recall).
  5. Skor F1 agregat yang diperoleh dari penghitungan presisi, recall, dan skor F1 untuk setiap baris dalam dataset dianggap sebagai skor ROUGE-N.

keterbatasan

ROGUE memiliki batasan sebagai berikut:

  • Fokus sempit pada tumpang tindih leksikal – Ide inti di balik ROUGE adalah untuk membandingkan ringkasan yang dihasilkan sistem dengan serangkaian referensi atau ringkasan yang dibuat oleh manusia, dan mengukur tumpang tindih leksikal di antara ringkasan tersebut. Ini berarti ROUGE memiliki fokus yang sangat sempit pada kesamaan tingkat kata. Itu tidak benar-benar mengevaluasi makna semantik, koherensi, atau keterbacaan ringkasan. Sebuah sistem dapat mencapai skor ROUGE yang tinggi hanya dengan mengekstrak kalimat kata demi kata dari teks aslinya, tanpa menghasilkan ringkasan yang koheren atau ringkas.
  • Ketidakpekaan terhadap parafrase – Karena ROUGE mengandalkan pencocokan leksikal, ROUGE tidak dapat mendeteksi kesetaraan semantik antara kata dan frasa. Oleh karena itu, parafrase dan penggunaan sinonim sering kali menyebabkan skor ROUGE lebih rendah, meskipun maknanya tetap dipertahankan. Hal ini merugikan sistem yang memparafrasekan atau meringkas secara abstrak.
  • Kurangnya pemahaman semantik – ROUGE tidak mengevaluasi apakah sistem benar-benar memahami makna dan konsep dalam teks aslinya. Ringkasan dapat mencapai tumpang tindih leksikal yang tinggi dengan referensi, namun kehilangan gagasan utama atau mengandung inkonsistensi faktual. ROUGE tidak akan mengidentifikasi masalah ini.

Kapan menggunakan PEMERAH

ROUGE sederhana dan cepat untuk dihitung. Gunakan ini sebagai dasar atau tolok ukur kualitas ringkasan terkait pemilihan konten. Metrik ROUGE paling efektif digunakan dalam skenario yang melibatkan tugas peringkasan abstrak, evaluasi peringkasan otomatis, penilaian LLM, dan analisis komparatif dari pendekatan peringkasan yang berbeda. Dengan menggunakan metrik ROUGE dalam konteks ini, pemangku kepentingan dapat mengevaluasi kualitas dan efektivitas proses pembuatan ringkasan secara kuantitatif.

Metrik untuk Evaluasi Terjemahan dengan Urutan Eksplisit (METEOR)

Salah satu tantangan utama dalam mengevaluasi sistem peringkasan adalah menilai seberapa baik ringkasan yang dihasilkan mengalir secara logis, bukan hanya memilih kata dan frasa yang relevan dari teks sumber. Sekadar mengekstraksi kata kunci dan kalimat yang relevan belum tentu menghasilkan ringkasan yang koheren dan kohesif. Ringkasan harus mengalir dengan lancar dan menghubungkan ide-ide secara logis, meskipun ide-ide tersebut tidak disajikan dalam urutan yang sama seperti dokumen aslinya.

Fleksibilitas pencocokan dengan mereduksi kata menjadi akar kata atau bentuk dasarnya (Misalnya, setelah stemming, kata seperti “running,” “runs,” dan “ran” semuanya menjadi “run”) dan sinonim artinya METEOR berkorelasi lebih baik dengan penilaian manusia terhadap kualitas ringkasan. Ini dapat mengidentifikasi apakah konten penting dipertahankan, meskipun kata-katanya berbeda. Ini adalah keunggulan utama dibandingkan metrik berbasis n-gram seperti ROUGE, yang hanya mencari pencocokan token yang tepat. METEOR juga memberikan skor lebih tinggi pada ringkasan yang berfokus pada konten paling menonjol dari referensi. Skor yang lebih rendah diberikan untuk informasi yang berulang atau tidak relevan. Hal ini selaras dengan tujuan peringkasan untuk menjaga konten yang paling penting saja. METEOR adalah metrik yang bermakna secara semantik yang dapat mengatasi beberapa keterbatasan pencocokan n-gram untuk mengevaluasi peringkasan teks. Penggabungan stemming dan sinonim memungkinkan penilaian yang lebih baik terhadap tumpang tindih informasi dan keakuratan konten.

Untuk mengilustrasikannya, perhatikan contoh berikut:

Ringkasan Referensi: Daun berguguran saat musim gugur.

Ringkasan yang Dihasilkan 1: Daun berguguran di musim gugur.

Ringkasan yang Dihasilkan 2: Daunnya hijau di musim panas.

Kata-kata yang cocok antara referensi dan ringkasan yang dihasilkan 1 disorot:

Ringkasan Referensi: Daun jatuh selama musim gugur.

Ringkasan yang Dihasilkan 1: Daun jatuhkan jatuh.

Meskipun “musim gugur” dan “musim gugur” adalah tanda yang berbeda, METEOR mengenali keduanya sebagai sinonim melalui pencocokan sinonimnya. “Jatuh” dan “jatuh” diidentifikasi sebagai kecocokan bertangkai. Untuk ringkasan 2 yang dihasilkan, tidak ada kecocokan dengan ringkasan referensi selain “Daun”, sehingga ringkasan ini akan menerima skor METEOR yang jauh lebih rendah. Semakin banyak kecocokan yang bermakna secara semantik, semakin tinggi skor METEOR. Hal ini memungkinkan METEOR untuk mengevaluasi konten dan keakuratan ringkasan dengan lebih baik dibandingkan dengan pencocokan n-gram sederhana.

Hitung skor METEOR

Selesaikan langkah-langkah berikut untuk menghitung skor METEOR:

  1. Tokenisasi ringkasan yang dihasilkan dan ringkasan referensi menjadi kata atau token individual menggunakan metode tokenisasi dasar seperti pemisahan berdasarkan spasi atau pustaka NLP.
  2. Hitung presisi unigram, perolehan, dan skor rata-rata F, yang memberikan bobot lebih besar pada perolehan dibandingkan presisi.
  3. Terapkan penalti untuk pencocokan tepat agar tidak terlalu menekankannya. Hukuman dipilih berdasarkan karakteristik kumpulan data, persyaratan tugas, dan keseimbangan antara presisi dan perolehan kembali. Kurangi penalti ini dari skor rata-rata F yang dihitung pada Langkah 2.
  4. Hitung skor rata-rata F untuk bentuk dasar (mengurangi kata menjadi bentuk dasar atau akarnya) dan sinonim untuk unigram jika memungkinkan. Gabungkan ini dengan skor F-mean yang dihitung sebelumnya untuk mendapatkan skor METEOR akhir. Skor METEOR berkisar antara 0–1, dengan 0 menunjukkan tidak adanya kesamaan antara ringkasan yang dihasilkan dan ringkasan referensi, dan 1 menunjukkan keselarasan sempurna. Biasanya, skor ringkasan berkisar antara 0–0.6.

keterbatasan

Saat menggunakan metrik METEOR untuk mengevaluasi tugas peringkasan, beberapa tantangan mungkin muncul:

  • Kompleksitas semantik – Penekanan METEOR pada kesamaan semantik sulit menangkap nuansa makna dan konteks dalam tugas peringkasan yang kompleks, sehingga berpotensi menyebabkan ketidakakuratan dalam evaluasi.
  • Variabilitas referensi – Variabilitas dalam ringkasan referensi yang dibuat oleh manusia dapat memengaruhi skor METEOR, karena perbedaan dalam konten referensi dapat memengaruhi evaluasi ringkasan yang dibuat oleh mesin.
  • Keragaman bahasa – Efektivitas METEOR dapat bervariasi antar bahasa karena variasi linguistik, perbedaan sintaksis, dan nuansa semantik, sehingga menimbulkan tantangan dalam evaluasi ringkasan multibahasa.
  • Perbedaan panjang – Mengevaluasi ringkasan dengan panjang yang berbeda-beda dapat menjadi tantangan bagi METEOR, karena perbedaan panjang dibandingkan dengan ringkasan referensi dapat mengakibatkan penalti atau ketidakakuratan dalam penilaian.
  • Penyetelan parameter – Mengoptimalkan parameter METEOR untuk kumpulan data dan tugas ringkasan yang berbeda dapat memakan waktu dan memerlukan penyesuaian yang cermat untuk memastikan metrik memberikan evaluasi yang akurat.
  • Bias evaluasi – Ada risiko bias evaluasi dengan METEOR jika tidak disesuaikan atau dikalibrasi dengan benar untuk domain atau tugas peringkasan tertentu. Hal ini berpotensi menyebabkan hasil yang tidak tepat dan mempengaruhi keandalan proses evaluasi.

Dengan menyadari tantangan-tantangan ini dan mempertimbangkannya ketika menggunakan METEOR sebagai metrik untuk tugas peringkasan, peneliti dan praktisi dapat menavigasi potensi keterbatasan dan membuat keputusan yang lebih tepat dalam proses evaluasi mereka.

Kapan menggunakan METEOR

METEOR biasanya digunakan untuk mengevaluasi kualitas ringkasan teks secara otomatis. Sebaiknya gunakan METEOR sebagai metrik evaluasi ketika urutan ide, konsep, atau entitas dalam ringkasan penting. METEOR mempertimbangkan urutan dan mencocokkan n-gram antara ringkasan yang dihasilkan dan ringkasan referensi. Ini memberi penghargaan pada ringkasan yang mempertahankan informasi berurutan. Berbeda dengan metrik seperti ROUGE, yang mengandalkan tumpang tindih n-gram dengan ringkasan referensi, METEOR mencocokkan batang, sinonim, dan parafrase. METEOR bekerja lebih baik jika terdapat beberapa cara yang benar untuk meringkas teks asli. METEOR menggabungkan sinonim WordNet dan token berasal saat mencocokkan n-gram. Singkatnya, ringkasan yang secara semantik serupa tetapi menggunakan kata atau frasa yang berbeda akan tetap mendapat skor yang baik. METEOR memiliki penalti bawaan untuk ringkasan dengan n-gram berulang. Oleh karena itu, hal ini menghambat ekstraksi kata demi kata atau kurangnya abstraksi. METEOR adalah pilihan yang baik ketika kesamaan semantik, urutan ide, dan ungkapan yang lancar penting untuk menilai kualitas ringkasan. Hal ini kurang sesuai untuk tugas-tugas di mana hanya tumpang tindih leksikal dengan ringkasan referensi yang penting.

skor BERTS

Pengukuran leksikal tingkat permukaan seperti ROUGE dan METEOR mengevaluasi sistem peringkasan dengan membandingkan kata yang tumpang tindih antara ringkasan kandidat dan ringkasan referensi. Namun, mereka sangat bergantung pada pencocokan string yang tepat antara kata dan frasa. Artinya, mereka mungkin kehilangan kesamaan semantik antara kata dan frasa yang memiliki bentuk permukaan berbeda namun memiliki makna mendasar yang serupa. Dengan hanya mengandalkan pencocokan permukaan, metrik ini mungkin meremehkan kualitas ringkasan sistem yang menggunakan kata-kata sinonim atau konsep parafrase yang berbeda dari ringkasan referensi. Dua ringkasan dapat menyampaikan informasi yang hampir sama tetapi menerima skor tingkat permukaan yang rendah karena perbedaan kosa kata.

skor BERTS adalah cara untuk secara otomatis mengevaluasi seberapa bagus suatu ringkasan dengan membandingkannya dengan ringkasan referensi yang ditulis oleh manusia. Ini menggunakan BERT, teknik NLP yang populer, untuk memahami arti dan konteks kata-kata dalam ringkasan kandidat dan ringkasan referensi. Secara khusus, ia melihat setiap kata atau token dalam ringkasan kandidat dan menemukan kata yang paling mirip dalam ringkasan referensi berdasarkan penyematan BERT, yang merupakan representasi vektor dari makna dan konteks setiap kata. Ini mengukur kesamaan menggunakan kesamaan kosinus, yang menunjukkan seberapa dekat vektor satu sama lain. Untuk setiap kata dalam ringkasan kandidat, ia menemukan kata yang paling terkait dalam ringkasan referensi menggunakan pemahaman bahasa BERT. Ini membandingkan semua kesamaan kata di seluruh ringkasan untuk mendapatkan skor keseluruhan tentang seberapa mirip ringkasan kandidat dengan ringkasan referensi secara semantik. Semakin mirip kata dan makna yang ditangkap BERT, semakin tinggi skor BERTSnya. Hal ini memungkinkannya untuk secara otomatis mengevaluasi kualitas ringkasan yang dihasilkan dengan membandingkannya dengan referensi manusia tanpa memerlukan evaluasi manusia setiap saat.

Untuk mengilustrasikannya, bayangkan Anda memiliki ringkasan yang dihasilkan mesin: “Rubah coklat yang cepat melompati anjing yang malas.” Sekarang, mari kita pertimbangkan ringkasan referensi yang dibuat oleh manusia: “Seekor rubah coklat yang gesit melompati anjing yang sedang tidur.”

Hitung skor BERTS

Selesaikan langkah-langkah berikut untuk menghitung BERTScore:

  1. BERTScore menggunakan penyematan kontekstual untuk mewakili setiap token dalam kalimat kandidat (yang dihasilkan mesin) dan referensi (buatan manusia). Penyematan kontekstual adalah jenis representasi kata dalam NLP yang menangkap makna sebuah kata berdasarkan konteksnya dalam kalimat atau teks. Tidak seperti penyematan kata tradisional yang menetapkan vektor tetap ke setiap kata terlepas dari konteksnya, penyematan kontekstual mempertimbangkan kata-kata di sekitarnya untuk menghasilkan representasi unik untuk setiap kata bergantung pada cara penggunaannya dalam kalimat tertentu.
  2. Metrik tersebut kemudian menghitung kemiripan antara setiap token pada kalimat kandidat dengan setiap token pada kalimat referensi menggunakan kesamaan cosinus. Kesamaan kosinus membantu kita mengukur seberapa dekat keterkaitan dua kumpulan data dengan berfokus pada arah yang ditunjukkannya dalam ruang multidimensi, menjadikannya alat yang berharga untuk tugas-tugas seperti algoritme penelusuran, NLP, dan sistem rekomendasi.
  3. Dengan membandingkan penyematan kontekstual dan menghitung skor kesamaan untuk semua token, BERTScore menghasilkan evaluasi komprehensif yang menangkap relevansi semantik dan konteks ringkasan yang dihasilkan dibandingkan dengan referensi buatan manusia.
  4. Output akhir BERTScore memberikan skor kesamaan yang mencerminkan seberapa baik ringkasan yang dihasilkan mesin selaras dengan ringkasan referensi dalam hal makna dan konteks.

Intinya, BERTScore melampaui metrik tradisional dengan mempertimbangkan nuansa semantik dan konteks kalimat, menawarkan evaluasi yang lebih canggih yang sangat mencerminkan penilaian manusia. Pendekatan tingkat lanjut ini meningkatkan akurasi dan keandalan evaluasi tugas peringkasan, menjadikan BERTScore alat yang berharga dalam menilai sistem pembuatan teks.

Keterbatasan:

Meskipun BERTScore menawarkan keuntungan yang signifikan dalam mengevaluasi tugas peringkasan, BERTScore juga memiliki keterbatasan tertentu yang perlu dipertimbangkan:

  • Intensitas komputasi – BERTScore bisa menjadi komputasi yang intensif karena ketergantungannya pada model bahasa terlatih seperti BERT. Hal ini dapat menyebabkan waktu evaluasi lebih lama, terutama saat memproses data teks dalam jumlah besar.
  • Ketergantungan pada model terlatih – Efektivitas BERTScore sangat bergantung pada kualitas dan relevansi model bahasa terlatih yang digunakan. Jika model yang telah dilatih sebelumnya mungkin tidak cukup menangkap nuansa teks, hasil evaluasi mungkin akan terpengaruh.
  • Skalabilitas – Menskalakan BERTScore untuk kumpulan data besar atau aplikasi real-time dapat menjadi tantangan karena tuntutan komputasinya. Menerapkan BERTScore di lingkungan produksi mungkin memerlukan strategi pengoptimalan untuk memberikan kinerja yang efisien.
  • Kekhususan domain – Kinerja BERTScore mungkin bervariasi di berbagai domain atau jenis teks khusus. Menyesuaikan metrik ke domain atau tugas tertentu mungkin memerlukan penyempurnaan atau penyesuaian untuk menghasilkan evaluasi yang akurat.
  • Interpretabilitas – Meskipun BERTScore memberikan evaluasi komprehensif berdasarkan penyematan kontekstual, menafsirkan alasan spesifik di balik skor kesamaan yang dihasilkan untuk setiap token bisa jadi rumit dan mungkin memerlukan analisis tambahan.
  • Evaluasi tanpa referensi – Meskipun BERTScore mengurangi ketergantungan pada ringkasan referensi untuk evaluasi, pendekatan bebas referensi ini mungkin tidak sepenuhnya mencakup semua aspek kualitas ringkasan, terutama dalam skenario di mana referensi yang dibuat oleh manusia sangat penting untuk menilai relevansi dan koherensi konten.

Mengakui keterbatasan ini dapat membantu Anda membuat keputusan yang tepat saat menggunakan BERTScore sebagai metrik untuk mengevaluasi tugas peringkasan, memberikan pemahaman yang seimbang tentang kekuatan dan kendalanya.

Kapan menggunakan BERTScore

BERTScore dapat mengevaluasi kualitas peringkasan teks dengan membandingkan ringkasan yang dihasilkan dengan ringkasan referensi. Ia menggunakan jaringan saraf seperti BERT untuk mengukur kesamaan semantik lebih dari sekadar pencocokan kata atau frasa. Hal ini membuat BERTScore sangat berguna ketika kesetiaan semantik dalam menjaga makna dan konten sepenuhnya sangat penting untuk tugas peringkasan Anda. BERTScore akan memberikan skor lebih tinggi pada ringkasan yang menyampaikan informasi yang sama dengan ringkasan referensi, meskipun menggunakan kata dan struktur kalimat yang berbeda. Intinya adalah BERTScore ideal untuk tugas peringkasan di mana mempertahankan makna semantik penuh, bukan hanya kata kunci atau topik, sangat penting. Penilaian sarafnya yang canggih memungkinkannya membandingkan makna di luar pencocokan kata di tingkat permukaan. Hal ini membuatnya cocok untuk kasus-kasus di mana perbedaan halus dalam kata-kata dapat secara substansial mengubah keseluruhan makna dan implikasinya. BERTScore, khususnya, unggul dalam menangkap kesamaan semantik, yang sangat penting untuk menilai kualitas ringkasan abstrak seperti yang dihasilkan oleh model Retrieval Augmented Generation (RAG).

Kerangka evaluasi model

Kerangka evaluasi model sangat penting untuk mengukur kinerja berbagai model peringkasan secara akurat. Kerangka kerja ini berperan penting dalam membandingkan model, memberikan koherensi antara ringkasan yang dihasilkan dan konten sumber, dan menunjukkan dengan tepat kekurangan dalam metode evaluasi. Dengan melakukan penilaian menyeluruh dan pembandingan yang konsisten, kerangka kerja ini mendorong penelitian peringkasan teks dengan mendukung praktik evaluasi standar dan memungkinkan perbandingan model multifaset.

Di AWS, itu perpustakaan FMEval dalam Memperjelas Amazon SageMaker menyederhanakan evaluasi dan pemilihan model dasar (FM) untuk tugas-tugas seperti peringkasan teks, menjawab pertanyaan, dan klasifikasi. Ini memberdayakan Anda untuk mengevaluasi FM berdasarkan metrik seperti akurasi, ketahanan, kreativitas, bias, dan toksisitas, mendukung evaluasi otomatis dan evaluasi manusia untuk LLM. Dengan evaluasi berbasis UI atau terprogram, FMEval menghasilkan laporan terperinci dengan visualisasi untuk mengukur risiko model seperti ketidakakuratan, toksisitas, atau bias, sehingga membantu organisasi menyelaraskan dengan pedoman AI generatif yang bertanggung jawab. Di bagian ini, kami mendemonstrasikan cara menggunakan perpustakaan FMEval.

Evaluasi Claude v2 mengenai keakuratan ringkasan menggunakan Amazon Bedrock

Cuplikan kode berikut adalah contoh cara berinteraksi dengan model Anthropic Claude menggunakan kode Python:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

Secara sederhana, kode ini melakukan tindakan berikut:

  1. Impor perpustakaan yang diperlukan, termasuk json, untuk bekerja dengan data JSON.
  2. Tentukan ID model sebagai anthropic.claude-v2 dan atur tipe konten untuk permintaan tersebut.
  3. Membuat prompt_data variabel yang menyusun data masukan untuk model Claude. Dalam hal ini, ia mengajukan pertanyaan “Siapakah Barack Obama?” dan mengharapkan respons dari model.
  4. Buat objek JSON bernama body yang menyertakan data perintah, dan tentukan parameter tambahan seperti jumlah maksimum token yang akan dihasilkan.
  5. Panggil model Claude menggunakan bedrock_runtime.invoke_model dengan parameter yang ditentukan.
  6. Parsing respons dari model, ekstrak penyelesaiannya (teks yang dihasilkan), dan cetak.

Pastikan Identitas AWS dan Manajemen Akses (IAM) peran yang terkait dengan Studio Amazon SageMaker profil pengguna memiliki akses ke Batuan Dasar Amazon model yang dipanggil. Mengacu pada Contoh kebijakan berbasis identitas untuk Amazon Bedrock untuk panduan tentang praktik terbaik dan contoh kebijakan berbasis identitas untuk Amazon Bedrock.

Menggunakan perpustakaan FMEval untuk mengevaluasi keluaran ringkasan dari Claude

Kami menggunakan kode berikut untuk mengevaluasi output yang diringkas:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

Pada cuplikan kode sebelumnya, untuk mengevaluasi peringkasan teks menggunakan pustaka FMEval, kita menyelesaikan langkah-langkah berikut:

  1. Membuat ModelRunner untuk melakukan pemanggilan pada LLM Anda. Pustaka FMEval menyediakan dukungan bawaan untuk Amazon SageMaker titik akhir dan Mulai Lompatan Amazon SageMaker LLM. Anda juga dapat memperpanjang ModelRunner antarmuka untuk LLM apa pun yang dihosting di mana saja.
  2. Gunakan didukung eval_algorithms seperti toksisitas, ringkasan, akurasi, semantik, dan ketahanan, berdasarkan kebutuhan evaluasi Anda.
  3. Sesuaikan parameter konfigurasi evaluasi untuk kasus penggunaan spesifik Anda.
  4. Gunakan algoritme evaluasi dengan kumpulan data bawaan atau khusus untuk mengevaluasi model LLM Anda. Dataset yang digunakan dalam hal ini bersumber dari berikut ini GitHub repo.

Mengacu kepada panduan pengembang dan contoh untuk penggunaan rinci algoritma evaluasi.

Tabel berikut merangkum hasil evaluasi.

model _masukan model_output keluaran_target cepat skor skor_meteor pemerah pipi_skor bert_score
John Edward
0 Bates, sebelumnya dari Spalding, Linco…..
Saya tidak bisa membuat keputusan yang pasti
penilaian, seperti…
Bekas
Petugas Polisi Lincolnshire membawa…
Manusia: John
Edward Bates, mantan Spalding…
[{'nama': 'meteor', 'nilai':
0.101010101010101 ...
0.10101 0 0.557155
23 Oktober 2015
Terakhir diperbarui pada
17:44 WIB|nItu'…
Berikut adalah beberapa poin penting tentang badai/trop.. Badai Patricia telah dinilai sebagai kategori… Manusia: 23
Oktober 2015 Terakhir diperbarui pada 17:44
B…
[{'nama': meteor', “nilai':
0.102339181286549 ..
0.102339 0.018265 0.441421
Ferrari muncul dalam posisi untuk menantang… Berikut poin-poin penting dari artikel tersebut:nin… Lewis Hamilton menyerbu ke posisi terdepan di… Manusia: Ferrari muncul dalam posisi untuk menantang… [{'nama': 'meteor', 'nilai':
0.322543352601156 ...
0.322543 0.078212 0.606487
Pemain kelahiran Bath, 28, telah membuat 36
muncul…
Oke, izinkan saya merangkum poin-poin penting:/nin- E….. Newport Gwent Dragons nomor delapan Ed Jackson Manusia: Pemain kelahiran Bath, 28, telah membuat 36… [{'nama': 'meteor', 'nilai':
0105740181268882 ...
0.10574 0.012987 0.539488
Kelemahan dalam cara tikus menukar data dengan c… Berikut adalah poin-poin penting yang saya kumpulkan dari… Peretas bisa mendapatkan akses ke rumah dan Manusia:
Kelemahan di
tikus swar bertukar data
[{'nama': 'meteor', 'nilai':
0.201048289433848 ...
0.201048 0.021858 0.526947

Lihat sampelnya buku catatan untuk lebih jelasnya mengenai evaluasi rangkuman yang telah kami bahas pada postingan kali ini.

Kesimpulan

ROUGE, METEOR, dan BERTScore semuanya mengukur kualitas ringkasan yang dihasilkan mesin, namun fokus pada aspek yang berbeda seperti tumpang tindih leksikal, kelancaran, atau kesamaan semantik. Pastikan untuk memilih metrik yang sesuai dengan definisi “baik” untuk kasus penggunaan ringkasan spesifik Anda. Anda juga dapat menggunakan kombinasi metrik. Hal ini memberikan evaluasi yang lebih menyeluruh dan melindungi terhadap potensi kelemahan metrik individual. Dengan pengukuran yang tepat, Anda dapat meningkatkan peringkasan secara berulang untuk memenuhi gagasan akurasi mana pun yang paling penting.

Selain itu, evaluasi FM dan LLM diperlukan untuk dapat memproduksi model-model ini dalam skala besar. Dengan FMEval, Anda mendapatkan serangkaian besar algoritme bawaan di banyak tugas NLP, namun juga alat yang dapat diskalakan dan fleksibel untuk evaluasi skala besar terhadap model, kumpulan data, dan algoritme Anda sendiri. Untuk meningkatkan skala, Anda dapat menggunakan paket ini di alur LLMOps Anda mengevaluasi beberapa model. Untuk mempelajari lebih lanjut tentang FMEval di AWS dan cara menggunakannya secara efektif, lihat Gunakan SageMaker Clarify untuk mengevaluasi model bahasa besar. Untuk pemahaman dan wawasan lebih lanjut mengenai kemampuan SageMaker Clarify dalam mengevaluasi FM, lihat Amazon SageMaker Clarify Mempermudah Evaluasi dan Pemilihan Model Fondasi.


Tentang Penulis


Dinesh Kumar Subramani adalah Arsitek Solusi Senior yang berbasis di Edinburgh, Skotlandia. Dia berspesialisasi dalam kecerdasan buatan dan pembelajaran mesin, dan merupakan anggota komunitas bidang teknis di Amazon. Dinesh bekerja sama dengan pelanggan Pemerintah Pusat Inggris untuk memecahkan masalah mereka menggunakan layanan AWS. Di luar pekerjaan, Dinesh menikmati menghabiskan waktu berkualitas bersama keluarganya, bermain catur, dan menjelajahi beragam musik.


Pranav Sharma adalah pemimpin AWS yang mendorong inisiatif teknologi dan transformasi bisnis di Eropa, Timur Tengah, dan Afrika. Dia memiliki pengalaman dalam merancang dan menjalankan platform kecerdasan buatan dalam produksi yang mendukung jutaan pelanggan dan memberikan hasil bisnis. Dia telah memainkan peran kepemimpinan teknologi dan sumber daya manusia untuk organisasi Layanan Keuangan Global. Di luar pekerjaan, ia suka membaca, bermain tenis bersama putranya, dan menonton film.

tempat_img

Intelijen Terbaru

tempat_img

Hubungi kami

Hai, yang di sana! Apa yang bisa saya bantu?