Üretken Veri Zekası

AWS'de gelişmiş karar alma süreçleri için Yüksek Lisans'ların metin özetleme yeteneklerini değerlendirin | Amazon Web Hizmetleri

Tarih:

Farklı sektörlerdeki kuruluşlar, büyük miktarda bilgiyi daha verimli bir şekilde yönetmek ve daha iyi kararlar vermek için otomatik metin özetlemeyi kullanıyor. Finans sektöründe yatırım bankaları, üç aylık performansı hızlı bir şekilde analiz etmek için kazanç raporlarını önemli çıkarımlara indirgemektedir. Medya şirketleri, haberleri ve sosyal medyayı izlemek için özetlemeyi kullanıyor, böylece gazeteciler gelişen konular hakkında hızlı bir şekilde hikayeler yazabiliyor. Devlet kurumları, politika yapıcıların hedefleri strateji oluşturmasına ve önceliklendirmesine yardımcı olmak için uzun politika belgelerini ve raporlarını özetler.

Özetleme teknolojisi, uzun, karmaşık belgelerin yoğunlaştırılmış versiyonlarını oluşturarak kullanıcıların en dikkat çekici içeriğe odaklanmasını sağlar. Bu, kritik bilgilerin daha iyi anlaşılmasına ve akılda tutulmasına yol açar. Zaman tasarrufu, paydaşların daha kısa sürede daha fazla materyali incelemesine ve daha geniş bir bakış açısı kazanmasına olanak tanır. Gelişmiş anlayış ve daha sentezlenmiş içgörüler sayesinde kuruluşlar daha bilinçli stratejik kararlar alabilir, araştırmaları hızlandırabilir, üretkenliği artırabilir ve etkilerini artırabilir. Gelişmiş özetleme yeteneklerinin dönüştürücü gücü, daha fazla endüstrinin taşan bilgi akışlarından yararlanmak için yapay zekayı (AI) benimsemesiyle artmaya devam edecek.

Bu yazıda özetleme doğruluğunu objektif olarak değerlendirmeye yönelik ROUGE metrikleri, METEOR ve BERTScore dahil olmak üzere önde gelen yaklaşımları inceliyoruz. Bu tekniklerin güçlü ve zayıf yönlerini anlamak, seçim ve iyileştirme çabalarına rehberlik etmeye yardımcı olabilir. Bu gönderinin genel amacı, ekiplerin değeri en üst düzeye çıkarmaya çalışırken bu kritik yetenek üzerindeki performansı daha iyi kıyaslamalarına yardımcı olmak için özetleme değerlendirmesindeki gizemi açığa çıkarmaktır.

Özetleme türleri

Özetleme genel olarak iki ana türe ayrılabilir: çıkarımsal özetleme ve soyutlama özetleme. Her iki yaklaşım da uzun metin parçalarını daha kısa biçimlerde yoğunlaştırmayı, en kritik bilgileri veya orijinal içeriğin özünü yakalamayı amaçlar, ancak bunu temelde farklı yollarla yaparlar.

Çıkarımsal özetleme, orijinal metindeki anahtar ifadeleri, cümleleri veya bölümleri değiştirmeden tanımlamayı ve çıkarmayı içerir. Sistem, metnin en bilgilendirici veya bütünü temsil ettiği düşünülen kısımlarını seçer. Çıkarımsal özetleme, doğruluğun kritik olduğu ve özetin orijinal metindeki bilgileri tam olarak yansıtması gerektiği durumlarda kullanışlıdır. Bunlar, kullanım koşullarında belirtilen belirli yasal şartların, yükümlülüklerin ve hakların vurgulanması gibi kullanım durumları olabilir. Çıkarıcı özetleme için kullanılan en yaygın teknikler terim frekansı ters belge frekansı (TF-IDF), cümle puanlaması, metin sıralama algoritması ve denetimli makine öğrenimidir (ML).

Soyutlama, orijinal metinde olmayan yeni ifadeler ve cümleler oluşturarak bir adım daha ileri giderek, esasen orijinal içeriği başka sözcüklerle ifade ederek ve yoğunlaştırarak yapılır. Bu yaklaşım metnin daha derinlemesine anlaşılmasını gerektirir çünkü yapay zekanın anlamı yorumlaması ve ardından onu yeni, kısa ve öz bir biçimde ifade etmesi gerekir. Büyük dil modelleri (LLM'ler), soyutlayıcı özetleme için en uygun olanıdır çünkü dönüştürücü modeller, özetler oluştururken girdi metninin ilgili bölümlerine odaklanmak için dikkat mekanizmalarını kullanır. Dikkat mekanizması, modelin giriş sırasındaki farklı kelimelere veya belirteçlere farklı ağırlıklar atamasına olanak tanıyarak uzun vadeli bağımlılıkları ve bağlamsal olarak ilgili bilgileri yakalamasına olanak tanır.

Bu iki temel türe ek olarak, çıkarımsal ve soyutlama yöntemlerini birleştiren hibrit yaklaşımlar da vardır. Bu yaklaşımlar, en önemli içeriği tanımlamak için çıkarımsal özetleme ile başlayabilir ve daha sonra bu içeriği akıcı bir özet halinde yeniden yazmak veya yoğunlaştırmak için soyutlama tekniklerini kullanabilir.

Meydan okuma

Özet kalitesini değerlendirmek için en uygun yöntemi bulmak hala açık bir zorluktur. Kuruluşlar belgelerden önemli bilgileri ayrıştırmak için otomatik metin özetlemeye giderek daha fazla güvendikçe, özetlemenin doğruluğunu ölçmek için standartlaştırılmış tekniklere olan ihtiyaç da artıyor. İdeal olarak, bu değerlendirme ölçümleri, makine tarafından oluşturulan özetlerin kaynak metinlerden en dikkat çekici içeriği ne kadar iyi çıkardığını ve orijinal anlamı ve bağlamı yansıtan tutarlı özetler sunduğunu ölçecektir.

Ancak metin özetlemeye yönelik sağlam değerlendirme metodolojileri geliştirmek zorluklara yol açar:

  • Karşılaştırma için kullanılan, insan tarafından yazılan referans özetleri sıklıkla subjektif önem belirlemelerine dayalı olarak yüksek değişkenlik gösterir.
  • Özet kalitesinin akıcılık, okunabilirlik ve tutarlılık gibi incelikli yönlerinin programlı olarak ölçülmesinin zor olduğu ortaya çıkıyor
  • İstatistiksel algoritmalardan sinir ağlarına kadar özetleme yöntemleri arasında geniş çeşitlilik mevcut olup, doğrudan karşılaştırmaları karmaşık hale getirir

Özet Değerlendirme için Geri Çağırma Odaklı Yedek Çalışma (ROUGE)

ROUGE metrikleriROUGE-N ve ROUGE-L gibi, makine tarafından oluşturulan özetlerin kalitesinin değerlendirilmesinde, insan tarafından yazılan referans özetleriyle karşılaştırıldığında çok önemli bir rol oynar. Bu ölçümler, kelime veya simge grupları olan n-gramları analiz ederek, makine tarafından oluşturulan ve insan yapımı özetlerin içeriği arasındaki örtüşmeyi değerlendirmeye odaklanır. Örneğin, ROUGE-1 tek tek kelimelerin (unigramlar) eşleşmesini değerlendirirken, ROUGE-2 kelime çiftlerini (bigramlar) dikkate alır. Ayrıca ROUGE-N, iki metin arasındaki en uzun ortak kelime dizisini değerlendirerek kelime sıralamasında esneklik sağlar.

Bunu açıklamak için aşağıdaki örnekleri göz önünde bulundurun:

  • ROGUE-1 metriği – ROUGE-1, oluşturulan bir özet ile bir referans özeti arasındaki unigramların (tek sözcükler) örtüşmesini değerlendirir. Örneğin, bir referans özeti "Kahverengi tilki hızlı atlıyor" içeriyorsa ve oluşturulan özet "Kahverengi tilki hızlı atlıyor" ise, ROUGE-1 metriği "kahverengi", "tilki" ve "sıçrayışları" örtüşen olarak kabul eder unigramlar. ROUGE-1, oluşturulan özetin referans özetindeki anahtar kelimeleri ne kadar iyi yakaladığını ölçerek özetlerde ayrı ayrı kelimelerin varlığına odaklanır.
  • ROGUE-2 metriği – ROUGE-2, oluşturulan bir özet ile bir referans özeti arasındaki bigramların (bitişik kelime çiftleri) örtüşmesini değerlendirir. Örneğin, referans özetinde "Kedi uyuyor" varsa ve oluşturulan özette "Bir kedi uyuyor" yazıyorsa, ROUGE-2 "kedi" ve "uyuyor" ifadelerini örtüşen bir bigram olarak tanımlayacaktır. ROUGE-2, oluşturulan özetin, referans özetiyle karşılaştırıldığında kelime çiftlerinin sırasını ve bağlamını ne kadar iyi koruduğuna dair fikir sağlar.
  • ROUGE-N metriği – ROUGE-N, N'nin herhangi bir sayıyı temsil ettiği, n-gramlara (N kelime dizisi) dayalı değerlendirmeye izin veren genelleştirilmiş bir formdur. N=3 dikkate alındığında, referans özeti "Güneş parlak bir şekilde parlıyor" diyorsa ve oluşturulan özet "Güneş parlak bir şekilde parlıyor" ise, ROUGE-3 "güneş parlak bir şekilde parlıyor" ifadesini eşleşen bir trigram olarak tanıyacaktır. ROUGE-N, farklı uzunluktaki kelime dizilerine dayalı özetleri değerlendirme esnekliği sunarak içerik örtüşmesinin daha kapsamlı bir değerlendirmesini sağlar.

Bu örnekler, oluşturulan özetleri farklı kelime dizileri düzeylerine dayalı referans özetleriyle karşılaştırarak otomatik özetleme veya makine çevirisi görevlerini değerlendirmede ROUGE-1, ROUGE-2 ve ROUGE-N metriklerinin nasıl çalıştığını gösterir.

ROUGE-N skorunu hesaplayın

ROUGE-N puanını hesaplamak için aşağıdaki adımları kullanabilirsiniz:

  1. Boşluk veya doğal dil işleme (NLP) kitaplıklarına göre bölme gibi temel simgeleştirme yöntemlerini kullanarak oluşturulan özeti ve referans özetini ayrı sözcüklere veya simgelere dönüştürün.
  2. Hem oluşturulan özetten hem de referans özetinden n-gramlar (N kelimeden oluşan bitişik diziler) oluşturun.
  3. Oluşturulan özet ile referans özeti arasındaki örtüşen n-gram sayısını sayın.
  4. Hassasiyeti, geri çağırmayı ve F1 puanını hesaplayın:
    • Hassas – Oluşturulan özette çakışan n-gram sayısının toplam n-gram sayısına bölümü.
    • Geri çağırmak – Referans özetindeki örtüşen n-gram sayısının toplam n-gram sayısına bölümü.
    • F1 skoru – Hassasiyet ve geri çağırmanın harmonik ortalaması, (2 * hassas * geri çağırma) / (hassasiyet + geri çağırma) olarak hesaplanır.
  5. Veri kümesindeki her satır için kesinlik, hatırlama ve F1 puanının hesaplanmasından elde edilen toplam F1 puanı, ROUGE-N puanı olarak kabul edilir.

Sınırlamalar

ROGUE'un aşağıdaki sınırlamaları vardır:

  • Kelime örtüşmesine dar odaklanma – ROUGE'un arkasındaki temel fikir, sistem tarafından oluşturulan özeti bir dizi referans veya insan tarafından oluşturulan özetlerle karşılaştırmak ve aralarındaki sözcüksel örtüşmeyi ölçmektir. Bu, ROUGE'un kelime düzeyindeki benzerliğe çok dar bir şekilde odaklandığı anlamına gelir. Aslında özetin anlamsal anlamını, tutarlılığını veya okunabilirliğini değerlendirmez. Bir sistem, tutarlı veya kısa bir özet oluşturmadan, orijinal metinden cümleleri kelime kelime çıkararak yüksek ROUGE puanları elde edebilir.
  • Açıklamaya karşı duyarsızlık – ROUGE sözcüksel eşleşmeye dayandığından, sözcükler ve ifadeler arasındaki anlamsal eşdeğerliği tespit edemez. Bu nedenle, anlam korunsa bile, başka kelimelerle ifade etmek ve eşanlamlıların kullanılması genellikle daha düşük ROUGE puanlarına yol açacaktır. Bu, soyutlayıcı bir şekilde yeniden ifade eden veya özetleyen sistemlerin dezavantajıdır.
  • Anlamsal anlayış eksikliği – ROUGE, sistemin orijinal metindeki anlam ve kavramları gerçekten anlayıp anlamadığını değerlendirmez. Bir özet, ana fikirleri kaçırırken veya olgusal tutarsızlıklar içerirken, referanslarla yüksek düzeyde sözcüksel örtüşme sağlayabilir. ROUGE bu sorunları tanımlamayacaktır.

ROUGE ne zaman kullanılır?

ROUGE'un hesaplanması basit ve hızlıdır. İçerik seçimiyle ilgili özet kalitesi için bunu bir temel veya kıyaslama noktası olarak kullanın. ROUGE ölçümleri, soyutlayıcı özetleme görevlerini, otomatik özetleme değerlendirmesini, LLM'lerin değerlendirmelerini ve farklı özetleme yaklaşımlarının karşılaştırmalı analizlerini içeren senaryolarda en etkili şekilde kullanılır. Bu bağlamlarda ROUGE metriklerini kullanarak paydaşlar özet oluşturma süreçlerinin kalitesini ve etkinliğini niceliksel olarak değerlendirebilirler.

Açık Sıralamayla Çevirinin Değerlendirilmesi Metriği (METEOR)

Özetleme sistemlerini değerlendirmedeki en büyük zorluklardan biri, yalnızca kaynak metinden ilgili kelimeleri ve cümleleri seçmek yerine, oluşturulan özetin mantıksal olarak ne kadar iyi aktığını değerlendirmektir. İlgili anahtar kelimeleri ve cümleleri basitçe çıkarmak, mutlaka tutarlı ve tutarlı bir özet üretmez. Özet, orijinal belgeyle aynı sırada sunulmasa bile sorunsuz bir şekilde akmalı ve fikirleri mantıksal olarak birbirine bağlamalıdır.

Kelimeleri kök veya temel biçimlerine indirgeyerek eşleştirme esnekliği (Örneğin, köklerini çıkardıktan sonra "running", "runs" ve "ran" gibi kelimelerin tümü "run" haline gelir) ve eşanlamlıları anlamına gelir METEOR özet kalitesine ilişkin insan yargılarıyla daha iyi ilişkilidir. İfadeler farklı olsa bile önemli içeriğin korunup korunmadığını belirleyebilir. Bu, yalnızca tam token eşleşmelerini arayan ROUGE gibi n-gram tabanlı metriklere göre önemli bir avantajdır. METEOR ayrıca referanstaki en dikkat çekici içeriğe odaklanan özetlere de daha yüksek puanlar verir. Tekrarlanan veya ilgisiz bilgilere daha düşük puanlar verilir. Bu, yalnızca en önemli içeriğin korunmasına yönelik özetleme hedefiyle iyi uyum sağlar. METEOR, metin özetlemeyi değerlendirmek için n-gram eşleştirmenin bazı sınırlamalarının üstesinden gelebilen anlamsal olarak anlamlı bir ölçümdür. Kökten çıkarma ve eşanlamlıların dahil edilmesi, bilgi örtüşmesinin ve içerik doğruluğunun daha iyi değerlendirilmesine olanak tanır.

Bunu açıklamak için aşağıdaki örnekleri göz önünde bulundurun:

Referans Özeti: Yapraklar sonbaharda düşer.

Oluşturulan Özet 1: Sonbaharda yapraklar dökülür.

Oluşturulan Özet 2: Yazın yeşil bırakır.

Referans ile oluşturulan özet 1 arasında eşleşen kelimeler vurgulanır:

Referans Özeti: Yapraklar düşmek sonbahar sırasında.

Oluşturulan Özet 1: Yapraklar uğramak düşmek.

“Sonbahar” ve “sonbahar” farklı belirteçler olsa da METEOR, eşanlamlı eşleşmesi sayesinde bunları eşanlamlı olarak tanır. “Düşme” ve “düşme” köklü bir eşleşme olarak tanımlanır. Oluşturulan özet 2 için "Yapraklar" dışında referans özetiyle eşleşme olmadığından bu özet çok daha düşük bir METEOR puanı alacaktır. Anlamsal olarak anlamlı eşleşmeler ne kadar yüksek olursa METEOR puanı da o kadar yüksek olur. Bu, METEOR'un basit n-gram eşleştirmeye kıyasla özetlerin içeriğini ve doğruluğunu daha iyi değerlendirmesine olanak tanır.

METEOR puanı hesapla

METEOR puanını hesaplamak için aşağıdaki adımları tamamlayın:

  1. Boşluk veya NLP kitaplıklarına göre bölme gibi temel simgeleştirme yöntemlerini kullanarak oluşturulan özeti ve referans özetini ayrı sözcüklere veya simgelere dönüştürün.
  2. Unigram hassasiyetini, hatırlamayı ve F-ortalama puanını hesaplayarak hatırlamaya hassasiyetten daha fazla ağırlık verin.
  3. Aşırı vurgulamayı önlemek için tam eşleşmelere ceza uygulayın. Ceza, veri kümesi özelliklerine, görev gereksinimlerine ve hassasiyet ile geri çağırma arasındaki dengeye göre seçilir. Bu cezayı Adım 2'de hesaplanan F-ortalama puanından çıkarın.
  4. Köklü formlar (kelimeleri tabanlarına veya kök formlarına indirgeyerek) ve uygun olduğu yerde unigramların eşanlamlıları için F-ortalama puanını hesaplayın. Nihai METEOR puanını elde etmek için bunu daha önce hesaplanan F-ortalama puanıyla toplayın. METEOR puanı 0-1 arasında değişir; burada 0, oluşturulan özet ile referans özeti arasında benzerlik olmadığını, 1 ise mükemmel uyumu belirtir. Tipik olarak özetleme puanları 0-0.6 arasındadır.

Sınırlamalar

Özetleme görevlerini değerlendirmek için METEOR metriğini kullanırken çeşitli zorluklar ortaya çıkabilir:

  • Anlamsal karmaşıklık – METEOR'un anlamsal benzerliğe yaptığı vurgu, karmaşık özetleme görevlerinde incelikli anlamları ve bağlamı yakalamakta zorlanabilir ve potansiyel olarak değerlendirmede yanlışlıklara yol açabilir.
  • Referans değişkenliği – İnsan tarafından oluşturulan referans özetlerindeki değişkenlik, METEOR puanlarını etkileyebilir çünkü referans içeriğindeki farklılıklar, makine tarafından oluşturulan özetlerin değerlendirmesini etkileyebilir.
  • Dil çeşitliliği – METEOR'un etkililiği, dilsel farklılıklar, sözdizimi farklılıkları ve anlamsal nüanslar nedeniyle diller arasında farklılık gösterebilir ve bu da çok dilli özetleme değerlendirmelerinde zorluklar doğurur.
  • Uzunluk tutarsızlığı – Farklı uzunluklardaki özetleri değerlendirmek METEOR için zorlayıcı olabilir çünkü referans özetiyle karşılaştırıldığında uzunluk farklılıkları değerlendirmede cezalara veya yanlışlıklara yol açabilir.
  • parametre ayarı – METEOR'un parametrelerini farklı veri kümeleri ve özetleme görevleri için optimize etmek zaman alıcı olabilir ve metriğin doğru değerlendirmeler sağladığından emin olmak için dikkatli ayarlamalar yapılmasını gerektirir.
  • Değerlendirme yanlılığı – Belirli özetleme alanları veya görevleri için uygun şekilde ayarlanmadığı veya kalibre edilmediği takdirde METEOR'da değerlendirme yanlılığı riski vardır. Bu potansiyel olarak çarpık sonuçlara yol açabilir ve değerlendirme sürecinin güvenilirliğini etkileyebilir.

Araştırmacılar ve uygulayıcılar, bu zorlukların farkında olarak ve METEOR'u özetleme görevleri için bir metrik olarak kullanırken bunları göz önünde bulundurarak, potansiyel sınırlamaların üstesinden gelebilir ve değerlendirme süreçlerinde daha bilinçli kararlar alabilirler.

METEOR ne zaman kullanılır?

METEOR, metin özetlerinin kalitesini otomatik olarak değerlendirmek için yaygın olarak kullanılır. Özetteki fikirlerin, kavramların veya varlıkların sırası önemli olduğunda değerlendirme ölçütü olarak METEOR'un kullanılması tercih edilir. METEOR, sırayı dikkate alır ve oluşturulan özet ile referans özetleri arasındaki n-gramları eşleştirir. Sıralı bilgileri koruyan özetleri ödüllendirir. N-gramların referans özetleriyle örtüşmesine dayanan ROUGE gibi metriklerden farklı olarak METEOR, kökleri, eşanlamlıları ve açıklamaları eşleştirir. METEOR, orijinal metni özetlemenin birden fazla doğru yolu olabildiği zaman daha iyi çalışır. METEOR, n-gramları eşleştirirken WordNet eşanlamlılarını ve köklü belirteçleri içerir. Kısacası, anlamsal olarak benzer ancak farklı kelimeler veya ifadeler kullanan özetler yine de iyi puan alacaktır. METEOR'un tekrarlayan n-gram içeren özetler için yerleşik bir cezası vardır. Bu nedenle, kelime kelime çıkarımı veya soyutlama eksikliğini engeller. Özet kalitesinin değerlendirilmesinde anlamsal benzerlik, fikir sırası ve akıcı ifadeler önemli olduğunda METEOR iyi bir seçimdir. Referans özetleriyle yalnızca sözcüksel örtüşmenin önemli olduğu görevler için daha az uygundur.

BERTS Skoru

ROUGE ve METEOR gibi yüzey düzeyindeki sözcük ölçümleri, aday özeti ile referans özeti arasındaki sözcük örtüşmesini karşılaştırarak özetleme sistemlerini değerlendirir. Ancak, büyük ölçüde kelimeler ve ifadeler arasındaki tam dize eşleşmesine dayanırlar. Bu, farklı yüzey biçimlerine sahip ancak benzer temel anlamlara sahip sözcükler ve ifadeler arasındaki anlamsal benzerlikleri gözden kaçırabilecekleri anlamına gelir. Yalnızca yüzeysel eşleşmeye dayanan bu ölçümler, referans özetlerinden farklı şekilde eşanlamlı kelimeler veya başka sözcüklerle ifade edilen kavramları kullanan sistem özetlerinin kalitesini küçümseyebilir. İki özet neredeyse aynı bilgileri aktarabilir ancak kelime dağarcığı farklılıkları nedeniyle düşük yüzey düzeyinde puanlar alabilir.

BERTS Skoru bir özetin ne kadar iyi olduğunu, onu bir insan tarafından yazılan referans özetiyle karşılaştırarak otomatik olarak değerlendirmenin bir yoludur. Aday özeti ve referans özetindeki kelimelerin anlamını ve bağlamını anlamak için popüler bir NLP tekniği olan BERT'i kullanır. Spesifik olarak, aday özetindeki her kelimeye veya simgeye bakar ve her kelimenin anlamının ve bağlamının vektör temsilleri olan BERT yerleştirmelerine dayalı olarak referans özetinde en benzer kelimeyi bulur. Benzerliği, vektörlerin birbirine ne kadar yakın olduğunu söyleyen kosinüs benzerliğini kullanarak ölçer. Aday özetindeki her kelime için BERT'in dil anlayışını kullanarak referans özetindeki en ilgili kelimeyi bulur. Aday özetinin anlamsal olarak referans özetine ne kadar benzer olduğuna dair genel bir puan elde etmek için özetin tamamındaki tüm bu kelime benzerliklerini karşılaştırır. BERT'in yakaladığı kelimeler ve anlamlar ne kadar benzer olursa BERTScore'u da o kadar yüksek olur. Bu, oluşturulan bir özetin kalitesini, her seferinde insan değerlendirmesine ihtiyaç duymadan, onu bir insan referansıyla karşılaştırarak otomatik olarak değerlendirmesine olanak tanır.

Bunu göstermek için, makine tarafından oluşturulmuş bir özetinizin olduğunu hayal edin: "Hızlı kahverengi tilki tembel köpeğin üzerinden atlar." Şimdi insan yapımı bir referans özetini ele alalım: "Hızlı bir kahverengi tilki, uyuyan bir köpeğin üzerinden atlıyor."

BERTSpuanını hesaplayın

BERTScore'u hesaplamak için aşağıdaki adımları tamamlayın:

  1. BERTScore, hem aday (makine tarafından oluşturulan) hem de referans (insan yapımı) cümlelerdeki her bir belirteci temsil etmek için bağlamsal yerleştirmeleri kullanır. Bağlamsal yerleştirmeler, NLP'de bir kelimenin anlamını bir cümle veya metin içindeki bağlamına göre yakalayan bir tür kelime temsilidir. Bağlamından bağımsız olarak her kelimeye sabit bir vektör atayan geleneksel kelime yerleştirmelerin aksine, bağlamsal yerleştirmeler, belirli bir cümlede nasıl kullanıldığına bağlı olarak her kelime için benzersiz bir temsil oluşturmak amacıyla çevredeki kelimeleri dikkate alır.
  2. Metrik daha sonra kosinüs benzerliğini kullanarak aday cümledeki her belirteç ile referans cümledeki her belirteç arasındaki benzerliği hesaplar. Kosinüs benzerliği, çok boyutlu bir alanda işaret ettikleri yöne odaklanarak iki veri kümesinin ne kadar yakından ilişkili olduğunu ölçmemize yardımcı olur; bu da onu arama algoritmaları, NLP ve öneri sistemleri gibi görevler için değerli bir araç haline getirir.
  3. BERTScore, tüm belirteçler için bağlamsal yerleştirmeleri ve benzerlik puanlarını hesaplayarak, insan yapımı referansla karşılaştırıldığında oluşturulan özetin anlamsal alaka düzeyini ve bağlamını yakalayan kapsamlı bir değerlendirme oluşturur.
  4. Nihai BERTScore çıktısı, makine tarafından oluşturulan özetin anlam ve bağlam açısından referans özetiyle ne kadar iyi uyum sağladığını yansıtan bir benzerlik puanı sağlar.

Temelde BERTScore, cümlelerin anlamsal nüanslarını ve bağlamını dikkate alarak geleneksel ölçümlerin ötesine geçerek insan muhakemesini yakından yansıtan daha karmaşık bir değerlendirme sunar. Bu gelişmiş yaklaşım, özetleme görevlerinin değerlendirilmesinin doğruluğunu ve güvenilirliğini artırarak BERTScore'u metin oluşturma sistemlerinin değerlendirilmesinde değerli bir araç haline getirir.

Sınırlamalar:

BERTScore, özetleme görevlerinin değerlendirilmesinde önemli avantajlar sunsa da, dikkate alınması gereken bazı sınırlamaları da beraberinde getirir:

  • Hesaplama yoğunluğu – BERTScore, BERT gibi önceden eğitilmiş dil modellerine bağlı olması nedeniyle hesaplama açısından yoğun olabilir. Bu, özellikle büyük hacimli metin verileri işlenirken değerlendirme sürelerinin uzamasına neden olabilir.
  • Önceden eğitilmiş modellere bağımlılık – BERTScore'un etkinliği büyük ölçüde kullanılan önceden eğitilmiş dil modelinin kalitesine ve uygunluğuna bağlıdır. Önceden eğitilmiş modelin metnin nüanslarını yeterince yakalayamadığı senaryolarda değerlendirme sonuçları etkilenebilir.
  • ölçeklenebilirlik – BERTScore'u büyük veri kümeleri veya gerçek zamanlı uygulamalar için ölçeklendirmek, hesaplama talepleri nedeniyle zorlayıcı olabilir. BERTScore'un üretim ortamlarında uygulanması, verimli performans sağlamak için optimizasyon stratejileri gerektirebilir.
  • Etki alanı özgüllüğü – BERTScore'un performansı farklı alanlara veya özel metin türlerine göre değişiklik gösterebilir. Metriğin belirli alanlara veya görevlere uyarlanması, doğru değerlendirmeler üretmek için ince ayar veya ayarlamalar gerektirebilir.
  • yorumlanabilir – BERTScore bağlamsal yerleştirmelere dayalı kapsamlı bir değerlendirme sunsa da, her bir token için oluşturulan benzerlik puanlarının ardındaki belirli nedenleri yorumlamak karmaşık olabilir ve ek analiz gerektirebilir.
  • Referanssız değerlendirme – BERTScore, değerlendirme için referans özetlerine olan bağımlılığı azaltsa da, bu referanssız yaklaşım, özellikle içeriğin uygunluğunu ve tutarlılığını değerlendirmek için insan yapımı referansların gerekli olduğu senaryolarda, özetleme kalitesinin tüm yönlerini tam olarak yakalayamayabilir.

Bu sınırlamaları kabul etmek, BERTScore'u özetleme görevlerini değerlendirmek için bir ölçüm olarak kullanırken bilinçli kararlar vermenize yardımcı olabilir, güçlü yönleri ve kısıtlamaları konusunda dengeli bir anlayış sağlar.

BERTScore ne zaman kullanılmalı?

BERTScore, oluşturulan bir özeti bir referans özetiyle karşılaştırarak metin özetlemenin kalitesini değerlendirebilir. Tam kelime veya kelime öbeği eşleşmesinin ötesinde anlamsal benzerliği ölçmek için BERT gibi sinir ağlarını kullanır. Bu, özetleme göreviniz için anlamsal doğruluğun tam anlamı ve içeriği koruduğu durumlarda BERTScore'u çok kullanışlı hale getirir. BERTScore, farklı kelime ve cümle yapıları kullansa bile, referans özetiyle aynı bilgiyi aktaran özetlere daha yüksek puanlar verecektir. Sonuç olarak BERTScore, yalnızca anahtar kelimelerin veya konuların değil, tam anlamsal anlamın korunmasının hayati önem taşıdığı özetleme görevleri için idealdir. Gelişmiş sinirsel puanlaması, yüzey düzeyindeki kelime eşleştirmenin ötesinde anlamları karşılaştırmasına olanak tanır. Bu, onu, ifadelerdeki ince farklılıkların genel anlamı ve sonuçları önemli ölçüde değiştirebileceği durumlar için uygun kılar. Özellikle BERTScore, Retrieval Augmented Generation (RAG) modelleri tarafından üretilenler gibi soyutlayıcı özetlerin kalitesini değerlendirmek için çok önemli olan semantik benzerliği yakalamada başarılıdır.

Model değerlendirme çerçeveleri

Model değerlendirme çerçeveleri, çeşitli özetleme modellerinin performansını doğru bir şekilde ölçmek için gereklidir. Bu çerçeveler, modellerin karşılaştırılmasında, oluşturulan özetler ile kaynak içerik arasında tutarlılığın sağlanmasında ve değerlendirme yöntemlerindeki eksikliklerin tespit edilmesinde faydalıdır. Kapsamlı değerlendirmeler ve tutarlı kıyaslama yaparak bu çerçeveler, standartlaştırılmış değerlendirme uygulamalarını savunarak ve çok yönlü model karşılaştırmalarını mümkün kılarak metin özetleme araştırmalarını ilerletir.

AWS'de, FMEval kütüphanesi içinde Amazon SageMaker Netleştirin metin özetleme, soru yanıtlama ve sınıflandırma gibi görevler için temel modellerin (FM'ler) değerlendirilmesini ve seçimini kolaylaştırır. Yüksek Lisanslar için hem otomatik hem de döngüdeki insan değerlendirmelerini destekleyerek FM'leri doğruluk, sağlamlık, yaratıcılık, önyargı ve zehirlilik gibi ölçümlere dayalı olarak değerlendirmenizi sağlar. FMEval, kullanıcı arayüzü tabanlı veya programatik değerlendirmelerle hatalar, toksisite veya önyargı gibi model risklerini ölçmek için görselleştirmeler içeren ayrıntılı raporlar oluşturarak kuruluşların sorumlu üretken yapay zeka yönergelerine uyum sağlamasına yardımcı olur. Bu bölümde FMEval kütüphanesinin nasıl kullanılacağını gösteriyoruz.

Amazon Bedrock'u kullanarak Claude v2'yi özetleme doğruluğu açısından değerlendirin

Aşağıdaki kod parçacığı, Python kodunu kullanarak Antropik Claude modeliyle nasıl etkileşime geçileceğinin bir örneğidir:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

Basit bir ifadeyle bu kod aşağıdaki eylemleri gerçekleştirir:

  1. Aşağıdakiler de dahil olmak üzere gerekli kitaplıkları içe aktarın: json, JSON verileriyle çalışmak için.
  2. Model kimliğini şu şekilde tanımlayın: anthropic.claude-v2 ve isteğin içerik türünü ayarlayın.
  3. Hat için bir prompt_data Claude modeli için giriş verilerini yapılandıran değişken. Bu durumda “Barack Obama kimdir?” sorusunu sorar. ve modelden bir yanıt bekliyor.
  4. Bilgi istemi verilerini içeren gövde adında bir JSON nesnesi oluşturun ve oluşturulacak maksimum belirteç sayısı gibi ek parametreler belirtin.
  5. Claude modelini kullanarak çağırın bedrock_runtime.invoke_model Tanımlanan parametrelerle.
  6. Yanıtı modelden ayrıştırın, tamamlanmış metni (oluşturulan metni) çıkarın ve yazdırın.

Emin olmak AWS Kimlik ve Erişim Yönetimi (IAM) rolüyle ilişkili Amazon SageMaker Stüdyosu kullanıcı profilinin şunlara erişimi var: Amazon Ana Kayası çağrılan modeller. Bakınız Amazon Bedrock için kimlik tabanlı politika örnekleri Amazon Bedrock için en iyi uygulamalara ve kimlik tabanlı politika örneklerine ilişkin rehberlik için.

Claude'un özetlenmiş çıktısını değerlendirmek için FMEval kütüphanesini kullanma

Özetlenen çıktıyı değerlendirmek için aşağıdaki kodu kullanırız:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

Önceki kod parçacığında, FMEval kütüphanesini kullanarak metin özetlemeyi değerlendirmek için aşağıdaki adımları tamamlıyoruz:

  1. Hat için bir ModelRunner LLM'nizde çağrı yapmak için. FMEval kütüphanesi aşağıdakiler için yerleşik destek sağlar: Amazon Adaçayı Yapıcı uç noktalar ve Amazon SageMaker Hızlı Başlangıç Yüksek Lisans. Ayrıca uzatabilirsiniz ModelRunner Herhangi bir yerde barındırılan tüm LLM'ler için arayüz.
  2. Desteklenenleri kullanın eval_algorithms değerlendirme ihtiyaçlarınıza göre toksisite, özetleme, doğruluk, anlamsal ve sağlamlık gibi.
  3. Özel kullanım durumunuz için değerlendirme yapılandırma parametrelerini özelleştirin.
  4. LLM modelinizi değerlendirmek için yerleşik veya özel veri kümeleriyle birlikte değerlendirme algoritmasını kullanın. Bu durumda kullanılan veri kümesi aşağıdakilerden alınmıştır: GitHub repo.

Bakın geliştirici kılavuzu ve örnekler değerlendirme algoritmalarının ayrıntılı kullanımı için.

Aşağıdaki tablo değerlendirmenin sonuçlarını özetlemektedir.

model_girdi model_output hedef_çıkış istemi skorları meteor_score rouge_score bert_score
John Edward
0 Bates, eski Spalding, Linco'lu…..
kesin bir şey söyleyemem
yargılar şöyle…
Eski bir
Lincolnshire Polis memuru taşıdı…
İnsan: John
Edward Bates, eski Spalding'li...
[{'name': 'göktaşı', 'değer':
0.101010101010101 ...
0.10101 0 0.557155
23 Ekim 2015
Son güncelleme tarihi:
17:44 BST|nIt'…
İşte kasırga/tropla ilgili bazı önemli noktalar.. Patricia Kasırgası kategori olarak derecelendirildi… İnsan: 23
Ekim 2015 Son güncelleme tarihi: 17:44
B ...
[{'isim': meteor', “değer':
0.102339181286549 ..
0.102339 0.018265 0.441421
Ferrari rakiplere meydan okuyabilecek bir konumda göründü… İşte yazıdan önemli noktalar:nin… Lewis Hamilton pole pozisyonunu aldı... İnsan: Ferrari meydan okuyabilecek bir konumda göründü… [{'name': 'göktaşı', 'değer':
0.322543352601156 ...
0.322543 0.078212 0.606487
Bath doğumlu 28 yaşındaki oyuncu 36 gol attı
görünen…
Tamam, önemli noktaları özetleyeyim:/nin-E….. Newport Gwent Dragons sekiz numara Ed Jackson İnsan: Bath doğumlu oyuncu (28), 36 a… [{'name': 'göktaşı', 'değer':
0105740181268882 ...
0.10574 0.012987 0.539488
Farelerin veriyi bilgisayarla değiştirme biçimindeki zayıflıklar İşte bir toplantıdan topladığım önemli noktalar… Bilgisayar korsanları evlere erişim sağlayabilir ve İnsan:
Zayıflıklar
swar fareleri verileri değiştirdi
[{'name': 'göktaşı', 'değer':
0.201048289433848 ...
0.201048 0.021858 0.526947

Örneği inceleyin defter Bu yazıda tartıştığımız özetleme değerlendirmesi hakkında daha fazla ayrıntı için.

Sonuç

ROUGE, METEOR ve BERTScore'un tümü makine tarafından oluşturulan özetlerin kalitesini ölçer ancak sözcüksel örtüşme, akıcılık veya anlamsal benzerlik gibi farklı yönlere odaklanır. Özel özetleme kullanım durumunuz için "iyi"yi tanımlayan şeyle uyumlu olan metriği seçtiğinizden emin olun. Ayrıca metriklerin bir kombinasyonunu da kullanabilirsiniz. Bu, daha kapsamlı bir değerlendirme sağlar ve herhangi bir metriğin potansiyel zayıflıklarına karşı koruma sağlar. Doğru ölçümlerle özetleyicilerinizi, en önemli doğruluk kavramına uyacak şekilde tekrar tekrar geliştirebilirsiniz.

Ayrıca bu modellerin geniş ölçekte üretilebilmesi için FM ve LLM değerlendirmesi de gereklidir. FMEval ile birçok NLP görevinde geniş bir yerleşik algoritma kümesinin yanı sıra kendi modellerinizin, veri kümelerinizin ve algoritmalarınızın büyük ölçekli değerlendirmeleri için ölçeklenebilir ve esnek bir araç elde edersiniz. Ölçeklendirmek için bu paketi LLMOps ardışık düzenlerinizde kullanabilirsiniz. birden fazla modeli değerlendirin. AWS'de FMEval hakkında daha fazla bilgi edinmek ve bunun etkili bir şekilde nasıl kullanılacağını öğrenmek için bkz. Büyük dil modellerini değerlendirmek için SageMaker Clarify'ı kullanın. SageMaker Clarify'ın FM'leri değerlendirme konusundaki yeteneklerine ilişkin daha fazla bilgi ve anlayış için bkz. Amazon SageMaker Clarify, Temel Modellerini Değerlendirmeyi ve Seçmeyi Kolaylaştırıyor.


Yazarlar Hakkında


Dinesh Kumar Subramani Edinburgh, İskoçya merkezli Kıdemli Çözüm Mimarıdır. Yapay zeka ve makine öğrenimi konusunda uzmanlaşmıştır ve Amazon'daki teknik alan topluluğunun üyesidir. Dinesh, sorunlarını AWS hizmetlerini kullanarak çözmek için Birleşik Krallık Merkezi Hükümet müşterileriyle yakın işbirliği içinde çalışıyor. Dinesh, iş dışında ailesiyle kaliteli zaman geçirmekten, satranç oynamaktan ve çeşitli müzik türlerini keşfetmekten hoşlanıyor.


Pranav Şarma Avrupa, Orta Doğu ve Afrika'da teknoloji ve iş dönüşümü girişimlerini yönlendiren bir AWS lideridir. Milyonlarca müşteriyi destekleyen ve iş sonuçları sunan yapay zeka platformlarını üretimde tasarlama ve çalıştırma konusunda deneyime sahiptir. Küresel Finansal Hizmetler kuruluşlarında teknoloji ve insan liderliği rolleri oynadı. İş dışında okumayı, oğluyla tenis oynamayı ve film izlemeyi seviyor.

spot_img

En Son İstihbarat

spot_img

Bizimle sohbet

Merhaba! Size nasıl yardım edebilirim?