Trí thông minh dữ liệu tạo

Đánh giá khả năng tóm tắt văn bản của LLM để nâng cao khả năng ra quyết định trên AWS | Dịch vụ web của Amazon

Ngày:

Các tổ chức trong nhiều ngành đang sử dụng tính năng tóm tắt văn bản tự động để xử lý lượng thông tin khổng lồ một cách hiệu quả hơn và đưa ra quyết định tốt hơn. Trong lĩnh vực tài chính, các ngân hàng đầu tư tập hợp các báo cáo thu nhập thành những điểm chính để phân tích nhanh chóng hiệu quả hoạt động hàng quý. Các công ty truyền thông sử dụng tính năng tóm tắt để theo dõi tin tức và mạng xã hội để các nhà báo có thể nhanh chóng viết bài về các vấn đề đang phát triển. Các cơ quan chính phủ tóm tắt các tài liệu và báo cáo chính sách dài để giúp các nhà hoạch định chính sách lập chiến lược và ưu tiên các mục tiêu.

Bằng cách tạo ra các phiên bản cô đọng của những tài liệu dài và phức tạp, công nghệ tóm tắt cho phép người dùng tập trung vào nội dung nổi bật nhất. Điều này dẫn đến việc hiểu và lưu giữ thông tin quan trọng tốt hơn. Việc tiết kiệm thời gian cho phép các bên liên quan xem xét nhiều tài liệu hơn trong thời gian ngắn hơn, đạt được góc nhìn rộng hơn. Với sự hiểu biết nâng cao và hiểu biết tổng hợp hơn, các tổ chức có thể đưa ra các quyết định chiến lược sáng suốt hơn, đẩy nhanh nghiên cứu, cải thiện năng suất và tăng tác động của mình. Sức mạnh biến đổi của khả năng tóm tắt nâng cao sẽ chỉ tiếp tục tăng lên khi ngày càng nhiều ngành áp dụng trí tuệ nhân tạo (AI) để khai thác các luồng thông tin tràn lan.

Trong bài đăng này, chúng tôi khám phá các phương pháp hàng đầu để đánh giá độ chính xác của tóm tắt một cách khách quan, bao gồm các số liệu ROUGE, METEOR và BERTScore. Hiểu được điểm mạnh và điểm yếu của các kỹ thuật này có thể giúp hướng dẫn các nỗ lực lựa chọn và cải tiến. Mục tiêu tổng thể của bài đăng này là làm sáng tỏ đánh giá tóm tắt để giúp các nhóm đánh giá hiệu suất tốt hơn về khả năng quan trọng này khi họ tìm cách tối đa hóa giá trị.

Các kiểu tóm tắt

Tóm tắt nói chung có thể được chia thành hai loại chính: tóm tắt khai thác và tóm tắt trừu tượng. Cả hai cách tiếp cận đều nhằm mục đích cô đọng các đoạn văn bản dài thành các dạng ngắn hơn, nắm bắt thông tin quan trọng nhất hoặc bản chất của nội dung gốc, nhưng về cơ bản chúng thực hiện theo những cách khác nhau.

Tóm tắt trích xuất bao gồm việc xác định và trích xuất các cụm từ, câu hoặc phân đoạn chính từ văn bản gốc mà không làm thay đổi chúng. Hệ thống chọn các phần của văn bản được coi là có nhiều thông tin nhất hoặc mang tính đại diện cho toàn bộ văn bản. Tóm tắt trích xuất rất hữu ích nếu độ chính xác là rất quan trọng và bản tóm tắt cần phản ánh thông tin chính xác từ văn bản gốc. Đây có thể là các trường hợp sử dụng như nêu bật các điều khoản pháp lý, nghĩa vụ và quyền cụ thể được nêu trong điều khoản sử dụng. Các kỹ thuật phổ biến nhất được sử dụng để tóm tắt trích xuất là tần số tài liệu nghịch đảo tần số (TF-IDF), tính điểm câu, thuật toán xếp hạng văn bản và học máy có giám sát (ML).

Tóm tắt trừu tượng tiến thêm một bước nữa bằng cách tạo ra các cụm từ và câu mới không có trong văn bản gốc, về cơ bản là diễn giải và cô đọng nội dung gốc. Cách tiếp cận này đòi hỏi sự hiểu biết sâu sắc hơn về văn bản, bởi vì AI cần diễn giải ý nghĩa và sau đó diễn đạt nó dưới dạng mới, ngắn gọn. Các mô hình ngôn ngữ lớn (LLM) phù hợp nhất cho việc tóm tắt trừu tượng vì các mô hình biến áp sử dụng cơ chế chú ý để tập trung vào các phần có liên quan của văn bản đầu vào khi tạo tóm tắt. Cơ chế chú ý cho phép mô hình gán các trọng số khác nhau cho các từ hoặc mã thông báo khác nhau trong chuỗi đầu vào, cho phép mô hình nắm bắt được các phụ thuộc tầm xa và thông tin có liên quan theo ngữ cảnh.

Ngoài hai loại chính này, còn có các phương pháp lai kết hợp các phương pháp khai thác và trừu tượng. Những cách tiếp cận này có thể bắt đầu bằng việc tóm tắt rút ra để xác định nội dung quan trọng nhất và sau đó sử dụng các kỹ thuật trừu tượng để viết lại hoặc cô đọng nội dung đó thành một bản tóm tắt trôi chảy.

Các thách thức

Việc tìm ra phương pháp tối ưu để đánh giá chất lượng tóm tắt vẫn là một thách thức mở. Khi các tổ chức ngày càng dựa vào tính năng tóm tắt văn bản tự động để chắt lọc thông tin quan trọng từ tài liệu, nhu cầu về các kỹ thuật tiêu chuẩn hóa để đo lường độ chính xác của việc tóm tắt ngày càng tăng. Lý tưởng nhất là các thước đo đánh giá này sẽ định lượng mức độ hiệu quả của các bản tóm tắt do máy tạo ra để trích xuất nội dung nổi bật nhất từ ​​văn bản nguồn và trình bày các bản tóm tắt mạch lạc phản ánh ý nghĩa và ngữ cảnh ban đầu.

Tuy nhiên, việc phát triển các phương pháp đánh giá hiệu quả cho việc tóm tắt văn bản gặp phải những khó khăn:

  • Các bản tóm tắt tham khảo do con người viết được sử dụng để so sánh thường thể hiện tính biến thiên cao dựa trên các quyết định chủ quan về tầm quan trọng
  • Các khía cạnh sắc thái của chất lượng tóm tắt như tính trôi chảy, dễ đọc và mạch lạc tỏ ra khó định lượng theo chương trình
  • Có sự khác biệt lớn giữa các phương pháp tóm tắt từ thuật toán thống kê đến mạng lưới thần kinh, làm phức tạp việc so sánh trực tiếp

Nghiên cứu theo định hướng thu hồi để đánh giá Gisting (ROUGE)

số liệu ROUGE, chẳng hạn như ROUGE-N và ROUGE-L, đóng vai trò quan trọng trong việc đánh giá chất lượng của các bản tóm tắt do máy tạo ra so với các bản tóm tắt tham chiếu do con người viết. Các số liệu này tập trung vào việc đánh giá sự chồng chéo giữa nội dung của các bản tóm tắt do máy tạo và do con người tạo ra bằng cách phân tích n-gram, là các nhóm từ hoặc mã thông báo. Ví dụ: ROUGE-1 đánh giá sự trùng khớp của các từ riêng lẻ (unigram), trong khi ROUGE-2 xem xét các cặp từ (bigram). Ngoài ra, ROUGE-N đánh giá chuỗi từ chung dài nhất giữa hai văn bản, cho phép sự linh hoạt trong thứ tự từ.

Để minh họa điều này, hãy xem xét các ví dụ sau:

  • Số liệu ROGUE-1 – ROUGE-1 đánh giá sự chồng chéo của các unigram (từ đơn) giữa bản tóm tắt được tạo và bản tóm tắt tham chiếu. Ví dụ: nếu bản tóm tắt tham chiếu chứa "Cáo nâu nhanh chóng nhảy" và bản tóm tắt được tạo là "Cáo nâu nhảy nhanh" thì chỉ số ROUGE-1 sẽ coi "cáo nâu", "cáo" và "nhảy" là trùng lặp unigram. ROUGE-1 tập trung vào sự hiện diện của từng từ trong phần tóm tắt, đo lường mức độ tóm tắt được tạo ra nắm bắt các từ khóa trong phần tóm tắt tham chiếu.
  • Số liệu ROGUE-2 – ROUGE-2 đánh giá sự chồng chéo của bigram (cặp từ liền kề) giữa bản tóm tắt được tạo và bản tóm tắt tham chiếu. Ví dụ: nếu tóm tắt tham chiếu có “Con mèo đang ngủ” và bản tóm tắt được tạo ra có nội dung “Một con mèo đang ngủ”, ROUGE-2 sẽ xác định “con mèo đang ngủ” và “đang ngủ” là một bigram chồng chéo. ROUGE-2 cung cấp cái nhìn sâu sắc về mức độ duy trì trình tự và ngữ cảnh của các cặp từ so với bản tóm tắt tham chiếu.
  • Chỉ số ROUGE-N – ROUGE-N là dạng tổng quát trong đó N đại diện cho số bất kỳ, cho phép đánh giá dựa trên n-gram (chuỗi N từ). Xét N=3, nếu tóm tắt tham chiếu ghi “Mặt trời chiếu sáng rực rỡ” và tóm tắt được tạo ra là “Mặt trời tỏa sáng rực rỡ”, ROUGE-3 sẽ nhận ra “mặt trời tỏa sáng rực rỡ” là một bát quái phù hợp. ROUGE-N cung cấp tính linh hoạt để đánh giá các bản tóm tắt dựa trên độ dài khác nhau của chuỗi từ, cung cấp đánh giá toàn diện hơn về sự trùng lặp nội dung.

Các ví dụ này minh họa cách các số liệu ROUGE-1, ROUGE-2 và ROUGE-N hoạt động trong việc đánh giá các tác vụ tóm tắt tự động hoặc dịch máy bằng cách so sánh các bản tóm tắt được tạo với các bản tóm tắt tham chiếu dựa trên các cấp độ khác nhau của chuỗi từ.

Tính điểm ROUGE-N

Bạn có thể sử dụng các bước sau để tính điểm ROUGE-N:

  1. Mã hóa bản tóm tắt đã tạo và bản tóm tắt tham chiếu thành các từ hoặc mã thông báo riêng lẻ bằng các phương pháp mã thông báo cơ bản như phân tách theo khoảng trắng hoặc thư viện xử lý ngôn ngữ tự nhiên (NLP).
  2. Tạo n-gram (chuỗi N từ liền kề) từ cả bản tóm tắt được tạo và bản tóm tắt tham chiếu.
  3. Đếm số lượng n-gram chồng chéo giữa bản tóm tắt được tạo và bản tóm tắt tham chiếu.
  4. Tính toán độ chính xác, thu hồi và điểm F1:
    • Độ chính xác – Số lượng n-gram chồng chéo chia cho tổng số n-gram trong bản tóm tắt được tạo.
    • Nhớ lại – Số lượng n-gram chồng chéo chia cho tổng số n-gram trong bản tóm tắt tham chiếu.
    • Điểm F1 – Giá trị trung bình hài hòa của độ chính xác và thu hồi, được tính bằng (2 * độ chính xác * thu hồi) / (độ chính xác + thu hồi).
  5. Điểm F1 tổng hợp thu được từ việc tính toán độ chính xác, thu hồi và điểm F1 cho mỗi hàng trong tập dữ liệu được coi là điểm ROUGE-N.

Hạn chế

ROGUE có những hạn chế sau:

  • Tập trung thu hẹp vào sự chồng chéo từ vựng – Ý tưởng cốt lõi đằng sau ROUGE là so sánh bản tóm tắt do hệ thống tạo ra với một tập hợp các bản tóm tắt tham chiếu hoặc do con người tạo ra và đo lường sự chồng chéo từ vựng giữa chúng. Điều này có nghĩa là ROUGE tập trung rất hẹp vào sự tương đồng ở cấp độ từ. Nó không thực sự đánh giá ý nghĩa ngữ nghĩa, tính mạch lạc hoặc khả năng đọc của bản tóm tắt. Một hệ thống có thể đạt được điểm ROUGE cao bằng cách trích xuất từng câu một từ văn bản gốc mà không tạo ra một bản tóm tắt mạch lạc hoặc ngắn gọn.
  • Không nhạy cảm với việc diễn giải – Vì ROUGE dựa vào việc so khớp từ vựng nên nó không thể phát hiện sự tương đương về mặt ngữ nghĩa giữa các từ và cụm từ. Vì vậy, việc diễn giải và sử dụng từ đồng nghĩa thường sẽ dẫn đến điểm ROUGE thấp hơn, ngay cả khi ý nghĩa được giữ nguyên. Điều này gây bất lợi cho những hệ thống diễn giải hoặc tóm tắt theo cách trừu tượng.
  • Thiếu hiểu biết ngữ nghĩa – ROUGE không đánh giá liệu hệ thống có thực sự hiểu được ý nghĩa và khái niệm trong văn bản gốc hay không. Một bản tóm tắt có thể đạt được sự trùng lặp từ vựng cao với các tài liệu tham khảo, đồng thời thiếu các ý chính hoặc chứa đựng những mâu thuẫn về mặt thực tế. ROUGE sẽ không xác định những vấn đề này.

Khi nào nên sử dụng ROUGE

ROUGE tính toán đơn giản và nhanh chóng. Sử dụng nó làm cơ sở hoặc điểm chuẩn cho chất lượng tóm tắt liên quan đến việc lựa chọn nội dung. Số liệu ROUGE được sử dụng hiệu quả nhất trong các tình huống liên quan đến nhiệm vụ tóm tắt trừu tượng, đánh giá tóm tắt tự động, đánh giá LLM và phân tích so sánh các phương pháp tóm tắt khác nhau. Bằng cách sử dụng số liệu ROUGE trong những bối cảnh này, các bên liên quan có thể đánh giá định lượng chất lượng và hiệu quả của các quy trình tạo bản tóm tắt.

Số liệu đánh giá bản dịch có thứ tự rõ ràng (METEOR)

Một trong những thách thức lớn trong việc đánh giá các hệ thống tóm tắt là đánh giá xem bản tóm tắt được tạo ra có logic hay không thay vì chỉ chọn các từ và cụm từ có liên quan từ văn bản nguồn. Việc chỉ trích xuất các từ khóa và câu có liên quan không nhất thiết tạo ra một bản tóm tắt mạch lạc và gắn kết. Bản tóm tắt phải trôi chảy và kết nối các ý tưởng một cách hợp lý, ngay cả khi chúng không được trình bày theo thứ tự như tài liệu gốc.

Tính linh hoạt của việc so khớp bằng cách rút gọn các từ về dạng gốc hoặc dạng cơ sở (Ví dụ: sau khi bắt nguồn, các từ như “running”, “runs” và “ran” đều trở thành “run”) và các từ đồng nghĩa có nghĩa là METEOR tương quan tốt hơn với những đánh giá của con người về chất lượng tóm tắt. Nó có thể xác định xem nội dung quan trọng có được giữ nguyên hay không, ngay cả khi cách diễn đạt khác nhau. Đây là lợi thế chính so với các số liệu dựa trên n-gram như ROUGE, vốn chỉ tìm kiếm các kết quả khớp chính xác với mã thông báo. METEOR cũng cho điểm cao hơn đối với những bản tóm tắt tập trung vào nội dung nổi bật nhất từ ​​tài liệu tham khảo. Điểm thấp hơn được trao cho thông tin lặp đi lặp lại hoặc không liên quan. Điều này phù hợp tốt với mục tiêu tóm tắt để chỉ giữ lại nội dung quan trọng nhất. METEOR là một thước đo có ý nghĩa về mặt ngữ nghĩa, có thể khắc phục một số hạn chế của việc so khớp n-gram để đánh giá tóm tắt văn bản. Việc kết hợp từ gốc và từ đồng nghĩa cho phép đánh giá tốt hơn về sự trùng lặp thông tin và độ chính xác của nội dung.

Để minh họa điều này, hãy xem xét các ví dụ sau:

Tóm tắt tham khảo: Lá rơi vào mùa thu.

Đã tạo Tóm tắt 1: Lá rụng vào mùa thu.

Đã tạo Tóm tắt 2: Lá xanh vào mùa hè.

Các từ khớp giữa tài liệu tham khảo và bản tóm tắt được tạo 1 được đánh dấu:

Tóm tắt tham khảo: rơi trong mùa thu.

Đã tạo Tóm tắt 1: thả vào rơi.

Mặc dù “mùa thu” và “mùa thu” là các mã thông báo khác nhau, METEOR nhận ra chúng là từ đồng nghĩa thông qua việc khớp từ đồng nghĩa. “Thả” và “rơi” được xác định là trùng khớp. Đối với bản tóm tắt 2 được tạo, không có kết quả trùng khớp nào với bản tóm tắt tham chiếu ngoài “Lá”, vì vậy bản tóm tắt này sẽ nhận được điểm METEOR thấp hơn nhiều. Các trận đấu càng có ý nghĩa về mặt ngữ nghĩa thì điểm METEOR càng cao. Điều này cho phép METEOR đánh giá tốt hơn nội dung và độ chính xác của các bản tóm tắt so với việc so khớp n-gram đơn giản.

Tính điểm METEOR

Hoàn thành các bước sau để tính điểm METEOR:

  1. Mã hóa bản tóm tắt đã tạo và bản tóm tắt tham chiếu thành các từ hoặc mã thông báo riêng lẻ bằng các phương pháp mã thông báo cơ bản như phân tách theo khoảng trắng hoặc thư viện NLP.
  2. Tính toán độ chính xác, thu hồi và điểm F-trung bình của unigram, đưa ra mức độ thu hồi cao hơn độ chính xác.
  3. Áp dụng hình phạt cho những kết quả trùng khớp chính xác để tránh nhấn mạnh chúng quá mức. Hình phạt được chọn dựa trên đặc điểm của tập dữ liệu, yêu cầu nhiệm vụ và sự cân bằng giữa độ chính xác và thu hồi. Trừ số tiền phạt này khỏi điểm F-trung bình được tính ở Bước 2.
  4. Tính điểm F-trung bình cho các dạng có gốc (rút gọn các từ về dạng gốc hoặc dạng gốc của chúng) và các từ đồng nghĩa cho các đơn vị nếu có. Tổng hợp điểm này với điểm trung bình F được tính toán trước đó để có được điểm METEOR cuối cùng. Điểm METEOR nằm trong khoảng từ 0–1, trong đó 0 biểu thị không có sự tương đồng giữa bản tóm tắt được tạo và bản tóm tắt tham chiếu và 1 biểu thị sự căn chỉnh hoàn hảo. Thông thường, điểm tóm tắt nằm trong khoảng từ 0–0.6.

Hạn chế

Khi sử dụng thước đo METEOR để đánh giá các nhiệm vụ tóm tắt, một số thách thức có thể nảy sinh:

  • Độ phức tạp ngữ nghĩa – Sự nhấn mạnh của METEOR vào sự tương đồng về ngữ nghĩa có thể gặp khó khăn trong việc nắm bắt các ý nghĩa và bối cảnh sắc thái trong các nhiệm vụ tóm tắt phức tạp, có khả năng dẫn đến sự thiếu chính xác trong đánh giá.
  • Độ biến thiên tham chiếu – Sự thay đổi trong các bản tóm tắt tham chiếu do con người tạo ra có thể ảnh hưởng đến điểm METEOR vì sự khác biệt trong nội dung tham chiếu có thể ảnh hưởng đến việc đánh giá các bản tóm tắt do máy tạo ra.
  • Đa dạng ngôn ngữ – Hiệu quả của METEOR có thể khác nhau giữa các ngôn ngữ do sự khác biệt về ngôn ngữ, cú pháp và sắc thái ngữ nghĩa, đặt ra thách thức trong việc đánh giá tóm tắt đa ngôn ngữ.
  • Sự khác biệt về chiều dài – Việc đánh giá các bản tóm tắt có độ dài khác nhau có thể là một thách thức đối với METEOR vì sự khác biệt về độ dài so với bản tóm tắt tham chiếu có thể dẫn đến hình phạt hoặc đánh giá không chính xác.
  • Điều chỉnh tham số – Việc tối ưu hóa các tham số của METEOR cho các tập dữ liệu và nhiệm vụ tóm tắt khác nhau có thể tốn thời gian và cần điều chỉnh cẩn thận để đảm bảo số liệu đưa ra đánh giá chính xác.
  • Đánh giá sai lệch – Có nguy cơ sai lệch đánh giá với METEOR nếu không được điều chỉnh hoặc hiệu chỉnh phù hợp cho các lĩnh vực hoặc nhiệm vụ tóm tắt cụ thể. Điều này có khả năng dẫn đến kết quả sai lệch và ảnh hưởng đến độ tin cậy của quá trình đánh giá.

Bằng cách nhận thức được những thách thức này và xem xét chúng khi sử dụng METEOR làm thước đo cho các nhiệm vụ tóm tắt, các nhà nghiên cứu và người thực hành có thể tìm ra những hạn chế tiềm ẩn và đưa ra quyết định sáng suốt hơn trong quy trình đánh giá của mình.

Khi nào nên sử dụng METEOR

METEOR thường được sử dụng để tự động đánh giá chất lượng của văn bản tóm tắt. Tốt nhất nên sử dụng METEOR làm thước đo đánh giá khi thứ tự các ý tưởng, khái niệm hoặc thực thể trong bản tóm tắt có vấn đề. METEOR xem xét thứ tự và khớp n-gram giữa bản tóm tắt được tạo và bản tóm tắt tham chiếu. Nó khen thưởng các bản tóm tắt lưu giữ thông tin tuần tự. Không giống như các số liệu như ROUGE, vốn dựa vào sự chồng chéo của n-gram với các bản tóm tắt tham chiếu, METEOR khớp với gốc từ, từ đồng nghĩa và cách diễn giải. METEOR hoạt động tốt hơn khi có nhiều cách chính xác để tóm tắt văn bản gốc. METEOR kết hợp các từ đồng nghĩa của WordNet và mã thông báo gốc khi khớp n-gram. Nói tóm lại, những bản tóm tắt giống nhau về mặt ngữ nghĩa nhưng sử dụng các từ hoặc cụm từ khác nhau vẫn sẽ đạt điểm cao. METEOR có một hình phạt tích hợp cho các bản tóm tắt có n-gram lặp đi lặp lại. Vì vậy, nó không khuyến khích việc trích xuất từng từ hoặc thiếu tính trừu tượng. METEOR là một lựa chọn phù hợp khi sự tương đồng về ngữ nghĩa, thứ tự ý tưởng và cách diễn đạt trôi chảy đóng vai trò quan trọng trong việc đánh giá chất lượng tóm tắt. Nó ít phù hợp hơn cho các nhiệm vụ chỉ có sự trùng lặp từ vựng với các tóm tắt tham chiếu.

điểm số BERTS

Các biện pháp từ vựng cấp độ bề mặt như ROUGE và METEOR đánh giá các hệ thống tóm tắt bằng cách so sánh sự trùng lặp từ giữa bản tóm tắt ứng cử viên và bản tóm tắt tham chiếu. Tuy nhiên, họ phụ thuộc rất nhiều vào việc khớp chuỗi chính xác giữa các từ và cụm từ. Điều này có nghĩa là họ có thể bỏ lỡ những điểm tương đồng về ngữ nghĩa giữa các từ và cụm từ có hình thức bề ngoài khác nhau nhưng ý nghĩa cơ bản tương tự nhau. Bằng cách chỉ dựa vào sự so khớp bề mặt, các số liệu này có thể đánh giá thấp chất lượng của các bản tóm tắt hệ thống sử dụng các từ đồng nghĩa hoặc các khái niệm diễn giải khác với các bản tóm tắt tham chiếu. Hai bản tóm tắt có thể truyền tải thông tin gần như giống nhau nhưng nhận được điểm ở mức độ bề mặt thấp do sự khác biệt về từ vựng.

điểm số BERTS là một cách để tự động đánh giá mức độ tốt của một bản tóm tắt bằng cách so sánh nó với một bản tóm tắt tham khảo do con người viết. Nó sử dụng BERT, một kỹ thuật NLP phổ biến, để hiểu ý nghĩa và ngữ cảnh của các từ trong bản tóm tắt ứng viên và bản tóm tắt tham chiếu. Cụ thể, nó xem xét từng từ hoặc mã thông báo trong bản tóm tắt ứng viên và tìm từ tương tự nhất trong bản tóm tắt tham chiếu dựa trên phần nhúng BERT, là các biểu diễn vectơ về ý nghĩa và ngữ cảnh của mỗi từ. Nó đo lường độ tương tự bằng cách sử dụng độ tương tự cosine, cho biết mức độ gần nhau của các vectơ. Đối với mỗi từ trong bản tóm tắt ứng viên, nó sẽ tìm từ có liên quan nhất trong bản tóm tắt tham chiếu bằng cách sử dụng hiểu biết về ngôn ngữ của BERT. Nó so sánh tất cả những điểm tương đồng về từ này trong toàn bộ bản tóm tắt để có được điểm tổng thể về mức độ giống nhau về mặt ngữ nghĩa của bản tóm tắt ứng viên với bản tóm tắt tham chiếu. Các từ và ý nghĩa được BERT nắm bắt càng giống nhau thì điểm BERTScore càng cao. Điều này cho phép nó tự động đánh giá chất lượng của bản tóm tắt được tạo bằng cách so sánh nó với tài liệu tham khảo của con người mà không cần đánh giá của con người mỗi lần.

Để minh họa điều này, hãy tưởng tượng bạn có một bản tóm tắt do máy tạo ra: “Con cáo nâu nhanh nhẹn nhảy qua con chó lười”. Bây giờ, hãy xem xét một bản tóm tắt tham khảo do con người tạo ra: “Một con cáo nâu nhanh nhẹn nhảy qua một con chó đang ngủ”.

Tính điểm BERTScore

Hoàn thành các bước sau để tính BERTScore:

  1. BERTScore sử dụng các phần nhúng theo ngữ cảnh để thể hiện từng mã thông báo trong cả câu ứng cử viên (do máy tạo) và câu tham chiếu (do con người tạo ra). Nhúng theo ngữ cảnh là một kiểu biểu diễn từ trong NLP nhằm nắm bắt ý nghĩa của một từ dựa trên ngữ cảnh của nó trong một câu hoặc văn bản. Không giống như cách nhúng từ truyền thống gán một vectơ cố định cho mỗi từ bất kể ngữ cảnh của nó, cách nhúng theo ngữ cảnh xem xét các từ xung quanh để tạo ra cách biểu thị duy nhất cho mỗi từ tùy thuộc vào cách nó được sử dụng trong một câu cụ thể.
  2. Sau đó, số liệu sẽ tính toán độ tương tự giữa từng mã thông báo trong câu ứng cử viên với từng mã thông báo trong câu tham chiếu bằng cách sử dụng độ tương tự cosine. Độ tương tự cosine giúp chúng tôi định lượng mức độ liên quan chặt chẽ của hai bộ dữ liệu bằng cách tập trung vào hướng chúng chỉ ra trong không gian đa chiều, khiến nó trở thành công cụ có giá trị cho các tác vụ như thuật toán tìm kiếm, NLP và hệ thống đề xuất.
  3. Bằng cách so sánh các phần nhúng theo ngữ cảnh và điểm tương tự về tính toán cho tất cả các mã thông báo, BERTScore tạo ra đánh giá toàn diện nhằm nắm bắt mức độ liên quan về mặt ngữ nghĩa và bối cảnh của bản tóm tắt được tạo so với tham chiếu do con người tạo ra.
  4. Đầu ra BERTScore cuối cùng cung cấp điểm tương đồng phản ánh mức độ phù hợp của bản tóm tắt do máy tạo với bản tóm tắt tham chiếu về mặt ý nghĩa và ngữ cảnh.

Về bản chất, BERTScore vượt xa các số liệu truyền thống bằng cách xem xét các sắc thái ngữ nghĩa và bối cảnh của câu, đưa ra đánh giá phức tạp hơn phản ánh chặt chẽ khả năng phán đoán của con người. Cách tiếp cận nâng cao này nâng cao tính chính xác và độ tin cậy của việc đánh giá các nhiệm vụ tóm tắt, làm cho BERTScore trở thành một công cụ có giá trị trong việc đánh giá các hệ thống tạo văn bản.

Hạn chế:

Mặc dù BERTScore mang lại những lợi thế đáng kể trong việc đánh giá các nhiệm vụ tóm tắt nhưng nó cũng có một số hạn chế nhất định cần được xem xét:

  • Cường độ tính toán – BERTScore có thể có tính toán chuyên sâu do phụ thuộc vào các mô hình ngôn ngữ được đào tạo trước như BERT. Điều này có thể dẫn đến thời gian đánh giá lâu hơn, đặc biệt khi xử lý khối lượng lớn dữ liệu văn bản.
  • Sự phụ thuộc vào các mô hình được đào tạo trước – Hiệu quả của BERTScore phụ thuộc nhiều vào chất lượng và mức độ phù hợp của mô hình ngôn ngữ được đào tạo trước được sử dụng. Trong trường hợp mô hình được đào tạo trước không thể nắm bắt đầy đủ các sắc thái của văn bản thì kết quả đánh giá có thể bị ảnh hưởng.
  • khả năng mở rộng – Việc mở rộng quy mô BERTScore cho các tập dữ liệu lớn hoặc ứng dụng thời gian thực có thể gặp khó khăn do nhu cầu tính toán của nó. Việc triển khai BERTScore trong môi trường sản xuất có thể yêu cầu các chiến lược tối ưu hóa để mang lại hiệu suất hiệu quả.
  • Tính đặc hiệu của tên miền – Hiệu suất của BERTScore có thể khác nhau giữa các miền hoặc loại văn bản chuyên biệt khác nhau. Việc điều chỉnh số liệu cho phù hợp với các lĩnh vực hoặc nhiệm vụ cụ thể có thể yêu cầu tinh chỉnh hoặc điều chỉnh để tạo ra các đánh giá chính xác.
  • Giải thích – Mặc dù BERTScore cung cấp đánh giá toàn diện dựa trên các nhúng theo ngữ cảnh, việc giải thích các lý do cụ thể đằng sau điểm tương tự được tạo cho mỗi mã thông báo có thể phức tạp và có thể yêu cầu phân tích bổ sung.
  • Đánh giá không tham khảo – Mặc dù BERTScore giảm sự phụ thuộc vào các bản tóm tắt tham chiếu để đánh giá, cách tiếp cận không có tham chiếu này có thể không nắm bắt được đầy đủ tất cả các khía cạnh của chất lượng tóm tắt, đặc biệt trong các tình huống mà các tài liệu tham khảo do con người tạo ra là cần thiết để đánh giá mức độ liên quan và mạch lạc của nội dung.

Việc thừa nhận những hạn chế này có thể giúp bạn đưa ra quyết định sáng suốt khi sử dụng BERTScore làm thước đo để đánh giá các nhiệm vụ tóm tắt, mang lại sự hiểu biết cân bằng về điểm mạnh và hạn chế của nó.

Khi nào nên sử dụng BERTScore

BERTScore có thể đánh giá chất lượng tóm tắt văn bản bằng cách so sánh bản tóm tắt được tạo với bản tóm tắt tham chiếu. Nó sử dụng các mạng thần kinh như BERT để đo lường sự tương tự về ngữ nghĩa ngoài việc chỉ khớp từ hoặc cụm từ chính xác. Điều này làm cho BERTScore trở nên rất hữu ích khi tính trung thực về ngữ nghĩa, bảo toàn ý nghĩa và nội dung đầy đủ là điều quan trọng đối với nhiệm vụ tóm tắt của bạn. BERTScore sẽ cho điểm cao hơn đối với những bản tóm tắt truyền tải cùng thông tin như bản tóm tắt tham chiếu, ngay cả khi chúng sử dụng các từ và cấu trúc câu khác nhau. Điểm mấu chốt là BERTScore lý tưởng cho các nhiệm vụ tóm tắt trong đó việc giữ lại ý nghĩa ngữ nghĩa đầy đủ không chỉ từ khóa hoặc chủ đề là rất quan trọng. Tính năng tính điểm thần kinh nâng cao của nó cho phép nó so sánh ý nghĩa ngoài việc so khớp từ ở cấp độ bề mặt. Điều này làm cho nó phù hợp với những trường hợp mà sự khác biệt tinh tế trong cách diễn đạt có thể làm thay đổi đáng kể ý nghĩa và hàm ý tổng thể. Đặc biệt, BERTScore vượt trội trong việc nắm bắt sự tương đồng về ngữ nghĩa, điều này rất quan trọng để đánh giá chất lượng của các bản tóm tắt trừu tượng giống như các bản tóm tắt được tạo bởi các mô hình Thế hệ tăng cường truy xuất (RAG).

Khung đánh giá mô hình

Khung đánh giá mô hình rất cần thiết để đánh giá chính xác hiệu suất của các mô hình tóm tắt khác nhau. Những khuôn khổ này là công cụ để so sánh các mô hình, mang lại sự gắn kết giữa các bản tóm tắt được tạo ra và nội dung nguồn, đồng thời xác định những thiếu sót trong các phương pháp đánh giá. Bằng cách tiến hành đánh giá kỹ lưỡng và so sánh điểm chuẩn nhất quán, các khuôn khổ này thúc đẩy nghiên cứu tóm tắt văn bản bằng cách ủng hộ các hoạt động đánh giá được tiêu chuẩn hóa và cho phép so sánh mô hình nhiều mặt.

Trong AWS, Thư viện FMEval ở trong Làm rõ Amazon SageMaker hợp lý hóa việc đánh giá và lựa chọn các mô hình nền tảng (FM) cho các nhiệm vụ như tóm tắt văn bản, trả lời câu hỏi và phân loại. Nó cho phép bạn đánh giá FM dựa trên các số liệu như độ chính xác, độ mạnh, tính sáng tạo, độ lệch và tính độc hại, hỗ trợ cả đánh giá tự động và đánh giá con người trong vòng lặp cho LLM. Với các đánh giá dựa trên giao diện người dùng hoặc theo chương trình, FMEval tạo các báo cáo chi tiết có hình ảnh trực quan để định lượng các rủi ro của mô hình như sự không chính xác, độc tính hoặc sai lệch, giúp các tổ chức tuân thủ các nguyên tắc AI tổng hợp có trách nhiệm của họ. Trong phần này, chúng tôi trình bày cách sử dụng thư viện FMEval.

Đánh giá Claude v2 về độ chính xác của việc tóm tắt bằng Amazon Bedrock

Đoạn mã sau đây là ví dụ về cách tương tác với mô hình Anthropic Claude bằng mã Python:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

Nói một cách đơn giản, mã này thực hiện các hành động sau:

  1. Nhập các thư viện cần thiết, bao gồm json, để làm việc với dữ liệu JSON.
  2. Xác định ID mô hình là anthropic.claude-v2 và đặt loại nội dung cho yêu cầu.
  3. Tạo ra một prompt_data biến cấu trúc dữ liệu đầu vào cho mô hình Claude. Trong trường hợp này, nó đặt câu hỏi “Barack Obama là ai?” và mong đợi phản hồi từ người mẫu.
  4. Xây dựng một đối tượng JSON có tên body bao gồm dữ liệu lời nhắc và chỉ định các tham số bổ sung như số lượng mã thông báo tối đa cần tạo.
  5. Gọi mô hình Claude bằng cách sử dụng bedrock_runtime.invoke_model với các thông số đã xác định.
  6. Phân tích phản hồi từ mô hình, trích xuất phần hoàn thành (văn bản được tạo) và in ra.

Hãy đảm bảo rằng Quản lý truy cập và nhận dạng AWS (IAM) liên quan đến vai trò Xưởng sản xuất Amazon SageMaker hồ sơ người dùng có quyền truy cập vào nền tảng Amazon các mô hình đang được gọi. tham khảo Ví dụ về chính sách dựa trên danh tính cho Amazon Bedrock để được hướng dẫn về các biện pháp thực hành tốt nhất và ví dụ về chính sách dựa trên danh tính cho Amazon Bedrock.

Sử dụng thư viện FMEval để đánh giá kết quả tóm tắt từ Claude

Chúng tôi sử dụng đoạn mã sau để đánh giá kết quả tóm tắt:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

Trong đoạn mã trước, để đánh giá tóm tắt văn bản bằng thư viện FMEval, chúng tôi hoàn thành các bước sau:

  1. Tạo ra một ModelRunner để thực hiện lệnh gọi trên LLM của bạn. Thư viện FMEval cung cấp hỗ trợ tích hợp cho Amazon SageMaker điểm cuối và Khởi động Amazon SageMaker LLM. Bạn cũng có thể mở rộng ModelRunner giao diện cho bất kỳ LLM nào được lưu trữ ở bất cứ đâu.
  2. Sử dụng được hỗ trợ eval_algorithms như độc tính, tóm tắt, độ chính xác, ngữ nghĩa và độ chắc chắn, dựa trên nhu cầu đánh giá của bạn.
  3. Tùy chỉnh các tham số cấu hình đánh giá cho trường hợp sử dụng cụ thể của bạn.
  4. Sử dụng thuật toán đánh giá với bộ dữ liệu tích hợp hoặc tùy chỉnh để đánh giá mô hình LLM của bạn. Tập dữ liệu được sử dụng trong trường hợp này có nguồn gốc từ sau Repo GitHub.

Tham khảo đến hướng dẫn và ví dụ dành cho nhà phát triển để sử dụng chi tiết các thuật toán đánh giá.

Bảng dưới đây tóm tắt kết quả đánh giá.

mô hình _đầu vào model_output target_output nhanh chóng điểm sao băng_score rouge_score bert_score
John Edward
0 Bates, trước đây của Spalding, Linco…..
Tôi không thể đưa ra bất kỳ quyết định nào
phán xét, như…
Một vấn đề trước
Sĩ quan cảnh sát Lincolnshire mang theo…
Con người: John
Edward Bates, trước đây của Spalding…
[{'name': 'sao băng', 'giá trị':
0.101010101010101 ...
0.10101 0 0.557155
23 Tháng Mười 2015
Cập nhật lần cuối lúc
17:44 BST|nNó'…
Dưới đây là một số điểm chính về cơn bão/nhiệt đới.. Bão Patricia được đánh giá là cấp… Con người: 23
Tháng 2015 năm 17 Cập nhật lần cuối lúc 44:XNUMX
B…
[{'tên': sao băng', “giá trị”:
0.102339181286549 ..
0.102339 0.018265 0.441421
Ferrari xuất hiện ở vị thế có thể thách thức… Dưới đây là những điểm chính của bài viết:nin… Lewis Hamilton xông lên vị trí pole tại… Con người: Ferrari xuất hiện trong tình thế thách thức… [{'name': 'sao băng', 'giá trị':
0.322543352601156 ...
0.322543 0.078212 0.606487
Cầu thủ sinh ra ở Bath, 28 tuổi, đã lập được 36 bàn
xuất hiện…
Được rồi, để tôi tóm tắt lại những điểm chính:/nin- E….. Newport Gwent Dragons số tám Ed Jackson Con người: Cầu thủ sinh ra ở Bath, 28 tuổi, đã lập được 36… [{'name': 'sao băng', 'giá trị':
0105740181268882 ...
0.10574 0.012987 0.539488
Điểm yếu trong cách chuột trao đổi dữ liệu với c… Dưới đây là những điểm chính tôi thu thập được từ… Tin tặc có thể truy cập vào nhà và Nhân loại:
Những điểm yếu trong
chuột Swar đã trao đổi dữ liệu
[{'name': 'sao băng', 'giá trị':
0.201048289433848 ...
0.201048 0.021858 0.526947

Kiểm tra mẫu máy tính xách tay để biết thêm chi tiết về đánh giá tóm tắt mà chúng ta đã thảo luận trong bài đăng này.

Kết luận

ROUGE, METEOR và BERTScore đều đo lường chất lượng của các bản tóm tắt do máy tạo ra nhưng tập trung vào các khía cạnh khác nhau như sự chồng chéo từ vựng, tính trôi chảy hoặc sự tương đồng về ngữ nghĩa. Đảm bảo chọn số liệu phù hợp với những gì được xác định là “tốt” cho trường hợp sử dụng tóm tắt cụ thể của bạn. Bạn cũng có thể sử dụng kết hợp các số liệu. Điều này mang lại sự đánh giá toàn diện hơn và bảo vệ khỏi những điểm yếu tiềm ẩn của bất kỳ số liệu riêng lẻ nào. Với các phép đo phù hợp, bạn có thể liên tục cải thiện trình tóm tắt của mình để đáp ứng bất kỳ khái niệm nào về độ chính xác quan trọng nhất.

Ngoài ra, việc đánh giá FM và LLM là cần thiết để có thể sản xuất các mô hình này trên quy mô lớn. Với FMEval, bạn có được một tập hợp lớn các thuật toán tích hợp trên nhiều tác vụ NLP, nhưng cũng là một công cụ linh hoạt và có thể mở rộng để đánh giá trên quy mô lớn các mô hình, bộ dữ liệu và thuật toán của riêng bạn. Để mở rộng quy mô, bạn có thể sử dụng gói này trong quy trình LLMOps của mình để đánh giá nhiều mô hình. Để tìm hiểu thêm về FMEval trong AWS và cách sử dụng nó hiệu quả, hãy tham khảo Sử dụng SageMaker Clarify để đánh giá các mô hình ngôn ngữ lớn. Để hiểu rõ hơn và hiểu rõ hơn về khả năng của SageMaker Làm rõ trong việc đánh giá FM, hãy xem Amazon SageMaker Clarify giúp đánh giá và lựa chọn mô hình nền tảng dễ dàng hơn.


Về các tác giả


Dinesh Kumar Subramani là Kiến trúc sư Giải pháp Cấp cao có trụ sở tại Edinburgh, Scotland. Anh ấy chuyên về trí tuệ nhân tạo và học máy, đồng thời là thành viên của cộng đồng lĩnh vực kỹ thuật tại Amazon. Dinesh hợp tác chặt chẽ với các khách hàng thuộc Chính phủ Trung ương Vương quốc Anh để giải quyết các vấn đề của họ bằng cách sử dụng dịch vụ AWS. Ngoài công việc, Dinesh thích dành thời gian vui vẻ bên gia đình, chơi cờ và khám phá nhiều thể loại âm nhạc.


Pranav Sharma là công ty dẫn đầu AWS thúc đẩy các sáng kiến ​​chuyển đổi kinh doanh và công nghệ trên khắp Châu Âu, Trung Đông và Châu Phi. Ông có kinh nghiệm thiết kế và vận hành các nền tảng trí tuệ nhân tạo trong sản xuất nhằm hỗ trợ hàng triệu khách hàng và mang lại kết quả kinh doanh. Ông đã đóng vai trò lãnh đạo về công nghệ và con người cho các tổ chức Dịch vụ Tài chính Toàn cầu. Ngoài giờ làm việc, anh thích đọc sách, chơi quần vợt với con trai và xem phim.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?