생성 데이터 인텔리전스

AWS에서 향상된 의사 결정을 위한 LLM의 텍스트 요약 기능 평가 | 아마존 웹 서비스

시간

업계 전반의 조직에서는 자동 텍스트 요약을 사용하여 방대한 양의 정보를 보다 효율적으로 처리하고 더 나은 결정을 내리고 있습니다. 금융 부문에서 투자 은행은 분기별 실적을 신속하게 분석하기 위해 수익 보고서를 주요 시사점으로 압축합니다. 미디어 회사는 요약을 사용하여 뉴스와 소셜 미디어를 모니터링하므로 언론인은 현재 진행 중인 문제에 대한 기사를 신속하게 작성할 수 있습니다. 정부 기관은 정책 입안자가 목표를 전략화하고 우선순위를 정하는 데 도움이 되도록 긴 정책 문서와 보고서를 요약합니다.

길고 복잡한 문서의 압축 버전을 생성함으로써 요약 기술을 통해 사용자는 가장 핵심적인 콘텐츠에 집중할 수 있습니다. 이를 통해 중요한 정보를 더 잘 이해하고 유지할 수 있습니다. 시간 절약을 통해 이해관계자는 더 짧은 시간에 더 많은 자료를 검토하고 더 넓은 관점을 얻을 수 있습니다. 향상된 이해와 보다 종합적인 통찰력을 통해 조직은 더 나은 정보에 입각한 전략적 결정을 내리고, 연구를 가속화하고, 생산성을 향상하고, 영향력을 높일 수 있습니다. 더 많은 산업이 넘쳐나는 정보 흐름을 활용하기 위해 인공 지능(AI)을 채택함에 따라 고급 요약 기능의 혁신적인 힘은 계속해서 커질 것입니다.

이 게시물에서는 ROUGE 지표, METEOR 및 BERTScore를 포함하여 요약 정확도를 객관적으로 평가하기 위한 주요 접근 방식을 살펴봅니다. 이러한 기술의 강점과 약점을 이해하면 선택 및 개선 노력을 안내하는 데 도움이 될 수 있습니다. 이 게시물의 전반적인 목표는 팀이 가치 극대화를 추구할 때 이 중요한 기능에 대한 더 나은 벤치마킹 성능을 향상할 수 있도록 요약 평가를 명확하게 하는 것입니다.

요약 유형

요약은 일반적으로 추출적 요약과 추상적 요약이라는 두 가지 주요 유형으로 나눌 수 있습니다. 두 접근 방식 모두 긴 텍스트를 더 짧은 형식으로 압축하여 원본 콘텐츠의 가장 중요한 정보나 본질을 포착하는 것을 목표로 하지만 근본적으로 다른 방식으로 수행됩니다.

추출적 요약에는 원본 텍스트에서 핵심 문구, 문장 또는 세그먼트를 변경하지 않고 식별하고 추출하는 작업이 포함됩니다. 시스템은 가장 유익하거나 전체를 대표하는 것으로 간주되는 텍스트 부분을 선택합니다. 추출적 요약은 정확성이 중요하고 요약이 원본 텍스트의 정확한 정보를 반영해야 하는 경우 유용합니다. 이는 사용 약관에 설명된 특정 법적 조건, 의무 및 권리를 강조하는 것과 같은 사용 사례일 수 있습니다. 추출적 요약에 사용되는 가장 일반적인 기술은 TF-IDF(용어 빈도-역 문서 빈도), 문장 채점, 텍스트 순위 알고리즘 및 ML(지도형 기계 학습)입니다.

추상적 요약은 한 단계 더 나아가 원문에 없던 새로운 문구와 문장을 생성하여 본질적으로 원문 내용을 바꾸어 표현하고 압축합니다. 이 접근 방식에는 AI가 의미를 해석한 후 새롭고 간결한 형태로 표현해야 하기 때문에 텍스트에 대한 더 깊은 이해가 필요합니다. LLM(대형 언어 모델)은 요약을 생성할 때 변환기 모델이 주의 메커니즘을 사용하여 입력 텍스트의 관련 부분에 집중하기 때문에 추상적인 요약에 가장 적합합니다. 어텐션 메커니즘을 통해 모델은 입력 시퀀스의 다양한 단어나 토큰에 다양한 가중치를 할당하여 장거리 종속성과 상황에 맞는 관련 정보를 캡처할 수 있습니다.

이러한 두 가지 기본 유형 외에도 추출 방법과 추상 방법을 결합한 하이브리드 접근 방식이 있습니다. 이러한 접근 방식은 가장 중요한 콘텐츠를 식별하기 위해 추출적 요약으로 시작한 다음 추상적인 기술을 사용하여 해당 콘텐츠를 유창한 요약으로 다시 작성하거나 압축할 수 있습니다.

난제

요약 품질을 평가하는 최적의 방법을 찾는 것은 여전히 ​​열려 있는 과제입니다. 조직이 문서에서 주요 정보를 추출하기 위해 자동 텍스트 요약에 점점 더 의존함에 따라 요약 정확도를 측정하기 위한 표준화된 기술에 대한 필요성이 커지고 있습니다. 이상적으로 이러한 평가 지표는 기계 생성 요약이 원본 텍스트에서 가장 중요한 콘텐츠를 얼마나 잘 추출하고 원래 의미와 맥락을 반영하는 일관된 요약을 제시하는지 정량화합니다.

그러나 텍스트 요약을 위한 강력한 평가 방법론을 개발하는 데는 다음과 같은 어려움이 따릅니다.

  • 비교에 사용되는 사람이 작성한 참조 요약은 중요도에 대한 주관적인 결정에 따라 높은 가변성을 나타내는 경우가 많습니다.
  • 유창성, 가독성, 일관성과 같은 요약 품질의 미묘한 측면은 프로그래밍 방식으로 정량화하기가 어렵습니다.
  • 통계 알고리즘부터 신경망까지 요약 방법이 다양하여 직접 비교가 복잡해집니다.

요점 평가를 위한 회상 중심 연구(ROUGE)

루즈 지표ROUGE-N 및 ROUGE-L과 같은 기술은 사람이 작성한 참조 요약과 비교하여 기계 생성 요약의 품질을 평가하는 데 중요한 역할을 합니다. 이러한 측정항목은 단어 또는 토큰 그룹인 n-그램을 분석하여 기계 생성 요약과 인간이 작성한 요약 내용 간의 중복을 평가하는 데 중점을 둡니다. 예를 들어 ROUGE-1은 개별 단어(유니그램)의 일치를 평가하는 반면, ROUGE-2는 단어 쌍(바이그램)을 고려합니다. 또한 ROUGE-N은 두 텍스트 사이에 있는 단어의 가장 긴 공통 하위 시퀀스를 평가하여 단어 순서의 유연성을 허용합니다.

이를 설명하기 위해 다음 예를 고려하십시오.

  • ROGUE-1 측정항목 – ROUGE-1은 생성된 요약과 참조 요약 사이의 유니그램(단어) 중복을 평가합니다. 예를 들어, 참조 요약에 "빠른 갈색 여우 점프"가 포함되어 있고 생성된 요약이 "갈색 여우 점프가 빠르게"인 경우 ROUGE-1 측정항목은 "갈색", "여우" 및 "점프"를 중복되는 것으로 간주합니다. 유니그램. ROUGE-1은 요약에 있는 개별 단어의 존재에 초점을 맞춰 생성된 요약이 참조 요약의 핵심 단어를 얼마나 잘 포착하는지 측정합니다.
  • ROGUE-2 측정항목 – ROUGE-2는 생성된 요약과 참조 요약 사이의 바이그램(인접 단어 쌍)의 중첩을 평가합니다. 예를 들어, 참조 요약에 "고양이가 자고 있습니다"가 있고 생성된 요약이 "고양이가 자고 있습니다"라고 읽는 경우 ROUGE-2는 "고양이가 자고 있습니다"와 "자고 있습니다"를 겹치는 바이그램으로 식별합니다. ROUGE-2는 생성된 요약이 참조 요약과 비교하여 단어 쌍의 순서와 맥락을 얼마나 잘 유지하는지에 대한 통찰력을 제공합니다.
  • 루즈-엔 메트릭 – ROUGE-N은 N이 임의의 숫자를 나타내는 일반화된 형식으로, n-그램(N 단어의 시퀀스)을 기반으로 평가할 수 있습니다. N=3을 고려하면, 참조 요약에 “The sun is Shining Brightly”라고 기재되어 있고 생성된 요약이 “Sun Shining Brightly”라고 되어 있으면 ROUGE-3는 “Sun Shining Brightly”를 매칭 트라이그램으로 인식합니다. ROUGE-N은 다양한 길이의 단어 시퀀스를 기반으로 요약을 평가할 수 있는 유연성을 제공하여 콘텐츠 중복에 대한 보다 포괄적인 평가를 제공합니다.

이러한 예에서는 생성된 요약을 다양한 수준의 단어 시퀀스를 기반으로 하는 참조 요약과 비교하여 자동 요약 또는 기계 번역 작업을 평가할 때 ROUGE-1, ROUGE-2 및 ROUGE-N 메트릭이 어떻게 작동하는지 보여줍니다.

ROUGE-N 점수 계산

다음 단계를 사용하여 ROUGE-N 점수를 계산할 수 있습니다.

  1. 공백 분할 또는 자연어 처리(NLP) 라이브러리와 같은 기본 토큰화 방법을 사용하여 생성된 요약 및 참조 요약을 개별 단어 또는 토큰으로 토큰화합니다.
  2. 생성된 요약과 참조 요약 모두에서 n-gram(N 단어의 연속 시퀀스)을 생성합니다.
  3. 생성된 요약과 참조 요약 사이에 겹치는 n-gram 수를 계산합니다.
  4. 정밀도, 재현율, F1 점수 계산:
    • Precision – 생성된 요약에 있는 총 N-그램 수로 나눈 겹치는 N-그램 수입니다.
    • 소환 – 참조 요약에 있는 총 N-그램 수로 나눈 겹치는 N-그램 수입니다.
    • F1 점수 – 정밀도와 재현율의 조화 평균은 (2 * 정밀도 * 재현율) / (정밀도 + 재현율)로 계산됩니다.
  5. 데이터 세트의 각 행에 대한 정밀도, 재현율, F1 점수를 계산하여 얻은 집계 F1 점수를 ROUGE-N 점수로 간주합니다.

제한 사항

ROGUE에는 다음과 같은 제한 사항이 있습니다.

  • 어휘 중복에 대한 좁은 초점 – ROUGE의 핵심 아이디어는 시스템 생성 요약을 참조 또는 인간 생성 요약 세트와 비교하고 이들 간의 어휘 중복을 측정하는 것입니다. 이는 ROUGE가 단어 수준 유사성에 매우 좁은 초점을 맞추고 있음을 의미합니다. 실제로 요약의 의미론적 의미, 일관성 또는 가독성을 평가하지 않습니다. 시스템은 일관되거나 간결한 요약을 생성하지 않고 원본 텍스트에서 단어별로 문장을 추출함으로써 높은 ROUGE 점수를 얻을 수 있습니다.
  • 의역에 대한 무감각 – ROUGE는 어휘 일치에 의존하기 때문에 단어와 구문 간의 의미적 동등성을 감지할 수 없습니다. 따라서 의미가 보존되더라도 다른 말로 표현하거나 동의어를 사용하면 ROUGE 점수가 낮아지는 경우가 많습니다. 이는 추상적인 방식으로 의역하거나 요약하는 시스템에 불리한 점입니다.
  • 의미론적 이해 부족 – ROUGE는 시스템이 원문의 의미와 개념을 실제로 이해했는지 여부를 평가하지 않습니다. 요약은 참고문헌과 높은 어휘 중복을 달성할 수 있지만 주요 아이디어가 누락되거나 사실적 불일치가 포함될 수 있습니다. ROUGE는 이러한 문제를 식별하지 않습니다.

루즈를 사용하는 경우

ROUGE는 계산이 간단하고 빠릅니다. 콘텐츠 선택과 관련된 요약 품질에 대한 기준 또는 벤치마크로 사용하세요. ROUGE 측정항목은 추상 요약 작업, 자동 요약 평가, LLM 평가, 다양한 요약 접근 방식의 비교 분석과 관련된 시나리오에서 가장 효과적으로 사용됩니다. 이러한 맥락에서 ROUGE 지표를 사용함으로써 이해관계자는 요약 생성 프로세스의 품질과 효율성을 정량적으로 평가할 수 있습니다.

명시적 순서를 사용한 번역 평가 지표(METEOR)

요약 시스템을 평가할 때 주요 과제 중 하나는 소스 텍스트에서 관련 단어와 구문을 선택하는 것보다 생성된 요약이 논리적으로 얼마나 잘 흐르는지 평가하는 것입니다. 단순히 관련 키워드와 문장을 추출한다고 해서 반드시 일관되고 응집력 있는 요약이 생성되는 것은 아닙니다. 요약은 원본 문서와 동일한 순서로 표시되지 않더라도 원활하게 흐르고 아이디어를 논리적으로 연결해야 합니다.

단어를 어근 또는 기본 형태로 줄여서 일치시키는 유연성(예를 들어 형태소 분석 후 "running", "runs" 및 "ran"과 같은 단어는 모두 "run"이 됨)과 동의어는 다음을 의미합니다. 유성 요약 품질에 대한 인간의 판단과 더 잘 연관됩니다. 문구가 달라도 중요한 내용이 보존되어 있는지 확인할 수 있습니다. 이는 정확한 토큰 일치만 찾는 ROUGE와 같은 n-gram 기반 측정항목에 비해 중요한 이점입니다. METEOR는 또한 참조에서 가장 중요한 내용에 초점을 맞춘 요약에 더 높은 점수를 부여합니다. 반복적이거나 관련성이 없는 정보에는 낮은 점수가 부여됩니다. 이는 가장 중요한 내용만 유지하려는 요약 목표와 잘 일치합니다. METEOR는 텍스트 요약을 평가하기 위한 n-gram 매칭의 한계 중 일부를 극복할 수 있는 의미상 의미 있는 측정항목입니다. 형태소 분석과 동의어를 통합하면 정보 중복과 내용 정확성을 더 잘 평가할 수 있습니다.

이를 설명하기 위해 다음 예를 고려하십시오.

참조 요약: 가을에는 나뭇잎이 떨어집니다.

생성된 요약 1: 가을에는 나뭇잎이 떨어집니다.

생성된 요약 2: 여름에는 녹색 잎을 냅니다.

참조와 생성된 요약 1 사이에 일치하는 단어가 강조 표시됩니다.

참조 요약: 벌었지 떨어지다 가을 동안.

생성된 요약 1: 벌었지 들르다 떨어지다.

“fall”과 “autumn”은 서로 다른 토큰임에도 불구하고 METEOR는 동의어 매칭을 통해 이들을 동의어로 인식합니다. "드롭"과 "폴"은 어간 일치로 식별됩니다. 생성된 요약 2의 경우 "Leaves" 외에 참조 요약과 일치하는 항목이 없으므로 이 요약은 훨씬 낮은 METEOR 점수를 받게 됩니다. 의미상 의미 있는 일치가 많을수록 METEOR 점수가 높아집니다. 이를 통해 METEOR는 단순한 n-gram 매칭에 비해 요약의 내용과 정확성을 더 잘 평가할 수 있습니다.

METEOR 점수 계산

METEOR 점수를 계산하려면 다음 단계를 완료하세요.

  1. 공백 또는 NLP 라이브러리에 의한 분할과 같은 기본 토큰화 방법을 사용하여 생성된 요약 및 참조 요약을 개별 단어 또는 토큰으로 토큰화합니다.
  2. 유니그램 정밀도, 재현율 및 F-평균 점수를 계산하여 정밀도보다 재현율에 더 많은 가중치를 부여합니다.
  3. 지나치게 강조하지 않으려면 정확히 일치하는 항목에 페널티를 적용합니다. 페널티는 데이터 세트 특성, 작업 요구 사항, 정밀도와 재현율 간의 균형을 기준으로 선택됩니다. 2단계에서 계산된 F-평균 점수에서 이 페널티를 뺍니다.
  4. 해당되는 경우 어간 형태(단어를 기본 형태 또는 어근 형태로 축소) 및 유니그램 동의어에 대한 F-평균 점수를 계산합니다. 이를 이전에 계산된 F-평균 점수와 집계하여 최종 METEOR 점수를 얻습니다. METEOR 점수 범위는 0~1입니다. 여기서 0은 생성된 요약과 참조 요약 간에 유사성이 없음을 나타내고 1은 완벽한 정렬을 나타냅니다. 일반적으로 요약 점수는 0~0.6 사이입니다.

제한 사항

요약 작업을 평가하기 위해 METEOR 측정항목을 사용할 때 몇 가지 문제가 발생할 수 있습니다.

  • 의미적 복잡성 – 의미론적 유사성에 대한 METEOR의 강조는 복잡한 요약 작업에서 미묘한 의미와 맥락을 포착하는 데 어려움을 겪을 수 있으며 잠재적으로 평가의 부정확성을 초래할 수 있습니다.
  • 참조 가변성 – 인간이 생성한 참조 요약의 가변성은 METEOR 점수에 영향을 미칠 수 있습니다. 참조 콘텐츠의 차이가 기계 생성 요약의 평가에 영향을 미칠 수 있기 때문입니다.
  • 언어 적 다양성 – METEOR의 효과는 언어적 변형, 구문 차이 및 의미적 뉘앙스로 인해 언어마다 다를 수 있으며, 이는 다국어 요약 평가에 어려움을 야기합니다.
  • 길이 불일치 – 다양한 길이의 요약을 평가하는 것은 METEOR의 경우 어려울 수 있습니다. 참조 요약과 비교한 길이의 불일치로 인해 페널티가 발생하거나 평가가 부정확할 수 있기 때문입니다.
  • 파라미터 튜닝 – 다양한 데이터 세트 및 요약 작업에 대해 METEOR의 매개변수를 최적화하는 것은 시간이 많이 걸릴 수 있으며 메트릭이 정확한 평가를 제공하는지 확인하기 위해 신중한 조정이 필요합니다.
  • 평가 편향 – 특정 요약 영역 또는 작업에 대해 적절하게 조정되거나 보정되지 않은 경우 METEOR에 대한 평가 편향의 위험이 있습니다. 이는 잠재적으로 왜곡된 결과로 이어질 수 있으며 평가 프로세스의 신뢰성에 영향을 미칠 수 있습니다.

METEOR를 요약 작업의 지표로 사용할 때 이러한 과제를 인식하고 고려함으로써 연구자와 실무자는 잠재적인 한계를 탐색하고 평가 프로세스에서 보다 정보에 입각한 결정을 내릴 수 있습니다.

METEOR를 사용해야 하는 경우

METEOR는 일반적으로 텍스트 요약의 품질을 자동으로 평가하는 데 사용됩니다. 요약에서 아이디어, 개념 또는 엔터티의 순서가 중요한 경우 METEOR를 평가 지표로 사용하는 것이 좋습니다. METEOR는 순서를 고려하고 생성된 요약과 참조 요약 사이의 n-gram을 일치시킵니다. 순차적인 정보를 보존하는 요약을 보상합니다. 참조 요약과 n-그램의 중첩에 의존하는 ROUGE와 같은 측정항목과 달리 METEOR는 어간, 동의어 및 의역을 일치시킵니다. METEOR는 원본 텍스트를 요약하는 올바른 방법이 여러 개 있을 때 더 잘 작동합니다. METEOR는 n-gram을 일치시킬 때 WordNet 동의어와 어간 토큰을 통합합니다. 즉, 의미상 유사하지만 다른 단어나 표현을 사용하는 요약도 여전히 좋은 점수를 받을 것입니다. METEOR에는 반복적인 n-gram이 포함된 요약에 대한 기본 페널티가 있습니다. 따라서 단어 대 단어 추출이나 추상화 부족을 방지합니다. METEOR는 요약 품질을 판단하는 데 의미론적 유사성, 아이디어 순서 및 유창한 표현이 중요한 경우 좋은 선택입니다. 참조 요약과 어휘가 겹치는 작업에만 적합하지 않습니다.

BERTS점수

ROUGE 및 METEOR와 같은 표면 수준 어휘 측정은 후보 요약과 참조 요약 간의 단어 중복을 비교하여 요약 시스템을 평가합니다. 그러나 단어와 구문 간의 정확한 문자열 일치에 크게 의존합니다. 이는 표면 형태는 다르지만 기본 의미는 유사한 단어와 구 사이의 의미론적 유사성을 놓칠 수 있음을 의미합니다. 표면 일치에만 의존함으로써 이러한 측정 항목은 참조 요약과 다르게 동의어 또는 의역 개념을 사용하는 시스템 요약의 품질을 과소평가할 수 있습니다. 두 개의 요약은 거의 동일한 정보를 전달할 수 있지만 어휘 차이로 인해 표면 수준 점수가 낮습니다.

BERTS점수 사람이 작성한 참고 요약과 비교하여 요약이 얼마나 좋은지 자동으로 평가하는 방법입니다. 인기 있는 NLP 기술인 BERT를 사용하여 후보 요약 및 참조 요약에 포함된 단어의 의미와 맥락을 이해합니다. 구체적으로, 후보 요약의 각 단어나 토큰을 살펴보고 각 단어의 의미와 맥락을 벡터로 표현한 BERT 임베딩을 기반으로 참조 요약에서 가장 유사한 단어를 찾습니다. 벡터가 서로 얼마나 가까운지를 알려주는 코사인 유사성을 사용하여 유사성을 측정합니다. 후보 요약의 각 단어에 대해 BERT의 언어 이해를 사용하여 참조 요약에서 가장 관련성이 높은 단어를 찾습니다. 전체 요약에서 이러한 모든 단어 유사성을 비교하여 후보 요약이 참조 요약과 의미론적으로 얼마나 유사한지에 대한 전체 점수를 얻습니다. BERT가 포착한 단어와 의미가 유사할수록 BERTS점수는 높아집니다. 이를 통해 매번 사람이 평가할 필요 없이 생성된 요약을 사람의 참조와 비교하여 자동으로 요약의 품질을 평가할 수 있습니다.

이를 설명하기 위해 다음과 같은 기계 생성 요약이 있다고 가정해 보겠습니다. "빠른 갈색 여우는 게으른 개를 뛰어넘습니다." 이제 인간이 만든 참조 요약을 고려해 보겠습니다. "빠른 갈색 여우가 잠자는 개 위로 뛰어오릅니다."

BERT 점수 계산

BERTScore를 계산하려면 다음 단계를 완료하세요.

  1. BERTScore는 문맥 임베딩을 사용하여 후보(기계 생성) 문장과 참조(사람이 만든) 문장 모두에서 각 토큰을 나타냅니다. 문맥 임베딩은 문장이나 텍스트 내의 문맥을 기반으로 단어의 의미를 포착하는 NLP의 단어 표현 유형입니다. 문맥에 관계없이 각 단어에 고정 벡터를 할당하는 전통적인 단어 임베딩과 달리 문맥 임베딩은 주변 단어를 고려하여 특정 문장에서 사용되는 방식에 따라 각 단어에 대한 고유한 표현을 생성합니다.
  2. 그런 다음 메트릭은 코사인 유사성을 사용하여 후보 문장의 각 토큰과 참조 문장의 각 토큰 간의 유사성을 계산합니다. 코사인 유사성은 다차원 공간에서 두 데이터 세트가 가리키는 방향에 초점을 맞춤으로써 두 데이터 세트가 얼마나 밀접하게 관련되어 있는지 정량화하는 데 도움이 되므로 검색 알고리즘, NLP 및 추천 시스템과 같은 작업에 유용한 도구가 됩니다.
  3. BERTScore는 모든 토큰에 대한 맥락적 임베딩 및 컴퓨팅 유사성 점수를 비교함으로써 인간이 만든 참조와 비교하여 생성된 요약의 의미적 관련성과 맥락을 포착하는 포괄적인 평가를 생성합니다.
  4. 최종 BERTScore 출력은 기계 생성 요약이 의미 및 맥락 측면에서 참조 요약과 얼마나 잘 일치하는지를 반영하는 유사성 점수를 제공합니다.

본질적으로 BERTScore는 문장의 의미적 뉘앙스와 맥락을 고려하여 전통적인 측정 기준을 뛰어넘어 인간의 판단을 밀접하게 반영하는 보다 정교한 평가를 제공합니다. 이 고급 접근 방식은 요약 작업 평가의 정확성과 신뢰성을 향상시켜 BERTScore를 텍스트 생성 시스템 평가에 유용한 도구로 만듭니다.

제한 사항 :

BERTScore는 요약 작업을 평가하는 데 상당한 이점을 제공하지만 고려해야 할 특정 제한 사항도 함께 제공됩니다.

  • 계산 강도 – BERTScore는 BERT와 같은 사전 훈련된 언어 모델에 의존하기 때문에 계산 집약적일 수 있습니다. 이로 인해 특히 대용량 텍스트 데이터를 처리할 때 평가 시간이 길어질 수 있습니다.
  • 사전 훈련된 모델에 대한 의존성 – BERTScore의 효율성은 사용된 사전 훈련된 언어 모델의 품질과 관련성에 크게 좌우됩니다. 사전 훈련된 모델이 텍스트의 뉘앙스를 적절하게 포착하지 못하는 시나리오에서는 평가 결과가 영향을 받을 수 있습니다.
  • 확장성 – 대규모 데이터 세트 또는 실시간 애플리케이션에 대한 BERTScore를 확장하는 것은 계산 요구로 인해 어려울 수 있습니다. 프로덕션 환경에서 BERTScore를 구현하려면 효율적인 성능을 제공하기 위한 최적화 전략이 필요할 수 있습니다.
  • 도메인 특이성 – BERTScore의 성능은 다양한 도메인이나 전문 텍스트 유형에 따라 달라질 수 있습니다. 특정 영역이나 작업에 측정항목을 적용하려면 정확한 평가를 생성하기 위해 미세 조정이나 조정이 필요할 수 있습니다.
  • 통역 성 – BERTScore는 상황별 임베딩을 기반으로 포괄적인 평가를 제공하지만 각 토큰에 대해 생성된 유사성 점수 뒤에 있는 구체적인 이유를 해석하는 것은 복잡할 수 있으며 추가 분석이 필요할 수 있습니다.
  • 참조없는 평가 – BERTScore는 평가를 위해 참조 요약에 대한 의존도를 줄이지만, 이 참조 없는 접근 방식은 특히 콘텐츠 관련성과 일관성을 평가하는 데 사람이 만든 참조가 필수적인 시나리오에서 요약 품질의 모든 측면을 완전히 포착하지 못할 수 있습니다.

이러한 제한 사항을 인정하면 BERTScore를 요약 작업 평가를 위한 지표로 사용할 때 정보에 입각한 결정을 내리는 데 도움이 될 수 있으며, 강점과 제약 사항에 대한 균형 잡힌 이해를 제공할 수 있습니다.

BERTScore를 사용해야 하는 경우

BERTScore는 생성된 요약을 참조 요약과 비교하여 텍스트 요약의 품질을 평가할 수 있습니다. 이는 BERT와 같은 신경망을 사용하여 정확한 단어 또는 구문 일치 이상의 의미적 유사성을 측정합니다. 이는 전체 의미와 내용을 보존하는 의미론적 충실도가 요약 작업에 중요한 경우 BERTScore를 매우 유용하게 만듭니다. BERTScore는 다른 단어와 문장 구조를 사용하더라도 참조 요약과 동일한 정보를 전달하는 요약에 더 높은 점수를 부여합니다. 결론은 BERTScore가 키워드나 주제뿐만 아니라 전체 의미론적 의미를 유지하는 것이 중요한 요약 작업에 이상적이라는 것입니다. 고급 신경 채점을 통해 표면 수준의 단어 일치 이상의 의미를 비교할 수 있습니다. 이는 표현의 미묘한 차이가 전반적인 의미와 의미를 크게 바꿀 수 있는 경우에 적합합니다. 특히 BERTScore는 검색 증강 생성(RAG) 모델에서 생성된 것과 같은 추상적인 요약의 품질을 평가하는 데 중요한 의미론적 유사성을 포착하는 데 탁월합니다.

모델 평가 프레임워크

모델 평가 프레임워크는 다양한 요약 모델의 성능을 정확하게 측정하는 데 필수적입니다. 이러한 프레임워크는 모델을 비교하고, 생성된 요약과 소스 콘텐츠 간의 일관성을 제공하고, 평가 방법의 결함을 찾아내는 데 중요한 역할을 합니다. 철저한 평가와 일관된 벤치마킹을 수행함으로써 이러한 프레임워크는 표준화된 평가 관행을 옹호하고 다각적인 모델 비교를 가능하게 함으로써 텍스트 요약 연구를 촉진합니다.

AWS에서는 FMeval 라이브러리 이내 Amazon SageMaker 명확화 텍스트 요약, 질문 답변, 분류와 같은 작업을 위한 기초 모델(FM)의 평가 및 선택을 간소화합니다. 정확성, 견고성, 창의성, 편향, 독성 등의 지표를 기반으로 FM을 평가할 수 있으며 LLM에 대한 자동화된 평가와 인간 참여형 평가를 모두 지원합니다. UI 기반 또는 프로그래밍 방식 평가를 통해 FMEval은 시각화가 포함된 세부 보고서를 생성하여 부정확성, 독성, 편향과 같은 모델 위험을 정량화하여 조직이 책임감 있는 생성 AI 지침을 준수하도록 돕습니다. 이 섹션에서는 FMEval 라이브러리를 사용하는 방법을 보여줍니다.

Amazon Bedrock을 사용하여 Claude v2의 요약 정확도를 평가합니다.

다음 코드 조각은 Python 코드를 사용하여 Anthropic Claude 모델과 상호 작용하는 방법의 예입니다.

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

간단히 말해서 이 코드는 다음 작업을 수행합니다.

  1. 다음을 포함하여 필요한 라이브러리를 가져옵니다. json, JSON 데이터로 작업합니다.
  2. 모델 ID를 다음과 같이 정의하십시오. anthropic.claude-v2 요청에 대한 콘텐츠 유형을 설정합니다.
  3. 만들기 prompt_data Claude 모델의 입력 데이터를 구성하는 변수입니다. 이 경우 “버락 오바마는 누구인가?”라는 질문을 던진다. 모델의 응답을 기대합니다.
  4. 프롬프트 데이터를 포함하는 body라는 JSON 개체를 생성하고 생성할 최대 토큰 수와 같은 추가 매개 변수를 지정합니다.
  5. 다음을 사용하여 Claude 모델을 호출합니다. bedrock_runtime.invoke_model 정의된 매개변수를 사용합니다.
  6. 모델의 응답을 구문 분석하고 완성(생성된 텍스트)을 추출하여 인쇄합니다.

확인 AWS 자격 증명 및 액세스 관리 (IAM) 역할과 연결된 아마존 세이지 메이커 스튜디오 사용자 프로필에는 다음에 대한 액세스 권한이 있습니다. 아마존 기반암 호출되는 모델. 인용하다 Amazon Bedrock의 자격 증명 기반 정책 예 모범 사례에 대한 지침과 Amazon Bedrock에 대한 자격 증명 기반 정책의 예를 확인하세요.

FMEval 라이브러리를 사용하여 Claude의 요약된 출력 평가

다음 코드를 사용하여 요약된 출력을 평가합니다.

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

앞의 코드 조각에서는 FMEval 라이브러리를 사용하여 텍스트 요약을 평가하기 위해 다음 단계를 완료합니다.

  1. 만들기 ModelRunner LLM에서 호출을 수행합니다. FMEval 라이브러리는 다음을 기본적으로 지원합니다. 아마존 세이지 메이커 엔드포인트 및 Amazon SageMaker 점프스타트 LLM. 또한 ModelRunner 어디에서나 호스팅되는 모든 LLM을 위한 인터페이스입니다.
  2. 지원되는 사용 eval_algorithms 독성, 요약, 정확성, 의미, 견고성과 같은 평가 요구 사항을 기반으로 합니다.
  3. 특정 사용 사례에 맞게 평가 구성 매개변수를 맞춤설정하세요.
  4. 기본 제공 데이터세트 또는 사용자 정의 데이터세트와 함께 평가 알고리즘을 사용하여 LLM 모델을 평가하세요. 이 경우에 사용된 데이터 세트의 출처는 다음과 같습니다. GitHub 레포.

자세한 내용은 개발자 가이드 및 예시 평가 알고리즘의 자세한 사용법은 다음과 같습니다.

다음 표에는 평가 결과가 요약되어 있습니다.

모델_입력 모델_출력 타겟_출력 신속한 점수 meteor_score rouge_score bert_score
존 에드워드
0 Bates, 이전에는 Spalding, Linco 출신…
나는 어떤 결정도 내릴 수 없다.
판단, ...
전자
링컨셔 경찰이…
인간: 존
스팔딩(Spalding) 출신의 에드워드 베이츠(Edward Bates)…
[{'이름': '유성', '값':
0.101010101010101 ...
0.10101 0 0.557155
10월 23 2015
에 마지막 업데이트
17:44 BST|n그것'…
허리케인/트로프에 대한 몇 가지 핵심 사항은 다음과 같습니다. 허리케인 패트리샤는 다음과 같은 카테고리로 평가되었습니다. 인간: 23
2015년 17월 마지막 업데이트 시간: 44:XNUMX
비…
[{'이름': 유성', '값':
0.102339181286549 ..
0.102339 0.018265 0.441421
페라리는 UN에 도전하는 입장에 등장했다… 기사의 핵심 사항은 다음과 같습니다. nin… 루이스 해밀턴, 폴 포지션으로 돌진… 휴먼:페라리가 도전할 수 있는 위치에 나타났는데… [{'이름': '유성', '값':
0.322543352601156 ...
0.322543 0.078212 0.606487
배스 출신의 28세 선수는 36개를 만들었습니다.
등장하다…
좋아요, 핵심 사항을 요약하겠습니다:/nin- E… 뉴포트 궨트 드래곤즈 No.8 에드 잭슨 Human: 바스 출신의 28세 선수가 36을 만들었습니다… [{'이름': '유성', '값':
0105740181268882 ...
0.10574 0.012987 0.539488
쥐가 C와 데이터를 교환하는 방식의 약점 제가 A에서 수집한 핵심 사항은 다음과 같습니다. 해커가 집에 접근할 수 있고 인간 :
약점
스와마우스가 데이터를 교환했습니다.
[{'이름': '유성', '값':
0.201048289433848 ...
0.201048 0.021858 0.526947

샘플을 확인해보세요 수첩 이 게시물에서 논의한 요약 평가에 대한 자세한 내용을 확인하세요.

결론

ROUGE, METEOR 및 BERTScore는 모두 기계 생성 요약의 품질을 측정하지만 어휘 중복, 유창성 또는 의미 유사성과 같은 다양한 측면에 중점을 둡니다. 특정 요약 사용 사례에 대해 "양호"를 정의하는 것과 일치하는 측정항목을 선택하세요. 측정항목의 조합을 사용할 수도 있습니다. 이는 보다 균형 잡힌 평가를 제공하고 개별 측정항목의 잠재적인 약점을 방지합니다. 올바른 측정을 통해 요약자를 반복적으로 개선하여 가장 중요한 정확성 개념을 충족할 수 있습니다.

또한 이러한 모델을 대규모로 생산하려면 FM 및 LLM 평가가 필요합니다. FMEval을 사용하면 많은 NLP 작업에 걸쳐 내장된 광범위한 알고리즘 세트뿐만 아니라 자체 모델, 데이터 세트 및 알고리즘의 대규모 평가를 위한 확장 가능하고 유연한 도구도 얻을 수 있습니다. 확장하려면 LLMOps 파이프라인에서 이 패키지를 사용하여 다음을 수행할 수 있습니다. 여러 모델 평가. AWS의 FMEval과 이를 효과적으로 사용하는 방법에 대해 자세히 알아보려면 다음을 참조하십시오. SageMaker Clarify를 사용하여 대규모 언어 모델 평가. FM 평가 시 SageMaker Clarify의 기능에 대해 더 자세히 이해하고 통찰력을 얻으려면 다음을 참조하십시오. Amazon SageMaker Clarify를 통해 기초 모델을 더 쉽게 평가하고 선택할 수 있습니다..


저자에 관하여


디네시 쿠마르 수브라마니 스코틀랜드 에딘버러에 본사를 둔 수석 솔루션 설계자입니다. 그는 인공 지능과 기계 학습을 전문으로 하며 Amazon의 기술 분야 커뮤니티 회원입니다. Dinesh는 영국 중앙 정부 고객과 긴밀히 협력하여 AWS 서비스를 사용하여 문제를 해결합니다. 업무 외에 Dinesh는 가족과 함께 좋은 시간을 보내고, 체스를 두며, 다양한 음악을 탐색하는 것을 즐깁니다.


프라나브 샤르마 유럽, 중동 및 아프리카 전역에서 기술 및 비즈니스 혁신 이니셔티브를 추진하는 AWS 리더입니다. 그는 수백만 명의 고객을 지원하고 비즈니스 성과를 제공하는 프로덕션 환경에서 인공 지능 플랫폼을 설계하고 실행한 경험이 있습니다. 그는 글로벌 금융 서비스 조직에서 기술 및 인력 리더십 역할을 수행해 왔습니다. 업무 외에는 책 읽기, 아들과 테니스 치기, 영화 보기를 좋아합니다.

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?