Inteligencia de datos generativa

Evalúe las capacidades de resumen de texto de los LLM para mejorar la toma de decisiones en AWS | Servicios web de Amazon

Fecha:

Organizaciones de todos los sectores están utilizando el resumen de texto automático para manejar de manera más eficiente grandes cantidades de información y tomar mejores decisiones. En el sector financiero, los bancos de inversión condensan los informes de ganancias en conclusiones clave para analizar rápidamente el desempeño trimestral. Las empresas de medios utilizan los resúmenes para monitorear las noticias y las redes sociales, de modo que los periodistas puedan escribir rápidamente historias sobre temas en desarrollo. Las agencias gubernamentales resumen extensos documentos e informes de políticas para ayudar a los formuladores de políticas a formular estrategias y priorizar objetivos.

Al crear versiones condensadas de documentos largos y complejos, la tecnología de resumen permite a los usuarios centrarse en el contenido más destacado. Esto conduce a una mejor comprensión y retención de información crítica. El ahorro de tiempo permite a las partes interesadas revisar más material en menos tiempo, obteniendo una perspectiva más amplia. Con una mejor comprensión y conocimientos más sintetizados, las organizaciones pueden tomar decisiones estratégicas mejor informadas, acelerar la investigación, mejorar la productividad y aumentar su impacto. El poder transformador de las capacidades avanzadas de resumen seguirá creciendo a medida que más industrias adopten la inteligencia artificial (IA) para aprovechar los flujos de información desbordados.

En esta publicación, exploramos enfoques líderes para evaluar objetivamente la precisión del resumen, incluidas las métricas ROUGE, METEOR y BERTScore. Comprender las fortalezas y debilidades de estas técnicas puede ayudar a guiar los esfuerzos de selección y mejora. El objetivo general de esta publicación es desmitificar la evaluación de resumen para ayudar a los equipos a comparar mejor el desempeño en esta capacidad crítica mientras buscan maximizar el valor.

Tipos de resumen

El resumen generalmente se puede dividir en dos tipos principales: resumen extractivo y resumen abstractivo. Ambos enfoques apuntan a condensar largos fragmentos de texto en formas más cortas, capturando la información más crítica o la esencia del contenido original, pero lo hacen de maneras fundamentalmente diferentes.

El resumen extractivo implica identificar y extraer frases, oraciones o segmentos clave del texto original sin alterarlos. El sistema selecciona las partes del texto que considera más informativas o representativas del todo. El resumen extractivo es útil si la precisión es fundamental y el resumen debe reflejar la información exacta del texto original. Estos podrían ser casos de uso como resaltar términos legales, obligaciones y derechos específicos descritos en los términos de uso. Las técnicas más comunes utilizadas para el resumen extractivo son la frecuencia de documentos inversa de términos (TF-IDF), la puntuación de oraciones, el algoritmo de clasificación de texto y el aprendizaje automático supervisado (ML).

El resumen abstractivo va un paso más allá al generar nuevas frases y oraciones que no estaban en el texto original, esencialmente parafraseando y condensando el contenido original. Este enfoque requiere una comprensión más profunda del texto, porque la IA necesita interpretar el significado y luego expresarlo de una forma nueva y concisa. Los modelos de lenguaje grande (LLM) son más adecuados para el resumen abstracto porque los modelos transformadores utilizan mecanismos de atención para centrarse en partes relevantes del texto de entrada al generar resúmenes. El mecanismo de atención permite al modelo asignar diferentes pesos a diferentes palabras o tokens en la secuencia de entrada, lo que le permite capturar dependencias de largo alcance e información contextualmente relevante.

Además de estos dos tipos principales, existen enfoques híbridos que combinan métodos extractivos y abstractivos. Estos enfoques podrían comenzar con un resumen extractivo para identificar el contenido más importante y luego utilizar técnicas abstractas para reescribir o condensar ese contenido en un resumen fluido.

El desafío

Encontrar el método óptimo para evaluar la calidad del resumen sigue siendo un desafío abierto. A medida que las organizaciones dependen cada vez más del resumen automático de texto para extraer información clave de los documentos, crece la necesidad de técnicas estandarizadas para medir la precisión del resumen. Idealmente, estas métricas de evaluación cuantificarían qué tan bien los resúmenes generados por máquinas extraen el contenido más destacado de los textos fuente y presentan resúmenes coherentes que reflejan el significado y contexto original.

Sin embargo, desarrollar metodologías de evaluación sólidas para el resumen de textos presenta dificultades:

  • Los resúmenes de referencia escritos por humanos utilizados para la comparación a menudo exhiben una alta variabilidad basada en determinaciones subjetivas de importancia.
  • Los aspectos matizados de la calidad del resumen, como la fluidez, la legibilidad y la coherencia, resultan difíciles de cuantificar mediante programación.
  • Existe una amplia variación entre los métodos de resumen, desde algoritmos estadísticos hasta redes neuronales, lo que complica las comparaciones directas.

Suplente orientado al recuerdo para la evaluación de Gisting (ROUGE)

Métricas rojas, como ROUGE-N y ROUGE-L, desempeñan un papel crucial en la evaluación de la calidad de los resúmenes generados por máquinas en comparación con los resúmenes de referencia escritos por humanos. Estas métricas se centran en evaluar la superposición entre el contenido de los resúmenes generados por máquinas y los elaborados por humanos mediante el análisis de n-gramas, que son grupos de palabras o tokens. Por ejemplo, ROUGE-1 evalúa la coincidencia de palabras individuales (unigramas), mientras que ROUGE-2 considera pares de palabras (bigramas). Además, ROUGE-N evalúa la subsecuencia común más larga de palabras entre los dos textos, lo que permite flexibilidad en el orden de las palabras.

Para ilustrar esto, considere los siguientes ejemplos:

  • Métrica ROGUE-1 – ROUGE-1 evalúa la superposición de unigramas (palabras individuales) entre un resumen generado y un resumen de referencia. Por ejemplo, si un resumen de referencia contiene "El rápido zorro marrón salta" y el resumen generado es "El zorro marrón salta rápidamente", la métrica ROUGE-1 consideraría "marrón", "zorro" y "salta" como superpuestos. unigramas. ROUGE-1 se centra en la presencia de palabras individuales en los resúmenes, midiendo qué tan bien el resumen generado captura las palabras clave del resumen de referencia.
  • Métrica ROGUE-2 – ROUGE-2 evalúa la superposición de bigramas (pares de palabras adyacentes) entre un resumen generado y un resumen de referencia. Por ejemplo, si el resumen de referencia dice "El gato está durmiendo" y el resumen generado dice "Un gato está durmiendo", ROUGE-2 identificaría "el gato está" y "está durmiendo" como un bigrama superpuesto. ROUGE-2 proporciona información sobre qué tan bien el resumen generado mantiene la secuencia y el contexto de los pares de palabras en comparación con el resumen de referencia.
  • Métrica ROUGE-N – ROUGE-N es una forma generalizada donde N representa cualquier número, lo que permite la evaluación basada en n-gramas (secuencias de N palabras). Considerando N=3, si el resumen de referencia dice "El sol brilla intensamente" y el resumen generado es "El sol brilla intensamente", ROUGE-3 reconocería "el sol brilla intensamente" como un trigrama coincidente. ROUGE-N ofrece flexibilidad para evaluar resúmenes basados ​​en diferentes longitudes de secuencias de palabras, proporcionando una evaluación más completa de la superposición de contenido.

Estos ejemplos ilustran cómo funcionan las métricas ROUGE-1, ROUGE-2 y ROUGE-N al evaluar tareas de resumen automático o traducción automática comparando resúmenes generados con resúmenes de referencia basados ​​en diferentes niveles de secuencias de palabras.

Calcular una puntuación ROUGE-N

Puede utilizar los siguientes pasos para calcular una puntuación de ROUGE-N:

  1. Tokenice el resumen generado y el resumen de referencia en palabras o tokens individuales utilizando métodos básicos de tokenización, como la división por espacios en blanco o bibliotecas de procesamiento de lenguaje natural (NLP).
  2. Genere n-gramas (secuencias contiguas de N palabras) tanto del resumen generado como del resumen de referencia.
  3. Cuente el número de n-gramas superpuestos entre el resumen generado y el resumen de referencia.
  4. Calcule precisión, recuperación y puntuación F1:
    • Precisión – El número de n-gramas superpuestos dividido por el número total de n-gramas en el resumen generado.
    • Recordar – El número de n-gramas superpuestos dividido por el número total de n-gramas en el resumen de referencia.
    • Puntuación F1 – La media armónica de precisión y recuperación, calculada como (2 * precisión * recuperación) / (precisión + recuperación).
  5. La puntuación F1 agregada obtenida al calcular la precisión, la recuperación y la puntuación F1 para cada fila del conjunto de datos se considera la puntuación ROUGE-N.

Limitaciones

ROGUE tiene las siguientes limitaciones:

  • Enfoque limitado en la superposición léxica – La idea central detrás de ROUGE es comparar el resumen generado por el sistema con un conjunto de referencias o resúmenes creados por humanos y medir la superposición léxica entre ellos. Esto significa que ROUGE tiene un enfoque muy limitado en la similitud a nivel de palabras. En realidad, no evalúa el significado semántico, la coherencia o la legibilidad del resumen. Un sistema podría lograr puntuaciones altas de ROUGE simplemente extrayendo oraciones palabra por palabra del texto original, sin generar un resumen coherente o conciso.
  • Insensibilidad a parafrasear – Debido a que ROUGE se basa en la coincidencia léxica, no puede detectar equivalencia semántica entre palabras y frases. Por lo tanto, parafrasear y utilizar sinónimos a menudo conducirá a puntuaciones más bajas de ROUGE, incluso si se preserva el significado. Esto pone en desventaja a los sistemas que parafrasean o resumen de forma abstractiva.
  • Falta de comprensión semántica – ROUGE no evalúa si el sistema realmente entendió los significados y conceptos del texto original. Un resumen podría lograr una gran superposición léxica con las referencias, sin perder las ideas principales o contener inconsistencias fácticas. ROUGE no identificaría estos problemas.

Cuando usar colorete

ROUGE es sencillo y rápido de calcular. Úselo como punto de referencia o punto de referencia para la calidad del resumen relacionado con la selección de contenido. Las métricas de ROUGE se emplean con mayor eficacia en escenarios que involucran tareas de resumen abstracto, evaluación de resumen automática, evaluaciones de LLM y análisis comparativos de diferentes enfoques de resumen. Al utilizar las métricas de ROUGE en estos contextos, las partes interesadas pueden evaluar cuantitativamente la calidad y eficacia de los procesos de generación de resúmenes.

Métrica para la evaluación de traducciones con orden explícito (METEOR)

Uno de los principales desafíos al evaluar los sistemas de resumen es evaluar qué tan bien el resumen generado fluye lógicamente, en lugar de simplemente seleccionar palabras y frases relevantes del texto fuente. La simple extracción de palabras clave y oraciones relevantes no necesariamente produce un resumen coherente y cohesivo. El resumen debe fluir fluidamente y conectar las ideas de manera lógica, incluso si no se presentan en el mismo orden que el documento original.

La flexibilidad de hacer coincidir reduciendo las palabras a su raíz o forma base (por ejemplo, después de derivar, palabras como “correr”, “correr” y “correr” se convierten en “correr”) y sinónimos significa METEOR se correlaciona mejor con los juicios humanos de calidad resumida. Puede identificar si se conserva contenido importante, incluso si la redacción difiere. Esta es una ventaja clave sobre las métricas basadas en n-gramas como ROUGE, que solo buscan coincidencias exactas de tokens. METEOR también otorga puntuaciones más altas a los resúmenes que se centran en el contenido más destacado de la referencia. Se otorgan puntuaciones más bajas a la información repetitiva o irrelevante. Esto se alinea bien con el objetivo del resumen de mantener solo el contenido más importante. METEOR es una métrica semánticamente significativa que puede superar algunas de las limitaciones de la coincidencia de n-gramas para evaluar el resumen de texto. La incorporación de derivaciones y sinónimos permite una mejor evaluación de la superposición de información y la precisión del contenido.

Para ilustrar esto, considere los siguientes ejemplos:

Resumen de referencia: Las hojas caen durante el otoño.

Resumen generado 1: Las hojas caen en otoño.

Resumen generado 2: Hojas verdes en verano.

Se resaltan las palabras que coinciden entre la referencia y el resumen 1 generado:

Resumen de referencia: Ramas y Hojas otoño durante el otoño.

Resumen generado 1: Ramas y Hojas entrar un momento otoño.

Aunque "otoño" y "otoño" son tokens diferentes, METEOR los reconoce como sinónimos mediante su comparación de sinónimos. "Caída" y "caída" se identifican como una coincidencia derivada. Para el resumen generado 2, no hay coincidencias con el resumen de referencia además de "Hojas", por lo que este resumen recibiría una puntuación METEOR mucho más baja. Cuantas más coincidencias semánticamente significativas, mayor será la puntuación de METEOR. Esto permite a METEOR evaluar mejor el contenido y la precisión de los resúmenes en comparación con la simple comparación de n-gramas.

Calcular una puntuación METEOR

Complete los siguientes pasos para calcular una puntuación METEOR:

  1. Tokenice el resumen generado y el resumen de referencia en palabras o tokens individuales utilizando métodos básicos de tokenización, como la división por espacios en blanco o bibliotecas de PNL.
  2. Calcule la precisión de unigrama, la recuperación y la puntuación media F, dando más peso a la recuperación que a la precisión.
  3. Aplique una penalización por coincidencias exactas para evitar enfatizarlas demasiado. La penalización se elige en función de las características del conjunto de datos, los requisitos de la tarea y el equilibrio entre precisión y recuperación. Reste esta penalización de la puntuación media F calculada en el Paso 2.
  4. Calcule la puntuación media F para formas derivadas (reduciendo las palabras a su forma base o raíz) y sinónimos para unigramas, cuando corresponda. Sume esto con la puntuación media F calculada anteriormente para obtener la puntuación METEOR final. La puntuación METEOR varía de 0 a 1, donde 0 indica que no hay similitud entre el resumen generado y el resumen de referencia, y 1 indica una alineación perfecta. Normalmente, las puntuaciones de resumen se sitúan entre 0 y 0.6.

Limitaciones

Al emplear la métrica METEOR para evaluar tareas de resumen, pueden surgir varios desafíos:

  • Complejidad semántica – El énfasis de METEOR en la similitud semántica puede tener dificultades para capturar los significados matizados y el contexto en tareas de resumen complejas, lo que podría conducir a imprecisiones en la evaluación.
  • Variabilidad de referencia – La variabilidad en los resúmenes de referencias generados por humanos puede afectar las puntuaciones de METEOR, porque las diferencias en el contenido de las referencias pueden afectar la evaluación de los resúmenes generados por máquinas.
  • Diversidad linguística – La eficacia de METEOR puede variar entre idiomas debido a variaciones lingüísticas, diferencias de sintaxis y matices semánticos, lo que plantea desafíos en las evaluaciones de resúmenes multilingües.
  • Discrepancia de longitud – La evaluación de resúmenes de diferente extensión puede ser un desafío para METEOR, porque las discrepancias en la extensión en comparación con el resumen de referencia pueden dar lugar a sanciones o imprecisiones en la evaluación.
  • Ajuste de parámetros – La optimización de los parámetros de METEOR para diferentes conjuntos de datos y tareas de resumen puede llevar mucho tiempo y requerir un ajuste cuidadoso para garantizar que la métrica proporcione evaluaciones precisas.
  • Sesgo de evaluación – Existe un riesgo de sesgo de evaluación con METEOR si no se ajusta o calibra adecuadamente para tareas o dominios de resumen específicos. Esto puede conducir potencialmente a resultados sesgados y afectar la confiabilidad del proceso de evaluación.

Al ser conscientes de estos desafíos y considerarlos al utilizar METEOR como métrica para tareas de resumen, los investigadores y profesionales pueden sortear posibles limitaciones y tomar decisiones más informadas en sus procesos de evaluación.

Cuándo utilizar METEOR

METEOR se utiliza comúnmente para evaluar automáticamente la calidad de los resúmenes de texto. Es preferible utilizar METEOR como métrica de evaluación cuando el orden de las ideas, conceptos o entidades en el resumen importa. METEOR considera el orden y compara n-gramas entre el resumen generado y los resúmenes de referencia. Premia los resúmenes que preservan la información secuencial. A diferencia de métricas como ROUGE, que se basan en la superposición de n-gramas con resúmenes de referencia, METEOR compara raíces, sinónimos y paráfrasis. METEOR funciona mejor cuando puede haber múltiples formas correctas de resumir el texto original. METEOR incorpora sinónimos de WordNet y tokens derivados al comparar n-gramas. En resumen, los resúmenes que son semánticamente similares pero que utilizan palabras o frases diferentes obtendrán una buena puntuación. METEOR tiene una penalización incorporada para resúmenes con n-gramas repetitivos. Por lo tanto, desaconseja la extracción palabra por palabra o la falta de abstracción. METEOR es una buena opción cuando la similitud semántica, el orden de las ideas y la fluidez del fraseo son importantes para juzgar la calidad del resumen. Es menos apropiado para tareas en las que sólo importa la superposición léxica con los resúmenes de referencia.

BERTpuntuación

Las medidas léxicas a nivel superficial como ROUGE y METEOR evalúan los sistemas de resumen comparando la superposición de palabras entre un resumen candidato y un resumen de referencia. Sin embargo, dependen en gran medida de la coincidencia exacta de cadenas entre palabras y frases. Esto significa que pueden pasar por alto similitudes semánticas entre palabras y frases que tienen diferentes formas superficiales pero significados subyacentes similares. Al basarse únicamente en la coincidencia superficial, estas métricas pueden subestimar la calidad de los resúmenes del sistema que utilizan palabras sinónimas o parafrasean conceptos de manera diferente a los resúmenes de referencia. Dos resúmenes podrían transmitir información casi idéntica pero recibir puntuaciones superficiales bajas debido a diferencias de vocabulario.

BERTpuntuación es una forma de evaluar automáticamente qué tan bueno es un resumen comparándolo con un resumen de referencia escrito por un humano. Utiliza BERT, una técnica popular de PNL, para comprender el significado y el contexto de las palabras en el resumen del candidato y el resumen de referencia. Específicamente, analiza cada palabra o token en el resumen del candidato y encuentra la palabra más similar en el resumen de referencia basándose en las incrustaciones de BERT, que son representaciones vectoriales del significado y contexto de cada palabra. Mide la similitud mediante la similitud del coseno, que indica qué tan cerca están los vectores entre sí. Para cada palabra en el resumen del candidato, encuentra la palabra más relacionada en el resumen de referencia utilizando la comprensión del lenguaje de BERT. Compara todas estas similitudes de palabras en todo el resumen para obtener una puntuación general de qué tan semánticamente similar es el resumen del candidato al resumen de referencia. Cuanto más similares sean las palabras y los significados capturados por BERT, mayor será el BERTScore. Esto le permite evaluar automáticamente la calidad de un resumen generado comparándolo con una referencia humana sin necesidad de una evaluación humana cada vez.

Para ilustrar esto, imagine que tiene un resumen generado por una máquina: “El veloz zorro marrón salta sobre el perro perezoso”. Ahora, consideremos un resumen de referencia elaborado por humanos: "Un veloz zorro marrón salta sobre un canino dormido".

Calcular una puntuación BERTS

Complete los siguientes pasos para calcular un BERTScore:

  1. BERTScore utiliza incrustaciones contextuales para representar cada token tanto en la oración candidata (generada por una máquina) como en la de referencia (elaborada por humanos). Las incrustaciones contextuales son un tipo de representación de palabras en PNL que captura el significado de una palabra en función de su contexto dentro de una oración o texto. A diferencia de las incrustaciones de palabras tradicionales que asignan un vector fijo a cada palabra independientemente de su contexto, las incrustaciones contextuales consideran las palabras circundantes para generar una representación única para cada palabra dependiendo de cómo se usa en una oración específica.
  2. Luego, la métrica calcula la similitud entre cada token en la oración candidata con cada token en la oración de referencia usando similitud de coseno. La similitud del coseno nos ayuda a cuantificar qué tan estrechamente relacionados están dos conjuntos de datos al enfocarnos en la dirección a la que apuntan en un espacio multidimensional, lo que la convierte en una herramienta valiosa para tareas como algoritmos de búsqueda, PNL y sistemas de recomendación.
  3. Al comparar las incrustaciones contextuales y calcular las puntuaciones de similitud para todos los tokens, BERTScore genera una evaluación integral que captura la relevancia semántica y el contexto del resumen generado en comparación con la referencia creada por humanos.
  4. El resultado final de BERTScore proporciona una puntuación de similitud que refleja qué tan bien se alinea el resumen generado por máquina con el resumen de referencia en términos de significado y contexto.

En esencia, BERTScore va más allá de las métricas tradicionales al considerar los matices semánticos y el contexto de las oraciones, ofreciendo una evaluación más sofisticada que refleja fielmente el juicio humano. Este enfoque avanzado mejora la precisión y confiabilidad de la evaluación de tareas de resumen, lo que convierte a BERTScore en una herramienta valiosa para evaluar sistemas de generación de texto.

Limitaciones:

Aunque BERTScore ofrece ventajas significativas a la hora de evaluar tareas de resumen, también presenta ciertas limitaciones que deben tenerse en cuenta:

  • Intensidad computacional – BERTScore puede ser computacionalmente intensivo debido a su dependencia de modelos de lenguaje previamente entrenados como BERT. Esto puede llevar a tiempos de evaluación más largos, especialmente cuando se procesan grandes volúmenes de datos de texto.
  • Dependencia de modelos previamente entrenados – La eficacia de BERTScore depende en gran medida de la calidad y relevancia del modelo de lenguaje previamente entrenado utilizado. En escenarios donde el modelo previamente entrenado puede no capturar adecuadamente los matices del texto, los resultados de la evaluación pueden verse afectados.
  • Escalabilidad – Ampliar BERTScore para grandes conjuntos de datos o aplicaciones en tiempo real puede resultar un desafío debido a sus demandas computacionales. La implementación de BERTScore en entornos de producción puede requerir estrategias de optimización para proporcionar un rendimiento eficiente.
  • Especificidad de dominio – El rendimiento de BERTScore puede variar según diferentes dominios o tipos de texto especializados. Adaptar la métrica a dominios o tareas específicas puede requerir ajustes o ajustes para producir evaluaciones precisas.
  • Interpretabilidad – Aunque BERTScore proporciona una evaluación integral basada en incrustaciones contextuales, interpretar las razones específicas detrás de las puntuaciones de similitud generadas para cada token puede ser complejo y requerir análisis adicionales.
  • Evaluación sin referencia – Aunque BERTScore reduce la dependencia de los resúmenes de referencias para la evaluación, es posible que este enfoque sin referencias no capture completamente todos los aspectos de la calidad de los resúmenes, particularmente en escenarios donde las referencias elaboradas por humanos son esenciales para evaluar la relevancia y coherencia del contenido.

Reconocer estas limitaciones puede ayudarle a tomar decisiones informadas al utilizar BERTScore como métrica para evaluar tareas de resumen, proporcionando una comprensión equilibrada de sus fortalezas y limitaciones.

Cuándo utilizar BERTScore

BERTScore puede evaluar la calidad del resumen de texto comparando un resumen generado con un resumen de referencia. Utiliza redes neuronales como BERT para medir la similitud semántica más allá de la concordancia exacta de palabras o frases. Esto hace que BERTScore sea muy útil cuando la fidelidad semántica y la preservación del significado y el contenido completos son fundamentales para la tarea de resumen. BERTScore otorgará puntuaciones más altas a los resúmenes que transmitan la misma información que el resumen de referencia, incluso si utilizan palabras y estructuras de oraciones diferentes. La conclusión es que BERTScore es ideal para tareas de resumen en las que es vital conservar el significado semántico completo, no solo las palabras clave o los temas. Su puntuación neuronal avanzada le permite comparar significados más allá de la coincidencia de palabras a nivel superficial. Esto lo hace adecuado para casos en los que diferencias sutiles en la redacción pueden alterar sustancialmente el significado y las implicaciones generales. BERTScore, en particular, sobresale en capturar similitudes semánticas, lo cual es crucial para evaluar la calidad de resúmenes abstractivos como los producidos por los modelos de recuperación de generación aumentada (RAG).

Marcos de evaluación de modelos

Los marcos de evaluación de modelos son esenciales para medir con precisión el rendimiento de varios modelos de resumen. Estos marcos son fundamentales para comparar modelos, proporcionar coherencia entre los resúmenes generados y el contenido fuente, y señalar deficiencias en los métodos de evaluación. Al realizar evaluaciones exhaustivas y evaluaciones comparativas consistentes, estos marcos impulsan la investigación de resúmenes de texto al promover prácticas de evaluación estandarizadas y permitir comparaciones de modelos multifacéticos.

En AWS, el Biblioteca FMEval dentro de Amazon SageMaker aclarar agiliza la evaluación y selección de modelos básicos (FM) para tareas como resumen de texto, respuesta a preguntas y clasificación. Le permite evaluar los FM en función de métricas como precisión, solidez, creatividad, sesgo y toxicidad, lo que admite evaluaciones automatizadas y humanas para los LLM. Con evaluaciones programáticas o basadas en la interfaz de usuario, FMEval genera informes detallados con visualizaciones para cuantificar los riesgos del modelo, como imprecisiones, toxicidad o sesgos, lo que ayuda a las organizaciones a alinearse con sus pautas de IA generativa responsable. En esta sección, demostramos cómo utilizar la biblioteca FMEval.

Evalúe Claude v2 en cuanto a la precisión del resumen utilizando Amazon Bedrock

El siguiente fragmento de código es un ejemplo de cómo interactuar con el modelo Anthropic Claude usando código Python:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

En términos simples, este código realiza las siguientes acciones:

  1. Importe las bibliotecas necesarias, incluidas json, para trabajar con datos JSON.
  2. Defina el ID del modelo como anthropic.claude-v2 y establezca el tipo de contenido para la solicitud.
  3. Créar un prompt_data Variable que estructura los datos de entrada para el modelo de Claude. En este caso, plantea la pregunta "¿Quién es Barack Obama?" y espera una respuesta del modelo.
  4. Construya un objeto JSON llamado cuerpo que incluya los datos del mensaje y especifique parámetros adicionales como la cantidad máxima de tokens a generar.
  5. Invocar el modelo de Claude usando bedrock_runtime.invoke_model con los parámetros definidos.
  6. Analice la respuesta del modelo, extraiga la finalización (texto generado) e imprímala.

Asegúrese de que el Gestión de identidades y accesos de AWS (IAM) rol asociado con el Estudio Amazon SageMaker El perfil de usuario tiene acceso a la lecho rocoso del amazonas modelos que se invocan. Referirse a Ejemplos de políticas basadas en identidad para Amazon Bedrock para obtener orientación sobre mejores prácticas y ejemplos de políticas basadas en identidad para Amazon Bedrock.

Uso de la biblioteca FMEval para evaluar el resultado resumido de Claude

Usamos el siguiente código para evaluar el resultado resumido:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

En el fragmento de código anterior, para evaluar el resumen de texto utilizando la biblioteca FMEval, completamos los siguientes pasos:

  1. Créar un ModelRunner para realizar la invocación en su LLM. La biblioteca FMEval proporciona soporte integrado para Amazon SageMaker puntos finales y JumpStart de Amazon SageMaker LLM. También puedes ampliar el ModelRunner interfaz para cualquier LLM alojado en cualquier lugar.
  2. Uso soportado eval_algorithms como toxicidad, resumen, precisión, semántica y solidez, según sus necesidades de evaluación.
  3. Personalice los parámetros de configuración de evaluación para su caso de uso específico.
  4. Utilice el algoritmo de evaluación con conjuntos de datos integrados o personalizados para evaluar su modelo LLM. El conjunto de datos utilizado en este caso proviene de lo siguiente Repositorio GitHub.

Para obtener más detalles sobre cómo diseñar y realizar los esfuerzos de seguimiento y evaluación, refierase a guía para desarrolladores y ejemplos para el uso detallado de los algoritmos de evaluación.

La siguiente tabla resume los resultados de la evaluación.

modelo _entrada salida_modelo salida_objetivo puntual puntuaciones puntuación_meteorito puntuación_roja bert_score
John Edward
0 Bates, anteriormente de Spalding, Linco…..
No puedo hacer nada definitivo.
juicios, como...
Un ex
Un oficial de policía de Lincolnshire llevó a cabo...
Humano: Juan
Edward Bates, anteriormente de Spalding...
[{'nombre': 'meteorito', 'valor':
0.101010101010101 ...
0.10101 0 0.557155
23 de octubre de 2015
Última actualización a las
17:44 BST|nIt'…
A continuación se presentan algunos puntos clave sobre huracanes/tropas. El huracán Patricia ha sido clasificado como categoría… Humanos: 23
Octubre de 2015 Última actualización a las 17:44
SEGUNDO…
[{'nombre': meteorito', “valor':
0.102339181286549 ..
0.102339 0.018265 0.441421
Ferrari parecía en condiciones de desafiar a... Estos son los puntos clave del artículo:nin… Lewis Hamilton logró la pole position en el… Humano: Ferrari parecía en condiciones de desafiar… [{'nombre': 'meteorito', 'valor':
0.322543352601156 ...
0.322543 0.078212 0.606487
El jugador nacido en Bath, de 28 años, ha hecho 36
aparecer…
Bien, déjame resumir los puntos clave:/nin- E….. Newport Gwent Dragons número ocho Ed Jackson Humano: El jugador nacido en Bath, de 28 años, ha hecho 36… [{'nombre': 'meteorito', 'valor':
0105740181268882 ...
0.10574 0.012987 0.539488
Debilidades en la forma en que los ratones intercambian datos con c... Estos son los puntos clave que reuní del a… Los piratas informáticos podrían obtener acceso a su hogar y Humano
Debilidades en el
ratones swar intercambiaron datos
[{'nombre': 'meteorito', 'valor':
0.201048289433848 ...
0.201048 0.021858 0.526947

Mira la muestra cuaderno para obtener más detalles sobre la evaluación de resumen que discutimos en esta publicación.

Conclusión

ROUGE, METEOR y BERTScore miden la calidad de los resúmenes generados por máquinas, pero se centran en diferentes aspectos como la superposición léxica, la fluidez o la similitud semántica. Asegúrese de seleccionar la métrica que se alinee con lo que define "bueno" para su caso de uso de resumen específico. También puede utilizar una combinación de métricas. Esto proporciona una evaluación más completa y protege contra posibles debilidades de cualquier métrica individual. Con las mediciones correctas, puede mejorar iterativamente sus resúmenes para cumplir con la noción de precisión más importante.

Además, la evaluación de FM y LLM es necesaria para poder producir estos modelos a escala. Con FMEval, obtienes un amplio conjunto de algoritmos integrados en muchas tareas de PNL, pero también una herramienta escalable y flexible para evaluaciones a gran escala de tus propios modelos, conjuntos de datos y algoritmos. Para ampliar, puede utilizar este paquete en sus canalizaciones de LLMOps para evaluar múltiples modelos. Para obtener más información sobre FMEval en AWS y cómo usarlo de manera efectiva, consulte Utilice SageMaker Clarify para evaluar modelos de lenguaje grandes. Para obtener más información y conocimientos sobre las capacidades de SageMaker Clarify en la evaluación de FM, consulte Amazon SageMaker Clarify facilita la evaluación y selección de modelos de cimentación.


Acerca de los autores


Dinesh Kumar Subramani es un arquitecto de soluciones senior con sede en Edimburgo, Escocia. Se especializa en inteligencia artificial y aprendizaje automático, y es miembro de la comunidad de campo técnico de Amazon. Dinesh trabaja en estrecha colaboración con los clientes del gobierno central del Reino Unido para resolver sus problemas utilizando los servicios de AWS. Fuera del trabajo, Dinesh disfruta pasar tiempo de calidad con su familia, jugar ajedrez y explorar una amplia gama de música.


Pranav Sharma es un líder de AWS que impulsa iniciativas de transformación empresarial y tecnológica en Europa, Oriente Medio y África. Tiene experiencia en el diseño y ejecución de plataformas de inteligencia artificial en producción que respaldan a millones de clientes y brindan resultados comerciales. Ha desempeñado funciones de liderazgo en tecnología y personal para organizaciones de servicios financieros globales. Fuera del trabajo, le gusta leer, jugar tenis con su hijo y ver películas.

punto_img

Información más reciente

punto_img

Habla con nosotros!

¡Hola! ¿Le puedo ayudar en algo?