Inteligencia de datos generativa

LLM eficientes y continuos con formación previa en ámbitos financieros | Servicios web de Amazon

Fecha:

Los modelos de lenguajes grandes (LLM) generalmente se entrenan en grandes conjuntos de datos disponibles públicamente que son independientes del dominio. Por ejemplo, La llama de Meta Los modelos se entrenan en conjuntos de datos como Rastreo común, C4, Wikipedia y ArXiv. Estos conjuntos de datos abarcan una amplia gama de temas y dominios. Aunque los modelos resultantes arrojan resultados sorprendentemente buenos para tareas generales, como la generación de texto y el reconocimiento de entidades, existe evidencia de que los modelos entrenados con conjuntos de datos de dominios específicos pueden mejorar aún más el rendimiento del LLM. Por ejemplo, los datos de entrenamiento utilizados para BloombergGPT El 51% son documentos de dominios específicos, incluidas noticias financieras, presentaciones y otros materiales financieros. El LLM resultante supera a los LLM capacitados en conjuntos de datos no específicos de un dominio cuando se prueba en tareas específicas de finanzas. los autores de BloombergGPT concluyó que su modelo supera a todos los demás modelos probados en cuatro de las cinco tareas financieras. El modelo proporcionó un rendimiento aún mejor cuando se probó para las tareas financieras internas de Bloomberg por un amplio margen: hasta 60 puntos mejor (de 100). Aunque puede obtener más información sobre los resultados de la evaluación integral en el , la siguiente muestra capturada del BloombergGPT El artículo puede darle una idea del beneficio de capacitar a los LLM utilizando datos específicos del dominio financiero. Como se muestra en el ejemplo, el modelo BloombergGPT proporcionó respuestas correctas, mientras que otros modelos no específicos de un dominio tuvieron problemas:

Input: CEO of Assicurazioni Generali?
BloombergGPT: Philippe Donnet
GPT-NeoX: Antonio De Lorenzo, Simone Gambarini, Enrico Zanetti
FLAN-T5-XXL: John M Forsyth, Christopher K Peters, {empty string}

Input: CEO of Silicon Valley Bank?
BloombergGPT: Greg Becker
GPT-NeoX: John Hodor, Mike Fridgen, Peter R Briger
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth

Input: CEO of IHS Markit Ltd?
BloombergGPT: Lance Uggla
GPT-NeoX: John F Lechleiter, David Steward, Niall O Broin
FLAN-T5-XXL: William M Hawkins, John M Forsyth, John M Forsyth
Input: CEO of Walgreens Boots Alliance?

BloombergGPT: Rosalind Brewer
GPT-NeoX: Mark V Dei, Stefano Pessina, Stefano Pessina
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth
Input: CEO of Citigroup Inc?

BloombergGPT: Jane Fraser
GPT-NeoX: Michael L Corbat, Michael L Corbat, Michael L Corbat
FLAN-T5-XXL: Christian Sewing, John M Forsyth, John M Forsyth

Esta publicación proporciona una guía para capacitar a los LLM específicamente para el ámbito financiero. Cubrimos las siguientes áreas clave:

  • Recopilación y preparación de datos – Orientación sobre cómo obtener y seleccionar datos financieros relevantes para una formación de modelos eficaz
  • Entrenamiento previo continuo versus ajuste fino – Cuándo utilizar cada técnica para optimizar el rendimiento de su LLM
  • Preformación continua y eficiente – Estrategias para agilizar el proceso de preformación continua, ahorrando tiempo y recursos

Esta publicación reúne la experiencia del equipo de investigación de ciencias aplicadas dentro de Amazon Finance Technology y el equipo de especialistas mundiales de AWS para la industria financiera global. Parte del contenido se basa en el artículo. Capacitación previa continua y eficiente para crear modelos de lenguaje grandes específicos de un dominio.

Recopilar y preparar datos financieros.

La capacitación previa continua del dominio necesita un conjunto de datos específicos del dominio, de alta calidad y a gran escala. Los siguientes son los pasos principales para la curación de conjuntos de datos de dominio:

  • Identificar fuentes de datos – Las posibles fuentes de datos para el corpus de dominio incluyen la web abierta, Wikipedia, libros, redes sociales y documentos internos.
  • Filtros de datos de dominio – Debido a que el objetivo final es seleccionar el corpus del dominio, es posible que necesite aplicar pasos adicionales para filtrar muestras que sean irrelevantes para el dominio de destino. Esto reduce el corpus inútil para el entrenamiento previo continuo y reduce el costo de entrenamiento.
  • preprocesamiento – Podría considerar una serie de pasos de preprocesamiento para mejorar la calidad de los datos y la eficiencia de la capacitación. Por ejemplo, ciertas fuentes de datos pueden contener una buena cantidad de tokens ruidosos; la deduplicación se considera un paso útil para mejorar la calidad de los datos y reducir los costos de capacitación.

Para desarrollar LLM financieros, puede utilizar dos fuentes de datos importantes: News CommonCrawl y presentaciones ante la SEC. Una presentación ante la SEC es un estado financiero u otro documento formal presentado a la Comisión de Bolsa y Valores de EE. UU. (SEC). Las empresas que cotizan en bolsa deben presentar varios documentos con regularidad. Esto crea una gran cantidad de documentos a lo largo de los años. News CommonCrawl es un conjunto de datos publicado por CommonCrawl en 2016. Contiene artículos de noticias de sitios de noticias de todo el mundo.

Noticias CommonCrawl está disponible en Servicio de almacenamiento simple de Amazon (Amazon S3) en el commoncrawl cubo en crawl-data/CC-NEWS/. Puede obtener los listados de archivos utilizando el Interfaz de línea de comandos de AWS (AWS CLI) y el siguiente comando:

aws s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/

In Capacitación previa continua y eficiente para crear modelos de lenguaje grandes específicos de un dominio, los autores utilizan un enfoque basado en URL y palabras clave para filtrar los artículos de noticias financieras de las noticias genéricas. Específicamente, los autores mantienen una lista de importantes medios de noticias financieras y un conjunto de palabras clave relacionadas con noticias financieras. Identificamos un artículo como noticia financiera si proviene de medios de noticias financieras o si aparece alguna palabra clave en la URL. Este enfoque simple pero efectivo le permite identificar noticias financieras no solo de medios de noticias financieras sino también de secciones financieras de medios de noticias genéricos.

Las presentaciones ante la SEC están disponibles en línea a través de la base de datos EDGAR (Recopilación, análisis y recuperación de datos electrónicos) de la SEC, que proporciona acceso abierto a los datos. Puede extraer las presentaciones de EDGAR directamente o utilizar API en Amazon SageMaker con unas pocas líneas de código, para cualquier período de tiempo y para una gran cantidad de tickers (es decir, el identificador asignado por la SEC). Para obtener más información, consulte Recuperación de archivos ante la SEC.

La siguiente tabla resume los detalles clave de ambas fuentes de datos.

. Noticias ComúnCrawl Archivo SEC
Cobertura 2016 - 2022 1993 - 2022
Tamaño 25.8 mil millones de palabras 5.1 mil millones de palabras

Los autores pasan por algunos pasos de preprocesamiento adicionales antes de que los datos se introduzcan en un algoritmo de entrenamiento. En primer lugar, observamos que los documentos presentados ante la SEC contienen texto ruidoso debido a la eliminación de tablas y figuras, por lo que los autores eliminan frases cortas que se consideran etiquetas de tablas o figuras. En segundo lugar, aplicamos un algoritmo hash sensible a la localidad para deduplicar los nuevos artículos y presentaciones. Para las presentaciones ante la SEC, deduplicamos a nivel de sección en lugar de a nivel de documento. Por último, concatenamos documentos en una cadena larga, los tokenizamos y fragmentamos la tokenización en partes de longitud de entrada máxima admitida por el modelo que se va a entrenar. Esto mejora el rendimiento de la formación previa continua y reduce el coste de la formación.

Entrenamiento previo continuo versus ajuste fino

La mayoría de los LLM disponibles son de propósito general y carecen de habilidades de dominio específico. Los LLM de dominio han demostrado un desempeño considerable en los ámbitos médico, financiero o científico. Para que un LLM adquiera conocimientos específicos de un dominio, existen cuatro métodos: capacitación desde cero, capacitación previa continua, ajuste de instrucciones en tareas de dominio y generación aumentada de recuperación (RAG).

En los modelos tradicionales, el ajuste fino se suele utilizar para crear modelos de tareas específicas para un dominio. Esto significa mantener múltiples modelos para múltiples tareas como extracción de entidades, clasificación de intenciones, análisis de sentimientos o respuesta a preguntas. Con la llegada de los LLM, la necesidad de mantener modelos separados se ha vuelto obsoleta mediante el uso de técnicas como el aprendizaje en contexto o las indicaciones. Esto ahorra el esfuerzo necesario para mantener una pila de modelos para tareas relacionadas pero distintas.

De forma intuitiva, puede formar LLM desde cero con datos específicos del dominio. Aunque la mayor parte del trabajo para crear LLM de dominio se ha centrado en la formación desde cero, es prohibitivamente caro. Por ejemplo, el modelo GPT-4 cuesta más de $ 100 millones entrenar. Estos modelos se entrenan con una combinación de datos de dominio abierto y datos de dominio. La capacitación previa continua puede ayudar a los modelos a adquirir conocimientos específicos del dominio sin incurrir en el costo de la capacitación previa desde cero porque se capacita previamente un LLM de dominio abierto existente solo con los datos del dominio.

Con el ajuste de instrucciones en una tarea, no se puede hacer que el modelo adquiera conocimiento de dominio porque el LLM solo adquiere información de dominio contenida en el conjunto de datos de ajuste de instrucciones. A menos que se utilice un conjunto de datos muy grande para ajustar las instrucciones, no es suficiente para adquirir conocimientos del dominio. Obtener conjuntos de datos de instrucción de alta calidad suele ser un desafío y es la razón para utilizar LLM en primer lugar. Además, el ajuste de las instrucciones en una tarea puede afectar el rendimiento en otras tareas (como se ve en este documento). Sin embargo, perfeccionar la instrucción es más rentable que cualquiera de las alternativas de formación previa.

La siguiente figura compara el ajuste tradicional específico de tareas. vs paradigma de aprendizaje en contexto con LLM.

RAG es la forma más eficaz de guiar a un LLM para generar respuestas basadas en un dominio. Aunque puede guiar un modelo para generar respuestas proporcionando hechos del dominio como información auxiliar, no adquiere el lenguaje específico del dominio porque el LLM todavía depende de un estilo de lenguaje ajeno al dominio para generar las respuestas.

La capacitación previa continua es un término medio entre la capacitación previa y el ajuste de la instrucción en términos de costo, al mismo tiempo que es una alternativa sólida para adquirir conocimientos y estilos específicos de un dominio. Puede proporcionar un modelo general sobre el cual se pueden realizar ajustes adicionales de instrucciones en datos de instrucciones limitados. La capacitación previa continua puede ser una estrategia rentable para dominios especializados donde el conjunto de tareas posteriores es grande o desconocido y los datos de ajuste de instrucciones etiquetadas son limitados. En otros escenarios, el ajuste fino de instrucciones o RAG podrían ser más adecuados.

Para obtener más información sobre el ajuste fino, RAG y entrenamiento de modelos, consulte Ajustar un modelo de base, Recuperación de Generación Aumentada (RAG)y Entrene a un modelo con Amazon SageMaker, respectivamente. Para este post, nos centramos en una formación previa continua y eficiente.

Metodología de preformación continua eficiente

La formación previa continua consta de la siguiente metodología:

  • Preentrenamiento continuo adaptable al dominio (DACP) - En el papel Capacitación previa continua y eficiente para crear modelos de lenguaje grandes específicos de un dominio, los autores entrenan continuamente el conjunto de modelos de lenguaje Pythia en el corpus financiero para adaptarlo al dominio financiero. El objetivo es crear LLM financieros alimentando datos de todo el dominio financiero en un modelo de código abierto. Debido a que el corpus de capacitación contiene todos los conjuntos de datos seleccionados en el dominio, el modelo resultante debe adquirir conocimientos específicos de finanzas, convirtiéndose así en un modelo versátil para diversas tareas financieras. Esto da como resultado modelos FinPythia.
  • Preentrenamiento continuo adaptativo a tareas (TACP) – Los autores entrenan previamente los modelos con datos de tareas etiquetadas y no etiquetadas para adaptarlos a tareas específicas. En determinadas circunstancias, los desarrolladores pueden preferir modelos que ofrezcan un mejor rendimiento en un grupo de tareas en el dominio en lugar de un modelo genérico de dominio. TACP está diseñado como capacitación previa continua con el objetivo de mejorar el desempeño en tareas específicas, sin requisitos de datos etiquetados. Específicamente, los autores entrenan previamente continuamente los modelos de código abierto en los tokens de tareas (sin etiquetas). La principal limitación de TACP radica en la construcción de LLM para tareas específicas en lugar de LLM básicos, debido al uso exclusivo de datos de tareas sin etiquetar para la capacitación. Aunque DACP utiliza un corpus mucho más grande, su costo es prohibitivo. Para equilibrar estas limitaciones, los autores proponen dos enfoques que tienen como objetivo construir LLM básicos de dominios específicos y al mismo tiempo preservar un rendimiento superior en las tareas específicas:
  • DACP eficiente de tareas similares (ETS-DACP) – Los autores proponen seleccionar un subconjunto de corpus financiero que sea muy similar a los datos de la tarea mediante la incorporación de similitud. Este subconjunto se utiliza para un entrenamiento previo continuo para hacerlo más eficiente. Específicamente, los autores entrenan previamente continuamente el LLM de código abierto en un pequeño corpus extraído del corpus financiero que está cerca de las tareas objetivo en la distribución. Esto puede ayudar a mejorar el rendimiento de las tareas porque adoptamos el modelo para la distribución de tokens de tareas a pesar de que no se requieren datos etiquetados.
  • DACP eficiente independiente de tareas (ETA-DACP) – Los autores proponen utilizar métricas como la perplejidad y la entropía de tipo token que no requieren datos de tareas para seleccionar muestras del corpus financiero para una capacitación previa continua y eficiente. Este enfoque está diseñado para abordar escenarios en los que los datos de la tarea no están disponibles o se prefieren modelos de dominio más versátiles para un dominio más amplio. Los autores adoptan dos dimensiones para seleccionar muestras de datos que son importantes para obtener información de dominio a partir de un subconjunto de datos de dominio previos al entrenamiento: novedad y diversidad. La novedad, medida por la perplejidad registrada por el modelo objetivo, se refiere a la información que el LLM no había visto antes. Los datos con alta novedad indican conocimientos novedosos para el LLM y dichos datos se consideran más difíciles de aprender. Esto actualiza los LLM genéricos con conocimientos intensivos del dominio durante una capacitación previa continua. La diversidad, por otro lado, captura la diversidad de distribuciones de tipos de tokens en el corpus del dominio, lo que se ha documentado como una característica útil en la investigación del aprendizaje curricular sobre el modelado del lenguaje.

La siguiente figura compara un ejemplo de ETS-DACP (izquierda) con ETA-DACP (derecha).

Adoptamos dos esquemas de muestreo para seleccionar activamente puntos de datos del corpus financiero seleccionado: muestreo duro y muestreo suave. Lo primero se hace clasificando primero el corpus financiero según las métricas correspondientes y luego seleccionando las k muestras principales, donde k está predeterminado de acuerdo con el presupuesto de capacitación. Para este último, los autores asignan pesos de muestreo para cada punto de datos de acuerdo con los valores de las métricas y luego muestrean aleatoriamente k puntos de datos para cumplir con el presupuesto de capacitación.

Resultado y análisis

Los autores evalúan los LLM financieros resultantes en una variedad de tareas financieras para investigar la eficacia de la capacitación previa continua:

  • Banco de frases financieras – Una tarea de clasificación de sentimientos sobre noticias financieras.
  • FiQA SA – Una tarea de clasificación de sentimientos basada en aspectos basada en noticias y titulares financieros.
  • Titular – Una tarea de clasificación binaria sobre si un titular de una entidad financiera contiene cierta información.
  • NER – Una tarea de extracción de entidades financieras nombradas basada en la sección de evaluación del riesgo crediticio de los informes de la SEC. Las palabras de esta tarea están anotadas con PER, LOC, ORG y MISC.

Debido a que los LLM financieros tienen una instrucción ajustada, los autores evalúan los modelos en un entorno de cinco disparos para cada tarea en aras de su solidez. En promedio, FinPythia 5B supera a Pythia 6.9B en un 6.9 % en cuatro tareas, lo que demuestra la eficacia del entrenamiento previo continuo específico del dominio. Para el modelo 10B, la mejora es menos profunda, pero el rendimiento aún mejora un 1% en promedio.

La siguiente figura ilustra la diferencia de rendimiento antes y después de DACP en ambos modelos.

La siguiente figura muestra dos ejemplos cualitativos generados por Pythia 6.9B y FinPythia 6.9B. Para dos preguntas relacionadas con las finanzas sobre un administrador de inversionistas y un término financiero, Pythia 6.9B no entiende el término ni reconoce el nombre, mientras que FinPythia 6.9B genera respuestas detalladas correctamente. Los ejemplos cualitativos demuestran que la formación previa continua permite a los LLM adquirir conocimientos del dominio durante el proceso.

La siguiente tabla compara varios enfoques eficientes de preentrenamiento continuo. ETA-DACP-ppl es ETA-DACP basado en la perplejidad (novedad) y ETA-DACP-ent se basa en la entropía (diversidad). ETS-DACP-com es similar a DACP con selección de datos promediando las tres métricas. Las siguientes son algunas conclusiones de los resultados:

  • Los métodos de selección de datos son eficientes. – Superan el preentrenamiento continuo estándar con sólo el 10% de los datos de entrenamiento. La capacitación previa continua y eficiente que incluye DACP de tareas similares (ETS-DACP), DACP independiente de tareas basado en entropía (ESA-DACP-ent) y DACP de tareas similares basado en las tres métricas (ETS-DACP-com) supera al DACP estándar en promedio a pesar de que están capacitados en sólo el 10% del corpus financiero.
  • La selección de datos basada en tareas funciona mejor en línea con la investigación de modelos de lenguaje pequeños – ETS-DACP registra el mejor desempeño promedio entre todos los métodos y, según las tres métricas, registra el segundo mejor desempeño de la tarea. Esto sugiere que el uso de datos de tareas sin etiquetar sigue siendo un enfoque eficaz para mejorar el rendimiento de las tareas en el caso de los LLM.
  • La selección de datos independiente de la tarea ocupa el segundo lugar – ESA-DACP-ent sigue el desempeño del enfoque de selección de datos consciente de las tareas, lo que implica que aún podríamos mejorar el desempeño de las tareas seleccionando activamente muestras de alta calidad no vinculadas a tareas específicas. Esto allana el camino para crear LLM financieros para todo el dominio y al mismo tiempo lograr un desempeño superior en las tareas.

Una pregunta crítica con respecto a la capacitación previa continua es si afecta negativamente el desempeño en tareas que no son de dominio. Los autores también evalúan el modelo continuamente entrenado previamente en cuatro tareas genéricas ampliamente utilizadas: ARC, MMLU, TruthQA y HellaSwag, que miden la capacidad de responder preguntas, razonar y completar. Los autores encuentran que el preentrenamiento continuo no afecta negativamente el rendimiento fuera del dominio. Para obtener más detalles, consulte Capacitación previa continua y eficiente para crear modelos de lenguaje grandes específicos de un dominio.

Conclusión

Esta publicación ofreció información sobre la recopilación de datos y las estrategias continuas de capacitación previa para capacitar a los LLM en el ámbito financiero. Puede comenzar a capacitar a sus propios LLM para tareas financieras utilizando Capacitación de Amazon SageMaker or lecho rocoso del amazonas .


Acerca de los autores

Yong Xie es científico aplicado en Amazon FinTech. Se centra en el desarrollo de grandes modelos de lenguaje y aplicaciones de IA generativa para finanzas.

Karan Aggarwal Es científico aplicado sénior en Amazon FinTech y se centra en la IA generativa para casos de uso financieros. Karan tiene una amplia experiencia en análisis de series temporales y PNL, con particular interés en aprender de datos etiquetados limitados.

Aitzaz Ahmed es gerente de ciencias aplicadas en Amazon, donde dirige un equipo de científicos que crean diversas aplicaciones de aprendizaje automático e inteligencia artificial generativa en finanzas. Sus intereses de investigación están en PNL, IA generativa y agentes LLM. Recibió su doctorado en Ingeniería Eléctrica de la Universidad Texas A&M.

qingweili es especialista en aprendizaje automático en Amazon Web Services. Recibió su doctorado. en Investigación de Operaciones después de arruinar la cuenta de becas de investigación de su asesor y no entregar el Premio Nobel que prometió. Actualmente ayuda a los clientes de servicios financieros a crear soluciones de aprendizaje automático en AWS.

Raghvender Arni Lidera el equipo de aceleración del cliente (CAT) dentro de AWS Industries. El CAT es un equipo global multifuncional de arquitectos de nube, ingenieros de software, científicos de datos y expertos y diseñadores de IA/ML orientados al cliente que impulsa la innovación a través de prototipos avanzados e impulsa la excelencia operativa en la nube a través de experiencia técnica especializada.

punto_img

Información más reciente

punto_img

Habla con nosotros!

¡Hola! ¿Le puedo ayudar en algo?