生成数据智能

金融领域法学硕士的高效持续预培训 |亚马逊网络服务

日期:

大型语言模型 (LLM) 通常在与领域无关的大型公开数据集上进行训练。例如, 梅塔的羊驼 模型在数据集上进行训练,例如 普通爬网, C4、维基百科和 的arXiv。这些数据集涵盖广泛的主题和领域。尽管最终的模型对于文本生成和实体识别等一般任务产生了令人惊讶的良好结果,但有证据表明,使用特定领域数据集训练的模型可以进一步提高 LLM 性能。例如,训练数据用于 彭博GPT 51% 是特定领域文档,包括财经新闻、备案和其他财务材料。在针对特定金融任务进行测试时,所得的法学硕士优于在非特定领域数据集上训练的法学硕士。的作者 彭博GPT 得出的结论是,他们的模型优于针对五项财务任务中的四项测试的所有其他模型。当针对 Bloomberg 的内部财务任务进行测试时,该模型提供了更好的性能,大幅提升了 60 个百分点(满分 100 分)。虽然您可以在 ,以下样本捕获自 彭博GPT 论文可以让您了解使用金融领域特定数据培训法学硕士的好处。如示例所示,BloombergGPT 模型提供了正确的答案,而其他非特定领域模型则陷入困境:

Input: CEO of Assicurazioni Generali?
BloombergGPT: Philippe Donnet
GPT-NeoX: Antonio De Lorenzo, Simone Gambarini, Enrico Zanetti
FLAN-T5-XXL: John M Forsyth, Christopher K Peters, {empty string}

Input: CEO of Silicon Valley Bank?
BloombergGPT: Greg Becker
GPT-NeoX: John Hodor, Mike Fridgen, Peter R Briger
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth

Input: CEO of IHS Markit Ltd?
BloombergGPT: Lance Uggla
GPT-NeoX: John F Lechleiter, David Steward, Niall O Broin
FLAN-T5-XXL: William M Hawkins, John M Forsyth, John M Forsyth
Input: CEO of Walgreens Boots Alliance?

BloombergGPT: Rosalind Brewer
GPT-NeoX: Mark V Dei, Stefano Pessina, Stefano Pessina
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth
Input: CEO of Citigroup Inc?

BloombergGPT: Jane Fraser
GPT-NeoX: Michael L Corbat, Michael L Corbat, Michael L Corbat
FLAN-T5-XXL: Christian Sewing, John M Forsyth, John M Forsyth

这篇文章提供了专门针对金融领域的法学硕士培训指南。我们涵盖以下关键领域:

  • 数据收集和准备 – 为有效的模型训练采购和整理相关财务数据的指南
  • 持续预训练与微调 – 何时使用每种技术来优化法学硕士的表现
  • 高效的持续预训练 – 简化持续预训练过程的策略,节省时间和资源

这篇文章汇集了 Amazon Finance Technology 内的应用科学研究团队和全球金融行业 AWS 全球专家团队的专业知识。部分内容基于论文 用于构建特定领域大语言模型的高效持续预训练.

收集和准备财务数据

领域持续预训练需要大规模、高质量、特定领域的数据集。以下是域数据集管理的主要步骤:

  • 识别数据源 – 领域语料库的潜在数据源包括开放网络、维基百科、书籍、社交媒体和内部文档。
  • 域数据过滤器 – 由于最终目标是管理领域语料库,因此您可能需要应用额外的步骤来过滤掉与目标领域无关的样本。这减少了用于持续预训练的无用语料,降低了训练成本。
  • 前处理 – 您可以考虑采取一系列预处理步骤来提高数据质量和训练效率。例如,某些数据源可能包含相当数量的噪声标记;重复数据删除被认为是提高数据质量和降低培训成本的有用步骤。

要开发金融法学硕士,您可以使用两个重要的数据源:News CommonCrawl 和 SEC 文件。 SEC 备案是提交给美国证券交易委员会 (SEC) 的财务报表或其他正式文件。上市公司需要定期提交各种文件。多年来,这创建了大量文档。 News CommonCrawl是CommonCrawl于2016年发布的数据集。它包含来自世界各地新闻网站的新闻文章。

新闻 CommonCrawl 可用于 亚马逊简单存储服务 (亚马逊 S3) commoncrawl 桶在 crawl-data/CC-NEWS/。您可以使用以下命令获取文件列表 AWS命令行界面 (AWS CLI) 和以下命令:

aws s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/

In 用于构建特定领域大语言模型的高效持续预训练中,作者使用 URL 和基于关键字的方法从一般新闻中过滤财经新闻文章。具体来说,作者维护了一份重要财经新闻媒体的列表以及一组与财经新闻相关的关键词。如果一篇文章来自财经新闻媒体或 URL 中出现任何关键字,我们会将其识别为财经新闻。这种简单而有效的方法使您不仅可以识别来自财经新闻媒体的财经新闻,还可以识别来自通用新闻媒体的财经部分的财经新闻。

SEC 备案可通过 SEC 的 EDGAR(电子数据收集、分析和检索)数据库在线获取,该数据库提供开放数据访问。您可以直接从 EDGAR 抓取文件,或者使用 API 亚马逊SageMaker 只需几行代码,即可针对任何时间段和大量代码(即 SEC 分配的标识符)。要了解更多信息,请参阅 SEC 文件检索.

下表总结了两个数据源的关键详细信息。

. 新闻 CommonCrawl SEC备案
报道 2016-2022 1993-2022
尺寸 25.8亿字 5.1亿字

在将数据输入训练算法之前,作者会执行一些额外的预处理步骤。首先,我们观察到,由于删除了表格和图形,SEC 文件中包含嘈杂的文本,因此作者删除了被视为表格或图形标签的短句子。其次,我们应用局部敏感哈希算法来删除新文章和文件的重复数据。对于 SEC 备案,我们在章节级别而不是文档级别进行重复数据删除。最后,我们将文档连接成一个长字符串,对其进行标记,并将标记化分成要训练的模型支持的最大输入长度的片段。这提高了持续预训练的吞吐量并降低了训练成本。

持续预训练与微调

大多数可用的法学硕士都是通用目的,缺乏特定领域的能力。领域法学硕士在医学、金融或科学领域表现出了可观的表现。对于法学硕士来说,获取特定领域知识有四种方法:从头开始训练、持续预训练、针对领域任务进行指令微调以及检索增强生成(RAG)。

在传统模型中,微调通常用于为某个领域创建特定于任务的模型。这意味着为多个任务维护多个模型,例如实体提取、意图分类、情感分析或问题回答。随着法学硕士的出现,通过使用上下文学习或提示等技术,维护单独模型的需要已经过时。这节省了维护相关但不同任务的模型堆栈所需的工作量。

直观地说,您可以使用特定领域的数据从头开始训练法学硕士。尽管创建领域法学硕士的大部分工作都集中在从头开始的培训上,但其成本却高得令人望而却步。例如,GPT-4模型的成本 超过$ 100百万 培训。这些模型是在开放域数据和域数据的混合上进行训练的。持续的预训练可以帮助模型获取特定领域的知识,而不会产生从头开始预训练的成本,因为您仅在领域数据上预训练现有的开放领域 LLM。

通过对任务进行指令微调,您无法使模型获取领域知识,因为LLM仅获取指令微调数据集中包含的领域信息。除非使用非常大的数据集进行指令微调,否则不足以获取领域知识。获取高质量的教学数据集通常具有挑战性,这也是首先使用法学硕士的原因。此外,一项任务的指令微调可能会影响其他任务的性能(如 这张纸)。然而,指令微调比任何一种预训练替代方案都更具成本效益。

下图比较了传统的针对特定任务的微调。与法学硕士的情境学习范式对比。

RAG 是指导法学硕士生成基于某个领域的答案的最有效方法。虽然它可以通过提供领域事实作为辅助信息来指导模型生成响应,但它不会获取特定于领域的语言,因为 LLM 仍然依赖非领域语言风格来生成响应。

持续预训练是预训练和指令微调之间的中间立场,在成本方面是获得特定领域知识和风格的有力替代方案。它可以提供一个通用模型,可以在该模型上对有限的指令数据执行进一步的指令微调。对于下游任务集很大或未知且标记指令调整数据有限的专业领域,持续预训练可能是一种经济高效的策略。在其他场景中,指令微调或 RAG 可能更合适。

要了解有关微调、RAG 和模型训练的更多信息,请参阅 微调基础模型, 检索增强生成 (RAG)使用 Amazon SageMaker 训练模型, 分别。在这篇文章中,我们重点关注高效的持续预训练。

高效持续预训练的方法论

持续预训练包括以下方法:

  • 领域自适应持续预训练(DACP) – 在论文中 用于构建特定领域大语言模型的高效持续预训练,作者不断在金融语料库上预训练 Pythia 语言模型套件,使其适应金融领域。目标是通过将整个金融领域的数据输入开源模型来创建金融法学硕士。由于训练语料库包含该领域的所有精选数据集,因此生成的模型应该获得金融特定的知识,从而成为各种金融任务的通用模型。这会产生 FinPythia 模型。
  • 任务自适应持续预训练 (TACP) – 作者根据标记和未标记的任务数据进一步对模型进行预训练,以针对特定任务定制它们。在某些情况下,开发人员可能更喜欢在一组域内任务上提供更好性能的模型,而不是域通用模型。 TACP 被设计为持续预训练,旨在提高目标任务的性能,而不需要标记数据。具体来说,作者不断地在任务标记(没有标签)上预训练开源模型。 TACP 的主要局限性在于构建特定于任务的 LLM,而不是基础 LLM,因为仅使用未标记的任务数据进行培训。尽管 DACP 使用更大的语料库,但其成本却高得令人望而却步。为了平衡这些限制,作者提出了两种方法,旨在构建特定领域的基础法学硕士,同时保持目标任务的卓越性能:
  • 高效任务类似 DACP (ETS-DACP) – 作者建议使用嵌入相似性选择与任务数据高度相似的金融语料库子集。该子集用于持续预训练,以使其更加高效。具体来说,作者不断在从金融语料库中提取的小型语料库上对开源法学硕士进行预训练,该语料库接近分发中的目标任务。这可以帮助提高任务性能,因为尽管不需要标记数据,我们仍采用该模型来分配任务令牌。
  • 高效的任务无关 DACP (ETA-DACP) – 作者建议使用困惑度和令牌类型熵等指标,这些指标不需要任务数据来从金融语料库中选择样本以进行高效的持续预训练。这种方法旨在处理任务数据不可用或更广泛领域更通用的领域模型首选的场景。作者采用两个维度来选择对于从预训练领域数据子集中获取领域信息非常重要的数据样本:新颖性和多样性。新颖性,以目标模型记录的困惑度来衡量,是指LLM以前没有见过的信息。新颖性高的数据表明法学硕士知识新颖,此类数据被认为更难学习。这会在持续的预培训期间用密集的领域知识更新通用法学硕士。另一方面,多样性捕获了领域语料库中标记类型分布的多样性,这已被记录为语言建模课程学习研究中的有用特征。

下图比较了 ETS-DACP(左)与 ETA-DACP(右)的示例。

我们采用两种采样方案从精选的金融语料库中主动选择数据点:硬采样和软采样。前者首先根据相应的指标对金融语料库进行排序,然后选择前k个样本,其中k是根据训练预算预先确定的。对于后者,作者根据度量值为每个数据点分配采样权重,然后随机采样 k 个数据点以满足训练预算。

结果与分析

作者评估了一系列金融任务的金融法学硕士,以调查持续预培训的有效性:

  • 金融短语库 – 财经新闻的情感分类任务。
  • 质量保证协会 – 基于财经新闻和头条新闻的基于方面的情感分类任务。
  • 标题 – 关于金融实体的标题是否包含某些信息的二元分类任务。
  • NER – 基于 SEC 报告信用风险评估部分的金融命名实体提取任务。此任务中的单词用 PER、LOC、ORG 和 MISC 进行注释。

由于金融法学硕士是经过指令微调的,因此为了稳健性,作者在每项任务的 5 次设置中评估模型。平均而言,FinPythia 6.9B 在四项任务中的表现比 Pythia 6.9B 高出 10%,这证明了特定领域持续预训练的有效性。对于 1B 模型,改进不太明显,但性能仍然平均提高了 2%。

下图说明了两种型号上 DACP 之前和之后的性能差异。

下图展示了 Pythia 6.9B 和 FinPythia 6.9B 生成的两个定性示例。对于有关投资者经理和财务术语的两个财务相关问题,Pythia 6.9B 无法理解该术语或识别该名称,而 FinPythia 6.9B 可以正确生成详细答案。定性示例表明,持续的预培训使法学硕士能够在此过程中获得领域知识。

下表比较了各种有效的持续预训练方法。 ETA-DACP-ppl是基于困惑度(新颖性)的ETA-DACP,而ETA-DACP-ent是基于熵(多样性)的。 ETS-DACP-com 与 DACP 类似,通过对所有三个指标进行平均来选择数据。以下是结果的一些要点:

  • 数据选择方法高效 – 仅用 10% 的训练数据就超越了标准的持续预训练。高效的持续预训练,包括任务相似 DACP (ETS-DACP)、基于熵的任务无关 DACP (ESA-DACP-ent) 和基于所有三个指标的任务相似 DACP (ETS-DACP-com),其性能优于标准 DACP平均而言,尽管他们只接受了 10% 的金融语料库的训练。
  • 任务感知数据选择最适合小语言模型研究 – ETS-DACP 记录了所有方法中最好的平均性能,并且基于所有三个指标,记录了第二好的任务性能。这表明对于法学硕士来说,使用未标记的任务数据仍然是提高任务绩效的有效方法。
  • 与任务无关的数据选择紧随其后 – ESA-DACP-ent 遵循任务感知数据选择方法的性能,这意味着我们仍然可以通过主动选择与特定任务无关的高质量样本来提高任务性能。这为在整个领域建立金融法学硕士铺平了道路,同时实现了卓越的任务绩效。

关于持续预训练的一个关键问题是它是否会对非领域任务的性能产生负面影响。作者还在四个广泛使用的通用任务上评估了持续预训练的模型:ARC、MMLU、TruthQA 和 HellaSwag,这些任务衡量回答问题、推理和完成的能力。作者发现持续的预训练不会对非领域性能产生不利影响。欲了解更多详情,请参阅 用于构建特定领域大语言模型的高效持续预训练.

结论

这篇文章提供了对金融领域法学硕士培训的数据收集和持续预培训策略的见解。您可以开始使用以下方法培训您自己的法学硕士以完成财务任务 亚马逊 SageMaker 培训 or 亚马逊基岩


作者简介

谢勇 是亚马逊金融科技的应用科学家。他专注于开发大型语言模型和金融领域的生成式人工智能应用程序。

卡兰·阿加瓦尔 是 Amazon FinTech 的高级应用科学家,专注于金融用例的生成人工智能。 Karan 在时间序列分析和 NLP 方面拥有丰富的经验,尤其对从有限的标记数据中学习感兴趣

艾扎兹艾哈迈德 是亚马逊的应用科学经理,他领导一个科学家团队构建机器学习和生成人工智能在金融领域的各种应用程序。他的研究兴趣是自然语言处理、生成人工智能和法学硕士代理。他在德克萨斯农工大学获得了电气工程博士学位。

李庆伟 是 Amazon Web Services 的机器学习专家。他获得了博士学位。在他破坏了导师的研究资助账户并未能兑现他承诺的诺贝尔奖后,他获得了运筹学博士学位。目前,他帮助金融服务客户在 AWS 上构建机器学习解决方案。

拉夫文德·阿尼 领导 AWS 行业内的客户加速团队 (CAT)。 CAT 是一个由面向客户的云架构师、软件工程师、数据科学家以及 AI/ML 专家和设计师组成的全球跨职能团队,通过高级原型设计推动创新,并通过专业技术知识推动云运营卓越。

现货图片

最新情报

现货图片

在线答疑

你好呀! 我怎么帮你?