生成数据智能

自动化系统可以重写Wikipedia文章中的过时句子

日期:

麻省理工学院研究人员创建的系统可用于自动更新Wikipedia文章中的事实不一致之处,从而减少了人工编辑人员的工作时间和精力。

Wikipedia包含数百万条文章,需要不断进行编辑以反映新信息。 这可能涉及文章扩展,重大重写或更多例行修改,例如更新编号,日期,名称和位置。 目前,全球各地的人们都在自愿投入时间进行这些编辑。  

在AAAI人工智能大会上发表的一篇论文中,研究人员描述了一种文本生成系统,该系统可精确定位和替换相关Wikipedia句子中的特定信息,同时保持类似于人类书写和编辑方式的语言。

这样的想法是,人们可以在界面中输入具有更新信息的非结构化句子,而无需担心样式或语法。 然后,系统将搜索Wikipedia,找到适当的页面和过时的句子,然后以类似于人的方式将其重写。 研究人员说,将来有可能构建一个完全自动化的系统,该系统可以识别和使用来自网络的最新信息,从而在相应的Wikipedia文章中生成重写的句子,以反映更新的信息。

“维基百科的文章需要不断更新。 自动修改文章的确切部分,而几乎不需要人工干预,将是有益的。”计算机科学与人工智能实验室(CSAIL)的博士学位学生,主要作者之一达什·沙(Darsh Shah)说。 “您无需花费数百人来修改每篇Wikipedia文章,而是只需要几个,因为该模型是自动帮助或自动完成的。 这大大提高了效率。”

存在许多其他可以自动编辑Wikipedia的机器人。 Shah说,通常,这些工具可以减轻恶意破坏或将一些狭窄定义的信息放入预定义的模板中。 他说,研究人员的模型解决了一个更棘手的人工智能问题:给定了一条新的非结构化信息,该模型会以类似于人的方式自动修改句子。 他说:“其他[机器人]任务更多基于规则,而这是一项需要对两个句子中相互矛盾的部分进行推理并生成连贯的文本的任务,”他说。

共同主要作者和CSAIL研究生Tal Schuster说,该系统也可以用于其他文本生成应用程序。 在他们的论文中,研究人员还使用它来自动合成流行的事实检查数据集中的句子,这有助于减少偏见,而无需手动收集其他数据。 “这样,针对数据集进行伪造新闻检测的自动事实验证模型的性能得到了提高,” Schuster说。

Shah和Schuster与他们的学术顾问Regina Barzilay,三角洲电子学院电气工程和计算机科学教授以及CSAIL教授一起研究了这篇论文。

中性屏蔽和融合

该系统的背后是相当大量的文本生成技巧,可用于识别两个单独句子之间的矛盾信息,然后将它们融合在一起。 它以Wikipedia文章中的“过时”句子以及包含更新和冲突信息的单独“声明”句子作为输入。 系统必须根据索偿中的信息自动删除过时句子中的特定单词并将其保留在其中,以更新事实,同时保持样式和语法。 对于人类而言,这是一项容易的任务,但对于机器学习而言却是一项新颖的任务。

例如,说这句话有必要的更新(粗体):“基金A认为 他们的28中的42 在运营活跃的公司中的少数股权对集团尤为重要。” 具有更新信息的索赔语句可能显示为:“基金A认为 23-43 少数股东持股很大。” 系统将根据声明找到有关“基金A”的相关维基百科文本。 然后,它会自动去除过时的数字(28和42),并用新数字(23和43)替换它们,同时使句子完全相同并在语法上正确。 (在他们的工作中,研究人员在特定维基百科句子的数据集上而不是在所有维基百科页面上运行该系统。)

该系统在包含句子对的流行数据集上进行了训练,其中一个句子是声明,另一个是相关的Wikipedia句子。 每对都以以下三种方式之一进行标记:“同意”,表示句子包含匹配的事实信息; “不同意”,表示它们包含矛盾的信息; 或“中立”,即没有足够的信息可用于任何一个标签。 系统必须通过修改过时的句子以匹配要求来使所有不同的对达成一致。 这需要使用两个单独的模型来产生所需的输出。

第一个模型是事实检查分类器,它经过预先训练以将每个句子对标记为“同意”,“不同意”或“中立”,其重点是不同意的句对。 与分类器一起运行的是一个自定义的“中立屏蔽程序”模块,该模块可识别过时句子中的哪些词与权利要求相抵触。 该模块删除了“最大化中立性”所需的最小单词数-这意味着该对可以被标记为中立。 这就是起点:虽然句子不同意,但它们不再包含明显矛盾的信息。 该模块在过时的句子上创建一个二进制“掩码”,其中0置于最有可能需要删除的单词上,而1置于保持者之上。

掩蔽后,使用新颖的两个编码器-解码器框架生成最终的输出语句。 该模型学习索赔和过时句子的压缩表示。 通过将两个编码器/解码器滑入过时句子中被删除的单词(用0覆盖的单词)所空缺的位置,两个编码器/解码器将权利要求中的不同单词融合在一起。

在一项测试中,该模型的得分高于所有传统方法,使用的是一种称为“ SARI”的技术,该技术测量的是与人类修改句子的方式相比,机器删除,添加和保留单词的程度。 他们使用了带有手动编辑的Wikipedia句子的数据集,该模型以前从未见过。 与几种传统的文本生成方法相比,新模型在进行事实更新时更加准确,其输出与人类写作更加相似。 在另一项测试中,众包人员根据模型的输出句子包含事实更新和匹配人类语法的程度,对该模型进行了评分(从1到5)。 该模型的事实更新平均得分为4,而语法匹配得分为3.85。

消除偏见

研究还表明,当训练“假新闻”的检测者时,该系统可用于扩充数据集,以消除偏见。“假新闻”是一种包含虚假信息的宣传形式,旨在误导读者,以产生网站视图或引导公众舆论。 这些检测器中的一些检测器在同意-不同意句子对的数据集上进行训练,以“学习”通过将其与给定证据匹配来验证要求。

In these pairs, the claim will either match certain information with a supporting “evidence” sentence from Wikipedia (agree) or it will be modified by humans to include information contradictory to the evidence sentence (disagree). The models are trained to flag claims with refuting evidence as “false,” which can be used to help identify fake news.

不幸的是,这些数据集目前带有意想不到的偏差,Shah说:“在训练过程中,模型使用人类书面声明的某些语言作为“给予”短语来将其标记为假,而没有太多依赖相应的证据语句。 由于它不执行事实检查,因此在评估实际示例时会降低模型的准确性。”

研究人员使用了来自Wikipedia项目的相同删除和融合技术,以平衡数据集中的不同意对,并帮助减轻偏见。 对于某些“不同意”对,他们使用修改后的句子的虚假信息来重新生成假的“证据”支持句子。 然后,某些赠与短语同时存在于“同意”和“不同意”句子中,这迫使模型分析更多特征。 研究人员使用他们的扩充数据集,将一种流行的假新闻检测器的错误率降低了13%。

“如果您的数据集中存在偏差,并且您在欺骗模型以仅以不同意见对中的一个句子进行预测,那么模型将无法在现实世界中生存,” Shah说。 “我们使模型在所有同意-不同意对中查看两个句子。”


主题: 研究, 计算机科学与技术, 算法, 机器识别, 时间, 网络, 众包, 社交媒体, 技术与社会, 计算机科学与人工智能实验室(CSAIL), 电机工程与计算机科学(EECS), 工程学院

Source: https://news.mit.edu/2020/automated-rewrite-wikipedia-articles-0212

现货图片

最新情报

现货图片