生成數據智能

自動化系統可以重寫Wikipedia文章中的過時句子

日期:

麻省理工學院研究人員創建的系統可用於自動更新維基百科文章中的事實不一致之處,從而減少現在手動執行任務的人類編輯所花費的時間和精力。

維基百科包含數百萬篇文章,這些文章需要不斷編輯以反映新資訊。 這可能涉及文章擴充、重大重寫或更多常規修改,例如更新數字、日期、名稱和位置。 目前,全球各地的人們自願花時間進行這些編輯。  

在 AAAI 人工智慧會議上發表的一篇論文中,研究人員描述了一種文本生成系統,該系統可以精確定位和替換相關維基百科句子中的特定信息,同時保持語言與人類書寫和編輯方式相似。

這個想法是,人類可以在介面中輸入帶有更新資訊的非結構化句子,而無需擔心風格或語法。 然後,系統將搜尋維基百科,找到適當的頁面和過時的句子,並以類似人類的方式重寫它。 研究人員表示,未來有可能建立一個完全自動化的系統,該系統可以識別並使用來自網路的最新信息,從而在相應的維基百科文章中產生反映更新信息的重寫句子。

「維基百科文章需要不斷更新。 自動修改文章的確切部分,幾乎不需要人為幹預,這將是有益的。」計算機科學與人工智慧實驗室 (CSAIL) 的博士生、主要作者之一 Darsh Shah 說。 「而不是數百人致力於修改每篇維基百科文章,那麼你只需要幾個人,因為模型正在幫助或自動完成它。 這極大地提高了效率。”

還有許多其他機器人可以自動編輯維基百科。 沙阿說,這些工作通常致力於減少破壞行為或將一些狹隘定義的資訊放入預先定義的模板中。 他說,研究人員的模型解決了一個更難的人工智慧問題:給定一條新的非結構化訊息,該模型會以類似人類的方式自動修改句子。 「其他[機器人]任務更加基於規則,而這是一項需要對兩個句子中矛盾的部分進行推理並產生連貫文本的任務,」他說。

該系統也可用於其他文本生成應用程序,聯合主要作者、CSAIL 研究生 Tal Schuster 說。 在他們的論文中,研究人員還使用它在流行的事實檢查數據集中自動合成句子,這有助於減少偏見,而無需手動收集額外的數據。 「這樣,自動事實驗證模型的性能就會提高,這些模型可以在資料集上進行訓練,例如用於假新聞檢測,」舒斯特說。

Shah 和 Schuster 與他們的學術顧問 Regina Barzilay(Delta Electronics 電機工程和電腦科學教授兼 CSAIL 教授)合作完成了這篇論文。

中性掩蔽和融合

這個系統背後有相當多的文本生成技巧,可以識別兩個獨立句子之間的矛盾訊息,然後將其融合在一起。 它採用維基百科文章中的“過時”句子以及包含更新和衝突資訊的單獨“聲明”句子作為輸入。 系統必須根據權利要求中的資訊自動刪除並保留過時句子中的特定單字,以更新事實但保持風格和語法。 這對人類來說是一項簡單的任務,但對機器學習來說卻是一項新穎的任務。

例如,假設這句話需要更新(粗體):「基金 A 認為 28 人中的 42 人 在運營活躍的公司中持有少數股權對集團來說具有特別重要的意義。” 更新資訊的索賠語句可能為:「基金 A 認為 23 43的 少數股權意義重大。” 系統將根據聲明尋找「基金 A」的相關維基百科文本。 然後,它會自動刪除過時的數字(28 和 42)並用新數字(23 和 43)替換它們,同時保持句子完全相同且語法正確。 (在他們的工作中,研究人員在特定維基百科句子的資料集上運行該系統,而不是在所有維基百科頁面上。)

這個系統是在一個包含句子對的流行資料集上進行訓練的,其中一個句子是一個聲明,另一個是相關的維基百科句子。 每對都以三種方式之一進行標記:“同意”,意味著句子包含匹配的事實信息; “不同意”,意味著它們包含矛盾的訊息; 或“中性”,其中任何一個標籤都沒有足夠的資訊。 系統必須透過修改過時的句子以匹配主張,使所有不同意見的對達成一致。 這需要使用兩個獨立的模型來產生所需的輸出。

第一個模型是一個事實檢查分類器——經過預先訓練,將每個句子對標記為“同意”、“不同意”或“中立”——重點關注不同的句子對。 與分類器一起運行的是一個自訂的「中性屏蔽器」模組,該模組可以識別過時句子中的哪些單字與聲明相矛盾。 該模組刪除了「最大化中立性」所需的最少單字數量——這意味著該對可以被標記為中立。 這就是起點:雖然句子不一致,但它們不再包含明顯矛盾的訊息。 該模組在過時的句子上創建一個二進制“掩碼”,其中 0 被放置在最有可能需要刪除的單字上,而 1 被放置在 keeper 上。

遮罩後,使用新穎的雙編碼器-解碼器框架來產生最終的輸出句子。 該模型學習聲明和過時句子的壓縮表示。 兩個編碼器-解碼器協同工作,將權利要求中的不同單字滑入過時句子中刪除的單字(被 0 覆蓋的單字)留下的空位,從而融合這些單字。

在一項測試中,該模型的得分高於所有傳統方法,該方法使用了一種名為「SARI」的技術,該技術衡量機器刪除、添加和保留單字與人類修改句子的方式相比的表現。 他們使用了一個包含手動編輯的維基百科句子的資料集,這是該模型以前從未見過的。 與幾種傳統的文本生成方法相比,新模型在事實更新方面更加準確,其輸出更接近人類書寫。 在另一項測試中,眾包人員根據模型的輸出句子包含事實更新和與人類語法的匹配程度對模型進行評分(評分範圍為 1 到 5)。 該模型在事實更新方面取得了 4 分的平均分,在語法匹配方面取得了 3.85 分的平均分數。

消除偏見

該研究還表明,該系統可用於增強數據集,以消除訓練「假新聞」檢測器時的偏見,「假新聞」是一種包含虛假資訊的宣傳形式,旨在誤導讀者,以產生網站瀏覽量或引導公眾輿論。 其中一些檢測器在同意-不同意句子對的數據集上進行訓練,以“學習”通過將其與給定證據相匹配來驗證主張。

In these pairs, the claim will either match certain information with a supporting “evidence” sentence from Wikipedia (agree) or it will be modified by humans to include information contradictory to the evidence sentence (disagree). The models are trained to flag claims with refuting evidence as “false,” which can be used to help identify fake news.

不幸的是,此類資料集目前存在意想不到的偏差,Shah 說:「在訓練期間,模型使用人類書面聲明的某些語言作為'贈品'短語將其標記為錯誤,而不太依賴相應的證據句子。 這降低了模型在評估現實世界範例時的準確性,因為它不執行事實檢查。”

研究人員使用維基百科項目中相同的刪除和融合技術來平衡資料集中的不同意對,並幫助減輕偏見。 對於一些“不同意”對,他們利用修改後的句子的虛假信息重新生成一個虛假的“證據”支持句子。 一些贈品短語同時存在於「同意」和「不同意」句子中,這迫使模型分析更多特徵。 利用增強的資料集,研究人員將流行的假新聞偵測器的錯誤率降低了 13%。

「如果你的數據集有偏差,並且你欺騙你的模型只查看一對不同的句子中的一個句子來做出預測,那麼你的模型將無法在現實世界中生存,」沙阿說。 “我們讓模型查看所有同意-不同意對中的兩個句子。”


主題: 詳細介紹, 計算機科學與技術, 算法, 機器學習, 數據, 網際網路, 眾包, 社會化媒體, 技術與社會, 計算機科學與人工智能實驗室(CSAIL), 電機工程與計算機科學(EECS), 工程學院

Source: https://news.mit.edu/2020/automated-rewrite-wikipedia-articles-0212

現貨圖片

最新情報

現貨圖片