Generative Data Intelligence

Автоматизована система може переписувати застарілі речення у статтях Вікіпедії

Дата:

Система, створена дослідниками Массачусетського технологічного інституту, може бути використана для автоматичного оновлення фактичних невідповідностей у статтях Вікіпедії, скорочуючи час і зусилля редакторів, які тепер виконують завдання вручну.

Вікіпедія містить мільйони статей, які постійно потребують редагування для відображення нової інформації. Це може включати розширення статей, серйозні переписування або більш рутинні зміни, такі як оновлення номерів, дат, імен і місць. Зараз люди по всьому світу добровільно витрачають свій час на внесення цих змін.  

У статті, представленій на конференції AAAI зі штучного інтелекту, дослідники описують систему генерування тексту, яка точно визначає та замінює певну інформацію у відповідних реченнях Вікіпедії, зберігаючи при цьому мову, подібну до того, як люди пишуть і редагують.

Ідея полягає в тому, щоб люди вводили в інтерфейс неструктуроване речення з оновленою інформацією, не турбуючись про стиль чи граматику. Потім система здійснюватиме пошук у Вікіпедії, знаходитиме відповідну сторінку та застаріле речення та переписуватиме їх у людський спосіб. У майбутньому, кажуть дослідники, є потенціал для створення повністю автоматизованої системи, яка ідентифікує та використовує останню інформацію з Інтернету для створення переписаних речень у відповідних статтях Вікіпедії, які відображають оновлену інформацію.

«Статті Вікіпедії постійно потребують багато оновлень. Було б корисно автоматично змінювати точні частини статей, майже без втручання людини», — каже Дарш Шах, докторант Лабораторії комп’ютерних наук і штучного інтелекту (CSAIL) і один із провідних авторів. «Замість сотень людей, які працюють над зміною кожної статті Вікіпедії, вам знадобиться лише кілька, тому що модель допомагає або робить це автоматично. Це значно підвищує ефективність».

Існує багато інших ботів, які автоматично редагують Вікіпедію. Як правило, вони працюють над пом’якшенням вандалізму або скиданням певної вузько визначеної інформації в заздалегідь визначені шаблони, каже Шах. За його словами, модель дослідників вирішує складнішу проблему штучного інтелекту: отримавши нову частину неструктурованої інформації, модель автоматично змінює речення, подібно до людини. «Інші завдання [ботів] більш ґрунтуються на правилах, тоді як це завдання потребує міркування над суперечливими частинами у двох реченнях і створення зв’язного фрагмента тексту», — каже він.

Систему також можна використовувати для інших додатків, що генерують текст, каже співавтор і аспірант CSAIL Тал Шустер. У своїй статті дослідники також використовували його для автоматичного синтезу речень у популярному наборі даних для перевірки фактів, що допомогло зменшити упередженість без збору додаткових даних вручну. «Таким чином підвищується продуктивність моделей автоматичної перевірки фактів, які тренуються на наборі даних, скажімо, для виявлення фейкових новин», — каже Шустер.

Шах і Шустер працювали над документом разом зі своїм науковим керівником Регіною Барзілай, професором електротехніки та комп’ютерних наук Delta Electronics і професором CSAIL.

Маскування нейтралітету та злиття

За цією системою стоїть неабияка винахідливість у створенні тексту у визначенні суперечливої ​​інформації між двома окремими реченнями, а потім у поєднанні їх разом. Він приймає як вхідні дані «застаріле» речення зі статті Вікіпедії, а також окреме речення «претензія», яке містить оновлену та суперечливу інформацію. Система повинна автоматично видаляти та зберігати конкретні слова в застарілому реченні на основі інформації в претензії, щоб оновити факти, але зберегти стиль і граматику. Це легке завдання для людей, але новація в машинному навчанні.

Наприклад, скажімо, необхідно оновити це речення (виділено жирним шрифтом): «Фонд A розглядає 28 із 42 міноритарні пакети акцій у діючих компаніях мають особливе значення для групи». Речення позову з оновленою інформацією може звучати так: «Фонд A вважає 23 з 43 міноритарні пакети акцій значні». Система знайшла б відповідний текст у Вікіпедії для «Фонду А» на основі заяви. Потім він автоматично видаляє застарілі номери (28 і 42) і замінює їх новими номерами (23 і 43), зберігаючи при цьому речення таким самим і граматично правильним. (У своїй роботі дослідники запустили систему на наборі даних конкретних речень Вікіпедії, а не на всіх сторінках Вікіпедії.)

Систему було навчено на популярному наборі даних, який містить пари речень, у яких одне речення є претензією, а інше – відповідним реченням Вікіпедії. Кожна пара позначається одним із трьох способів: «згоден», тобто речення містять відповідну фактичну інформацію; «не погоджуються», що означає, що вони містять суперечливу інформацію; або «нейтральний», де недостатньо інформації для обох міток. Система повинна змусити всі незгодні пари погодитися, змінивши застаріле речення відповідно до твердження. Це вимагає використання двох окремих моделей для отримання бажаного результату.

Перша модель — це перевіряючий факти класифікатор — попередньо навчений позначати кожну пару речень як «згоден», «не згоден» або «нейтральний» — який зосереджується на незгодних парах. У поєднанні з класифікатором працює спеціальний модуль «маскувальника нейтральності», який визначає, які слова в застарілому реченні суперечать твердженню. Модуль видаляє мінімальну кількість слів, необхідних для «максимізації нейтральності», тобто пару можна позначити як нейтральну. Це відправна точка: хоча речення не узгоджуються, вони більше не містять явно суперечливої ​​інформації. Модуль створює двійкову «маску» над застарілим реченням, де 0 розміщується над словами, які, швидше за все, потребують видалення, тоді як 1 розміщується над зберігачами.

Після маскування для генерації кінцевого вихідного речення використовується нова структура з двома кодерами-декодерами. Ця модель вивчає стислі представлення заяви та застарілого речення. Працюючи разом, два кодери-декодери об’єднують різні слова з претензії, пересуваючи їх у місця, звільнені від вилучених слів (тих, що покриті нулями) у застарілому реченні.

В одному тесті модель отримала вищу оцінку, ніж усі традиційні методи, використовуючи техніку під назвою «SARI», яка вимірює, наскільки добре машини видаляють, додають і зберігають слова порівняно з тим, як люди змінюють речення. Вони використовували набір даних із відредагованими вручну реченнями Вікіпедії, яких модель не бачила раніше. Порівняно з кількома традиційними методами генерування тексту, нова модель була більш точною у оновленні фактів, а її вихід більше нагадував людське письмо. В іншому тесті краудсорсингові люди оцінювали модель (за шкалою від 1 до 5) на основі того, наскільки добре вихідні речення містили фактичні оновлення та відповідали людській граматиці. Модель отримала середні бали 4 за фактичні оновлення та 3.85 за відповідність граматики.

Усунення упередженості

Дослідження також показало, що систему можна використовувати для розширення наборів даних, щоб усунути упередженість під час навчання детекторів «фейкових новин», форми пропаганди, що містить дезінформацію, створену для введення читачів в оману з метою створення переглядів веб-сайтів або спрямування громадської думки. Деякі з цих детекторів тренуються на наборах даних пар речень «згоден-незгоден», щоб «навчитися» перевіряти твердження, зіставляючи його з наданими доказами.

In these pairs, the claim will either match certain information with a supporting “evidence” sentence from Wikipedia (agree) or it will be modified by humans to include information contradictory to the evidence sentence (disagree). The models are trained to flag claims with refuting evidence as “false,” which can be used to help identify fake news.

На жаль, такі набори даних наразі мають ненавмисні упередження, каже Шах: «Під час навчання моделі використовують певну мову людських письмових тверджень як фрази «віддачі», щоб позначити їх як хибні, не покладаючись особливо на відповідне доказове речення. Це знижує точність моделі під час оцінювання реальних прикладів, оскільки вона не виконує перевірку фактів».

Дослідники використовували ті самі методи видалення та об’єднання зі свого проекту у Вікіпедії, щоб збалансувати пари «незгода-згода» в наборі даних і допомогти пом’якшити упередженість. Для деяких пар «незгодних» вони використали неправдиву інформацію модифікованого речення, щоб відтворити підроблене речення, що підтверджує «докази». Деякі фрази «роздавання» існують як у реченнях «згоден», так і «не згоден», що змушує моделі аналізувати більше функцій. Використовуючи свій розширений набір даних, дослідники знизили рівень помилок популярного детектора фейкових новин на 13 відсотків.

«Якщо у вас є упередженість у вашому наборі даних, і ви обманюєте свою модель, просто дивлячись на одне речення в неузгодженій парі, щоб робити прогнози, ваша модель не виживе в реальному світі», — говорить Шах. «Ми змушуємо моделей розглядати обидва речення в усіх парах «згоден-незгоден».


Теми: Дослідження, Інформатика та техніка, Алгоритми, навчання за допомогою машини, дані, інтернет, Краудсорсинг, соціальні медіа, Технологія і суспільство, Лабораторія комп'ютерних наук та штучного інтелекту (CSAIL), Електротехніка та інформатика (eecs), Інженерна школа

Source: https://news.mit.edu/2020/automated-rewrite-wikipedia-articles-0212

spot_img

Остання розвідка

spot_img