Generative Datenintelligenz

Das automatisierte System kann veraltete Sätze in Wikipedia-Artikeln umschreiben

Datum:

Ein von MIT-Forschern entwickeltes System könnte verwendet werden, um sachliche Inkonsistenzen in Wikipedia-Artikeln automatisch zu aktualisieren und so den Zeit- und Arbeitsaufwand menschlicher Redakteure zu reduzieren, die diese Aufgabe jetzt manuell erledigen.

Wikipedia umfasst Millionen von Artikeln, die ständig überarbeitet werden müssen, um neue Informationen widerzuspiegeln. Dazu können Artikelerweiterungen, umfassende Umschreibungen oder routinemäßigere Änderungen wie die Aktualisierung von Nummern, Daten, Namen und Orten gehören. Derzeit nehmen sich Menschen auf der ganzen Welt ehrenamtlich Zeit, um diese Änderungen vorzunehmen.  

In einem Papier, das auf der AAAI-Konferenz über künstliche Intelligenz vorgestellt wird, beschreiben die Forscher ein Textgenerierungssystem, das bestimmte Informationen in relevanten Wikipedia-Sätzen lokalisiert und ersetzt und dabei die Sprache so hält, wie sie Menschen schreiben und bearbeiten.

Die Idee ist, dass Menschen einen unstrukturierten Satz mit aktualisierten Informationen in eine Schnittstelle eingeben, ohne sich um Stil oder Grammatik kümmern zu müssen. Das System würde dann Wikipedia durchsuchen, die entsprechende Seite und den veralteten Satz finden und ihn auf menschenähnliche Weise umschreiben. Den Forschern zufolge besteht in Zukunft die Möglichkeit, ein vollautomatisches System aufzubauen, das die neuesten Informationen aus dem Internet identifiziert und nutzt, um in entsprechenden Wikipedia-Artikeln umgeschriebene Sätze zu erstellen, die aktualisierte Informationen widerspiegeln.

„Wikipedia-Artikel müssen ständig aktualisiert werden. Es wäre von Vorteil, exakte Teile der Artikel automatisch zu ändern, ohne dass ein Mensch eingreifen müsste“, sagt Darsh Shah, Doktorand am Computer Science and Artificial Intelligence Laboratory (CSAIL) und einer der Hauptautoren. „Statt Hunderten von Leuten, die daran arbeiten, jeden Wikipedia-Artikel zu ändern, brauchen Sie nur noch wenige, weil das Modell dabei hilft oder es automatisch erledigt.“ Das bietet dramatische Effizienzsteigerungen.“

Es gibt viele andere Bots, die automatische Wikipedia-Änderungen vornehmen. Typischerweise geht es dabei darum, Vandalismus einzudämmen oder einige eng definierte Informationen in vordefinierte Vorlagen einzufügen, sagt Shah. Das Modell der Forscher löst seiner Meinung nach ein schwierigeres Problem der künstlichen Intelligenz: Wenn eine neue unstrukturierte Information vorliegt, ändert das Modell den Satz automatisch auf menschenähnliche Weise. „Die anderen [Bot-]Aufgaben basieren eher auf Regeln, während es sich hierbei um eine Aufgabe handelt, bei der es darum geht, über widersprüchliche Teile in zwei Sätzen nachzudenken und einen zusammenhängenden Text zu generieren“, sagt er.

Das System kann auch für andere textgenerierende Anwendungen verwendet werden, sagt Co-Hauptautor und CSAIL-Doktorand Tal Schuster. In ihrer Arbeit verwendeten die Forscher es auch, um Sätze in einem beliebten Datensatz zur Faktenprüfung automatisch zu synthetisieren, was dazu beitrug, Verzerrungen zu reduzieren, ohne zusätzliche Daten manuell zu sammeln. „Auf diese Weise verbessert sich die Leistung automatischer Faktenverifizierungsmodelle, die anhand des Datensatzes beispielsweise für die Erkennung gefälschter Nachrichten trainieren“, sagt Schuster.

Shah und Schuster arbeiteten an dem Papier mit ihrer akademischen Beraterin Regina Barzilay, der Delta Electronics-Professorin für Elektrotechnik und Informatik und Professorin am CSAIL.

Neutralitätsmaskierung und -verschmelzung

Hinter dem System steckt einiges an Einfallsreichtum bei der Textgenerierung bei der Identifizierung widersprüchlicher Informationen zwischen zwei separaten Sätzen und deren anschließender Zusammenführung. Als Eingabe dient ein „veralteter“ Satz aus einem Wikipedia-Artikel sowie ein separater „Anspruch“-Satz, der die aktualisierten und widersprüchlichen Informationen enthält. Das System muss bestimmte Wörter im veralteten Satz automatisch löschen und behalten, basierend auf den Informationen im Anspruch, um Fakten zu aktualisieren, aber Stil und Grammatik beizubehalten. Für Menschen ist das eine einfache Aufgabe, für maschinelles Lernen jedoch eine neue Aufgabe.

Angenommen, dieser Satz (in Fettdruck) muss aktualisiert werden: „Fonds A erwägt 28 ihrer 42 Minderheitsbeteiligungen an operativ tätigen Unternehmen sind für den Konzern von besonderer Bedeutung.“ Der Anspruchssatz mit aktualisierten Informationen könnte lauten: „Fonds A erwägt 23 von 43 Minderheitsbeteiligungen bedeutend.“ Das System würde basierend auf dem Anspruch den relevanten Wikipedia-Text für „Fonds A“ finden. Anschließend werden automatisch die veralteten Zahlen (28 und 42) entfernt und durch die neuen Zahlen (23 und 43) ersetzt, wobei der Satz exakt gleich und grammatikalisch korrekt bleibt. (In ihrer Arbeit ließen die Forscher das System auf einem Datensatz spezifischer Wikipedia-Sätze laufen, nicht auf allen Wikipedia-Seiten.)

Das System wurde anhand eines beliebten Datensatzes trainiert, der Satzpaare enthält, bei denen ein Satz eine Behauptung und der andere ein relevanter Wikipedia-Satz ist. Jedes Paar ist auf eine von drei Arten gekennzeichnet: „stimme zu“, was bedeutet, dass die Sätze übereinstimmende Sachinformationen enthalten; „stimme nicht zu“, was bedeutet, dass sie widersprüchliche Informationen enthalten; oder „neutral“, wenn für keines der Labels genügend Informationen vorhanden sind. Das System muss dafür sorgen, dass alle uneinigen Paare zustimmen, indem es den veralteten Satz so ändert, dass er mit der Behauptung übereinstimmt. Das erfordert die Verwendung zweier separater Modelle, um die gewünschte Ausgabe zu erzielen.

Das erste Modell ist ein faktenüberprüfender Klassifikator – vortrainiert, um jedes Satzpaar als „stimme zu“, „stimme nicht zu“ oder „neutral“ zu kennzeichnen – und konzentriert sich auf nicht übereinstimmende Paare. In Verbindung mit dem Klassifikator läuft ein benutzerdefiniertes „Neutralitätsmaskierungs“-Modul, das identifiziert, welche Wörter im veralteten Satz der Behauptung widersprechen. Das Modul entfernt die minimale Anzahl von Wörtern, die zur „Maximierung der Neutralität“ erforderlich sind – was bedeutet, dass das Paar als neutral gekennzeichnet werden kann. Das ist der Ausgangspunkt: Die Sätze stimmen zwar nicht überein, enthalten aber keine offensichtlich widersprüchlichen Informationen mehr. Das Modul erstellt eine binäre „Maske“ über dem veralteten Satz, wobei eine 0 über Wörtern platziert wird, die höchstwahrscheinlich gelöscht werden müssen, während eine 1 über den Bewahrern steht.

Nach der Maskierung wird ein neuartiges Zwei-Encoder-Decoder-Framework verwendet, um den endgültigen Ausgabesatz zu generieren. Dieses Modell lernt komprimierte Darstellungen des Anspruchs und des veralteten Satzes. Im Zusammenspiel verschmelzen die beiden Encoder-Decoder die unterschiedlichen Wörter aus der Behauptung, indem sie sie an die Stellen schieben, die durch die gelöschten Wörter (die mit Nullen bedeckt sind) im veralteten Satz freigelassen wurden.

In einem Test schnitt das Modell besser ab als alle herkömmlichen Methoden. Dabei wurde eine Technik namens „SARI“ verwendet, die misst, wie gut Maschinen Wörter löschen, hinzufügen und behalten, verglichen mit der Art und Weise, wie Menschen Sätze ändern. Sie verwendeten einen Datensatz mit manuell bearbeiteten Wikipedia-Sätzen, die das Modell zuvor nicht gesehen hatte. Im Vergleich zu mehreren herkömmlichen Methoden zur Textgenerierung war das neue Modell genauer bei der Aktualisierung sachlicher Fakten und seine Ausgabe ähnelte eher der menschlichen Schrift. In einem anderen Test bewerteten Crowdsourcing-Menschen das Modell (auf einer Skala von 1 bis 5) basierend darauf, wie gut seine Ausgabesätze sachliche Aktualisierungen enthielten und mit der menschlichen Grammatik übereinstimmten. Das Modell erreichte eine durchschnittliche Punktzahl von 4 bei sachlichen Aktualisierungen und 3.85 bei passender Grammatik.

Voreingenommenheit beseitigen

Die Studie zeigte auch, dass das System zur Erweiterung von Datensätzen verwendet werden kann, um Verzerrungen zu beseitigen, wenn Detektoren für „Fake News“ trainiert werden, eine Form der Propaganda, die Desinformation enthält und dazu dient, Leser in die Irre zu führen, um Website-Aufrufe zu generieren oder die öffentliche Meinung zu steuern. Einige dieser Detektoren trainieren anhand von Datensätzen von Satzpaaren, die zustimmen und nicht zustimmen, um zu „lernen“, eine Behauptung zu verifizieren, indem sie sie mit gegebenen Beweisen abgleichen.

In these pairs, the claim will either match certain information with a supporting “evidence” sentence from Wikipedia (agree) or it will be modified by humans to include information contradictory to the evidence sentence (disagree). The models are trained to flag claims with refuting evidence as “false,” which can be used to help identify fake news.

Leider weisen solche Datensätze derzeit unbeabsichtigte Verzerrungen auf, sagt Shah: „Während des Trainings verwenden Modelle einen Teil der von Menschen geschriebenen Behauptungen als „verräterische“ Phrasen, um sie als falsch zu kennzeichnen, ohne sich dabei stark auf den entsprechenden Beweissatz zu verlassen. Dies verringert die Genauigkeit des Modells bei der Bewertung realer Beispiele, da es keine Faktenprüfung durchführt.“

Die Forscher verwendeten dieselben Lösch- und Fusionstechniken aus ihrem Wikipedia-Projekt, um die nicht übereinstimmenden/zustimmenden Paare im Datensatz auszugleichen und dabei zu helfen, die Verzerrung zu mildern. Für einige „nicht einverstanden“-Paare nutzten sie die falschen Informationen des geänderten Satzes, um einen gefälschten „Beweis“-Stützsatz neu zu generieren. Einige der verräterischen Formulierungen kommen dann sowohl in den Sätzen „stimme zu“ als auch „stimme nicht zu“ vor, was die Modelle dazu zwingt, mehr Merkmale zu analysieren. Mithilfe ihres erweiterten Datensatzes reduzierten die Forscher die Fehlerrate eines beliebten Fake-News-Detektors um 13 Prozent.

„Wenn Ihr Datensatz eine Verzerrung aufweist und Sie Ihr Modell dazu verleiten, nur einen Satz in einem nicht übereinstimmenden Paar zu betrachten, um Vorhersagen zu treffen, wird Ihr Modell in der realen Welt nicht überleben“, sagt Shah. „Wir lassen Modelle beide Sätze in allen Paaren, die zustimmen und nicht zustimmen, betrachten.“


Themen: Forschung, Informatik und Technologie, Algorithms, Maschinelles Lernen, Daten-Management, Internet, Crowdsourcing, Soziale Medien, Technologie und Gesellschaft, Institut für Informatik und künstliche Intelligenz (CSAIL), Elektrotechnik & Informatik (eecs), School of Engineering

Source: https://news.mit.edu/2020/automated-rewrite-wikipedia-articles-0212

spot_img

Neueste Intelligenz

spot_img