Inteligência de dados generativa

Sistema automatizado pode reescrever frases desatualizadas em artigos da Wikipédia

Data:

Um sistema criado por pesquisadores do MIT poderia ser usado para atualizar automaticamente inconsistências factuais em artigos da Wikipédia, reduzindo o tempo e o esforço gastos por editores humanos que agora fazem a tarefa manualmente.

A Wikipédia compreende milhões de artigos que precisam constantemente de edições para refletir novas informações. Isso pode envolver expansões de artigos, grandes reescritas ou mais modificações de rotina, como atualização de números, datas, nomes e locais. Atualmente, humanos em todo o mundo oferecem seu tempo para fazer essas edições.  

Em um artigo apresentado na Conferência AAAI sobre Inteligência Artificial, os pesquisadores descrevem um sistema de geração de texto que identifica e substitui informações específicas em frases relevantes da Wikipedia, mantendo a linguagem semelhante à forma como os humanos escrevem e editam.

A ideia é que o ser humano digite em uma interface uma frase não estruturada com informações atualizadas, sem precisar se preocupar com estilo ou gramática. O sistema então pesquisaria a Wikipedia, localizaria a página apropriada e a frase desatualizada e a reescreveria de maneira humana. No futuro, dizem os pesquisadores, há potencial para construir um sistema totalmente automatizado que identifique e use as informações mais recentes da web para produzir frases reescritas em artigos correspondentes da Wikipedia que reflitam informações atualizadas.

“Existem tantas atualizações constantemente necessárias para os artigos da Wikipédia. Seria benéfico modificar automaticamente partes exatas dos artigos, com pouca ou nenhuma intervenção humana”, diz Darsh Shah, aluno de doutorado do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) e um dos principais autores. “Em vez de centenas de pessoas trabalhando na modificação de cada artigo da Wikipedia, você precisará apenas de algumas, porque o modelo está ajudando ou fazendo isso automaticamente. Isso oferece melhorias dramáticas na eficiência.”

Existem muitos outros bots que fazem edições automáticas na Wikipédia. Normalmente, eles trabalham para mitigar o vandalismo ou inserir algumas informações estritamente definidas em modelos predefinidos, diz Shah. O modelo dos pesquisadores, diz ele, resolve um problema mais difícil de inteligência artificial: dado um novo pedaço de informação não estruturada, o modelo modifica automaticamente a frase de maneira humana. “As outras tarefas [de bot] são mais baseadas em regras, enquanto esta é uma tarefa que exige raciocínio sobre partes contraditórias em duas frases e geração de um texto coerente”, diz ele.

O sistema também pode ser usado para outros aplicativos de geração de texto, diz o co-autor principal e aluno de pós-graduação do CSAIL, Tal Schuster. Em seu artigo, os pesquisadores também o usaram para sintetizar frases automaticamente em um conjunto de dados popular de verificação de fatos que ajudou a reduzir o viés, sem coletar dados adicionais manualmente. “Dessa forma, o desempenho melhora para modelos de verificação automática de fatos que treinam no conjunto de dados para, digamos, detecção de notícias falsas”, diz Schuster.

Shah e Schuster trabalharam no artigo com sua orientadora acadêmica Regina Barzilay, professora de Eletrônica da Delta em Engenharia Elétrica e Ciência da Computação e professora da CSAIL.

Máscara de neutralidade e fusão

Por trás do sistema está um pouco de engenhosidade na geração de texto na identificação de informações contraditórias entre duas frases separadas e, em seguida, na fusão delas. Toma como entrada uma frase “desatualizada” de um artigo da Wikipédia, além de uma frase separada de “reivindicação” que contém as informações atualizadas e conflitantes. O sistema deve excluir automaticamente e manter palavras específicas na frase desatualizada, com base nas informações da reivindicação, para atualizar os fatos, mas manter o estilo e a gramática. Essa é uma tarefa fácil para os humanos, mas uma novidade no aprendizado de máquina.

Por exemplo, digamos que haja uma atualização necessária para esta frase (em negrito): “Fundo A considera 28 de seus 42 participações minoritárias em empresas operacionalmente ativas sejam de particular importância para o grupo”. A frase da reivindicação com informações atualizadas pode ser: “Fundo A considera 23 de 43 participações minoritárias significativas”. O sistema localizaria o texto relevante da Wikipédia para o “Fundo A”, com base na reivindicação. Em seguida, remove automaticamente os números desatualizados (28 e 42) e os substitui pelos novos números (23 e 43), mantendo a frase exatamente a mesma e gramaticalmente correta. (Em seu trabalho, os pesquisadores executaram o sistema em um conjunto de dados de frases específicas da Wikipédia, não em todas as páginas da Wikipédia.)

O sistema foi treinado em um conjunto de dados popular que contém pares de sentenças, nas quais uma sentença é uma afirmação e a outra é uma sentença relevante da Wikipédia. Cada par é rotulado de uma das três maneiras: “concordo”, significando que as sentenças contêm informações factuais correspondentes; “discordo”, significando que contêm informações contraditórias; ou “neutro”, onde não há informações suficientes para nenhum dos rótulos. O sistema deve fazer com que todos os pares discordantes concordem, modificando a frase desatualizada para corresponder à reivindicação. Isso requer o uso de dois modelos separados para produzir a saída desejada.

O primeiro modelo é um classificador de verificação de fatos – pré-treinado para rotular cada par de frases como “concordo”, “discordo” ou “neutro” – que se concentra em pares discordantes. Em execução em conjunto com o classificador está um módulo personalizado de “máscara de neutralidade” que identifica quais palavras na frase desatualizada contradizem a afirmação. O módulo remove o número mínimo de palavras necessárias para “maximizar a neutralidade” – o que significa que o par pode ser rotulado como neutro. Esse é o ponto de partida: embora as sentenças não concordem, elas não contêm mais informações obviamente contraditórias. O módulo cria uma “máscara” binária sobre a frase desatualizada, onde um 0 é colocado sobre as palavras que provavelmente requerem exclusão, enquanto um 1 vai para cima dos guardiões.

Após o mascaramento, uma nova estrutura de dois codificadores-decodificadores é usada para gerar a sentença de saída final. Este modelo aprende representações compactadas da reivindicação e da frase desatualizada. Trabalhando em conjunto, os dois codificadores-decodificadores fundem as palavras diferentes da reivindicação, deslizando-as para os espaços deixados vagos pelas palavras excluídas (aquelas cobertas com 0s) na frase desatualizada.

Em um teste, o modelo teve uma pontuação mais alta do que todos os métodos tradicionais, usando uma técnica chamada “SARI” que mede o quão bem as máquinas excluem, adicionam e mantêm palavras em comparação com a maneira como os humanos modificam as sentenças. Eles usaram um conjunto de dados com frases da Wikipédia editadas manualmente, que o modelo não tinha visto antes. Comparado a vários métodos tradicionais de geração de texto, o novo modelo era mais preciso em fazer atualizações factuais e sua saída se assemelhava mais à escrita humana. Em outro teste, humanos de crowdsourcing pontuaram o modelo (em uma escala de 1 a 5) com base em quão bem suas sentenças de saída continham atualizações factuais e correspondiam à gramática humana. O modelo obteve pontuações médias de 4 em atualizações factuais e 3.85 em correspondência gramatical.

Removendo viés

O estudo também mostrou que o sistema pode ser usado para aumentar os conjuntos de dados para eliminar o viés ao treinar detectores de “notícias falsas”, uma forma de propaganda contendo desinformação criada para enganar os leitores a fim de gerar visualizações de sites ou orientar a opinião pública. Alguns desses detectores treinam em conjuntos de dados de pares de sentenças concordam e discordam para “aprender” a verificar uma afirmação, combinando-a com as evidências fornecidas.

In these pairs, the claim will either match certain information with a supporting “evidence” sentence from Wikipedia (agree) or it will be modified by humans to include information contradictory to the evidence sentence (disagree). The models are trained to flag claims with refuting evidence as “false,” which can be used to help identify fake news.

Infelizmente, esses conjuntos de dados atualmente vêm com vieses não intencionais, diz Shah: “Durante o treinamento, os modelos usam alguma linguagem das reivindicações humanas escritas como frases de “doação” para marcá-las como falsas, sem depender muito da sentença de evidência correspondente. Isso reduz a precisão do modelo ao avaliar exemplos do mundo real, pois não realiza a verificação de fatos.”

Os pesquisadores usaram as mesmas técnicas de deleção e fusão de seu projeto Wikipedia para equilibrar os pares discordar-concordar no conjunto de dados e ajudar a mitigar o viés. Para alguns pares “discordo”, eles usaram as informações falsas da frase modificada para regenerar uma frase falsa de apoio à “evidência”. Algumas das frases de divulgação existem nas frases “concordo” e “discordo”, o que força os modelos a analisar mais recursos. Usando seu conjunto de dados aumentado, os pesquisadores reduziram a taxa de erro de um popular detector de notícias falsas em 13%.

“Se você tem um viés em seu conjunto de dados e está enganando seu modelo para apenas olhar para uma frase em um par discordante para fazer previsões, seu modelo não sobreviverá ao mundo real”, diz Shah. “Fazemos com que os modelos olhem para ambas as sentenças em todos os pares de concordância e discordância”.


Tópicos: Estudos, Ciência e tecnologia da computação, Algoritmos, Aprendizado de máquinas, Data, Internet, Crowdsourcing, Redes sociais, Tecnologia e Sociedade, Laboratório de Informática e Inteligência Artificial (CSAIL), Engenharia Elétrica e Ciência da Computação (eecs), Escola de Engenharia

Source: https://news.mit.edu/2020/automated-rewrite-wikipedia-articles-0212

local_img

Inteligência mais recente

local_img