Un système automatisé peut réécrire des phrases périmées dans les articles de Wikipédia
Un système créé par les chercheurs du MIT pourrait être utilisé pour mettre à jour automatiquement les incohérences factuelles dans les articles de Wikipédia, réduisant ainsi le temps et les efforts consacrés par les rédacteurs humains qui effectuent désormais cette tâche manuellement.
Wikipédia comprend des millions d’articles qui ont constamment besoin d’être modifiés pour refléter les nouvelles informations. Cela peut impliquer des extensions d’articles, des réécritures majeures ou des modifications plus courantes telles que la mise à jour des numéros, des dates, des noms et des lieux. Actuellement, les humains à travers le monde donnent bénévolement de leur temps pour effectuer ces modifications.
Dans un document présenté à la conférence de l’AAAI sur l’intelligence artificielle, les chercheurs décrivent un système de génération de texte qui repère et remplace des informations spécifiques dans des phrases Wikipédia pertinentes, tout en conservant un langage similaire à la façon dont les humains écrivent et éditent.
L’idée est que les humains taperaient dans une interface une phrase non structurée avec des informations actualisées, sans avoir à se soucier du style ou de la grammaire. Le système effectuerait alors une recherche dans Wikipédia, localiserait la page appropriée et la phrase périmée, et la réécrirait de façon humaine. À l’avenir, disent les chercheurs, il est possible de construire un système entièrement automatisé qui identifie et utilise les dernières informations provenant du web pour produire des phrases réécrites dans les articles correspondants de Wikipédia qui reflètent les informations mises à jour.
« Il y a tellement de mises à jour constamment nécessaires aux articles de Wikipédia. Il serait bénéfique de modifier automatiquement des parties exactes des articles, avec peu ou pas d’intervention humaine », déclare Darsh Shah, doctorant au Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et l’un des principaux auteurs. « Au lieu de centaines de personnes travaillant à la modification de chaque article de Wikipédia, vous n’en aurez besoin que de quelques-unes, car le modèle aide ou le fait automatiquement. Cela permet d’améliorer considérablement l’efficacité ».
Il existe de nombreux autres robots qui effectuent des modifications automatiques sur Wikipédia. Généralement, ces derniers travaillent à atténuer le vandalisme ou à classer des informations étroitement définies dans des modèles prédéfinis, explique M. Shah. Le modèle des chercheurs, dit-il, résout un problème d’intelligence artificielle plus difficile : étant donné une nouvelle information non structurée, le modèle modifie automatiquement la phrase de façon humaine. « Les autres tâches (du bot) sont davantage basées sur des règles, alors que cette tâche exige de raisonner sur des parties contradictoires en deux phrases et de générer un texte cohérent », dit-il.
Le système peut également être utilisé pour d’autres applications génératrices de texte, explique Tal Schuster, co-auteur principal et étudiant diplômé du CSAIL. Dans leur article, les chercheurs l’ont également utilisé pour synthétiser automatiquement des phrases dans un ensemble de données de vérification des faits populaires qui ont contribué à réduire les biais, sans avoir à collecter manuellement des données supplémentaires. « De cette façon, les performances s’améliorent pour les modèles de vérification automatique des faits qui s’entraînent sur l’ensemble des données pour, par exemple, la détection de fausses nouvelles », explique M. Schuster.
Shah et Schuster ont travaillé sur ce document avec leur conseiller académique Regina Barzilay, le professeur d’ingénierie électrique et d’informatique de Delta Electronics et un professeur de CSAIL.
Masquage et fusion de la neutralité
Derrière le système, il y a une certaine ingéniosité dans la génération de texte pour identifier les informations contradictoires entre deux phrases distinctes, puis les fusionner. Il prend en entrée une phrase « périmée » d’un article de Wikipédia, plus une phrase « réclamation » séparée qui contient les informations mises à jour et contradictoires. Le système doit automatiquement supprimer et conserver des mots spécifiques dans la phrase périmée, sur la base des informations contenues dans la demande, afin de mettre à jour les faits mais de conserver le style et la grammaire. C’est une tâche facile pour les humains, mais une tâche inédite dans l’apprentissage machine.
Par exemple, dites qu’il y a une mise à jour nécessaire de cette phrase (en gras) : « Le Fonds A considère 28 de leurs 42 les participations minoritaires dans des sociétés en activité revêtent une importance particulière pour le groupe ». La phrase de réclamation avec des informations mises à jour peut se lire comme suit : « Le Fonds A considère 23 de 43 des participations minoritaires importantes ». Le système localiserait le texte Wikipédia pertinent pour le « Fonds A », en fonction de la demande. Il supprime ensuite automatiquement les numéros périmés (28 et 42) et les remplace par les nouveaux numéros (23 et 43), tout en conservant la même phrase et en la corrigeant grammaticalement. (Dans leur travail, les chercheurs ont fait fonctionner le système sur un ensemble de données de phrases spécifiques de Wikipédia, et non sur toutes les pages de Wikipédia).
Le système a été formé sur un ensemble de données populaires qui contient des paires de phrases, dont l’une est une revendication et l’autre une phrase Wikipédia pertinente. Chaque paire est étiquetée de l’une des trois façons suivantes « d’accord », signifiant que les phrases contiennent des informations factuelles correspondantes ; « en désaccord », signifiant qu’elles contiennent des informations contradictoires ; ou « neutre », où il n’y a pas assez d’informations pour l’une ou l’autre étiquette. Le système doit faire en sorte que toutes les paires en désaccord soient d’accord, en modifiant la phrase périmée pour qu’elle corresponde à la demande. Pour cela, il faut utiliser deux modèles distincts pour produire le résultat souhaité.
Le premier modèle est un classificateur de vérification des faits – préformé pour étiqueter chaque paire de phrases comme « d’accord », « en désaccord » ou « neutre » – qui se concentre sur les paires de phrases en désaccord. En conjonction avec le classificateur, un module personnalisé de « masquage de la neutralité » identifie les mots de la phrase périmée qui contredisent la revendication. Le module supprime le nombre minimal de mots requis pour « maximiser la neutralité » – ce qui signifie que la paire peut être étiquetée comme neutre. C’est le point de départ : Si les phrases ne concordent pas, elles ne contiennent plus d’informations manifestement contradictoires. Le module crée un « masque » binaire sur la phrase périmée, où un 0 est placé sur les mots qui doivent très probablement être supprimés, tandis qu’un 1 est placé sur les gardiens.
Après le masquage, une nouvelle structure à deux encodeurs-décodeurs est utilisée pour générer la phrase de sortie finale. Ce modèle apprend des représentations compressées de la revendication et de la phrase périmée. En travaillant conjointement, les deux codeurs-décodeurs fusionnent les mots dissemblables de la revendication, en les glissant dans les espaces laissés vacants par les mots supprimés (ceux couverts par des 0) dans la phrase périmée.
Dans un test, le modèle a obtenu un score plus élevé que toutes les méthodes traditionnelles, en utilisant une technique appelée « SARI » qui mesure la capacité des machines à supprimer, ajouter et conserver des mots par rapport à la façon dont les humains modifient les phrases. Ils ont utilisé un ensemble de données avec des phrases Wikipédia éditées manuellement, que le modèle n’avait pas vu auparavant. Par rapport à plusieurs méthodes traditionnelles de génération de texte, le nouveau modèle était plus précis dans la mise à jour des faits et sa production ressemblait davantage à l’écriture humaine. Dans un autre test, des humains issus de la foule ont noté le modèle (sur une échelle de 1 à 5) en fonction de la qualité de ses phrases de sortie qui contenaient des mises à jour factuelles et correspondaient à la grammaire humaine. Le modèle a obtenu des notes moyennes de 4 pour les mises à jour factuelles et de 3,85 pour la grammaire correspondante.
Supprimer les préjugés
L’étude a également montré que le système peut être utilisé pour augmenter les ensembles de données afin d’éliminer les biais lors de la formation des détecteurs de « fausses nouvelles », une forme de propagande contenant de la désinformation créée pour tromper les lecteurs afin de générer des visites sur le site web ou d’orienter l’opinion publique. Certains de ces détecteurs s’entraînent sur des ensembles de données de paires de phrases d’accord et de désaccord pour « apprendre » à vérifier une affirmation en la comparant à des preuves données.
Dans ces paires, la revendication correspondra soit à certaines informations avec une phrase de « preuve » de Wikipédia (d’accord), soit elle sera modifiée par l’homme pour inclure des informations contradictoires à la phrase de preuve (pas d’accord). Les mannequins sont formés pour signaler les affirmations avec des preuves réfutables comme étant « fausses », ce qui peut être utilisé pour aider à identifier les fausses nouvelles.
Malheureusement, de tels ensembles de données sont actuellement entachés de biais involontaires, dit Shah : « Pendant la formation, les modèles utilisent un certain langage des affirmations écrites humaines comme phrases « indicatrices » pour les marquer comme fausses, sans beaucoup s’appuyer sur la phrase de preuve correspondante. Cela réduit la précision du modèle lors de l’évaluation d’exemples réels, car il n’effectue pas de vérification des faits ».
Les chercheurs ont utilisé les mêmes techniques de suppression et de fusion de leur projet Wikipédia pour équilibrer les paires de données en désaccord et aider à atténuer le biais. Pour certains couples « en désaccord », ils ont utilisé les fausses informations de la phrase modifiée pour régénérer une fausse phrase de « preuve » à l’appui. Certaines des phrases de présentation existent alors à la fois dans les phrases « d’accord » et « pas d’accord », ce qui oblige les modèles à analyser davantage de caractéristiques. Grâce à leur ensemble de données enrichi, les chercheurs ont réduit de 13 % le taux d’erreur d’un détecteur de fausses nouvelles très répandu.
« Si vous avez un biais dans votre ensemble de données, et que vous trompez votre modèle en ne regardant qu’une phrase d’une paire en désaccord pour faire des prédictions, votre modèle ne survivra pas au monde réel », dit Shah. « Nous faisons en sorte que les modèles regardent les deux phrases dans toutes les paires accord-désaccord. »