Meilleure vérification des faits à la recherche de fausses nouvelles
Le XXIe siècle a ouvert une masse illimitée de manchettes, d’articles et d’histoires. Cet afflux d’informations est toutefois partiellement contaminé : Outre le contenu factuel et véridique, le contenu est fallacieux et délibérément manipulé à partir de sources douteuses. D’après les recherches du Conseil européen de la rechercheun Américain sur quatre a visité au moins un faux article d’actualité pendant la campagne présidentielle de 2016.
Ce problème a récemment été exacerbé par ce qu’on appelle les « générateurs automatiques de texte ». Logiciels d’intelligence artificielle avancés, comme ceux d’OpenAI Modèle de langage GPT-2, est maintenant utilisé pour des choses comme l’auto-complétion, l’aide à la rédaction, le résumé, et plus encore, et il peut également être utilisé pour produire de grandes quantités de fausses informations – rapidement.
Pour atténuer ce risque, les chercheurs ont récemment mis au point le détecteurs automatiques qui peut identifier ce texte généré par la machine.
Toutefois, une équipe du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) a constaté que cette approche était incomplète.
Pour le prouver, les chercheurs ont mis au point des attaques dont ils ont montré qu’elles pouvaient tromper les détecteurs de fausses nouvelles à la fine pointe de la technologie. Puisque le détecteur pense que le texte écrit par l’homme est réel, l’attaquant imite intelligemment (et automatiquement) ce texte. De plus, parce que le détecteur pense que le texte généré par la machine est faux, il pourrait être contraint de condamner également faussement les utilisations totalement légitimes de la génération automatique de texte.
Mais comment les attaquants peuvent-ils produire automatiquement un « faux texte écrit par l’homme » ? Si c’est écrit par l’homme, comment peut-il être produit automatiquement ?
L’équipe a élaboré la stratégie suivante : Au lieu de générer le texte à partir de zéro, ils ont utilisé l’abondance du texte écrit par l’homme, mais l’ont automatiquement corrompu pour en modifier le sens. Par souci de cohérence, ils ont utilisé un modèle de langage GPT-2 lors des éditions, démontrant que ses utilisations malveillantes potentielles ne se limitent pas à la génération de texte.
« On s’inquiète de plus en plus des faux textes générés par les machines, et pour une bonne raison « , affirme Tal Schuster, étudiant au doctorat de la CSAIL, auteur principal d’un nouvel article sur leurs découvertes. « J’avais l’impression qu’il manquait quelque chose dans les approches actuelles pour identifier les fausses informations en détectant le texte généré automatiquement – le texte généré automatiquement est-il toujours faux ? Le texte généré par l’homme est-il toujours réel ? »
Dans une expérience, l’équipe a simulé des attaquants qui utilisent des outils d’aide à la rédaction d’auto-complétion semblables à des sources légitimes. La source légitime vérifie que les phrases auto-complétées sont correctes, alors que les attaquants vérifient qu’elles sont incorrectes.
Par exemple, l’équipe a utilisé un article sur les scientifiques de la NASA décrivant la collecte de nouvelles données sur les éjections de masse coronaires. Ils ont incité un générateur à produire de l’information sur l’utilité de ces données. L’IA a donné une explication informative et tout à fait correcte, décrivant comment les données aideront les scientifiques à étudier les champs magnétiques de la Terre. Néanmoins, il a été identifié comme une « fausse nouvelle ». Le détecteur de fausses nouvelles ne pouvait pas différencier un faux texte d’un texte réel s’ils étaient tous les deux générés par une machine.
Nous devons être convaincus que la caractéristique la plus intrinsèque des » fausses nouvelles » est la fausseté factuelle, et non le fait que le texte ait été généré ou non par des machines « , dit Schuster. « Les générateurs de texte n’ont pas d’agenda spécifique – c’est à l’utilisateur de décider comment utiliser cette technologie. »
L’équipe note que, puisque la qualité des générateurs de texte est susceptible de continuer à s’améliorer, l’utilisation légitime de ces outils augmentera très probablement – une autre raison pour laquelle nous ne devrions pas « discriminer » le texte généré automatiquement.
« Cette constatation remet en question la crédibilité des classificateurs actuels qui sont utilisés pour aider à détecter la désinformation dans d’autres sources d’information « , dit Regina Barzilay, professeure au MIT.
Schuster et Barzilay ont écrit l’article aux côtés de Roei Schuster de Cornell Tech et de l’Université de Tel Aviv, ainsi que de Darsh Shah, étudiant au doctorat du CSAIL.
Le biais dans l’IA est rien de nouveau – nos stéréotypes, nos préjugés et nos partialités sont connus pour affecter l’information sur laquelle reposent nos algorithmes. Un biais d’échantillonnage pourrait ruiner une auto-conduite s’il n’y a pas assez de données nocturnes, et un biais de préjugés pourrait inconsciemment refléter des stéréotypes personnels. Si ces modèles prédictifs apprennent à partir des données qui leur sont fournies, ils ne comprendront sans doute pas ce qui est vrai ou faux.
C’est dans cet esprit que, dans un deuxième article, la même équipe du MIT CSAIL a utilisé le plus grand ensemble de données de vérification des faits au monde, Fact Extraction and VERification (FEVER), pour développer des systèmes permettant de détecter les fausses déclarations.
FEVER a été utilisé par les chercheurs en apprentissage automatique comme un dépôt de déclarations vraies et fausses, associées à des preuves tirées d’articles de Wikipedia. Cependant, l’analyse de l’équipe a révélé un biais stupéfiant dans l’ensemble de données – un biais qui pourrait causer des erreurs dans les modèles sur lesquels elle a été formée.
« De nombreuses déclarations créées par des annotateurs humains contiennent des phrases à donner, dit M. Schuster. « Par exemple, des phrases comme « ne l’a pas fait » et « pas encore fait » apparaissent surtout dans de fausses déclarations.
L’un des mauvais résultats est que les modèles formés sur FEVER considéraient que les phrases annulées étaient plus susceptibles d’être fausses, peu importe si elles étaient vraies ou non.
« Adam Lambert ne cache pas publiquement son homosexualité « , par exemple, serait probablement déclaré faux en vérifiant les faits de l’IA, même si la déclaration est vraie, et peut être déduit des données que l’IA est donnée. Le problème est que le modèle se concentre sur le langage de la revendication et ne tient pas compte des preuves externes.
Un autre problème que pose le fait de classer une demande d’asile sans tenir compte d’aucune preuve est que le même énoncé pourrait être vrai aujourd’hui, mais être considéré comme faux dans l’avenir. Par exemple, jusqu’en 2019, il était vrai que l’actrice Olivia Colman n’avait jamais gagné un Oscar. Aujourd’hui, cette affirmation pourrait être facilement réfutée en vérifiant son profil IMDB.
C’est dans cet esprit que l’équipe a créé un ensemble de données qui corrige une partie de ce problème par le biais du biais de la FEVER. Étonnamment, ils ont constaté que les modèles n’ont pas donné de bons résultats sur leurs ensembles d’évaluation impartiaux, les résultats étant passés de 86 à 58 p. 100.
« Malheureusement, les modèles semblent trop s’appuyer sur les préjugés auxquels ils ont été exposés, au lieu de valider les énoncés dans le contexte de données probantes « , dit Schuster.
Armé de l’ensemble de données corrompues, l’équipe a mis au point un nouvel algorithme qui surpasse les précédents pour toutes les mesures.
« L’algorithme sous-estime l’importance des cas avec des phrases qui étaient spécifiquement communes à une classe correspondante, et des cas avec des phrases qui sont rares pour cette classe « , dit Shah. Par exemple, les allégations vraies avec l’expression » n’a pas » seraient surpondérées, de sorte que dans l’ensemble de données nouvellement pondéré, cette expression ne serait plus corrélée avec la classe » faux « .
L’équipe espère qu’à l’avenir, la combinaison de la vérification des faits dans les défenses existantes rendra les modèles plus robustes aux attaques. Ils visent à améliorer davantage les modèles existants en développant de nouveaux algorithmes et en construisant des ensembles de données qui couvrent davantage de types de désinformation.
« C’est passionnant de voir la recherche sur la détection des médias synthétiques, qui sera un élément de plus en plus important pour assurer la sécurité en ligne à mesure que l’intelligence artificielle mûrit « , déclare Miles Brundage, un chercheur scientifique chez OpenAI qui n’était pas impliqué dans le projet. « Cette recherche ouvre le rôle potentiel de l’intelligence artificielle dans la résolution du problème de l’information numérique, en distinguant les rôles de l’exactitude factuelle et de la provenance dans la détection.
Un document sur la contribution de l’équipe à la vérification des faits, basé sur l’avilissement, sera présenté à la Conférence sur les méthodes empiriques dans le traitement des langues naturelles à Hong Kong en octobre. Schuster a écrit l’article aux côtés de Shah, Barzilay, Serene Yeo de DSO National Laboratories, Daniel Filizzola, étudiant de premier cycle au MIT, et Enrico Santus, post-doc au MIT.
Cette recherche est soutenue par Facebook AI Research, qui a décerné à l’équipe le Online Safety Benchmark Award.