Hé Alexa ! Désolé de vous avoir berné…

Un humain peut probablement faire la différence entre une tortue et un fusil. Il y a deux ans, l’IA de Google n’était pas si sûr. Depuis un certain temps, un sous-ensemble de la recherche en informatique est consacré à mieux comprendre comment les modèles d’apprentissage machine gèrent ces attaques « adverses », qui sont des entrées délibérément créées pour tromper ou duper les algorithmes d’apprentissage machine.
Bien qu’une grande partie de ce travail se soit concentrée sur discours et imagesrécemment, une équipe du MIT Laboratoire d’informatique et d’intelligence artificielle (CSAIL) a testé les limites du texte. Ils ont mis au point le « TextFooler », un cadre général qui peut s’attaquer avec succès aux systèmes de traitement du langage naturel (NLP) – les types de systèmes qui nous permettent d’interagir avec nos assistants vocaux Siri et Alexa – et les « tromper » en leur faisant faire de fausses prédictions.
On pourrait imaginer d’utiliser TextFooler pour de nombreuses applications liées à la sécurité sur Internet, telles que le filtrage des courriers électroniques indésirables, le signalement des discours haineux ou la détection des textes de discours politiques « sensibles » – qui sont toutes basées sur des modèles de classification des textes.
« Si ces outils sont vulnérables à des attaques adverses délibérées, les conséquences peuvent être désastreuses », déclare Di Jin, doctorant au MIT et auteur principal d’un nouvel article sur TextFooler. « Ces outils doivent avoir des approches de défense efficaces pour se protéger, et pour rendre ce système de défense sûr, nous devons d’abord examiner les méthodes accusatoires ».
TextFooler fonctionne en deux parties : il modifie un texte donné, puis utilise ce texte pour tester deux tâches linguistiques différentes afin de voir si le système peut tromper avec succès les modèles d’apprentissage machine.
Le système identifie d’abord les mots les plus importants qui influenceront la prédiction du modèle cible, puis sélectionne les synonymes qui s’adaptent au contexte. Tout cela en respectant la grammaire et le sens original pour avoir l’air assez « humain », jusqu’à ce que la prédiction soit modifiée.
Ensuite, le cadre est appliqué à deux tâches différentes : la classification du texte et l’implication (qui est la relation entre les fragments de texte dans une phrase), dans le but de modifier la classification ou d’invalider le jugement d’implication des modèles originaux.
Dans un exemple, l’entrée et la sortie de TextFooler étaient :
« Les personnages, placés dans des situations impossibles, sont totalement éloignés de la réalité.
« Les personnages, projetés dans des circonstances impossibles, sont totalement éloignés de la réalité. »
Dans ce cas, lors d’un test sur un modèle de PNA, il obtient la bonne entrée de l’exemple, mais il obtient ensuite la mauvaise entrée modifiée.
Au total, TextFooler a attaqué avec succès trois modèles cibles, dont « BERT », le modèle de PNL open-source populaire. Il a trompé les modèles cibles avec une précision de plus de 90 % à moins de 20 %, en ne changeant que 10 % des mots d’un texte donné. L’équipe a évalué la réussite en fonction de trois critères : la modification de la prédiction du modèle pour la classification ou l’implication ; la similarité de la signification pour un lecteur humain, par rapport à l’exemple original ; et le fait que le texte semblait assez naturel.
Les chercheurs notent que si l’attaque des modèles existants n’est pas l’objectif final, ils espèrent que ces travaux aideront les modèles plus abstraits à se généraliser à de nouvelles données invisibles.
« Le système peut être utilisé ou étendu pour attaquer n’importe quel modèle de PNL basé sur la classification afin de tester sa robustesse », explique M. Jin. « D’autre part, les adversaires générés peuvent être utilisés pour améliorer la robustesse et la généralisation des modèles d’apprentissage profond par le biais de la formation contradictoire, qui est une orientation essentielle de ce travail ».
Jin a rédigé l’article aux côtés du professeur Peter Szolovits du MIT, de Zhijing Jin de l’Université de Hong Kong et de Joey Tianyi Zhou de A*STAR, Singapour. Ils présenteront le document à la conférence de l’AAAI sur l’intelligence artificielle à New York.