« Faire machine à apprendre la bonne manière »

Le travail de l’informaticien du MIT Aleksander Madry est alimenté par une mission principale : « faire l’apprentissage des machines de la bonne façon ».
Les recherches de Madry portent essentiellement sur la façon de rendre l’apprentissage machine – un type d’intelligence artificielle – plus précis, plus efficace et plus résistant aux erreurs. Dans sa classe et au-delà, il s’intéresse également aux questions d’informatique éthique, alors que nous approchons d’une époque où l’intelligence artificielle aura un grand impact sur de nombreux secteurs de la société.
« Je veux que la société adopte réellement l’apprentissage machine », déclare Madry, récemment titulaire d’une chaire au département de génie électrique et d’informatique. « Pour ce faire, nous devons trouver comment former des modèles que les gens peuvent utiliser de manière sûre, fiable et compréhensible ».
Il est intéressant de noter que ses travaux sur l’apprentissage machine ne remontent qu’à quelques années, peu après son entrée au MIT en 2015. Au cours de cette période, son groupe de recherche a publié plusieurs articles critiques démontrant que certains modèles peuvent être facilement trompés pour produire des résultats inexacts – et montrant comment les rendre plus robustes.
Au final, il vise à rendre les décisions de chaque modèle plus interprétables par les humains, afin que les chercheurs puissent regarder à l’intérieur pour voir où les choses ont mal tourné. En même temps, il veut permettre à des non-experts de déployer les modèles améliorés dans le monde réel pour, par exemple, aider à diagnostiquer des maladies ou contrôler des voitures sans conducteur.
« Il ne s’agit pas seulement d’essayer d’ouvrir la boîte noire de l’apprentissage machine. Je veux l’ouvrir, voir comment elle fonctionne et la remballer pour que les gens puissent l’utiliser sans avoir besoin de comprendre ce qui se passe à l’intérieur », dit-il.
Pour l’amour des algorithmes
Madry est né à Wroclaw, en Pologne, où il a étudié à l’université de Wroclaw au milieu des années 2000. Bien qu’il se soit intéressé à l’informatique et à la physique, « je n’ai jamais pensé que je deviendrais scientifique », dit-il.
Passionnée de jeux vidéo, Madry s’est d’abord inscrite au programme d’informatique avec l’intention de programmer ses propres jeux. Mais en rejoignant ses amis dans quelques cours d’informatique théorique et, en particulier, de théorie des algorithmes, il est tombé amoureux de la matière. La théorie des algorithmes vise à trouver des procédures d’optimisation efficaces pour résoudre des problèmes de calcul, ce qui nécessite d’aborder des questions mathématiques difficiles. « J’ai réalisé que j’aimais réfléchir profondément à quelque chose et essayer de le comprendre », dit Madry, qui a fini par faire un double diplôme en physique et en informatique.
Lorsqu’il s’est agi d’approfondir les algorithmes en troisième cycle, il s’est tourné vers son premier choix : LE MIT. Là, il a travaillé sous la direction de Michel X. Goemans, qui était une figure majeure des mathématiques appliquées et de l’optimisation des algorithmes, et de Jonathan A. Kelner, qui venait d’arriver au MIT en tant que jeune professeur travaillant dans ce domaine. Pour sa thèse de doctorat, Madry a développé des algorithmes qui ont résolu un certain nombre de problèmes de longue date dans les algorithmes de graphes, ce qui lui a valu le prix George M. Sprowls 2011 pour la meilleure thèse de doctorat du MIT en informatique.
Après son doctorat, Madry a passé un an en tant que post-doc à Microsoft Research New England, avant d’enseigner pendant trois ans à l’École polytechnique fédérale de Lausanne – que Madry appelle « la version suisse du MIT ». Mais son alma mater le rappelait sans cesse : « Le MIT a l’énergie palpitante qui me manquait. C’est dans mon ADN ».
Obtenir une approche contradictoire
Peu après avoir rejoint le MIT, Madry s’est retrouvé plongé dans une nouvelle science : l’apprentissage machine. Il s’est notamment attaché à comprendre le paradigme ré-émergent de l’apprentissage profond. Il s’agit d’une application d’intelligence artificielle qui utilise plusieurs couches de calcul pour extraire des caractéristiques de haut niveau à partir de données brutes – comme l’utilisation de données au niveau des pixels pour classer les images. Le campus du MIT était, à l’époque, bourdonnant de nouvelles innovations dans le domaine.
Mais cela pose la question : La machine à apprendre était-elle tout à fait à la mode ou une science solide ? « Cela semblait fonctionner, mais personne ne comprenait vraiment comment et pourquoi », dit Madry.
La réponse à cette question a mis son groupe sur un long chemin, en menant expérience après expérience sur des modèles d’apprentissage profond pour comprendre les principes sous-jacents. Une étape importante de ce voyage a été la publication en 2018 d’un document influent, qui a développé une méthodologie pour rendre les modèles d’apprentissage machine plus résistants aux « exemples contradictoires ». Les exemples d’adversité sont de légères perturbations de la saisie de données imperceptibles pour l’homme – comme le changement de couleur d’un pixel dans une image – mais qui font qu’un modèle fait des prévisions inexactes. Ils mettent en lumière une lacune majeure des outils d’apprentissage machine existants.
Poursuivant ce travail, le groupe de Madry a montré que l’existence de ces mystérieux exemples contradictoires peut contribuer à la manière dont les modèles d’apprentissage machine prennent des décisions. En particulier, les modèles conçus pour différencier les images de, par exemple, les chats et les chiens, prennent des décisions basées sur des caractéristiques qui ne correspondent pas à la façon dont les humains font des classifications. Le simple fait de changer ces caractéristiques peut faire que le modèle classe systématiquement les chats comme des chiens, sans rien changer à l’image qui soit vraiment significative pour les humains.
Les résultats indiquent que certains modèles – qui peuvent être utilisés pour, par exemple, identifier des anomalies sur des images médicales ou aider des voitures autonomes à identifier des objets sur la route – ne sont pas exactement à la hauteur. « Les gens pensent souvent que ces modèles sont surhumains, mais ils n’ont pas vraiment résolu le problème de classification que nous voulons qu’ils résolvent », dit Madry. « Et leur vulnérabilité totale aux exemples contradictoires en était une manifestation. C’est une constatation qui nous a ouvert les yeux ».
C’est pourquoi Madry cherche à rendre les modèles d’apprentissage machine plus interprétables par les humains. Les nouveaux modèles qu’il a développés montrent à quel point certains pixels des images sur lesquelles le système est entraîné peuvent influencer les prédictions du système. Les chercheurs peuvent ensuite modifier les modèles pour se concentrer sur des groupes de pixels plus étroitement corrélés avec des caractéristiques identifiables, comme la détection du museau, des oreilles et de la queue d’un animal. Au final, cela permettra de rendre les modèles plus humains – ou « surhumains » – dans leurs décisions. Pour faire avancer ces travaux, Madry et ses collègues ont récemment fondé le Centre du MIT pour l’apprentissage machine déployableLe projet de recherche sur les machines à apprendre, un effort de recherche collaboratif visant à construire des outils d’apprentissage prêts à être déployés dans le monde réel.
« Nous voulons que l’apprentissage machine ne soit pas seulement un jouet, mais qu’il puisse être utilisé, par exemple, dans une voiture autonome ou dans les soins de santé. Pour l’instant, nous n’en comprenons pas assez pour avoir suffisamment confiance en elle pour ces applications critiques », déclare Madry.
Façonner l’éducation et la politique
Madry considère l’intelligence artificielle et la prise de décision (« AI+D » est l’une des trois nouvelles unités universitaires du département de génie électrique et d’informatique) comme « l’interface de l’informatique qui va avoir le plus grand impact sur la société ».
À cet égard, il veille à exposer ses étudiants à l’aspect humain de l’informatique. Cela signifie en partie qu’il faut tenir compte des conséquences de ce qu’ils construisent. Souvent, dit-il, les étudiants seront trop ambitieux dans la création de nouvelles technologies, mais ils n’ont pas réfléchi aux ramifications potentielles sur les individus et la société. « Construire quelque chose de cool n’est pas une raison suffisante pour construire quelque chose », dit Madry. « Il s’agit de se demander non pas si nous pouvons construire quelque chose, mais si nous devons construire quelque chose ».
Madry a également participé à des conversations sur les lois et les politiques visant à réglementer l’apprentissage machine. L’un des objectifs de ces discussions, dit-il, est de mieux comprendre les coûts et les avantages de l’utilisation des technologies d’apprentissage machine dans la société.
« Parfois, nous surestimons le pouvoir de l’apprentissage machine, en pensant que ce sera notre salut. Parfois, nous sous-estimons le coût qu’il peut avoir sur la société », dit Madry. « Pour bien faire l’apprentissage machine, il reste encore beaucoup à découvrir. »