Visualisation des angles morts d’un modèle d’IA
Quiconque a passé du temps sur les médias sociaux a probablement remarqué que les GAN, ou réseaux d’opposition génératifs, sont devenus remarquablement bons pour dessiner des visages. Ils peuvent prédire à quoi tu ressembleras quand tu seras vieux et à quoi tu ressembleras en tant que célébrité. Mais demandez à un GAN de dessiner des scènes du monde entier et les choses deviennent bizarres.
Un nouveau démo par le MIT-IBM Watson AI Lab révèle ce qu’un modèle formé sur des scènes d’églises et de monuments décide d’omettre lorsqu’il dessine sa propre version du Panthéon à Paris, par exemple, ou de la Piazza di Spagna à Rome. La plus grande étude, Voir ce qu’un GAN ne peut pas générera été présentée à l’occasion de la Conférence internationale sur la vision par ordinateur cette semaine.
« Les chercheurs se concentrent généralement sur la caractérisation et l’amélioration de ce qu’un système d’apprentissage machine peut faire – ce à quoi il prête attention et comment des intrants particuliers mènent à des extrants particuliers « , explique le chercheur. David BauIl est étudiant diplômé du Département de génie électrique et d’informatique et du Laboratoire d’informatique et de sciences artificielles (CSAIL) du département de génie électrique et d’informatique du MIT. « Avec ce travail, nous espérons que les chercheurs porteront autant d’attention à la caractérisation des données que ces systèmes ignorent. »
Dans un GAN, une paire de réseaux neuronaux travaillent ensemble pour créer des images hyperréalistes à partir d’exemples qui leur ont été donnés. Bau s’est intéressé aux GAN comme moyen de peering à l’intérieur des réseaux neuronaux de la boîte noire pour comprendre le raisonnement derrière leurs décisions. Un outil développé antérieurement avec son conseiller, le professeur du MIT. Antonio Torralbaet chercheur chez IBM Hendrik Strobelta permis d’identifier les grappes de neurones artificiels responsables de l’organisation de l’image en catégories du monde réel comme les portes, les arbres et les nuages. Un outil connexe, GANPaintpermet aux artistes amateurs d’ajouter et de supprimer ces caractéristiques de leurs propres photos.
Un jour, en aidant un artiste à utiliser GANPaint, Bau a rencontré un problème. « Comme d’habitude, nous poursuivions les chiffres, essayant d’optimiser la perte de reconstruction numérique pour reconstruire la photo, dit-il. « Mais mon conseiller nous a toujours encouragés à regarder au-delà des chiffres et à scruter les images réelles. Quand nous avons regardé, le phénomène a sauté aux yeux : Les gens abandonnaient sélectivement. »
Tout comme les GAN et autres réseaux neuronaux trouvent des modèles dans des tas de données, ils ignorent également les modèles. Bau et ses collègues ont formé différents types de GAN sur des scènes intérieures et extérieures. Mais quel que soit l’endroit où les photos ont été prises, les GAN omettaient constamment des détails importants comme les personnes, les voitures, les enseignes, les fontaines et les meubles, même lorsque ces objets figuraient en évidence dans l’image. Dans l’un des Reconstruction du GANUne paire de jeunes mariés s’embrassant sur les marches d’une église sont fantômes, laissant sur la porte de la cathédrale une inquiétante texture de robe de mariée.
« Lorsque les GAN rencontrent des objets qu’ils ne peuvent pas générer, ils semblent imaginer à quoi ressemblerait la scène sans eux « , explique Strobelt. « Parfois, les gens deviennent des buissons ou disparaissent complètement dans le bâtiment derrière eux. »
Les chercheurs soupçonnent que la paresse de la machine pourrait être à blâmer ; bien qu’un GAN soit formé pour créer des images convaincantes, il peut apprendre qu’il est plus facile de se concentrer sur les bâtiments et les paysages et de sauter des personnes et des voitures difficiles à représenter. Les chercheurs savent depuis longtemps que les GAN ont tendance à négliger certains détails statistiquement significatifs. Mais c’est peut-être la première étude à montrer que les GAN de pointe peuvent systématiquement omettre des classes entières d’objets dans une image.
Une IA qui laisse tomber certains objets de ses représentations peut atteindre ses objectifs numériques tout en omettant les détails les plus importants pour nous les humains, dit Bau. Alors que les ingénieurs se tournent vers les GAN pour générer des images synthétiques afin de former des systèmes automatisés comme les voitures à conduite automatique, il y a un danger que des personnes, des panneaux et d’autres informations critiques puissent être laissés tomber sans que les humains s’en rendent compte. Il montre pourquoi la performance d’un modèle ne doit pas être mesurée uniquement en termes de précision, explique M. Bau. « Nous devons comprendre ce que les réseaux font et ne font pas pour nous assurer qu’ils font les choix que nous voulons qu’ils fassent. »
Jun-Yan Zhu, Jonas Wulff, William Peebles et Torralba, du MIT, Strobelt d’IBM et Bolei Zhou de l’Université chinoise de Hong Kong se joindront à Bau pour cette étude.