Visualiser le monde au-delà du cadre

La plupart des camions de pompiers sont rouges, mais il n’est pas difficile d’en imaginer un en bleu. Les ordinateurs ne sont pas aussi créatifs.
Leur compréhension du monde est colorée, souvent littéralement, par les données sur lesquelles ils se sont entraînés. Si tout ce qu’ils ont jamais vu, ce sont des images de camions de pompiers rouges, ils ont du mal à dessiner autre chose.
Pour donner aux modèles de vision par ordinateur une vision plus complète et plus imaginative du monde, les chercheurs ont essayé de leur fournir des images plus variées. Certains ont essayé de photographier des objets sous des angles bizarres et dans des positions inhabituelles, afin de mieux rendre compte de leur complexité dans le monde réel. D’autres ont demandé aux modèles de générer leurs propres images, en utilisant une forme d’intelligence artificielle appelée GAN, ou réseaux adversaires générateurs. Dans les deux cas, l’objectif est de combler les lacunes des ensembles de données d’images pour mieux refléter le monde tridimensionnel et rendre les modèles de reconnaissance des visages et des objets moins biaisés.
Dans une nouvelle étude Lors de la conférence internationale sur les représentations de l’apprentissage, les chercheurs du MIT proposent une sorte de test de créativité pour voir jusqu’où les RAG peuvent aller dans le riff sur une image donnée. Ils « dirigent » le modèle vers le sujet de la photo et lui demandent de dessiner des objets et des animaux en gros plan, en pleine lumière, en rotation dans l’espace ou en différentes couleurs.
Les créations du modèle varient de manière subtile, parfois surprenante. Et il s’avère que ces variations suivent de près la créativité des photographes humains dans le cadrage des scènes devant leur objectif. Ces biais sont intégrés dans l’ensemble des données sous-jacentes, et la méthode de pilotage proposée dans l’étude vise à rendre ces limites visibles.
« L’espace latent est l’endroit où se trouve l’ADN d’une image », explique Ali Jahanian, co-auteur de l’étude et chercheur au MIT. « Nous montrons que vous pouvez vous diriger dans cet espace abstrait et contrôler les propriétés que vous voulez que le GAN exprime – jusqu’à un certain point. Nous constatons que la créativité d’un GAN est limitée par la diversité des images dont il tire des enseignements ». Jahanian est rejoint dans cette étude par le co-auteur Lucy Chai, doctorante au MIT et auteur principal Phillip Isola, le CD Bonnie and Marty (1964) Tenenbaum Professeur assistant de génie électrique et d’informatique.
Les chercheurs ont appliqué leur méthode à des GAN qui avaient déjà été formés sur les 14 millions de photos d’ImageNet. Ils ont ensuite mesuré jusqu’où les modèles pouvaient aller dans la transformation de différentes classes d’animaux, d’objets et de scènes. Ils ont constaté que le niveau de risque artistique variait considérablement selon le type de sujet que le GAN essayait de manipuler.
Par exemple, une montgolfière qui s’élève a généré des poses plus frappantes que, disons, une pizza tournée. Il en a été de même pour un zoom sur un chat persan plutôt que sur un merle, le chat se fondant dans un tas de fourrure plus il s’éloigne du spectateur alors que l’oiseau reste pratiquement inchangé. Le modèle a joyeusement fait virer une voiture au bleu et une méduse au rouge, mais il a refusé de dessiner un chardonneret ou un camion de pompiers autrement que dans leurs couleurs habituelles.
Les RAG semblaient aussi étonnamment en harmonie avec certains paysages. Lorsque les chercheurs ont relevé la luminosité sur un ensemble de photos de montagnes, le modèle a ajouté de façon fantaisiste des éruptions de feu au volcan, mais pas un parent géologiquement plus âgé et dormant dans les Alpes. C’est comme si les GANs avaient remarqué les changements d’éclairage lorsque le jour se transforme en nuit, mais semblaient comprendre que seuls les volcans deviennent plus lumineux la nuit.
L’étude rappelle à quel point les résultats des modèles d’apprentissage approfondi dépendent des données qu’ils contiennent, selon les chercheurs. Les réseaux d’apprentissage en profondeur ont attiré l’attention des chercheurs en intelligence pour leur capacité à extrapoler à partir des données et à visualiser le monde de manière nouvelle et inventive.
Ils peuvent prendre une photo de tête et la transformer en un portrait de style Renaissance ou en une célébrité préférée. Mais si les RAG sont capables d’apprendre par eux-mêmes des détails surprenants, comme la façon de diviser un paysage en les nuages et les arbresou génèrent des images qui restent dans l’esprit des gens, ils sont encore pour la plupart esclaves des données. Leurs créations reflètent les préjugés de milliers de photographes, tant dans ce qu’ils ont choisi de photographier que dans la façon dont ils ont cadré leur sujet.
« Ce que j’aime dans ce travail, c’est qu’il s’agit de fouiller dans les représentations que le GAN a apprises, et de le pousser à révéler pourquoi il a pris ces décisions », explique Jaako Lehtinen, professeur à l’université finlandaise d’Aaalto et chercheur chez NVIDIA qui n’a pas participé à l’étude. « Les GANs sont incroyables, et peuvent apprendre toutes sortes de choses sur le monde physique, mais ils ne peuvent toujours pas représenter les images de manière physiquement significative, comme les humains le peuvent ».