Combler le fossé entre la vision humaine et la vision artificielle
Supposons que vous regardiez brièvement, à quelques mètres de vous, une personne que vous n’avez jamais rencontrée auparavant. Reculez de quelques pas et regardez à nouveau. Serez-vous capable de reconnaître son visage ? « Oui, bien sûr », pensez-vous probablement. Si cela est vrai, cela signifierait que notre système visuel, ayant vu une seule image d’un objet tel qu’un visage spécifique, le reconnaît de manière robuste malgré les changements de position et d’échelle de l’objet, par exemple. D’autre part, nous savons que les classificateurs de pointe, tels que les réseaux profonds de vanille, échoueront à ce simple test.
Afin de reconnaître un visage spécifique dans une série de transformations, les réseaux neuronaux doivent être formés avec de nombreux exemples de ce visage dans les différentes conditions. En d’autres termes, ils peuvent atteindre l’invariance par la mémorisation, mais ne peuvent le faire si une seule image est disponible. Ainsi, comprendre comment la vision humaine peut réaliser cet exploit remarquable est pertinent pour les ingénieurs qui cherchent à améliorer leurs classificateurs existants. Elle est également importante pour les neuroscientifiques qui modélisent le système visuel des primates à l’aide de réseaux profonds. En particulier, il est possible que l’invariance avec l’apprentissage en une seule fois dont fait preuve la vision biologique nécessite une stratégie de calcul assez différente de celle des réseaux profonds.
Un nouveau document rédigé par Yena Han, doctorante en génie électrique et en informatique au MIT, et ses collègues de Rapports scientifiques sur la nature intitulée « Échelle et traduction-invariance pour les objets nouveaux dans la vision humaine », explique comment ils étudient plus attentivement ce phénomène pour créer de nouveaux réseaux d’inspiration biologique.
« Les humains peuvent apprendre à partir de très peu d’exemples, contrairement aux réseaux profonds. C’est une différence énorme qui a de vastes implications pour l’ingénierie des systèmes de vision et pour la compréhension du fonctionnement réel de la vision humaine », déclare le co-auteur Tomaso Poggio – directeur du Center for Brains, Minds and Machines (CBMM) et professeur Eugene McDermott de sciences cérébrales et cognitives au MIT. « Une des raisons principales de cette différence est l’invariance relative du système visuel des primates à l’échelle, au décalage et à d’autres transformations. Curieusement, cette question a été largement négligée par la communauté AI, en partie parce que les données psychophysiques étaient jusqu’à présent peu précises. Le travail de Han a maintenant établi des mesures solides des invariances fondamentales de la vision humaine ».
Afin de différencier l’invariance provenant du calcul intrinsèque de celle provenant de l’expérience et de la mémorisation, la nouvelle étude a mesuré la plage d’invariance dans l’apprentissage en une fois. Une tâche d’apprentissage ponctuelle a été réalisée en présentant des stimuli de lettres coréennes à des sujets humains qui ne connaissaient pas la langue. Ces lettres ont été initialement présentées une seule fois sous une condition spécifique et testées à des échelles ou des positions différentes de la condition initiale. Le premier résultat expérimental est que – comme vous l’avez deviné – les humains ont fait preuve d’une importante reconnaissance de l’échelle après une seule exposition à ces nouveaux objets. Le deuxième résultat est que la gamme d’écart de position est limitée, en fonction de la taille et du placement des objets.
Ensuite, Han et ses collègues ont réalisé une expérience comparable sur les réseaux neuronaux profonds, conçue pour reproduire cette performance humaine. Les résultats suggèrent que pour expliquer la reconnaissance invariante des objets par les humains, les modèles de réseaux neuronaux devraient explicitement incorporer l’invariance d’échelle intégrée. En outre, l’invariance limitée de la position de la vision humaine est mieux reproduite dans le réseau en faisant augmenter le champ de réception des neurones modèles à mesure qu’ils s’éloignent du centre du champ visuel. Cette architecture est différente des modèles de réseaux neuronaux couramment utilisés, où une image est traitée sous une résolution uniforme avec les mêmes filtres partagés.
« Notre travail permet de mieux comprendre la représentation cérébrale des objets sous différents points de vue. Elle a également des implications pour l’IA, car les résultats apportent de nouvelles idées sur ce qui constitue une bonne conception architecturale pour les réseaux neuronaux profonds », remarque Han, chercheur au CBMM et auteur principal de l’étude.
Han et Poggio ont été rejoints par Gemma Roig et Gad Geiger dans le travail.