Cet ensemble de données de reconnaissance d’objet a empêché les meilleurs modèles de vision par ordinateur du monde
Les modèles de vision par ordinateur ont appris à identifier les objets sur les photos avec une telle précision que certains peuvent surpasser les humains sur certains ensembles de données. Mais lorsque ces mêmes détecteurs d’objets sont lâchés dans le monde réel, leurs performances diminuent sensiblement, ce qui crée des problèmes de fiabilité pour les voitures auto-propulsées et autres systèmes critiques de sécurité qui utilisent la vision industrielle.
Afin de combler cette lacune, une équipe de chercheurs du MIT et d’IBM a entrepris de créer un ensemble de données de reconnaissance d’objets d’un genre très différent. Ça s’appelle ObjectNet, une pièce de théâtre sur ImageNet, la base de données de photos générée par la foule, qui est à l’origine d’une grande partie de l’essor actuel de l’intelligence artificielle.
Contrairement à ImageNet, qui présente des photos prises sur Flickr et d’autres sites de médias sociaux, ObjectNet présente des photos prises par des pigistes rémunérés. Les objets sont montrés inclinés sur le côté, photographiés à des angles impairs et exposés dans des pièces encombrées. Lorsque les principaux modèles de détection d’objets ont été testés sur ObjectNet, leur taux d’exactitude est passé d’un sommet de 97 % sur ImageNet à seulement 50-55 %.
« Nous avons créé cet ensemble de données pour dire aux gens que le problème de la reconnaissance d’objet continue d’être un problème difficile à résoudre « , explique le chercheur. Boris Katzun chercheur scientifique au MIT. Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et Centre pour cerveaux, esprits et machines (CBMM). « Nous avons besoin d’algorithmes meilleurs et plus intelligents. » Katz et ses collègues présenteront ObjectNet et ses résultats à la conférence de l Conférence sur les systèmes de traitement de l’information neuronale (NeurIPS).
L’apprentissage en profondeur, la technique qui est à l’origine d’une grande partie des progrès récents de l’IA, utilise des couches de « neurones » artificiels pour trouver des modèles dans de grandes quantités de données brutes. Il apprend à choisir, par exemple, la chaise sur une photo après une formation sur des centaines ou des milliers d’exemples. Mais même des ensembles de données contenant des millions d’images ne peuvent pas montrer chaque objet dans toutes ses orientations et paramètres possibles, créant des problèmes lorsque les modèles rencontrent ces objets dans la vie réelle.
ObjectNet est différent des ensembles de données d’images conventionnels d’une autre manière importante : il ne contient pas d’images d’apprentissage. La plupart des ensembles de données sont divisés en données pour former les modèles et tester leur performance. Mais l’ensemble d’entraînement présente souvent des similitudes subtiles avec l’ensemble d’essai, ce qui donne aux modèles un avant-goût de l’essai.
A première vue, ImageNetavec 14 millions d’images, semble énorme. Mais si l’on exclut son ensemble d’entraînement, sa taille est comparable à celle d’ObjectNet, soit 50 000 photos.
« Si nous voulons savoir comment les algorithmes fonctionneront dans le monde réel, nous devrions les tester sur des images qui sont impartiales et qu’ils n’ont jamais vues auparavant « , dit le coauteur de l’étude. Andrei Barbuchercheur scientifique à la CSAIL et à CBMM.
Un ensemble de données qui tente de saisir la complexité des objets du monde réel
Peu de gens penseraient à partager les photos d’ObjectNet avec leurs amis, et c’est le but. Les chercheurs ont engagé des pigistes d’Amazon Mechanical Turk pour photographier des centaines d’objets ménagers posés au hasard. Les travailleurs ont reçu des devoirs de photos sur une application, avec des instructions animées leur indiquant comment orienter l’objet assigné, de quel angle de prise de vue et s’il faut poser l’objet dans la cuisine, la salle de bain, la chambre ou le salon.
Ils voulaient éliminer trois préjugés courants : les objets montrés de face, dans des positions iconiques et dans des environnements fortement corrélés – par exemple, des assiettes empilées dans la cuisine.
Il a fallu trois ans pour concevoir l’ensemble de données et concevoir une application qui normaliserait le processus de collecte des données. « Il a été incroyablement difficile de découvrir comment recueillir des données d’une manière qui permet de tenir compte de divers biais « , explique le coauteur de l’étude. David Mayoun étudiant diplômé du MIT Département de génie électrique et d’informatique. « Nous avons aussi dû faire des expériences pour nous assurer que nos instructions étaient claires et que les ouvriers savaient exactement ce qu’on leur demandait. »
Il a fallu un an de plus pour recueillir les données réelles et, au bout du compte, la moitié des photos soumises par les pigistes ont dû être rejetées parce qu’elles ne respectaient pas les spécifications des chercheurs. Pour tenter d’être utiles, certains travailleurs ont ajouté des étiquettes à leurs objets, les ont mis en scène sur fond blanc ou ont essayé d’améliorer l’esthétique des photos qu’ils devaient prendre.
Bon nombre des photos ont été prises à l’extérieur des États-Unis et, par conséquent, certains objets peuvent sembler peu familiers. Les oranges mûres sont vertes, les bananes sont de différentes tailles et les vêtements se déclinent en différentes formes et textures.
Object Net vs ImageNet : comment les principaux modèles de reconnaissance d’objets se comparent-ils ?
Lorsque les chercheurs ont testé des modèles de vision par ordinateur de pointe sur ObjectNet, ils ont constaté une baisse de performance de 40 à 45 points de pourcentage par rapport à ImageNet. Les résultats montrent que les détecteurs d’objets ont encore du mal à comprendre que les objets sont tridimensionnels et qu’ils peuvent être tournés et déplacés dans de nouveaux contextes, disent les chercheurs. « Ces notions ne sont pas intégrées dans l’architecture des détecteurs d’objets modernes « , explique le coauteur de l’étude. Dan Gutfreundchercheur chez IBM.
Pour montrer qu’ObjectNet est difficile précisément à cause de la façon dont les objets sont vus et positionnés, les chercheurs ont laissé les modèles s’entraîner sur la moitié des données ObjectNet avant de les tester sur l’autre moitié. La formation et les essais sur le même ensemble de données améliorent généralement les performances, mais ici les modèles ne se sont que légèrement améliorés, ce qui suggère que les détecteurs d’objets n’ont pas encore pleinement compris comment les objets existent dans le monde réel.
Les modèles de vision par ordinateur se sont progressivement améliorés depuis 2012, lorsqu’un détecteur d’objets appelé AlexNet a écrasé la concurrence lors du concours annuel ImageNet. Au fur et à mesure que les ensembles de données se sont agrandis, les performances se sont également améliorées.
Mais la conception de versions plus grandes d’ObjectNet, avec ses angles et orientations de visualisation supplémentaires, n’aboutira pas nécessairement à de meilleurs résultats, préviennent les chercheurs. Le but d’ObjectNet est de motiver les chercheurs à mettre au point la prochaine vague de techniques révolutionnaires, tout comme l’a fait le lancement initial du défi ImageNet.
« Les gens alimentent ces détecteurs d’énormes quantités de données, mais les retours diminuent « , explique M. Katz. « On ne peut pas voir un objet sous tous les angles et dans tous les contextes. Nous espérons que ce nouvel ensemble de données aboutira à une vision par ordinateur robuste, sans défaillances surprenantes dans le monde réel. »
Les autres auteurs de l’étude sont Julian Alvero, William Luo, Chris Wang et Joshua Tenenbaum du MIT. La recherche a été financée par la National Science Foundation, le Center for Brains, Minds, and Machines du MIT, le MIT-IBM Watson AI Lab, le Toyota Research Institute et l’initiative SystemsThatLearn@CSAIL.