Apprentissage en profondeur avec des nuages de points
Si vous avez déjà vu une voiture autopropulsée dans la nature, vous vous posez peut-être des questions au sujet du cylindre qui tourne dessus.
C’est un « capteur lidar », et c’est ce qui permet à la voiture de naviguer dans le monde. En envoyant des impulsions de lumière infrarouge et en mesurant le temps qu’il leur faut pour rebondir sur les objets, le capteur crée un « nuage de points » qui construit un instantané 3D de l’environnement du véhicule.
Il est difficile de donner un sens aux données brutes des nuages de points et, avant l’ère de l’apprentissage machine, il fallait traditionnellement des ingénieurs hautement qualifiés pour spécifier péniblement les qualités qu’ils voulaient saisir à la main. Mais dans une nouvelle série d’articles du MIT. Laboratoire d’informatique et d’intelligence artificielle (CSAIL), les chercheurs montrent qu’ils peuvent utiliser l’apprentissage en profondeur pour traiter automatiquement les nuages de points pour un large éventail d’applications d’imagerie 3D.
« Dans le domaine de la vision par ordinateur et de l’apprentissage automatique aujourd’hui, 90 % des progrès réalisés ne concernent que les images bidimensionnelles « , explique Justin Solomon, professeur au MIT et auteur principal de la nouvelle série d’articles dirigée par Yue Wang, doctorante au doctorat. « Notre travail vise à répondre à un besoin fondamental de mieux représenter le monde de la 3D, avec des applications non seulement en conduite autonome, mais dans tous les domaines qui nécessitent la compréhension des formes 3D.
La plupart des approches précédentes n’ont pas été particulièrement efficaces pour capturer les modèles à partir des données nécessaires pour obtenir des informations significatives à partir d’une série de points 3D dans l’espace. Mais dans l’un des articles de l’équipe, ils ont montré que leur méthode « EdgeConv » d’analyse des nuages de points à l’aide d’un type de réseau neuronal appelé réseau neuronal convolutionnel à graphique dynamique leur permettait de classifier et segmenter des objets individuels.
En construisant des » graphiques » de points voisins, l’algorithme peut capturer des modèles hiérarchiques et donc déduire de multiples types d’informations génériques qui peuvent être utilisées par une myriade de tâches en aval « , explique Wadim Kehl, un spécialiste en apprentissage machine au Toyota Research Institute qui ne participait pas aux travaux.
En plus de développer EdgeConv, l’équipe a également exploré d’autres aspects spécifiques du traitement des nuages de points. Par exemple, l’un des défis est que la plupart des capteurs changent de perspective lorsqu’ils se déplacent dans le monde 3D ; chaque fois que nous faisons un nouveau balayage du même objet, sa position peut être différente de la dernière fois que nous l’avons vu. Pour fusionner plusieurs nuages de points en une seule vue détaillée du monde, vous devez aligner plusieurs points 3D dans un processus appelé « enregistrement ».
L’enregistrement est vital pour de nombreuses formes d’imagerie, des données satellitaires aux procédures médicales. Par exemple, lorsqu’un médecin doit effectuer plusieurs balayages d’imagerie par résonance magnétique d’un patient au fil du temps, l’enregistrement est ce qui permet d’aligner les balayages pour voir ce qui a changé.
« L’enregistrement est ce qui nous permet d’intégrer des données 3D provenant de différentes sources dans un système de coordonnées commun « , explique Wang. « Sans lui, nous ne serions pas en mesure d’obtenir des informations aussi significatives de toutes ces méthodes qui ont été développées. »
Le deuxième article de Solomon et Wang démontre un nouvel algorithme d’enregistrement appelé « Deep Closest Point » (DCP) qui a été montré pour mieux trouver les modèles, les points et les bords distinctifs d’un nuage de points (appelés « caractéristiques locales ») afin de l’aligner avec les autres nuages de points. Ceci est particulièrement important pour des tâches telles que permettre à des voitures autoportées de se situer dans une scène (« localisation »), ainsi que pour des mains robotiques pour localiser et saisir des objets individuels.
L’une des limites du DCP est qu’il suppose que nous pouvons voir une forme entière au lieu d’un seul côté. Cela signifie qu’il ne peut pas gérer la tâche plus difficile d’aligner des vues partielles de formes (connue sous le nom de « partial-to-partial registration »). Par conséquent, dans un troisième article, les chercheurs ont présenté un algorithme amélioré pour cette tâche qu’ils appellent le Réseau d’enregistrement partiel (PRNet).
Solomon dit que les données 3D existantes ont tendance à être » très désordonnées et non structurées par rapport aux images et photographies 2D « . Son équipe s’est efforcée de trouver un moyen d’extraire des informations significatives de toutes ces données 3D désorganisées sans l’environnement contrôlé dont beaucoup de technologies d’apprentissage machine ont maintenant besoin.
Une observation clé derrière le succès du DCP et du PRNet est l’idée qu’un aspect critique du traitement des nuages de points est le contexte. Les caractéristiques géométriques du nuage de points A qui suggèrent les meilleures façons de l’aligner sur le nuage de points B peuvent être différentes des caractéristiques nécessaires pour l’aligner sur le nuage de points C. Par exemple, dans un enregistrement partiel, une partie intéressante d’une forme dans un nuage de points peut ne pas être visible dans l’autre, ce qui la rend inutile pour l’enregistrement.
Wang dit que les outils de l’équipe ont déjà été déployés par de nombreux chercheurs dans la communauté de la vision par ordinateur et au-delà. Même les physiciens les utilisent pour une application que l’équipe de la CSAIL n’avait jamais envisagée : particule physique.
À l’avenir, les chercheurs espèrent utiliser les algorithmes sur des données du monde réel, y compris des données recueillies à partir de voitures auto-portées. Wang dit qu’ils prévoient également d’explorer le potentiel de la formation de leurs systèmes en utilisant l’apprentissage autogéré, afin de réduire au minimum la quantité d’annotations humaines nécessaires.
Solomon et Wang sont les deux seuls auteurs des documents DCP et PRNet. Leurs co-auteurs sur l’article EdgeConv étaient l’assistant de recherche Yongbin Sun et le professeur Sanjay Sarma du MIT, ainsi que Ziwei Liu de l’Université de Californie à Berkeley et le professeur Michael M. Bronstein du Imperial College London.
Les projets ont été appuyés en partie par l’U.S. Air Force, le U.S. Army Research Office, Amazon, Google Research, IBM, la National Science Foundation, le Skoltech-MIT Next Generation Program et le Toyota Research Institute.