La technique aide les robots à trouver la porte d’entrée
Dans un avenir pas trop lointain, des robots pourraient être envoyés comme véhicules de livraison du dernier kilomètre pour déposer votre commande à emporter, votre colis ou votre abonnement à une trousse-repas à votre porte – s’ils peuvent trouver la porte.
Les approches standard pour la navigation robotique consistent à cartographier une zone à l’avance, puis à utiliser des algorithmes pour guider un robot vers un objectif spécifique ou une coordonnée GPS sur la carte. Bien que cette approche puisse être utile pour explorer des environnements particuliers, comme l’aménagement d’un bâtiment particulier ou d’une course à obstacles planifiée, elle peut devenir difficile à manier dans le contexte de la livraison du dernier mille.
Imaginez, par exemple, avoir à cartographier à l’avance chaque quartier dans la zone de livraison d’un robot, y compris la configuration de chaque maison dans ce quartier ainsi que les coordonnées spécifiques de la porte avant de chaque maison. Une telle tâche peut s’avérer difficile à l’échelle d’une ville entière, d’autant plus que l’extérieur des maisons change souvent au fil des saisons. La cartographie de chaque maison pourrait également se heurter à des problèmes de sécurité et de respect de la vie privée.
Les ingénieurs du MIT ont maintenant mis au point une méthode de navigation qui ne nécessite pas de cartographier une zone à l’avance. Au lieu de cela, leur approche permet à un robot d’utiliser des indices dans son environnement pour planifier un itinéraire vers sa destination, qui peut être décrit en termes sémantiques généraux, tels que « porte d’entrée » ou « garage », plutôt que comme coordonnées sur une carte. Par exemple, si un robot reçoit l’instruction de livrer un colis à la porte d’entrée de quelqu’un, il peut commencer sur la route et voir une allée, qu’il a été formé pour reconnaître comme susceptible de conduire vers un trottoir, qui à son tour est susceptible de conduire à la porte d’entrée.
La nouvelle technique peut réduire considérablement le temps qu’un robot passe à explorer une propriété avant d’identifier sa cible, et elle ne repose pas sur des cartes de résidences spécifiques.
« Nous ne voudrions pas avoir à faire une carte de chaque bâtiment que nous devrions visiter « , dit Michael Everett, un étudiant diplômé du département de génie mécanique du MIT. « Avec cette technique, on espère laisser tomber un robot au bout d’une allée et lui faire trouver une porte. »
Everett présentera les résultats du groupe cette semaine à la Conférence internationale sur les robots et systèmes intelligents. L’article, co-écrit par Jonathan How, professeur d’aéronautique et d’astronautique au MIT, et Justin Miller de la Ford Motor Company, est finaliste pour le prix « Best Paper for Cognitive Robots ».
« Un sens de ce que sont les choses »
Ces dernières années, les chercheurs ont travaillé sur l’introduction d’un langage naturel et sémantique aux systèmes robotiques, formant les robots à reconnaître les objets par leurs étiquettes sémantiques, afin qu’ils puissent traiter visuellement une porte comme une porte, par exemple, et pas simplement comme un obstacle solide et rectangulaire.
« Maintenant, nous avons la capacité de donner aux robots une idée de ce que sont les choses, en temps réel « , dit Everett.
Everett, How et Miller utilisent des techniques sémantiques similaires comme tremplin pour leur nouvelle approche de navigation, qui s’appuie sur des algorithmes préexistants qui extraient des caractéristiques de données visuelles pour générer une nouvelle carte de la même scène, représentée comme des indices sémantiques, ou contexte.
Dans leur cas, les chercheurs ont utilisé un algorithme pour construire une carte de l’environnement au fur et à mesure que le robot se déplaçait, en utilisant les étiquettes sémantiques de chaque objet et une image de profondeur. Cet algorithme est appelé SLAM sémantique (Localisation et cartographie simultanées).
Alors que d’autres algorithmes sémantiques ont permis aux robots de reconnaître et de cartographier les objets dans leur environnement pour ce qu’ils sont, ils n’ont pas permis à un robot de prendre des décisions dans le moment tout en naviguant dans un nouvel environnement, sur le chemin le plus efficace à prendre vers une destination sémantique telle qu’une « porte de devant ».
« Avant, explorer, c’était juste, faire tomber un robot et dire’allez-y’, et il bougera et finira par y arriver, mais ce sera lent, » dit-il.
Le coût d’un voyage
Les chercheurs ont cherché à accélérer la planification du parcours d’un robot dans un monde sémantique et coloré par le contexte. Ils ont mis au point un nouvel estimateur de coût à réaliser, un algorithme qui convertit une carte sémantique créée par des algorithmes SLAM préexistants en une seconde carte, représentant la probabilité qu’un endroit donné soit proche de l’objectif.
« Cela a été inspiré par la traduction d’image en image, où l’on prend une photo d’un chat et on le fait ressembler à un chien « , dit Everett. « Le même type d’idée se produit ici où vous prenez une image qui ressemble à une carte du monde, et la transformez en cette autre image qui ressemble à la carte du monde mais qui est maintenant colorée en fonction de la proximité des différents points de la carte par rapport au but final.
Cette carte est colorisée, en niveaux de gris, pour représenter les régions les plus sombres comme des endroits éloignés d’un objectif, et les régions les plus claires comme des endroits proches de l’objectif. Par exemple, le trottoir, codé en jaune sur une carte sémantique, pourrait être traduit par l’algorithme du coût restant comme une région plus foncée sur la nouvelle carte, par rapport à une allée, qui est progressivement plus claire à mesure qu’elle s’approche de la porte avant – la plus claire sur la nouvelle carte.
Les chercheurs ont formé ce nouvel algorithme sur des images satellites de Bing Maps contenant 77 maisons d’un quartier urbain et de trois quartiers suburbains. Le système a converti une carte sémantique en une carte du coût à parcourir et a tracé le chemin le plus efficace, en suivant des régions plus claires de la carte, jusqu’au but final. Pour chaque image satellite, Everett a attribué des étiquettes sémantiques et des couleurs aux caractéristiques contextuelles d’une cour avant typique, comme le gris pour une porte d’entrée, le bleu pour une entrée et le vert pour une haie.
Au cours de cette formation, l’équipe a également appliqué des masques à chaque image pour imiter la vue partielle que la caméra d’un robot aurait probablement lorsqu’il traverse une cour.
« Une partie de l’astuce de notre approche consistait à (donner au système) beaucoup d’images partielles, » explique How. « Il fallait donc vraiment qu’il comprenne à quel point tout cela était lié. C’est en partie ce qui fait que ça marche bien. »
Les chercheurs ont ensuite testé leur approche dans une simulation d’une image d’une maison entièrement nouvelle, en dehors de l’ensemble de données de formation, en utilisant d’abord l’algorithme SLAM préexistant pour générer une carte sémantique, puis en appliquant leur nouvel estimateur de coûts pour générer une deuxième carte, et le chemin vers un but, dans ce cas, la porte avant.
La nouvelle technique coûteuse du groupe a trouvé la porte d’entrée 189% plus rapide que les algorithmes de navigation classiques, qui ne tiennent pas compte du contexte ou de la sémantique, et qui passent des étapes excessives à explorer des domaines qui sont peu susceptibles d’être proches de leur but.
Everett explique que les résultats illustrent comment les robots peuvent utiliser le contexte pour localiser efficacement un objectif, même dans des environnements peu familiers et non cartographiés.
« Même si un robot livre un colis dans un environnement où il n’est jamais allé, il peut y avoir des indices qui seront les mêmes que dans d’autres endroits qu’il a vus « , explique Everett. « Le monde est peut-être un peu différent, mais il y a sûrement des choses en commun. »
Cette recherche est appuyée, en partie, par la Ford Motor Company.