Les robots poussés apprennent les bases de la manipulation d’objets
Les chercheurs du MIT ont compilé un ensemble de données qui saisit le comportement détaillé d’un système robotique poussant physiquement des centaines d’objets différents. En utilisant l’ensemble de données – le plus grand et le plus diversifié du genre – les chercheurs peuvent former des robots à « apprendre » la dynamique de poussée qui est fondamentale pour de nombreuses tâches complexes de manipulation d’objets, y compris la réorientation et l’inspection d’objets, et le désencombrement de scènes.
Pour saisir les données, les chercheurs ont conçu un système automatisé composé d’un bras robotique industriel à commande précise, d’un système de suivi de mouvement 3D, de caméras de profondeur et traditionnelles et d’un logiciel qui assemble le tout. Le bras se déplace autour d’objets modulaires qui peuvent être ajustés en fonction du poids, de la forme et de la répartition de la masse. Pour chaque poussée, le système capture comment ces caractéristiques affectent la poussée du robot.
Le jeu de données, appelé « Omnipush », contient 250 poussées différentes de 250 objets, totalisant environ 62 500 poussées uniques. Il est déjà utilisé par les chercheurs pour, par exemple, construire des modèles qui aident les robots à prédire où les objets vont atterrir lorsqu’ils sont poussés.
« Nous avons besoin de beaucoup de données riches pour nous assurer que nos robots puissent apprendre « , déclare Maria Bauza, étudiante diplômée au Département de génie mécanique (MechE) et première auteure d’un article décrivant Omnipush qui sera présenté à la prochaine conférence internationale sur les robots et systèmes intelligents. « Ici, nous recueillons des données à partir d’un véritable système robotique, (et) les objets sont suffisamment variés pour saisir la richesse des phénomènes de poussée. C’est important pour aider les robots à comprendre comment fonctionne la poussée, et pour traduire cette information en d’autres objets similaires dans le monde réel. »
Rejoindre Bauza sur le papier, c’est : Ferran Alet et Yen-Chen Lin, étudiants diplômés du Laboratoire d’informatique et d’intelligence artificielle et du Département de génie électrique et d’informatique (EECS) ; Tomas Lozano-Perez, professeur d’excellence en enseignement à l’École de génie ; Leslie P. Kaelbling, professeur Panasonic en informatique et génie ; Phillip Isola, professeur adjoint à EECS ; et Alberto Rodriguez, professeur associé à MechE.
Diversifier les données
Pourquoi se concentrer sur le comportement de poussée ? La modélisation de la dynamique de poussée qui implique la friction entre les objets et les surfaces, explique Rodriguez, est essentielle dans les tâches robotiques de haut niveau. Pensez au robot visuellement et techniquement impressionnant qui peut jouer Jenga, que Rodriguez a récemment co-conçu. « Le robot accomplit une tâche complexe, mais le cœur de la mécanique de cette tâche est toujours la poussée d’un objet affecté, par exemple, par la friction entre les blocs « , dit Rodriguez.
Omnipush s’appuie sur un ensemble de données similaire construit par Rodriguez, Bauza et d’autres chercheurs dans le Laboratoire de Manipulation et Mécanismes (MCube) qui ont saisi des données de poussée sur seulement 10 objets. Après avoir rendu l’ensemble de données publiques en 2016, ils ont recueilli les commentaires des chercheurs. L’une des plaintes portait sur le manque de diversité des objets : Les robots formés sur l’ensemble de données ont eu du mal à généraliser l’information à de nouveaux objets. Il n’y avait pas non plus de vidéo, ce qui est important pour la vision par ordinateur, la prédiction vidéo et d’autres tâches.
Pour leur nouvel ensemble de données, les chercheurs utilisent un bras robotique industriel avec contrôle précis de la vitesse et de la position d’un pousseur, essentiellement une tige d’acier verticale. Au fur et à mesure que le bras pousse les objets, un système de suivi de mouvement « Vicon » – qui a été utilisé dans les films, la réalité virtuelle et pour la recherche – suit les objets. Il y a aussi une caméra RGB-D, qui ajoute des informations de profondeur aux vidéos capturées.
La clé était la construction d’objets modulaires. Les pièces centrales uniformes, en aluminium, ressemblent à des étoiles à quatre branches et pèsent environ 100 grammes. Chaque pièce centrale contient des marqueurs sur son centre et ses points, de sorte que le système Vicon peut détecter sa pose au millimètre près.
De plus petites pièces de quatre formes – concave, triangulaire, rectangulaire et circulaire – peuvent être fixées magnétiquement à n’importe quel côté de la pièce centrale. Chaque pièce pèse entre 31 et 94 grammes, mais des poids supplémentaires, allant de 60 à 150 grammes, peuvent être déposés dans de petits trous dans les pièces. Toutes les pièces des objets en forme de puzzle s’alignent horizontalement et verticalement, ce qui permet d’imiter la friction qu’aurait un objet unique ayant la même forme et la même distribution de masse. Toutes les combinaisons de différents côtés, poids et distributions de masse ont totalisé jusqu’à 250 objets uniques.
Pour chaque poussée, le bras se déplace automatiquement dans une position aléatoire à plusieurs centimètres de l’objet. Ensuite, il sélectionne une direction aléatoire et pousse l’objet pendant une seconde. En partant de l’endroit où il s’est arrêté, il choisit ensuite une autre direction aléatoire et répète le processus 250 fois. Chaque pression enregistre la pose de l’objet et la vidéo RVB-D, qui peut être utilisée à diverses fins de prédiction vidéo. La collecte des données a duré 12 heures par jour, pendant deux semaines, soit plus de 150 heures au total. L’intervention humaine n’était nécessaire que lors de la reconfiguration manuelle des objets.
Les objets ne ressemblent pas spécifiquement à des objets de la vie réelle. Ils sont plutôt conçus pour saisir la diversité de la « cinématique » et des « asymétries de masse » attendues des objets du monde réel, qui modélisent la physique du mouvement des objets du monde réel. Les robots peuvent alors extrapoler, par exemple, le modèle physique d’un objet Omnipush avec une distribution de masse inégale à n’importe quel objet du monde réel avec une distribution de poids inégale similaire.
« Imaginez pousser une table à quatre pieds, où la plupart du poids se trouve sur l’un des pieds. Lorsque vous poussez la table, vous voyez qu’elle tourne sur la jambe lourde et qu’elle doit être réajustée. Comprendre que la distribution de masse, et son effet sur le résultat d’une poussée, est quelque chose que les robots peuvent apprendre avec cet ensemble d’objets « , dit Rodriguez.
De nouveaux moteurs pour la recherche
Dans une expérience, les chercheurs ont utilisé Omnipush pour former un modèle de prédiction de la pose finale d’objets poussés, compte tenu uniquement de la pose initiale et de la description de la poussée. Ils ont formé le modèle sur 150 objets Omnipush et l’ont testé sur une portion d’objets en main. Les résultats ont montré que le modèle formé par Omnipush était deux fois plus précis que les modèles formés sur quelques ensembles de données similaires. Dans leur article, les chercheurs ont également enregistré des points de repère en matière d’exactitude que d’autres chercheurs peuvent utiliser à des fins de comparaison.
Parce que l’Omnipush capture la vidéo des poussées, une application potentielle est la prédiction vidéo. Un collaborateur, par exemple, utilise maintenant l’ensemble de données pour former un robot à « imaginer » essentiellement la poussée d’objets entre deux points. Après l’entraînement sur Omnipush, le robot reçoit en entrée deux images vidéo, montrant un objet dans sa position de départ et d’arrivée. En utilisant la position de départ, le robot prédit toutes les futures images vidéo qui permettront à l’objet d’atteindre sa position finale. Ensuite, il pousse l’objet d’une manière qui correspond à chaque image vidéo prédite, jusqu’à ce qu’il atteigne l’image avec la position finale.
« Le robot demande : « Si je fais cette action, où sera l’objet dans ce cadre ? Ensuite, il choisit l’action qui maximise la probabilité d’obtenir l’objet dans la position qu’il veut « , dit M. Bauza. « Il décide comment déplacer les objets en imaginant d’abord comment les pixels de l’image vont changer après une poussée. »
« Omnipush comprend des mesures précises du mouvement des objets, ainsi que des données visuelles, pour une classe importante d’interactions entre le robot et les objets dans le monde « , explique Matthew T. Mason, professeur d’informatique et de robotique à l’Université Carnegie Melon. « Les chercheurs en robotique peuvent utiliser ces données pour développer et tester de nouvelles approches d’apprentissage des robots… qui alimenteront les progrès continus de la manipulation robotique. »