Le système entraîne les voitures sans conducteur en simulation avant qu’elles ne prennent la route
Un système de simulation inventé au MIT pour former des voitures sans conducteur crée un monde photoréaliste avec des possibilités de pilotage infinies, aidant les voitures à apprendre à naviguer dans une foule de scénarios catastrophes avant de rouler dans des rues réelles.
Les systèmes de contrôle, ou « contrôleurs », pour les véhicules autonomes reposent en grande partie sur des ensembles de données réelles de trajectoires de conduite provenant de conducteurs humains. À partir de ces données, ils apprennent à émuler des commandes de direction sûres dans diverses situations. Mais les données du monde réel provenant de « cas limites » dangereux, comme le fait d’avoir failli s’écraser ou d’avoir été forcé de quitter la route ou d’emprunter d’autres voies, sont – heureusement – rares.
Certains programmes informatiques, appelés « moteurs de simulation », visent à imiter ces situations en rendant des routes virtuelles détaillées pour aider à former les contrôleurs à la récupération. Mais il n’a jamais été démontré que le contrôle appris par la simulation puisse être transféré dans la réalité sur un véhicule en grandeur réelle.
Les chercheurs du MIT s’attaquent au problème avec leur simulateur photoréaliste, appelé Virtual Image Synthesis and Transformation for Autonomy (VISTA). Il n’utilise qu’un petit ensemble de données, captées par des humains conduisant sur une route, pour synthétiser un nombre pratiquement infini de nouveaux points de vue à partir des trajectoires que le véhicule pourrait prendre dans le monde réel. Le contrôleur est récompensé pour la distance qu’il parcourt sans s’écraser, il doit donc apprendre par lui-même comment atteindre une destination en toute sécurité. Ce faisant, le véhicule apprend à naviguer en toute sécurité dans toutes les situations qu’il rencontre, y compris à reprendre le contrôle après un changement de voie ou une sortie de route après un quasi-accident.
Lors des tests, un contrôleur formé au sein du simulateur VISTA a pu être déployé en toute sécurité sur une voiture sans conducteur grandeur nature et naviguer dans des rues jusqu’alors invisibles. En positionnant la voiture dans des orientations hors route qui imitaient diverses situations de quasi-collision, le contrôleur a également réussi à ramener la voiture dans une trajectoire de conduite sûre en quelques secondes. A papier décrivant le système a été publié dans Lettres de l’IEEE sur la robotique et l’automatisation et sera présentée à la prochaine conférence de l’ICRA en mai.
« Il est difficile de collecter des données dans ces cas extrêmes que les humains ne connaissent pas sur la route », déclare le premier auteur, Alexander Amini, doctorant au Laboratoire d’informatique et d’intelligence artificielle (CSAIL). « Dans notre simulation, cependant, les systèmes de contrôle peuvent vivre ces situations, apprendre par eux-mêmes à s’en remettre et rester robustes lorsqu’ils sont déployés sur des véhicules dans le monde réel ».
Le travail a été effectué en collaboration avec l’Institut de recherche Toyota. Igor Gilitschenski, post-doc à CSAIL, Jacob Phillips, Julia Moseyko et Rohan Banerjee, tous diplômés de CSAIL et du département de génie électrique et d’informatique, Sertac Karaman, professeur associé d’aéronautique et d’astronautique, et Daniela Rus, directrice de CSAIL et professeur Andrew et Erna Viterbi de génie électrique et d’informatique, se joignent à Amini pour ce travail.
Simulation basée sur des données
Historiquement, la construction de moteurs de simulation pour la formation et l’essai de véhicules autonomes a été en grande partie une tâche manuelle. Les entreprises et les universités emploient souvent des équipes d’artistes et d’ingénieurs pour dessiner des environnements virtuels, avec des marquages routiers précis, des voies de circulation et même des feuilles détaillées sur les arbres. Certains moteurs peuvent également intégrer la physique de l’interaction d’une voiture avec son environnement, en se basant sur des modèles mathématiques complexes.
Mais comme il y a tant de choses différentes à prendre en compte dans les environnements complexes du monde réel, il est pratiquement impossible de tout intégrer dans le simulateur. C’est pourquoi il y a généralement un décalage entre ce que les contrôleurs apprennent dans la simulation et la façon dont ils opèrent dans le monde réel.
Les chercheurs du MIT ont plutôt créé ce qu’ils appellent un moteur de simulation « piloté par les données » qui synthétise, à partir de données réelles, de nouvelles trajectoires conformes à l’aspect de la route, ainsi que la distance et le mouvement de tous les objets de la scène.
Ils recueillent d’abord les données vidéo d’un homme qui circule sur quelques routes et les transmettent au moteur. Pour chaque image, le moteur projette chaque pixel dans un type de nuage de points 3D. Ensuite, il place un véhicule virtuel à l’intérieur de ce monde. Lorsque le véhicule effectue une commande de direction, le moteur synthétise une nouvelle trajectoire à travers le nuage de points, basée sur la courbe de direction et l’orientation et la vitesse du véhicule.
Ensuite, le moteur utilise cette nouvelle trajectoire pour rendre une scène photoréaliste. Pour ce faire, il utilise un réseau neuronal convolutionnel – couramment utilisé pour les tâches de traitement d’images – pour estimer une carte de profondeur, qui contient des informations relatives à la distance des objets du point de vue du contrôleur. Il combine ensuite la carte de profondeur avec une technique qui permet d’estimer l’orientation de la caméra dans une scène en 3D. Tout cela permet de déterminer la position du véhicule et la distance relative de tout ce qui se trouve dans le simulateur virtuel.
Sur la base de ces informations, il réoriente les pixels d’origine pour recréer une représentation 3D du monde du nouveau point de vue du véhicule. Il suit également le mouvement des pixels pour capturer le mouvement des voitures et des personnes, et d’autres objets en mouvement, dans la scène. « Cela équivaut à fournir au véhicule un nombre infini de trajectoires possibles », explique M. Rus. « Parce que lorsque nous collectons des données physiques, nous obtenons des données sur la trajectoire spécifique que la voiture suivra. Mais nous pouvons modifier cette trajectoire pour couvrir tous les modes et environnements de conduite possibles. C’est vraiment puissant ».
Le renforcement : apprendre à partir de zéro
Traditionnellement, les chercheurs ont formé des véhicules autonomes en suivant des règles de conduite définies par l’homme ou en essayant d’imiter des conducteurs humains. Mais les chercheurs font en sorte que leur contrôleur apprenne entièrement à partir de zéro dans un cadre « de bout en bout », ce qui signifie qu’il ne prend en entrée que les données brutes des capteurs – telles que les observations visuelles de la route – et, à partir de ces données, prédit les commandes de direction aux sorties.
Nous disons essentiellement : « Voici un environnement. Vous pouvez faire ce que vous voulez. Il suffit de ne pas s’écraser sur les véhicules et de rester dans les voies », dit Amini.
Cela nécessite un « apprentissage par renforcement » (RL), une technique d’apprentissage par essai et erreur qui fournit des signaux de retour chaque fois que la voiture fait une erreur. Dans le moteur de simulation des chercheurs, le contrôleur commence par ne rien savoir sur la façon de conduire, sur ce qu’est un marqueur de voie, ou même sur l’aspect des autres véhicules, alors il commence à exécuter des angles de braquage aléatoires. Il ne reçoit un signal de retour que lorsqu’il s’écrase. À ce moment-là, il est téléporté vers un nouvel endroit simulé et doit exécuter une meilleure série d’angles de braquage pour éviter un nouvel accident. Pendant 10 à 15 heures de formation, il utilise ces signaux de rétroaction épars pour apprendre à parcourir des distances de plus en plus grandes sans s’écraser.
Après avoir parcouru avec succès 10 000 kilomètres en simulation, les auteurs appliquent ce contrôleur appris à leur véhicule autonome en vraie grandeur dans le monde réel. Les chercheurs affirment que c’est la première fois qu’un contrôleur formé à l’aide d’un apprentissage de renforcement de bout en bout en simulation est déployé avec succès sur une voiture autonome en vraie grandeur. « Cela nous a surpris. Non seulement le contrôleur n’a jamais été sur une vraie voiture, mais il n’a jamais vu les routes auparavant et n’a aucune connaissance préalable sur la façon dont les humains conduisent », explique M. Amini.
Le fait de forcer le contrôleur à parcourir tous les types de scénarios de conduite lui a permis de reprendre le contrôle à partir de positions désorientantes – comme être à moitié hors de la route ou dans une autre voie – et de se replacer dans la bonne voie en quelques secondes. « Et les autres contrôleurs de pointe ont tous échoué tragiquement à ce niveau, car ils n’ont jamais vu de données de ce type en formation », explique M. Amini.
Ensuite, les chercheurs espèrent simuler tous les types de conditions routières à partir d’une seule trajectoire de conduite, comme la nuit et le jour, et le temps ensoleillé et pluvieux. Ils espèrent également simuler des interactions plus complexes avec d’autres véhicules sur la route. « Et si d’autres voitures se mettent en mouvement et sautent devant le véhicule ? » dit Rus. « Ce sont des interactions complexes et réelles que nous voulons commencer à tester. »