Le MIT et Toyota publient un ensemble de données innovatrices pour accélérer la recherche sur la conduite autonome
Ce qui suit a été publié dans un communiqué commun du MIT AgeLab et du Toyota Collaborative Safety Research Center.
Comment pouvons-nous former les automobilistes à une meilleure connaissance du monde qui les entoure ? Les ordinateurs peuvent-ils tirer des leçons des expériences passées pour reconnaître les tendances futures qui peuvent les aider à naviguer en toute sécurité dans des situations nouvelles et imprévisibles ?
Ce sont quelques-unes des questions que se posent les chercheurs de l’AgeLab du MIT Center for Transportation and Logistics et de l Centre collaboratif de recherche sur la sécurité de Toyota (CSRC) tentent de répondre en partageant un nouvel ensemble de données ouvert et innovant appelé DriveSeg.
Avec le lancement de DriveSeg, le MIT et Toyota s’efforcent de faire progresser la recherche sur les systèmes de conduite autonomes qui, à l’instar de la perception humaine, perçoivent l’environnement de conduite comme un flux continu d’informations visuelles.
« En partageant cet ensemble de données, nous espérons encourager les chercheurs, l’industrie et d’autres innovateurs à développer de nouvelles perspectives et orientations dans la modélisation de l’IA temporelle qui permet la prochaine génération de technologies de conduite assistée et de sécurité automobile », déclare Bryan Reimer, chercheur principal. « Notre relation de travail de longue date avec Toyota CSRC a permis à nos efforts de recherche d’avoir un impact sur les futures technologies de sécurité ».
« Le pouvoir prédictif est une partie importante de l’intelligence humaine », déclare Rini Sherony, ingénieur principal principal de Toyota CSRC. « Chaque fois que nous conduisons, nous suivons en permanence les mouvements de l’environnement qui nous entoure afin d’identifier les risques potentiels et de prendre des décisions plus sûres. En partageant cet ensemble de données, nous espérons accélérer la recherche sur les systèmes de conduite autonomes et les dispositifs de sécurité avancés qui sont plus adaptés à la complexité de l’environnement qui les entoure ».
Jusqu’à présent, les données sur l’automobilisme mises à la disposition de la communauté des chercheurs consistaient principalement en des séries d’images statiques et uniques pouvant être utilisées pour identifier et suivre des objets courants trouvés sur la route et aux alentours, tels que des vélos, des piétons ou des feux de circulation, grâce à l’utilisation de « boîtes englobantes ». En revanche, DriveSeg contient des représentations plus précises, au niveau du pixel, d’un grand nombre de ces mêmes objets routiers courants, mais à travers l’objectif d’une scène de conduite vidéo continue. Ce type de segmentation de la scène complète peut être particulièrement utile pour identifier des objets plus amorphes – tels que la construction routière et la végétation – qui n’ont pas toujours des formes aussi définies et uniformes.
Selon Sherony, la perception vidéo des scènes de conduite fournit un flux de données qui ressemble davantage à des situations de conduite dynamiques et réelles. Elle permet également aux chercheurs d’explorer des modèles de données au fil du temps, ce qui pourrait conduire à des progrès dans l’apprentissage machine, la compréhension des scènes et la prédiction du comportement.
DriveSeg est disponible gratuitement et peut être utilisé par les chercheurs et la communauté universitaire à des fins non commerciales aux liens ci-dessous. Les données sont composées de deux parties. DriveSeg (manuel) est une vidéo haute résolution de 2 minutes et 47 secondes capturée au cours d’un voyage de jour dans les rues animées de Cambridge, Massachusetts. Les 5 000 images de la vidéo sont annotées manuellement de manière dense avec des étiquettes humaines par pixel de 12 classes d’objets routiers.
DriveSeg (Semi-auto) est de 20 100 images vidéo (67 clips vidéo de 10 secondes) tirées de MIT Technologies avancées pour les véhicules (AVT) Données du consortium. DriveSeg (Semi-auto) est étiqueté avec la même annotation sémantique au pixel près que DriveSeg (manuel), sauf que les annotations ont été complétées par une nouvelle approche d’annotation semi-automatique développée par le MIT. Cette approche tire parti des efforts manuels et informatiques pour annoter grossièrement les données plus efficacement et à moindre coût que l’annotation manuelle. Cet ensemble de données a été créé pour évaluer la faisabilité de l’annotation d’un large éventail de scénarios de conduite réels et pour évaluer le potentiel de formation des systèmes de perception des véhicules sur des étiquettes de pixels créées par des systèmes d’étiquetage basés sur l’IA.
Pour en savoir plus sur les spécifications techniques et les cas d’utilisation autorisés pour les données, consultez le site Page de l’ensemble de données DriveSeg.