Utiliser l’intelligence artificielle pour enrichir les cartes numériques
Un modèle inventé par les chercheurs du MIT et de l’Institut de recherche informatique du Qatar (QCRI) qui utilise l’imagerie satellite pour marquer les caractéristiques des routes sur les cartes numériques pourrait contribuer à améliorer la navigation GPS.
Le fait de montrer aux conducteurs plus de détails sur leurs itinéraires peut souvent les aider à naviguer dans des endroits qui ne leur sont pas familiers. Le comptage des voies, par exemple, peut permettre à un système GPS d’avertir les conducteurs en cas de divergence ou de fusion de voies. L’intégration d’informations sur les places de stationnement peut aider les conducteurs à planifier leur trajet, tandis que la cartographie des pistes cyclables peut aider les cyclistes à négocier les rues très fréquentées de la ville. La fourniture d’informations actualisées sur l’état des routes peut également améliorer la planification des secours en cas de catastrophe.
Mais la création de cartes détaillées est un processus long et coûteux, qui est surtout le fait de grandes entreprises, comme Google, qui envoients des véhicules avec des caméras attachées à leur capot pour capturer des vidéos et des images des routes d’une région. En combinant ces données avec d’autres, on peut créer des cartes précises et actualisées. Cependant, comme ce processus est coûteux, certaines régions du monde sont ignorées.
Une solution consiste à lancer des modèles d’apprentissage automatique sur des images satellites – plus faciles à obtenir et mises à jour assez régulièrement – pour marquer automatiquement les caractéristiques des routes. Mais les routes peuvent être obstruées par, disons, des arbres et des bâtiments, ce qui rend la tâche difficile. Dans un document présenté à la conférence de l’Association for the Advancement of Artificial Intelligence, les chercheurs du MIT et du QCRI décrivent le « RoadTagger », qui utilise une combinaison d’architectures de réseaux neuronaux pour prédire automatiquement le nombre de voies et les types de routes (résidentielles ou autoroutières) derrière les obstacles.
En testant le RoadTagger sur des routes occultées à partir de cartes numériques de 20 villes américaines, le modèle a compté les numéros de voies avec une précision de 77 % et a déduit les types de routes avec une précision de 93 %. Les chercheurs prévoient également de permettre au RoadTagger de prévoir d’autres caractéristiques, telles que les places de parking et les pistes cyclables.
« La plupart des cartes numériques mises à jour proviennent des endroits qui intéressent le plus les grandes entreprises. Si vous vous trouvez dans des endroits dont ils ne se soucient pas beaucoup, vous êtes désavantagé en ce qui concerne la qualité de la carte », déclare le co-auteur Sam Madden, professeur au département de génie électrique et d’informatique (EECS) et chercheur au laboratoire d’informatique et d’intelligence artificielle (CSAIL). « Notre objectif est d’automatiser le processus de production de cartes numériques de haute qualité, afin qu’elles puissent être disponibles dans n’importe quel pays ».
Les co-auteurs de l’article sont Songtao He, Favyen Bastani et Edward Park, étudiants de troisième cycle au CSAIL, Satvat Jagwani, étudiant de premier cycle à l’EECS, Mohammad Alizadeh et Hari Balakrishnan, professeurs au CSAIL, et Sanjay Chawla, Sofiane Abbar et Mohammad Amin Sadeghi, chercheurs au QCRI.
Combinaison de CNN et GNN
Le Quatar, où est basé le QCRI, « n’est pas une priorité pour les grandes entreprises qui construisent des cartes numériques », déclare Madden. Pourtant, elle construit constamment de nouvelles routes et améliore les anciennes, notamment en vue de la Coupe du monde de football de 2022.
« Lors de notre visite au Qatar, nous avons fait l’expérience que notre chauffeur Uber ne savait pas comment se rendre là où il allait parce que la carte était si fausse », explique Madden. « Si les applications de navigation ne disposent pas des bonnes informations, pour des choses telles que la fusion de voies, cela pourrait être frustrant ou pire encore. »
Le RoadTagger repose sur une nouvelle combinaison d’un réseau neuronal convolutif (CNN) – couramment utilisé pour les tâches de traitement d’images – et d’un réseau neuronal de graphes (GNN). Les GNNs modélisent les relations entre les nœuds connectés dans un graphe et sont devenus populaires pour analyser des choses comme les réseaux sociaux et la dynamique moléculaire. Le modèle est « de bout en bout », ce qui signifie qu’il n’est alimenté que par des données brutes et qu’il produit automatiquement des résultats, sans intervention humaine.
La CNN prend en entrée des images satellites brutes de routes cibles. La GNN divise la route en segments d’environ 20 mètres, ou « tuiles ». Chaque tuile est un nœud de graphique distinct, relié par des lignes le long de la route. Pour chaque nœud, le CNN extrait les caractéristiques des routes et partage ces informations avec ses voisins immédiats. Les informations routières se propagent sur l’ensemble du graphique, chaque nœud recevant des informations sur les attributs de la route dans tous les autres nœuds. Si une certaine tuile est occultée dans une image, le RoadTagger utilise les informations de toutes les tuiles le long de la route pour prédire ce qui se cache derrière l’occlusion.
Cette architecture combinée représente une intuition plus humaine, disent les chercheurs. Supposons qu’une partie d’une route à quatre voies soit obstruée par des arbres, de sorte que certains carreaux ne montrent que deux voies. Les humains peuvent facilement supposer que quelques allées sont cachées derrière les arbres. Les modèles traditionnels d’apprentissage par machine – disons, juste une CNN – n’extraient les caractéristiques que des tuiles individuelles et prédisent très probablement que la tuile occultée est une route à deux voies.
« Les humains peuvent utiliser les informations des tuiles adjacentes pour deviner le nombre de voies dans les tuiles occultées, mais les réseaux ne peuvent pas faire cela », dit-il. « Notre approche tente d’imiter le comportement naturel des humains, où nous captons les informations locales de la CNN et les informations globales de la GNN pour faire de meilleures prévisions. »
Apprendre les poids
Pour former et tester le RoadTagger, les chercheurs ont utilisé un ensemble de données cartographiques réelles, appelé OpenStreetMap, qui permet aux utilisateurs de modifier et de conserver des cartes numériques du monde entier. À partir de cet ensemble de données, ils ont recueilli des attributs routiers confirmés sur 688 kilomètres carrés de cartes de 20 villes américaines – dont Boston, Chicago, Washington et Seattle. Ensuite, ils ont rassemblé les images satellites correspondantes à partir d’un ensemble de données de Google Maps.
Dans le cadre de sa formation, RoadTagger apprend les poids – qui attribuent des degrés d’importance variables aux caractéristiques et aux connexions des nœuds – du CNN et du GNN. La CNN extrait des caractéristiques des motifs de pixels des tuiles et la GNN propage les caractéristiques apprises le long du graphique. À partir de sous-graphies de la route choisies au hasard, le système apprend à prédire les caractéristiques de la route à chaque carreau. Ce faisant, il apprend automatiquement quelles caractéristiques de l’image sont utiles et comment propager ces caractéristiques le long du graphique. Par exemple, si un carreau cible a des marquages de voie peu clairs, mais que le carreau voisin a quatre voies avec des marquages de voie clairs et partage la même largeur de route, alors le carreau cible aura probablement aussi quatre voies. Dans ce cas, le modèle apprend automatiquement que la largeur de la route est une caractéristique utile de l’image. Ainsi, si deux tuiles adjacentes partagent la même largeur de route, il est probable qu’elles aient le même nombre de voies.
Étant donné une route que l’on ne voit pas dans la formation d’OpenStreetMap, le modèle découpe la route en carreaux et utilise ses poids appris pour faire des prédictions. Chargé de prévoir un certain nombre de voies dans une tuile occultée, le modèle note que les tuiles voisines ont des motifs de pixels correspondants et, par conséquent, une forte probabilité de partager des informations. Donc, si ces tuiles ont quatre voies, la tuile occluse doit aussi en avoir quatre.
Autre résultat, le RoadTagger a prédit avec précision le nombre de voies dans un ensemble de données synthétisées sur les perturbations routières très difficiles. Par exemple, un viaduc à deux voies a recouvert quelques carreaux d’une route cible à quatre voies. Le modèle a détecté des pixels mal assortis du passage supérieur, il a donc ignoré les deux voies au-dessus des dalles couvertes, prédisant avec précision que quatre voies se trouvaient en dessous.
Les chercheurs espèrent utiliser le RoadTagger pour aider les humains à valider et à approuver rapidement les modifications continues des infrastructures dans des ensembles de données tels que OpenStreetMap, où de nombreuses cartes ne contiennent pas le nombre de voies ni d’autres détails. Un domaine d’intérêt particulier est la Thaïlande, dit M. Bastani, où les routes changent constamment, mais où les données sont peu ou pas mises à jour.
« Les routes qui étaient autrefois qualifiées de chemins de terre ont été recouvertes d’asphalte afin qu’il soit plus facile d’y circuler, et certains carrefours ont été complètement reconstruits. Il y a des changements chaque année, mais les cartes numériques sont dépassées « , dit-il. « Nous voulons constamment mettre à jour ces attributs de route en nous basant sur les images les plus récentes. »