Un système autonome améliore l’échantillonnage environnemental en mer
Un système robotique autonome inventé par des chercheurs du MIT et de la Woods Hole Oceanographic Institution (WHOI) détecte efficacement les points d’échantillonnage les plus intéressants sur le plan scientifique – mais difficiles à trouver – dans des eaux vastes et inexplorées.
Les scientifiques de l’environnement sont souvent intéressés à prélever des échantillons aux endroits les plus intéressants, ou « maxima », dans un environnement. Un exemple pourrait être une source de fuite de produits chimiques, où la concentration est la plus élevée et la plupart du temps non altérée par des facteurs externes. Mais un maximum peut être n’importe quelle valeur quantifiable que les chercheurs veulent mesurer, comme la profondeur de l’eau ou les parties du récif corallien les plus exposées à l’air.
Les efforts déployés pour déployer des robots à la recherche du maximum souffrent de problèmes d’efficacité et de précision. Généralement, les robots se déplacent dans les deux sens comme des tondeuses à gazon pour couvrir une zone, ce qui prend beaucoup de temps et permet de recueillir de nombreux échantillons inintéressants. Certains robots détectent et suivent des traînées de concentration élevée jusqu’à leur source de fuite. Mais ils peuvent être induits en erreur. Par exemple, les produits chimiques peuvent être piégés et s’accumuler dans les crevasses loin d’une source. Les robots peuvent identifier ces points de haute concentration comme étant la source, mais ils sont loin d’être proches.
Dans une communication présentée à la Conférence internationale sur les robots et systèmes intelligents (IROS), les chercheurs décrivent « PLUMES », un système qui permet aux robots mobiles autonomes de se concentrer sur un maximum beaucoup plus rapidement et efficacement. PLUMES utilise des techniques probabilistes pour prédire quelles trajectoires sont susceptibles de mener au maximum, tout en naviguant dans les obstacles, les courants changeants et autres variables. Au fur et à mesure qu’il recueille des échantillons, il pèse ce qu’il a appris pour déterminer s’il faut continuer sur une voie prometteuse ou chercher dans l’inconnu – ce qui peut abriter des échantillons plus précieux.
Il est important de noter que PLUMES atteint sa destination sans jamais être pris au piège dans ces endroits délicats à haute concentration. « C’est important, parce qu’il est facile de penser qu’on a trouvé de l’or, mais en réalité, on a trouvé de l’or fou « , dit Victoria Preston, co-première auteure, étudiante au doctorat au Computer Science and Artificial Intelligence Laboratory (CSAIL) et au programme conjoint MIT-WHOI.
Les chercheurs ont construit un bateau robotisé à moteur PLUMES qui a détecté avec succès la tête de corail la plus exposée dans le récif de Bellairs Fringinging à la Barbade – ce qui signifie qu’il était situé dans l’endroit le moins profond – ce qui est utile pour étudier comment l’exposition au soleil affecte les organismes coralliens. Dans 100 essais simulés dans divers environnements sous-marins, un robot virtuel PLUMES a également recueilli de façon constante sept à huit fois plus d’échantillons de maxima que les méthodes de couverture traditionnelles dans les délais impartis.
« PLUMES fait le minimum d’exploration nécessaire pour trouver le maximum et se concentre ensuite rapidement sur la collecte d’échantillons précieux « , explique Genevieve Flaspohler, co-auteur et étudiante au doctorat à la CSAIL et au programme conjoint MIT-WHOI.
Rejoindre Preston et Flaspohler sur le papier, oui : Anna P.M. Michel et Yogesh Girdhar, tous deux scientifiques au Département de physique et de génie océaniques appliqués de l’OMSI, et Nicholas Roy, professeur à la CSAIL et au Département d’aéronautique et d’astronomie.
Naviguer à travers un compromis exploit-explorer
L’une des idées clés de PLUMES était d’utiliser des techniques allant de la probabilité à la raison pour trouver un compromis notoirement complexe entre l’exploitation de ce que l’on apprend sur l’environnement et l’exploration de domaines inconnus qui peuvent être plus précieux.
« Le principal défi dans la recherche d’un maximum d’information est de permettre au robot d’équilibrer l’exploitation de l’information provenant d’endroits qu’il sait déjà avoir de fortes concentrations et l’exploration d’endroits qu’il ne connaît pas bien « , explique Flaspohler. « Si le robot explore trop, il ne prélèvera pas assez d’échantillons précieux au maximum. S’il n’explore pas assez, il risque de rater le maximum. »
Plongé dans un nouvel environnement, un robot PLUMES utilise un modèle statistique probabiliste appelé processus gaussien pour faire des prédictions sur les variables environnementales, comme les concentrations chimiques, et estimer les incertitudes de détection. PLUMES génère ensuite une distribution des trajectoires possibles que le robot peut emprunter, et utilise les valeurs estimées et les incertitudes pour classer chaque trajectoire en fonction de sa capacité d’exploration et d’exploitation par le robot.
Dans un premier temps, PLUMES choisira des chemins qui explorent au hasard l’environnement. Chaque échantillon, cependant, fournit de nouvelles informations sur les valeurs ciblées dans le milieu environnant – comme les endroits où les concentrations de produits chimiques sont les plus élevées ou les profondeurs les plus faibles. Le modèle de processus gaussien exploite ces données pour rétrécir les trajectoires possibles que le robot peut suivre à partir de sa position donnée et prélever des échantillons à des endroits ayant une valeur encore plus élevée. PLUMES utilise une nouvelle fonction objective – couramment utilisée dans l’apprentissage machine pour maximiser une récompense – pour décider si le robot doit exploiter les connaissances passées ou explorer le nouveau domaine.
Sentiers « hallucinants ».
La décision de prélever le prochain échantillon dépend de la capacité du système à « halluciner » toutes les actions futures possibles à partir de son emplacement actuel. Pour ce faire, il s’appuie sur une version modifiée de Monte Carlo Tree Search (MCTS), une technique de planification de trajectoire popularisée pour alimenter les systèmes d’intelligence artificielle qui maîtrisent des jeux complexes, tels que Go et Chess.
Les SCTM utilisent un arbre décisionnel – une carte des nœuds et des lignes connectés – pour simuler un chemin, ou une séquence de déplacements, nécessaire pour atteindre une action finale gagnante. Mais dans les jeux, l’espace pour les chemins possibles est limité. Dans des environnements inconnus, avec une dynamique changeante en temps réel, l’espace est effectivement infini, rendant la planification extrêmement difficile. Les chercheurs ont conçu les « SCTM d’observation continue », qui s’appuient sur le processus gaussien et la nouvelle fonction objective pour chercher dans cet espace complexe de voies réelles possibles.
La racine de cet arbre de décision des SCTM commence par un nœud « croyance », qui est la prochaine étape immédiate que le robot peut franchir. Ce nœud contient l’historique complet des actions et observations du robot jusqu’à ce point. Ensuite, le système étend l’arbre de la racine à de nouvelles lignes et noeuds, en examinant plusieurs étapes d’actions futures qui mènent à des zones explorées et inexplorées.
Ensuite, le système simule ce qui se passerait s’il prélevait un échantillon de chacun de ces nœuds nouvellement générés, en se basant sur certains modèles qu’il a appris des observations précédentes. En fonction de la valeur du nœud simulé final, l’ensemble du chemin reçoit un score de récompense, avec des valeurs plus élevées égalant des actions plus prometteuses. Les scores de récompense de tous les chemins sont ramenés au nœud racine. Le robot sélectionne la trajectoire la plus haute, fait un pas et recueille un échantillon réel. Ensuite, il utilise les données réelles pour mettre à jour son modèle de processus gaussien et répète le processus d' »hallucination ».
« Tant que le système continuera à halluciner qu’il peut y avoir une plus grande valeur dans des parties du monde invisibles, il devra continuer à explorer « , dit Flaspohler. « Quand il converge enfin vers un point, il estime être le maximum, parce qu’il ne peut pas halluciner une valeur plus élevée le long du chemin, puis il arrête d’explorer. »
Aujourd’hui, les chercheurs collaborent avec des scientifiques du WHOI pour utiliser des robots alimentés par PLUMES afin de localiser des panaches chimiques sur des sites volcaniques et d’étudier les rejets de méthane dans les estuaires côtiers en fusion dans l’Arctique. Les scientifiques s’intéressent à la source des gaz chimiques libérés dans l’atmosphère, mais ces sites d’essai peuvent couvrir des centaines de kilomètres carrés.
« Ils peuvent (utiliser PLUMES pour) passer moins de temps à explorer cette vaste région et se concentrer sur la collecte d’échantillons d’une grande valeur scientifique « , dit M. Preston.