Utiliser l’ordinateur pour voir l’invisible
Les appareils photo et les ordinateurs ensemble peuvent conquérir quelques exploits sérieusement stupéfiants. Donner la vision de l’informatique nous a aidés à combattre les feux de forêt en CalifornieIl faut comprendre les routes complexes et traîtresses – et même voir dans les coins.
Plus précisément, il y a sept ans, un groupe de chercheurs du MIT a créé un nouveau système d’imagerie qui utilise les planchers, les portes et les murs comme » miroirs » pour comprendre l’information sur les scènes situées à l’extérieur d’une ligne de vue normale. En utilisant des lasers spéciaux pour produire des images 3D reconnaissables, le travail a ouvert un champ de possibilités en nous permettant de mieux comprendre ce que nous ne pouvons pas voir.
Récemment, un autre groupe de scientifiques du Laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL) s’est constitué à partir de ces travaux, mais cette fois sans équipement spécial nécessaire : Ils ont mis au point une méthode qui permet de reconstituer la vidéo cachée à partir des ombres et des reflets subtils d’une pile d’encombrements observés. Cela signifie qu’avec une caméra vidéo allumée dans une pièce, ils peuvent reconstruire une vidéo d’un coin invisible de la pièce, même si elle tombe hors du champ de vision de la caméra.
En observant l’interaction de l’ombre et de la géométrie dans la vidéo, l’algorithme de l’équipe prédit la façon dont la lumière se déplace dans une scène, ce qu’on appelle le « transport de lumière ». Le système l’utilise ensuite pour estimer la vidéo cachée à partir des ombres observées – et il peut même construire la silhouette d’un spectacle en direct.
Ce type de reconstruction d’image pourrait un jour profiter à de nombreuses facettes de la société : Les voitures autotractées pourraient mieux comprendre ce qui émerge derrière les virages, les centres de soins aux aînés pourraient améliorer la sécurité de leurs résidents et les équipes de recherche et de sauvetage pourraient même améliorer leur capacité de naviguer dans les zones dangereuses ou obstruées.
La technique, qui est « passive », c’est-à-dire qu’il n’y a pas de laser ou d’autres interventions sur la scène, prend encore actuellement environ deux heures à traiter, mais les chercheurs disent qu’elle pourrait éventuellement être utile pour reconstruire des scènes qui ne sont pas dans le champ de vision traditionnel pour les applications mentionnées ci-dessus.
« Vous pouvez faire pas mal de choses avec des équipements d’imagerie sans visibilité directe comme les lasers, mais dans notre approche, vous n’avez accès qu’à la lumière qui atteint naturellement la caméra, et vous essayez de tirer le meilleur parti des rares informations qu’elle contient « , déclare Miika Aittala, ancienne post-doc du CSAIL et actuelle chercheuse scientifique chez NVIDIA., et le chercheur principal sur la nouvelle technique. « Compte tenu des progrès récents des réseaux neuronaux, c’était le moment idéal pour visiter des défis qui, dans cet espace, étaient considérés comme inabordables auparavant. »
Pour capturer ces informations invisibles, l’équipe utilise des signaux lumineux subtils et indirects, tels que des ombres et des reflets provenant de l’encombrement dans la zone observée.
D’une certaine façon, une pile d’encombrement se comporte un peu comme un appareil photo à sténopé, semblable à quelque chose que vous pourriez construire dans un cours de sciences à l’école primaire : Il bloque certains rayons lumineux, mais en laisse passer d’autres, et ceux-ci peignent une image de l’environnement où qu’ils frappent. Mais lorsqu’une caméra à sténopé est conçue pour laisser passer juste la quantité de rayons droits pour former une image lisible, une pile générale d’encombrement produit une image qui est brouillée (par le transport de lumière) au-delà de la reconnaissance, dans un jeu complexe d’ombres et d’ombres.
Vous pouvez donc considérer l’encombrement comme un miroir qui vous donne une vue brouillée de l’environnement qui l’entoure – par exemple, derrière un coin où vous ne pouvez pas voir directement.
Le défi relevé par l’algorithme de l’équipe consistait à déchiffrer et à donner un sens à ces signaux lumineux. Plus précisément, l’objectif était de récupérer une vidéo lisible par l’homme de l’activité dans la scène cachée, qui est une multiplication du transport léger et de la vidéo cachée.
Cependant, le décodage s’est avéré être un problème classique de » poulet ou d’œuf « . Pour comprendre le schéma de brouillage, l’utilisateur doit déjà connaître la vidéo cachée, et vice versa.
« Mathématiquement, c’est comme si je vous disais que je pense à deux nombres secrets, et que leur produit est 80. Pouvez-vous deviner ce que c’est ? Peut-être 40 et 2 ans ? Ou peut-être 371,8 et 0,2152 ? Dans notre problème, nous sommes confrontés à une situation similaire à chaque pixel « , dit Aittala. « Presque toutes les vidéos cachées peuvent être expliquées par un brouillage correspondant, et vice versa. Si on laisse l’ordinateur choisir, il fera ce qu’il faut et nous donnera une grosse pile d’images essentiellement aléatoires qui ne ressemblent à rien. »
Dans cette optique, l’équipe s’est attachée à briser l’ambiguïté en spécifiant algorithmiquement qu’elle voulait un motif de « brouillage » correspondant à des ombres et des ombres réelles plausibles, pour découvrir la vidéo cachée qui semble avoir des bords et des objets qui bougent de façon cohérente.
L’équipe a également utilisé le fait surprenant que les réseaux neuronaux préfèrent naturellement exprimer un contenu » imaginaire « , même s’ils n’ont jamais été formés pour le faire, ce qui a contribué à briser l’ambiguïté. L’algorithme entraîne deux réseaux de neurones simultanément, où ils sont spécialisés pour la seule vidéo cible, en utilisant les idées d’un concept d’apprentissage machine appelé Image profonde avant. Un réseau produit le modèle de brouillage, et l’autre estime la vidéo cachée. Les réseaux sont récompensés lorsque la combinaison de ces deux facteurs reproduit la vidéo enregistrée à partir de l’encombrement, les poussant à expliquer les observations avec des données cachées plausibles.
Pour tester le système, l’équipe a d’abord empilé des objets sur un mur, puis a projeté une vidéo ou s’est déplacée physiquement sur le mur opposé. À partir de là, ils ont pu reconstituer des vidéos où l’on pouvait avoir une idée générale du mouvement qui se produisait dans la partie cachée de la pièce.
À l’avenir, l’équipe espère améliorer la résolution globale du système et éventuellement tester la technique dans un environnement non contrôlé.
Aittala a écrit un nouvel article sur la technique aux côtés de Prafull Sharma, Lukas Murmann et Adam Yedidia, doctorants de la CSAIL, et des professeurs du MIT Fredo Durand, Bill Freeman et Gregory Wornell. Ils le présenteront la semaine prochaine à la Conférence sur les systèmes de traitement de l’information neuronale à Vancouver, en Colombie-Britannique.