Skip to content
Logo csisimple

C Si Simple

Le réseau de connaissances pour les Pros !

Primary Menu
  • Technologie
  • Ordinateurs
  • Intelligence Artificielle
  • Home
  • Ordinateurs
  • Utiliser l’ordinateur pour voir l’invisible
  • Ordinateurs

Utiliser l’ordinateur pour voir l’invisible

6 décembre 2019 6 min read

Les appareils photo et les ordinateurs ensemble peuvent conquérir quelques exploits sérieusement stupéfiants. Donner la vision de l’informatique nous a aidés à combattre les feux de forêt en CalifornieIl faut comprendre les routes complexes et traîtresses – et même voir dans les coins.

Plus précisément, il y a sept ans, un groupe de chercheurs du MIT a créé un nouveau système d’imagerie qui utilise les planchers, les portes et les murs comme  » miroirs  » pour comprendre l’information sur les scènes situées à l’extérieur d’une ligne de vue normale. En utilisant des lasers spéciaux pour produire des images 3D reconnaissables, le travail a ouvert un champ de possibilités en nous permettant de mieux comprendre ce que nous ne pouvons pas voir.

Récemment, un autre groupe de scientifiques du Laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL) s’est constitué à partir de ces travaux, mais cette fois sans équipement spécial nécessaire : Ils ont mis au point une méthode qui permet de reconstituer la vidéo cachée à partir des ombres et des reflets subtils d’une pile d’encombrements observés. Cela signifie qu’avec une caméra vidéo allumée dans une pièce, ils peuvent reconstruire une vidéo d’un coin invisible de la pièce, même si elle tombe hors du champ de vision de la caméra.

En observant l’interaction de l’ombre et de la géométrie dans la vidéo, l’algorithme de l’équipe prédit la façon dont la lumière se déplace dans une scène, ce qu’on appelle le « transport de lumière ». Le système l’utilise ensuite pour estimer la vidéo cachée à partir des ombres observées – et il peut même construire la silhouette d’un spectacle en direct.

Ce type de reconstruction d’image pourrait un jour profiter à de nombreuses facettes de la société : Les voitures autotractées pourraient mieux comprendre ce qui émerge derrière les virages, les centres de soins aux aînés pourraient améliorer la sécurité de leurs résidents et les équipes de recherche et de sauvetage pourraient même améliorer leur capacité de naviguer dans les zones dangereuses ou obstruées.

La technique, qui est « passive », c’est-à-dire qu’il n’y a pas de laser ou d’autres interventions sur la scène, prend encore actuellement environ deux heures à traiter, mais les chercheurs disent qu’elle pourrait éventuellement être utile pour reconstruire des scènes qui ne sont pas dans le champ de vision traditionnel pour les applications mentionnées ci-dessus.

« Vous pouvez faire pas mal de choses avec des équipements d’imagerie sans visibilité directe comme les lasers, mais dans notre approche, vous n’avez accès qu’à la lumière qui atteint naturellement la caméra, et vous essayez de tirer le meilleur parti des rares informations qu’elle contient « , déclare Miika Aittala, ancienne post-doc du CSAIL et actuelle chercheuse scientifique chez NVIDIA., et le chercheur principal sur la nouvelle technique. « Compte tenu des progrès récents des réseaux neuronaux, c’était le moment idéal pour visiter des défis qui, dans cet espace, étaient considérés comme inabordables auparavant. »

Pour capturer ces informations invisibles, l’équipe utilise des signaux lumineux subtils et indirects, tels que des ombres et des reflets provenant de l’encombrement dans la zone observée.

D’une certaine façon, une pile d’encombrement se comporte un peu comme un appareil photo à sténopé, semblable à quelque chose que vous pourriez construire dans un cours de sciences à l’école primaire : Il bloque certains rayons lumineux, mais en laisse passer d’autres, et ceux-ci peignent une image de l’environnement où qu’ils frappent. Mais lorsqu’une caméra à sténopé est conçue pour laisser passer juste la quantité de rayons droits pour former une image lisible, une pile générale d’encombrement produit une image qui est brouillée (par le transport de lumière) au-delà de la reconnaissance, dans un jeu complexe d’ombres et d’ombres.

Vous pouvez donc considérer l’encombrement comme un miroir qui vous donne une vue brouillée de l’environnement qui l’entoure – par exemple, derrière un coin où vous ne pouvez pas voir directement.

Le défi relevé par l’algorithme de l’équipe consistait à déchiffrer et à donner un sens à ces signaux lumineux. Plus précisément, l’objectif était de récupérer une vidéo lisible par l’homme de l’activité dans la scène cachée, qui est une multiplication du transport léger et de la vidéo cachée.

Cependant, le décodage s’est avéré être un problème classique de  » poulet ou d’œuf « . Pour comprendre le schéma de brouillage, l’utilisateur doit déjà connaître la vidéo cachée, et vice versa.

« Mathématiquement, c’est comme si je vous disais que je pense à deux nombres secrets, et que leur produit est 80. Pouvez-vous deviner ce que c’est ? Peut-être 40 et 2 ans ? Ou peut-être 371,8 et 0,2152 ? Dans notre problème, nous sommes confrontés à une situation similaire à chaque pixel « , dit Aittala. « Presque toutes les vidéos cachées peuvent être expliquées par un brouillage correspondant, et vice versa. Si on laisse l’ordinateur choisir, il fera ce qu’il faut et nous donnera une grosse pile d’images essentiellement aléatoires qui ne ressemblent à rien. »

Dans cette optique, l’équipe s’est attachée à briser l’ambiguïté en spécifiant algorithmiquement qu’elle voulait un motif de « brouillage » correspondant à des ombres et des ombres réelles plausibles, pour découvrir la vidéo cachée qui semble avoir des bords et des objets qui bougent de façon cohérente.

L’équipe a également utilisé le fait surprenant que les réseaux neuronaux préfèrent naturellement exprimer un contenu  » imaginaire « , même s’ils n’ont jamais été formés pour le faire, ce qui a contribué à briser l’ambiguïté. L’algorithme entraîne deux réseaux de neurones simultanément, où ils sont spécialisés pour la seule vidéo cible, en utilisant les idées d’un concept d’apprentissage machine appelé Image profonde avant. Un réseau produit le modèle de brouillage, et l’autre estime la vidéo cachée. Les réseaux sont récompensés lorsque la combinaison de ces deux facteurs reproduit la vidéo enregistrée à partir de l’encombrement, les poussant à expliquer les observations avec des données cachées plausibles.

Pour tester le système, l’équipe a d’abord empilé des objets sur un mur, puis a projeté une vidéo ou s’est déplacée physiquement sur le mur opposé. À partir de là, ils ont pu reconstituer des vidéos où l’on pouvait avoir une idée générale du mouvement qui se produisait dans la partie cachée de la pièce.

À l’avenir, l’équipe espère améliorer la résolution globale du système et éventuellement tester la technique dans un environnement non contrôlé.

Aittala a écrit un nouvel article sur la technique aux côtés de Prafull Sharma, Lukas Murmann et Adam Yedidia, doctorants de la CSAIL, et des professeurs du MIT Fredo Durand, Bill Freeman et Gregory Wornell. Ils le présenteront la semaine prochaine à la Conférence sur les systèmes de traitement de l’information neuronale à Vancouver, en Colombie-Britannique.

Continue Reading

Previous: Paul McEuen donne la première conférence Dresselhaus sur les robots de la taille d’une cellule.
Next: Les écoles de sciences et d’ingénierie unissent leurs efforts pour transformer l’apprentissage

Articles Liés

L’initiative du MIT pour l’énergie accorde huit subventions de fonds d’amorçage pour les premières étapes de la recherche sur l’énergie du MIT 7 min read
  • Ordinateurs

L’initiative du MIT pour l’énergie accorde huit subventions de fonds d’amorçage pour les premières étapes de la recherche sur l’énergie du MIT

1 juillet 2020
medical-equipment-4099432_1920 Améliorer l’équité en matière de santé dans le monde en aidant les cliniques à faire plus avec moins 7 min read
  • Ordinateurs

Améliorer l’équité en matière de santé dans le monde en aidant les cliniques à faire plus avec moins

26 juin 2020
audience-1835431_1280 Identifier une mélodie en étudiant le langage corporel d’un musicien 4 min read
  • Ordinateurs

Identifier une mélodie en étudiant le langage corporel d’un musicien

26 juin 2020
Lancement du programme MIT-Takeda | MIT News 5 min read
  • Ordinateurs

Lancement du programme MIT-Takeda | MIT News

19 juin 2020
doctor-563428_1280 Apporter le pouvoir prédictif de l’intelligence artificielle aux soins de santé 7 min read
  • Ordinateurs

Apporter le pouvoir prédictif de l’intelligence artificielle aux soins de santé

19 juin 2020
Le MIT et Toyota publient un ensemble de données innovatrices pour accélérer la recherche sur la conduite autonome 4 min read
  • Ordinateurs

Le MIT et Toyota publient un ensemble de données innovatrices pour accélérer la recherche sur la conduite autonome

18 juin 2020

Articles récents

  • L’initiative du MIT pour l’énergie accorde huit subventions de fonds d’amorçage pour les premières étapes de la recherche sur l’énergie du MIT
  • Améliorer l’équité en matière de santé dans le monde en aidant les cliniques à faire plus avec moins
  • Identifier une mélodie en étudiant le langage corporel d’un musicien
  • Lancement du programme MIT-Takeda | MIT News
  • Apporter le pouvoir prédictif de l’intelligence artificielle aux soins de santé

Catégories

  • Entreprises
  • Intelligence Artificielle
  • Ordinateurs
  • Technologie
  • Magazine W30
  • Contact
Copyright © All rights reserved. | Magnitude by AF themes.