Récupérer les « dimensions perdues » des images et de la vidéo
Les chercheurs du MIT ont mis au point un modèle qui récupère les données précieuses perdues à partir d’images et de vidéos qui ont été » réduites » en dimensions inférieures.
Le modèle pourrait être utilisé pour recréer des vidéos à partir d’images floues par le mouvement ou de nouveaux types de caméras qui capturent les mouvements d’une personne dans les coins, mais seulement sous forme de lignes unidimensionnelles vagues. Bien que d’autres essais soient nécessaires, les chercheurs pensent que cette approche pourrait un jour être utilisée pour convertir des images médicales 2D en scans corporels 3D plus informatifs – mais plus coûteux -, ce qui pourrait profiter à l’imagerie médicale dans les pays les plus pauvres.
« Dans tous ces cas, les données visuelles ont une dimension – dans le temps ou dans l’espace – qui est complètement perdue « , explique Guha Balakrishnan, postdoctorant au Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et premier auteur d’un article décrivant le modèle, qui sera présenté la semaine prochaine au Congrès international sur la vision par ordinateur. « Si nous retrouvons cette dimension perdue, elle peut avoir beaucoup d’applications importantes. »
Les données visuelles capturées réduisent souvent les données de multiples dimensions du temps et de l’espace en une ou deux dimensions, appelées « projections ». Les rayons X, par exemple, réduisent les données tridimensionnelles sur les structures anatomiques en une image plane. Ou, considérez une longue exposition d’étoiles se déplaçant dans le ciel : Les étoiles, dont la position change avec le temps, apparaissent sous forme de stries floues dans la photo.
De même, les « caméras de coin », récemment inventées au MIT, détectent les personnes qui se déplacent dans les coins. Cela pourrait être utile, par exemple, pour les pompiers qui trouvent des gens dans des immeubles en feu. Mais les caméras ne sont pas vraiment conviviales. Actuellement, ils ne produisent que des projections qui ressemblent à des lignes floues et sinueuses, correspondant à la trajectoire et à la vitesse d’une personne.
Les chercheurs ont inventé un modèle de « déprojection visuelle » qui utilise un réseau neuronal pour « apprendre » des motifs qui associent des projections de faible dimension à leurs images et vidéos originales de haute dimension. Compte tenu des nouvelles projections, le modèle utilise ce qu’il a appris pour recréer toutes les données originales d’une projection.
Dans le cadre d’expériences, le modèle a synthétisé des images vidéo précises montrant des personnes marchant, en extrayant de l’information de lignes unidimensionnelles uniques semblables à celles produites par les caméras de coin. Le modèle a également récupéré des images vidéo à partir de projections uniques et floues de chiffres se déplaçant autour d’un écran, à partir de l’écran populaire MNIST en mouvement ensemble de données.
Rejoindre Balakrishnan sur le papier, c’est : Amy Zhao, étudiante diplômée au Département de génie électrique et d’informatique (EECS) et à la CSAIL, John Guttag, Fredo Durand et William T. Freeman, professeurs à l’EECS, et Adrian Dalca, membre du corps enseignant en radiologie à la Harvard Medical School.
Indices en pixels
Le travail a commencé comme un » problème d’inversion cool » pour recréer le mouvement qui provoque le flou de mouvement dans la photographie à longue exposition, dit Balakrishnan. Dans les pixels d’une projection, il existe des indices sur la source à haute dimension.
Les appareils photo numériques, par exemple, qui capturent des prises de vue à exposition longue, regroupent les photons sur une certaine période de temps pour chaque pixel. En capturant le mouvement d’un objet au fil du temps, l’appareil prendra la valeur moyenne des pixels capturant le mouvement. Ensuite, il applique ces valeurs moyennes aux hauteurs et largeurs correspondantes d’une image fixe, ce qui crée les traînées floues caractéristiques de la trajectoire de l’objet. En calculant quelques variations dans l’intensité des pixels, le mouvement peut théoriquement être recréé.
Comme les chercheurs l’ont compris, ce problème se pose dans de nombreux domaines : Les rayons X, par exemple, capturent la hauteur, la largeur et la profondeur des structures anatomiques, mais ils utilisent une technique similaire de calcul de la moyenne des pixels pour réduire la profondeur dans une image 2D. Les caméras d’angle – inventées en 2017 par Freeman, Durand et d’autres chercheurs – capturent des signaux lumineux réfléchis autour d’une scène cachée qui transportent des informations bidimensionnelles sur la distance d’une personne aux murs et aux objets. La technique de calcul de la moyenne des pixels réduit ensuite ces données en une vidéo unidimensionnelle – essentiellement, des mesures de différentes longueurs dans le temps en une seule ligne.
Les chercheurs ont construit un modèle général, basé sur un réseau neuronal convolutionnel (CNN) – un modèle d’apprentissage machine qui est devenu un moteur pour les tâches de traitement d’images – qui capture des indices sur toute dimension perdue en pixels moyens.
Synthétiser les signaux
En formation, les chercheurs ont nourri le CNN de milliers de paires de projections et de leurs sources à haute dimension, appelées « signaux ». Le CNN apprend les modèles de pixels dans les projections qui correspondent à ceux des signaux. L’alimentation du CNN est un cadre appelé » autocodeur variationnel « , qui évalue dans quelle mesure les sorties du CNN correspondent à ses entrées selon une certaine probabilité statistique. A partir de là, le modèle apprend un « espace » de tous les signaux possibles qui auraient pu produire une projection donnée. Cela crée, par essence, un type de plan pour passer d’une projection à tous les signaux d’appariement possibles.
Lorsqu’il est montré avec des projections inédites, le modèle note les motifs de pixels et suit les plans de tous les signaux possibles qui auraient pu produire cette projection. Ensuite, il synthétise de nouvelles images qui combinent toutes les données de la projection et toutes les données du signal. Cela recrée le signal de haute dimension.
Dans le cadre d’une expérience, les chercheurs ont recueilli un ensemble de données de 35 vidéos montrant 30 personnes marchant dans une zone donnée. Ils ont regroupé toutes les images en projections qu’ils ont utilisées pour former et tester le modèle. À partir d’un ensemble de six projections invisibles, le modèle a recréé avec précision 24 images de la démarche de la personne, jusqu’à la position de ses jambes et la taille de la personne alors qu’elle marchait vers ou loin de la caméra. Le modèle semble apprendre, par exemple, que les pixels qui deviennent plus foncés et plus larges avec le temps correspondent probablement à une personne qui se rapproche de la caméra.
« C’est presque comme par magie que nous sommes en mesure de retrouver ce détail « , dit Balakrishnan.
Les chercheurs n’ont pas testé leur modèle sur des images médicales. Mais ils collaborent maintenant avec leurs collègues de l’Université Cornell pour récupérer des informations anatomiques 3D à partir d’images médicales 2D, comme les radiographies, sans frais supplémentaires – ce qui peut permettre une imagerie médicale plus détaillée dans les pays les plus pauvres. Les médecins préfèrent surtout les scanners 3D, comme ceux qui sont capturés par tomodensitométrie, parce qu’ils contiennent beaucoup plus d’informations médicales utiles. Mais les tomodensitogrammes sont généralement difficiles et coûteux à obtenir.
« Si nous pouvions convertir les rayons X en tomodensitogrammes, cela changerait quelque peu la donne « , dit Balakrishnan. « Vous pourriez prendre une radio et la faire passer à travers notre algorithme et voir toutes les informations perdues. »