Ce qui saute aux yeux sur une photo change au fur et à mesure que l’on regarde
Ce qui attire votre attention au premier coup d’œil peut changer en y regardant de plus près. Cet éléphant vêtu de papier peint rouge peut d’abord attirer votre attention jusqu’à ce que votre regard se porte sur la femme du canapé du salon et que vous vous aperceviez de façon surprenante que le couple semble partager un moment de calme ensemble.
Dans une étude présentée lors de la conférence virtuelle Vision par ordinateur et reconnaissance des formes cette semaine, les chercheurs montrent que notre attention se déplace de manière distincte plus nous fixons une image longtemps et que ces modèles de visionnement peuvent être reproduits par des modèles d’intelligence artificielle. Les travaux suggèrent des moyens immédiats d’améliorer la façon dont le contenu visuel est taquiné et finalement affiché en ligne. Par exemple, un outil de recadrage automatisé pourrait faire un zoom avant sur l’éléphant pour obtenir un aperçu sous forme de vignette ou un zoom arrière pour inclure les détails intrigants qui deviennent visibles une fois que le lecteur clique sur l’histoire.
« Dans le monde réel, nous regardons les scènes qui nous entourent et notre attention se déplace également », dit Anelise NewmanL’auteur de l’étude, co-responsable de l’étude et étudiant en master au MIT. « Ce qui capte notre intérêt varie dans le temps ». Les auteurs principaux de l’étude sont Zoya Bylinskii PhD ’18, chercheur chez Adobe Research, et Aude OlivaIl est co-directeur du MIT Quest for Intelligence et chercheur principal au laboratoire d’informatique et d’intelligence artificielle du MIT.
Ce que les chercheurs savent sur l’importance relative et la façon dont les humains perçoivent les images provient d’expériences dans lesquelles les participants reçoivent des images pendant une période de temps déterminée. Mais dans le monde réel, l’attention des humains se déplace souvent de manière abrupte. Pour simuler cette variabilité, les chercheurs ont utilisé une interface utilisateur de crowdsourcing appelée CodeCharts pour montrer aux participants des photos pendant trois durées – une demi-seconde, 3 secondes et 5 secondes – dans le cadre d’une série d’expériences en ligne.
Lorsque l’image a disparu, les participants ont été invités à indiquer où ils avaient regardé pour la dernière fois en tapant un code à trois chiffres sur une carte quadrillée correspondant à l’image. À la fin, les chercheurs ont pu rassembler des cartes thermiques des endroits où, dans une image donnée, les participants avaient collectivement concentré leur regard à différents moments dans le temps.
À la fraction de seconde, les spectateurs se concentrent sur les visages ou sur un animal ou un objet visuellement dominant. En 3 secondes, leur regard s’était déplacé vers des éléments orientés vers l’action, comme un chien en laisse, une cible de tir à l’arc ou un frisbee aérien. À 5 secondes, leur regard s’est soit reporté, comme un boomerang, sur le sujet principal, soit il s’est attardé sur les détails suggestifs.
« Nous avons été surpris de constater à quel point ces habitudes de visionnage étaient cohérentes à différentes durées », déclare l’autre auteur principal de l’étude, Camilo Foscoun étudiant en doctorat au MIT.
Avec des données du monde réel en main, les chercheurs ont ensuite formé un modèle d’apprentissage approfondi pour prédire les points focaux d’images qu’il n’avait jamais vues auparavant, à différentes durées de visualisation. Pour réduire la taille de leur modèle, ils ont inclus un module récurrent qui travaille sur des représentations compressées de l’image d’entrée, imitant le regard humain lorsqu’il explore une image à des durées variables. Lorsqu’il a été testé, leur modèle a surpassé l’état de l’art en matière de prédiction de l’importance de l’image pour les différentes durées de visionnement.
Le modèle a des applications potentielles pour l’édition et le rendu d’images compressées et même pour améliorer la précision du sous-titrage automatisé des images. En plus de guider un outil d’édition pour recadrer une image pour des durées de visualisation plus ou moins longues, il pourrait donner la priorité aux éléments d’une image compressée à rendre en premier pour les spectateurs. En éliminant l’encombrement visuel d’une scène, il pourrait améliorer la précision globale des techniques actuelles de sous-titrage des photos. Il pourrait également générer des sous-titres pour les images destinées à être visionnées en une fraction de seconde seulement.
« Le contenu que vous considérez comme le plus important dépend du temps dont vous disposez pour le consulter », explique M. Bylinskii. « Si vous voyez l’image complète en une seule fois, vous n’aurez peut-être pas le temps de tout absorber ».
Comme de plus en plus d’images et de vidéos sont partagées en ligne, le besoin de meilleurs outils pour trouver et donner un sens aux contenus pertinents se fait de plus en plus sentir. La recherche sur l’attention humaine offre des perspectives aux technologues. Tout comme les ordinateurs et les téléphones portables équipés d’appareils photo ont contribué à créer la surcharge de données, ils offrent également aux chercheurs de nouvelles plateformes pour étudier l’attention humaine et concevoir de meilleurs outils pour nous aider à réduire le bruit.
Dans une étude connexe acceptée par le Conférence de l’ACM sur les facteurs humains dans les systèmes informatiquesLes chercheurs soulignent les avantages relatifs de quatre interfaces utilisateur basées sur le web, dont les CodeCharts, pour la collecte de données sur l’attention humaine à l’échelle. Ces quatre outils permettent de capter l’attention sans avoir recours au matériel traditionnel de suivi du regard dans un laboratoire, soit en recueillant des données de regard autodéclarées, comme le fait CodeCharts, soit en enregistrant l’endroit où les sujets cliquent sur leur souris ou zooment sur une image.
« Il n’y a pas d’interface unique qui fonctionne pour tous les cas d’utilisation, et notre document se concentre sur la recherche de ces compromis », explique M. Newman, auteur principal de l’étude.
En rendant la collecte de données sur l’attention humaine plus rapide et moins coûteuse, les plateformes peuvent contribuer à générer de nouvelles connaissances sur la vision et la cognition humaines. « Plus nous en apprenons sur la façon dont les humains voient et comprennent le monde, plus nous pouvons intégrer ces connaissances dans nos outils d’IA pour les rendre plus utiles », explique Oliva.
Les autres auteurs du document du CVPR sont Pat Sukhum, Yun Bin Zhang et Nanxuan Zhao. La recherche a été soutenue par le programme Vannevar Bush Faculty Fellowship, une subvention Ignite de SystemsThatLearn@CSAIL, et les services de cloud computing du MIT Quest.