Qu'est-ce qui rend une image mémorable ? Demandez à un ordinateur

De la « Joconde » à la « Fille à la boucle d’oreille en perle », certaines images restent dans l’esprit longtemps après que d’autres se soient fanées. Demandez à un artiste pourquoi, et vous entendrez peut-être certains principes généralement acceptés pour faire de l’art mémorable. Il y a maintenant un moyen plus facile d’apprendre : demandez à un modèle d’intelligence artificielle de dessiner un exemple.

Une nouvelle étude utilisant l’apprentissage automatique pour générer des images allant d’un cheeseburger mémorable à une tasse de café oubliable montre en détail ce qui distingue un portrait ou une scène. Les images dont les sujets humains de l’étude se souvenaient le mieux étaient celles qui présentaient des couleurs vives, des arrière-plans simples et des sujets qui étaient bien centrés dans le cadre. Résultats ont été présentés cette semaine à la conférence de l Conférence internationale sur la vision par ordinateur.

« Une image vaut mille mots, dit l’auteur principal de l’étude. Phillip IsolaBonnie et Marty (1964) Tenenbaum CD Assistant Professor of Electrical Engineering and Computer Science au MIT. « On a beaucoup écrit sur la mémorisation, mais cette méthode nous permet de visualiser à quoi elle ressemble. Cela nous donne une définition visuelle de quelque chose qui est difficile à traduire en mots. »

L’œuvre s’appuie sur un modèle antérieur, MemNet, qui évalue la mémorisation d’une image et met en évidence les caractéristiques de l’image qui influencent sa décision. Les prédictions de MemNet sont basées sur les résultats d’une étude en ligne dans laquelle 60 000 images ont été montrées à des sujets humains et classées selon la facilité avec laquelle on s’en souvient..

Le modèle de la présente étude, GANalyzeutilise une technique d’apprentissage machine appelée réseaux génératifs d’opposition, ou GANs, pour visualiser une image unique alors qu’elle passe de « meh » à mémorable. GANalyze permet de visualiser la transformation incrémentale d’un panda flou perdu dans le bambou en un panda qui domine le cadre, ses yeux, ses oreilles et ses pattes noires contrastant avec sa tasse blanche de façon nette et adorable.

Le GAN de surimpression est composé de trois modules. Un évaluateur, basé sur MemNet, tourne le bouton de mémorisation sur une image cible et calcule comment obtenir l’effet désiré. Un transformateur exécute ses instructions et un générateur produit l’image finale.

La progression a la sensation dramatique d’une image en accéléré. Un cheeseburger déplacé à l’extrémité de l’échelle de mémorisation semble plus gros, plus brillant et, comme le font remarquer les auteurs, » plus savoureux » que ses versions précédentes. Une coccinelle a l’air plus brillante et plus ciblée. Dans une tournure inattendue, un poivre sur la vigne devient caméléon du vert au rouge.

Les chercheurs se sont également penchés sur les caractéristiques qui influencent le plus la mémorisation. Dans les expériences en ligne, on a montré aux sujets humains des images dont la mémorisation variait et on leur a demandé de signaler toute répétition. Il s’avère que les duplicatas les plus collants présentaient des sujets plus rapprochés, faisant apparaître les animaux ou les objets dans le cadre plus grands. Les facteurs suivants les plus importants étaient la luminosité, le sujet étant centré dans le cadre et de forme carrée ou circulaire.

« Le cerveau humain a évolué pour se concentrer davantage sur ces caractéristiques, et c’est ce que le GAN détecte « , explique le coauteur de l’étude. Lore Goetschalckxun étudiant diplômé invité de la Katholieke Universiteit Leuven en Belgique.

Les chercheurs ont également reconfiguré GANanalyze pour générer des images d’une esthétique et d’un attrait émotionnel variés. Ils ont constaté que les images mieux cotées sur les plans esthétique et émotionnel étaient plus lumineuses, plus colorées et avaient une faible profondeur de champ qui brouillait l’arrière-plan, tout comme les images les plus mémorables. Cependant, les images les plus esthétiques n’étaient pas toujours mémorables.

Selon les chercheurs, le GANalyze a un certain nombre d’applications potentielles. Il pourrait être utilisé pour détecter, et même traiter, les pertes de mémoire en améliorant les objets dans un système de réalité augmentée.

« Au lieu d’utiliser un médicament pour améliorer la mémoire, vous pourriez améliorer le monde à l’aide d’un appareil de réalité augmentée pour faire ressortir les objets facilement égarés comme les clés « , dit l’auteur principal de l’étude. Aude Olivaun chercheur scientifique principal au MIT, à l’Université de Toronto. Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et directeur exécutif de la MIT Quest for Intelligence.

GANalyze pourrait également être utilisé pour créer des graphiques inoubliables pour aider les lecteurs à retenir l’information. « Cela pourrait révolutionner l’éducation « , dit Oliva. Enfin, les GAN commencent déjà à être utilisés pour générer des images synthétiques et réalistes du monde afin d’aider à former les systèmes automatisés à reconnaître les lieux et les objets qu’ils sont peu susceptibles de rencontrer dans la vie réelle.

Les modèles génératifs offrent aux humains et aux machines de nouvelles façons créatives de collaborer. Coauteur de l’étude Alex Andonianun étudiant diplômé du MIT Département de génie électrique et d’informatiqueC’est pourquoi il a choisi d’en faire l’objet de son doctorat.

« Les logiciels de conception vous permettent de régler la luminosité d’une image, mais pas sa mémorisation globale ni son attrait esthétique – les GAN vous le permettent « , dit-il. « Nous commençons à peine à effleurer la surface de ce que ces modèles peuvent faire. »

L’étude a été financée par la National Science Foundation des États-Unis.

L’initiative du MIT pour l’énergie accorde huit subventions de fonds d’amorçage pour les premières étapes de la recherche sur l’énergie du MIT

Améliorer l’équité en matière de santé dans le monde en aidant les cliniques à faire plus avec moins

Identifier une mélodie en étudiant le langage corporel d’un musicien

Lancement du programme MIT-Takeda | MIT News

Apporter le pouvoir prédictif de l’intelligence artificielle aux soins de santé

Le MIT et Toyota publient un ensemble de données innovatrices pour accélérer la recherche sur la conduite autonome

Articles Liés