Skip to content
Logo csisimple

C Si Simple

Le réseau de connaissances pour les Pros !

Primary Menu
  • Technologie
  • Ordinateurs
  • Intelligence Artificielle
  • Home
  • Ordinateurs
  • Visualiser le monde au-delà du cadre
  • Ordinateurs

Visualiser le monde au-delà du cadre

7 mai 2020 4 min read

La plupart des camions de pompiers sont rouges, mais il n’est pas difficile d’en imaginer un en bleu. Les ordinateurs ne sont pas aussi créatifs.

Leur compréhension du monde est colorée, souvent littéralement, par les données sur lesquelles ils se sont entraînés. Si tout ce qu’ils ont jamais vu, ce sont des images de camions de pompiers rouges, ils ont du mal à dessiner autre chose.

Pour donner aux modèles de vision par ordinateur une vision plus complète et plus imaginative du monde, les chercheurs ont essayé de leur fournir des images plus variées. Certains ont essayé de photographier des objets sous des angles bizarres et dans des positions inhabituelles, afin de mieux rendre compte de leur complexité dans le monde réel. D’autres ont demandé aux modèles de générer leurs propres images, en utilisant une forme d’intelligence artificielle appelée GAN, ou réseaux adversaires générateurs. Dans les deux cas, l’objectif est de combler les lacunes des ensembles de données d’images pour mieux refléter le monde tridimensionnel et rendre les modèles de reconnaissance des visages et des objets moins biaisés.

Dans une nouvelle étude Lors de la conférence internationale sur les représentations de l’apprentissage, les chercheurs du MIT proposent une sorte de test de créativité pour voir jusqu’où les RAG peuvent aller dans le riff sur une image donnée. Ils « dirigent » le modèle vers le sujet de la photo et lui demandent de dessiner des objets et des animaux en gros plan, en pleine lumière, en rotation dans l’espace ou en différentes couleurs.

Les créations du modèle varient de manière subtile, parfois surprenante. Et il s’avère que ces variations suivent de près la créativité des photographes humains dans le cadrage des scènes devant leur objectif. Ces biais sont intégrés dans l’ensemble des données sous-jacentes, et la méthode de pilotage proposée dans l’étude vise à rendre ces limites visibles.

« L’espace latent est l’endroit où se trouve l’ADN d’une image », explique Ali Jahanian, co-auteur de l’étude et chercheur au MIT. « Nous montrons que vous pouvez vous diriger dans cet espace abstrait et contrôler les propriétés que vous voulez que le GAN exprime – jusqu’à un certain point. Nous constatons que la créativité d’un GAN est limitée par la diversité des images dont il tire des enseignements ». Jahanian est rejoint dans cette étude par le co-auteur Lucy Chai, doctorante au MIT et auteur principal Phillip Isola, le CD Bonnie and Marty (1964) Tenenbaum Professeur assistant de génie électrique et d’informatique.

Les chercheurs ont appliqué leur méthode à des GAN qui avaient déjà été formés sur les 14 millions de photos d’ImageNet. Ils ont ensuite mesuré jusqu’où les modèles pouvaient aller dans la transformation de différentes classes d’animaux, d’objets et de scènes. Ils ont constaté que le niveau de risque artistique variait considérablement selon le type de sujet que le GAN essayait de manipuler.

Par exemple, une montgolfière qui s’élève a généré des poses plus frappantes que, disons, une pizza tournée. Il en a été de même pour un zoom sur un chat persan plutôt que sur un merle, le chat se fondant dans un tas de fourrure plus il s’éloigne du spectateur alors que l’oiseau reste pratiquement inchangé. Le modèle a joyeusement fait virer une voiture au bleu et une méduse au rouge, mais il a refusé de dessiner un chardonneret ou un camion de pompiers autrement que dans leurs couleurs habituelles.

Les RAG semblaient aussi étonnamment en harmonie avec certains paysages. Lorsque les chercheurs ont relevé la luminosité sur un ensemble de photos de montagnes, le modèle a ajouté de façon fantaisiste des éruptions de feu au volcan, mais pas un parent géologiquement plus âgé et dormant dans les Alpes. C’est comme si les GANs avaient remarqué les changements d’éclairage lorsque le jour se transforme en nuit, mais semblaient comprendre que seuls les volcans deviennent plus lumineux la nuit.

L’étude rappelle à quel point les résultats des modèles d’apprentissage approfondi dépendent des données qu’ils contiennent, selon les chercheurs. Les réseaux d’apprentissage en profondeur ont attiré l’attention des chercheurs en intelligence pour leur capacité à extrapoler à partir des données et à visualiser le monde de manière nouvelle et inventive.

Ils peuvent prendre une photo de tête et la transformer en un portrait de style Renaissance ou en une célébrité préférée. Mais si les RAG sont capables d’apprendre par eux-mêmes des détails surprenants, comme la façon de diviser un paysage en les nuages et les arbresou génèrent des images qui restent dans l’esprit des gens, ils sont encore pour la plupart esclaves des données. Leurs créations reflètent les préjugés de milliers de photographes, tant dans ce qu’ils ont choisi de photographier que dans la façon dont ils ont cadré leur sujet.

« Ce que j’aime dans ce travail, c’est qu’il s’agit de fouiller dans les représentations que le GAN a apprises, et de le pousser à révéler pourquoi il a pris ces décisions », explique Jaako Lehtinen, professeur à l’université finlandaise d’Aaalto et chercheur chez NVIDIA qui n’a pas participé à l’étude. « Les GANs sont incroyables, et peuvent apprendre toutes sortes de choses sur le monde physique, mais ils ne peuvent toujours pas représenter les images de manière physiquement significative, comme les humains le peuvent ».

Continue Reading

Previous: Trois membres du MIT élus à l’Académie nationale des sciences pour 2020
Next: Kerry Emanuel, David Sabatini et Peter Shor reçoivent le prix BBVA Frontiers of Knowledge

Articles Liés

L’initiative du MIT pour l’énergie accorde huit subventions de fonds d’amorçage pour les premières étapes de la recherche sur l’énergie du MIT 7 min read
  • Ordinateurs

L’initiative du MIT pour l’énergie accorde huit subventions de fonds d’amorçage pour les premières étapes de la recherche sur l’énergie du MIT

1 juillet 2020
medical-equipment-4099432_1920 Améliorer l’équité en matière de santé dans le monde en aidant les cliniques à faire plus avec moins 7 min read
  • Ordinateurs

Améliorer l’équité en matière de santé dans le monde en aidant les cliniques à faire plus avec moins

26 juin 2020
audience-1835431_1280 Identifier une mélodie en étudiant le langage corporel d’un musicien 4 min read
  • Ordinateurs

Identifier une mélodie en étudiant le langage corporel d’un musicien

26 juin 2020
Lancement du programme MIT-Takeda | MIT News 5 min read
  • Ordinateurs

Lancement du programme MIT-Takeda | MIT News

19 juin 2020
doctor-563428_1280 Apporter le pouvoir prédictif de l’intelligence artificielle aux soins de santé 7 min read
  • Ordinateurs

Apporter le pouvoir prédictif de l’intelligence artificielle aux soins de santé

19 juin 2020
Le MIT et Toyota publient un ensemble de données innovatrices pour accélérer la recherche sur la conduite autonome 4 min read
  • Ordinateurs

Le MIT et Toyota publient un ensemble de données innovatrices pour accélérer la recherche sur la conduite autonome

18 juin 2020

Articles récents

  • L’initiative du MIT pour l’énergie accorde huit subventions de fonds d’amorçage pour les premières étapes de la recherche sur l’énergie du MIT
  • Améliorer l’équité en matière de santé dans le monde en aidant les cliniques à faire plus avec moins
  • Identifier une mélodie en étudiant le langage corporel d’un musicien
  • Lancement du programme MIT-Takeda | MIT News
  • Apporter le pouvoir prédictif de l’intelligence artificielle aux soins de santé

Catégories

  • Entreprises
  • Intelligence Artificielle
  • Ordinateurs
  • Technologie
  • Magazine W30
  • Contact
Copyright © All rights reserved. | Magnitude by AF themes.