Aider les machines à percevoir certaines lois de la physique

Les humains ont une compréhension précoce des lois de la réalité physique. Les nourrissons, par exemple, s’attendent à ce que les objets bougent et interagissent les uns avec les autres, et ils seront surpris lorsqu’ils font quelque chose d’inattendu, comme disparaître dans un tour de passe-passe magique.
Aujourd’hui, les chercheurs du MIT ont conçu un modèle qui démontre une compréhension d’une certaine « physique intuitive » de base sur la façon dont les objets devraient se comporter. Le modèle pourrait être utilisé pour aider à construire une intelligence artificielle plus intelligente et, à son tour, fournir de l’information pour aider les scientifiques à comprendre la cognition des nourrissons.
Le modèle, appelé ADEPT, observe les objets se déplaçant autour d’une scène et fait des prédictions sur la façon dont les objets doivent se comporter, en se basant sur leur physique sous-jacente. Lors du suivi des objets, le modèle émet un signal à chaque image vidéo qui correspond à un niveau de « surprise » – plus le signal est grand, plus la surprise est grande. Si un objet ne correspond pas de façon spectaculaire aux prédictions du modèle – par exemple, en disparaissant ou en se téléportant d’une scène à l’autre – ses niveaux de surprise vont monter en flèche.
En réponse aux vidéos montrant des objets se déplaçant de façon physiquement plausible et invraisemblable, le modèle a enregistré des niveaux de surprise qui correspondaient aux niveaux rapportés par les humains qui avaient regardé les mêmes vidéos.
« Lorsque les nourrissons atteignent l’âge de 3 mois, ils ont l’impression que les objets ne clignent pas des yeux et ne disparaissent pas, qu’ils ne peuvent pas se déplacer ou se téléporter « , explique Kevin A. Smith, premier auteur, chercheur scientifique au Département des sciences cérébrales et cognitives (BCS) et membre du Center for Brains, Minds, and Machines (CBMM). « Nous voulions capturer et formaliser ces connaissances afin d’intégrer la cognition infantile dans les agents de l’intelligence artificielle. Nous nous approchons de l’humain, comme les mannequins peuvent démêler des scènes de base invraisemblables ou plausibles. »
Lingjie Mei, un étudiant de premier cycle du département de génie électrique et d’informatique, et Shunyu Yao, chercheur au BCS ; Jiajun Wu PhD’19 ; Elizabeth Spelke, chercheuse au CBMM ; Joshua B. se joignent à Smith pour cet article. Tenenbaum, professeur de science cognitive computationnelle et chercheur au CBMM, au BCS et au Laboratoire d’informatique et d’intelligence artificielle (CSAIL) ; et Tomer D. Ullman, chercheur au CBMM, PhD’15.
Réalités inadaptées
ADEPT s’appuie sur deux modules : un module « graphique inverse » qui capture les représentations d’objets à partir d’images brutes, et un « moteur physique » qui prédit les représentations futures des objets à partir d’une distribution des possibilités.
Les graphiques inverses extraient essentiellement les informations sur les objets – telles que la forme, la pose et la vitesse – à partir des entrées de pixels. Ce module capture des images vidéo sous forme d’images et utilise des graphiques inverses pour extraire ces informations des objets de la scène. Mais il ne s’enlise pas dans les détails. ADEPT n’a besoin que d’une géométrie approximative de chaque forme pour fonctionner. Cela aide en partie le modèle à généraliser les prédictions à de nouveaux objets, et pas seulement à ceux sur lesquels il est formé.
« Peu importe qu’il s’agisse d’un rectangle ou d’un cercle, d’un camion ou d’un canard. ADEPT voit juste qu’il y a un objet avec une certaine position, se déplaçant d’une certaine manière, pour faire des prédictions, » dit Smith. « De même, les jeunes enfants ne semblent pas se soucier de certaines propriétés comme la forme physique lorsqu’ils font des prédictions physiques. »
Ces descriptions grossières d’objets sont introduites dans un moteur physique – un logiciel qui simule le comportement des systèmes physiques, tels que les corps rigides ou fluides, et est couramment utilisé pour les films, les jeux vidéo et l’infographie. Le moteur physique des chercheurs » pousse les objets en avant dans le temps « , dit Ullman. Cela crée une gamme de prédictions, ou une « distribution de croyances », pour ce qui va arriver à ces objets dans la trame suivante.
Ensuite, le modèle observe l’image suivante réelle. Une fois de plus, il capture les représentations de l’objet, qu’il aligne ensuite sur l’une des représentations prévues de l’objet à partir de sa distribution de croyances. Si l’objet a obéi aux lois de la physique, il n’y aura pas beaucoup de décalage entre les deux représentations. Par contre, si l’objet a fait quelque chose d’invraisemblable – disons qu’il a disparu de derrière un mur – il y aura un grand décalage.
ADEPT rééchantillonne ensuite à partir de sa distribution de croyances et note une très faible probabilité que l’objet ait simplement disparu. S’il y a une probabilité suffisamment faible, le modèle enregistre une grande « surprise » comme un pic de signal. Fondamentalement, la surprise est inversement proportionnelle à la probabilité qu’un événement se produise. Si la probabilité est très faible, la pointe du signal est très élevée.
« Si un objet passe derrière un mur, votre moteur physique maintient une croyance que l’objet est toujours derrière le mur. Si le mur s’effondre et qu’il n’y a rien, il y a un décalage « , dit M. Ullman. Puis, le modèle dit : » Il y a un objet dans ma prédiction, mais je ne vois rien. La seule explication, c’est qu’il a disparu, c’est surprenant. »
Violation des attentes
En psychologie du développement, les chercheurs réalisent des tests de » violation des attentes » dans le cadre desquels des paires de vidéos sont montrées aux nourrissons. Une vidéo montre un événement plausible, avec des objets qui adhèrent à leurs notions attendues sur le fonctionnement du monde. L’autre vidéo est la même dans tous les sens, sauf que les objets se comportent d’une manière qui viole les attentes d’une certaine façon. Les chercheurs utilisent souvent ces tests pour mesurer combien de temps le nourrisson regarde une scène après qu’une action invraisemblable s’est produite. Plus ils fixent longtemps, les chercheurs émettent des hypothèses, plus ils peuvent être surpris ou intéressés par ce qui vient de se passer.
Pour leurs expériences, les chercheurs ont créé plusieurs scénarios basés sur la recherche développementale classique pour examiner les connaissances de base du modèle sur les objets. Ils ont employé 60 adultes pour regarder 64 vidéos de scénarios physiquement plausibles et physiquement invraisemblables connus. Les objets, par exemple, se déplaceront derrière un mur et, lorsque le mur tombera, ils seront toujours là ou ils seront partis. Les participants ont évalué leur surprise à divers moments sur une échelle croissante de 0 à 100. Ensuite, les chercheurs ont montré les mêmes vidéos au modèle. Plus précisément, les scénarios ont examiné la capacité du modèle à saisir les notions de permanence (les objets n’apparaissent pas ou disparaissent sans raison), de continuité (les objets se déplacent le long de trajectoires reliées) et de solidité (les objets ne peuvent se déplacer entre eux).
ADEPT correspondait particulièrement bien aux humains sur les vidéos où les objets se déplaçaient derrière les murs et disparaissaient lorsque le mur était enlevé. Il est intéressant de noter que le modèle a également égalé des niveaux de surprise sur des vidéos qui n’ont pas surpris les humains, mais qui auraient peut-être dû l’être. Par exemple, dans une vidéo où un objet se déplaçant à une certaine vitesse disparaît derrière un mur et sort immédiatement de l’autre côté, l’objet peut avoir accéléré considérablement lorsqu’il est passé derrière le mur ou il a pu se téléporter de l’autre côté. En général, les humains et l’ADEPT étaient tous les deux moins certains que cet événement était surprenant ou non. Les chercheurs ont également découvert que les réseaux neuronaux traditionnels qui apprennent la physique à partir d’observations – mais qui ne représentent pas explicitement les objets – sont beaucoup moins précis pour différencier les scènes surprenantes des scènes non surprenantes, et leurs choix de scènes surprenantes ne sont pas souvent alignés avec ceux des humains.
Ensuite, les chercheurs ont l’intention d’approfondir la façon dont les nourrissons observent et apprennent à connaître le monde, dans le but d’intégrer toute nouvelle découverte dans leur modèle. Des études, par exemple, montrent que les nourrissons jusqu’à un certain âge ne sont pas très surpris lorsque les objets changent complètement d’une certaine façon, par exemple si un camion disparaît derrière un mur, mais réapparaît comme un canard.
« Nous voulons voir ce qu’il faut intégrer d’autre pour comprendre le monde comme les nourrissons et formaliser ce que nous savons de la psychologie pour créer de meilleurs agents d’IA « , dit Smith.