Identifier une mélodie en étudiant le langage corporel d’un musicien
Nous écoutons la musique avec nos oreilles, mais aussi avec nos yeux, en regardant avec appréciation les doigts du pianiste voler sur les touches et l’archet du violoniste se balancer sur la crête des cordes. Lorsque l’oreille ne parvient pas à distinguer deux instruments, l’œil se met souvent à l’écoute en faisant correspondre les mouvements de chaque musicien au rythme de chaque partie.
A nouvel outil d’intelligence artificielle développé par la MIT-IBM Watson AI Lab exploite les yeux et les oreilles virtuels d’un ordinateur pour séparer des sons similaires qu’il est difficile, même pour les humains, de différencier. L’outil améliore les itérations précédentes en faisant correspondre les mouvements des musiciens individuels, via leurs points clés squelettiques, au tempo des différentes parties, ce qui permet aux auditeurs d’isoler une seule flûte ou un seul violon parmi plusieurs flûtes ou violons.
Les applications potentielles de cette œuvre vont du mixage sonore, à l’augmentation du volume d’un instrument dans un enregistrement, en passant par la réduction de la confusion qui amène les gens à se parler lors d’une vidéoconférence. L’œuvre sera présentée lors de la conférence virtuelle Reconnaissance des formes de vision par ordinateur ce mois-ci.
« Les points clés du corps fournissent des informations structurelles puissantes », affirme l’auteur principal de l’étude, Chuang Ganun chercheur d’IBM au laboratoire. « Nous utilisons cela ici pour améliorer la capacité de l’IA à écouter et à séparer le son. »
Dans ce projet, et dans d’autres similaires, les chercheurs ont capitalisé sur des pistes audio-vidéo synchronisées pour recréer la façon dont les humains apprennent. Un système d’IA qui apprend par le biais de multiples modalités sensorielles pourrait être capable d’apprendre plus rapidement, avec moins de données, et sans que les humains n’aient à ajouter de fâcheuses étiquettes à chaque représentation du monde réel. « Nous apprenons de tous nos sens », déclare Antonio Torralba, professeur au MIT et coauteur de l’étude. « Le traitement multi-sensoriel est le précurseur de l’intelligence incorporée et des systèmes d’IA qui peuvent effectuer des tâches plus compliquées ».
L’outil actuel, qui utilise les gestes du corps pour séparer les sons, s’appuie sur des travaux antérieurs qui exploitaient les indices de mouvement dans des séquences d’images. Sa première incarnation, PixelPlayer, permet de cliquer sur un instrument dans une vidéo de concert pour le rendre plus fort ou plus doux. Un mise à jour à PixelPlayer vous permettait de distinguer deux violons dans un duo en faisant correspondre les mouvements de chaque musicien au tempo de sa partie. Cette nouvelle version ajoute des données clés, privilégiées par les analystes sportifs pour suivre les performances des athlètes, afin d’extraire des données de mouvement à grain plus fin pour distinguer des sons presque identiques.
L’ouvrage souligne l’importance des repères visuels pour apprendre aux ordinateurs à mieux entendre et des repères sonores pour leur permettre de mieux voir. Tout comme l’étude actuelle utilise les informations de la pose des musiciens pour isoler des instruments au son similaire, des travaux antérieurs ont exploité les sons pour isoler des animaux et des objets d’apparence similaire.
Torralba et ses collègues ont montré que les modèles d’apprentissage profond formés sur des données audio-vidéo couplées peuvent apprendre à reconnaître les sons naturels comme le chant des oiseaux ou le fracas des vagues. Ils peuvent également déterminer les coordonnées géographiques d’un voiture en mouvement du bruit de son moteur et de ses pneus roulant vers ou à l’écart d’un microphone.
Cette dernière étude suggère que les outils de suivi sonore pourraient être un complément utile dans les voitures à conduite autonome, en complément de leurs caméras dans de mauvaises conditions de conduite. « Les systèmes de repérage sonore pourraient être particulièrement utiles la nuit ou par mauvais temps, en permettant de repérer des voitures qui pourraient autrement passer inaperçues », explique Hang Zhao, PhD ’19, qui a contribué aux études sur le mouvement et le repérage sonore.
Deng Huang et Joshua Tenenbaum du MIT sont d’autres auteurs de l’étude sur les gestes musicaux du CVPR.