Utiliser les mathématiques pour mélanger les notes musicales de façon transparente
En musique, « portamento » est un terme utilisé depuis des centaines d’années pour désigner l’effet de glisser une note à une hauteur dans une note d’une hauteur inférieure ou supérieure. Mais seuls les instruments dont la hauteur peut varier en permanence – comme la voix humaine, les instruments à cordes et les trombones – peuvent produire l’effet.
Maintenant, un étudiant du MIT a inventé un nouvel algorithme qui produit un effet de portamento entre deux signaux audio en temps réel. Dans le cadre d’expériences, l’algorithme a fusionné de façon transparente divers clips audio, comme une note de piano glissant dans une voix humaine, et une chanson se fondant dans une autre. Son article décrivant l’algorithme a remporté le prix du « meilleur article étudiant » lors de la récente conférence internationale sur les effets sonores numériques.
L’algorithme repose sur le » transport optimal « , un cadre géométrique qui détermine les moyens les plus efficaces de déplacer des objets – ou des points de données – entre plusieurs configurations d’origine et de destination. Formulé dans les années 1700, le cadre a été appliqué aux chaînes d’approvisionnement, à la dynamique des fluides, à l’alignement des images, à la modélisation 3D, à l’infographie, etc.
Dans des travaux issus d’un projet de classe, Trevor Henderson, aujourd’hui étudiant diplômé en informatique, a appliqué le transport optimal à l’interpolation de signaux audio – ou au mélange d’un signal dans un autre. L’algorithme divise d’abord les signaux audio en brefs segments. Ensuite, il trouve le moyen optimal de déplacer les hauteurs de chaque segment vers les hauteurs de l’autre signal, pour produire le glissement en douceur de l’effet de portamento. L’algorithme comprend également des techniques spécialisées pour maintenir la fidélité du signal audio pendant sa transition.
« Le transport optimal est utilisé ici pour déterminer comment faire correspondre les hauteurs d’un son aux hauteurs de l’autre « , explique Henderson, organiste de formation classique qui joue de la musique électronique et qui a été DJ sur les ondes de l WMBR 88,1la station de radio du MIT. « S’il s’agit de transformer un accord en un accord avec une harmonie différente, ou avec plus de notes, par exemple, les notes se sépareront du premier accord et trouveront une position pour glisser en douceur vers l’autre accord. »
Selon Henderson, c’est l’une des premières techniques à appliquer un transport optimal à la transformation des signaux audio. Il a déjà utilisé l’algorithme pour construire de l’équipement qui assure une transition transparente entre les chansons de son émission de radio. Les DJs pourraient également utiliser l’équipement pour passer d’une piste à l’autre pendant les concerts. D’autres musiciens peuvent l’utiliser pour mélanger instruments et voix sur scène ou en studio.
Le co-auteur de l’article est Justin Solomon, professeur adjoint du X-Consortium Career Development au département de génie électrique et d’informatique de l’Université Henderson. Solomon – qui joue également du violoncelle et du piano – dirige le groupe de traitement des données géométriques du laboratoire d’informatique et d’intelligence artificielle (CSAIL) et est membre du Center for Computational Engineering.
Henderson a suivi la classe de Solomon, 6.838 (Analyse de forme), qui demande aux étudiants d’appliquer des outils géométriques comme le transport optimal à des applications du monde réel. Les projets des élèves se concentrent habituellement sur des formes en trois dimensions tirées de la réalité virtuelle ou de l’infographie. Le projet d’Henderson a donc été une surprise pour Salomon. « Trevor a vu une connexion abstraite entre la géométrie et le déplacement des fréquences dans les signaux audio pour créer un effet de portamento « , dit Solomon. « Il était dans et hors de mon bureau tout le semestre avec de l’équipement DJ. Ce n’était pas ce que je m’attendais à voir, mais c’était plutôt divertissant. »
Pour Henderson, ce n’était pas trop exagéré. « Quand je vois une nouvelle idée, je me demande si elle s’applique à la musique « , dit-il. « Quand on a parlé de transport optimal, je me suis demandé ce qui se passerait si je le reliais à des spectres audio. »
Une bonne façon de penser au transport optimal, dit M. Henderson, est de trouver » une façon paresseuse de construire un château de sable « . Dans cette analogie, l’armature est utilisée pour calculer la manière de déplacer chaque grain de sable de sa position dans un tas informe vers une position correspondante dans un château de sable, en utilisant le moins de travail possible. Dans l’infographie, par exemple, le transport optimal peut être utilisé pour transformer ou morpher des formes en trouvant le mouvement optimal de chaque point sur une forme à l’autre.
L’application de cette théorie aux clips audio implique quelques idées supplémentaires issues du traitement du signal. Les instruments de musique produisent du son par les vibrations des composants, selon l’instrument. Les violons utilisent des cordes, les cuivres utilisent l’air à l’intérieur des corps creux et les humains utilisent des cordes vocales. Ces vibrations peuvent être capturées sous forme de signaux audio, où la fréquence et l’amplitude (hauteur de pic) représentent des hauteurs différentes.
Par convention, la transition entre deux signaux audio se fait par un fondu, où un signal est réduit en volume tandis que l’autre augmente. L’algorithme de Henderson, d’autre part, fait glisser en douceur les segments de fréquence d’un clip à l’autre, sans perte de volume.
Pour ce faire, l’algorithme divise deux clips audio en fenêtres d’environ 50 millisecondes. Ensuite, il exécute une transformée de Fourier, qui transforme chaque fenêtre en ses composantes de fréquence. Les composantes de fréquence à l’intérieur d’une fenêtre sont regroupées en « notes » individuelles synthétisées. Le transport optimal mappe alors comment les notes d’une fenêtre de signal se déplaceront vers les notes de l’autre.
Ensuite, un « paramètre d’interpolation » prend le relais. C’est essentiellement une valeur qui détermine où chaque note sera sur le chemin depuis sa hauteur de départ dans un signal jusqu’à sa hauteur de fin dans l’autre. La modification manuelle de la valeur du paramètre balaie les pas entre les deux positions, produisant ainsi l’effet de portamento. Ce paramètre unique peut également être programmé et contrôlé par, disons, un crossfader, un curseur sur la table de mixage d’un DJ qui s’éteint en douceur entre les chansons. Lorsque le crossfader glisse, le paramètre d’interpolation change pour produire l’effet.
Dans les coulisses se trouvent deux innovations qui assurent un signal sans distorsion. D’abord, Henderson a utilisé une nouvelle application d’une technique de traitement du signal, appelée « réassignation de fréquence », qui regroupe les groupes de fréquences pour former des notes uniques qui peuvent facilement passer d’un signal à un autre. Deuxièmement, il a inventé une façon de synthétiser de nouvelles phases pour chaque signal audio tout en assemblant les fenêtres de 50 millisecondes, afin que les fenêtres voisines n’interfèrent pas entre elles.
Ensuite, Henderson veut expérimenter avec l’alimentation de la sortie de l’effet dans son entrée. Cela, pense-t-il, pourrait automatiquement créer un autre effet de musique classique, le « legato », qui est une transition douce entre des notes distinctes. Contrairement au portamento – qui joue toutes les notes entre une note de début et une note de fin – un legato fait une transition transparente entre deux notes distinctes, sans capturer aucune note entre elles.