Brainstorming sur les économies d’énergie sur Satori, le nouveau supercalculateur du MIT
Mohammad Haft-Javaherian a prévu de passer une heure à la Hackathon de l’IA verte – juste le temps de se familiariser avec le nouveau superordinateur du MIT, Satori. Trois jours plus tard, il est reparti avec 1 000 dollars pour sa stratégie gagnante visant à réduire l’empreinte carbone des modèles d’intelligence artificielle formés pour détecter les maladies cardiaques.
« Je n’ai jamais pensé aux kilowatts-heures que je consommais », dit-il. « Mais ce hackathon m’a donné l’occasion d’examiner mon empreinte carbone et de trouver des moyens d’échanger un peu de précision de modèle contre de grandes économies d’énergie ».
Haft-Javaherian a été l’une des six équipes à remporter des prix lors d’un hackathon coparrainé par la Projet de recherche informatique du MIT et MIT-IBM Watson AI Lab Du 28 au 30 janvier. L’événement visait à familiariser les étudiants avec Satori, le cluster informatique qu’IBM a donné au MIT l’année dernière, et à inspirer de nouvelles techniques pour construire des modèles d’IA économes en énergie qui émettent moins de dioxyde de carbone dans l’air, réchauffant ainsi la planète.
L’événement a également été l’occasion de célébrer les compétences de Satori en matière d’informatique verte. Avec une architecture conçue pour minimiser le transfert de données, entre autres caractéristiques d’économie d’énergie, Satori a récemment obtenu quatrième place sur la liste Green500 des superordinateurs. Son emplacement lui confère une crédibilité supplémentaire : Il se trouve sur une friche industrielle réhabilitée à Holyoke, Massachusetts, aujourd’hui le Centre de calcul haute performance vert du Massachusettsqui fonctionne en grande partie grâce à l’énergie hydraulique, éolienne et nucléaire à faible teneur en carbone.
Postdoc au MIT et à la Harvard Medical School, Haft-Javaherian est venu au hackathon pour en savoir plus sur le Satori. Il est resté pour relever le défi de réduire l’intensité énergétique de son propre travail, en se concentrant sur le développement de méthodes d’IA pour dépister les maladies dans les artères coronaires. Une nouvelle méthode d’imagerie, la tomographie à cohérence optique, a donné aux cardiologues un nouvel outil pour visualiser les défauts des parois des artères qui peuvent ralentir le flux de sang oxygéné vers le cœur. Mais même les experts peuvent passer à côté de modèles subtils que les ordinateurs excellent à détecter.
Lors du hackathon, Haft-Javaherian a testé son modèle et a constaté qu’il pouvait diviser par huit sa consommation d’énergie en réduisant le temps d’inactivité des processeurs graphiques de Satori. Il a également expérimenté l’ajustement du nombre de couches et de caractéristiques du modèle, en échangeant divers degrés de précision pour une utilisation plus faible de l’énergie.
Une deuxième équipe, Alex Andonian et Camilo Fosco, a également gagné 1 000 dollars en montrant qu’elle pouvait entraîner un modèle de classification près de 10 fois plus vite en optimisant son code et en perdant un peu de précision. Des étudiants diplômés du département d’ingénierie électrique et d’informatique (EECS), Andonian et Fosco forment actuellement un classificateur pour distinguer les vidéos légitimes des faux manipulés par l’IA, afin de participer à la compétition sur Facebook Défi de la détection de faux documents. Facebook a lancé le concours l’automne dernier pour trouver des idées permettant de mettre fin à la diffusion de la désinformation sur sa plateforme à l’approche de l’élection présidentielle de 2020.
Si une solution technique aux deepfakes est trouvée, elle devra fonctionner sur des millions de machines à la fois, explique M. Andonian. C’est pourquoi l’efficacité énergétique est essentielle. « Chaque optimisation que nous pouvons trouver pour former et faire fonctionner des modèles plus efficaces fera une énorme différence », dit-il.
Pour accélérer le processus de formation, ils ont essayé de rationaliser leur code et de réduire la résolution de leur ensemble de 100 000 vidéos de formation en éliminant certaines images. Ils ne s’attendaient pas à une solution en trois jours, mais la taille de Satori a joué en leur faveur. « Nous avons pu mener 10 à 20 expériences à la fois, ce qui nous a permis d’itérer sur des idées potentielles et d’obtenir des résultats rapidement », explique M. Andonian.
Au fur et à mesure que l’IA s’améliore dans des tâches comme la lecture de scans médicaux et l’interprétation de vidéos, les modèles sont devenus plus grands et plus gourmands en calculs, et donc en énergie. Par un estimationLa formation d’un grand modèle de traitement des langues produit presque autant de dioxyde de carbone que les émissions du berceau à la tombe de cinq voitures américaines. L’empreinte du modèle type est modeste en comparaison, mais à mesure que les applications d’IA prolifèrent, son impact sur l’environnement augmente.
Une façon d’écologiser l’IA et de maîtriser la croissance exponentielle de la demande d’IA de formation est de construire des modèles plus petits. C’est l’approche qu’a adoptée un troisième concurrent du hackathon, Jonathan Frankle, étudiant diplômé de l’EECS. Frankle recherche des signaux au début du processus de formation qui indiquent des sous-réseaux au sein du réseau plus large, entièrement formé, qui peut faire le même travail. L’idée s’appuie sur son projet primé Hypothèse du billet de loterie un article de l’année dernière qui a montré qu’un réseau neuronal pouvait fonctionner avec 90 % de connexions en moins si le bon sous-réseau était trouvé au début de la formation.
Les concurrents du hackathon ont été jugés par John Cohn, scientifique en chef au laboratoire d’IA Watson du MIT-IBM, Christopher Hill, directeur du projet de recherche informatique du MIT, et Lauren Milechin, ingénieur en logiciel de recherche au MIT.
Les juges ont reconnu quatre autres équipes : Ali Ramadhan, Suyash Bire et James Schloss, étudiants diplômés du département des sciences de la terre, de l’atmosphère et des planètes (EAPS), pour avoir adapté le langage de programmation Julia pour Satori ; Andrew Kirby, post-doc du Lincoln Laboratory du MIT, pour avoir adapté le code qu’il a écrit en tant qu’étudiant diplômé pour Satori en utilisant une bibliothèque conçue pour faciliter la programmation des architectures informatiques ; et Jenelle Feather et Kelsey Allen, étudiants diplômés du département des sciences du cerveau et de la cognition, pour avoir appliqué une technique qui simplifie radicalement les modèles en réduisant leur nombre de paramètres.
Les développeurs d’IBM étaient sur place pour répondre aux questions et recueillir les réactions. « Nous avons poussé le système – dans le bon sens », dit Cohn. « Au final, nous avons amélioré la machine, la documentation et les outils qui l’entourent. »
A l’avenir, Satori sera rejoint à Holyoke par TX-Gaia, le nouveau superordinateur du Lincoln Laboratory. Ensemble, ils fourniront un retour d’information sur la consommation d’énergie de leurs charges de travail. « Nous voulons sensibiliser les utilisateurs et les encourager à trouver des moyens innovants pour rendre l’ensemble de leur informatique plus écologique », déclare M. Hill.