Réduire l’empreinte carbone de l’intelligence artificielle

L’intelligence artificielle est devenue le centre de certaines préoccupations éthiques, mais elle pose également des problèmes majeurs de durabilité.
En juin dernier, des chercheurs de l’université du Massachusetts à Amherst ont publié un étonnant rapport en estimant que la quantité d’énergie nécessaire pour la formation et la recherche d’une certaine architecture de réseau neuronal implique l’émission d’environ 626 000 livres de dioxyde de carbone. Cela équivaut à près de cinq fois les émissions sur toute la durée de vie d’une voiture américaine moyenne, y compris sa fabrication.
Ce problème est encore plus grave dans la phase de déploiement du modèle, où les réseaux neuronaux profonds doivent être déployés sur diverses plateformes matérielles, chacune ayant des propriétés et des ressources de calcul différentes.
Les chercheurs du MIT ont mis au point un nouveau système d’IA automatisé pour former et faire fonctionner certains réseaux de neurones. Les résultats indiquent qu’en améliorant l’efficacité de calcul du système de certaines manières essentielles, le système peut réduire les émissions de carbone en cause – dans certains cas, jusqu’à trois chiffres.
Le système des chercheurs, qu’ils appellent un réseau uniqueL’Institut de recherche sur les technologies de l’information et de la communication (IRTC) forme un grand réseau de neurones comprenant de nombreux sous-réseaux préformés de tailles différentes qui peuvent être adaptés à diverses plateformes matérielles sans nécessiter de formation supplémentaire. Cela réduit considérablement l’énergie habituellement nécessaire pour former chaque réseau neuronal spécialisé à de nouvelles plates-formes, qui peuvent comprendre des milliards de dispositifs d’Internet des objets (IoT). En utilisant le système pour former un modèle de vision par ordinateur, ils ont estimé que le processus nécessitait environ 1/1 300 des émissions de carbone par rapport aux approches de recherche d’architecture neurale de pointe actuelles, tout en réduisant le temps d’inférence de 1,5 à 2,6 fois.
« L’objectif est de mettre en place des réseaux de neurones plus petits et plus verts », explique Song Han, professeur adjoint au département de génie électrique et d’informatique. « La recherche d’architectures de réseaux de neurones efficaces a jusqu’à présent eu une énorme empreinte carbone. Mais nous avons réduit cette empreinte d’un ordre de grandeur grâce à ces nouvelles méthodes ».
Les travaux ont été effectués sur Satori, un cluster de calcul efficace donné au MIT par IBM et capable d’effectuer 2 quadrillions de calculs par seconde. Le document sera présenté la semaine prochaine à la Conférence internationale sur les représentations de l’apprentissage. Quatre étudiants de premier et deuxième cycles de l’EECS, du MIT-IBM Watson AI Lab et de l’université Jiao Tong de Shanghai se joignent à Han pour présenter ce document.
Création d’un réseau « une fois pour toutes
Les chercheurs ont construit le système sur une avancée récente de l’IA appelée AutoML (pour automatic machine learning), qui élimine la conception manuelle des réseaux. Les réseaux neuronaux recherchent automatiquement dans des espaces de conception massifs des architectures de réseau adaptées, par exemple, à des plates-formes matérielles spécifiques. Mais il reste un problème d’efficacité de la formation : Chaque modèle doit être sélectionné puis formé à partir de zéro pour son architecture de plate-forme.
« Comment former efficacement tous ces réseaux pour un si large éventail d’appareils – d’un appareil à 10 $ de l’IdO à un smartphone à 600 $ ? Étant donné la diversité des dispositifs IdO, le coût de calcul de la recherche d’architecture neurale va exploser », explique M. Han.
Les chercheurs ont inventé un système AutoML qui ne forme qu’un seul grand réseau « une fois pour toutes » (OFA) qui sert de réseau « mère », en imbriquant un nombre extrêmement élevé de sous-réseaux qui sont peu activés à partir du réseau mère. L’OFA partage tous ses poids appris avec tous les sous-réseaux – ce qui signifie qu’ils viennent essentiellement préformés. Ainsi, chaque sous-réseau peut fonctionner indépendamment au moment de l’inférence sans avoir à se recycler.
L’équipe a formé un réseau neuronal convolutif (CNN) de l’OFA – couramment utilisé pour les tâches de traitement d’images – avec des configurations architecturales polyvalentes, comprenant différents nombres de couches et de « neurones », diverses tailles de filtres et diverses résolutions d’images d’entrée. Étant donné une plate-forme spécifique, le système utilise l’OFA comme espace de recherche pour trouver le meilleur sous-réseau en fonction des compromis de précision et de latence qui sont en corrélation avec les limites de puissance et de vitesse de la plate-forme. Pour un dispositif IdO, par exemple, le système trouvera un sous-réseau plus petit. Pour les smartphones, il sélectionnera des sous-réseaux plus importants, mais avec des structures différentes en fonction de la durée de vie des batteries et des ressources de calcul. L’OFA découple la formation au modèle et la recherche d’architecture, et répartit le coût unique de la formation sur de nombreuses plateformes matérielles d’inférence et contraintes de ressources.
Ce système repose sur un algorithme de « réduction progressive » qui entraîne efficacement le réseau de l’OFA à prendre en charge tous les sous-réseaux simultanément. Il commence par former le réseau complet avec la taille maximale, puis réduit progressivement la taille du réseau pour inclure des sous-réseaux plus petits. Les petits sous-réseaux sont formés avec l’aide des grands sous-réseaux pour qu’ils se développent ensemble. Au final, tous les sous-réseaux de taille différente sont pris en charge, ce qui permet une spécialisation rapide en fonction de la puissance et des limites de vitesse de la plate-forme. Elle prend en charge de nombreux appareils matériels sans coût de formation lors de l’ajout d’un nouvel appareil.
Au total, les chercheurs ont découvert qu’un OFA peut comprendre plus de 10 quintillions – c’est-à-dire un 1 suivi de 19 zéros – de cadres architecturaux, couvrant probablement toutes les plateformes jamais nécessaires. Mais former l’OFA et le rechercher s’avère bien plus efficace que de passer des heures à former chaque réseau neuronal par plate-forme. De plus, l’OFA ne compromet pas la précision ou l’efficacité de l’inférence. Au contraire, il fournit une précision ImageNet de pointe sur les appareils mobiles. Et, comparé aux modèles CNN de pointe, les chercheurs affirment que l’OFA offre une vitesse de 1,5 à 2,6 fois supérieure, avec une précision supérieure.
« C’est une technologie révolutionnaire », dit Han. « Si nous voulons utiliser une IA puissante sur les appareils grand public, nous devons trouver comment réduire l’IA à sa taille.
« Le modèle est vraiment compact. Je suis très heureux de voir que l’OFA peut continuer à repousser les limites de l’apprentissage profond efficace sur les appareils de pointe », déclare Chuang Gan, chercheur au laboratoire d’IA Watson du MIT-IBM et co-auteur de l’article.
« Si nous voulons que les progrès rapides de l’IA se poursuivent, nous devons réduire son impact sur l’environnement », déclare John Cohn, un boursier d’IBM et membre du Watson AI Lab du MIT-IBM. « L’avantage de développer des méthodes pour rendre les modèles d’IA plus petits et plus efficaces est que les modèles peuvent également être plus performants ».