Un moyen infaillible de réduire les modèles d’apprentissage profond
Alors que de plus en plus d’applications d’intelligence artificielle passent aux smartphones, les modèles d’apprentissage approfondi deviennent plus petits pour permettre aux applications de fonctionner plus rapidement et d’économiser la batterie. Les chercheurs du MIT disposent désormais d’une nouvelle et meilleure façon de comprimer les modèles.
C’est si simple qu’ils l’ont dévoilé dans un tweet le mois dernier : Entraînez le modèle, taillez ses connexions les plus faibles, entraînez à nouveau le modèle à son rythme de formation rapide et précoce, et répétez, jusqu’à ce que le modèle soit aussi petit que vous le souhaitez.
« C’est tout », dit Alex Rendaun étudiant en doctorat au MIT. « Les choses habituelles que les gens font pour tailler leurs modèles sont follement compliquées. »
Renda a discuté de cette technique lors de la Conférence internationale des représentations de l’apprentissage (ICLR) qui s’est tenue à distance ce mois-ci. Renda est co-auteur du travail avec Jonathan Frankleun collègue doctorant au MIT Département de génie électrique et de sciences informatiques (EECS), et Michael Carbinun professeur assistant en génie électrique et en informatique – tous les membres de l Laboratoire d’informatique et de sciences artificielles.
La recherche d’une meilleure technique de compression est née de l’initiative primée de Frankle et Carbin Hypothèse du billet de loterie à l’ICLR l’année dernière. Ils ont montré qu’un réseau neuronal profond pouvait fonctionner avec seulement un dixième du nombre de connexions si le bon sous-réseau était trouvé au début de la formation. Leur révélation est venue alors que la demande en puissance et en énergie de calcul pour former des modèles d’apprentissage profond toujours plus grands augmentait de manière exponentielle, une tendance qui se poursuit encore aujourd’hui. Les coûts de cette croissance comprennent une augmentation des émissions de carbone qui contribuent au réchauffement de la planète et une baisse potentielle de l’innovation, les chercheurs non affiliés aux grandes entreprises technologiques se disputant les rares ressources informatiques. Les utilisateurs quotidiens sont également touchés. Les grands modèles d’IA consomment la bande passante des téléphones portables et la puissance des batteries.
Mais sur la suggestion d’un collègue, Frankle a décidé de voir quelles leçons il pourrait tirer de l’élagage, un ensemble de techniques permettant de réduire la taille d’un réseau de neurones en supprimant les connexions ou les neurones inutiles. Les algorithmes d’élagage existaient depuis des décennies, mais le domaine a connu une résurgence après le succès éclatant des réseaux neuronaux pour la classification des images dans le Concours ImageNet. Alors que les modèles devenaient plus grands, les chercheurs ajoutant des couches de neurones artificiels pour améliorer les performances, d’autres ont proposé des techniques pour les réduire.
Song HanLe professeur de l’Université de Californie à Los Angeles, aujourd’hui professeur adjoint au MIT, a été l’un des pionniers. S’appuyant sur une série de documents influents, Han a dévoilé un algorithme d’élagage qu’il a appelé AMC, ou AutoML pour la compression des modèlesC’est toujours la norme du secteur. Selon la technique de Han, les neurones et les connexions redondantes sont automatiquement supprimés, et le modèle est retravaillé pour retrouver sa précision initiale.
En réponse aux travaux de Han, Frankle a récemment suggéré dans un document non publié que les résultats pourraient être encore améliorés en rembobinant le modèle réduit et élagué à ses paramètres initiaux, ou poids, et en recyclant le modèle réduit à son rythme initial plus rapide.
Dans l’étude actuelle de l’ICLR, les chercheurs ont réalisé que le modèle pouvait simplement être ramené à son taux de formation initial sans modifier aucun paramètre. Dans tout régime d’élagage, plus un modèle est petit, moins il est précis. Mais lorsque les chercheurs ont comparé cette nouvelle méthode à la méthode AMC de Han ou à la méthode de rembobinage de Frankle, ils ont constaté qu’elle était plus performante, quelle que soit la taille du modèle.
On ne sait pas très bien pourquoi la technique d’élagage fonctionne aussi bien. Les chercheurs affirment qu’ils laisseront cette question à d’autres pour qu’ils y répondent. Quant à ceux qui souhaitent l’essayer, l’algorithme est aussi facile à mettre en œuvre que les autres méthodes d’élagage, sans qu’il soit nécessaire de procéder à des réglages fastidieux, affirment les chercheurs.
C’est l’algorithme de taille du « Livre » », explique Frankle. « C’est clair, générique, et simple comme bonjour.
Han, pour sa part, a maintenant partiellement déplacé son attention des modèles d’IA de compression vers l’IA de canalisation pour concevoir dès le départ de petits modèles efficaces. Sa toute dernière méthode, Once for All, fait également ses débuts à l’ICLR. À propos de la nouvelle méthode de taux d’apprentissage, il déclare : « Je suis heureux de voir les nouvelles techniques d’élagage et de recyclage évoluer, permettant à un plus grand nombre de personnes d’accéder à des applications d’IA très performantes ».
Le soutien à l’étude est venu de l’Agence des projets de recherche avancée de la défense, Google, MIT-IBM Watson AI Lab, MIT Quest for Intelligence, et l’Office américain de la recherche navale.