Démystifier le monde des réseaux profonds
Les cours d’introduction à la statistique nous apprennent que, lorsque nous ajustons un modèle à certaines données, nous devrions disposer de plus de données que de paramètres libres pour éviter le danger d’un surajustement – en ajustant trop étroitement les données bruyantes, et donc en n’ajustant pas les nouvelles données. Il est donc surprenant que dans l’apprentissage profond moderne, la pratique consiste à avoir des ordres de grandeur plus de paramètres que de données. Malgré cela, les réseaux profonds affichent de bonnes performances prédictives et, en fait, s’améliorent à mesure que le nombre de paramètres dont ils disposent augmente. Pourquoi ?
On sait depuis un certain temps que de bonnes performances dans l’apprentissage machine viennent du contrôle de la complexité des réseaux, qui n’est pas une simple fonction du nombre de paramètres libres. La complexité d’un classificateur, tel qu’un réseau de neurones, dépend de la mesure de la « taille » de l’espace des fonctions que ce réseau représente, avec de multiples mesures techniques précédemment suggérées : La dimension Vapnik-Chervonenkis, couvrant les nombres, ou la complexité Rademacher, pour n’en citer que quelques-unes. La complexité, telle que mesurée par ces notions, peut être contrôlée au cours du processus d’apprentissage en imposant une contrainte sur la norme des paramètres – en bref, sur leur « taille ». Le fait surprenant est qu’une telle contrainte explicite ne semble pas nécessaire dans la formation de réseaux profonds. L’apprentissage profond se situe-t-il en dehors de la théorie classique de l’apprentissage ? Faut-il repenser les fondations ?
Dans un nouveau Communications sur la nature L’article intitulé « Complexity Control by Gradient Descent in Deep Networks », une équipe du Center for Brains, Minds, and Machines dirigée par le directeur Tomaso Poggio, professeur Eugene McDermott au département des sciences du cerveau et de la cognition du MIT, a apporté un éclairage sur ce puzzle en abordant les applications les plus pratiques et les plus réussies de l’apprentissage profond moderne : les problèmes de classification.
« Pour les problèmes de classification, on observe qu’en fait les paramètres du modèle ne semblent pas converger, mais plutôt croître en taille indéfiniment lors de la descente de la pente. Cependant, dans les problèmes de classification, seuls les paramètres normalisés comptent – c’est-à-dire la direction qu’ils définissent, et non leur taille », déclare Qianli Liao, co-auteur et doctorant au MIT. « La chose pas si évidente que ça que nous avons montrée est que la descente de gradient couramment utilisée sur les paramètres non normalisés induit le contrôle de complexité souhaité sur les paramètres normalisés ».
« Nous savons depuis un certain temps, dans le cas de la régression pour les réseaux linéaires peu profonds, tels que les machines à noyau, que les itérations de descente de gradient fournissent un effet de régularisation implicite, qui disparaît », explique M. Poggio. « En fait, dans ce cas simple, nous savons probablement que nous obtenons la solution la plus avantageuse en termes de marge maximale et de norme minimale. La question que nous nous sommes alors posée était la suivante : Quelque chose de similaire peut-il se produire pour les réseaux profonds ?
Les chercheurs ont constaté que c’est le cas. Comme l’explique Andrzej Banburski, co-auteur et post-doc au MIT, « Comprendre la convergence dans les réseaux profonds montre qu’il existe des orientations claires pour améliorer nos algorithmes. En fait, nous avons déjà vu des indices selon lesquels le contrôle de la vitesse à laquelle ces paramètres non normalisés divergent nous permet de trouver des solutions plus performantes et de les trouver plus rapidement ».
Qu’est-ce que cela signifie pour l’apprentissage machine ? Il n’y a pas de magie derrière les réseaux profonds. La même théorie qui sous-tend tous les modèles linéaires est également en jeu ici. Ce travail suggère des moyens d’améliorer les réseaux profonds, en les rendant plus précis et plus rapides à former.