Skip to content
Logo csisimple

C Si Simple

Le réseau de connaissances pour les Pros !

Primary Menu
  • Technologie
  • Ordinateurs
  • Intelligence Artificielle
  • Home
  • Ordinateurs
  • Démystifier le monde des réseaux profonds
  • Ordinateurs

Démystifier le monde des réseaux profonds

29 février 2020 3 min read

Les cours d’introduction à la statistique nous apprennent que, lorsque nous ajustons un modèle à certaines données, nous devrions disposer de plus de données que de paramètres libres pour éviter le danger d’un surajustement – en ajustant trop étroitement les données bruyantes, et donc en n’ajustant pas les nouvelles données. Il est donc surprenant que dans l’apprentissage profond moderne, la pratique consiste à avoir des ordres de grandeur plus de paramètres que de données. Malgré cela, les réseaux profonds affichent de bonnes performances prédictives et, en fait, s’améliorent à mesure que le nombre de paramètres dont ils disposent augmente. Pourquoi ?

On sait depuis un certain temps que de bonnes performances dans l’apprentissage machine viennent du contrôle de la complexité des réseaux, qui n’est pas une simple fonction du nombre de paramètres libres. La complexité d’un classificateur, tel qu’un réseau de neurones, dépend de la mesure de la « taille » de l’espace des fonctions que ce réseau représente, avec de multiples mesures techniques précédemment suggérées : La dimension Vapnik-Chervonenkis, couvrant les nombres, ou la complexité Rademacher, pour n’en citer que quelques-unes. La complexité, telle que mesurée par ces notions, peut être contrôlée au cours du processus d’apprentissage en imposant une contrainte sur la norme des paramètres – en bref, sur leur « taille ». Le fait surprenant est qu’une telle contrainte explicite ne semble pas nécessaire dans la formation de réseaux profonds. L’apprentissage profond se situe-t-il en dehors de la théorie classique de l’apprentissage ? Faut-il repenser les fondations ?

Dans un nouveau Communications sur la nature L’article intitulé « Complexity Control by Gradient Descent in Deep Networks », une équipe du Center for Brains, Minds, and Machines dirigée par le directeur Tomaso Poggio, professeur Eugene McDermott au département des sciences du cerveau et de la cognition du MIT, a apporté un éclairage sur ce puzzle en abordant les applications les plus pratiques et les plus réussies de l’apprentissage profond moderne : les problèmes de classification.

« Pour les problèmes de classification, on observe qu’en fait les paramètres du modèle ne semblent pas converger, mais plutôt croître en taille indéfiniment lors de la descente de la pente. Cependant, dans les problèmes de classification, seuls les paramètres normalisés comptent – c’est-à-dire la direction qu’ils définissent, et non leur taille », déclare Qianli Liao, co-auteur et doctorant au MIT. « La chose pas si évidente que ça que nous avons montrée est que la descente de gradient couramment utilisée sur les paramètres non normalisés induit le contrôle de complexité souhaité sur les paramètres normalisés ».

« Nous savons depuis un certain temps, dans le cas de la régression pour les réseaux linéaires peu profonds, tels que les machines à noyau, que les itérations de descente de gradient fournissent un effet de régularisation implicite, qui disparaît », explique M. Poggio. « En fait, dans ce cas simple, nous savons probablement que nous obtenons la solution la plus avantageuse en termes de marge maximale et de norme minimale. La question que nous nous sommes alors posée était la suivante : Quelque chose de similaire peut-il se produire pour les réseaux profonds ?

Les chercheurs ont constaté que c’est le cas. Comme l’explique Andrzej Banburski, co-auteur et post-doc au MIT, « Comprendre la convergence dans les réseaux profonds montre qu’il existe des orientations claires pour améliorer nos algorithmes. En fait, nous avons déjà vu des indices selon lesquels le contrôle de la vitesse à laquelle ces paramètres non normalisés divergent nous permet de trouver des solutions plus performantes et de les trouver plus rapidement ».

Qu’est-ce que cela signifie pour l’apprentissage machine ? Il n’y a pas de magie derrière les réseaux profonds. La même théorie qui sous-tend tous les modèles linéaires est également en jeu ici. Ce travail suggère des moyens d’améliorer les réseaux profonds, en les rendant plus précis et plus rapides à former.

Continue Reading

Previous: 3 Questions : Ron Rivest sur la confiance dans les systèmes de vote électronique
Next: Intégration de l’électronique dans les prototypes physiques

Articles Liés

L’initiative du MIT pour l’énergie accorde huit subventions de fonds d’amorçage pour les premières étapes de la recherche sur l’énergie du MIT 7 min read
  • Ordinateurs

L’initiative du MIT pour l’énergie accorde huit subventions de fonds d’amorçage pour les premières étapes de la recherche sur l’énergie du MIT

1 juillet 2020
medical-equipment-4099432_1920 Améliorer l’équité en matière de santé dans le monde en aidant les cliniques à faire plus avec moins 7 min read
  • Ordinateurs

Améliorer l’équité en matière de santé dans le monde en aidant les cliniques à faire plus avec moins

26 juin 2020
audience-1835431_1280 Identifier une mélodie en étudiant le langage corporel d’un musicien 4 min read
  • Ordinateurs

Identifier une mélodie en étudiant le langage corporel d’un musicien

26 juin 2020
Lancement du programme MIT-Takeda | MIT News 5 min read
  • Ordinateurs

Lancement du programme MIT-Takeda | MIT News

19 juin 2020
doctor-563428_1280 Apporter le pouvoir prédictif de l’intelligence artificielle aux soins de santé 7 min read
  • Ordinateurs

Apporter le pouvoir prédictif de l’intelligence artificielle aux soins de santé

19 juin 2020
Le MIT et Toyota publient un ensemble de données innovatrices pour accélérer la recherche sur la conduite autonome 4 min read
  • Ordinateurs

Le MIT et Toyota publient un ensemble de données innovatrices pour accélérer la recherche sur la conduite autonome

18 juin 2020

Articles récents

  • L’initiative du MIT pour l’énergie accorde huit subventions de fonds d’amorçage pour les premières étapes de la recherche sur l’énergie du MIT
  • Améliorer l’équité en matière de santé dans le monde en aidant les cliniques à faire plus avec moins
  • Identifier une mélodie en étudiant le langage corporel d’un musicien
  • Lancement du programme MIT-Takeda | MIT News
  • Apporter le pouvoir prédictif de l’intelligence artificielle aux soins de santé

Catégories

  • Entreprises
  • Intelligence Artificielle
  • Ordinateurs
  • Technologie
  • Magazine W30
  • Contact
Copyright © All rights reserved. | Magnitude by AF themes.