Reconnaissance vidéo plus rapide pour l’ère des smartphones
Une branche de l’apprentissage machine appelée apprentissage profond a aidé les ordinateurs à surpasser les humains dans des tâches visuelles bien définies comme la lecture de scans médicaux, mais à mesure que la technologie s’étend pour interpréter des vidéos et des événements du monde réel, les modèles deviennent plus grands et plus intensifs en termes de calcul.
Par une estimationLa formation d’un modèle de reconnaissance vidéo peut prendre jusqu’à 50 fois plus de données et huit fois plus de puissance de traitement que la formation d’un modèle de classification d’images. C’est un problème, car la demande de puissance de traitement pour former des modèles d’apprentissage en profondeur continue d’augmenter. augmenter de façon exponentielle et préoccupations à propos de l’augmentation massive de l’empreinte carbone de l’IA. Exécuter de grands modèles de reconnaissance vidéo sur des appareils mobiles à faible consommation d’énergie, où se dirigent de nombreuses applications d’IA, reste également un défi.
Song Hanprofesseur adjoint au MIT, à l’Institut de technologie de l’Université de Toronto Département de génie électrique et d’informatique (EECS), s’attaque au problème en concevant des modèles d’apprentissage profond plus efficaces. Dans un papetière à la Conférence internationale sur la vision par ordinateurHan, Han, étudiant diplômé du MIT Ji Lin et MIT-IBM Watson AI Lab recherchiste Chuang GanCette méthode permet d’accélérer la formation et d’améliorer les performances d’exécution sur les smartphones et autres appareils mobiles. Leur méthode permet de réduire le modèle à un sixième de sa taille en réduisant les 150 millions de paramètres d’un modèle de pointe à 25 millions de paramètres.
« Notre objectif est de rendre l’IA accessible à tous les utilisateurs d’appareils à faible consommation d’énergie « , explique Han. « Pour ce faire, nous devons concevoir des modèles d’IA efficaces qui consomment moins d’énergie et qui peuvent fonctionner en douceur sur des appareils de pointe, où une grande partie de l’IA se déplace. »
La baisse du coût des caméras et des logiciels d’édition vidéo et la montée en puissance des nouvelles plateformes de streaming vidéo ont inondé l’Internet de nouveaux contenus. Chaque heure, 30 000 heures de nouvelles vidéos sont téléchargées sur YouTube uniquement. Des outils pour cataloguer ce contenu plus efficacement aideraient les téléspectateurs et les annonceurs à localiser les vidéos plus rapidement, selon les chercheurs. De tels outils aideraient également des institutions comme les hôpitaux et les maisons de soins infirmiers à exécuter des applications d’IA localement, plutôt que dans le nuage, pour préserver la confidentialité et la sécurité des données sensibles.
Les modèles d’image et de reconnaissance vidéo sous-jacents sont des réseaux neuronaux, qui sont modélisés de façon lâche sur la façon dont le cerveau traite l’information. Qu’il s’agisse d’une photo numérique ou d’une séquence d’images vidéo, les réseaux neuronaux cherchent des motifs dans les pixels et construisent une représentation de plus en plus abstraite de ce qu’ils voient. Avec suffisamment d’exemples, les réseaux neuronaux « apprennent » à reconnaître les personnes, les objets et leur relation.
Les principaux modèles de reconnaissance vidéo utilisent actuellement des convolutions tridimensionnelles pour coder le passage du temps dans une séquence d’images, ce qui permet de créer des modèles plus grands et plus intensifs sur le plan informatique. Pour réduire les calculs, Han et ses collègues ont conçu une opération qu’ils appellent une module de décalage temporel qui déplace les cartes de caractéristiques d’une image vidéo sélectionnée vers ses images voisines. En mélangeant les représentations spatiales du passé, du présent et de l’avenir, le modèle obtient un sens du temps qui passe sans le représenter explicitement.
Le résultat : un modèle qui a surpassé ses pairs en ce qui concerne la reconnaissance des actions dans le cadre de la Quelque chose… Quelque chose. l’ensemble des données vidéo, gagnant la première place en version 1 et version 2dans des classements publics récents. Une version en ligne du module de changement de vitesse est également assez agile pour lire les mouvements en temps réel. Dans une démo récenteLin, étudiante au doctorat à l’EECS, a montré comment un ordinateur monobloc équipé d’une caméra vidéo pouvait instantanément classer les gestes de la main en fonction de la quantité d’énergie nécessaire pour alimenter une lampe de vélo.
Normalement, il faut environ deux jours pour former un modèle aussi puissant sur une machine équipée d’un seul processeur graphique. Mais les chercheurs ont réussi à emprunter du temps au département de l’Énergie des États-Unis. Sommet supercalculateur, actuellement classé le plus rapide au monde. Avec la puissance de feu supplémentaire de Summit, les chercheurs ont montré qu’avec 1 536 processeurs graphiques, le modèle pouvait être entraîné en seulement 14 minutes, presque à sa limite théorique. C’est jusqu’à trois fois plus rapide que les modèles 3D à la fine pointe de la technologie, dit-on.
Dario Gil, directeur d’IBM Research, a souligné le travail dans son récent rapport annuel sur la recherche sur les allocution d’ouverture à Semaine de la recherche sur l’IA organisé par le MIT-IBM Watson AI Lab.
« Les besoins en calcul pour les gros travaux de formation en IA doublent tous les 3,5 mois « , a-t-il dit plus tard. « Notre capacité à repousser les limites de la technologie dépendra de stratégies comme celle-ci qui associent des algorithmes hyper-efficaces à des machines puissantes. »