Supercalculateur analyse le trafic web sur l’ensemble d’Internet
À l’aide d’un système de supercalculateur, les chercheurs du MIT ont mis au point un modèle qui saisit à quoi ressemble le trafic Web dans le monde entier un jour donné et qui peut servir d’outil de mesure pour la recherche sur Internet et de nombreuses autres applications.
Selon les chercheurs, il est utile de comprendre les modèles de trafic Web à une si grande échelle pour éclairer les politiques en matière d’Internet, identifier et prévenir les pannes, se défendre contre les cyberattaques et concevoir une infrastructure informatique plus efficace. Un document décrivant l’approche a été présenté lors de la récente conférence IEEE High Performance Extreme Computing.
Pour leurs travaux, les chercheurs ont rassemblé le plus grand ensemble de données sur le trafic Internet accessible au public, comprenant 50 milliards de paquets de données échangés à différents endroits dans le monde sur une période de plusieurs années.
Ils ont fait passer les données à travers un nouveau « réseau neuronal » pipeline fonctionnant sur 10 000 processeurs du SuperCloud du MIT, un système qui combine les ressources informatiques du MIT Lincoln Laboratory et de l’Institut. Ce pipeline a automatiquement formé un modèle qui saisit la relation pour tous les liens de l’ensemble de données – des pings communs aux géants comme Google et Facebook, en passant par les liens rares qui ne se connectent que brièvement mais qui semblent avoir un certain impact sur le trafic web.
Le modèle peut prendre n’importe quel ensemble de données réseau massif et générer des mesures statistiques sur la façon dont toutes les connexions du réseau s’influencent mutuellement. Cela peut être utilisé pour révéler des informations sur le partage de fichiers peer-to-peer, les adresses IP malveillantes et le comportement de spamming, la distribution des attaques dans les secteurs critiques, et les goulots d’étranglement du trafic pour mieux allouer les ressources informatiques et maintenir la circulation des données.
En concept, le travail s’apparente à la mesure du fond cosmique des hyperfréquences de l’espace, les ondes radio quasi uniformes qui circulent dans notre univers et qui ont été une source importante d’information pour l’étude des phénomènes dans l’espace. « Nous avons construit un modèle précis pour mesurer l’arrière-plan de l’univers virtuel d’Internet « , explique Jeremy Kepner, chercheur au Lincoln Laboratory Supercomputing Center du MIT et astronome de formation. « Si vous voulez détecter une variance ou des anomalies, vous devez avoir un bon modèle de l’arrière-plan. »
Rejoindre Kepner sur le papier, c’est : Kenjiro Cho de l’Internet Initiative Japan ; KC Claffy du Center for Applied Internet Data Analysis de l’Université de Californie à San Diego ; Vijay Gadepally et Peter Michaleas du Supercomputing Center du Lincoln Laboratory ; et Lauren Milechin, chercheur au Department of Earth, Atmospheric and Planetary Sciences du MIT.
Rupture des données
Dans la recherche sur Internet, les experts étudient les anomalies dans le trafic Web qui peuvent indiquer, par exemple, des cybermenaces. Pour ce faire, il faut d’abord comprendre à quoi ressemble le trafic normal. Mais il n’en reste pas moins difficile d’en tenir compte. Les modèles traditionnels d' »analyse du trafic » ne peuvent analyser que de petits échantillons de paquets de données échangés entre des sources et des destinations limitées par leur emplacement. Cela réduit la précision du modèle.
Les chercheurs ne cherchaient pas spécifiquement à s’attaquer à cette question de l’analyse du trafic. Mais ils avaient développé de nouvelles techniques qui pouvaient être utilisées sur le SuperCloud du MIT pour traiter des matrices de réseau massives. Le trafic Internet était le cas parfait.
Les réseaux sont généralement étudiés sous forme de graphiques, les acteurs étant représentés par des nœuds et les liens représentant les connexions entre les nœuds. Avec le trafic Internet, les nœuds varient en taille et en emplacement. Les grands supernodes sont des hubs populaires, comme Google ou Facebook. Les nœuds des feuilles s’étendent à partir de ce supernode et ont de multiples connexions entre eux et avec le supernode. A l’extérieur de ce « noyau » de surnœuds et de nœuds leaf se trouvent des nœuds et des liens isolés, qui ne se connectent que rarement entre eux.
Pour les modèles traditionnels, il est impossible de saisir toute l’étendue de ces graphiques. « On ne peut pas toucher ces données sans avoir accès à un superordinateur, dit M. Kepner.
En partenariat avec le projet WIDE (Widely Integrated Distributed Environment), fondé par plusieurs universités japonaises, et le Center for Applied Internet Data Analysis (CAIDA), en Californie, les chercheurs du MIT ont saisi le plus grand ensemble de données de capture de paquets au monde pour le trafic Internet. L’ensemble de données anonymisées contient près de 50 milliards de points de données de source et de destination uniques entre les consommateurs et diverses applications et services pendant des jours aléatoires dans divers endroits au Japon et aux États-Unis, remontant à 2015.
Avant de pouvoir former un modèle sur ces données, ils devaient effectuer un prétraitement approfondi. Pour ce faire, ils ont utilisé un logiciel qu’ils ont créé précédemment, appelé Dynamic Distributed Dimensional Data Mode (D4M), qui utilise certaines techniques de calcul de moyenne pour calculer et trier efficacement les données « hypersparse » qui contiennent beaucoup plus d’espace vide que les points de données. Les chercheurs ont divisé les données en unités d’environ 100 000 paquets répartis sur 10 000 processeurs SuperCloud du MIT. Cela a généré des matrices plus compactes de milliards de lignes et de colonnes d’interactions entre les sources et les destinations.
Capture des valeurs aberrantes
Mais la grande majorité des cellules de cet ensemble de données hypersparentes étaient encore vides. Pour traiter les matrices, l’équipe a utilisé un réseau neuronal sur les mêmes 10 000 cœurs. Dans les coulisses, une technique d’essai et d’erreur a commencé à ajuster les modèles à l’ensemble des données, créant ainsi une distribution de probabilité de modèles potentiellement précis.
Ensuite, elle a utilisé une technique modifiée de correction d’erreurs pour affiner les paramètres de chaque modèle afin de capturer autant de données que possible. Traditionnellement, les techniques de correction d’erreurs dans l’apprentissage machine tentent de réduire l’importance de toute donnée périphérique afin d’adapter le modèle à une distribution de probabilité normale, ce qui le rend globalement plus précis. Mais les chercheurs ont utilisé des astuces mathématiques pour s’assurer que le modèle considère toujours toutes les données isolées – comme les liens isolés – comme importantes pour l’ensemble des mesures.
En fin de compte, le réseau neuronal génère essentiellement un modèle simple, avec seulement deux paramètres, qui décrit l’ensemble de données sur le trafic Internet, » des nœuds vraiment populaires aux nœuds isolés, et le spectre complet de tout ce qui se trouve entre les deux, » dit M. Kepner.
Selon David Bader, éminent professeur d’informatique et directeur de l’Institute for Data Science du New Jersey Institute of Technology, l’utilisation des ressources de supercalculateurs pour traiter efficacement un » flux de trafic de tuyaux d’incendie » afin d’identifier des modèles significatifs et une activité Web est un travail » révolutionnaire « . « L’un des grands défis de la cybersécurité est de comprendre les tendances mondiales du trafic Internet à des fins telles que la détection des sources néfastes, l’identification des flux importants et la vaccination contre les virus informatiques. (Ce groupe de recherche) s’est attaqué avec succès à ce problème et a présenté une analyse approfondie du trafic réseau mondial « , dit-il.
Les chercheurs s’adressent maintenant à la communauté scientifique pour trouver leur prochaine application pour le modèle. Les experts, par exemple, pourraient examiner l’importance des liens isolés que les chercheurs ont trouvés dans leurs expériences, qui sont rares mais semblent avoir un impact sur le trafic Web dans les nœuds centraux.
Au-delà d’Internet, le pipeline du réseau neuronal peut être utilisé pour analyser tout réseau hypersparse, comme les réseaux biologiques et sociaux. « Nous avons maintenant donné à la communauté scientifique un outil fantastique pour ceux qui veulent construire des réseaux plus robustes ou détecter des anomalies dans les réseaux « , dit M. Kepner. « Ces anomalies peuvent être des comportements normaux de ce que font les utilisateurs, ou des gens qui font des choses que vous ne voulez pas. »