L’intelligence artificielle pourrait aider les centres de données à exécuter de façon bien plus efficace
Un nouveau système développé par le MIT, les chercheurs automatiquement “apprend” comment planifier des données-traitement des opérations sur des milliers de serveurs — une tâche traditionnellement réservés aux imprécis, l’homme a conçu des algorithmes. Cela pourrait aider à aujourd’hui gourmand en énergie des centres de données s’exécutent beaucoup plus efficacement.
Les centres de données peuvent contenir des dizaines de milliers de serveurs, qui ne cesse d’exécuter des tâches de traitement de développeurs et d’utilisateurs. Cluster algorithmes de planification de répartir les tâches entrantes sur tous les serveurs, en temps réel, afin d’utiliser efficacement toutes les ressources informatiques disponibles et d’obtenir un emploi au plus vite.
Traditionnellement, cependant, l’homme d’ajuster ces algorithmes de planification, sur la base des lignes directrices de base (“politiques”) et divers compromis. Elles peuvent, par exemple, le code de l’algorithme pour obtenir certains emplois vite fait ou de diviser les ressources de manière égale entre les emplois. Mais la charge de travail — sens des groupes de combiné tâches — viennent dans toutes les tailles. Par conséquent, il est pratiquement impossible pour un être humain afin d’optimiser leurs algorithmes de planification de charges de travail spécifiques et, par conséquent, ils sont souvent en deçà de leur vrai potentiel d’efficacité.
Les chercheurs du MIT à la place déchargé tout le manuel de codage des machines. Dans un document présenté au SIGCOMM, ils décrivent un système qui tire parti de l’apprentissage par renforcement” (RL), un essai-et-erreur technique d’apprentissage-machine, afin d’adapter les décisions de planification à des charges spécifiques, les clusters de serveurs.
Pour ce faire, ils ont construit de nouveaux RL techniques qui pourraient entraîner sur des charges de travail complexes. Dans la formation, le système tente de nombreuses façons d’allouer entrant la charge sur les serveurs, finalement trouver un compromis optimal en utilisant le calcul des ressources et rapide des vitesses de traitement. Aucune intervention humaine n’est requise au-delà d’un simple enseignement, tel que, “réduire de travail-délais d’exécution.”
Par rapport à la meilleure manuscrite algorithmes d’ordonnancement, les chercheurs de l’exécution de travaux d’environ 20 à 30% plus rapide et deux fois plus rapide au cours de la haute-trafic en temps. La plupart, cependant, le système apprend comment faire pour compresser les charges de travail de manière efficace à partir de peu de déchets. Les résultats indiquent que le système pourrait permettre à des centres de données pour la manutention de la charge de travail à des vitesses plus élevées, en utilisant moins de ressources.
“Si vous avez une façon de faire l’essai et l’erreur à l’aide de machines, ils peuvent essayer différentes façons de les travaux de planification et automatiquement déterminer quelle stratégie est la meilleure que les autres,” dit Hongzi Mao, un étudiant au Doctorat au Département de Génie Électrique et d’Informatique (SIGE). “Qui peut améliorer les performances du système automatiquement. Et toute légère amélioration dans l’utilisation, même à 1%, d’économiser des millions de dollars et beaucoup d’énergie dans les centres de données.”
“Il n’y a pas de one-size-fits-all à la prise de décisions d’ordonnancement,” ajoute le co-auteur Mohammad Alizadeh, un SIGE professeur et chercheur en Sciences de l’Informatique et de l’Intelligence Artificielle en Laboratoire (CSAIL). “Dans les systèmes existants, ceux-ci sont codés en dur les paramètres que vous avez à décider d’avance. Notre système au lieu de cela apprend à tune de sa politique de planification des caractéristiques, selon le centre de données et de charge de travail.”
De rejoindre de la Mao et Alizadeh sur le papier sont: post-doctorants Malte Schwarzkopf et Shaileshh Bojja Venkatakrishnan, et assistante de recherche Zili Meng, tous CSAIL.
RL pour la planification
Généralement, le traitement des données d’emplois dans des centres de données représentées sous forme de graphes de “nœuds” et “bords.” Chaque nœud représente un calcul de la tâche qui doit être fait, où le plus grand le nœud, le plus la puissance de calcul nécessaire. Les arêtes reliant les nœuds de liaison connecté tâches ensemble. Algorithmes d’ordonnancement affectation des nœuds de serveurs, basés sur différentes politiques.
Mais les RL systèmes ne sont pas habitués à traiter de telles dynamiques graphes. Ces systèmes utilisent un logiciel “agent” qui prend les décisions et qui reçoit un signal de rétroaction comme une récompense. Essentiellement, il cherche à maximiser ses récompenses pour toute action à apprendre un comportement idéal dans un certain contexte. Ils peuvent, par exemple, aider les robots apprennent à effectuer une tâche de ramasser un objet par interaction avec l’environnement, mais qui implique le traitement de la vidéo ou des images par l’intermédiaire d’une installation plus facile de la grille de pixels.
Pour construire leur RL à base de planificateur, appelé Decima, les chercheurs ont dû développer un modèle de processus graphique structurée des emplois, et à l’échelle d’un grand nombre d’emplois et les serveurs. Leur système est “agent” est un algorithme d’ordonnancement qui s’appuie sur un graphe de réseau de neurones, couramment utilisé pour traiter des graphes de données structurées. À venir avec un graphe de réseau de neurones appropriés pour la planification, ils ont mis au point un composant personnalisé qui regroupe l’information à travers des chemins dans le graphe tels que rapidement estimation de la quantité de calcul nécessaire pour réaliser une partie du graphique. C’est important pour la planification des tâches, parce que “enfant” (moins) les nœuds ne peuvent pas commencer l’exécution jusqu’à leur “parent” (en haut) les nœuds de finition, afin d’anticiper les futurs travaux le long des chemins différents dans le graphique est un élément central à prendre de bonnes décisions d’ordonnancement.
Pour la formation de leur système de GLR, les chercheurs ont simulé beaucoup de différents graphe des séquences qui imitent les charges de travail à venir dans les centres de données. L’agent prend des décisions sur la façon de répartir chaque noeud du graphe pour chaque serveur. Pour chaque décision, un composant calcule une récompense basé sur la façon dont il l’a fait à une tâche spécifique — telles que la réduction de la durée moyenne de traitement d’une seule tâche. L’agent continue, l’amélioration de ses décisions, jusqu’à ce qu’il obtient la récompense la plus haute possible.
Des repères sur les charges de travail
Une préoccupation, cependant, est que certains de la charge de travail séquences sont plus difficiles à traiter que d’autres, parce qu’ils ont de plus grandes tâches ou des structures plus complexes. Ceux-ci vont toujours prendre plus de temps — et, par conséquent, le signal de récompense sera toujours plus faible que simples. Mais cela ne signifie pas nécessairement que le système a fonctionné de mal: Il pourrait faire un bon temps sur un défi de la charge de travail, mais être encore plus lent qu’un plus facile de la charge de travail. Que la variabilité dans la difficulté, il est difficile pour le modèle de décider quelles actions sont bonnes ou pas.
Pour résoudre ce problème, les chercheurs ont adapté une technique dite de “référence” dans ce contexte. Cette technique prend les moyennes des scénarios avec un grand nombre de variables, et utilise ces moyennes comme base de référence pour comparer les futurs résultats. Au cours de la formation, ils ont calculé une base de référence pour chaque séquence d’entrée. Ensuite, ils permettent au planificateur de train sur chaque charge de travail de la séquence plusieurs fois. Ensuite, le système a pris la moyenne des performances sur l’ensemble des décisions prises pour l’entrée même de la charge de travail. Cette moyenne est la référence par rapport à laquelle le modèle pourrait alors comparer ses décisions futures afin de déterminer si ses décisions sont bonnes ou mauvaises. Ils se réfèrent à cette nouvelle technique comme “dépendantes de l’entrée de référence.”
Que l’innovation, les chercheurs disent, est applicable à de nombreux systèmes informatiques différents. “C’est le général de manière à faire de l’apprentissage par renforcement dans les environnements où il y a ce processus de participation que les effets de l’environnement, et vous voulez que chaque événement de formation à examiner un échantillon de ce processus de participation”, dit-il. “Presque tous les systèmes informatiques concernent les environnements où les choses sont en constante évolution.”
Aditya Akella, un professeur de sciences informatiques à l’Université de Wisconsin à Madison, dont le groupe a conçu plusieurs à haute performance planificateurs, trouvé le MIT système pourrait aider à améliorer encore leurs propres politiques. “Decima peut aller plus loin et trouver des opportunités pour le (la planification), l’optimisation de la sont tout simplement trop onéreux à réaliser via le manuel de conception/tuning processus”, Akella dit. “Les planificateurs nous avons conçu des améliorations notables sur les techniques utilisées dans la production en termes de performances de l’application et du cluster de l’efficacité, mais il y a encore un fossé entre l’idéal des améliorations que nous puissions atteindre. Decima montre qu’un RL-l’approche basée sur les découvrir (les politiques) qui aider à combler l’écart. Decima amélioré nos techniques par un (gros) à 30 pour cent, qui est venu comme une surprise énorme.”
Maintenant, leur modèle est formé sur des simulations qui tentent de recréer entrant en ligne de la circulation en temps réel. Ensuite, les chercheurs de l’espoir pour l’apprentissage du modèle de circulation en temps réel, ce qui pourrait potentiellement crash les serveurs. Donc, ils sont actuellement à l’élaboration d’un “filet de sécurité” qui permet d’arrêter leur système quand il est sur le point de provoquer une panne. “Nous pensons que c’est des roues de formation,” Il dit. “Nous voulons que ce système continue de les former, mais il a des roues de formation que si elle va trop loin, nous pouvons assurer qu’il ne tombe pas dessus.”