Un bot peut battre les humains dans les jeux de rôle caché multijoueurs
Les chercheurs du MIT ont mis au point un robot doté d’une intelligence artificielle qui peut battre les joueurs humains dans des jeux multijoueurs en ligne délicats où les rôles et les motifs des joueurs sont gardés secrets.
De nombreux robots de jeu ont été conçus pour suivre le rythme des joueurs humains. Plus tôt cette année, une équipe de l’Université Carnegie Mellon a développé le premier robot au monde capable de battre les professionnels du poker multijoueur. L’AlphaGo de DeepMind a fait la une des journaux en 2016 pour avoir battu un joueur de Go professionnel. Plusieurs robots ont également été construits pour battre des joueurs d’échecs professionnels ou pour unir leurs forces dans des jeux coopératifs tels que la capture en ligne du drapeau. Dans ces jeux, cependant, le bot connaît ses adversaires et ses coéquipiers dès le début.
Lors de la Conférence sur les systèmes de traitement de l’information neuronale le mois prochain, les chercheurs présenteront DeepRole, le premier robot de jeu qui peut gagner des jeux multijoueurs en ligne dans lesquels les allégeances des équipes participantes ne sont pas claires au départ. Le bot est conçu avec un nouveau « raisonnement déductif » ajouté dans un algorithme d’IA couramment utilisé pour jouer au poker. Cela l’aide à raisonner sur des actions partiellement observables, pour déterminer la probabilité qu’un joueur donné soit un coéquipier ou un adversaire. Ce faisant, elle apprend rapidement avec qui s’allier et quelles actions prendre pour assurer la victoire de son équipe.
Les chercheurs ont opposé DeepRole à des joueurs humains dans plus de 4 000 tours du jeu en ligne « The Resistance : Avalon. » Dans ce jeu, les joueurs tentent de déduire les rôles secrets de leurs pairs à mesure que le jeu progresse, tout en cachant leurs propres rôles. En tant que coéquipier et adversaire, DeepRole a constamment surclassé les joueurs humains.
« Si vous remplacez un coéquipier humain par un robot, vous pouvez vous attendre à un taux de victoire plus élevé pour votre équipe. Les bots sont de meilleurs partenaires « , déclare le premier auteur Jack Serrino’18, qui s’est spécialisé en génie électrique et en informatique au MIT et qui est un fervent joueur d' » Avalon » en ligne.
Ce travail s’inscrit dans un projet plus vaste visant à mieux modéliser la façon dont les humains prennent des décisions éclairées sur le plan social. Cela pourrait aider à construire des robots qui comprennent mieux les humains, apprennent d’eux et travaillent avec eux.
« Les êtres humains apprennent des autres et coopèrent avec eux, ce qui nous permet d’accomplir ensemble des choses qu’aucun d’entre nous ne peut accomplir seul « , déclare Max Kleiman-Weiner, co-auteur d’un post-doctorat au Center for Brains, Minds and Machines et au Department of Brain and Cognitive Sciences au MIT, et à Harvard University. « Des jeux comme’Avalon’ imitent mieux les environnements sociaux dynamiques que les humains vivent dans la vie de tous les jours. Tu dois trouver qui fait partie de ton équipe et travailler avec toi, que ce soit ton premier jour de maternelle ou un autre jour dans ton bureau. »
David C. Parkes, de Harvard, et Joshua B. Tenenbaum, professeur de science cognitive computationnelle et membre du laboratoire d’informatique et d’intelligence artificielle du MIT et du Center for Brains, Minds and Machines, se joindront à Serrino et Kleiman-Weiner pour cet article.
Bot déductif
Dans « Avalon », trois joueurs sont affectés de manière aléatoire et secrète à une équipe « résistance » et deux joueurs à une équipe « espion ». Les deux espions connaissent tous les rôles des joueurs. A chaque tour, un joueur propose un sous-ensemble de deux ou trois joueurs pour exécuter une mission. Tous les joueurs votent simultanément et publiquement pour approuver ou désapprouver le sous-ensemble. Si la majorité approuve, le sous-ensemble détermine secrètement si la mission réussira ou échouera. Si deux « réussites » sont choisies, la mission réussit ; si une « défaite » est choisie, la mission échoue. Les joueurs de la résistance doivent toujours choisir de réussir, mais les joueurs espions peuvent choisir l’une ou l’autre issue. L’équipe de résistance gagne après trois missions réussies ; l’équipe d’espionnage gagne après trois missions ratées.
Gagner le jeu revient essentiellement à déduire qui est la résistance ou l’espion, et à voter pour vos collaborateurs. Mais c’est en fait plus complexe sur le plan informatique que de jouer aux échecs et au poker. « C’est un jeu d’information imparfaite », dit Kleiman-Weiner. « Vous n’êtes même pas sûr contre qui vous êtes quand vous commencez, donc il y a une phase de découverte supplémentaire pour trouver avec qui coopérer. »
DeepRole utilise un algorithme de planification de jeu appelé « Counterfactual regret minimization » (CFR) – qui apprend à jouer à un jeu en jouant contre lui-même à plusieurs reprises – complété par un raisonnement déductif. A chaque étape d’une partie, CFR se tourne vers l’avenir pour créer un « arbre de décision » de lignes et de nœuds décrivant les actions futures potentielles de chaque joueur. Les arbres de jeu représentent toutes les actions possibles (lignes) que chaque joueur peut prendre à chaque point de décision futur. En jouant sur des milliards de simulations de jeux, CFR note quelles actions ont augmenté ou diminué ses chances de gagner, et révise sa stratégie de manière itérative pour inclure plus de bonnes décisions. En fin de compte, il planifie une stratégie optimale qui, au pire, s’oppose à n’importe quel adversaire.
Le CFR fonctionne bien pour des jeux comme le poker, avec des actions publiques – comme parier de l’argent et plier une main – mais il lutte quand les actions sont secrètes. Le CFR des chercheurs combine les actions publiques et les conséquences des actions privées pour déterminer si les joueurs sont résistants ou espions.
Le robot est entraîné en jouant contre lui-même en tant que résistance et espion. Lorsqu’il joue à un jeu en ligne, il utilise son arbre de jeu pour estimer ce que chaque joueur va faire. L’arbre de jeu représente une stratégie qui donne à chaque joueur la plus grande probabilité de gagner en tant que rôle assigné. Les nœuds de l’arbre contiennent des « valeurs contrefactuelles », qui sont essentiellement des estimations pour un gain que le joueur reçoit s’il joue cette stratégie donnée.
A chaque mission, le bot regarde comment chaque personne a joué par rapport à l’arbre de jeu. Si, tout au long du jeu, un joueur prend suffisamment de décisions qui sont incompatibles avec les attentes du bot, alors le joueur joue probablement l’autre rôle. Finalement, le bot attribue une probabilité élevée pour le rôle de chaque joueur. Ces probabilités sont utilisées pour mettre à jour la stratégie du robot afin d’augmenter ses chances de victoire.
Simultanément, il utilise cette même technique pour estimer comment un observateur à la troisième personne pourrait interpréter ses propres actions. Cela l’aide à estimer comment d’autres acteurs peuvent réagir, ce qui l’aide à prendre des décisions plus intelligentes. « Si c’est une mission à deux joueurs qui échoue, les autres joueurs savent qu’un joueur est un espion. Le robot ne proposera probablement pas la même équipe lors de futures missions, car il sait que les autres joueurs pensent que c’est mauvais », explique Serrino.
Langue : La prochaine frontière
Il est intéressant de noter que le bot n’avait pas besoin de communiquer avec les autres joueurs, ce qui est généralement un élément clé du jeu. « Avalon » permet aux joueurs de chatter sur un élément de texte pendant le jeu. « Mais il s’avère que notre robot a bien fonctionné avec une équipe d’autres humains tout en n’observant que les actions des joueurs « , explique Kleiman-Weiner. « C’est intéressant, parce qu’on pourrait penser que ce genre de jeux nécessite des stratégies de communication compliquées. »
Ensuite, les chercheurs peuvent permettre au bot de communiquer pendant les jeux avec un texte simple, comme dire qu’un joueur est bon ou mauvais. Cela impliquerait d’assigner du texte à la probabilité corrélée qu’un joueur soit une résistance ou un espion, que le bot utilise déjà pour prendre ses décisions. Au-delà de cela, un futur bot pourrait être équipé de capacités de communication plus complexes, ce qui lui permettrait de jouer à des jeux de déductions sociales à forte intensité linguistique – comme un jeu populaire « Werewolf » – qui impliquent plusieurs minutes pour argumenter et persuader les autres joueurs de savoir qui est dans les bonnes ou les mauvaises équipes.
« La langue est sans aucun doute la prochaine frontière, dit M. Serrino. « Mais il y a beaucoup de défis à relever dans ces jeux, où la communication est si importante. »