Trouver une bonne lecture parmi des milliards de choix
Avec des milliards de livres, d’articles et de documents en ligne, il n’y a jamais eu de meilleur moment pour lire – si vous avez le temps de passer en revue toutes les options. « Il y a une tonne de textes sur Internet », dit Justin Solomonun professeur assistant au MIT. « Tout ce qui peut aider à couper à travers tout ce matériel est extrêmement utile. »
Avec le MIT-IBM Watson AI Lab et son Groupe de traitement des données géométriques au MIT, Solomon a récemment présenté une nouvelle technique pour couper à travers des quantités massives de texte au Conférence sur les systèmes de traitement de l’information neuronale (NeurIPS). Leur méthode combine trois outils d’analyse de texte populaires – modélisation de sujets, encapsulation de mots et transport optimal – pour fournir des résultats meilleurs et plus rapides que les méthodes concurrentes sur une référence populaire pour la classification des documents.
Si un algorithme sait ce que vous aimiez dans le passé, il peut analyser les millions de possibilités pour trouver quelque chose de similaire. Au fur et à mesure que les techniques de traitement du langage naturel s’améliorent, les suggestions » vous pourriez aussi aimer » deviennent plus rapides et plus pertinentes.
Dans la méthode présentée à NeurIPS, un algorithme résume une collection de, disons, livres, en sujets basés sur des mots couramment utilisés dans la collection. Il divise ensuite chaque livre en ses cinq à quinze sujets les plus importants, avec une estimation de la contribution de chaque sujet à l’ensemble du livre.
Pour comparer les livres, les chercheurs utilisent deux autres outils : l’encastrement des mots, une technique qui transforme les mots en listes de nombres pour refléter leur similarité dans l’usage populaire, et le transport optimal, un cadre pour calculer la façon la plus efficace de déplacer des objets – ou des points de données – parmi de multiples destinations.
L’encapsulation des mots permet de tirer deux fois parti du transport optimal : d’abord pour comparer les thèmes au sein de la collection dans son ensemble, puis, au sein de toute paire de livres, pour mesurer à quel point les thèmes communs se chevauchent.
Cette technique fonctionne particulièrement bien pour la numérisation de grandes collections de livres et de documents volumineux. Dans l’étude, les chercheurs donnent l’exemple du » The Great War Syndicate » de Frank Stockton, un roman américain du XIXe siècle qui anticipait la montée des armes nucléaires. Si vous recherchez un livre similaire, un modèle de sujet aiderait à identifier les thèmes dominants partagés avec d’autres livres – dans ce cas, nautique, élémentaire et martial.
Mais un modèle de sujet seul ne permettrait pas d’identifier la conférence de Thomas Huxley de 1863, « L’état passé de la nature organiquecomme un bon match. L’écrivain était un champion de la théorie de l’évolution de Charles Darwin, et sa conférence, parsemée de mentions de fossiles et de sédimentation, reflétait les idées émergentes sur la géologie. Lorsque les thèmes de la conférence de Huxley sont mis en correspondance avec le roman de Stockton grâce à un transport optimal, certains motifs transversaux émergent : la géographie, la faune/flore et les thèmes de connaissance de Huxley se rapprochent des thèmes nautiques, élémentaires et martiaux de Stockton, respectivement.
La modélisation des livres par leurs sujets représentatifs, plutôt que par des mots individuels, rend possible des comparaisons de haut niveau. « Si vous demandez à quelqu’un de comparer deux livres, il divise chacun d’eux en concepts faciles à comprendre, puis compare les concepts « , explique l’auteur principal de l’étude. Mikhail Yurochkinun chercheur d’IBM.
Il en résulte des comparaisons plus rapides et plus précises, comme le montre l’étude. Les chercheurs ont comparé 1 720 paires de livres dans l’ensemble de données du projet Gutenberg en une seconde – plus de 800 fois plus vite que la méthode suivante.
Cette technique permet également de trier les documents avec plus de précision que les méthodes concurrentes – par exemple, le regroupement des livres dans l’ensemble de données Gutenberg par auteur, les critiques de produits sur l’Amazone par département et les reportages sportifs de la BBC par sport. Dans une série de visualisations, les auteurs montrent que leur méthode permet de regrouper les documents par type.
En plus de catégoriser les documents rapidement et plus précisément, la méthode offre une fenêtre sur le processus décisionnel du modèle. Grâce à la liste des sujets qui apparaissent, les utilisateurs peuvent voir pourquoi le modèle recommande un document.
Les autres auteurs de l’étude sont Sébastien Claici et Edward Chienun étudiant de deuxième cycle et un postdoctorant, respectivement, au département de génie électrique et d’informatique et au laboratoire d’informatique et d’intelligence artificielle du MIT, et Farzaneh Mirzazadehun chercheur d’IBM.