Skip to content
Logo csisimple

C Si Simple

Le réseau de connaissances pour les Pros !

Primary Menu
  • Technologie
  • Ordinateurs
  • Intelligence Artificielle
  • Home
  • Ordinateurs
  • Trouver une bonne lecture parmi des milliards de choix
  • Ordinateurs

Trouver une bonne lecture parmi des milliards de choix

20 décembre 2019 4 min read

Avec des milliards de livres, d’articles et de documents en ligne, il n’y a jamais eu de meilleur moment pour lire – si vous avez le temps de passer en revue toutes les options. « Il y a une tonne de textes sur Internet », dit Justin Solomonun professeur assistant au MIT. « Tout ce qui peut aider à couper à travers tout ce matériel est extrêmement utile. »

Avec le MIT-IBM Watson AI Lab et son Groupe de traitement des données géométriques au MIT, Solomon a récemment présenté une nouvelle technique pour couper à travers des quantités massives de texte au Conférence sur les systèmes de traitement de l’information neuronale (NeurIPS). Leur méthode combine trois outils d’analyse de texte populaires – modélisation de sujets, encapsulation de mots et transport optimal – pour fournir des résultats meilleurs et plus rapides que les méthodes concurrentes sur une référence populaire pour la classification des documents.

Si un algorithme sait ce que vous aimiez dans le passé, il peut analyser les millions de possibilités pour trouver quelque chose de similaire. Au fur et à mesure que les techniques de traitement du langage naturel s’améliorent, les suggestions  » vous pourriez aussi aimer  » deviennent plus rapides et plus pertinentes.

Dans la méthode présentée à NeurIPS, un algorithme résume une collection de, disons, livres, en sujets basés sur des mots couramment utilisés dans la collection. Il divise ensuite chaque livre en ses cinq à quinze sujets les plus importants, avec une estimation de la contribution de chaque sujet à l’ensemble du livre.

Pour comparer les livres, les chercheurs utilisent deux autres outils : l’encastrement des mots, une technique qui transforme les mots en listes de nombres pour refléter leur similarité dans l’usage populaire, et le transport optimal, un cadre pour calculer la façon la plus efficace de déplacer des objets – ou des points de données – parmi de multiples destinations.

L’encapsulation des mots permet de tirer deux fois parti du transport optimal : d’abord pour comparer les thèmes au sein de la collection dans son ensemble, puis, au sein de toute paire de livres, pour mesurer à quel point les thèmes communs se chevauchent.

Cette technique fonctionne particulièrement bien pour la numérisation de grandes collections de livres et de documents volumineux. Dans l’étude, les chercheurs donnent l’exemple du  » The Great War Syndicate  » de Frank Stockton, un roman américain du XIXe siècle qui anticipait la montée des armes nucléaires. Si vous recherchez un livre similaire, un modèle de sujet aiderait à identifier les thèmes dominants partagés avec d’autres livres – dans ce cas, nautique, élémentaire et martial.

Mais un modèle de sujet seul ne permettrait pas d’identifier la conférence de Thomas Huxley de 1863, « L’état passé de la nature organiquecomme un bon match. L’écrivain était un champion de la théorie de l’évolution de Charles Darwin, et sa conférence, parsemée de mentions de fossiles et de sédimentation, reflétait les idées émergentes sur la géologie. Lorsque les thèmes de la conférence de Huxley sont mis en correspondance avec le roman de Stockton grâce à un transport optimal, certains motifs transversaux émergent : la géographie, la faune/flore et les thèmes de connaissance de Huxley se rapprochent des thèmes nautiques, élémentaires et martiaux de Stockton, respectivement.

La modélisation des livres par leurs sujets représentatifs, plutôt que par des mots individuels, rend possible des comparaisons de haut niveau. « Si vous demandez à quelqu’un de comparer deux livres, il divise chacun d’eux en concepts faciles à comprendre, puis compare les concepts « , explique l’auteur principal de l’étude. Mikhail Yurochkinun chercheur d’IBM.

Il en résulte des comparaisons plus rapides et plus précises, comme le montre l’étude. Les chercheurs ont comparé 1 720 paires de livres dans l’ensemble de données du projet Gutenberg en une seconde – plus de 800 fois plus vite que la méthode suivante.

Cette technique permet également de trier les documents avec plus de précision que les méthodes concurrentes – par exemple, le regroupement des livres dans l’ensemble de données Gutenberg par auteur, les critiques de produits sur l’Amazone par département et les reportages sportifs de la BBC par sport. Dans une série de visualisations, les auteurs montrent que leur méthode permet de regrouper les documents par type.

En plus de catégoriser les documents rapidement et plus précisément, la méthode offre une fenêtre sur le processus décisionnel du modèle. Grâce à la liste des sujets qui apparaissent, les utilisateurs peuvent voir pourquoi le modèle recommande un document.

Les autres auteurs de l’étude sont Sébastien Claici et Edward Chienun étudiant de deuxième cycle et un postdoctorant, respectivement, au département de génie électrique et d’informatique et au laboratoire d’informatique et d’intelligence artificielle du MIT, et Farzaneh Mirzazadehun chercheur d’IBM.

Continue Reading

Previous: Le modèle bat les analystes de Wall Street dans la prévision des résultats financiers des entreprises
Next: L’outil prédit la vitesse à laquelle le code s’exécutera sur une puce

Articles Liés

L’initiative du MIT pour l’énergie accorde huit subventions de fonds d’amorçage pour les premières étapes de la recherche sur l’énergie du MIT 7 min read
  • Ordinateurs

L’initiative du MIT pour l’énergie accorde huit subventions de fonds d’amorçage pour les premières étapes de la recherche sur l’énergie du MIT

1 juillet 2020
medical-equipment-4099432_1920 Améliorer l’équité en matière de santé dans le monde en aidant les cliniques à faire plus avec moins 7 min read
  • Ordinateurs

Améliorer l’équité en matière de santé dans le monde en aidant les cliniques à faire plus avec moins

26 juin 2020
audience-1835431_1280 Identifier une mélodie en étudiant le langage corporel d’un musicien 4 min read
  • Ordinateurs

Identifier une mélodie en étudiant le langage corporel d’un musicien

26 juin 2020
Lancement du programme MIT-Takeda | MIT News 5 min read
  • Ordinateurs

Lancement du programme MIT-Takeda | MIT News

19 juin 2020
doctor-563428_1280 Apporter le pouvoir prédictif de l’intelligence artificielle aux soins de santé 7 min read
  • Ordinateurs

Apporter le pouvoir prédictif de l’intelligence artificielle aux soins de santé

19 juin 2020
Le MIT et Toyota publient un ensemble de données innovatrices pour accélérer la recherche sur la conduite autonome 4 min read
  • Ordinateurs

Le MIT et Toyota publient un ensemble de données innovatrices pour accélérer la recherche sur la conduite autonome

18 juin 2020

Articles récents

  • L’initiative du MIT pour l’énergie accorde huit subventions de fonds d’amorçage pour les premières étapes de la recherche sur l’énergie du MIT
  • Améliorer l’équité en matière de santé dans le monde en aidant les cliniques à faire plus avec moins
  • Identifier une mélodie en étudiant le langage corporel d’un musicien
  • Lancement du programme MIT-Takeda | MIT News
  • Apporter le pouvoir prédictif de l’intelligence artificielle aux soins de santé

Catégories

  • Entreprises
  • Intelligence Artificielle
  • Ordinateurs
  • Technologie
  • Magazine W30
  • Contact
Copyright © All rights reserved. | Magnitude by AF themes.