Dans quelle mesure les ordinateurs peuvent-ils relier les symptômes aux maladies ?

Une nouvelle étude du MIT révèle que les » graphiques de connaissances sur la santé « , qui montrent les relations entre les symptômes et les maladies et qui sont destinés à faciliter le diagnostic clinique, peuvent être insuffisants pour certaines affections et populations de patients. Les résultats suggèrent également des moyens d’améliorer leurs performances.
Les graphiques de connaissances sur la santé ont généralement été compilés manuellement par des cliniciens experts, mais cela peut être un processus laborieux. Récemment, les chercheurs ont expérimenté la génération automatique de ces graphiques de connaissances à partir des données des patients. L’équipe du MIT a étudié la tenue de ces graphiques pour différentes maladies et populations de patients.
Dans un article présenté au Pacific Symposium on Biocomputing 2020, les chercheurs ont évalué des graphiques de connaissances en santé générés automatiquement à partir d’ensembles de données réels comprenant plus de 270 000 patients atteints de près de 200 maladies et de plus de 770 symptômes.
L’équipe a analysé comment divers modèles utilisaient les données des dossiers de santé électroniques (DSE), qui contiennent les antécédents médicaux et de traitement des patients, pour » apprendre » automatiquement les modèles de corrélation entre les maladies et les symptômes. Ils ont constaté que les modèles étaient particulièrement peu performants pour les maladies qui ont des pourcentages élevés de patients très âgés ou jeunes, ou des pourcentages élevés de patients hommes ou femmes – mais que le choix des bonnes données pour le bon modèle, et l’apport d’autres modifications, peuvent améliorer les performances.
L’idée est de fournir des conseils aux chercheurs sur la relation entre la taille des ensembles de données, la spécification du modèle et le rendement lorsqu’ils utilisent les dossiers de santé électroniques pour construire des graphiques de connaissances sur la santé. Cela pourrait conduire à de meilleurs outils pour aider les médecins et les patients à prendre des décisions médicales ou à rechercher de nouvelles relations entre les maladies et les symptômes.
» Au cours des dix dernières années, l’utilisation des DSE a monté en flèche dans les hôpitaux, alors il y a une énorme quantité de données que nous espérons exploiter pour apprendre ces graphiques des relations entre les maladies et les symptômes « , dit la première auteure, Irene Y. Chen, étudiante de deuxième cycle au Département de génie électrique et d’informatique (EECS). « Il est essentiel que nous examinions attentivement ces graphiques, afin qu’ils puissent être utilisés comme les premières étapes d’un outil de diagnostic. »
Se joignent à Chen pour cet article : Monica Agrawal, étudiante de troisième cycle au Computer Science and Artificial Intelligence Laboratory (CSAIL) du MIT ; Steven Horng du Beth Israel Deaconess Medical Center (BIDMC) ; et le professeur David Sontag de l’EECS, membre du CSAIL et de l’Institute for Medical Engineering and Science, et chef du Clinical Machine Learning Group.
Patients et maladies
Dans les graphiques des connaissances sur la santé, il y a des centaines de nœuds, chacun représentant une maladie et un symptôme différents. Les bords (lignes) relient les nœuds de maladie, comme le » diabète « , aux nœuds de symptômes corrélés, comme la » soif excessive « . En 2015, Google a lancé sa propre version, qui a été manuellement mise au point par plusieurs cliniciens pendant des centaines d’heures et qui est considérée comme la référence. Lorsque vous recherchez une maladie sur Google maintenant, le système affiche les symptômes associés.
En 2017 Nature Rapports scientifiques Sontag, Horng et d’autres chercheurs ont utilisé les données des 270 000 patients de leur étude actuelle, qui ont été recueillies à l’urgence du BIDMC entre 2008 et 2013, pour créer des graphiques de connaissances sur la santé. Ils ont utilisé trois structures de modèle pour générer les graphiques, appelées régression logistique, Bayes naïf et OU bruyant. À l’aide des données fournies par Google, les chercheurs ont comparé leur graphique de connaissances sur la santé généré automatiquement avec le Google Health Knowledge Graph (GHKG). Le graphique des chercheurs a donné de très bons résultats.
Dans leurs nouveaux travaux, les chercheurs ont effectué une analyse d’erreur rigoureuse pour déterminer quels patients et quelles maladies spécifiques les modèles ont mal fonctionné. De plus, ils ont expérimenté l’augmentation des modèles avec plus de données, provenant de l’extérieur de la salle d’urgence.
Dans un test, ils ont décomposé les données en sous-populations de maladies et de symptômes. Pour chaque modèle, ils ont examiné les lignes de connexion entre les maladies et tous les symptômes possibles, et les ont comparées avec le GHKG. Dans le document, ils classent les résultats selon les 50 maladies les moins performantes et les 50 maladies les plus performantes. Les exemples de mauvais résultats sont le syndrome des ovaires polykystiques (qui touche les femmes), l’asthme allergique (très rare) et le cancer de la prostate (qui touche surtout les hommes âgés). Les maladies et affections les plus courantes sont celles qui sont les plus performantes, comme l’arythmie cardiaque et la fasciite plantaire, qui est un gonflement des tissus le long des pieds.
Ils ont constaté que le modèle de bloc opératoire bruyant était le plus robuste contre l’erreur dans l’ensemble pour presque toutes les maladies et tous les patients. Mais la précision a diminué dans tous les modèles pour les patients qui présentent de nombreuses maladies et symptômes concomitants, ainsi que pour les patients très jeunes ou âgés de plus de 85 ans. La performance a également souffert pour les populations de patients ayant des pourcentages très élevés ou très faibles de tout sexe.
Essentiellement, les chercheurs émettent l’hypothèse qu’un mauvais rendement est causé par des patients et des maladies qui ont un rendement prédictif aberrant, ainsi que par des facteurs de confusion potentiels non mesurés. Les patients âgés, par exemple, ont tendance à entrer dans les hôpitaux avec plus de maladies et de symptômes connexes que les patients plus jeunes. Cela signifie qu’il est difficile pour les modèles de corréler des maladies spécifiques avec des symptômes spécifiques, dit Chen. « De même », ajoute-t-elle, « les jeunes patients n’ont pas beaucoup de maladies ou autant de symptômes, et s’ils ont une maladie ou un symptôme rare, il ne se présente pas de manière normale que les modèles comprennent. »
Fractionnement des données
Les chercheurs ont également recueilli beaucoup plus de données sur les patients et ont créé trois ensembles de données distincts de granularité différente pour voir si cela pouvait améliorer le rendement. Pour les 270 000 visites utilisées dans l’analyse originale, les chercheurs ont extrait l’historique complet du DSE des 140 804 patients uniques, en remontant une décennie en arrière, avec un total d’environ 7,4 millions d’annotations provenant de diverses sources, comme les notes des médecins.
Les choix effectués dans le processus de création des ensembles de données ont également eu un impact sur la performance du modèle. L’un des ensembles de données regroupe chacun des 140 400 antécédents de patients sous la forme d’un point de données. Un autre ensemble de données traite chacune des 7,4 millions d’annotations comme un point de données distinct. Une dernière crée des » épisodes » pour chaque patient, définis comme une série continue de visites sans interruption de plus de 30 jours, ce qui donne un total d’environ 1,4 million d’épisodes.
Intuitivement, un ensemble de données où l’historique complet du patient est regroupé en un point de données devrait mener à une plus grande précision puisque l’historique complet du patient est pris en compte. Cependant, à l’inverse, le modèle naïf de Bayes a également obtenu des résultats plus faibles pour certaines maladies. « Vous supposez que plus il y a d’informations intra-patient, mieux c’est, avec les modèles d’apprentissage machine. Mais ces modèles dépendent de la granularité des données que vous leur fournissez « , explique M. Chen. « Le type de modèle que vous utilisez pourrait être dépassé. »
Comme prévu, l’alimentation du modèle en informations démographiques peut également être efficace. Par exemple, les modèles peuvent utiliser cette information pour exclure tous les patients de sexe masculin pour, disons, prédire le cancer du col de l’utérus. Et certaines maladies beaucoup plus courantes chez les patients âgés peuvent être éliminées chez les patients plus jeunes.
Mais, autre surprise, les données démographiques n’ont pas amélioré le rendement du modèle le plus efficace, de sorte qu’il n’est peut-être pas nécessaire de recueillir ces données. C’est important, dit M. Chen, car la compilation des données et les modèles de formation sur les données peuvent être coûteux et prendre beaucoup de temps. Pourtant, selon le modèle, l’utilisation de scores de données peut ne pas améliorer réellement la performance.
Ensuite, les chercheurs espèrent utiliser leurs conclusions pour construire un modèle robuste à déployer en milieu clinique. Actuellement, le graphique des connaissances sur la santé apprend les relations entre les maladies et les symptômes mais ne donne pas de prédiction directe de la maladie à partir des symptômes. Nous espérons que tout modèle prédictif et tout graphique de connaissances médicales sera soumis à un test de stress afin que les cliniciens et les chercheurs en apprentissage machine puissent dire en toute confiance : » Nous croyons que c’est un outil de diagnostic utile « , dit M. Chen.