Résumer des documents de recherche diversifiés en une seule image cohérente

Des sciences sociales aux sciences naturelles et appliquées, la production scientifique globale a augmenté dans le monde entier. double tous les neuf ans.
Traditionnellement, les chercheurs résolvent un problème en menant de nouvelles expériences. Cependant, avec l’augmentation constante de la littérature scientifique, il est de plus en plus courant de faire une découverte à partir d’un grand nombre d’articles de revues déjà publiés. Les chercheurs synthétisent les résultats d’études antérieures afin de développer une compréhension plus complète d’un phénomène. Il est essentiel de donner un sens à cette explosion d’études pour que les scientifiques puissent non seulement s’appuyer sur les travaux antérieurs, mais aussi pour faire avancer les domaines de recherche.
Mes collègues Hazhir Rahmandad et Kamran Paynabar et j’ai mis au point une nouvelle façon plus robuste de rassembler toutes les recherches antérieures sur un sujet particulier. Dans le cadre d’un programme conjoint de cinq ans projet entre le MIT et Georgia Tech, nous avons travaillé à la création d’une nouvelle technique d’agrégation de la recherche. Notre article récemment publié dans PLOS ONE introduit une méthode flexible qui aide à synthétiser les résultats d’études antérieuresmême potentiellement ceux qui ont des méthodes diverses et des résultats divergents. Nous l’appelons agrégation généralisée des modèlesou GMA.
Tout mettre en ordre
Revues narratives de la littérature ont longtemps été un élément clé des publications scientifiques. La nécessité d’approches plus globales a conduit à l’émergence de deux autres méthodes très utiles : examen systématique et méta-analyse.
Dans une revue systématique, un auteur trouve et critique toutes les études antérieures autour d’une question de recherche similaire. L’idée est de mettre le lecteur au courant de l’état actuel des choses sur un sujet de recherche particulier.
Dans une méta-analyse, les chercheurs vont plus loin et font une synthèse quantitative des résultats. Essentiellement, il faut une moyenne pondérée des résultats de plusieurs études sur un même sujet. La mise en commun des résultats de plusieurs études vise à produire des résultats plus fiables que ceux d’une seule étude. Cela est particulièrement utile lorsque des études antérieures ont fait état de constatations et de conclusions divergentes. Et l’augmentation des publications de méta-analyse s’est accélérée au cours de la dernière décennie, soulignant leur importance dans les milieux de la recherche.

Mohammad S. Jalali, CC BY-ND
La méta-analyse nous a aidés à mieux comprendre de nombreux problèmes scientifiques. Mais il y a des défis à relever. Une méta-analyse typique combine une seule variable explicative (c’est-à-dire un traitement contrôlé par l’expérimentateur) et une variable réponse (par exemple, un résultat sur la santé). De plus, un chercheur doit faire très attention de ne pas mettre en morceaux des pommes et des oranges dans la méta-analyse. Elle doit être sélective et s’assurer de n’inclure que des travaux antérieurs ayant un plan d’étude très similaire.
C’est ici qu’intervient notre méthode simple et flexible d’agrégation de modèles généralisés. En utilisant l’évaluation mondiale du milieu marin, les études antérieures n’ont pas nécessairement besoin d’avoir le même plan ou la même méthode d’étude. Ils peuvent aussi avoir différentes variables explicatives. Tant qu’ils répondent tous à une question de recherche similaire, GMA peut les synthétiser.
Mise en commun des résultats d’un domaine à l’autre
Prenons un exemple tiré de la documentation sur la santé. Les chercheurs en obésité et en nutrition ont besoin d’équations fiables pour estimer le taux métabolique de base (TMB) – la quantité d’énergie que le corps humain dépense au repos complet. Comprendre le BMR a de grandes implications pour les questions de gestion du poids dans le monde réel.
Les chercheurs estiment souvent la BMR en fonction de différents attributs : âge, taille, poids, masse grasse et masse sans gras. Le défi est que les publications actuelles dans les revues de recherche fournir plus de 200 équations de ce type estimée pour différents échantillons et groupes d’âge. Ces équations comprennent également différents sous-ensembles de ces attributs.
Par exemple, une de ces équations incluait le poids et l’âge, mais une autre ne comprenait que la masse sans gras. Une autre équation tenait compte de l’impact de tous ces attributs, mais la taille de l’échantillon était trop petite pour le rendre fiable. Fait plus intéressant et plus troublant, plusieurs études ont été menées auprès d’échantillons et de variables semblables, mais elles ont fait état d’équations très différentes pour expliquer les relations.
Quelles équations allez-vous donc choisir pour estimer avec précision le BMR ? Comment vous assurez-vous que l’équation que vous avez choisie est plus fiable que les autres ?
Afin de répondre à ces questions, nous avons identifié 27 équations BMR publiées pour les hommes blancs des études publiées. Ensuite, nous avons utilisé l’ÉMG pour les agréger en une seule équation, que nous avons appelée un méta-modèle.
Grâce à des tests de validation, nous avons montré que notre méta-modèle est plus précis que les équations précédentes pour l’estimation du BMR. Il peut également traiter d’une relation logarithmique entre deux variables, ce qui n’est pas le cas dans les 27 équations linéaires originales.
Nous avons testé notre méthode en la confrontant à des situations plus complexes. Que se passerait-il si toutes les équations que nous agrégeons à l’aide de l’évaluation mondiale de l’état du milieu marin n’étaient pas conformes à la réalité ? La GMA s’approcherait-elle encore de ce qui se passe réellement ?

Rahmandad et al, DOI : 10.1371/journal.pone.0175111, CC BY
Pour faire des recherches, nous avons imaginé deux chercheurs arrivant avec deux équations linéaires différentes pour décrire ce qu’ils ne réalisaient pas être en fait un phénomène non linéaire. Les résultats des deux chercheurs sont loin d’être réels. Mais encore une fois, notre méta-modèle a fourni une estimation extrêmement précise de la réalité – même en agrégeant ces deux modèles incorrects et biaisés.
Comment la GMA parvient à la vérité
Alors, comment tout cela fonctionne-t-il ? Il n’y a pas de magie ici. En fait, le l’intuition derrière GMA est simplequi permet à des chercheurs n’ayant pas beaucoup d’expérience statistique de l’utiliser.
En gros, chaque étude empirique antérieure est une tentative d’estimation d’une réalité sous-jacente. Appelons ça le « vrai modèle ». Et nous ne le savons pas ; ce qui est à l’origine du phénomène à l’étude est le secret de la nature. Les études empiriques rapportent des informations pertinentes sur le modèle réel, même si elles sont biaisées ou incomplètes.
L’agrégation généralisée des modèles utilise des simulations informatiques pour reproduire des études antérieures. Cette fois, cependant, les études simulées tentent d’estimer un méta-modèle au lieu du vrai modèle (c’est-à-dire la réalité).
Nous intégrons dans la simulation les estimations rapportées par les études empiriques. La souplesse de l’évaluation mondiale nous permet également d’utiliser toute autre information supplémentaire sur le modèle réel sous-jacent, comme les relations entre les variables ou la qualité des estimations des études empiriques. Ces renseignements supplémentaires contribuent à accroître la fiabilité des estimations de l’évaluation mondiale de l’état du milieu marin.
L’algorithme GMA applique soigneusement les mêmes caractéristiques d’échantillon à chaque étude précédente et réplique la même méthode. Il compare ensuite les résultats des études simulées avec les résultats réels des études empiriques, en essayant de trouver la correspondance la plus proche. Grâce à ce processus d’appariement, GMA estime le méta-modèle.
Si les sorties simulées et réelles correspondent, le méta-modèle peut être une bonne représentation du modèle réel – c’est-à-dire qu’en exécutant une série d’études à l’aide de l’algorithme GMA, nous pouvons obtenir une meilleure approximation du fonctionnement réel du phénomène en question.
Large gamme d’applications pour GMA
Dans notre article, nous avons ont discuté d’un large éventail d’exemplesde la santé au changement climatique et aux sciences de l’environnement, qui peuvent bénéficier de l’agrégation généralisée des modèles. L’utilisation de l’évaluation mondiale du milieu marin pour synthétiser les résultats antérieurs en un méta-modèle cohérent peut accroître la précision de l’agrégation.
Dans la crise actuelle de la reproductibilité, l’évaluation mondiale du milieu marin peut aider non seulement à identifier les études qui sont reproductibles, mais aussi à distinguer les résultats fiables de ceux qui sont moins fiables.
Nous avons signalé toutes les étapes de notre analyse pour une réplication ultérieure. Une recette d’utilisation de GMA et de ses codes, accompagnée d’instructions, est aussi accessible au public.
Nous espérons que l’évaluation mondiale de l’état du milieu marin permettra d’étendre la portée des efforts actuels de synthèse de la recherche à de nombreux problèmes nouveaux. L’évaluation mondiale du milieu marin peut nous aider à comprendre l’ensemble des phénomènes en agrégeant leurs composantes. Prenons l’exemple d’un puzzle dont les pièces sont éparpillées ; l’image d’ensemble n’est révélée que lorsque les pièces ont été rassemblées.