Accélérer les découvertes fondées sur les données | MIT News
Avec la prolifération de technologies telles que le séquençage génomique unicellulaire, l’imagerie biomédicale améliorée et les dispositifs médicaux de l' »internet des objets », les découvertes clés sur la santé humaine se trouvent de plus en plus dans les vastes étendues de données complexes des sciences de la vie et de la santé.
Mais tirer des conclusions significatives de ces données est un problème difficile qui peut impliquer de rassembler différents types de données et de manipuler d’énormes ensembles de données en réponse à des enquêtes scientifiques variées. Le problème concerne autant l’informatique que d’autres domaines scientifiques. C’est là qu’intervient Paradigm4.
La société, fondée par Marilyn Matz SM ’80, lauréate du prix Turing et professeur au MIT Michael Stonebraker, aide les entreprises pharmaceutiques, les instituts de recherche et les sociétés de biotechnologie à transformer les données en informations.
Il y parvient grâce à un système de gestion de base de données informatique qui est construit à partir de la base pour héberger les données diverses et multidimensionnelles aux frontières de la recherche en sciences de la vie. Cela comprend des données provenant de sources telles que les biobanques nationales, les essais cliniques, l’internet médical des choses, les atlas de cellules humaines, les images médicales, les facteurs environnementaux et la multi-monomique, un domaine qui comprend l’étude des génomes, des microbiomes, des métabolomes, etc.
Outre l’architecture unique du système, la société a également mis au point des outils de préparation des données, de gestion des métadonnées et d’analyse pour aider les utilisateurs à trouver les modèles et les corrélations importants qui se cachent dans tous ces chiffres.
Dans de nombreux cas, les clients explorent des ensembles de données qui, selon les fondateurs, sont trop vastes et trop complexes pour être représentés efficacement par les systèmes traditionnels de gestion de bases de données.
« Nous souhaitons permettre aux scientifiques et aux spécialistes des données de faire des choses qu’ils ne pouvaient pas faire auparavant en leur facilitant le traitement de calculs à grande échelle et l’apprentissage machine sur des données diverses », explique M. Matz. « Nous aidons les scientifiques et les bioinformaticiens à poser et à répondre plus rapidement aux questions difficiles grâce à des recherches collaboratives et reproductibles ».
Un nouveau paradigme
Stonebraker est un pionnier dans le domaine des systèmes de gestion de bases de données depuis des décennies. Il a créé neuf entreprises, et ses innovations ont établi des normes sur la façon dont les systèmes modernes permettent aux gens d’organiser et d’accéder à de grands ensembles de données.
Une grande partie de la carrière de Stonebraker s’est concentrée sur les bases de données relationnelles, qui organisent les données en colonnes et en lignes. Mais au milieu des années 2000, Stonebraker s’est rendu compte que beaucoup de données générées seraient mieux stockées non pas en lignes ou en colonnes mais dans des tableaux multidimensionnels.
Par exemple, les satellites divisent la surface de la Terre en grands carrés, et les systèmes GPS suivent le mouvement d’une personne à travers ces carrés au fil du temps. Cette opération implique des mesures verticales, horizontales et temporelles qui ne sont pas facilement regroupées ou manipulées pour être analysées dans des systèmes de bases de données relationnelles.
Stonebraker se souvient de ses collègues scientifiques qui se plaignaient que les systèmes de gestion de bases de données disponibles étaient trop lents pour travailler avec des ensembles de données scientifiques complexes dans des domaines comme la génomique, où les chercheurs étudient les relations entre les données multi-métriques à l’échelle de la population, les données phénotypiques et les dossiers médicaux.
[« Relational database systems »] scannent soit horizontalement soit verticalement, mais pas les deux », explique Stonebraker. « Il faut donc un système qui fait les deux, et qui nécessite un gestionnaire de stockage en bas du système qui soit capable de se déplacer horizontalement et verticalement dans un très grand ensemble. C’est ce que fait Paradigm4 ».
En 2008, Stonebraker a commencé à développer un système de gestion de base de données au MIT qui stocke les données dans des tableaux multidimensionnels. Il a confirmé que cette approche offrait des avantages majeurs en termes d’efficacité, permettant aux outils analytiques basés sur l’algèbre linéaire, y compris de nombreuses formes d’apprentissage machine et de traitement statistique des données, d’être appliqués à d’énormes ensembles de données de manière nouvelle.
Stonebraker a décidé de transformer le projet en une entreprise en 2010, lorsqu’il s’est associé à Matz, un entrepreneur prospère qui a cofondé Cognex Corporation, une grande entreprise de vision industrielle qui est entrée en bourse en 1989. Les fondateurs et leur équipe se sont attelés à l’élaboration des principales caractéristiques du système, notamment son architecture distribuée qui permet au système de fonctionner sur des serveurs à faible coût, et sa capacité à nettoyer et organiser automatiquement les données de manière utile pour les utilisateurs.
Les fondateurs décrivent leur système de gestion de base de données comme un moteur de calcul pour les données scientifiques, et ils l’ont nommé SciDB. En plus de SciDB, ils ont développé une plateforme d’analyse, appelée moteur de découverte REVEAL, basée sur les activités de recherche et les aspirations quotidiennes des utilisateurs.
Si vous êtes un scientifique ou un spécialiste des données, les produits REVEAL et SciDB de Paradigm s’occupent de toutes les disputes de données et de la « plomberie et du câblage » informatique, afin que vous n’ayez pas à vous soucier de l’accès aux données, de leur déplacement ou de la mise en place d’un calcul distribué parallèle », explique M. Matz. « Vos données sont prêtes pour la science. Il vous suffit de poser votre question scientifique et la plateforme orchestre pour vous toute la gestion des données et le calcul ».
La SciDB est conçue pour être utilisée à la fois par les scientifiques et les développeurs, de sorte que les utilisateurs peuvent interagir avec le système par le biais d’interfaces graphiques ou en utilisant des langages statistiques et de programmation comme R et Python.
« Il a été très important de vendre des solutions, pas des blocs de construction », dit M. Matz. « Une grande partie de notre succès dans les sciences de la vie auprès des meilleures entreprises pharmaceutiques et biotechnologiques et des instituts de recherche est de leur apporter notre suite REVEAL de solutions aux problèmes spécifiques aux applications. Nous ne leur remettons pas une plateforme analytique qui est un ensemble de blocs LEGO ; nous leur donnons des solutions qui traitent les données qu’ils traitent quotidiennement, et des solutions qui utilisent leur vocabulaire et répondent aux questions sur lesquelles ils veulent travailler ».
Accélérer la découverte
Aujourd’hui, les clients de Paradigm4 comprennent certaines des plus grandes entreprises pharmaceutiques et biotechnologiques du monde ainsi que des laboratoires de recherche des National Institutes of Health, de l’université de Stanford et d’ailleurs.
Les clients peuvent intégrer des données de séquençage génomique, des mesures biométriques, des données sur les facteurs environnementaux, etc. dans leurs demandes pour permettre de nouvelles découvertes dans toute une série de domaines des sciences de la vie.
M. Matz affirme que la SciDB a effectué 1 milliard de régressions linéaires en moins d’une heure lors d’un récent benchmark, et qu’elle peut s’étendre bien au-delà, ce qui pourrait accélérer les découvertes et réduire les coûts pour les chercheurs qui ont traditionnellement dû extraire leurs données de fichiers et s’appuyer ensuite sur des méthodes moins efficaces basées sur le cloud computing pour appliquer des algorithmes à l’échelle.
« Si les chercheurs peuvent effectuer des analyses complexes en quelques minutes, ce qui prenait auparavant des jours, cela change radicalement le nombre de questions difficiles que vous pouvez poser et auxquelles vous pouvez répondre », explique M. Matz. « C’est un multiplicateur de force qui transformera la recherche au quotidien ».
Au-delà des sciences de la vie, le système de Paradigm4 est prometteur pour toute industrie traitant des données à multiples facettes, y compris les sciences de la terre, où, selon M. Matz, un climatologue de la NASA utilise déjà le système, et l’IdO industriel, où les scientifiques considèrent de grandes quantités de données diverses pour comprendre des systèmes de fabrication complexes. Selon M. Matz, l’entreprise se concentrera davantage sur ces industries l’année prochaine.
Dans le domaine des sciences de la vie, cependant, les fondateurs pensent qu’ils disposent déjà d’un produit révolutionnaire qui permet un nouveau monde de découvertes. En fin de compte, ils voient SciDB et REVEAL contribuer à la recherche nationale et mondiale en matière de santé qui permettra aux médecins de fournir les soins les mieux informés et les plus personnalisés possibles.
« La question que tout médecin veut poser est la suivante : lorsque vous entrez dans son cabinet et que vous présentez un ensemble de symptômes, le médecin demande : « Qui, dans cette base de données nationale, a une génétique qui ressemble à la mienne, des symptômes qui ressemblent à la mienne, des expositions au mode de vie qui ressemblent à la mienne ? Et quel a été leur diagnostic ? Quel a été leur traitement ? Et quelle était leur morbidité ? explique Stonebraker. « C’est une corrélation croisée entre vous et tous les autres pour faire de la médecine très personnalisée, et je pense que c’est à notre portée. »