Le système de notation permet aux scientifiques de communiquer plus facilement avec les polymères
Le fait de disposer d’un système d’identification ou de représentation des structures moléculaires compact, mais robuste, est un facteur clé pour un partage et une diffusion efficaces des résultats au sein de la communauté de recherche. Ces systèmes jettent également les bases essentielles de l’apprentissage machine et d’autres recherches fondées sur des données. Bien que des progrès substantiels aient été réalisés pour les petites molécules, la communauté des polymères a eu du mal à mettre au point un système de représentation efficace.
Pour les petites molécules, la prémisse de base est que chaque espèce chimique distincte correspond à une structure chimique bien définie. Cela ne s’applique pas aux polymères. Les polymères sont des molécules intrinsèquement stochastiques qui sont souvent des ensembles avec une distribution des structures chimiques. Cette difficulté limite l’applicabilité de toutes les représentations déterministes développées pour les petites molécules. Dans un article publié le 12 septembre dans Sciences centrales de l’AECDes chercheurs du MIT, de l’Université Duke et de l’Université Northwestern rapportent un nouveau système de représentation capable de traiter la nature stochastique des polymères, appelé BigSMILES.
« BigSMILES relève un défi important dans la représentation numérique des polymères « , explique Connor Coley PhD’19, co-auteur de l’article. « Les polymères sont presque toujours des ensembles de structures chimiques multiples, générés par des processus stochastiques, donc nous ne pouvons pas utiliser les mêmes stratégies pour écrire leurs structures que pour les petites molécules. »
Les coauteurs sont Coley ; professeur agrégé de génie chimique Bradley D. Olsen au MIT ; Warren K. Lewis professeur de génie chimique Klavs F. Jensen au MIT ; professeur adjoint de chimie Julia A. Kalow à Northwestern University ; professeur agrégé de chimie Jeremiah A. Johnson au MIT ; William T. Stephen L. Craig, professeur de chimie Miller à l’Université Duke ; Eliot Woods, étudiant diplômé à l’Université Northwestern ; Zi Wang, étudiant diplômé à l’Université Duke ; Wencong Wang, étudiant diplômé au MIT ; Haley K. Beech, étudiant diplômé au MIT ; Hidenobu Mochigase, chercheur invité au MIT ; Tzyy-Shyang Lin, étudiante diplômée au MIT.
Il existe plusieurs notations de lignes pour communiquer la structure moléculaire, le système d’entrée de ligne moléculaire simplifié (SMILES) étant le plus populaire. SMILES est généralement considéré comme la variante la plus lisible par l’homme, avec de loin le support logiciel le plus large. Dans la pratique, SMILES fournit un ensemble simple de représentations qui conviennent comme étiquettes pour les données chimiques et comme identificateur mémoire-compact pour l’échange de données entre chercheurs. En tant que système textuel, SMILES s’adapte naturellement à de nombreux algorithmes d’apprentissage automatique basés sur le texte. Ces caractéristiques ont fait de SMILES un outil parfait pour traduire les connaissances en chimie sous une forme adaptée aux machines, et il a été utilisé avec succès pour la prédiction des propriétés des petites molécules et la planification de synthèse assistée par ordinateur.
Les polymères, cependant, ont résisté à la description par ce langage structurel et par d’autres. En effet, la plupart des langages structurels tels que SMILES ont été conçus pour décrire des molécules ou des fragments chimiques qui sont des graphiques atomistiques bien définis. Les polymères étant des molécules stochastiques, ils n’ont pas de représentations SMILES uniques. L’absence d’une convention unifiée de dénomination ou d’identification pour les matériaux polymères est l’un des principaux obstacles qui ralentissent le développement du domaine de l’informatique polymère. Bien que des efforts pionniers dans le domaine de l’informatique des polymères, tels que le Projet sur le génome des polymères, aient démontré l’utilité des extensions SMILES en informatique des polymères, le développement rapide de la nouvelle chimie et le développement rapide de l’informatique des matériaux et de la recherche axée sur les données rendent importante la nécessité d’une convention universelle sur les noms des polymères.
« L’apprentissage machine offre une énorme opportunité d’accélérer le développement et la découverte de produits chimiques « , déclare Lin He, directeur adjoint par intérim de la division de chimie de la National Science Foundation (NSF). « Cet outil élargi d’étiquetage des structures, spécialement conçu pour relever les défis uniques inhérents aux polymères, améliore grandement la facilité de recherche des données sur les structures chimiques et nous rapproche un peu plus de l’exploitation de la révolution des données.
Les chercheurs ont créé une nouvelle construction structurelle qui vient s’ajouter à la représentation SMILES très réussie qui permet de traiter la nature aléatoire des matériaux polymères. Puisque les polymères sont des molécules de masse molaire élevée, cette construction est appelée BigSMILES. Dans BigSMILES, les fragments polymères sont représentés par une liste d’unités répétitives entourées de crochets bouclés. Les structures chimiques des unités répétitives sont codées à l’aide de la syntaxe SMILES normale, mais avec des descripteurs de liaison supplémentaires qui précisent comment les différentes unités répétitives sont reliées pour former des polymères. Cette conception simple de la syntaxe permettrait d’encoder des macromolécules sur un large éventail de chimies différentes, y compris les homopolymères, les copolymères aléatoires et les copolymères séquencés, et une variété de connectivité moléculaire, allant des polymères linéaires aux polymères cycliques en passant par les polymères ramifiés. Comme dans SMILES, les représentations BigSMILES sont des chaînes de texte compactes et autonomes.
« La normalisation de la représentation numérique des structures polymères avec BigSMILES encouragera le partage et l’agrégation des données sur les polymères, améliorant la qualité des modèles au fil du temps et renforçant les avantages de leur utilisation « , déclare Jason Clark, responsable de l’innovation ouverte pour les produits chimiques et matériaux renouvelables chez Braskem, qui n’était pas associé à la recherche. « BigSMILES est une contribution importante dans le domaine en ce sens qu’il répond au besoin d’un système flexible pour représenter numériquement des structures polymères complexes. »
Les défis auxquels l’industrie des matières plastiques est confrontée dans le contexte de l’économie circulaire commencent à la source des matières premières et se poursuivent tout au long de la gestion de la fin de vie « , ajoute Clark. Pour relever ces défis, il faut concevoir des matériaux à base de polymères innovants, qui ont traditionnellement souffert de longs cycles de développement. Les progrès de l’intelligence artificielle et de l’apprentissage machine se sont révélés prometteurs pour accélérer le cycle de développement d’applications utilisant des alliages métalliques et de petites molécules organiques, incitant l’industrie des plastiques à rechercher une approche parallèle. » Les représentations numériques BigSMILES facilitent l’évaluation des relations structure-performance par l’application de méthodes de science des données, dit-il, accélérant en fin de compte la convergence vers les structures ou compositions de polymères qui aideront à rendre possible l’économie circulaire.
« Une multitude de structures polymères complexes peuvent être construites grâce à la composition de trois nouveaux opérateurs de base et de symboles SMILES originaux « , explique Olsen. » Des domaines entiers de la chimie, de la science des matériaux et de l’ingénierie, y compris la science des polymères, les biomatériaux, la chimie des matériaux et une grande partie de la biochimie, sont basés sur des macromolécules qui présentent des structures stochastiques. Cela peut être considéré comme un nouveau langage pour écrire la structure des grosses molécules. »
« L’une des choses qui m’enthousiasme, c’est de savoir comment la saisie des données pourrait éventuellement être liée directement aux méthodes synthétiques utilisées pour fabriquer un polymère particulier, explique Craig. Si cela peut être fait, cela permettra toutes sortes de découvertes. »
Ce travail a été financé par la NSF par l’intermédiaire du Center for the Chemistry of Molecularly Optimized Networks, un centre NSF pour l’innovation chimique.