MDverse, un projet pour explorer les données de la dynamique moléculaire
Et s’il était possible de réutiliser les données issues de simulations de dynamique moléculaire pour limiter l’usage des supercalculateurs ? C’est l’objectif du projet MDverse, lauréat du prix « Science ouverte des données de la recherche » en 2024. Échanges avec ses coordinateurs, également actifs dans le projet européen LUMEN.
La dynamique moléculaire est à la molécule ce que le film est à la photographie. « Le vivant n’est pas statique », explique Matthieu Chavent, chercheur au Laboratoire de microbiologie et de génétique moléculaire (CNRS/Université Toulouse III Paul Sabatier). « En observant et en analysant les mouvements d’une molécule, nous comprenons mieux comment elle fonctionne. » De la chimie à la physique des matériaux en passant par le développement de médicaments, cette technique de simulation couvre de larges applications.
La dynamique moléculaire est néanmoins confrontée à un défi : les simulations informatiques permettent de modéliser des systèmes moléculaires de plus en plus complexes et, en contrepartie, requièrent des quantités d’énergie de plus en plus grandes. Pour cela, certains modèles, qui intègrent jusqu’à plusieurs milliards d’atomes, nécessitent l’utilisation d’ordinateurs très puissants, comme le supercalculateur Jean Zay au CNRS. Une difficulté supplémentaire est que les données associées aux travaux de dynamique moléculaire s’accumulent souvent dans des entrepôts de données généralistes. Bien que techniquement accessibles, ces données ne sont dans les faits pas classées ni indexées, rendant difficile leur exploitation. Et s’il était possible de réutiliser les données de ces simulations ?
C’est ainsi qu’est né le projet MDverse. L’objectif est double : le premier est de cataloguer les données issues de simulations de dynamique moléculaire. Une tâche herculéenne en soi, car ces données sont aujourd’hui éparpillées dans différents entrepôts de données ouvertes. Pierre Poulain, enseignant-chercheur au Laboratoire de biochimie théorique (CNRS/Université Paris Cité), détaille : « Nous avons commencé par nous baser sur des mots-clés associés à la dynamique moléculaire, mais les résultats obtenus n’étaient pas assez qualitatifs. Nous avons alors eu l’idée d’y associer des extensions de fichiers informatiques qui sont très spécifiques à notre champ de recherche. » Très rapidement, l’équipe a réussi à retrouver puis indexer environ 250 000 fichiers et 2 000 jeux de données. Ces données continuent d’ailleurs d’augmenter de façon exponentielle !
Une fois ces données cataloguées, le second objectif est de les rendre plus facilement accessibles et réutilisables par la communauté scientifique. Avec, à la clé, la possibilité d’analyser des propriétés moléculaires issues de résultats de simulations déjà existantes, sans passer par l’étape du calcul sur supercalculateur. Les chercheurs ont ainsi proposé un prototype de moteur de recherche pour explorer les données issues de ces travaux.
Pour poursuivre ce projet, l’équipe de MDverse s’est associée avec d’autres disciplines dans le cadre du projet européen LUMEN porté par le CNRS auprès de l’European Open Science Cloud (EOSC). Ce projet officiellement lancé en janvier 2025 réunit en effet des équipes issues des sciences humaines et sociales, des mathématiques et des sciences du système Terre. Pour Pierre Poulain, « la rencontre avec d’autres communautés est très utile car elle nous permet de bénéficier de leur expertise. Nous n’avons pas la même façon de faire de la science : par exemple, l’indexation, l’annotation et la centralisation des données existent déjà à grande échelle pour nos collègues travaillant sur le système Terre, alors qu’elles sont embryonnaires pour la dynamique moléculaire. » « Les échanges avec les différentes communautés nous donne des pistes précieuses pour nous structurer », abonde Matthieu Chavent. L’interdisciplinarité ne signifie pas pour autant un gommage des spécificités de chaque communauté : les plateformes élaborées dans le cadre du projet LUMEN seront conçues pour répondre aux besoins de chaque champ de recherche, tout en restant interopérables. Avec l’objectif de réunir à un seul endroit tous les produits de la recherche : pas seulement les publications, mais également les données et les logiciels pour faciliter leur réutilisation.
C’est pour ce dernier point que le projet MDverse a reçu le prix « Science ouverte des données de la recherche » dans la catégorie « Créer les conditions de la réutilisation » en 2024. Cette distinction, créée en 2021 dans le cadre du deuxième Plan national pour la science ouverte, récompense des chercheurs qui œuvrent à la gestion et à la diffusion de données. « Ce prix, couplé à notre participation au projet européen LUMEN, nous offrent une visibilité et une reconnaissance bienvenues », apprécie Pierre Poulain. De quoi encourager l’équipe à poursuivre ses travaux, notamment dans la standardisation des métadonnées pour faciliter encore davantage l’exploitation de cette « matière noire » de la dynamique moléculaire.
Rédacteur : CD
Pour en savoir plus
Johanna KS Tiemann, Magdalena Szczuka, Lisa Bouarroudj, Mohamed Oussaren, Steven Garcia, Rebecca J Howard, Lucie Delemotte, Erik Lindahl, Marc Baaden, Kresten Lindorff-Larsen, Matthieu Chavent, Pierre Poulain
MDverse, shedding light on the dark matter of molecular dynamics simulations
eLife 12:RP90061 https://doi.org/10.7554/eLife.90061.3
Présentation du projet MDverse réalisée lors des Open Science Days à Grenoble en décembre 2024 : https://videos.univ-grenoble-alpes.fr/video/31805-partage-et-reutilisation-des-donnees-de-simulations-de-dynamique-moleculaire-quavons-nous-rate/
Troisième édition des prix « Science ouverte des données de la recherche » : https://www.enseignementsup-recherche.gouv.fr/fr/remise-des-prix-science-ouverte-des-donnees-de-la-recherche-2024-98045
