Des chimistes élaborent un nouveau format pour le partage de données scientifiques

Résultats scientifiques

Afin de partager le savoir et de vérifier la reproductibilité des travaux de recherche, des données scientifiques peuvent être mises à disposition. Elles se présentent cependant sous une myriade de formats de fichier différents. Avec des collègues des universités de l’Ohio aux USA et d’Aarhus au Danemark, Dominique Massiot, directeur de recherche CNRS au laboratoire Conditions extrêmes et matériaux : haute température et irradiation (CEMHTI, CNRS)[1] propose Core Scientific Data Model (CSDM), un format qui facilite les échanges de données et l’interopérabilité entre les chercheurs. Ces travaux ont été publiés le 2 janvier dans la revue PLOS ONE.

 

 

Quel constat vous a poussé à développer le Core scientific data model (CSDM) ?

Je suis chimiste, spécialiste de la spectroscopie, un domaine où l’on acquiert des spectres au format digital. Chaque constructeur d’équipement scientifique utilise un système différent pour stocker ces données et leurs paramètres d’acquisition, et ce de façon plus ou moins souple et ouverte. Cela pose des problèmes d’interopérabilité et de cohérence des données, qui existent alors dans différents formats de fichiers que tous les logiciels ne peuvent pas lire.

À une époque où on parle beaucoup de rendre les données scientifiques accessibles, il ne suffit pas de les partager : il faut surtout pouvoir s’en servir. Ce point est essentiel pour permettre à chacun de regarder des travaux, d’y réfléchir, de poser des questions ou proposer des interprétations.

Comment vous êtes-vous organisé avec vos collègues pour cette collaboration internationale ?

Nous sommes quatre coauteurs. Deepansh Srivastava est post-doctorant auprès de Philip Grandinetti, professeur à l’université d’État de l’Ohio. Ensemble, nous travaillons à des logiciels de pointe dans le domaine de la résonnance magnétique nucléaire (RMN), afin de calculer des spectres expérimentaux et théoriques. De mon côté, j’ai conçu des logiciels, comme Dmfit, pour interpréter des spectres. Thomas Vosegaard est quant à lui professeur de chimie à l’université d’Aarhus, au Danemark et développe avec ses collègues un logiciel pour calculer des spectres de façon théorique.

Notre collaboration, à travers cette publication dans Plus One, a abouti à Core scientific data model (CSDM), un format de stockage qui valorise au maximum les capacités de chaque logiciel et conserve données et métadonnées dans un même fichier. Comme nous sommes sensibles au partage des données, nous avons opté pour un format ouvert de logiciel libre, que chaque développeur et utilisateur peut modifier ou adapter selon ses besoins. Nous avons également privilégié Python, un langage de programmation qui fonctionne sur toutes les plateformes, que ce soit Mac, Linux ou PC. C’est un système voué à s’enrichir.

Il est intéressant de voir que CSDM est issu d’une communauté de chimistes, et non d’informaticiens. Comment cela se fait-il ?

Dès que l’on souhaite comprendre ou modéliser des spectres digitaux, on a besoin d’outils numériques. Beaucoup de chimistes ont trouvé leurs propres astuces pour récupérer des données de façon plus ou moins cohérente. J’ai rencontré différents problèmes de ce genre depuis ma thèse, et ce sur plusieurs types de spectroscopie. CSD concrétise leur résolution.

Nous ne proposons pas une solution extrêmement poussée en termes de pur développement informatique, mais nous utilisons les meilleurs outils pour un objectif d’interopérabilité et d’archivage open source. Le développement de logiciels donne une forte reconnaissance et légitimité dans la communauté.

Quelle est la suite pour CSDM ?

Même si nous n’avons pas accès à leur profil détaillé, nous savons que nos utilisateurs ne se limitent pas aux spécialistes de la RMN. Nous aimerions bien en faire une norme, que notre démarche trouve un écho suffisant auprès des constructeurs d’appareils scientifiques, afin qu’ils commencent à implémenter d’eux-mêmes ce format dans leurs nouveaux équipements.

[1] Dominique Massiot est également l’ancien directeur de l’INC.

Référence

Deepansh J. Srivastava, Thomas Vosegaard, Dominique Massiot, Philip J. Grandinetti. Core Scientific Dataset Model: A lightweight and portable model and file format for multi-dimensional scientific data. PLOS ONE, 2020. Doi: 10.1371/journal.pone.0225953

CSDM peut aussi bien stocker ou archiver des spectres que photos ou des vecteurs météorologiques. © Srivastava et al./Judy Weggelaar.

Contact

Dominique Massiot
CEMHTI
Stéphanie Younès
Responsable Communication - Institut de chimie du CNRS