View in

English

De l’importance de préserver les données

Une grande part des données scientifiques sont publiées bien après l’arrêt d’une machine. Il est donc essentiel de les conserver sur le long terme

|

The OPAL detector is a large cylinder with layers of metal in gold and green with wires connecting it the magnets together. The centre of the cylinder is hollow and at the end we can see a man in a blue shirt and yellow hat working on the detector.

Un technicien travaillant sur le détecteur OPAL, l’un des quatre détecteurs de particules du collisionneur LEP. Cette photo a été prise en 1989, peu avant la mise en service du LEP. L’analyse des données s’est poursuivie longtemps après l’arrêt du collisionneur, en 2000. (Image : David Parker/Science Photo Library)

Près d’un milliard de paires de particules entrent en collision chaque seconde dans le Grand collisionneur de hadrons (LHC). Ces collisions produisent un pétaoctet de données qui inondent les détecteurs et se déversent à travers des filtres très sélectifs : les systèmes de déclenchement. Moins de 0,001 % des données survivent à ce processus et parviennent au Centre de données du CERN pour être copiées et stockées pour une longue durée sur des bandes magnétiques. Ces archives représentent aujourd'hui le plus grand ensemble de données scientifiques jamais constitué. Elles pourraient toutefois contenir plus de données scientifiques que nous ne sommes capables d’extraire aujourd'hui ; aussi est-il essentiel de les conserver pour les physiciens de demain.

La dernière explosion d’une supernova observée dans la Voie lactée remonte au 9 octobre 1604. Qu’apprendrions-nous de plus si, outre les notes prises à l'époque par l'astronome allemand Johannes Kepler, nous avions pu voir de nos propres yeux ce qu'il a vu ? Notre capacité à extraire des informations à partir de données provenant de laboratoires comme le CERN repose sur les capacités informatiques, les techniques d'analyse et les cadres théoriques actuels. Enfouis dans une base de données, de nouveaux résultats nous attendent peut-être ; ainsi, les découvertes futures dépendent de la préservation des résultats que nous enregistrons aujourd'hui.

Pour que les données résistent à l'épreuve du temps, elles doivent être archivées, dupliquées, sauvegardées et converties dans des formats modernes avant que nous ne perdions l'expertise et la technologie nécessaires pour les lire et les interpréter. Ainsi, comme indiqué dans le récent article intitulé, « Recommendations for Best-Practices for Data Preservation and Open Science in High-Energy Physics », publié par le Comité international sur les futurs accélérateurs (ICFA), pour conserver les données, il est nécessaire de prévoir et d’établir des lignes directrices claires, ainsi qu'un flux de ressources stable et une supervision régulière sur le plan scientifique. Le groupe DPHEP (Data Preservation in High-Energy Physics), créé en 2014 sous les auspices de l'ICFA et avec l’appui actif du CERN, estime qu’il suffirait de consacrer à la préservation des données moins de 1 % du budget de construction d'une installation pour augmenter la production scientifique de plus de 10 %.

Dans le dernier numéro du CERN Courier, Cristinel Diaconu et Ulrich Schwickerath évoquent quelques-uns des trésors les plus remarquables découverts grâce aux résultats d’anciennes expériences, notamment le Grand collisionneur électron-positon (LEP) dont les données, 25 ans plus tard, présentent toujours de l’intérêt pour les futurs collisionneurs électron-positon, et le collisionneur HERA qui, près de 20 ans après son arrêt, continue de contribuer aux études sur l'interaction forte.

Afin d’accroître les retombées positives de la recherche fondamentale pour la société, Cristinel Diaconu et Ulrich Schwickerath préconisent un engagement commun pour une coopération internationale et le libre accès aux données, conformément aux principes FAIR (findable, accessible, interoperable, reusable), à savoir « facilement trouvable, accessible, interopérable et réutilisable ». Avec le projet LHC à haute luminosité qui se profile à l'horizon, la préservation des données jouera un rôle important afin de tirer le meilleur parti du flux massif de données qu’il produira.

Pour en savoir plus, retrouvez l’article complet (en anglais) dans le CERN Courier.