Cette année, le centre de calcul du CERN a battu son propre record, recueillant un volume de données inédit.
En octobre 2017, le centre de calcul a stocké la quantité colossale de 12,3 pétaoctets de données. Pour mettre cet élément en contexte, un pétaoctet est équivalent à la capacité de stockage d'environ 15 000 smartphones de 64 Go. La plupart de ces données viennent des expériences du LHC, si bien que ce record est le résultat direct de la performance exceptionnelle du LHC. Le reste est constitué des données d'autres expériences et de sauvegardes.
« Depuis dix ans, le volume de données stocké sur bande au CERN augmente de façon presque exponentielle. Fin juin, nous avions déjà franchi une étape, avec un total de 200 pétaoctets de données archivées de façon permanente sur bande », explique German Cancio, qui dirige la section Bandes, archives et sauvegardes du département IT du CERN.
Le Centre de calcul du CERN est au cœur de l'infrastructure informatique du Laboratoire. C'est là que des données provenant de toutes les expériences du CERN sont collectées, que la première étape de reconstitution des données s'effectue et que des copies de toutes les données sont archivées dans un stockage sur bande de longue durée.
La plupart des données recueillies au CERN seront stockées indéfiniment ; les données de physique sont trop précieuses pour être détruites, et il faut les conserver pour les futures générations de physiciens.
« Une caractéristique importante des archives de données du CERN est la longévité , ajoute German Cancio.Même après la fin d'une expérience, toutes les données enregistrées doivent rester disponibles pendant au moins 20 ans, mais généralement plus longtemps. Certaines des archives de données produites par de précédentes expériences du CERN ont fait l'objet de migrations successives entre différents outils, logiciels et supports, pendant plus de 30 ans. Pour des données comme celles du CERN, pour lesquelles on a besoin, non seulement de préserver les stocks existants, mais de continuer à accroître la capacité, la préservation des données est particulièrement difficile. »
Les bandes magnétiques, qui pourraient sembler un mode de stockage désuet, sont en fait la technologie la plus fiable et la moins coûteuse pour un archivage à grande échelle ; elles ont toujours été utilisées à cette fin. Une copie de données sur bande est considérée come beaucoup plus fiable que la même copie sur disque.
« Le CERN gère actuellement le plus grand volume existant d'archives de données scientifiques dans le domaine de la physique des hautes énergies, et il continue à innover en matière de stockage de données », conclut German Cancio.