Le centre de calcul du CERN franchit les 200 pétaoctets

Le centre de calcul du CERN. (Robert Hradil, Monika Majer/ProStudio22.ch)

Le 29 juin dernier, le centre de calcul du CERN a franchi les 200 pétaoctets de données archivées de façon permanente dans ses bibliothèques de bandes magnétiques.

D’où viennent ces données ? Les détecteurs du Grand collisionneur de hadrons (LHC) produisent approximativement un milliard de collisions par seconde qui génèrent environ un pétaoctet de données chaque seconde. De telles quantités de données ne sont pas enregistrables par les systèmes informatiques actuels et elles sont donc filtrées par les expériences pour ne garder que les données « intéressantes ». Ces données, une fois filtrées, sont ensuite envoyées au centre de calcul du CERN pour y être agrégées. Une reconstitution initiale des données y est également effectuée et une copie est archivée à long terme sur des bandes magnétiques. Malgré la réduction drastique des données effectuée par les expériences du LHC, le centre de calcul du CERN traite en moyenne un pétaoctet de données chaque jour. C'est ainsi que le cap des 200 pétaoctets stockés a àtà franchi 29 Juin dernier.

Une quantité de données sans précédent a en effet été produite par les quatre grandes expériences du LHC ces deux dernières années grâce à la disponibilité et aux performances exceptionnelles de l'accélérateur. En 2016 le LHC a produit des collisions pendant environ 7,5 millions de secondes, soit une augmentation de 50% par rapport aux prévisions. L’année 2017 suit une tendance similaire. Par ailleurs, du fait de l’augmentation de la luminosité en 2017, un plus grand nombre de collisions se produisent simultanément. Cela accroît grandement la complexité de la reconstruction et de l’analyse, et impacte fortement les besoins en capacité de calcul. Ces deux dernières années sont par conséquent riches en records, tant pour l’acquisition des données, leur flux et volume, que pour l’utilisation des ressources informatiques et de stockage, qui s’est avérée exceptionnelle. 

En vue de relever ces défis, une importante modernisation et consolidation de l’infrastructure informatique, et tout particulièrement des systèmes de stockage, a été réalisée durant le premier long arrêt du LHC. Cela a permis au centre de calcul de gérer avec succès les 73 pétaoctets de données reçus en 2016 (dont 49 pétaoctets en provenance des expériences du LHC) et de faire face au flot de données reçues depuis le début de l’année 2017. Cela a également permis au système de stockage perfectionné CASTOR de relever l’immense défi des 200 pétaoctets de données archivées de façon permanente. Ces dernières représentent une part importante du volume total de données reçues et stockées par le centre de calcul, le reste étant constitué de données temporaires destinées à être effacées à plus ou moins court terme.

L’augmentation des volumes de données a également eu pour conséquence d’accroître les besoins en terme de transfert de données et donc en terme de capacité réseau. Depuis le début du mois de février, une troisième liaison fibre optique de 100 gigabit par seconde relie le centre de calcul de Meyrin à son extension située à quelques 1800 km de distance dans le Centre de recherche Wigner pour la physique en Hongrie. Tant la bande passante additionnelle que la redondance qu’apportent cette troisième liaison permettent au CERN d’utiliser de manière optimale et fiable la capacité de calcul et de stockage de son extension. Un must lorsque les besoins informatiques vont croissant ! 

Cette carte montre l’emplacement des trois liaisons 100 Gbit/s reliant le CERN et le centre Wigner. Leurs routes ont été choisies avec soin afin de maintenir une connexion effective en cas d’incident sur l’un des tronçons. (Image : Google)