View in

English

Trop de données – ne nous plaignons pas 

Author

Eckhard Elsen is Director for Research and Computing

Devoir traiter d’énormes volumes de données de grande qualité, c’est difficile, mais cela stimule l’innovation

La semaine dernière s’est tenue à San Francisco la 22e conférence internationale sur le calcul en physique des hautes énergies et physique nucléaire, CHEP 2016. Elle a attiré environ 500 spécialistes du monde entier. Ce fut l’occasion pour les expériences LHC de présenter les progrès impressionnants qu’elles ont réalisés dans la maîtrise de volumes toujours plus importants de données, et d'exposer leurs plans pour le LHC à haute luminosité.

Les expériences ont déployé d'énormes efforts pour optimiser leur code et limiter le plus possible les copies inutiles de données. Le système de déclenchement est de plus en plus sophistiqué : il intègre désormais les informations des trajectographes et des détecteurs de vertex, ce qui permet aux expériences ATLAS et CMS d’être plus sélectives dans ce qu’elles enregistrent. Dans l’intervalle, LHCb a mis en œuvre une technique dite de flux « turbo », utilisée pour environ 80 % des analyses de l’expérience,  qui s’appuie sur un enregistrement compact contenant toutes les informations nécessaires pour les analyses. ALICE adopte une approche similaire, en rapprochant les environnements « en ligne » et « hors ligne » ; les données reçues de tous les événements sont enregistrées sans décision de déclenchement, et, en même temps, la quantité de données à stocker par événement est réduite.

Étant donné l’excellente performance du LHC, cette bonne nouvelle tombe à pic : la disponibilité de la machine a pratiquement été doublée. En conséquence, les expériences enregistrent davantage d’événements que prévu jusqu’ici pour la deuxième période d’exploitation, et dépassent donc toujours les ressources qui leur sont allouées. Disposer de trop de données (de grande qualité) peut être un problème, mais c’est le genre de problème qu’on aime avoir.

Grâce à ces progrès, le CERN reste à l’avant-garde du calcul à haut débit. C’est important, pour le CERN tout d’abord, mais aussi parce que nous pouvons faire part de notre expérience à d’autres disciplines scientifiques pour lesquelles le calcul à haut débit prend une ampleur croissante. Il a beaucoup été question lors de la conférence CHEP de nouveaux outils logiciels, d’apprentissage automatique et des progrès réalisés dans l’utilisation efficace de cœurs multiples sur des plateformes informatiques modernes. À cet égard, les expériences LHC unissent leurs forces dans le cadre de la Fondation HSF (HEP Software Foundation). Essentiel à l’informatique LHC, le développement du réseau proprement dit a connu des progrès constants. La question des réseaux nationaux et transcontinentaux figurait donc en bonne place à la conférence. Avec suffisamment de largeur de bande déployée, la localisation des ressources informatiques devient secondaire.

Cela m’amène à évoquer une autre conférence, la conférence internationale sur les infrastructures de recherche, ICRI, qui s’est tenue au Cap du 3 au 5 octobre. Ce n’est pas par hasard que l’ICRI a eu lieu en Afrique du Sud cette année. En effet, l’Afrique du Sud est l’un des pays qui hébergent une nouvelle et prometteuse infrastructure de recherche : le Square Kilometre Array, ou SKA, le plus grand radiotélescope du monde. Un instrument précurseur du SKA, MeerKAT, est déjà opérationnel, mais il ne représente qu’une petite partie du dispositif final du SKA. Une fois achevé en 2025, le SKA regroupera des antennes paraboliques en Afrique du Sud et en Australie sur une surface collectrice d’un kilomètre carré. Celles-ci seront en service en permanence, produisant des volumes de données encore supérieurs à ceux du LHC.

L’Afrique du Sud héberge déjà un centre de calcul de niveau 2 de la Grille de calcul mondiale pour le LHC (WLCG), et des discussions ont eu lieu à l’ICRI sur la manière de s’appuyer sur cet acquis pour le développement d’autres disciplines, et notamment l’utiliser pour le SKA. Une solution serait pour l’Afrique du Sud de créer un nuage pour la science – une infrastructure publique d’informatique scientifique. Les nuages pour la science sont, j’en suis convaincu, la voie à suivre pour la recherche scientifique publique, et constituent une évolution naturelle pour la Grille. Une telle infrastructure serait une formidable vitrine pour l’informatique en nuage dans le domaine scientifique, et un atout pour la science en Afrique du Sud.

Ces dernières semaines ont été riches en événements dans le domaine de l'informatique scientifique. Le CERN reste à l’avant-garde, non seulement en raison des énormes volumes de données qu’il traite, mais aussi parce qu’il est amené à développer de nouveaux outils pour traiter cette information. Je terminerai en disant que nous avons beaucoup à donner, mais aussi beaucoup à apprendre des autres : l’avenir de l’informatique scientifique, c’est la  collaboration interdisciplinaire