
Le 6 juin, le consortium OpenWebSearch.eu a ouvert au public une nouvelle infrastructure, en phase pilote, visant à rendre la recherche web en Europe plus équitable, plus transparente, et affranchie de toute influence commerciale. Grâce à la participation soutenue du CERN, l’OWI (Open Web Index) européen peut désormais être utilisé par les universités, les start-up et les développeurs indépendants, sous une licence de recherche générale. Des déclinaisons commerciales sont également à l’étude, au cas par cas.
Lancé en 2022, le projet OpenWebSearch.eu réunit un consortium composé de 14 institutions de recherche majeures à travers l’Europe, dont le CERN. Objectif : créer un index web public offrant une alternative aux index actuels, détenus par des géants comme Google (États-Unis), Microsoft (États-Unis), Baidu (Chine) ou Yandex (Russie). Ces entreprises détiennent et gèrent les infrastructures de données sur lesquelles reposent les moteurs de recherche, et donc décident quels contenus peuvent être trouvés en ligne, et dans quel ordre ils apparaissent. L’Europe ne dispose aujourd’hui d’aucun index propre, ce qui fragilise sa souveraineté numérique.
L’OWI propose une véritable alternative, ancrée dans les valeurs européennes. Le projet mise sur une approche interdisciplinaire, alliant experts techniques, juristes, spécialistes des enjeux sociaux et éthiques, afin que les principes d’équité, de transparence et de respect de la vie privée soient intégrés dès l’étape de conception. « Plus de trente ans après la création du World Wide Web au CERN et sa mise à disposition au public, notre engagement en faveur de l’ouverture reste intact, souligne Noor Afshan Fathima, boursière de recherche en informatique au CERN. La recherche en ligne constitue la prochaine étape logique dans le processus de démocratisation de l’accès au numérique, en particulier à l’ère de l’intelligence artificielle ». L’OWI sert, en effet, de tremplin pour l’intelligence artificielle car il permet d’exploiter les données issues de la recherche en ligne pour entraîner des grands modèles de langage (LLM), générer des représentations vectorielles, ou encore alimenter des agents conversationnels intelligents.

L’équipe du CERN a développé plusieurs éléments clés de l’infrastructure qui permettent à l’OWI d’explorer le web (crawling) et d’indexer les pages. Autrement dit, c’est l’équipe du CERN qui a développé le système permettant de savoir quelles pages doivent être explorées, et à quelle fréquence. Le système traite environ 9 millions d’URL par heure, soit près de 3 téraoctets de données web publiques chaque jour, avec pour objectif d’indexer entre 30 et 50 % du web textuel d’ici à fin 2025. « Nous avons déjà atteint notre objectif d’un pétaoctet de données web sous licence ouverte, et notre tableau de bord public permet aux utilisateurs de suivre cette progression en temps réel », souligne Noor.
Le CERN contribue également à d’autres volets du projet : il indexe ses propres contenus de physique pour enrichir l’OWI, développe un index interne et conçoit ses propres outils et services de recherche. Un prototype est en cours de développement pour illustrer un cas d’usage de l’OWI : « Nooon ». Conçu à des fins de recherche, il s’adresse aux personnes en situation de handicap, avec pour mission de proposer des moteurs de recherche qui affichent des résultats structurés, accessibles, représentatifs, tout en garantissant la confidentialité des requêtes et des contributions.
Le lancement public de l’OWI, financé dans le cadre du programme Horizon de l’Union européenne pour la recherche et l’innovation, tombe à point nommé. L’initiative Invest AI de la Commission européenne prévoit de mobiliser 200 milliards d’euros pour l’intelligence artificielle, et l’OWI constitue une base de données ouverte et robuste pour stimuler l’innovation dans ce domaine. D’autant plus que Microsoft prévoit de supprimer l’accès à son index Bing : l’OWI apparaît alors comme une alternative stratégique pour les moteurs de recherche européens.
Après deux ans et demi de recherche et de développement intensifs, il est désormais possible pour toute personne intéressée de demander l’accès à l’OWI via la plateforme openwebindex.eu/auth/login. Il convient de noter que le projet propose un index web, et non un moteur de recherche ni une API. Les utilisateurs souhaitant développer leurs propres moteurs ou agents conversationnels devront disposer de compétences techniques pour exploiter ces données d’indexation web.
Pour en savoir plus :
https://openwebsearch.eu/open-webindex/
https://home.cern/fr/news/news/computing/ethical-open-and-non-commercial-open-web-search-project-designed-provide-europe
https://cerncourier.com/a/towards-an-unbiased-digital-world/
https://computing-blog.web.cern.ch/2025/05/empowering-data-sovereignty-through-openwebsearch-eu/ (accès via l’authentification unique CERN SSO)