TOPIC:

Sécurité informatique : sus aux LLM pilleurs de web !

Written by:

Computer Security Office

Depuis un certain temps déjà, l’informatique évolue vers une nouvelle ère où l’intelligence artificielle (IA) assume de plus en plus de tâches et, à terme, de responsabilités. Rares sont les personnes aujourd’hui qui n’utilisent pas l’une des nombreuses intelligences artificielles disponibles telles que ChatGPT, Mistral ou Claude. Tous les domaines semblent connaître des progrès en termes de performance et d’efficacité ce qui pourrait entraîner une révolution du marché du travail, dans les domaines de la programmation, du service client et de la recherche. Et, regrettablement, dans le domaine militaire. Mais d’où vient « l’ intelligence  » de l’IA ? Elle provient bien de quelque part — et c’est là que commencent les problèmes, par l’avidité et l’absence d’indemnisation.

À l’instar des moteurs de recherche tels que Lycos, Yahoo!, AltaVista et Google qui exploraient le web sans restriction en vue de constituer leurs index, les ChatGPT d’aujourd’hui parcourent à nouveau le web, cette fois pour entraîner leurs grands modèles de langage (LLM). Nous sommes revenus à la case départ. L’histoire se répète. Mais alors que les moteurs de recherche ont appris à respecter le fichier dit « robots.txt », qui établit quel contenu peut être indexé et quel autre doit être ignoré, et alors que la propriété du contenu a fait l’objet de discussions, les LLM explorent le web comme autrefois, à l’époque du Far West, les colons s’engageaient dans un territoire. Ainsi, les LLM ne respectent pas les droits d’auteur, ni les droits de propriété, ni les fichiers « robots.txt ». Il n’y a ni obstacles, ni limites de vitesse ni restrictions de circulation. Plus ils peuvent extraire de contenu et plus rapidement il est extrait, mieux c’est. Avides de contenus, les LLM ignorent les droits d’auteur, la propriété et les problèmes de surcharge. C’est la loi du plus fort ; les autres peuvent toujours intenter une action en justice ultérieurement.

L’objectif ici n’est pas de s’attarder sur la question du « droit d’auteur », déjà longuement débattue ailleurs (sans pour autant la conclure). Penchons-nous plutôt sur la question plus importante de l’entraînement de l’IA, à savoir l’exploration du web sans contrainte. À l’instar de nombreux autres fournisseurs de services web, le CERN doit faire face à des entraînements intensifs de LLM visant à collecter un maximum de données à partir de ses services web. Toutes ces demandes faites simultanément à partir de plusieurs sources non corrélées imposent une charge significative sur les services web de l’Organisation. De fait, ces demandes liées à l’entraînement des LLM présentent de fortes similitudes avec des attaques malveillantes par déni de service (DDoS) menées par des bots. Et comme pour toute requête non sollicitée largement distribuée de ce type, il est difficile de différencier les connexions légitimes des activités d’entraînements de LLM ou des attaques DDoS.

Dans les deux cas, le mécanisme standard de gestion des incidents se déclenche et le Bureau de la sécurité informatique du CERN se lance alors dans un jeu du chat et de la souris pour bloquer les connexions non sollicitées tout en s’efforçant de maintenir l’accès aux applications web essentielles pour les utilisateurs légitimes, avec des taux de réussite variables (comme on peut le constater dans nos rapports des mois de septembre et de novembre 2025). Malheureusement, les robots d’indexation (crawlers) et les attaques DDoS proviennent de multiples adresses IP différentes (on dit qu’elles sont « distribuées »). De ce fait, bloquer ce trafic illicite au niveau TCP/IP, à l’aide d’adresses IP individuelles ou de plages d’adresses IP, devient fastidieux, voire impossible et consomme beaucoup de ressources. D’un autre côté, bloquer le trafic au niveau des ASN, ou même bloquer le trafic en provenance de pays entiers peut causer des dommages collatéraux importants.

Dans ce jeu du chat et de la souris, le chat doit se transformer en tigre ! Au niveau des applications web, l’analyse du trafic entrant est beaucoup plus granulaire qu’au niveau du réseau de base (en particulier au CERN où toutes les communications chiffrées sont respectées pour des raisons de confidentialité). Ainsi, les gestionnaires de services web disposent de quelques mesures techniques générales et obligatoires supplémentaires pour renforcer la protection de leurs services informatiques contre de multiples attaques DDoS et de robots d’indexation IA. Des dispositifs plus centralisés tels que des proxys web, des pare-feu applicatifs web (WAF), des répartiteurs de charge, ou des réseaux de diffusion de contenu (CDN) pourraient mieux protéger le CERN le temps que ces robots d’indexation apprennent à respecter les fichiers « robots.txt » (ou un fichier semblable). À suivre donc !

________

Pour en savoir plus sur les incidents et les problèmes en matière de sécurité informatique au CERN,  lisez nos rapports mensuels (en anglais). Si vous souhaitez avoir plus d’informations, poser des questions ou obtenir de l’aide, visitez notre site ou contactez-nous à l’adresse Computer.Security@cern.ch.

Related Articles

No posts were found. Try to change the category or the date filters.