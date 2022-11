C’est un matin d’octobre comme les autres à la Bibliothèque nationale de France, dans le 6e arrondissement. Etudiants et doctorants se pressent aux portiques, les yeux encore mi-clos par le réveil matinal. Ici, le silence est d’or. Pour accéder à la salle des équipements de collecte et de stockage, nous empruntons escaliers, ascenseurs et longs couloirs accompagné par Adoté Chilloh, responsable de la sécurité des systèmes d’information de la Bibliothèque nationale de France. Un dédale accessible à seulement quelques initiés, badges à la main.

Au sous-sol de la bibliothèque aux immenses tours qui surplombent la Seine, la salle des machines, où les serveurs informatiques et les infrastructures de stockage abritent des décennies d’histoire. Car au même titre que les documents anciens sont conservés par la Bibliothèque nationale de France, notre époque contemporaine est indissociable de notre activité en ligne. Et en cette fin 2022, on fête l’anniversaire de vingt années d’archivage du Web français.

Conserver plus longtemps et plus loin que soi

Depuis 2002, date de la première collecte du Web à l’occasion des élections présidentielles, une équipe de la Bibliothèque nationale de France est chargée du dépôt légal numérique : à savoir, archiver le Web français, de la même manière que la BnF a pour mission le dépôt légal des œuvres physiques (livres, périodiques, documents audiovisuels, cartes et plans). Archiver, conserver, préserver : des millions de pages Internet, d’articles de presse, de Skyblogs et de posts Instagram sont stockés dans d’immenses serveurs. En archivant le Web du passé, la BnF archive avec elle un bout de notre histoire et mémoire collective… Qui seront peut-être l’objet des recherches des historiens de demain.

« Les premières machines de collecte mises en place par la BnF datent de 2002 » indique Adoté Chilloh, qui a vu naître le service du dépôt légal numérique. Depuis les « Petabox », premières baies de serveurs (à la forme d’énormes « boîtes à pizza » rouges), intégrant du stockage et interconnectées entre elles, utilisées jusqu’au début des années 2010, les serveurs ont évolué : ils sont désormais virtualisés, avec des espaces de stockage partagés et rangés dans des Cold Corridor, ces immenses frigos remplis de matériel informatique, qui participent à la politique d’économie d’énergie.





Heritrix, capteur de notre mémoire en ligne

Pour suivre le rythme des contenus en ligne qui intègrent toujours plus d’images et de vidéos, informations plus lourdes à conserver, environ 150 téraoctets sont ajoutés chaque année pour stocker de nouvelles données. « La BnF a pour mission de conserver sur le long terme le patrimoine collecté » ajoute le responsable de la sécurité des systèmes d’information. Les services informatiques de la BnF ont alors pour rôle de veiller à la préservation des données avec la sécurité qui s’impose, des serveurs aux dispositifs de stockage en passant par les bandes magnétiques.

Chaque année, un petit robot du nom d’Heritrix capture et collecte les données de millions de sites Web. En plus d’une collecte générale annuelle, le dépôt légal numérique de la BnF collecte de plusieurs fois par jour à plusieurs fois par an certains contenus par thématiques, des sites d’actualités aux enjeux environnementaux, des Jeux olympiques à l’épidémie de Covid-19 en passant par les élections en France. Car souvent, en ligne, les sites Web évoluent, se transforment, disparaissent au gré des modes et des années. Souvenez-vous, avez-vous laissé quelque part un vieux blog, un forum, un Skyblog sur votre passion pour Tokio Hotel ? Il est peut-être conservé à la BnF, en vue d’être étudié par des historiens ou des sociologues dans les prochaines décennies. Les collectes effectuées en 2021, par exemple, ont porté sur près de 5,6 millions de sites : cela représente 160 téraoctets de données… Soit les données de plus de 41.489 DVD !