Le Skyblog honteux de vos années collège est (peut-être) archivé à la BNF
REPORTAGE La Bibliothèque Nationale de France et l’Ina archivent minutieusement le web français. Un travail d’autant plus colossal que ne sont pas oubliés les contenus les plus volatiles, ou pensés comme dérisoires…
« Kikou. Ce blog bah c’est ma vie, mes potes, mes délires. » Mauvaise nouvelle : le honteux que vous teniez en 2007 n’a peut-être pas disparu, même si vous l’avez effacé et auriez aimé qu’il meure à jamais. C’eût été dommage car avec ce Skyblog, vous avez participé – brillamment, nul n’en doute — à l’histoire d’Internet. Et celle-ci est scrupuleusement archivée. Depuis vingt ans, en cette année 2016.
Le web envoyé par bateau
Tout commence en 1996 avec le rêve d’un certain . L’Américain, un ingénieur informatique ayant fait fortune dans le référencement, entame, en créant sa fondation, , l’archivage du « World Wide Web ». Son ambition est de constituer la nouvelle « Bibliothèque d’Alexandrie », rien de moins, et empêcher ainsi l’héritage culturel immense que constitue Internet de partir en fumée. Les « crawlers », des programmes capables de scanner automatiquement les sites et d’en stocker la copie, commencent leur mission de sauvetage.
La BNF est l’une des premières bibliothèques nationales à lancer son propre chantier d’archivage, dès 2000. Mais jusqu’en 2006, « Internet Archive archivait pour nous, explique à 20 Minutes Emmanuelle Bermès, adjointe chargée des questions scientifiques et techniques à la BNF. Les données nous arrivaient dans les , leurs grosses machines rouges très emblématiques, qu’ils nous envoyaient par bateau. Ça mettait des semaines… A chaque fois qu’une arrivait, c’était l’événement. »
Puis, à partir de 2006, c’est le grand saut : la BNF et l’Ina commencent la collecte des sites du domaine français au titre de dépôt légal. Et ce jusqu’au dernier décompte en date, qui faisait état, en janvier, de 668 Téraoctets (To) d’archives.
20 Minutes vintage
Soit 26 milliards de fichiers stockés… sous nos pieds, qui viennent de franchir le seuil de la BNF. C’est en bas, dans les sous-sols, quelque part dans l’une des armoires de stockage, que se cache peut-être votre Skyblog. La consultation de la base de données se fait elle au rez-de-jardin, dans le silence feutré de la Bibliothèque de recherche. Le portail des « Archives de l’Internet » nous propose une recherche par URL.
Au hasard : 20minutes.fr ? Les captures les plus anciennes nous propulsent à une époque préhistorique où l’on tremblait face à la fin de la cigarette dans les lieux publics.
Comment choisir ? Que retenir parmi l’infinité de sites et blogs disponibles ? Une fois par an, un robot vient faire son tour du Web français pendant 2 à 3 semaines, pour une photographie globale nommée « collecte large » qui portait, en 2015, sur 4,5 millions de noms de domaine. Mais ce n’est pas la majeure partie de l’archivage.
Une centaine de personnes mobilisées
Il faut surtout compter sur une centaine de chargés de collection de la BNF, qui réalisent des « collectes ciblées » sur des thèmes précis. Une collecte sur la , par exemple, est en cours. Ils indiquent alors à quelle fréquence et quelle profondeur (le nombre de clics depuis la page d’accueil) les sites doivent être conservés, le tout dépendant non pas « de la qualité du contenu, mais de sa représentativité par rapport à ce qui existe sur le web à un moment donné », précise Emmanuelle Bermès.
On en revient à nos blogs inavouables : une partie a été collectée dans le cadre d’un parcours baptisé « S’écrire en ligne ». « La bibliothécaire en charge de l’archivage y a intégré aussi bien des blogs de personnes célèbres que des blogs où les et mettent des photos de chat. Il ne faudrait pas que les historiens qui étudieront la société des années 2000 ou 2010 aient un trou noir sur la période, ce serait insensé. Si un historien qui travaille sur l’adolescence en 2005 n’a pas connaissance des Skyblogs, il va passer à côté d’un phénomène de société très important. »
Le paradis du thésard sur TPMP
Comment, également, se passer de la mémoire que nous offrent les réseaux sociaux ? Evidemment, pour s’y retrouver, bonjour le casse-tête. L’outil le plus perfectionné est pour l’instant développé par l’Ina : l’Institut, qui immortalise par ailleurs plus de 14.000 sites plusieurs fois par jour, collecte depuis février 2014 une sélection de tweets, à partir de 12.000 comptes suivis (personnalités médiatiques, mais pas seulement) et 400 hashtags liés à l’audiovisuel.
Quatre cents millions de tweets ont déjà été sauvegardés. Le tout est à consulter depuis un portail de l’Inathèque. Soit le paradis tout trouvé pour un chercheur qui lancerait sa thèse sur les ...
Une rapide recherche sur le hashtag #TPMP donne une idée de la profusion à explorer. « Twitter garde tout mais donne un accès limité à son historique, explique Thomas Drugeon, responsable du dépôt légal du web pour l’Ina. Twitter étant devenu le second écran de la télé, c’est un corpus cohérent à constituer de notre côté. »
A terme, « nous aurons un onglet réseaux sociaux, poursuit-il. Il faudrait aussi archiver les commentaires YouTube, les pages Facebook… On pourra ainsi voir très vite comment les gens ont réagi à un événement donné ».
Des collectes d'urgence pour les attentats
Pour tous les sujets non audiovisuels, qui relèvent donc de la BNF, la collecte des réseaux sociaux se fait sans robot spécifique, mais selon les sujets.
« Sur les , nous avons lancé une "collecte d’urgence" (procédure lancée en réponse aux événements imprévus, appliquée au surlendemain du 13, et au lendemain de Nice en juillet) et choisi 43 comptes Twitter et hashtags qui ont été collectés 4 fois par jour, explique Emmanuelle Bermès. On a également collecté la … Des Tumblr, aussi. »
« On ne peut pas être exhaustif, poursuit-elle. Garder la trace de l’écho de tel ou tel événement est essentiel, mais collecter les réseaux dans leur intégralité importe peu car personne ne voudra les lire au sens où on lit aujourd’hui une conversation Twitter.»
Et le droit à l’oubli ?
« L’exploitation de ces archives est immédiat pour beaucoup de chercheurs, historiens ou sociologues, insiste l’archiviste-paléographe. Ce n’est pas qu’une question de patrimoine à redécouvrir dans 100 ans ! » Des chercheurs qui travaillaient sur l’anniversaire de la Guerre de 14-18 ont par exemple demandé à la BNF une collecte pour étudier la résonance que l’anniversaire avait sur le web.
D’autres viennent consulter les archives pour étudier « l’histoire du web des années 1990 ou 2000. » Voilà ceux qui pourraient tomber sur les fameux Skyblog, et se délecter de l’esthétique douteuse ou du vocabulaire employés à l’époque.
Vous vous en seriez volontiers passé ? « C’est justement pour cela qu’on ne peut pas rendre les archives accessibles à tous », justifie Emmanuelle Bermès. Il faut se rendre sur place et justifier d’un projet de recherches, car l’archive est encadrée par le (à l'inverse d'Internet Archive qui donne libre accès à sa ).
« On me dit parfois que ça n’a pas de sens de restreindre l’accès en salle de lecture à des pages qui sont ouvertes sur Internet… Sauf que non, elles étaient ouvertes. Si la personne a supprimé son Skyblog au moment de passer son barreau pour être avocat, pour ne pas qu’on sache tout de ses soirées étudiantes, on respecte son droit. Si son Skyblog a été archivé par nous à l’époque, il ne sortira pas d’ici. »