Le Skyblog honteux de vos années collège est (peut-être) archivé à la BNF

REPORTAGE La Bibliothèque Nationale de France et l’Ina archivent minutieusement le web français. Un travail d’autant plus colossal que ne sont pas oubliés les contenus les plus volatiles, ou pensés comme dérisoires…

Annabelle Laurent

— 

La BNF, le 23 novembre 2016. Au sous-sol, 668 Téraoctets d'archives, celles du web français depuis vingt ans.
La BNF, le 23 novembre 2016. Au sous-sol, 668 Téraoctets d'archives, celles du web français depuis vingt ans. — AL

« Kikou. Ce blog bah c’est ma vie, mes potes, mes délires. » Mauvaise nouvelle : le Skyblog honteux que vous teniez en 2007 n’a peut-être pas disparu, même si vous l’avez effacé et auriez aimé qu’il meure à jamais. C’eût été dommage car avec ce Skyblog, vous avez participé – brillamment, nul n’en doute — à l’histoire d’Internet. Et celle-ci est scrupuleusement archivée. Depuis vingt ans, en cette année 2016.

Le web envoyé par bateau

Tout commence en 1996 avec le rêve d’un certain Brewster Kahle. L’Américain, un ingénieur informatique ayant fait fortune dans le référencement, entame, en créant sa fondation, Internet Archive, l’archivage du « World Wide Web ». Son ambition est de constituer la nouvelle « Bibliothèque d’Alexandrie », rien de moins, et empêcher ainsi l’héritage culturel immense que constitue Internet de partir en fumée. Les « crawlers », des programmes capables de scanner automatiquement les sites et d’en stocker la copie, commencent leur mission de sauvetage.

La BNF est l’une des premières bibliothèques nationales à lancer son propre chantier d’archivage, dès 2000. Mais jusqu’en 2006, « Internet Archive archivait pour nous, explique à 20 Minutes Emmanuelle Bermès, adjointe chargée des questions scientifiques et techniques à la BNF. Les données nous arrivaient dans les Petabox, leurs grosses machines rouges très emblématiques, qu’ils nous envoyaient par bateau. Ça mettait des semaines… A chaque fois qu’une arrivait, c’était l’événement. »

Une Petabox de la fondation Internet Archive, conçue pour stocker un pétabyte (un million de gigabytes) de données.
Une Petabox de la fondation Internet Archive, conçue pour stocker un pétabyte (un million de gigabytes) de données. - future15pic/Flickr

Puis, à partir de 2006, c’est le grand saut : la BNF et l’Ina commencent officiellement la collecte des sites du domaine français au titre de dépôt légal. Et ce jusqu’au dernier décompte en date, qui faisait état, en janvier, de 668 Téraoctets (To) d’archives.

20 Minutes vintage

Soit 26 milliards de fichiers stockés… sous nos pieds, qui viennent de franchir le seuil de la BNF. C’est en bas, dans les sous-sols, quelque part dans l’une des armoires de stockage, que se cache peut-être votre Skyblog. La consultation de la base de données se fait elle au rez-de-jardin, dans le silence feutré de la Bibliothèque de recherche. Le portail des « Archives de l’Internet » nous propose une recherche par URL.

Au hasard : 20minutes.fr ? Les captures les plus anciennes nous propulsent à une époque préhistorique où l’on tremblait face à la fin de la cigarette dans les lieux publics.

20 Minutes le 16 novembre 2006. Sophistication extrême de la homepage.
20 Minutes le 16 novembre 2006. Sophistication extrême de la homepage. - AL

Comment choisir ? Que retenir parmi l’infinité de sites et blogs disponibles ? Une fois par an, un robot vient faire son tour du Web français pendant 2 à 3 semaines, pour une photographie globale nommée « collecte large » qui portait, en 2015, sur 4,5 millions de noms de domaine. Mais ce n’est pas la majeure partie de l’archivage.

Une centaine de personnes mobilisées 

Il faut surtout compter sur une centaine de chargés de collection de la BNF, qui réalisent des « collectes ciblées » sur des thèmes précis. Une collecte sur la Présidentielle, par exemple, est en cours. Ils indiquent alors à quelle fréquence et quelle profondeur (le nombre de clics depuis la page d’accueil) les sites doivent être conservés, le tout dépendant non pas « de la qualité du contenu, mais de sa représentativité par rapport à ce qui existe sur le web à un moment donné », précise Emmanuelle Bermès.

On en revient à nos blogs inavouables : une partie a été collectée dans le cadre d’un parcours baptisé « S’écrire en ligne ». « La bibliothécaire en charge de l’archivage y a intégré aussi bien des blogs de personnes célèbres que des blogs où les ados écrivent LOL et mettent des photos de chat. Il ne faudrait pas que les historiens qui étudieront la société des années 2000 ou 2010 aient un trou noir sur la période, ce serait insensé. Si un historien qui travaille sur l’adolescence en 2005 n’a pas connaissance des Skyblogs, il va passer à côté d’un phénomène de société très important. »

"Venez voir mon blog sur Shakira et laissez vos coms" - L'adolescence pré-Snapchat, en 2007. - Skyblog

Le paradis du thésard sur TPMP

Comment, également, se passer de la mémoire que nous offrent les réseaux sociaux ? Evidemment, pour s’y retrouver, bonjour le casse-tête. L’outil le plus perfectionné est pour l’instant développé par l’Ina : l’Institut, qui immortalise par ailleurs plus de 14.000 sites plusieurs fois par jour, collecte depuis février 2014 une sélection de tweets, à partir de 12.000 comptes suivis (personnalités médiatiques, mais pas seulement) et 400 hashtags liés à l’audiovisuel.

Quatre cents millions de tweets ont déjà été sauvegardés. Le tout est à consulter depuis un portail de l’Inathèque. Soit le paradis tout trouvé pour un chercheur qui lancerait sa thèse sur les fanzouzes de Cyril Hanouna...

L'histoire retiendra... TPMP, émission à succès dans les années 2010.
L'histoire retiendra... TPMP, émission à succès dans les années 2010. - Ina

Une rapide recherche sur le hashtag #TPMP donne une idée de la profusion à explorer. « Twitter garde tout mais donne un accès limité à son historique, explique Thomas Drugeon, responsable du dépôt légal du web pour l’Ina. Twitter étant devenu le second écran de la télé, c’est un corpus cohérent à constituer de notre côté. »

A terme, « nous aurons un onglet réseaux sociaux, poursuit-il. Il faudrait aussi archiver les commentaires YouTube, les pages Facebook… On pourra ainsi voir très vite comment les gens ont réagi à un événement donné ».

Des collectes d'urgence pour les attentats

Pour tous les sujets non audiovisuels, qui relèvent donc de la BNF, la collecte des réseaux sociaux se fait sans robot spécifique, mais selon les sujets.

« Sur les attentats de novembre, nous avons lancé une "collecte d’urgence" (procédure lancée en réponse aux événements imprévus, appliquée au surlendemain du 13, et au lendemain de Nice en juillet) et choisi 43 comptes Twitter et hashtags qui ont été collectés 4 fois par jour, explique Emmanuelle Bermès. On a également collecté la page Facebook de Nuit Debout… Des Tumblr, aussi. »

« On ne peut pas être exhaustif, poursuit-elle. Garder la trace de l’écho de tel ou tel événement est essentiel, mais collecter les réseaux dans leur intégralité importe peu car personne ne voudra les lire au sens où on lit aujourd’hui une conversation Twitter.»

Et le droit à l’oubli ?

« L’exploitation de ces archives est immédiat pour beaucoup de chercheurs, historiens ou sociologues, insiste l’archiviste-paléographe. Ce n’est pas qu’une question de patrimoine à redécouvrir dans 100 ans ! » Des chercheurs qui travaillaient sur l’anniversaire de la Guerre de 14-18 ont par exemple demandé à la BNF une collecte pour étudier la résonance que l’anniversaire avait sur le web.

D’autres viennent consulter les archives pour étudier « l’histoire du web des années 1990 ou 2000. » Voilà ceux qui pourraient tomber sur les fameux Skyblog, et se délecter de l’esthétique douteuse ou du vocabulaire employés à l’époque.

Vous vous en seriez volontiers passé ? « C’est justement pour cela qu’on ne peut pas rendre les archives accessibles à tous », justifie Emmanuelle Bermès. Il faut se rendre sur place et justifier d’un projet de recherches, car l’archive est encadrée par le Code du patrimoine (à l'inverse d'Internet Archive qui donne libre accès à sa Wayback Machine).

« On me dit parfois que ça n’a pas de sens de restreindre l’accès en salle de lecture à des pages qui sont ouvertes sur Internet… Sauf que non, elles étaient ouvertes. Si la personne a supprimé son Skyblog au moment de passer son barreau pour être avocat, pour ne pas qu’on sache tout de ses soirées étudiantes, on respecte son droit. Si son Skyblog a été archivé par nous à l’époque, il ne sortira pas d’ici. »