Depuis l’émergence du web, la Bibliothèque nationale de France (BnF) a pris l’initiative de collecter l’ensemble des contenus du web français. Aujourd’hui, nos collections comprennent 60 milliards de pages web, incluant les premiers forums, blogs, et sites médias comme Facebook, Twitter, et TikTok. Cette mission de dépôt légal vise à préserver la mémoire numérique française pour les générations futures.
Par exemple, tous les 12 millions de blogs Skyrock ont été archivés, contribuant à cette vaste collection. Nous utilisons des outils comme le robot Heritrix pour capturer des instantanés du web, couvrant des événements spécifiques ou effectuant des collectes larges annuelles. Ces archives sont stockées de manière sécurisée pour résister à divers risques et garantir l’accès à long terme.
Les archives de l’Internet ne sont consultables que sur place, à la BnF ou dans certaines bibliothèques régionales, via des postes dédiés. Cette mission de service public est essentielle pour constituer le patrimoine numérique français, en conservant tout ce qui a été diffusé, lu, ou entendu en ligne.
[!tip] Note
On peut déplorer que cette archive ne soit pas consultable publiquement puisqu’il s’agit de sites publics… Contrairement à TheWayBackMachine…