Wayback Machine : le gardien de la mémoire numérique

Patrick · Juillet 13, 2025, 6:54

Qu’est-ce que le Wayback Machine ?

Le Wayback Machine est une archive numérique de la World Wide Web fondée par l’Internet Archive, une organisation à but non lucratif américaine basée à San Francisco1. Cette plateforme permet aux utilisateurs de voyager dans le temps et de voir à quoi ressemblaient les sites web dans le passé1 2.

Le nom « Wayback Machine » fait référence à un appareil fictif de voyage dans le temps du dessin animé « The Adventures of Rocky and Bullwinkle and Friends » des années 19601.

Histoire et Création

L’Internet Archive a été fondé en mai 1996 par Brewster Kahle et Bruce Gilliat1 3. L’archivage des pages web a commencé dès 1996, avec la première page connue archivée le 8 mai 19951 4.

Chronologie importante :

1996 : Début de l’archivage des pages web1
1996-2001 : Les données étaient stockées sur bandes numériques1
2001 : Lancement public du Wayback Machine lors d’une cérémonie à l’Université de Californie à Berkeley1
2001 : Le service contenait déjà plus de 10 milliards de pages archivées1

Fonctionnement

Le Wayback Machine fonctionne grâce à des robots d’indexation (crawlers) qui parcourent le Web et téléchargent toutes les informations publiquement accessibles1. Ces robots collectent :

Les pages HTML
Les images
Les feuilles de style
Les scripts
Les fichiers multimédias

Les données sont stockées avec des URLs horodatées permettant de retrouver les versions exactes des pages à des moments précis1.

Fréquence d’archivage

La fréquence de capture varie selon les sites web. Les sites inclus dans les « Worldwide Web Crawls » sont archivés une fois par exploration, qui peut prendre des mois ou des années à compléter1.

Évolution et Croissance

Le Wayback Machine connaît une croissance impressionnante :

Année	Pages archivées
2004	30 milliards1
2009	38,2 milliards1
2013	373 milliards1
2016	459 milliards1
2020	405 milliards1
2024	866 milliards1

Aujourd’hui, le Wayback Machine préserve plus de 916 milliards de pages web et plus de 100 pétaoctets de données1.

Financement et Modèle Économique

Statut et Financement

L’Internet Archive est une organisation à but non lucratif 501(c)(3) dont le numéro d’identification fiscale est 94-32427675 6. Le service est entièrement gratuit pour les utilisateurs2.

Sources de financement principales :

Dons individuels de particuliers6
Dons en nature d’organisations6
Subventions gouvernementales et privées6
Services de crawling contractuels3
Partenariats avec diverses institutions6

Budget annuel

En 2019, l’Internet Archive avait un budget annuel de 37 millions de dollars 3. Selon certaines estimations, le chiffre d’affaires pourrait atteindre 75 millions de dollars annuels7.

Les revenus proviennent de :

Services de crawling web
Partenariats diversifiés
Subventions
Dons
La Fondation Kahle-Austin3

Coûts opérationnels

L’organisation emploie environ 150 personnes dans le monde8, ce qui représente un effectif relativement réduit pour l’un des 300 sites web les plus visités au monde8.

Données Sauvegardées et Limitations

Types de données préservées

Le Wayback Machine archive principalement :

Pages web HTML publiquement accessibles
Images et ressources multimédias
Feuilles de style CSS
Scripts JavaScript
Fichiers PDF et documents
Métadonnées sur les ressources collectées9

Données NON sauvegardées

Plusieurs types de contenu ne sont jamais archivés :

Pages nécessitant une connexion (login/password)10
Contenu derrière des formulaires (Deep Web)9
Pages sur serveurs sécurisés avec restrictions SSL11
Contenu dynamique généré par bases de données9
Pages bloquées par robots.txt 12 13
Contenus Flash (souvent non fonctionnels)14

Limitations d’accès

Taille des fichiers : Limitation historique à 100 MB pour certains types de fichiers15
Taux de requête : Maximum 15 requêtes par minute depuis novembre 201916
Exclusions robots.txt : Respect des directives d’exclusion13
Demandes de retrait : Possibilité pour les propriétaires de sites de demander la suppression17

Comment Soumettre des Pages à Archiver

Méthode 1 : Save Page Now

La façon la plus simple de soumettre une page :

Aller sur https://web.archive.org/[11](https://help.archive.org/help/save-pages-in-the-wayback-machine/)
Saisir l’URL dans le champ « Save Page Now »
Appuyer sur le bouton pour lancer l’archivage11

Méthode 2 : Extension de navigateur

L’extension officielle Wayback Machine permet de :

Sauvegarder la page actuelle d’un clic
Activer la sauvegarde automatique
Sauvegarder lors de la mise en favori11

Méthode 3 : Compte utilisateur

Avec un compte gratuit, vous pouvez :

Archiver les liens sortants de la page
Recevoir un rapport par courriel
Télécharger les captures au format WACZ18

Méthode 4 : Archive Team

L’Archive Team est un groupe de bénévoles qui sauvegarde des sites menacés de disparition19. Vous pouvez :

Rejoindre leurs projets de sauvegarde
Utiliser leurs outils automatisés
Contribuer à leurs efforts collaboratifs19

Personnes Clés et Équipe

Fondateurs

Brewster Kahle : Fondateur de l’Internet Archive et visionnaire du projet1 3
Bruce Gilliat : Co-fondateur qui a participé au développement initial1

Équipe actuelle

L’Internet Archive emploie environ 150 personnes réparties dans le monde8, incluant :

Ingénieurs et développeurs
Archivistes et bibliothécaires
Spécialistes en numérisation
Personnel de maintenance des centres de données

L’organisation privilégie une mission avant le profit, ce qui lui permet d’attirer des talents motivés par la préservation du patrimoine numérique8.

Conclusion

Le Wayback Machine représente un pilier fondamental de la préservation numérique mondiale. Créé par des visionnaires en 1996, il offre gratuitement l’accès à plus de 916 milliards de pages web historiques. Bien que financé principalement par des dons et subventions, il demeure accessible à tous et continue d’évoluer pour répondre aux défis de la préservation numérique. Sa capacité à capturer et préserver l’histoire du web en fait un outil indispensable pour les chercheurs, journalistes, et citoyens du monde entier qui souhaitent comprendre l’évolution de notre patrimoine numérique.

Patrick · Février 2, 2026, 6:42

Une mémoire de l’internet qui risque progressivement de perdre la mémoire, comme l’explique cet article, à cause des éditeurs de contenu qui veulent protéger leur contenu contre l’exploitation de celui-ci par les intelligences artificielles…

Patrick · Février 27, 2026, 4:23

Et pour faire suite à ce sujet, Korben nous signale ici un nouveau logiciel plutôt curieux, plutôt malin techniquement, mais dont je doute de l’efficacité pratique.
Sans entrer dans les détails, il s’agit de prendre une photographie d’un site web qui est non modifiable et qui est partagée, donc pas uniquement stocké sur un seul serveur, ce qui le mettrait en danger.