Qu’est-ce que le Wayback Machine ?
Le Wayback Machine est une archive numérique de la World Wide Web fondée par l’Internet Archive, une organisation à but non lucratif américaine basée à San Francisco1. Cette plateforme permet aux utilisateurs de voyager dans le temps et de voir à quoi ressemblaient les sites web dans le passé12.
Le nom « Wayback Machine » fait référence à un appareil fictif de voyage dans le temps du dessin animé « The Adventures of Rocky and Bullwinkle and Friends » des années 19601.
Histoire et Création
L’Internet Archive a été fondé en mai 1996 par Brewster Kahle et Bruce Gilliat13. L’archivage des pages web a commencé dès 1996, avec la première page connue archivée le 8 mai 199514.
Chronologie importante :
- 1996 : Début de l’archivage des pages web1
- 1996-2001 : Les données étaient stockées sur bandes numériques1
- 2001 : Lancement public du Wayback Machine lors d’une cérémonie à l’Université de Californie à Berkeley1
- 2001 : Le service contenait déjà plus de 10 milliards de pages archivées1
Fonctionnement
Le Wayback Machine fonctionne grâce à des robots d’indexation (crawlers) qui parcourent le Web et téléchargent toutes les informations publiquement accessibles1. Ces robots collectent :
- Les pages HTML
- Les images
- Les feuilles de style
- Les scripts
- Les fichiers multimédias
Les données sont stockées avec des URLs horodatées permettant de retrouver les versions exactes des pages à des moments précis1.
Fréquence d’archivage
La fréquence de capture varie selon les sites web. Les sites inclus dans les « Worldwide Web Crawls » sont archivés une fois par exploration, qui peut prendre des mois ou des années à compléter1.
Évolution et Croissance
Le Wayback Machine connaît une croissance impressionnante :
Année | Pages archivées |
---|---|
2004 | 30 milliards1 |
2009 | 38,2 milliards1 |
2013 | 373 milliards1 |
2016 | 459 milliards1 |
2020 | 405 milliards1 |
2024 | 866 milliards1 |
Aujourd’hui, le Wayback Machine préserve plus de 916 milliards de pages web et plus de 100 pétaoctets de données1.
Financement et Modèle Économique
Statut et Financement
L’Internet Archive est une organisation à but non lucratif 501(c)(3) dont le numéro d’identification fiscale est 94-324276756. Le service est entièrement gratuit pour les utilisateurs2.
Sources de financement principales :
- Dons individuels de particuliers6
- Dons en nature d’organisations6
- Subventions gouvernementales et privées6
- Services de crawling contractuels3
- Partenariats avec diverses institutions6
Budget annuel
En 2019, l’Internet Archive avait un budget annuel de 37 millions de dollars 3. Selon certaines estimations, le chiffre d’affaires pourrait atteindre 75 millions de dollars annuels7.
Les revenus proviennent de :
- Services de crawling web
- Partenariats diversifiés
- Subventions
- Dons
- La Fondation Kahle-Austin3
Coûts opérationnels
L’organisation emploie environ 150 personnes dans le monde8, ce qui représente un effectif relativement réduit pour l’un des 300 sites web les plus visités au monde8.
Données Sauvegardées et Limitations
Types de données préservées
Le Wayback Machine archive principalement :
- Pages web HTML publiquement accessibles
- Images et ressources multimédias
- Feuilles de style CSS
- Scripts JavaScript
- Fichiers PDF et documents
- Métadonnées sur les ressources collectées9
Données NON sauvegardées
Plusieurs types de contenu ne sont jamais archivés :
- Pages nécessitant une connexion (login/password)10
- Contenu derrière des formulaires (Deep Web)9
- Pages sur serveurs sécurisés avec restrictions SSL11
- Contenu dynamique généré par bases de données9
- Pages bloquées par robots.txt 1213
- Contenus Flash (souvent non fonctionnels)14
Limitations d’accès
- Taille des fichiers : Limitation historique à 100 MB pour certains types de fichiers15
- Taux de requête : Maximum 15 requêtes par minute depuis novembre 201916
- Exclusions robots.txt : Respect des directives d’exclusion13
- Demandes de retrait : Possibilité pour les propriétaires de sites de demander la suppression17
Comment Soumettre des Pages à Archiver
Méthode 1 : Save Page Now
La façon la plus simple de soumettre une page :
- Aller sur https://web.archive.org/[11](https://help.archive.org/help/save-pages-in-the-wayback-machine/)
- Saisir l’URL dans le champ « Save Page Now »
- Appuyer sur le bouton pour lancer l’archivage11
Méthode 2 : Extension de navigateur
L’extension officielle Wayback Machine permet de :
- Sauvegarder la page actuelle d’un clic
- Activer la sauvegarde automatique
- Sauvegarder lors de la mise en favori11
Méthode 3 : Compte utilisateur
Avec un compte gratuit, vous pouvez :
- Archiver les liens sortants de la page
- Recevoir un rapport par courriel
- Télécharger les captures au format WACZ18
Méthode 4 : Archive Team
L’Archive Team est un groupe de bénévoles qui sauvegarde des sites menacés de disparition19. Vous pouvez :
- Rejoindre leurs projets de sauvegarde
- Utiliser leurs outils automatisés
- Contribuer à leurs efforts collaboratifs19
Personnes Clés et Équipe
Fondateurs
- Brewster Kahle : Fondateur de l’Internet Archive et visionnaire du projet13
- Bruce Gilliat : Co-fondateur qui a participé au développement initial1
Équipe actuelle
L’Internet Archive emploie environ 150 personnes réparties dans le monde8, incluant :
- Ingénieurs et développeurs
- Archivistes et bibliothécaires
- Spécialistes en numérisation
- Personnel de maintenance des centres de données
L’organisation privilégie une mission avant le profit, ce qui lui permet d’attirer des talents motivés par la préservation du patrimoine numérique8.
Conclusion
Le Wayback Machine représente un pilier fondamental de la préservation numérique mondiale. Créé par des visionnaires en 1996, il offre gratuitement l’accès à plus de 916 milliards de pages web historiques. Bien que financé principalement par des dons et subventions, il demeure accessible à tous et continue d’évoluer pour répondre aux défis de la préservation numérique. Sa capacité à capturer et préserver l’histoire du web en fait un outil indispensable pour les chercheurs, journalistes, et citoyens du monde entier qui souhaitent comprendre l’évolution de notre patrimoine numérique.
- Wayback Machine - Wikipedia
- Wayback Machine, la mémoire d’internet
- Internet Archive - Wikipedia
- The Wayback Machine's First Crawl 1996 : Internet Archive : Free Download, Borrow, and Streaming : Internet Archive
- https://help.archive.org/help/are-my-donations-tax-deductible/
- https://help.archive.org/help/internet-archive-general-information/
- https://help.archive.org/help/how-do-i-donate-to-the-internet-archive/
- https://blog.archive.org/donation-faqs/
- https://en.wikipedia.org/wiki/Web_archiving
- https://www.tweeteraser.com/pt/resources/how-to-use-the-wayback-machine-an-archive-of-web-pages/
- https://help.archive.org/help/save-pages-in-the-wayback-machine/
- https://blog.reputationx.com/block-wayback-machine
- https://support.archive-it.org/hc/en-us/articles/208001096-Robots-txt-exclusions-and-how-they-can-impact-your-web-archives
- https://www.uol.com.br/tilt/noticias/redacao/2025/04/29/como-acessar-uma-pagina-da-internet-que-saiu-do-ar.htm
- https://archive.org/post/1022126/download-limit-wayback-machine
- https://stackoverflow.com/questions/77986991/errno-111-connection-refused-from-web-archive-org
- https://blog.archive.org/2017/04/17/robots-txt-meant-for-search-engines-dont-work-well-for-web-archives/
- https://gijn.org/resource/tips-for-using-the-internet-archives-wayback-machine-in-your-next-investigation/
- https://wiki.archiveteam.org/index.php/Projects
- https://chromewebstore.google.com/detail/wayback-machine/fpnmgdkabkmnadcjpehmlllkndpkmiak
- https://www.youtube.com/watch?v=W1HL9uw6Axg
- https://gclibrary.commons.gc.cuny.edu/event/brewster-kahle-founder-of-the-internet-archive/
- https://www.verifact.com.br/wayback-machine-como-prova/
- http://wayback.archive.org
- https://simple.wikipedia.org/wiki/Internet_Archive
- https://pt.wikipedia.org/wiki/Wayback_Machine
- https://help.archive.org/help/using-the-wayback-machine/
- https://pt.wikipedia.org/wiki/Internet_Archive
- http://web.archive.org
- http://wayback.archive.org/web/*/037758.com
- https://httparchive.org/about
- https://bibliotecas.ufu.br/portal-da-pesquisa/links-especializados/internet-archive-wayback-machine
- https://archive.org/web/web-advancedsearch.php
- https://archive.org/details/lesfondateursdud00avriuoft
- https://play.google.com/store/apps/details?id=com.internetarchive.waybackmachine
- https://archive.org/search.php
- https://law.duke.edu/sites/default/files/news/porcaro-chronicle-article.pdf
- https://futurism.com/elon-musk-cuts-funding-for-internet-archive
- https://projects.propublica.org/nonprofits/organizations/943242767
- https://forum.hardware.com.br/digitais-bibliotecas/1550793
- https://www.charitynavigator.org/ein/943242767
- https://archive.org/details/manualzilla-id-6490663
- https://www.guidestar.org/profile/94-3242767
- https://archive.org/donate
- https://www.philanthropy.com/article/the-internet-archive-is-a-cautionary-tale-for-growing-nonprofits
- https://archive.org/details/finance0000unse
- https://archive.org
- https://www.ipburger.com/fr/blog/scrape-data-from-wayback-machine/
- https://stackoverflow.com/questions/36429376/blocking-wayback-machine-with-robots-txt-only-works-for-www-domain-com-and-not-f
- https://github.com/overcast07/wayback-machine-spn-scripts
- https://www.tudocelular.com/seguranca/noticias/n227244/wayback-machine-entenda-ciberataque-que-expos-dados-e-tirou-site-do-ar--detetive-tc.html
- https://news.ycombinator.com/item?id=31040524
- https://www.youtube.com/watch?v=iNGtfOh-Ozk
- https://web.archive.org/save/
- https://www.reddit.com/r/WaybackMachine/comments/1iogdoh/how_to_save_a_website_on_the_wayback_machine/
- https://www.youtube.com/watch?v=bNt4TsUB5AI
- https://www.reddit.com/r/internetarchive/comments/1jfx6ct/are_there_reasons_websites_can_be_excluded_from/
- https://www.godaddy.com/fr/help/quest-ce-quune-sauvegarde-de-site-web-20318
- https://en.wikipedia.org/wiki/Archive_site
- https://www.hostinger.com/fr/tutoriels/sauvegarder-site
- https://www.jobrouter.com/en/digital-archive-1/
- https://docs.plesk.com/fr-FR/obsidian/reseller-guide/gérer-des-sites-web/sauvegarder-et-restaurer-les-sites-web/sauvegarder-les-données/sauvegarder-le-compte-et-les-sites-web.65199/
- https://github.com/hartator/wayback-machine-downloader/issues/281
- https://blog.lws-hosting.com/hebergement-mutualise/pourquoi-et-quelles-sont-les-options-pour-sauvegarder-un-site-internet/
- https://www.veritas.com/blogs/3-types-of-archive-whats-right-for-you
- https://www.dropmysite.com/fr/features
- https://www.reddit.com/r/WaybackMachine/comments/10krbq0/is_there_any_way_to_go_further_into_results_for/
- https://www2.archivists.org/usingarchives/typesofarchives
- https://www.savbox.fr/comment-faire-sauvegarde-ligne-toutes-donnees-ordinateur/
- https://archive.org/post/398124/the-2-gb-limit
- https://aws.amazon.com/fr/what-is/data-backup/
- https://archive.org/details/LimiteMrioPeixoto1931RioDeJaneiroDrama
- https://www.reddit.com/r/WaybackMachine/comments/smlest/wayback_machine_url_receptive_to_percent_encoding/
- https://eturecup.org/rejoins-la-team-benevole/
- https://repub.eur.nl/pub/133477/Navarrete-Crowdsourcing-Digital-Heritage-2020.pdf
- https://actume.org/en/tag/benevolat/
- https://startwords.cdh.princeton.edu/issues/2/datas-destinations/
- https://en.wikipedia.org/wiki/Help:Using_the_Wayback_Machine
- https://21-croix-rouge.fr/team/
- https://www.ala.org/acrl/publications/keeping_up_with/cultural_heritage_crowdsourcing
- https://pt.wikipedia.org/wiki/Ajuda:Usando_o_Wayback_Machine
- https://archive.org/details/crowdsourcingwhy0000howe
- https://commons.wikimedia.org/wiki/Commons:Volunteer_Response_Team/Noticeboard/archive/2017
- https://archive.org/details/crowdsourcinghow0000howe
- https://tourneedescantons.com/team/
- https://en.wikipedia.org/wiki/List_of_crowdsourcing_projects
- https://github.com/archiveteam
- https://growjo.com/company/Internet_Archive
- https://blog.archive.org/2020/11/16/where-your-donation-goes/
- https://www.archives.gov/files/about/plans-reports/performance-budget/2024-nara-congressional-justification.pdf
- https://help.archive.org/help/where-does-my-donation-go/
- https://news.ycombinator.com/item?id=39476564
- https://www.linkedin.com/pulse/global-internet-archive-tool-market-cjuwf/
- https://help.archive.org/help/what-payment-methods-do-you-accept/
- https://www.niemanlab.org/2015/01/internet-archive-hopes-to-boost-its-collections-through-funding-from-the-knight-news-challenge/
- https://www.reddit.com/r/DataHoarder/comments/1cu79ke/the_archiveteam_has_a_cost_shameboard_of_the_top/
- https://archive.org/details/11240108-bfc
- https://archive.org/donate/?origin=wbwww-CalndrDonateButton
- https://donorly.com/thedonorlyblog/2017/9/25/creative-research-tools-the-wayback-machine
- https://www.bbc.com/future/article/20240912-the-archivists-battling-to-save-the-internet
- https://help.archive.org/help/category/donations-2/charges-refunds/