Wayback Machine : le gardien de la mémoire numérique

Qu’est-ce que le Wayback Machine ?

Le Wayback Machine est une archive numérique de la World Wide Web fondée par l’Internet Archive, une organisation à but non lucratif américaine basée à San Francisco1. Cette plateforme permet aux utilisateurs de voyager dans le temps et de voir à quoi ressemblaient les sites web dans le passé12.

Le nom « Wayback Machine » fait référence à un appareil fictif de voyage dans le temps du dessin animé « The Adventures of Rocky and Bullwinkle and Friends » des années 19601.

Histoire et Création

L’Internet Archive a été fondé en mai 1996 par Brewster Kahle et Bruce Gilliat13. L’archivage des pages web a commencé dès 1996, avec la première page connue archivée le 8 mai 199514.

Chronologie importante :

  • 1996 : Début de l’archivage des pages web1
  • 1996-2001 : Les données étaient stockées sur bandes numériques1
  • 2001 : Lancement public du Wayback Machine lors d’une cérémonie à l’Université de Californie à Berkeley1
  • 2001 : Le service contenait déjà plus de 10 milliards de pages archivées1

Fonctionnement

Le Wayback Machine fonctionne grâce à des robots d’indexation (crawlers) qui parcourent le Web et téléchargent toutes les informations publiquement accessibles1. Ces robots collectent :

  • Les pages HTML
  • Les images
  • Les feuilles de style
  • Les scripts
  • Les fichiers multimédias

Les données sont stockées avec des URLs horodatées permettant de retrouver les versions exactes des pages à des moments précis1.

Fréquence d’archivage

La fréquence de capture varie selon les sites web. Les sites inclus dans les « Worldwide Web Crawls » sont archivés une fois par exploration, qui peut prendre des mois ou des années à compléter1.

Évolution et Croissance

Le Wayback Machine connaît une croissance impressionnante :

Année Pages archivées
2004 30 milliards1
2009 38,2 milliards1
2013 373 milliards1
2016 459 milliards1
2020 405 milliards1
2024 866 milliards1

Aujourd’hui, le Wayback Machine préserve plus de 916 milliards de pages web et plus de 100 pétaoctets de données1.

Financement et Modèle Économique

Statut et Financement

L’Internet Archive est une organisation à but non lucratif 501(c)(3) dont le numéro d’identification fiscale est 94-324276756. Le service est entièrement gratuit pour les utilisateurs2.

Sources de financement principales :

  • Dons individuels de particuliers6
  • Dons en nature d’organisations6
  • Subventions gouvernementales et privées6
  • Services de crawling contractuels3
  • Partenariats avec diverses institutions6

Budget annuel

En 2019, l’Internet Archive avait un budget annuel de 37 millions de dollars 3. Selon certaines estimations, le chiffre d’affaires pourrait atteindre 75 millions de dollars annuels7.

Les revenus proviennent de :

  • Services de crawling web
  • Partenariats diversifiés
  • Subventions
  • Dons
  • La Fondation Kahle-Austin3

Coûts opérationnels

L’organisation emploie environ 150 personnes dans le monde8, ce qui représente un effectif relativement réduit pour l’un des 300 sites web les plus visités au monde8.

Données Sauvegardées et Limitations

Types de données préservées

Le Wayback Machine archive principalement :

  • Pages web HTML publiquement accessibles
  • Images et ressources multimédias
  • Feuilles de style CSS
  • Scripts JavaScript
  • Fichiers PDF et documents
  • Métadonnées sur les ressources collectées9

Données NON sauvegardées

Plusieurs types de contenu ne sont jamais archivés :

  • Pages nécessitant une connexion (login/password)10
  • Contenu derrière des formulaires (Deep Web)9
  • Pages sur serveurs sécurisés avec restrictions SSL11
  • Contenu dynamique généré par bases de données9
  • Pages bloquées par robots.txt 1213
  • Contenus Flash (souvent non fonctionnels)14

Limitations d’accès

  • Taille des fichiers : Limitation historique à 100 MB pour certains types de fichiers15
  • Taux de requête : Maximum 15 requêtes par minute depuis novembre 201916
  • Exclusions robots.txt : Respect des directives d’exclusion13
  • Demandes de retrait : Possibilité pour les propriétaires de sites de demander la suppression17

Comment Soumettre des Pages à Archiver

Méthode 1 : Save Page Now

La façon la plus simple de soumettre une page :

  1. Aller sur https://web.archive.org/[11](https://help.archive.org/help/save-pages-in-the-wayback-machine/)
  2. Saisir l’URL dans le champ « Save Page Now »
  3. Appuyer sur le bouton pour lancer l’archivage11

Méthode 2 : Extension de navigateur

L’extension officielle Wayback Machine permet de :

  • Sauvegarder la page actuelle d’un clic
  • Activer la sauvegarde automatique
  • Sauvegarder lors de la mise en favori11

Méthode 3 : Compte utilisateur

Avec un compte gratuit, vous pouvez :

  • Archiver les liens sortants de la page
  • Recevoir un rapport par courriel
  • Télécharger les captures au format WACZ18

Méthode 4 : Archive Team

L’Archive Team est un groupe de bénévoles qui sauvegarde des sites menacés de disparition19. Vous pouvez :

  • Rejoindre leurs projets de sauvegarde
  • Utiliser leurs outils automatisés
  • Contribuer à leurs efforts collaboratifs19

Personnes Clés et Équipe

Fondateurs

  • Brewster Kahle : Fondateur de l’Internet Archive et visionnaire du projet13
  • Bruce Gilliat : Co-fondateur qui a participé au développement initial1

Équipe actuelle

L’Internet Archive emploie environ 150 personnes réparties dans le monde8, incluant :

  • Ingénieurs et développeurs
  • Archivistes et bibliothécaires
  • Spécialistes en numérisation
  • Personnel de maintenance des centres de données

L’organisation privilégie une mission avant le profit, ce qui lui permet d’attirer des talents motivés par la préservation du patrimoine numérique8.

Conclusion

Le Wayback Machine représente un pilier fondamental de la préservation numérique mondiale. Créé par des visionnaires en 1996, il offre gratuitement l’accès à plus de 916 milliards de pages web historiques. Bien que financé principalement par des dons et subventions, il demeure accessible à tous et continue d’évoluer pour répondre aux défis de la préservation numérique. Sa capacité à capturer et préserver l’histoire du web en fait un outil indispensable pour les chercheurs, journalistes, et citoyens du monde entier qui souhaitent comprendre l’évolution de notre patrimoine numérique.

  1. Wayback Machine - Wikipedia
  2. Wayback Machine, la mémoire d’internet
  3. Internet Archive - Wikipedia
  4. The Wayback Machine's First Crawl 1996 : Internet Archive : Free Download, Borrow, and Streaming : Internet Archive
  5. https://help.archive.org/help/are-my-donations-tax-deductible/
  6. https://help.archive.org/help/internet-archive-general-information/
  7. https://help.archive.org/help/how-do-i-donate-to-the-internet-archive/
  8. https://blog.archive.org/donation-faqs/
  9. https://en.wikipedia.org/wiki/Web_archiving
  10. https://www.tweeteraser.com/pt/resources/how-to-use-the-wayback-machine-an-archive-of-web-pages/
  11. https://help.archive.org/help/save-pages-in-the-wayback-machine/
  12. https://blog.reputationx.com/block-wayback-machine
  13. https://support.archive-it.org/hc/en-us/articles/208001096-Robots-txt-exclusions-and-how-they-can-impact-your-web-archives
  14. https://www.uol.com.br/tilt/noticias/redacao/2025/04/29/como-acessar-uma-pagina-da-internet-que-saiu-do-ar.htm
  15. https://archive.org/post/1022126/download-limit-wayback-machine
  16. https://stackoverflow.com/questions/77986991/errno-111-connection-refused-from-web-archive-org
  17. https://blog.archive.org/2017/04/17/robots-txt-meant-for-search-engines-dont-work-well-for-web-archives/
  18. https://gijn.org/resource/tips-for-using-the-internet-archives-wayback-machine-in-your-next-investigation/
  19. https://wiki.archiveteam.org/index.php/Projects
  20. https://chromewebstore.google.com/detail/wayback-machine/fpnmgdkabkmnadcjpehmlllkndpkmiak
  21. https://www.youtube.com/watch?v=W1HL9uw6Axg
  22. https://gclibrary.commons.gc.cuny.edu/event/brewster-kahle-founder-of-the-internet-archive/
  23. https://www.verifact.com.br/wayback-machine-como-prova/
  24. http://wayback.archive.org
  25. https://simple.wikipedia.org/wiki/Internet_Archive
  26. https://pt.wikipedia.org/wiki/Wayback_Machine
  27. https://help.archive.org/help/using-the-wayback-machine/
  28. https://pt.wikipedia.org/wiki/Internet_Archive
  29. http://web.archive.org
  30. http://wayback.archive.org/web/*/037758.com
  31. https://httparchive.org/about
  32. https://bibliotecas.ufu.br/portal-da-pesquisa/links-especializados/internet-archive-wayback-machine
  33. https://archive.org/web/web-advancedsearch.php
  34. https://archive.org/details/lesfondateursdud00avriuoft
  35. https://play.google.com/store/apps/details?id=com.internetarchive.waybackmachine
  36. https://archive.org/search.php
  37. https://law.duke.edu/sites/default/files/news/porcaro-chronicle-article.pdf
  38. https://futurism.com/elon-musk-cuts-funding-for-internet-archive
  39. https://projects.propublica.org/nonprofits/organizations/943242767
  40. https://forum.hardware.com.br/digitais-bibliotecas/1550793
  41. https://www.charitynavigator.org/ein/943242767
  42. https://archive.org/details/manualzilla-id-6490663
  43. https://www.guidestar.org/profile/94-3242767
  44. https://archive.org/donate
  45. https://www.philanthropy.com/article/the-internet-archive-is-a-cautionary-tale-for-growing-nonprofits
  46. https://archive.org/details/finance0000unse
  47. https://archive.org
  48. https://www.ipburger.com/fr/blog/scrape-data-from-wayback-machine/
  49. https://stackoverflow.com/questions/36429376/blocking-wayback-machine-with-robots-txt-only-works-for-www-domain-com-and-not-f
  50. https://github.com/overcast07/wayback-machine-spn-scripts
  51. https://www.tudocelular.com/seguranca/noticias/n227244/wayback-machine-entenda-ciberataque-que-expos-dados-e-tirou-site-do-ar--detetive-tc.html
  52. https://news.ycombinator.com/item?id=31040524
  53. https://www.youtube.com/watch?v=iNGtfOh-Ozk
  54. https://web.archive.org/save/
  55. https://www.reddit.com/r/WaybackMachine/comments/1iogdoh/how_to_save_a_website_on_the_wayback_machine/
  56. https://www.youtube.com/watch?v=bNt4TsUB5AI
  57. https://www.reddit.com/r/internetarchive/comments/1jfx6ct/are_there_reasons_websites_can_be_excluded_from/
  58. https://www.godaddy.com/fr/help/quest-ce-quune-sauvegarde-de-site-web-20318
  59. https://en.wikipedia.org/wiki/Archive_site
  60. https://www.hostinger.com/fr/tutoriels/sauvegarder-site
  61. https://www.jobrouter.com/en/digital-archive-1/
  62. https://docs.plesk.com/fr-FR/obsidian/reseller-guide/gérer-des-sites-web/sauvegarder-et-restaurer-les-sites-web/sauvegarder-les-données/sauvegarder-le-compte-et-les-sites-web.65199/
  63. https://github.com/hartator/wayback-machine-downloader/issues/281
  64. https://blog.lws-hosting.com/hebergement-mutualise/pourquoi-et-quelles-sont-les-options-pour-sauvegarder-un-site-internet/
  65. https://www.veritas.com/blogs/3-types-of-archive-whats-right-for-you
  66. https://www.dropmysite.com/fr/features
  67. https://www.reddit.com/r/WaybackMachine/comments/10krbq0/is_there_any_way_to_go_further_into_results_for/
  68. https://www2.archivists.org/usingarchives/typesofarchives
  69. https://www.savbox.fr/comment-faire-sauvegarde-ligne-toutes-donnees-ordinateur/
  70. https://archive.org/post/398124/the-2-gb-limit
  71. https://aws.amazon.com/fr/what-is/data-backup/
  72. https://archive.org/details/LimiteMrioPeixoto1931RioDeJaneiroDrama
  73. https://www.reddit.com/r/WaybackMachine/comments/smlest/wayback_machine_url_receptive_to_percent_encoding/
  74. https://eturecup.org/rejoins-la-team-benevole/
  75. https://repub.eur.nl/pub/133477/Navarrete-Crowdsourcing-Digital-Heritage-2020.pdf
  76. https://actume.org/en/tag/benevolat/
  77. https://startwords.cdh.princeton.edu/issues/2/datas-destinations/
  78. https://en.wikipedia.org/wiki/Help:Using_the_Wayback_Machine
  79. https://21-croix-rouge.fr/team/
  80. https://www.ala.org/acrl/publications/keeping_up_with/cultural_heritage_crowdsourcing
  81. https://pt.wikipedia.org/wiki/Ajuda:Usando_o_Wayback_Machine
  82. https://archive.org/details/crowdsourcingwhy0000howe
  83. https://commons.wikimedia.org/wiki/Commons:Volunteer_Response_Team/Noticeboard/archive/2017
  84. https://archive.org/details/crowdsourcinghow0000howe
  85. https://tourneedescantons.com/team/
  86. https://en.wikipedia.org/wiki/List_of_crowdsourcing_projects
  87. https://github.com/archiveteam
  88. https://growjo.com/company/Internet_Archive
  89. https://blog.archive.org/2020/11/16/where-your-donation-goes/
  90. https://www.archives.gov/files/about/plans-reports/performance-budget/2024-nara-congressional-justification.pdf
  91. https://help.archive.org/help/where-does-my-donation-go/
  92. https://news.ycombinator.com/item?id=39476564
  93. https://www.linkedin.com/pulse/global-internet-archive-tool-market-cjuwf/
  94. https://help.archive.org/help/what-payment-methods-do-you-accept/
  95. https://www.niemanlab.org/2015/01/internet-archive-hopes-to-boost-its-collections-through-funding-from-the-knight-news-challenge/
  96. https://www.reddit.com/r/DataHoarder/comments/1cu79ke/the_archiveteam_has_a_cost_shameboard_of_the_top/
  97. https://archive.org/details/11240108-bfc
  98. https://archive.org/donate/?origin=wbwww-CalndrDonateButton
  99. https://donorly.com/thedonorlyblog/2017/9/25/creative-research-tools-the-wayback-machine
  100. https://www.bbc.com/future/article/20240912-the-archivists-battling-to-save-the-internet
  101. https://help.archive.org/help/category/donations-2/charges-refunds/