Les sites The Internet Archive et Alexa Internet (une division de Amazon.com) ont lancé récemment un service gratuit qui s'intitule The Wayback Machine, littéralement une machine à voyager dans le temps sur le Web.
Il s'agit d'une archive en ligne de plus de 10 milliards de pages Web débutant en 1996. Les utilisateurs du site entrent simplement le URL du site qu'ils recherchent, et l'outil propose les pages contenues dans l'archive par ordre chronologique, permettant ainsi de suivre l'évolution d'un site et, par extension, du Web lui-même (ie cette première version de la page d'accueil de Canoë, datant du 27 novembre 1999).
Selon Paul Grabowicz, vice-doyen des Hautes études en journalisme de l'Université de Californie à Berkeley, le site «préserve une copie de choses qui autrement disparaissent littéralement, ce qui est d'ailleurs un des aspects les plus frustrants du Web. Pour les journalistes, c'est un peu l'équivalent de pouvoir consulter sur microfilm de vieilles éditions des journaux.»
Selon Brewster Kahle, fondateur de Internet Archive, la durée de vie moyenne d'une page Web est de 100 jours et «la plupart des meilleures pages Web ne sont désormais plus accessibles».
The Internet Archive contient présentement plus de 100 terabytes de données et augmente d'environ 12 terabytes par mois. Pour colliger ces données, des robots Web parcourent Internet à tous les deux mois pour y prendre des «polaroids» des pages qu'il contient. Lors d'événements importants, les sites sur un sujet donné (pensez 11 septembre, présidentielles américaines de 2000, etc.) sont visités quotidiennement.
Bien entendu, toutes les pages du Net ne se retrouvent pas ainsi archivées puisque certains sites ou pages sont protégés par des mots de passe ou des restrictions d'accès. Il est de plus possible de s'exclure de cette archive en incluant ce code dans la balise Méta d'une page.
Ce projet est financé par la Library of Congress, la National Science Foundation, la Smithsonian Institution et Compaq.