使用互联网档案馆

来自掘客

本教程中提到的网站/应用需要翻墙才能访问,请自备梯子 :)

说在前面

互联网档案馆是一个创立于1996年的非盈利性的互联网多媒体资料备份网站,该网站备份互联网上的网页、图片、视频、书籍、音频和软件。

互联网档案馆的明网网址为archive.org,暗网网址为archivebyd3rzt3ehjpm4c3bjky xv3hjleiytnvxcn7x32psn2kxcuid.onion

注意在浏览非自己存档的或可能不安全的存档页面时请务必使用Tor Browser,因为存档中可能包含曾经被恶意篡改的恶意网页。

为了最大化自己的安全,存档时也应尽可能使用Tor Browser

网页备份

互联网档案馆最广为人知的用途就是备份网页了,由于创立于1996年,互联网档案馆几乎备份了整个Web2.0时代的网页,比如你可以看到2005年的Google首页或是同一时期的豆瓣网

互联网档案馆提供的查看网页备份的功能名为“时光机”,下文将会教你如何使用“时光机”查看和备份网页。

查看网页备份

1.访问web.archive.org进入时光机首页,要想查看一个网页的备份,只需要在页面中的那个输入框中输入网址即可。

输入网址的时候加不加http协议头和www.其实都没关系。

2.在时间轴上点击你想看的年份,这里很直观的展现了收录网页的数量。

3.在日历上选择你想看的日期。备份以“小圈圈”的形式展现在日历上,你可能注意到“小圈圈”的大小和颜色有不同。

“小圈圈”越大,代表这一天里该网页的快照越多,鼠标悬浮在上面可以看到具体的快照时间点和数量,点击一个时间点可以查看快照。


“小圈圈”的不同颜色代表不同的含义。

蓝色表示爬虫针对相关捕获获取的 Web 服务器结果代码为 2nn(良好);

绿色表示爬虫获得状态码3nn(重定向);

橙色表示爬网程序收到状态代码 4nn(客户端错误);

红色表示爬网程序看到状态代码 5nn(服务器错误)。

大部分时候,蓝色才是你希望看到的。


4.现在你可以看到网页的备份了,如果你想要查看完整的网页而不是被工具栏遮挡的网站的话,可以点右上角的取消按钮,这会暂时隐藏工具栏。

该页面显示的网页并不是一个静态的图像,而是完整的HTML,因此你可以和网页中的元素进行交互,例如点击链接、播放视频、下载文件。

值得注意的是,网页中链接指向的另一个网页的快照时间可能有所不同。

备份网页

时光机可以主动备份网页也可以被动备份,主动备份就是指时光机会像搜索引擎爬虫一样爬取页面进行备份这通常是自动的,并且会爬取一个网站的许多页面。被动备份就是你可以主动要求时光机备份网页,时光机会立即备份,但只会备份一页,不会向下挖掘。

你可以在时光机的首页(web.archive.org)找到“Save Page Now”(立即备份网页),输入你想要备份的网址,然后就可以让时光机开始备份了。

删除备份

当你想要查看某个网站的备份时,发现时光机提示网址被排除,这有可能是因为以下的某个原因:

  • 网站被站长要求移除。一些站长的网站可能有些黑历史,因此他们希望将自己的网站从时光机移除。
  • 网站违反互联网档案馆的规定。 比如某人肉搜索维基


那这些被从时光机移除的网站还有别的方法查看备份吗?当然有,网络上有许多其他的网站备份服务,比如https://archive.md/