搜索
NFT元宇宙Web3
近期热门

为互联网存档而战的故事:来认识下互联网的首席图书管理员吧

Founder
为互联网存档而战的故事:来认识下互联网的首席图书管理员吧

1996年的一天,布Brewster Kahle成立了两个独立但密切相关的组织。第一个组织后来让他变得非常富有,而第二个组织没有为他赚到一毛钱。

Alexa Internet(经常与语音助手Alexa混淆)是一项服务,它抓取网络上的元数据和其他信息,然后通过浏览器提供给人们,帮助人们理解网站上的内容。

几年后,该公司在一笔价值2.5亿美元的交易中被亚马逊收购,并转化为一项搜索引擎服务。然而,尽管所有权发生了变化,Alexa Internet继续向Kahle创立的第二个组织提供它所收集的数据:一个名为互联网档案的非营利组织。

Kahle的愿景是,互联网档案馆将成为现代版的亚历山大图书馆,并提供 “对所有知识的普遍访问”,他告诉媒体。

这个由他主持的数字图书馆现在拥有数十亿的存档网页(可通过名为Wayback Machine的服务免费访问)和数百万的数字化书籍。

今年早些时候,档案馆庆祝了具有里程碑意义的25周年,但卡勒对其范围仍然不满意。该项目还面临着与以往任何时候都不同的威胁。

为互联网存档而战的故事:来认识下互联网的首席图书管理员吧

互联网档案馆的创始人布鲁斯特-卡勒(图片来源:布鲁斯特-卡勒)。

早期的品味

卡勒对互联网和信息交流的关注可以追溯到麻省理工学院(MIT),他在1980年代在那里攻读计算机科学学位。

在麻省理工学院,卡勒和他的同学们有机会进入高级研究计划机构网络(通常称为ARPANET),这是今天互联网的前身,也是第一封电子邮件的来源。

ARPANET允许计算机通过电话线相互通信,使用的是一种叫做分组交换的技术,即数据被分解成小块,通过网络发射,并在目的地重新组合。ARPANET迅速成为计算和网络领域创新的温床。

“Kahle说:”我们使用ARPANET内网来处理几乎所有的事情。”而且我们已经见证了一些问题,这些问题最终将在未来40年里发挥出来。”

他描述了一个实验,即创建一个包括所有ARPANET用户的邮件列表。这个想法是想看看如果不同的虚拟社区(当时由一系列较小的邮件列表和Usenet小组代表)被扔进一个空间会发生什么。

“那是混乱、无政府状态和错误的信息–这很可怕!”卡勒带着狡黠的微笑解释说。”我们基本上可以看到地球人语言在我们眼前消亡。

“然而,我们也看到了跨机构和跨世界连接人们的力量,而且摩擦和延迟最小。”

Kahle说,从这个时候开始,构建一个宏大的数字知识库成为他的首要关注点。但他几乎缺乏使之成为可能的所有工具。

离开麻省理工学院后,他将自己的雄心壮志投入到一家名为Thinking Machines的公司,该公司旨在将并行计算架构的研究商业化。在这里,卡勒是一台名为 “连接机”(当时世界上最快的计算机)的超级计算机的首席工程师,后来他用它设计了一种搜索引擎。

为互联网存档而战的故事:来认识下互联网的首席图书管理员吧

布鲁斯特-卡勒(右二)和他的团队,在 “连接机器-1 “的原型旁边。(图片来源: Tamiko Thiel)

下一步是建立一个可用于传播数字信息的网络出版系统。为了填补这一空白,卡勒开发了WAIS(广域信息服务器的简称),这是一个开放的系统,被《纽约时报》和大英百科全书等公司采用,它们希望在即将到来的数字时代控制其内容的传播。必须记住,所有这些都发生在互联网还没有出现的时候。

“我认为我们被视为有远见的人,但我们的目标始终是建立数字亚历山大图书馆,”Kahle告诉我们。”这并不是一个新的概念;已经有了《我们可以思考》,这是范内瓦-布什在1945年发表的一篇重要论文,泰德-尼尔森已经在做超文本和Xanadu项目。

“在20世纪80年代,“图书馆”是我认为已经承诺的东西,只是还没有兑现。所以我开始建立它。”

亚历山大图书馆2.0

自成立以来,互联网档案馆已经积累了一个令人印象深刻的70PB(70000兆字节)的内容库,包括6350亿个网页,但也有3400万本书,1400万个音频记录等等。

这个内容宝库储存在互联网档案馆总部的高容量硬盘中,但也在荷兰和(作为一种象征性的姿态)埃及的亚历山大进行了部分备份。

到目前为止,这个非营利组织已经保存了1亿多人的著作,卡勒有野心将这个数字增加10倍。但是,由于现在网上发表的内容比档案馆希望的要多,核心问题变成了:什么是值得保存的?

“互联网档案馆以搜索引擎的方式抓取万维网,”Kahle解释说。”为了弄清要抓取的内容,我们与数以百计的图书馆和图书管理员合作,由他们决定哪些内容是重要的,要以何种频率抓取。这些人在他们擅长的主题上建立了收藏。”

每天大约有3000次抓取活动同时进行,每一次都有不同的任务。例如,有些人专门从事新闻、社会媒体或特定地区的工作,有些人则由公众的建议引导,他们提交他们认为值得归档的网页。

这些爬行捕捉了一个主要的网页,但也捕捉了一些子页面,用户可以通过Wayback Machine在这些分支之间进行浏览,创造了一些感觉比静态截图更有活力的东西。

“这是一项由数千人,甚至数十万人进行的大规模工作,以决定什么应该被保存,”Kahle说。”我们对任何能够向我们展示什么值得保存的信号感兴趣。”

除了为后人归档网页,该组织还将其作用视为保护数字证据的工具。例如,它已被记者用来访问个人或公司后来从公共网络上删除的材料。它也是研究网络文化和数字通信演变的学生和学者们的沃土。

然而,保持Wayback Machine的最新数据只是该组织寻求实现其最终目标的一种方式;书籍的数字化是另一个重要方面。

书籍的业务

当被问及互联网档案馆的使命或目的在其四分之一个世纪的历史中是否有所改变时,卡勒回答说 “没有”。但是,虽然核心任务没有改变,但人们使用资源的方式肯定已经发生了变化。

例如,在大流行病期间,学生们被锁在图书馆和学校的教室外,被迫依靠电子学习服务和家长的英勇努力。卡勒说,档案馆看到其数字图书借阅服务的使用量激增,并收到了大量来自图书馆的信息,这些图书馆希望以数字形式借出其藏书。

受此刺激,互联网档案馆推出了国家应急图书馆。通常情况下,该组织每拥有一本实体书就会借出一本数字书(这种做法被称为受控数字借阅),这意味着一本数字书一次只能借给一个人。但在这个紧急计划下,基于等待名单的系统被抛弃了十四个星期之久。

许多学生、教师和其他读者庆祝这一举措,但紧急图书馆却遭到了版权组织的反感,他们认为这是对作者权利的公然侵犯,而这些作者也正因大流行病而挣扎。一个出版商集体(包括企鹅兰登书屋、哈珀-柯林斯、哈切特和威利)也因 “故意大规模侵犯版权 “将互联网档案馆告上法庭。

“出版商声称:”互联网档案馆并不寻求’自由知识’;它寻求破坏精心校准的生态系统,使书籍首先成为可能–并破坏阻碍其发展的版权法。

正如你可能想象的那样,Kahle不同意。”我们已经借阅了十年的书籍。这些出版商争辩说,我们不允许借书–这太过分了,”他一反常态地强硬地说。

“图书馆所做的是购买、保存和借出材料。但这些诉讼代表了对图书馆在数字世界中的核心功能的巨大威胁;出版商说你不能购买、不能保存和不能借出。”

在撰写本报告时,该诉讼正处于取证阶段,进一步的声明将在春季交付。

失去的机会

多年来,互联网档案馆一直由卡勒自己的资金、向图书馆收取的数字化服务费以及公众的捐款共同维持。

然而,随着图书馆的扩大,保持其服务的运作将变得越来越昂贵,除非技术进步能降低数据存储、服务器托管和其他非营利组织所依赖的技术的成本。

尽管卡勒说他的个人财富足以保证互联网档案馆(或至少是它的数据库)的长期存在,但他最近还是发出了捐款呼吁,以帮助对抗正在进行的诉讼,以及其他阻碍信息自由流动的障碍。

“互联网界在建立可靠和负责任的组织来支持数字世界方面做得还不够。而我们从一开始就可以看到危险,”卡勒说,他既指错误信息的危机,也指大科技公司的扼杀。

“如果我们没有取得良好的平衡,我们最终可能会有一个信息环境,在这个环境中,我们阅读的一切都被一小部分公司和政府所监控和审查。我们将失去互联网给予我们的机会”。

为了强调这些问题,互联网档案馆最近推出了Wayforward Machine,这是对Wayback Machine的一种讽刺,承诺让用户 “访问互联网的未来”。

为互联网存档而战的故事:来认识下互联网的首席图书管理员吧

互联网的未来愿景,由Wayforward机器提供。(图片来源:互联网档案馆)

将一个URL输入Wayforward,会产生一个页面,上面贴满了无尽的弹出式窗口,其中一些要求付款或个人信息,而另一些则简单地指出,信息的访问被拒绝。这个信息并不含糊。

“我们不掌握权力的杠杆,但我们经营着一个图书馆。虽然图书馆不能解决所有这些问题,但它是数字生态系统的一个必要组成部分。我们需要图书馆得到支持、使用和捍卫。如果我们不捍卫我们的开放机构,它们就会被压垮,”卡勒说。

“我们可以拥有由利他主义驱动的平台和系统,而不是广告模式。我们可以拥有一个有许多赢家的世界,人们在那里参与、学习并找到新的社区。”

当被问及他是否对实现这一乌托邦式的理想感到乐观时,Kahle点了点头:”但我们需要真正想要它。”

编辑于 2021-12-20 07:05
「 真诚赞赏,手留余香 」
赞赏

发表评论已发布0

手机APP 意见反馈 返回顶部 返回底部