×提示

您已经赞过此文了。

确定

Google的开始--剖析大规模超文本网络搜索引擎 (一)

译者: 雷声大雨点大
发表时间:2007-02-06浏览量:9639评论数:8挑错数:2
译者:本文是谷歌创始人Sergey和Larry在斯坦福大学计算机系读博士时的一篇论文。发表于1997年。Google的一切应该都起源与此。深入了解Google,深入了解互联网的未来,当读此文。我把全文分成6个部分,推荐到这里。有兴趣的朋友可以一起来翻译。 我没有发现本文的完整中译,只找到了这个片段,由xfygx朋友翻译了本文的第一部分,其他似乎没有全部完成。 所以,这部分译文是xfygx原作,而非我的翻译!我只是就自己的理解做了些改动。如果有幸xfygx朋友能看到我在他/她博客的留言,来我们译言,我非常希望能把本文转到他/她名下。 另外,如果您发现已有其他出色的完整中译版了,请告诉我们。免得译者们重复劳动。 摘要 在本文中,我们将介绍Google,一个充分利用超文本文件(译者:即HTML文件)结构进行搜索的大规模搜索引擎的原.....
译者:本文是谷歌创始人Sergey和Larry在斯坦福大学计算机系读博士时的一篇论文。发表于1997年。Google的一切应该都起源与此。深入了解Google,深入了解互联网的未来,当读此文。我把全文分成6个部分,推荐到这里。有兴趣的朋友可以一起来翻译。

我没有发现本文的完整中译,只找到了这个片段,由xfygx朋友翻译了本文的第一部分,其他似乎没有全部完成。

所以,这部分译文是xfygx原作,而非我的翻译!我只是就自己的理解做了些改动。如果有幸xfygx朋友能看到我在他/她博客的留言,来我们译言,我非常希望能把本文转到他/她名下。

另外,如果您发现已有其他出色的完整中译版了,请告诉我们。免得译者们重复劳动。

摘要

在本文中,我们将介绍Google,一个充分利用超文本文件(译者:即HTML文件)结构进行搜索的大规模搜索引擎的原型。Google可以有效地对互联网(Web)资源进行爬行搜索(crawl)〔注 1〕和索引,比目前已经存在的系统有更令人满意的搜索结果。该原型的数据库包括2400万页面的全文和之间的链接,可通过http://google.stanford.edu/访 问。

设计搜索引擎是一项富有挑战的任务。搜索引擎为数以亿计的网页建立索引,而这些网页包含了同样数量级的不同词语。每天响应数千万计的查询请求。尽 管大规模网络搜索引擎是很重要的,但在这个领域很少有理论研究。更由于技术的飞速发展和互联网的普及,今天这样的搜索引擎和三年前的搜索引擎会是非常不同的。本文对我们的大规模搜索引擎进行了深入的讨论,这也是目前为止我们所知道的公开发表的第一篇如此详细的讨论。

除了如何把传统的搜索技术扩展到前所未有的海量数据,我们还面临这样一个新的技术挑战:如何使用超文本文件所蕴含的扩展 信息以产生更好的搜索结果。本文讨论了如何建立一个实用的大规模系统,以利用超文本文件中的额外信息。另外,我们也关注了如何有效处理超文 本文件不可控的问题,因为人们可以随意发表超文 本文件(译者:如个人网页)。

关键词

World Wide Web, Search Engines, Information retrieval, PageRank, Google

1.简介

互联网对信息检索(Information Retrieval)领域产生了新的挑战。网上的信息数量是在不断的快速增长,同时有越来越多对网络搜索毫无经验的新用户上网。在网上冲浪时,人们一般会利用网络的“链接图”(译者:想像每个网页是一个点,网页之间的链接是从一个点指向另一个点的边,这就构成了一张有向图。)。而这经常从一个人工维护的网址列表(如Yahoo!)或是一 个搜索引擎开始。人工维护的列表有效覆盖了流行的主题,但这些是主观的,花费高昂,更新缓慢,并且不能覆盖全部的主题,特别是冷僻的主题。依赖关键词匹配的自动搜索引擎通常返回太多 的低质量的匹配结果。更糟的是,一些广告商通过某些方式误导搜索引擎以试图 吸引人们的注意力。我们建立了一个大规模搜索引擎来解决已存在系统的许多问题。它充分利用超文本文件所表达额外信息来提供更高质量的搜索结 果。我们选择这个名字,Google,是因为它是googol(表示10的100次方)这个词的常用拼写法。而这个词的意义与我们建立这个大规模搜索引擎的目标是 非常一致的。

1.1 互联网搜索引擎 -- 扩展:1994 - 2000

搜索引擎技术必须极大规模地扩展才能赶上互联网的发展步伐。在1994年,最早的 web搜索引擎之一,World Wide Web Worm(WWWW)  [McBryan 94]已经索引了11万web页面和文档。到了1997年的11月,顶级的搜索引擎声称的索引的页面数量从2百万(WebCrawler) 到10亿(根据 Search Engine Watch)。可以想像到2000年,索引全部的Web将需要包含超过十亿的文档。同时,搜索引擎需要处理的查询请求也会有不可想像的增长。在1994年 3月到4月间,World Wide Web Worm平均每天收到1500个查询。而到了1997年的11月,Altavista声称 它平均每天要处理大约2千万的查询。随着web的用户和使用搜 索引擎的自动系统数量的增加,到2000年,顶级的搜索引擎每天将会需要处理数以亿计的查询。我们的系统的目标是解决这些由搜索引擎大规模扩展所带来的问题,包括质量和可扩展性。

1.2 Google:与Web同步发展

即便建 立一个适应今天互联网信息量的搜索引擎已经面临着许多的挑战。我们需要使用快速爬行搜索技术收集web文档并保持它们的及时更新;我们需要可以有效存储文档索 引和文档自身(这不是必须的)的海量存储空间;我们需要可以有效处理数百GB数据的索引系统;我们还需要可以在一秒内处理成百上千的查询的计算能力。

这些 任务都随着Web的增长而愈发变的困难。然而,硬件性能的提高和费用的降低可以部分的抵消这些困难。但某些方面是个例外,如硬盘数据读取的速度和操作系统的鲁棒性(译者:可以通俗地理解为稳定性)都没有显著提高。在设计Google的过程中,我们已经考虑到了Web 和技术这两方面的发展。Google被设计为可以适应极大数据量。它有效使用存储空间来保存索引。它的数据结构被优化以便可以快速和有效的存取数据(见 4.2节)。另外,我们认为,相对于文本以及HTML文档数量的增长,索引和存储花费它们的费用最终会下降(见附录B)。因此,Google这样的集中式(译者:而非分布到许多远程计算机,如P2P系统)搜索系统随着互联网的发展而扩容就成为可能。

1.3 设计目标

1.3.1 提高搜索质量

我 们的主要目标是提高web搜索引擎的质量。在1994年,一些人认为用一个完整的搜索索引就可以很容易地找到任何信息。在1994年互联网最佳--导航员上,有这样的话"最好的导航服务应该是使用户可以很容易的在Web上找到任何信息"。然而,到1997,这个任务仍是非常困难的。在 最近使用搜索引擎的用户都可以很容易的证实索引的完整性并不是决定搜索结果质量的唯一因素。"垃圾结果" 经常会使用户找不到真正感兴趣的结果。实际上,到1997年的 十一月,四个顶级搜索引擎中,仅仅只有一个可以在搜索时发现它自身(对查询自己名字的请求,返回结果中将自己排在结果中的前十名)。产生这个问题的主要原因之 一是在这些搜索引擎的索引库中文档的数量成数量级地增长,而用户看这么多文档的能力却不可能这样增长。用户往往只看结果中的前数十个。因此,随着文档规模的增加,我们需要工 具来提高查准率(在前十个结果中返回相关内容)。实际上,我们说的"相关"是指最好的那一份,因为可能会有几万份“稍微“相关的文档。查准率在我们的眼中是如此的重要,以至于我们甚至愿意为此损失一些查 全率。最近的研究显示,超文本文件中的信息可以有助于提高搜索和其他应用[Marchiori 97] [Spertus 97] [Weiss 96] [Kleinberg 98]。特别是网页链接的结构,以及链接本身的文字,为相关性判定和进行质量的筛选提供了许多信息。Google使用了网页链接结构和锚(译者:HTML中的语法,表示一个指向网页的链接)链接中的文字。(详见2.1和2.2节)

1.3.2 搜索引擎的理论研究

随 着WEB的巨大发展,互联网也越来越商业化。在1993年,只有1.5%的web服务器是.com的域名。而到了1997年,这个数字已经变成 了60%。同时,搜索引擎的从学术研究变成了商业性质。到目前为止,大多数的搜索引擎的开发都是由公司来进行的,很少有详细的技术资料被公开。 这导致了这项技术带有了许多神秘的色彩,并且是以广告为主(见附录A)。对于Google,我们有一个非常重要的目标就是推动搜索引擎在学术界的发展和理解。

另外的重要的设计目 标是建立一个可以让一定数量的用户实际使用的系统。用户使用对我们来说非常重要,因为我们认为真正利用了现代互联网系统的海量数据的研究才是最有价值的。比如现在每天有数千万用户查询,但由于这些数据被认为具有商业价值,很难拿来作学术研究。

我们最终的设计目标是建立一个可以支持在大规模互联网数据上进行 研究活动的系统构架。为了支持研究活动,Google存储了全部的在爬行搜索中发现的实际数据,并压缩起来。主要的目标之一是建立一个环境,在这个环境中,研究者可以很快的利用这个难得的系统,处理web数据,产生令人感兴趣的结果。在短时间内系统就被建立起来,已经有一些论文使用了通过Google生成的数据库。还有许多其它的项目 在进行之中。另外的目标是我们希望建立一个类似空间站的环境,使得研究者,甚至是学生可以在我们的大规模web数据上进行实验。


〔注 1〕爬行搜索,Crawl,是指搜索引擎会跟随网页间的链接从一个网页“爬行”到下一个网页。而对每一个网页的分析和记录,或者这个过程的结果,则称为“索引”。
相关译文来自无觅插件
蜜桃
2007-02-06 15:43
支持!继续!
lxke2000
2007-02-07 09:55
很不错的!期待更好的作品!
山居笔记
2007-10-04 12:08
支持!
msmouse
2008-08-29 19:37
“鲁棒性”不是个好翻译,仿佛改成“健壮性”更好
mr6
2008-09-12 15:13
11年前的文章在现在来说。有用吗?
domainwiki
2008-09-28 13:25
蓬勃
----
域名百科:http://www.domainwiki.org
寒光剑
2008-12-07 23:57
可以看看这几个地方:
http://www.imapm.com
http://www.gongyejie.com
http://www.bbshouji.com
aress
2009-10-25 19:41
mr6 童生 | 2008年09月12日

11年前的文章在现在来说。有用吗?
你看它有用么
评论:
  • 0
  • 还没有人赞过这篇文章
译者信息
版权声明:
本译文仅用于学习和交流目的。
非商业转载请注明译者、出处,并保留文章在译言的完整链接。