全球旧事资料 分类
谷歌如何从网络的大海里捞到针
DavidAusti

关键词:
谷歌,搜索,随机矩阵,特征值
想象一个含有250亿份文件,却没有集中管理机构和馆员的图书馆,而且任何人都可以在任何时间添加新的文件而不需要通知其他人。一方面你可以确定,这庞大的文件堆中有一份文件含有对你至关重要的信息,而另一方面,你又像我们中的大多数人那样没有耐心,想要在几秒钟之内就找到这条信息。你有什么办法呢?
摆在你面前的这个难题看起来似乎无法解决。而这个文件堆跟万维网(WorldWideWeb)其实相差无几,后者就是一个超大的、高度混乱的以各种形式存放的文件堆。当然,从万维网中找信息我们有办法解决,因为我们对搜索引擎非常熟悉(或许你就是通过搜索找到这篇文章的)。本文将介绍谷歌的网页排序算法(PageRa
kAlgorithm),以及它如何从250亿份网页中捞到与你的搜索条件匹配的结果。它的匹配效果如此之好,以至于“谷歌”(google)今天已经成为一个被广泛使用的动词了。
包括谷歌在内,多数搜索引擎都是不断地运行计算机程序群,来检索网络上的网页、搜索每份文件中的词语并且将相关信息以高效的形式进行存储。每当用户检索一个短语,例如“搜索引擎”,搜索引擎就将找出所有含有被检索短语的网页。(或许,类似“搜索”与“引擎”之间的距离这样的额外信息都被会考虑在内。)但问题是,谷歌现在需要检索250亿个页面,而这些页面上大约95的文本仅由大约一万个单词组成。也就是说,对于大多数搜索而言,将会有超级多的网页含有搜索短语中的单词。我们所需要的其实是这样一种办法,它能够将这些符合搜索条件的网页按照重要程度进行排序,这样才能够将最重要的页面排在最上面。
确定网页重要性的一个方法是使用人为排序。例如,你或许见过这样一些网页,他们包含了大量的链接,后者连接到某个特定兴趣领域的其他资源。假
f定维护这个网页的人是可靠的,那么他推荐的网页在很大程度上就可能有用。当然,这种做法也有其局限性,比如这个列表可能很快就过期了,也可能维护这个列表的人会无意或因某种未知的偏见而遗漏掉一些重要的网页。
谷歌的网页排序算法则不借助人为的内容评估来确定网页的重要性。事实上,谷歌发现,它的服务的价值很大程度上是它能够r
好听全球资料 返回顶部