学校要求的,用于毕业的,不少于 5000 字的翻译。多次搜索和挑选,最终选择了这篇 How Google Finds Your Needle in the Web’s Haystack(Google 如何在网络的干草堆中找到你的针)。因为对 Google 的算法感兴趣,跟数学有关,而文中的矩阵运算又不难。由于时间不是很多,后面的比较快,翻译得不怎么好。原文
因为太长,而且很多公式,一个个贴图麻烦,所以这里只有少部分内容,制作了一个全文的 pdf,下载
大多数的搜索引擎,包括 Google,不断地运行着取回来自网络的页面,索引每份文件中的单词,并以一种高效的格式储存这份数据的一支电脑程序的队伍。每当用户使用一个搜索短语,例如“搜索引擎”,请求一次网络搜索,搜索引擎找出网络上含有搜索短语中单词的所有网页。(也许相关的信息,如单词“搜索与“引擎”之间的距离也会被注意到。)现在的问题是:Google现在宣称索引了 250 亿张网页。网页中大概 95% 的文字仅仅由10,000 个单词写作而成。这意味着,对大部分搜索引擎,将会有巨大数量的页面包含搜寻短语中的单词。需要一种根据符合搜索条件的页面的重要性排名的方法,使网页能够按照最重要的页面排在列表的最上面的规则排列。
Google 的 PageRank 算法评定网页重要性时,没有基于内容的人工评估。事实上,Google 觉得它的服务价值很大程度上在于它对搜索查询提供无偏见结果的能力;Google 宣称:“我们软件的核心是 PageRank。”我们将会看到,诀窍是使网络自身根据页面的重要性排名。
谁重要
由 PageRank 的创造者 Sergey Brin 和 Lawrence Page 提出的一个基本想法是:页面的重要性由链接至它的页面数量以及这些页面的重要性决定。我们将会赋予每个网页P一个度量其重要性的 I(P),叫做该页面的 PageRank。
这里是 PageRank 如何产生的。设页面 Pj 有 lj 个链接。如果其中有一个链接指向页面 Pi,则 Pj 会传递它重要性的 1/lj 给 Pi。Pi 的重要性排名则是所有链接接到它的页面贡献值之和。也就是,如果我们用 Bi 表示链接到 Pi 的页面集合,则

这可能会让你想起鸡和蛋:要决定一个页面的重要性,我们需要先知道所有链接到它的页面的重要性。然而,我们可以把这个问题转换为一个更加数学化相似的问题。
……(太多了懒得复制,而且我没有使用所见即所得编辑器,逐个标签地控制格式也是件很麻烦的事,想看全文的请下载 pdf 或到源地址读原文)
0 Responses to “关于Google的PageRank的一篇翻译”