当前位置:文档之家› The_PageRank_Citation_Ranking_Bringing_Order_to_the_Web中文

The_PageRank_Citation_Ranking_Bringing_Order_to_the_Web中文

The_PageRank_Citation_Ranking_Bringing_Order_to_the_Web中文
The_PageRank_Citation_Ranking_Bringing_Order_to_the_Web中文

PageRank引用排名:使网页更有序

January 29, 1998

摘要:一个网页的重要性是一个内在主观的事情,这取决于读者的兴趣,知识和态度。但仍然有许多是可客观地说一下网页的相对重要性。本文介绍了评级的网页客观和机械的PageRank方法,有效地判断人的兴趣和注意力推荐给他们。

我们已经发现了一些对PageRank的应用除了搜索,其中包括流量估计和用户导航。另外,我们可以生成个性化PageRank的,可以从一个特定的角度创建Web的视图。总的来说,我们的实验与PageRank的建议的网络图的结构是用于各种信息检索任务非常有用的。

1介绍和动机

万维网信息检索带来了许多新的挑战。它是非常巨大的和异构。目前的估计,有超过1.5亿的网页在不到一年的时间增加了一倍。更重要的是,web页面非常多样,从“乔有今天的午餐是什么?“对信息检索期刊。除了这些主要的挑战,搜索引擎在网络上也必须面对没有经验的用户和页面设计来操纵搜索引擎排名的功能。

然而,与“平”的文档集合,万维网超文本,提供了相当大的辅助信息的文本网页,如链接结构和链接文本。在本文中,我们利用网络的链接结构来产生一个全球“重要性”每个Web 页面的排名。这个排名,称为PageRank,帮助搜索引擎和用户快速理解万维网的庞大的异构性的意义。

1.1网页的多样性

虽然已经有大量学术文献引证分析,有许多web页面和学术出版物之间的显著差异。与学术论文严谨了,网页免费扩散质量控制或出版成本。一个简单的程序,可以轻松地创建大量的页面,人为地抬高引用计数。因为Web环境包含利润寻求竞争企业,关注策略发展针对搜索引擎的算法。出于这个原因,任何评价策略项复制网页的特点是容易操作。此外,学术论文是定义良好的工作单元,大致类似的在质量和数量的引用,以及他们的目的一扩展知识的身体。网页不同规模更大比学术论文质量、使用、引用和长度。问一个不起眼的问题随机存档的消息公布一个IBM计算机非常不同于IBM主页。一篇研究关于手机使用的影响司机的注意力是非常不同的从一个广告为特定细胞提供者。用户经历的平均网页质量高于普通网页的质量。这是因为简单的创建和发布web页面的结果在一个大的一部分低质量网页,用户不喜欢阅读。

有许多轴沿网页可能有所区别。在本文中,我们主要是处理——一个网页的整体相对重

要性的近似值。

1.2网页排名

为了测量web页面的相对重要性,我们建议PageRank,方法计算基于web的图形的每个网页排名。PageRank的应用程序涉及搜索、浏览和流量估计。

第2节给出的PageRank的数学描述,并提供了一些直观的理由。在第3节,我们将展示我们如何有效地计算PageRank的为多达5.18亿的超链接。为了测试的PageRank的搜索工具,我们建立了一个名为谷歌(第5小节)网络搜索引擎。我们还证明网页排名如何可以被用作一个浏览援助,在第7.3节。

2一种排序为每一个页面在Web上

2.1相关工作

出现了大量的学术引文分析工作【Gar95】。Goffman【Gof71】日前刊登在科学界的信息流是如何的流行过程一个有趣的理论。

最近有大量的活动如何利用大型超文本链接结构的系统,如web。Pitkow最近完成了他的博士论文“万维网生态特征”(Pit97,PPR96)与各种各样的基于链接分析。讨论聚类方法,考虑结构的联系[WVS + 96]。Spertus[Spe97]讨论链接结构的信息,可以获得各种各样的应用程序。良好的可视化要求添加超文本结构,讨论了[MFH95,MF95]。最近,KleinbergK1e98)开发了一个有趣的模型网络的中心和有关部门(Hubs and Authorities),根据co-citation矩阵的特征向量计算网络。

最后,有兴趣在网上从图书馆社区了解“质量”意味着什么【Til】。

很明显试图标准的引文分析技术应用于网络的超文本引用结构。一个可以简单地认为每一个环节是像一个学术引用。所以,等主要页面https://www.doczj.com/doc/d312210402.html,/将有成千上万的反向链接(或引用)指向它。

这一事实,雅虎的主页有很多反向链接通常意味着它是相当重要的。事实上许多web 搜索引擎使用的反向链接数作为一种倾向他们数据库支持高质量或更重要的页面。然而,简单的反向链接数量在网络上有很多问题。其中的一些问题与网络的特征有关,不存在于正常的学术文献数据库。

2.2 网络链接结构

虽然估计各不相同,当前的图crawlable Web边缘有大约1.5亿节点(页)和17亿边缘(链

接)。每一页有一些数量的链接(outedges)和反向链接(inedges)(参见图1)。我们可以永远不知道我们是否有发现某个特定页面的所有反向链接,但如果我们已经下载了它,我们知道所有的链接。

Web页面的反向链接的数量差异很大。例如,Netscape主页有62804个反向链接在我们当前的数据库相比,大多数页面有几个反向链接。一般来说,高度相关页面更“重要”页面链接。简单的引用计数被用来推测未来的赢家诺贝尔奖(San95〕。网页级别提供了一种更复杂的方法进行引用计数。

网页排名的原因是有趣的是,在许多情况下,简单的引用计数并不符合我们的常识的概念的重要性。例如,如果一个网页链接雅虎主页,它可能只是一个链接但它是非常重要的。这个页面应该排名高于许多页面有联系,从不起眼的地方。网页排名是为了看看好一个近似“重要性”可以从链接结构。

2.3传播的排名通过链接

基于上面的讨论,我们给出下面的PageRank的直观的描述:一个页面排名很高,如果反向链接的排名很高的总和。这包括两种情况下,当一个页面有很多的反向链接,当一个页面有几个高排名的反向链接。

2.4 定义PageRank

设u是一个网页。然后Fu是集合页的出度点,Bu是集合指向到u的网页。让Nu=|Nu|

是从一个链接的数量和设C是一个影响因子,使所有网页的总排名是恒定的,我们首先定义一个简单的排名,R稍微简化版本的网页排名:

这种形式化的一节中的直觉。需要注意的是一个页面的等级划分,其正向链路之间均匀地促进它们所指向的网页的行列。需要注意的是?<1,因为有一些没有正向链接和自己的体重从系统中丢失的页面(见2.7节)。该方程是递归的,但它可以通过启动与任何组行列和迭代计算直到其收敛计算。图2展示的秩从1双页面到另一个的繁殖。图3显示了一组页面一致的稳态解。

换句话说,设A是一个方阵的行和列对应的网页。让A V,V = 1 /NV如果有从一个边缘:和A VW=0,如果没有。如果我们把r作为一个向量在网页,则有R =车。因此,R是A 有着特征值c的特征向量。事实上,我们希望A的主要特征向量这可能是由重复应用A到任何非简并开始向量来计算。

有一个小问题简化的排序功能。考虑两个网页,但没有其他页面。和假设有一些网页指

向其中的一个。然后在迭代此循环将积累等级但是从来没有发布任何等级(因为没有

outedges)。循环形式的陷阱,我们称为下称等级

为了解决下沉等级的这个问题,我们引入一个来源:

定义1 让E(u)一些向量对应的网页排名的一个来源。一组网页是一个赋值,R',到Web页中满足

其中E(u)为载体的一些较对应的秩的源网页(见第6节)。请注意,如果E是所有正,

C必须降低以平衡方程。因此,该技术相当于一个衰减因子。在矩阵表示法我们有R'= C

(AR'+ E)由于|,| R'| |1=1,我们可以重写此为R'= C(A + E×1)R',其中1是由所有的人矢量。因此,R'是(A + E×1)的特征向量。

2.5随机冲浪模型

上面的PageRank的定义在图上随机游动的另一个直观的依据。简化版本对应的随机游走于网络的图形上的站立概率分布。直观地说,这可以看作一个建模“随机冲浪者”。“随机冲浪”只是不断点击链接历届随机的行为。但是,如果一个真正的网络冲浪者不断进入的网页的一个小环,它是不可能的冲浪者将继续在无限循环。相反,冲浪者会跳转到其他页面。附加系数E可以被看作是模拟这种行为的方法:冲浪周期性“厌倦”,并通过E跳转到分布规律的随机任何页面。

到目前为止,我们已经离开e作为一个用户定义的参数。在大多数的测试中,我们让E 是均匀的所有网页与价值。然而,在第6节我们将展示E项的不同的值如何产生“定制化”的网页排名。

2.6 PageRank的计算

PageRank的计算是相当简单的,如果我们忽略规模的问题。令S'是在网页上几乎任何载体(例如E)的PageRank然后可以计算如下:

注意,对d因子增加收敛速度并维持| | IR| | 1.An替代正常化是通过适当的因子乘以R 上。在使用D可能对E的影响小的冲击

2.7悬浮链接

其中一个问题与此模型悬浮的的链接。悬浮链接只是链接指向任何网页,没有外向链接。

它们会影响模型,因为它是不明确,他们的体重应该是分布式的,而且有大量的人。通常,这些晃来晃去的链接只是,我们尚未下载,因为很难获取整个web(在我们目前下载的2400万页,我们尚未下载,因此有着51000000 URL)的页面。因为悬空链接不直接影响其他页面的排名,我们只是把它们从系统中删除,直到所有PageRanks计算。计算所有PageRanks 之后,他们可以添加进来吧,不影响显著。注意到同一页面上的其他链接正常化就被移除的链接将略有变化,但这应该不会有很大的效果。

3实现

作为斯坦福的一部分WebBase项目(PB98),我们已经构建了一个完整的爬行和索引系统当前库的2400万个网页。任何一个网络爬虫需要保持databaseof url,这样就可以在网上发现所有的url。实现网页排名,网络爬虫只是需要建立索引的链接爬行。一个简单的任务,它是简单的,因为它涉及到大量。例如,我们当前的2400万页的索引数据库在天,我们需要处理每秒大约50个网页。因为平均大约有11个链接页面(取决于你算是一个链接)我们需要处理550每秒的链接。2400万页的同时,我们的数据库引用超过7500万独特的url必须比较每个链接。

花费的时间使系统弹性面对许多深刻和复杂的web工件缺陷。存在无限大网站,页面,甚至url。大部分网页都不正确的HTML,使解析器设计困难。混乱的启发式方法是用来帮助爬行过程。例如,我们不与他们}目录/爬行url。当然,这是不可能得到的“整个网络”的正确的样品,因为它总是在不断变化。网站有时会下降,而有些人决定不让他们的网站被索引。尽管如此,我们认为我们有一个实际的合理表示公开的网络链接结构。2400万页面参照的同时,我们的数据库引用超过7500万独特的url必须比较每个链接。

3.1实现PageRank

我们把每个URL转换成一个独特的整数,并将每一个超链接存储在一个数据库使用整数id来识别页面。我们的实现的细节(PB98〕。一般来说,我们以以下的方式实现了网页排名。首先我们父ID排序链接结构。然后晃来晃去的链接从链接数据库中删除以上讨论的原因(几个迭代消除绝大多数晃来晃去的链接)。我们需要做一个初始赋值。这个任务可以通过策略之一。如果它将迭代直至收敛,一般初始值不会影响最终值,收敛速度。但我们可以加速收敛,选择一个好的初始赋值。我们相信,小心选择初始赋值和一个小的有限数量的迭代可能导致优秀的或改进的性能。

内存分配给每个页面的权重。因为我们使用单精度浮点值4个字节,这相当于300字节

为我们7500万年的url。如果没有足够的可用内存来保存所有的重量、多个通行证可以让(我们的实现使用一半的内存和两个传球)。从当前时间步的权重会保存在内存中,和前面的权重线性访问磁盘。同时,所有的访问数据库的链接,一个是线性的,因为它是排序。因此,也可以保存在磁盘上。尽管这些数据结构都是非常大的,每次迭代线性磁盘访问允许在大约6分钟完成一个典型的工作站。权重融合之后,我们添加悬空链接回到和重新计算排名。注意添加悬空链接回来之后,我们需要迭代多次被要求删除晃来晃去的链接。否则,一些悬空的链接将零重量。整个过程大约需要烟道小时在当前实现中。用更少的严格的收敛标准,更优化,计算可能会快得多。或者,更高效的技术来评估特征向量可以用于提高性能。然而,值得注意的是,计算网页级别所需的成本相比是微不足道的成本需要构建一个全文索引。4收敛性

如可以从曲线图在图4中的PageRank在一个大3.22亿链路数据库可以看出收敛到一个合理的公差在大约52次迭代。对一半的数据收敛时间大约45次迭代。此图表明的PageRank 会规模非常好,即使对于非常大的集合的缩放因子大致线性关系为log N。

一个有趣的后果的事实PageRank计算收敛迅速,网络是一个expander-like图。为了更好地理解这一点,我们给一个简短的概述图上的随机漫步理论;指Motwani-Raghavan MR95详情。图上的随机游走在任何给定的时间步长是一个随机过程,我们正处于一个特定节点图和随机选择一个outedge一致来确定访问的节点下一个时间步。图是一个膨胀机如果是,每一个(不宜过大)的节点子集S '有一个社区(顶点集通过outedges来自节点年代的)比一些因素倍} };在这里,一个被称为扩展因数。这种情况下,当且仅当图有很好的扩张因素最大的特征值是足够的大于第二大特征值。随机游动上的曲线被认为是快速混合,如果它很快(时间的对数曲线图的大小)收敛于上一极限分布图中的一组节点。它也是一个随机游动的是,图中迅速混合的情况下,当且仅当该图形是一个膨胀或有特征值的分离。

为了与ageRank的计算相比较,需要注意的是它本质上测定的是随机游走在Web图形的极限分布。一个节点的重要性排名在本质上是限制概率的随机游走将在该节点之后的足够大的时间。该PageRank的计算终止于对数时间的事实等效于话说,随机漫步迅速混合或底层的图形具有良好的扩展因素。扩展图形有我们也许能够在利用许多可取属性,为今后在涉及网络图的计算做依据。

5结合PageRank搜索

PageRank的一个主要应用是搜索。我们已实施的PageRank使用两个搜索引擎。第一个我们要讨论的是一个简单的标题为基础的搜索引擎。第二个搜索引擎是名为谷歌(BP〕一个全文搜索引擎。谷歌利用多个因子来排列搜索结果中包括标准的IR措施,接近,锚文本(链接指向的网页文本),和PageRank。虽然PageRank的好处全面的用户研究是超出了本文的范围,我们已经进行了一些对比实验,并提供了一些示例。

未指定查询的网页排名的好处是最大的。“斯坦福大学”例如,查询可能返回任意数量的网页提到斯坦福(比如出版物列表)在传统的搜索引擎,但使用网页排名,首先列出的大学主页。

5.1标题搜索

为了测试的PageRank搜索的用处,我们实施了以1600万的网页只有标题的搜索引擎。要回答一个查询时,搜索引擎发现所有的标题中包含所有查询词的网页。然后它通过网页排名进行排序的结果。这个搜索引擎是非常简单和廉价的实现。在非正式的测试,它工作得非常好。从图6中可以看出,搜索“大学”产生一流大学的名单。此图显示了我们MultiQuery 系统,它允许用户查询两个搜索引擎在同一时间。左边的搜索引擎是我们的基础PageRank 的标题搜索引擎。所示的条形图和百分比都是一个日志与顶页归一化到100%,而不是它是用来在其他地方,本文百分实际的PageRank 。右侧的搜索引擎AltaVista的是。你可以看到,AltaVista的返回与查询匹配的“大学”,并在服务器的根页面,随机的Web页面(AltaVista的好像是用URL长度作为质量启发式)。

5.2 排序合并

基于标题的网页排名系统工作的原因很是标题匹配确保高精度,PageRank确保高质量。当匹配查询,像“大学”在网上,召回率不是很重要,因为有不止一个用户可以看看。更具体的搜索召回率在哪里更重要的是,传统的信息检索的分数在全文和网页排名应该总和。我们的Google系统做这种类型的合并。等级合并是一个非常困难的问题,我们需要花相当大的额外的努力之前,我们可以做一个合理的评估这些类型的查询。然而,我们相信,使用

PageRank作为这些查询的一个因素是相当有益的。

5.3一些样品的结果

我们已经尝试过于谷歌,它采用PageRank的全文搜索引擎。虽然全面的用户研究超出了本文的范围,我们提供一个示例查询在附录a .表1显示了查询,我们鼓励读者测试谷歌自己【BP】。

基于网页排名前15页。1996年7月这个清单生成。在最近的PageRank计算中,,Microsoft 刚刚击败Netscape的最高PageRank 。

5.4常见的情况

PageRank的设计目标之一是为查询处理常见的情况。例如,用户搜索“金刚狼”,记住,密歇根大学的系统用于所有管理功能的学生被称为具有金刚狼。我们基于PageRank的标题搜索系统返回答案“金刚狼”作为第一个结果。这是明智的,因为所有的学生经常使用金刚狼访问系统,和一个随机的用户很可能会寻找它的查询“金刚狼”。金刚狼的访问网站是一个很好的常见的情况并不包含在HTML页面的。即使有定义良好的元信息的方法这种形式在一个页面中,将问题从一个页面作者不能信任这种评价。许多web页面作者只会声称他们的页面都是在互联网上使用的最好和最有价值的。

重要的是要注意,寻找的目标网站,包含大量的信息关于金刚狼是一个非常不同的任务比金刚狼的网站找到常见的情况。有一个有趣的系统[Mar97],试图找到网站,详细讨论一个主题通过传播文本匹配分数的网络链接结构。然后试图返回页面的最中央的道路。这导致好的结果查询,如“花”的查询,,系统将返回从网站好的导航页面,详细处理花的话题。相比之下,常见的情况有方法可以简单地返回一个常用的商业网站,几乎没有信息除了如何买花。我们认为这两个任务是重要的,和一个通用的web搜索引擎返回结果应该自动完成这两个任务的需要。在本文中,我们只专注于常见的情况的方法。

5.5子组件的常见的情况

考虑什么样的常见的情况是很有意义的场景PageRank可以帮助代表。除了一个页面具有高的使用,就像金刚狼访问引用,网页排名也可以代表一个协作权威或信任的概念。例如,用户可能更喜欢新闻,因为它是链接的链接直接从纽约时报主页。当然这样的故事因为它将得到相当高的PageRank,提到了一个非常重要的页面。这似乎捕捉一种协作的信任,因为如果一个页面被提到一个值得信赖的权威来源,它更可能是值得信赖或权威。同样,质量或

重要性似乎适合这种循环定义。

6个性化网页排名

PageRank计算的一个重要组成部分是E一向量在Web页面使用的等级来弥补没有outedges的排水槽等周期(见2.4节)。然而,除了解决排水槽,E是一个强大的参数来调整页面排名。凭直觉E向量对应于web页面的分布随机冲浪者定期跳跃。下面我们看到,它可以用来给广泛通用的Web视图或视图集中和个性化的特定个人。

我们已经完成大部分实验用E向量是均匀的所有网页与||é||1 =0.15。这对应于一个随机冲浪者周期性地跳跃到一个随机的网页。这是对于E一个非常民主的选择,因为所有的网页的价值,只是因为它们的存在。尽管这种技术已经相当成功,有一个与它的一个重要问题。有些网页有许多相关的链接获得一个过于高的排名。这方面的例子包括版权的警告,免责声明,并且高度关联邮件列表档案。

另一个极端是完全由一个web页面。我们测试了两个这样的E 's Netscape公司主页,主页的一个著名的计算机科学家,John McCartly Netscape的主页,我们试图生成页面排名从新手用户Netscape的角度设置为默认主页。在约翰麦卡锡的网页的情况下,我们要从一个人给了我们基于在他的网页上的链接相当的上下文信息的角度计算网页排名。

在这两种情况下,上述邮件列表的问题没有出现。在这两种情况下,各自的主页有网页排名最高,其次是它的直接链接。从这一点上,差距减少。在表2中,我们显示结果页面排名百分比为各式各样的不同页面。McCarthy-rank页面相关的计算机科学有一个高于Netscape-rank斯坦福大学计算机科学和页面相关McCarthy-rank明显要高。例如,Web页面的另一个斯坦福大学计算机科学部门教员是McCarthy-rank高出超过六百分位。注意,页面显示为百分比。这压缩网页排名的巨大差异的影响顶部的范围。

这样的个性化页面等级可具有多种应用,包括个人搜索引擎。这些搜索引擎能为用户节

省了大量的烦恼通过有效地猜测给出简单的输入,例如他们的书签或首页上他们的利益的很大一部分。我们发现这在附录A中的例子与“米切尔”查询。在这个例子中,我们证明,虽然有很多人叫米切尔在网络上,排名第一的结果是约翰·麦卡锡的一个同事的主页命名为约翰·米切尔。

6.1操纵商业利益

这些类型的个性化PageRanks几乎不受操纵的商业利益。页面高PageRank,它必须说服一个重要的页面,或者很多非重要的页面链接到它。在最坏的情况下,你可以操纵的形式在重要网站上购买广告(链接)。但是,这似乎好控制,因为它要花钱。这种免疫操作是一个极为重要的财产。这种商业操纵导致搜索引擎是一个很大的麻烦,并使特性,就很难实现了。例如快速更新的文件是一个非常理想的特性,但它是被那些想要操纵搜索引擎的结果。

两个极端之间的一种妥协统一E和E单页是让E包含所有页的所有web服务器的根级页。注意这将允许一些PageRanks的操纵。有人希望操作该系统可以简单地创建大量的根服务器所有指向一个特定的网站。

7应用程序

7.1评估网络流量

因为PageRank大致对应于一个随机网络冲浪(见2.5节),这是有趣的,看看网页级别对应于实际使用。我们使用的web页面访问数NLANR(国民〕代理缓存和比较这些网页排名。NLANR数据从几个国家在此期间代理缓存的几个月,由11817665个不同的url最高计数将Altavista和638657的点击量。有260万页的十字路口和7500万网址数据库缓存数据。比较这些数据集是极其困难的分析不同的原因。很多url缓存中访问数据的人阅读他们的个人邮件免费电子邮件服务。重复服务器名称和页面名称是一个严重的问题。不完全性和偏见问题既是PageRank数据和使用数据。然而,我们确实看到了一些有趣的趋势数据。似乎有一个高使用缓存数据的色情网站,但这些网站通常PageRanks较低。我们认为这是因为人们不想从自己的网页链接到色情网站。使用这种技术的寻找网页级别之间的差异和使用,它可能会发现人们喜欢看的东西,但不想提及他们的网页。有一些网站,有一个非常高的使用,但低PageRank,比如https://www.doczj.com/doc/d312210402.html,。我们认为有可能是一个重要的反向链接,只是省略了从我们的数据库(我们只有部分的网络链接结构)。可以使用使用数据开始为PageRank向量,然后迭代PageRank几次。这可能允许在使用数据填洞。在任何情况下,这些类型的比较是未来研究的一个有意思的主题。

7.2 PageRank作为反向链接预测

PageRank的理由之一是,它是用于反向预测器。在(CGMP98〕我们探讨如何有效地抓取网页的问题,试图先抓取更好的文档。在斯坦福大学网络测试中我们发现,网页排名是一个更好的预测未来的引用计数比引用计数。

实验假设系统开始时,只有一个单独的URL和任何其他信息,并且目标是试图抓取在尽可能接近最优顺序尽可能的网页。最优顺序是根据评价函数来抓取其职级的确切顺序的页面。对于此处的目的,评价函数是简单地引用的次数,给出完整的信息。美中不足的是,所有的信息来计算评价函数不可用,直到所有的文件都已经被爬虫后。事实证明,使用不完整的数据,PageRank是网页排名顺序爬虫是一种更有效的方法比已知的引文的数量。换言之,PageRank值比引用计数即使当度量是引用的次数能更好地预测!PageRank的解释似乎避免了局部极大值,引用计数卡。例如,引用计数往往陷入局部集合斯坦福CS网页,花了很多时间来拓展和发现高度引用页面在其他领域。PageRank很快找到了斯坦福大学主页是重要的,为孩子们提供了一个有效的偏好,广泛的搜索。

PageRank的这种能力来预测引用计数是使用PageRank是一个强有力的理由。因为它很难完全映射引文网络结构,PageRank甚至可能是一个更好的引文数逼近自己的引用计数。

7.3用户导航:PageRank代理

我们已经开发出一种web代理应用程序注释每个链接,用户看到的网页排名。这是非常有用的,因为用户接收一些信息链接之前,点击它。在图7中从代理是一个屏幕截图。红色条子的长度是URL的PageRank的日志。我们可以看到,各大机构,如斯坦福大学,获得了非常高的排名,其次为研究组,然后是一些人,比如教授在大规模中占高端。还要注意的ACM具有非常高的PageRank,但并不如斯坦福大学。有趣的是,在页面的PageRank这个注解视图作出了不正确的URL为教授昭然若揭,因为这位教授有一个令人尴尬的低的PageRank。因此这个工具似乎有用的编辑页面导航。这个代理非常有利于看着其他搜索引擎的结果,和大量的页面链接,如雅虎上市。代理可以帮助用户决定哪些链接清单更可能是有趣的。或者,如果用户有一些知道他们正在寻找的联系应该落在“重要性”,他们应该能够使用代理扫描它要快得多。

7.4 PageRank的其他用途

PageRank的最初目标是一种反向链接,如果有大量的反向链接的文档,首先“最好”的反向链接可以显示。我们已经实现了这样一个系统。事实证明这一观点的反向链接命令时可以非常有趣的PageRank试图了解你的竞争对手。例如,运行一个新闻网站的人总是想追踪任何明显的反向链接的竞争成功。此外,网页排名可以帮助用户决定是否一个网站是值得信赖的。例如,用户可能倾向于信任信息,直接被从斯坦福大学主页。

8 结论

在本文中,我们采取了大胆的工作的万维网上的每一页都凝聚成一个数字,它就是PageRank。PageRank是将全球的网页进行排名,不管其内容,仅仅基于其位置在web的图形结构。

使用的PageRank,我们能够搜索结果进行排序,这样更重要和核心的Web页面都优先考虑。在实验中,事实证明这为用户提供更高质量的搜索结果。背后的PageRank的直觉是,它使用的是外置自己的网页一他们的反向链接,它提供了一种同行审查的信息。此外,反向从“重要”的网页比反向从平均页面更显著。这是包含在网页排名(第2.4节)的递归定义。

PageRank的可用于分离出一小部分的常用的文档,可以应对大多数的查询。完整的数据库只需要咨询时,小型数据库不足以回答查询。最后,PageRank的可能是一个很好的方式,以帮助找到代表性的页面以显示集群中心。

我们已经发现了一些对PageRank的应用除了搜索,其中包括流量估计和用户导航。另

外,我们可以生成个性化PageRank的,可以从一个特定的角度创建Web的视图。

总的来说,我们结合PageRank的实验说明网络图形结构是对于各种信息检索任务非常有用的。

相关主题
文本预览
相关文档 最新文档