PageRank算法的分析及其改进_王德广

格式：pdf
大小：1.18 MB
文档页数：3

下载文档原格式

/ 3

PageRank算法在网页排序中的应用及改进

PageRank算法在网页排序中的应用及改进PageRank算法是一种在网页排序中广泛应用的算法，旨在根据页面间的链接关系和互动，为网页分配权重。

本文将介绍PageRank算法的基本原理和其在网页排序中的应用，并探讨一些改进方法，以提高其准确性和效率。

一、PageRank算法的基本原理PageRank算法是由谷歌公司的创始人之一拉里·佩奇（Larry Page）和谢尔盖·布林（Sergey Brin）于1996年提出的。

它根据网页之间的相互链接关系来计算每个网页的重要性指标，基本原理如下：1. 网页的权重：PageRank算法认为，一个网页的重要性取决于其被其他重要网页所链接的数量和质量。

一个链接来自权重高的网页对被链接的网页权重的贡献也更大。

2. 链接关系的传递性：如果网页A链接到网页B，那么网页B将获得一部分网页A的权重。

这种链接关系的传递性可以通过迭代计算来逐步传递网页的权重。

3. 反向链接的重要性：网页B被更多重要网页所链接时，网页B的权重会更高。

这个想法来源于互联网上用户通过链接表达的投票行为。

相对于单纯的链接数量，反向链接更能反映网页的权威性和受欢迎程度。

二、PageRank算法在网页排序中的应用PageRank算法在网页排序中的应用主要体现在搜索引擎中，通过计算网页的PageRank值，对搜索结果进行排序，从而提供更准确和有用的搜索结果。

1. 提高搜索准确性：PageRank算法通过对网页的重要性进行评估，将重要网页排在搜索结果的前面。

这样用户可以更容易地找到权威和有价值的信息。

2. 抑制垃圾信息：通过使用PageRank算法，搜索引擎可以过滤掉一些垃圾信息或低质量的网页。

因为这些网页往往没有被高质量网页所链接，其PageRank值较低。

3. 发现新网页：PageRank算法还可以帮助搜索引擎发现新网页。

当一个新网页被高质量网页链接时，其PageRank值将增加，并逐渐被搜索引擎所索引和优先展示。

PageRank算法在网络分析大图挖掘中的应用优化

PageRank算法在网络分析大图挖掘中的应用优化随着互联网技术的发展和普及，信息的快速传播和交流已经成为现代社会的一个重要特征。

然而，对于大规模的网络结构，如何有效地进行分析和挖掘成为一个挑战。

PageRank算法作为一种经典的网络分析方法，在大图挖掘中得到了广泛的应用和优化。

一、PageRank算法简介PageRank算法是由谷歌公司的创始人之一拉里·佩奇于1998年提出的一种用于评估网页重要性的算法。

该算法基于网页之间的链接关系，通过不断迭代计算网页的重要性得分，从而使得用户能够更好地找到相关和有用的信息。

二、PageRank算法在大图挖掘中的应用1. 网络搜索引擎优化：PageRank算法是谷歌搜索引擎的核心算法之一。

通过分析网页之间的链接关系，可以有效地评估网页的质量和重要性。

搜索引擎可以根据每个网页的PageRank值来为用户提供更相关和有用的搜索结果。

2. 社交网络分析：在社交网络中，人们之间的关系可以通过链接表示。

通过运用PageRank算法，可以衡量每个个体在整个社交网络中的影响力和重要性。

这有助于用户在社交网络中找到关键人物和重要信息。

3. 推荐系统优化：推荐系统通常基于用户之间的相似性和联系来推荐相关的内容或者产品。

通过运用PageRank算法，可以更准确地评估用户之间的相似性，并为用户提供更符合他们个性化需求的推荐。

4. 垃圾邮件过滤：PageRank算法可以通过评估邮件之间的链接关系来识别垃圾邮件。

通过分析垃圾邮件发送者的PageRank值和链接结构，可以判断邮件的可信度，并进行相应的过滤处理。

三、PageRank算法的优化尽管PageRank算法在大图挖掘中有着广泛的应用，但是它也存在一些局限性和不足之处。

为了改进和优化PageRank算法，在实际应用中，人们提出了一些改进技术。

1. 随机游走模型的改进：PageRank算法基于随机游走模型，但在大规模网络中，传统的随机游走模型会导致计算量过大和收敛速度慢的问题。

PageRank算法原理及应用

PageRank算法原理及应用引言互联网对于现代人来说，是不可或缺的一部分。

网络中蕴含的各种信息，对于工作、学习、生活等方面都有着很大的帮助。

但是，互联网的信息量过于庞大，怎么才能将用户需要的信息呈现给他们呢？这就需要搜索引擎的帮助。

而搜索引擎中的PageRank 算法，就是如何给各个网页进行排序的一种方法。

一、PageRank算法原理PageRank算法是由谷歌公司创始人之一拉里·佩奇和谢尔盖·布林共同提出的。

该算法的核心思想是把网页之间的链接看成一种投票制度。

举个例子，如果A网页中有指向B、C、D三个网页的链接，那么我们可以理解为A网页对B、C、D三个网页进行了投票。

同理，如果B、C两个网页又分别有指向A、D两个网页的链接，那么B、C网页对A、D网页也进行了投票。

但是，这个投票制度并不是完全平等的。

如果A网页的排名比B、C、D网页都要高，那么A网页对B、C、D网页的投票效果就要比B、C、D网页对A网页的投票效果更大。

又因为B、C网页同时又对A网页进行了投票，所以其对D网页的投票效果会比A网页的投票效果更大。

PageRank算法正是基于这种投票论证进行的，即如果一个网页被越多的其他网页链接的话，那么这个网页就越重要。

同时，如果链接这个网页的网页还有更高的权重，那么这个网页的权重就会更大。

Pagerank算法是一种迭代算法。

迭代中每个网页的PageRank 值逐渐逼近其真实值。

大致流程如下：1. 给每一个网页初始化PageRank值为12. 每个网页的PageRank值等于其他链接到这个网页的网页的PageRank值乘以这个网页投出去链接的数量除以被链接到的网页的总数再乘以一个0.85的系数，再加上一个概率0.153. 重复执行第二步，直到所有网页的PageRank值收敛二、PageRank算法应用PageRank算法的应用主要体现在搜索引擎排序上。

因为搜索引擎返回的结果一般都是以网页链接的形式呈现的，PageRank算法可以依据链接来判断网页的重要性并进行排序。

浅析PageRank算法

浅析PageRank算法Term Spam其实从搜索引擎出现的那天起，spammer 和搜索引擎反作弊的斗法就没有停止过。

Spammer 是这样一群人——试图通过搜索引擎算法的漏洞来提高目标页面（通常是一些广告页面或垃圾页面）的重要性，使目标页面在搜索结果中排名靠前。

现在假设Google 单纯使用关键词占比评价页面重要性，而我想让我的博客在搜索结果中排名更靠前（最好排第一）。

那么我可以这么做：在页面中加入一个隐藏的 html 元素（例如一个 div），然后其内容是“张洋”重复一万次。

这样，搜索引擎在计算“张洋博客”的搜索结果时，我的博客关键词占比就会非常大，从而做到排名靠前的效果。

更进一步，我甚至可以干扰别的关键词搜索结果，例如我知道现在欧洲杯很火热，我就在我博客的隐藏div 里加一万个“欧洲杯”，当有用户搜索欧洲杯时，我的博客就能出现在搜索结果较靠前的位置。

这种行为就叫做“Term Spam”。

早期搜索引擎深受这种作弊方法的困扰，加之基于关键词的评价算法本身也不甚合理，因此经常是搜出一堆质量低下的结果，用户体验大大打了折扣。

而Google 正是在这种背景下，提出了PageRank 算法，并申请了专利保护。

此举充分保护了当时相对弱小 Google，也使得 Google 一举成为全球首屈一指的搜索引擎。

PageRank 算法上文已经说到，PageRank 的作用是评价网页的重要性，以此作为搜索结果的排序重要依据之一。

实际中，为了抵御spam，各个搜索引擎的具体排名算法是保密的，PageRank 的具体计算方法也不尽相同，本节介绍一种最简单的基于页面链接属性的PageRank 算法。

这个算法虽然简单，却能揭示PageRank 的本质，实际上目前各大搜索引擎在计算 PageRank 时链接属性确实是重要度量指标之一。

简单 PageRank 计算首先，我们将Web 做如下抽象：1、将每个网页抽象成一个节点；2、如果一个页面A有链接直接链向B，则存在一条有向边从A到B （多个相同链接不重复计算边）。

PageRank算法原理及应用技巧

PageRank算法原理及应用技巧一、什么是PageRank算法？PageRank算法，中文通常翻译为页面等级算法，是谷歌搜索引擎的核心之一。

它的作用是根据网页间的链接关系，为每个网页赋予一个权重值，体现网页自身的重要性以及与其他网页之间的关联程度。

这个权重值，也可以称为页面等级，是在算法迭代过程中自动计算出来的，以一定的方式反映在搜索结果页面上，对用户查询的结果产生非常大的影响。

二、PageRank算法原理PageRank算法的核心思想是基于图论的概念，将整个Web系统看作一个有向图，网页是节点，链接是边。

每个节点的PageRank值可以看作是一个随机游走的概率，即从当前节点出发，沿着链接随机跳到其他节点的概率。

具体说来，PageRank算法把每个页面的初始PageRank值设置为1/n，其中n是整个网络中页面的数量。

在每一次迭代中，所有页面的PageRank值会被重新计算，计算公式如下：PR(A)=(1-d)+d( PR(T1) / C(T1) + ... + PR(Tn) / C(Tn) )其中，PR(A)表示页面A的PageRank值，d是一个介于0和1之间的阻尼系数，通常设置为0.85。

T1~Tn表示所有直接链接到A的页面，C(Ti)表示对应页面的出链总数，PR(Ti)表示对应页面的PageRank值。

这个公式的含义是，如果一个页面被其他页面链接得多，它的贡献就会更大。

而如果这个页面链接的其他页面也被其他页面链接得多，那么这个页面的权重值就会被进一步提高。

不过，由于阻尼系数的加入，每个页面的PageRank值最终都会趋于收敛，并保证权重的分配符合概率公式的要求。

三、PageRank算法的应用技巧1.优化页面内部链接结构PageRank算法的核心在于链接关系，因此页面内部的链接结构也会对页面的PageRank值产生影响。

因此，站长应该合理布局内部链接，确保每个页面都可以被其他页面链接到，尽量构建一个完整的内部链接网络。

PAGERANK算法在网络搜索和推荐系统中的应用原理及设计

PAGERANK算法在网络搜索和推荐系统中的应用原理及设计随着互联网的不断发展，我们已经不再是传统的信息获取方式，而是通过搜索引擎来获得所需要的信息。

搜索引擎的核心算法之一就是Google公司在1998年推出的PAGERANK算法。

这种算法被广泛应用于搜索和推荐系统，并成为互联网时代中最重要的技术之一。

PAGERANK算法原理PAGERANK算法最根本的原理就是基于链接的分布式计算。

这个过程中，网页的排名是根据其连接到其他网页的数量和质量来评估的。

如果一个页面有很多的高质量的链接，则该页面的排名就会更高。

具体的，PAGERANK算法利用了一张由许多有向边连接而成的有向图。

在这种图中，每个节点代表一个网页，每个边代表两个网页之间的连接。

如果一个节点没有指向别的节点的连接，则称之为“Sink Node”。

PAGERANK算法是基于如下传递函数来实现的：PR(A) = (1-d) + d(PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))其中，PR(x)表示网页x的PAGERANK值；d是统计学家设置的一个常数，D值通常设置在0.85；T1 ~ Tn表示所有页面中指向当前页面的页面；C(T1) ~ C(Tn)表示所有指向T1 ~ Tn页面的外部链接总数。

这个过程的实现是通过迭代计算来完成的。

我们可以首先为每个节点设置一个相同的PR0作为初始值。

在每次更新过程中，我们都会计算出每个节点的新PR值，并更新它们的PR值。

然后再根据新的PR值进行下一轮的迭代，直到PR值稳定下来为止。

PAGERANK算法在搜索引擎中的应用PAGERANK算法在搜索引擎中最重要的应用就是用于计算每个搜索结果的排名。

搜索引擎很难根据用户查询条件来准确找到他们所需要的信息。

通过计算每个页面的PAGERANK值，搜索引擎可以将最有可能包含所需信息的页面排在搜索结果的前列。

PAGERANK算法在推荐系统中的应用除了在搜索引擎中使用，PAGERANK算法也可以用于推荐系统。

网页PageRank算法分析及主题相关性的改进策略

Ｄｌ１．９９ｊｉｎ１０－９２２１．２０１Ｏ０３６／．ｓ．０１８７．００２．４ｓ
网页Ｐｇｒｎａｅａｋ算法分析
及主题相关性的改进策略
姜博北方工业大学信息工程学院１０４１４０
摘－量萋＿ｉ曩－＿耍
指标，即网页级别。重要的、高质量的网页可获得较高的网页级别，从而在搜
索结果中获得靠前的排位。
假设某网页Ａ的链入网页数量为ｎ，
． …
ｓｒｔｒ，ｐ￣ｓｏｔｉｓｆｉｅｃｆｄｔ￣ｔｃｕｅｏｔｕｓｉｕｆｉｙｏｅｅｕｔｎｃｎ
ｔｒ￣ｏｂａｅｒｎｉｇ，ｍｅｎｉｔｉｐｐｒｅＩｆｗｅｐｇａｋｎＴａｗｈｅ，ｈａｅｌｓａａｙｅｔｅＰｇＥｋｌｏｉｈｎｌｚｓｈａｅａｎａｇｒｍｂｓｄｎｉｋｔａｅｏｌｎ
Hale Waihona Puke 和推荐程度。一个网页本身的ＰｇＲｎａｅａｋＰｇＲａｋ法是在１９年由斯坦福。值越高，则它对其链出网页的推荐能力ａｅｎ算８９大学的Ｓｒｅｒｎ［ａｒａｅ出来就越大；一个网页的链出网页越少，那ｅｇｙＢｉ￣ＬｒｙＰｇ提１的１，是商业搜索引擎Ｇｏｇｅ ‘ ｉｏｌ采用的链接么它对其中一个链出网页的推荐程度就越高。据此计算出每个网页的重要性综合
式（）以用网页的随机漫游模型进行１可

PageRank算法的原理及应用

PageRank算法的原理及应用PageRank算法是一种被广泛应用于搜索引擎的网页排序算法，它是由Google公司的两位创始人——拉里·佩奇和谢尔盖·布林在1998年发明的。

经过多次改进和完善，如今的PageRank算法已经成为了搜索引擎排名的重要指标之一。

本文将从算法原理、公式推导和应用探究三个方面来介绍PageRank算法。

一、算法原理PageRank算法的核心思想是基于互联网上各个页面之间的链接关系进行排序，在一定程度上反映了网页的权威性和价值。

所谓链接关系，就是指一个页面通过超链接将访问者引向另一个页面的关系。

如果一个网页被其他网页链接得越多，那么这个网页的权威度就应该越高。

但是，PageRank并不直接以链接数量作为评价标准，而是通过一个复杂的算法来计算每个网页的等级。

具体来说，PageRank算法是基于马尔科夫过程的概率模型，它将互联网上的所有页面抽象成图形，每个网页都是一个节点，超链接则是节点之间的边。

PageRank算法的核心计算就是将这个图形转化成一个矩阵，然后使用迭代的方式求出每个节点的等级，即PageRank值。

在这个过程中，每个节点的PageRank值会受到其它所有节点的影响，而它自身的权值又会传递给其他节点，如此循环迭代，直到所有节点的PageRank值趋于收敛。

二、公式推导PageRank算法的公式推导是比较繁琐的，这里只能简单概括一下。

首先，PageRank值可以表示为一个向量，每个向量元素代表一个页面的权值。

由于PageRank算法是基于网页链接之间的关系计算出来的，所以可以将它表示成一个矩阵M，该矩阵中的元素mi,j表示第j个页面指向第i个页面的链接数量。

接着，可以构造一个向量v，v中的所有元素都是1/N（其中N为网页总数），代表每个页面初始的PageRank值。

然后，PageRank值可以通过迭代计算得到，具体的计算公式如下：PR(A) = (1-d)/N + d * (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))其中，PR(A)表示节点A的PageRank值，d是一个常数（0<d<1），代表网页的阻尼系数，T1-Tn是所有指向节点A的页面，C(Ti)是Ti页面的出链总数，PR(Ti)是Ti页面的PageRank值，N为网页总数。

PageRank算法详解

PageRank算法详解PageRank算法是谷歌搜索引擎中最为重要的算法之一。

它通过计算网页之间的链接关系和权重来确定每个网页在搜索结果中的排名。

在谷歌早期，PageRank 算法的出现使得其搜索结果变得更加准确和有效，进而成为了全球最大的搜索引擎。

一、PageRank算法的产生1997年，拉里-佩奇（Larry Page）和谢尔盖-布林（Sergey Brin）在斯坦福大学完成了他们的博士论文，在这篇文章中他们提出了一个新的搜索算法—— PageRank。

基于局部链接法（Local Link Method）的搜索引擎实现效果不太理想。

在这种算法下，搜索引擎将根据特定的自定义指标对文本内容进行倒排索引，然后计算文本内容与关键字之间的相似性。

而该算法无法处理链接的信息，也就是说，一个因链接数目众多而重要的页面可能会得到较低的排名。

因此，佩奇和布林提出了PageRank算法来帮助解决这个问题。

这种算法基于网页链接之间的权重，可以更好地判断每个网页的重要性。

二、PageRank算法的原理PageRank 算法的核心是对互联网进行图论分析，即将互联网理解为一张由网页及其链接组成的图结构，其中，网页为节点，链接为边。

对于一张由网页及其链接组成的图结构，PageRank算法中定义的网页得分，即 PageRank 值，表示该网页在该网页集合中的重要性。

PageRank 值的计算基于以下两个规则:一、入度PageRank的值与一个网页的入度有关。

例如，一个网页有更多的链接指向它，它的 PageRank 值会更高。

这是由于网页拥有更多的链接，说明与这个页面相关的主题更加广泛和深入，并且广大网民更加喜欢这个页面。

二、出度另一方面，如果一个网页链接到其他重要的网页，那么这个页面的PageRank 值也会提高。

这是由于向外链接表示该网页被认为对其他网页有一定的参考价值。

对于搜索引擎来说，这种链接相当于对另一个页面的推荐。

Web数据挖掘中PageRank和K_means算法的改进研究

Web数据开掘中PageRank和K_means算法的改进探究引言：随着互联网的迅猛进步，Web数据开掘成为了一项重要的技术。

在这个过程中，PageRank和K-means算法被广泛应用于网络分析和聚类。

然而，随着网络规模的不息扩大和数据复杂性的增加，传统的PageRank算法和K-means算法在应对大规模、高维数据时存在一定的局限性。

因此，为了进一步提高Web数据开掘的效果和速度，需要对这两种算法进行改进和优化。

一、PageRank算法的改进探究PageRank算法是Google查找引擎的核心算法之一，用于对网页进行排序。

然而，随着互联网规模的不息扩大，原始的PageRank算法在计算效率和准确性上存在一定的问题。

为了解决这些问题，学者们提出了多种改进方案。

1. 随机游走模型：传统的PageRank算法以随机游走模型为基础，通过计算网页之间的毗连干系进行排序。

但是，这种方法无法准确衡量不同网页的重要性。

因此，一些学者提出了基于主题的随机游走模型，通过思量网页的主题相关性，提高了排序的准确性。

2. 高效计算策略：由于互联网规模的快速增长，传统的PageRank算法在计算效率上面临一定的挑战。

为了提高计算速度，探究者们提出了基于分布式计算的PageRank算法、近似计算的PageRank算法等。

这些算法通过并行计算和抽样计算等策略，大幅度提高了计算效率。

3. 多维度评估：传统的PageRank算法只思量了网页之间的毗连干系，轻忽了其他重要的因素。

为了提高排序结果的准确性，学者们引入了多维度评估，思量网页的内容质量、用户评判等因素，增加了排序的准确性。

二、K-means算法的改进探究K-means算法是一种常见的聚类算法，广泛应用于数据开掘和机器进修领域。

然而，在处理大规模和高维数据时，传统的K-means算法存在较大的局限性。

为了提高聚类效果和效率，学者们提出了多种改进方法。

1. 初始化策略：传统的K-means算法对初始聚类中心的选择比较敏感，容易陷入局部最优。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

100 名研究生选取 20 个最受关注的话题(见表 1)进行对比
实验。
表 1 20 个关键词列表
序号
话题
序号
话题
1
反腐倡廉
11
依法行政
2
医疗改革
12
三农问题
3
食品安全
13
安全生产
4
收入分配
14
城乡统筹
5
就业问题
15
金融危机
6
环保问题
16
社会稳定
7
住房问题
17
股市稳定
8
教育公平
18
灾后重建
9
社会保险
—291—
题是否相关，即无法判断网页内容之间的相似相关性，这样
容易出现用户搜索的网页内容并不是他想要看的内容；
(2)PageRank 算法偏重以.com 结尾的网站，因为这类网
站通常是综合性网站，可以比其他类型的网站获得更多链接。
事实上，这类网页通常涉及的面多而不专，相比之下，某些
专业网站对问题的阐述更有权威性且与搜索的主题更贴切。
因此，网页 u 的 PR 值计算如下：

PR(u)
=
(1
−
d
)
+
d
n
∑
PR(vi
)
(1)
i=1 C(vi )
3 PageRank 算法分析
由于 PageRank 算法是离线计算网络的 PageRank 值，在
用户查询时仅根据关键字匹配获得网页集合，然后排序推荐
给用户，因此具有很高的响应速度，并且搜索引擎 Google
函数 W(t)，与网页的权值呈反比： W (t) = d / t
⎧1.0 t ≤1个月
t = ⎪⎨1.8 1个月< t ≤1年
(2)
⎪⎩0.6 t ≥1年
其中，W 是网页的权值；t 为求一个网页被搜索到的时间与
其最近一次被修改的时间的差值的函数；d 是一个比例常数。
得到一级 IPR 如下：
IPR1
(u
IPR3
(u)
=
(1
−
d
)
+
d
n
∑
i=1
IPR3
(vi
)
×W
(ti ) × F C(vi )
( vi
) × P(vi )
(7)
4.4 对 PageRank 算法忽视用户浏览兴趣现象的改进
网站服务器的 Web 日志文件中记录了每个用户的访问信
息，包含 time-taken 字段，该字段描述了页面访问时所用的
)
=
(1
−
d
)
+
d
n
∑
i=1
IPR1
(vi ) ×W C(vi )
(ti
)
(3)
4.2 对 PageRank 算法主题漂移现象的改进
通过上文分析可知，传统 PageRank 算法出现主题漂移现
象是因为其无法知道网页中的链接与该网页主题的相关性，
所以可以采用文本数据挖掘的方法对网页的内容进行数据挖
掘，文本数据挖掘是指从文本数据中抽取有价值的信息和知
时间。
定义 1 用户获取页面全部内容需要的时间 ts ，称为页面
下载时间。
经统计，在网络畅通时，页面下载时间 ts≤3 s，所以，
本文设定阈值 ts = 5 s ，若页面下载时间 ts > 5 s ，则用户的兴
趣度降低。
定义 2 一般人正常阅读完全部页面内容并进行评论及
思考所需的时间为 tc ，称为页面关注时间。 tc 的计算如下：
户的兴趣度。
4 PageRank 算法的改进
4.1 对 PageRank 算法偏重旧网页现象的改进考虑到大多数“旧网页”都有被引用数目多、内容陈旧、
可参考性不高的特点。假设：一个网页被搜索到的时间与其
最近一次被修改时间的差值越大，则网页内容的价值越低，
权威性就越低。在这个假设下，引入一个与时间有关的权值
tc
=
k ( Rs
+
Rc
× 50 + 280
Rg
×100)
(8)
其中，Rs 是页面正文文字个数；Rc 是页面图片个数；Rg 是页
面视频个数，为了便于计算，将图片和视频转化为文字，设
定一张图片相当于 50 个文字，一个视频相当于 100 个文字，
除以 280 是因为成年人的平均阅读速度仅为 280 字/min；k
1 概述
随着互联网的快速发展，互联网上的信息越来越丰富。
网络时代已经到来，上网查找资料的用户呈几何级增长，然
而，面临互联网上的海量信息，大多用户都无所适从。什么
信息是有用的信息、如何检索信息、如何缩短检索时间是搜
索引擎面临的主要问题。传统网络搜索引擎大多是基于关键
字匹配的，其查询效果不太理想。Sergey B 和 Lawrence P 借
19
机构改革
10
司法公正
20
文化创新
本文首先根据未改进的 PageRank 算法计算出所有网页的 PR 值，然后对 20 个被选话题进行测试，在每个话题返回被搜索到的前 50 个结果中，统计符合被测试研究生兴趣的网页数目；然后根据改进算法计算出所有网页的 IPR 值，用第 1 次生成的 20 个话题同样进行测试。符合被测试研究生兴趣的网页数目如图 2 所示。
虑进去。 3.1 PageRank 算法偏重旧网页的现象
由式(1)可以得出，决定网页 PR(u)值高低的一个主要因素是指向该网页的链接个数。因为旧网页存在的时间长，被其他网页引用的可能性较高，而实际上新的网页通常包含更新更有价值的信息；如果一个网页刚被放到互联网，可能会由于时间短暂，许多其他网页还没有引用它，导致它的 PR 值降低。通过 PageRank 算法，它出现在搜索页面中的次序通常很靠后，这样可能正好与用户需求相反。因为在很多情况下，用户通常想看到新网页中的最新内容。因此，在某种程度上网页存在时间越长，通过式(1)计算出的网页 PR 值越高，但却不能很好满足用户的需求[2]。 3.2 PageRank 算法的主题漂移现象
全部链接。互联网中各个网页的质量价值千差万别，即使是
链接在同一个网页上的各个链接，其优劣层次也差很多。所
以，PageRank 算法这种平均分配权值的方法，在一定程度上
影响了网页的排序质量。
3.4 PageRank 算法忽视用户浏览兴趣的现象 PageRank 算法在设计之初，没有考虑到用户的浏览兴
趣，但一个页面能否被用户再次浏览，很大程度上取决于用
3.3 PageRank 算法的平均网页权值现象网页的链接分成前向链接和反向链接，而反向链接的数
量和质量决定 PR 值。反向链接是指所考察的网页被其他网
页引用，反向链接数目越多，表示该网页被引用越多，其重要性也越高[3]。但一个网页被权威网站引用和被很多垃圾网
页引用，效果是完全不同的。
目前，PageRank 算法将当前网页的权值平均分配给它的
法建立在随机冲浪者模型上。具体来说，假设浏览者跟随链
接进行若干步的浏览后转向一个随机起点网页又重新跟随其
链接浏览，那么一个网页的价值程度值就由该网页被这个浏
览者访问的频率决定。
PageRank 算法简单描述如下：
u 是被研究的网页， vi 是指向 u 的网页， C(vi ) 是网页 vi 的向外指出的网页的链接数，d 是规范化因子(一般取 0.85)。
第 36 卷第 22 期 Vol.36 No.22
计算机工程 Computer Engineering
·开发研究与设计技术·
文章编号：1000—3428(2010)22—0291—03 文献标识码：A
PageRank 算法的分析及其改进
2010 年 11 月 November 2010
中图分类号：TP393
【Abstract】This paper improves PageRank algorithm is based on analyzing the phenomenon of stressing on old pages, drifting theme, spliting page weight and neglecting user browsing interests. It considers the important factors of webpage modification data, webpage text information, website technoroti authority, user interestingness. Experimental result shows that improved algorithm can improve accuracy for webpage order and user satisfaction with search results. 【Key words】PageRank algorithm; search engine; text data mining; PR value
PageRank 算法出现主题漂移现象的原因主要如下： (1)PageRank 算法无法区分网页中的链接与该网页的主
基金项目：辽宁省教育厅计划基金资助项目“用网页评价等级与转移概率改进 PageRank 算法研究”(L2010090) 作者简介：王德广(1968－)，男，副教授，主研方向：数据优化；周志刚，硕士；梁旭，教授、博士收稿日期：2010-05-18 E-mail：zzgisgod@
(u)
=
(1
−
d
)
+
d
n