搜索引擎算法
- 格式:doc
- 大小:88.50 KB
- 文档页数:9
浅析PageRank算法很早就对Google的PageRank算法很感兴趣,但一直没有深究,只有个轮廓性的概念。
前几天趁团队outing 的机会,在动车上看了一些相关的资料(PS:在动车上看看书真是一种享受),趁热打铁,将所看的东西整理成此文。
本文首先会讨论搜索引擎的核心难题,同时讨论早期搜索引擎关于结果页面重要性评价算法的困境,借此引出PageRank产生的背景。
第二部分会详细讨论PageRank的思想来源、基础框架,并结合互联网页面拓扑结构讨论PageRank处理Dead Ends及平滑化的方法。
第三部分讨论Topic-Sensitive PageRank算法。
最后将讨论对PageRank的Spam攻击方法:Spam Farm以及搜索引擎对Spam Farm的防御。
搜索引擎的难题Google早已成为全球最成功的互联网搜索引擎,但这个当前的搜索引擎巨无霸却不是最早的互联网搜索引擎,在Google出现之前,曾出现过许多通用或专业领域搜索引擎。
Google最终能击败所有竞争对手,很大程度上是因为它解决了困扰前辈们的最大难题:对搜索结果按重要性排序。
而解决这个问题的算法就是PageRank。
毫不夸张的说,是PageRank算法成就了Google今天的低位。
要理解为什么解决这个难题如此重要,我们先来看一下搜索引擎的核心框架。
搜索引擎的核心框架虽然搜索引擎已经发展了很多年,但是其核心却没有太大变化。
从本质上说,搜索引擎是一个资料检索系统,搜索引擎拥有一个资料库(具体到这里就是互联网页面),用户提交一个检索条件(例如关键词),搜索引擎返回符合查询条件的资料列表。
理论上检索条件可以非常复杂,为了简单起见,我们不妨设检索条件是一至多个以空格分隔的词,而其表达的语义是同时含有这些词的资料(等价于布尔代数的逻辑与)。
例如,提交“张洋博客”,意思就是“给我既含有…张洋‟又含有…博客‟词语的页面”,以下是Google对这条关键词的搜索结果:可以看到我的博客出现在第五条,而第四条是我之前在博客园的博客。
算法在计算机中的应用随着计算机技术的不断发展,算法作为计算机科学的核心,已经广泛应用于各个领域。
算法是指解决问题的一系列有序步骤,它能够帮助计算机高效地执行任务。
本文将探讨算法在计算机中的应用,并介绍一些常见的算法应用领域。
一、搜索引擎搜索引擎是我们日常生活中经常使用的工具,它能够根据关键词快速找到相关内容。
搜索引擎背后的核心技术就是算法。
搜索引擎通过爬虫程序将互联网上的网页进行抓取,并使用算法对这些网页进行排序,以便用户能够找到最相关的结果。
常见的搜索引擎算法包括PageRank算法和TF-IDF算法等。
二、图像处理图像处理是计算机视觉领域的重要应用之一。
在图像处理中,算法被广泛用于图像的压缩、增强、分割等方面。
例如,JPEG算法可以将图像压缩为更小的文件大小,而边缘检测算法可以帮助我们找到图像中的边界。
此外,还有很多其他的图像处理算法,如直方图均衡化算法、图像分割算法等。
三、机器学习机器学习是人工智能领域的重要分支,它通过训练算法使计算机能够从数据中学习和改进。
机器学习算法被广泛应用于各个领域,如自然语言处理、图像识别、推荐系统等。
常见的机器学习算法包括支持向量机、决策树、神经网络等。
四、数据挖掘数据挖掘是从大量数据中提取有用信息的过程。
在数据挖掘中,算法被用于发现数据之间的模式和关联。
数据挖掘在市场调研、金融分析、医疗诊断等领域起着重要作用。
常见的数据挖掘算法包括关联规则算法、聚类算法、分类算法等。
五、网络安全网络安全是保护计算机网络免受攻击和威胁的过程。
在网络安全中,算法被广泛应用于加密、认证、防火墙等方面。
例如,RSA算法是一种常用的加密算法,它能够保护数据的机密性。
此外,还有很多其他的网络安全算法,如MD5算法、SHA算法等。
六、物流优化物流优化是指通过算法来优化物流过程,以提高效率和降低成本。
在物流优化中,算法被用于路径规划、货物配送、库存管理等方面。
例如,最短路径算法可以帮助物流公司找到最短的送货路线,而遗传算法可以帮助优化货物的装载方案。
如何利用人工智能技术进行信息搜索在当今数字信息化的时代,信息搜索已经成为人们常常需要进行的一项活动。
随着技术的不断发展和进步,人工智能逐渐成为了搜索引擎的一个重要组成部分。
那么,如何利用人工智能技术进行信息搜索呢?一、推荐算法推荐算法是人工智能技术中比较常用的一种算法。
在搜索引擎中,推荐算法主要是通过分析用户的行为数据、用户的历史记录以及用户的兴趣爱好等信息,来为用户推荐相关的搜索结果。
不同的推荐算法主要有基于内容的推荐、基于协同过滤的推荐、基于隐语义模型的推荐等。
这些算法的主要目的是为让搜索结果更加有针对性、精准,并且在一定程度上减少用户搜索的时间成本。
二、智能问答智能问答是利用人工智能技术对用户提出的问题进行分析,得出相应答案的一种技术。
在搜索引擎中,智能问答主要是针对一些常见问题进行解答。
该技术可以提供一种更快速、实用的搜索方式,让用户更加便捷地获取所需信息。
采用智能问答技术进行搜索,可以让用户无需在不同的网页和搜索结果之间来回切换,节省大量的时间。
并且,智能问答技术还会根据用户的搜索历史、语言环境等因素进行动态调整,从而让搜索更加精准。
三、自然语言处理技术自然语言处理技术是指将自然语言(如中文、英文等)转化为可以由计算机进行处理的形式,然后由计算机进行处理和分析,并给出相应的信息和答案。
在搜索引擎中,自然语言处理技术主要是用来对用户输入的关键词进行处理和分析,从而得出相对应的搜索结果。
采用自然语言处理技术进行搜索,可以让搜索更加精准,避免了传统搜索引擎在处理用户输入关键词时可能出现的一些问题,例如搜索结果不够准确或者包含太多的广告等。
四、情感分析情感分析是指对用户的语言信息进行分析,判断其情感倾向,并做出相应的处理。
在搜索引擎中,情感分析主要是用来对用户搜索关键词进行分析,从而得出和用户情感相关的搜索结果。
采用情感分析技术进行搜索,可以更加深入地了解用户的需求,根据用户的情感倾向为其提供相应的信息。
英文搜索引擎1. 简介英文搜索引擎是一种通过关键字搜索英文内容的工具。
它通过自动化程序(也称为蜘蛛,机器人或爬虫)在互联网上抓取网页,并根据用户的搜索词组返回相关的搜索结果。
目前,英文搜索引擎是互联网上最为常用的工具之一。
无论是在学术研究、商业、娱乐还是日常生活中,人们都会使用英文搜索引擎来获取所需的信息。
2. 著名的英文搜索引擎以下是一些著名的英文搜索引擎:•Google: Google是目前全球范围内最受欢迎和广泛使用的搜索引擎。
它提供非常精准和全面的搜索结果,并提供了多种搜索选项,如图片搜索、新闻搜索和视频搜索等。
•Bing: Bing是微软公司开发的搜索引擎,虽然在全球范围内使用率比Google低,但在一些特定领域,如商业和科技,Bing的搜索结果更为准确和相关。
•Yahoo: Yahoo曾经是互联网界最受欢迎的搜索引擎之一,但近年来逐渐失去了市场份额。
不过,Yahoo仍然在某些国家和地区保持着一定的影响力。
3. 搜索引擎的工作原理搜索引擎的工作原理可以简单概括为三个步骤:•爬取:搜索引擎的爬虫程序会按照一定的规则从互联网上抓取网页。
这些爬虫会按照页面链接逐步遍历互联网,将抓取到的网页存储在搜索引擎的数据库中。
•索引:抓取到的网页会被索引程序分析和处理,提取出关键词和相关信息,并建立一个倒排索引。
这个倒排索引包含了每个关键词出现在哪些网页中的信息。
•检索:当用户输入关键词进行搜索时,搜索引擎会根据用户输入的关键词在倒排索引中查找相关的网页,并按照一定的算法对搜索结果进行排序和展示。
4. 搜索引擎的搜索算法搜索引擎使用复杂的搜索算法来确定搜索结果的相关性和排序。
这些算法会根据多个因素来评估网页的质量和相关性。
其中一些常用的算法包括:•PageRank算法:PageRank是Google发明的一种算法,通过分析网页之间的链接关系来评估网页的重要性和影响力。
•TF-IDF算法:TF-IDF算法通过计算词频(Term Frequency)和逆文档频率(Inverse Document Frequency)来确定关键词的重要性。
搜索引擎工作原理搜索引擎是一种用于帮助用户在互联网上查找信息的工具,通过收集、索引和展示网页内容,为用户提供相关的搜索结果。
搜索引擎的工作原理可以分为以下几个步骤:网页抓取、索引建立和搜索结果展示。
1. 网页抓取搜索引擎通过网络爬虫(也称为蜘蛛、机器人)自动访问互联网上的网页,并将网页内容下载到搜索引擎的服务器上。
爬虫按照一定的规则遍历网页,通过链接跳转和网页分析等方式获取更多的网页。
爬虫会定期访问已抓取的网页,以便更新搜索引擎的索引。
2. 索引建立在网页抓取后,搜索引擎会对网页内容进行处理和分析,提取出网页中的关键词、标题、摘要等信息,并将这些信息存储在索引数据库中。
索引数据库是搜索引擎的核心组成部分,它包含了大量的网页信息和相关的索引信息。
索引数据库会根据关键词的频率、位置和其他相关度因素对网页进行排序和分类。
3. 搜索结果展示当用户在搜索引擎中输入关键词进行搜索时,搜索引擎会根据用户的搜索词在索引数据库中进行匹配和排序。
搜索引擎会根据网页的相关度对搜索结果进行排序,并将最相关的网页展示给用户。
搜索引擎还会根据用户的搜索历史、地理位置和其他个性化因素对搜索结果进行调整和个性化推荐。
搜索引擎的工作原理涉及到多个技术和算法,以下是一些常用的技术和算法:1. 爬虫技术爬虫技术是搜索引擎获取网页内容的基础。
爬虫会按照一定的规则和策略遍历网页,通过链接跳转和网页分析等方式获取更多的网页。
爬虫还会处理网页中的链接,将新的网页添加到待抓取队列中。
爬虫的设计和实现需要考虑到网页的数量、抓取速度和网络资源的限制等因素。
2. 关键词匹配算法关键词匹配算法是搜索引擎对用户搜索词和网页内容进行匹配的核心算法。
关键词匹配算法会根据关键词的频率、位置和其他相关度因素对网页进行排序和分类。
常见的关键词匹配算法包括向量空间模型(VSM)、BM25和TF-IDF等。
3. 网页排名算法网页排名算法是搜索引擎对搜索结果进行排序的算法。
SEO搜索引擎算法更新回顾与分析作者:周晓锋随着WEB2.0时代搜索引擎优化的发展普及,搜索算法的升级已经受到越来越多站长们的重视与关注。
在国外,Google作为全球搜索先驱早已开放了算法更新预告,以及升级意见征集等一系列的搜索用户体验的建设。
相对国内搜索巨头百度而言,这一系列的平台建设仅在2010年才陆续开始针对站长工具、开放平台以及算法预告进行补充与完善。
截止至今两大搜索引擎的算法更新历程,同样见证着WEB1.0时代的衰败与新兴发展,以下将这一系列的数据进行了如下收集整理与趋势分析:搜索引擎算法更新历史与发展趋势的对比分析:一、搜索数据规范化与SERP体验改善在早期传统的搜索发展当中,由成千上万级网站所组成的搜索内容与收录展现,通过机器蜘蛛爬行、索引与数据抓取处理等等,这一系列关于效率优势、信息可靠度以及精确性的搜索体验追求。
衍生而至的算法更新围绕着索引规范、信息关联以及交互应用等几个方面的体验机制。
无论是2010年Google Caffeine 咖啡因系列搜索速度的算法提升,亦或是今年百度对于Canonical 标准化的规范标签支持。
搜索结果的处理效率与可靠信息规范体验的将变得越来越重要。
二、网站投票过渡至用户投票方式对于搜索引擎来说,效率化的抓取执行与数据处理正是人工网站目录无可取代的领先优势。
但是由于任何机器系统都会存在的机制类缺憾,人为操控的排名BUG一直以来都是困扰搜索引擎的巨大难题之一。
自2010-2011年以来,社会化多媒体的快速发展使得用户、内容、网站三者产生翻天覆地的变化,由UGC(用户生成内容)所带来的分享化趋势,同样迎合着搜索引擎对于排名机制完善的渴求与改善。
三、为信息需求建立可靠、多样、即时化的搜索体验以往不同的是,当下搜索结果早已告别了早期千篇一律的文字形式。
随着高速发展的网络时代,越来越多的网站内容呈现出几何式的数据增长,搜索体验的提升正是用户对于海量数据查找的准确、关联与价值判断的基本需求。
搜索引擎工作原理搜索引擎是一种帮助用户从互联网上找到所需信息的工具。
它通过收集、索引和排序互联网上的网页内容,以便用户能够快速准确地找到他们需要的信息。
下面将详细介绍搜索引擎的工作原理。
1. 网页抓取与索引搜索引擎通过网络爬虫(也称为蜘蛛)来抓取互联网上的网页。
网络爬虫会按照一定的规则从一个网页跳转到另一个网页,将这些网页的内容下载到搜索引擎的数据库中。
爬虫会根据网页上的链接、导航栏和网站地图等信息来确定要抓取的网页。
抓取到的网页内容会被搜索引擎进行处理和解析。
搜索引擎会提取网页的标题、正文、链接、图片等信息,并建立索引。
索引是搜索引擎的核心组成部分,它类似于一本书的目录,通过索引可以快速查找到相关的网页。
2. 关键词处理与查询当用户在搜索引擎中输入关键词进行搜索时,搜索引擎会对用户输入的关键词进行处理。
处理包括去除停用词(如“的”、“是”等常用词)、同义词处理和词干提取等。
这样可以提高搜索结果的准确性和相关性。
搜索引擎会将处理后的关键词与索引中的网页进行匹配。
匹配过程中,搜索引擎会根据关键词在网页中的出现频率、位置和权重等因素来确定网页的相关性。
一般来说,关键词在网页的标题、正文和链接等位置出现的频率越高,相关性越高。
3. 排名与排序算法搜索引擎会根据匹配度对搜索结果进行排序。
排序算法是搜索引擎的核心算法之一,它决定了搜索结果的排序顺序。
常见的排序算法包括PageRank算法、TF-IDF算法和机器学习算法等。
PageRank算法是由谷歌公司提出的一种排序算法。
它通过分析网页之间的链接关系来评估网页的重要性。
网页被更多其他网页链接的次数越多,它的重要性就越高,排名也就越靠前。
TF-IDF算法是一种根据关键词在网页中的出现频率和在整个互联网上的出现频率来计算网页相关性的算法。
关键词在网页中出现的频率越高,相关性就越高,排名也就越靠前。
机器学习算法是近年来搜索引擎中应用较多的排序算法。
它通过分析用户的搜索行为和网页的特征来预测用户的需求,从而对搜索结果进行个性化排序。
PR值是谷歌搜索引擎评定网站页面等级的算法,PR值越高代表网站内容质量越好,PR值的高低不是搜索引擎对网站的评价,而且很多时候PR值对交换友情链接时也起到决定性因素,在思考如何提升网站域名PR值之前,学习seo的朋友可以先看看PR值算法原理,通过原理就可以很容易了解到如何提升网站域名PR 值。
PR值算法核心是:网站或网页被其他网页链接的数量,如果网站页面被很多高权重网站页面引用,那么这个网站或者网页PR值较高。
当然判断网站优劣PR
值起到的作用标准不是很高,但是网站PR值高低从侧面也反映了网站的质量。
高内容质量网站的链接和高域名PR值的网站链接对网站域名PR值的提升起着决定性因素。
如何提升网站域名PR值,可以从多个方面入手:
1、增加网站内容质量,不仅要保持原创性,而且要保证质量。
良好的内容不仅有利于用户体验,而且有助于提升搜索引擎对网站友好度、内容的收录和网站权重。
2、与高PR值网站链接,最好找同行业网站进行友情链接,其次要防止链接欺骗以及PR值劫持的网站。
3、写高质量文章内容进行投稿:在一些大型门户网站进行投稿,并留下自己网站链接地址,如果内容质量高,被转载的几率就会增加,这也是提升域名PR值很好的方法。
4、提交目录及导航网址:例如雅虎目录、dmoz等目录类网站,其次是很多导航网址,也有利于提高网站域名PR值。
提升网站域名PR值方法远远不止这几种,其次网站内容质量也是提升网站域名PR值的关键,特别是网站中的无效链接,低质量内容,还可能导致网站PR值的下降,想要提升网站域名PR值,不仅要从网站站内优化入手,做好内容和链接,其次高质量的外部链接必不可少。
案例:郑州金祥瑞净水设备
金祥瑞热力。
HITS 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为―CLEVER‖的研究项目中的一部分。 具体解释
一个网页重要性的分析的算法。 算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores)这两个值是相互依存、相互影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值指的是所有导入链接所在的页面的枢纽值之和。 通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。 在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。
Hits算法 HITS(Hyperlink – Induced Topic Search) 算法是利用HubPAuthority的搜索方法,具体算法如下: 将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(root set),记为S,则S满足: 1.S中的网页数量较少 2.S中的网页是与查询q相关的网页 3.S中的网页包含较多的权威(Authority)网页 通过向S 中加入被S 引用的网页和引用S 的网页,将S 扩展成一个更大的集合T. 以T 中的Hub 网页为顶点集V1 ,以权威网页为顶点集V2 。 V1 中的网页到V2 中的网页的超链接为边集E ,形成一个二分有向图. 对V1 中的任一个顶点v ,用h ( v) 表示网页v 的Hub 值,且h ( v)收敛;对V2 中的顶点u ,用a ( u) 表示网页的Authority 值。 开始时h ( v) = a ( u) = 1 ,对u 执行I 操作,修改它的a ( u) ,对v执行O操作,修改它的h ( v) ,然后规范化a ( u),h ( v) ,如此不断的重复计算下面的I操作和O操作,直到a ( u),h(v)收敛 。 其中I操作:a ( u) = Σh ( v) ;O 操作: h ( v) = Σa ( u) 。每次迭代对a ( u) 、h ( v) 进行规范化处理: a ( u) = a ( u)/Σ[ a ( q) ]2 ; h ( v) = h ( v)/Σ[ h ( q) ]2 。
HITS搜索引擎算法的研究 理解HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。HITS(Hypertext-InducedTopic Search)算法是利用Web的链接结构进行挖掘典型算法,其核心思想是建立在页面链接关系的基础上,对链接结构的改进算法。[1]HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息(如权威性),具有计算简单且效率高的特点。HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高。 首先,它完全将网页的内容或文本排除在外,仅考虑网页之间的链接结构来分析页面的权威性,这与现实网络中的权威页面相比,其不科学性显而易见。 然而HITS算法也有其明显的不足。因为权威页面必须针对某一主题或关键词而言。某一页面对一确定主题的具有较大权威性的页面并不意味在其他与其无关的主题方面同样具有权威性。其次一个页面对另一页面的引用有多种情况,其中包含了一页面对另一页面的认可,但除此之外也有其他目的链接,如为了导航或为了付费广告。就HITS算法的思想与实现过程做了细致的研究与概括。而HITS算法在实现过程中均没有考虑以上情况.导致了结果与目标的差距。 对HITS算法的第二个不足,即非正常目的的引用.在HITS算法看来,也误认为是正常引用,导致实际结果与目标的出入。针对前面第一种不足,就有相关的学者提出了一种利用超链文字及其周围文字与关键字相匹配而计算超链权值的方法,并引入系数对周围文字和超链文字进行权值的相对控制,很好地将页面文本信息引入到HITS算法,提高了算法的可靠性,并在现实中取得了很好的效果。 后来,经过不断的改进。HITS算法又引入了时间参数,即利用对一链接引用的时问长短来评价是否为正常引用。因为非正常链接其引用时问肯定不会很长(如交换链接、广告链接),相反,如果一页面对另一页面的链接时间较长,则必然反映此页面就是用户的寻找页面。即目标页面或至少是正常引用。 如设定访问时间少于1分钟者为非正常引用。如果设定时间阀值,则可以将非正常引用的链接在HITS算法的实现过程中筛选出来。另外可构造时间访问函数,控制权威页面的相对大小。如随访问时间的增大而其权威性也逐渐非线性增大.这样可为HITS算法的权威页面提供更合理、更科学的解释。
PageRank(网页级别),2001年9月被授予美国专利,专利人是Google创始人之一拉里·佩奇. 它是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的重要标准之一。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具―等级/重要性‖的网页在搜索结果中令网站排名获得提升,从而提高搜索结果的相关性和质量。其级别从0到10级,10级为满分。PR值越高说明该网页越受欢迎(越重要)。例如:一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎(或者说极其重要)。一般PR值达到4,就算是一个不错的网站了。Google把自己的网站的PR值定到10,这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。
Google的PageRank根据网站的外部链接和内部链接的数量和质量来衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这个就是所谓的―链接流行度‖——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性就越高。 Google有一套自动化方法来计算这些投票。Google的PageRank分值从0到10;PageRank为10表示最佳,但非常少见,类似里氏震级(Richter scale),PageRank级别也不是线性的,而是按照一种指数刻度。这是一种奇特的数学术语,意思是PageRank4不是比PageRank3好一级——而可能会好6到7倍。因此,一个PageRank5的网页和PageRank8的网页之间的差距会比你可能认为的要大的多。 PageRank较高的页面的排名往往要比PageRank较低的页面高,而这导致了人们对链接的着魔。在整个SEO社区,人们忙于争夺、交换甚至销售链接,它是过去几年来人们关注的焦点,以至于Google修改了他的系统,并开始放弃某些类型的链接。比如,被人们广泛接受的一条规定,来自缺乏内容的―link farm‖(链接工厂)网站的链接将不会提供页面的PageRank,从PageRank较高的页面得到链接但是内容不相关(比如说某个流行的漫画书网站链接到一个叉车规范页面),也不会提供页面的PageRank。Google选择降低了对PageRank的更新频率,以便不鼓励人们不断的对其进行监测。 Google PageRank一般一年更新四次,所以刚上线的新网站不可能获得PR值。你的网站很可能在相当长的时间里面看不到PR值的变化,特别是一些新的网站。PR值暂时没有,这不是什么不好的事情,耐心等待就好了。 为您的网站获取外部链接是一件好事,但是无视其他SEO领域的工作而进行急迫的链接建设就是浪费时间,要时刻保持一个整体思路并记住以下几点: ·Google的排名算法并不是完全基于外部链接的 ·高PageRank并不能保证Google高排名 ·PageRank值更新的比较慢,今天看到的PageRank值可能是三个月前的值 因此我们不鼓励刻意的去追求PageRank,因为决定排名的因素可以有上百种。尽管如此,PageRank还是一个用来了解Google对您的网站页面如何评价的相当好的指示,Anzone建议网站设计者要充分认识PageRank在Google判断网站质量中的重要作用,从设计前的考虑到后期网站更新都要给予PageRank足够的分析,很好的利用。我们要将PageRank看作是业余爱好而不是一种信仰。
pagerank原理 通过对由超过 50,000 万个变量和 20 亿个词汇组成的方程进行计算,PageRank 能够对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。 此外,PageRank 还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。重要网页获得的 PageRank(网页排名)较高,从而显示在搜索结果的顶部。Google 技术使用网上反馈的综合信息来确定某个网页的重要性。搜索结果没有人工干预或操纵,这也是为什么 Google 会成为一个广受用户信赖、不受付费排名影响且公正客观的信息来源。 其实简单说就是民主表决。打个比方,假如我们要找李开复博士,有一百个人举手说自己是李开复。那么谁是真的呢?也许有好几个真的,但即使如此谁又是大家真正想找的呢?:-) 如果大家都说刚从 Google 离职的那个是真的,那么他就是真的。 在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。这就是 Page Rank 的核心思想。 当然 Google 的 Page Rank 算法实际上要复杂得多。比如说,对来自不同网页的链接对待不同,本身网页排名高的链接更可靠,于是给这些链接予较大的权重。Page Rank 考虑了这个因素,可是现在问题又来了,计算搜索结果的网页排名过程中需要用到网页本身的排名,这不成了先有鸡还是先有蛋的问题了吗? Google 的两个创始人拉里·佩奇 (Larry Page )和谢尔盖·布林(Sergey Brin) 把这个问题变成了一个二维矩阵相乘的问题,并且用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到他们的真实值。值得一提的是,这种算法是完全没有任何人工干预的。 理论问题解决了,又遇到实际问题。因为互联网上网页的数量是巨大的,上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有十亿个网页,那么这个矩阵 就有一百亿亿个元素。这样大的矩阵相乘,计算量是非常大的。拉里和谢尔盖两人利用稀疏矩阵计算的技巧,大大的简化了计算量,并实现了这个网页排名算法。今天 Google 的工程师把这个算法移植到并行的计算机中,进一步缩短了计算时间,使网页更新的周期比以前短了许多。 网页排名的高明之处在于它把整个互联网当作了一个整体对待。它无意识中符合了系统论的观点。相比之下,以前的信息检索大多把每一个网页当作独立的个体对待,很多人当初只注意了网页内容和查询语句的相关性,忽略了网页之间的关系。 今天,Google 搜索引擎比最初复杂、完善了许多。但是网页排名在 Google 所有算法中依然是至关重要的。在学术界, 这个算法被公认为是文献检索中最大的贡献之一,并且被很多大学引入了信息检索课程 (Information Retrieval) 的教程。 网站外部链接建设 在计算网站排名时,Pagerank会将网站的外部链接数考虑进去。并不能说一个网站的外部链接数越多其PR值就越高,如果这样的话,一个网站尽可能获得最多的外