当前位置:文档之家› 自动分类在搜索引擎性能优化中的应用

自动分类在搜索引擎性能优化中的应用

自动分类在搜索引擎性能优化中的应用

摘要:本文论述了自动分类在搜索引擎中的作用,介绍了网页自动分类实现的方法,分析了网络自动分类系统的实例,最后展望了自动分类在搜索引擎中的应用前景。

关键词:自动分类搜索引擎性能优化

中图法分类号:G354.4文献标识码:A

A pplication of automatic classification in the search engine’s optimization

Cao Shujin Yang Tao

(Departm ent of Inform ation M anagem ent, S un Yat-S en University,Guangzhou,510275) Abstract: This paper discusses automatic classification’s types and functions. Then introduces the methods to realize automatic cl assification .It also analyses some search engines that have adopted automatic classification. At last, it anticipates the use of automatic cl assification.

Key Words: Automatic cl assification ; Search engine; Performance optimization

根据中国互联网信息中心2003年1月发布的《中国互联网络发展状况统计报告》,用户经常使用的网络服务中搜索引擎占68.3%,用户得知新网站的主要途径中搜索引擎占84.6[1]%。搜索引擎现在已成为用户利用因特网信息资源所不可缺少的工具。但是搜索引擎现在的性能还不能令人满意,性能亟待优化。本文就将探讨如何利用自动分类来对搜索引擎的性能进行优化。

1 自动分类的种类和作用

1.1自动分类的种类

自动分类就是用计算机系统代替人工对文献等对象进行分类,一般包括自动聚类和自动归类。自动聚类指的是由计算机系统按照被考察对象的内部或者外部特征,按照一定的要求(如类别的数量限制,同类对象的亲近程度等等),将相近、相似或者相同特征的对象聚合在一起的过程。自动归类是指计算机系统按照一定的分类标准或者分类参考,将被考察对象划归到不同类目的过程。[2]

自动聚类和自动归类的主要区别就是自动聚类不需要事先定义好分类体系,而自动归类则需要确定好类别体系,并且要为每个类别提供一批预先分好的对象作为训练文集,分类系统先通过训练文集学习分类知识,在实际分类时,再根据学习到的分类知识为需要分类的文献确定一个或者多个类别。本文中所指的自动分类是指对网页的自动分类,包括网页的自动

归类和自动聚类。

1.2自动分类的作用

目前搜索引擎提供两种信息查询方式:分类浏览和关键词检索。分类浏览一般是基于网站分类目录。它浏览的对象是网站,目录分类的质量较高,检索效果好;但是成本高、信息更新慢、维护的工作量大。关键词检索的对象不是网站,而是符合条件的网页。关键词检索信息量大、更新及时、不需要人工干预;但是返回信息过多,质量太低。

目前,很少搜索引擎提供对网页的分类浏览或检索,其原因之一是由人工进行网页的分类几乎是不可能的。如果能够实施网页的自动分分类,就可以实现网页标引和检索的分类主题一体化,搜索引擎就能够兼有分类浏览、检索和关键词检索的优点,同时具备族性检索和特性检索的功能;能够深入到网页层次,帮助用户迅速的判断返回的结果是否符合自己的检索要求。例如在关键词检索中用熊猫作为检索词,返回的结果中作为动物的熊猫、作为一种杀毒软件的熊猫和作为一种电子产品的熊猫等内容是夹杂在一起的,用户要对结果进行分析判断,才能确定那些是自己需要的。如果采用了自动分类技术,就可将不同的内容分到不同的类目中去,从而节省用户的判断时间,提高检索效率。

2 自动分类的实现方法

2.1 自动归类的实现方法

根据分类知识的获取方法不同,可以将文本自动分类系统分为两种类型:基于知识工程的分类系统和基于统计的分类系统。基于知识工程的方法主要依赖语言学知识,需要编制大量的推理规则作为分类知识,实现相当复杂,而且其开发费用相当昂贵。这方面的系统有卡内基集团为路透社开发的Construe系统。现在应用比较多的是基于统计的自动分类系统,它忽略文本的语言学结构,将文本作为特征项集合来看,利用加权特征项构成向量进行文本表示,利用词频信息对文本特征进行加权。它实现起来比较简单,并且分类准确度也高,能够满足一般应用的要求。向量空间模型是基于统计的分类系统中广泛采用的文本计算模型。向量空间模型可以将给定的文本转换成一个维数很高的向量。向量空间模型最突出的特点是可以方便的计算出两个向量的相似度,即向量所对应的文本的相似性。

在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短

语构成,文本可以用特征项集表示为D(T

1,T

2

,…,T

n

),其中T

k

是特征项,1<=k<=N。例如

一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为D(a,b,c,d)。对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度。即D=

D(T

1,W

1

;T

2

,W

2

;…,T

n

,W

n

),简记为D=D(W

1

,W

2

,…,W

n

),我们把它叫做文本D的向量

表示。其中W

k 是T

k

的权重,1<=k<=N。在上面那个例子中,假设a、b、c、d的权重分别为

30,20,20,10,那么该文本的向量表示为D(30,20,20,10)。在向量空间模型中,两个

文本D

1和D

2

之间的内容相关度Sim(D

1

,D

2

)常用向量之间夹角的余弦值表示,公式为:

∑∑

==

=

?

=

=

n

k

n

k

k

k

n

k

k

k

W

W

W

W

D

D

11

2

2

2

1

1

2

1

2

1

)

)(

(

cos

)

,

Sim(θ

其中,W

1k 、W

2k

分别表示文本D

1

和D

2

第K个特征项的权值,1<=k<=N。

在自动归类中,我们可以利用类似的方法来计算待归类文档和某类目的相关度。例如文

本D

1的特征项为a,b,c,d,权值分别为30,20,20,10,类目C

1

的特征项为a,c,d,e,

权值分别为40,30,20,10,则D

1的向量表示为D

1

(30,20,20,10,0),C

1

的向量表示为C

1

(40,

0,30,20,10),则根据上式计算出来的文本D

1与类目C

1

相关度是0.86。

网页自动归类一般包括以下步骤:

(1)网页特征的抽取和加权

网页特征的抽取是网页自动归类和自动聚类的前提。网页特征的抽取可以从以下几个方面提高网页自动分类系统的性能。首先是分类速度,通过网页特征的选择,可以大大减少特征集合中的特征数,从而提高网页自动归类系统的运行速度,使之能够满足现实需求。二是通过适当的特征选择,不但不会降低系统的准确性,反而会使系统的精度提高。这一点已经为实验所证明。[3]

为了使计算机能够更有效地处理网页特征,必须对网页特征进行特征加权,将网页特征表示成计算机能够处理的数学向量。网页数据是一种半结构化的数据,要比文本复杂的多。在网页表示中,对任一特征而言,有两个影响它权值的因素。一是该词的词频,另一个是该词在网页中出现的位置,在网页中不同位置出现的语词的价值是不同的。正如张琪玉教授指出:“如果从针对文献整体的检准率的角度看,文献题名中的词最为有效。其次为文献中的小标题或者章节名、文献摘要。最后为文献中的词。”丁璇等人随机抽取了300篇经济类网页,对这些网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析、研究,得出了网页内容主题与网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML标记等12个标引源的主题表达能力的先后顺序。得出的结论是首段>文章标题>HTML标记>第一段首句>网页标题>第一段尾句>第二段首句>第二段尾句>尾段>第三段首句>其它>第三段尾句。并建议它们的加权值为5:5:5:4:4:4:2:2:2:2:2:2。[4]

(2)机器学习

机器学习的方法主要有支撑向量机(Support vector

machine)、最近K邻居方法和贝叶斯算法等[5-9]。下面简

要介绍支撑向量机和最近K邻居方法。

支撑向量机是建立在计算学习理论的结构风险最小化

原则之上,其主要思想针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。支撑向量机的原理如左图所示,其中的实心点和空心点代表两个类别的训练样本,H 为将这两个类别分开的分类线,H1和H2分别是经过这两个类别样本中距分类线最近的点且平行于分类线的直线,H1和H2之间的距离叫做这两个类别的分类间隙。支撑向量机的目标是找到最优分类线,最优分类线不但能将两个类别的样本准确分开,而且要使两类的分类间隙最大。

最近K 邻居方法的基本思路是在给定新网页后,考虑在训练网页集中与该网页距离最近(最相似)的K 篇文本,根据这K 篇网页所属的类别判断新网页所属的类别。它首先根据特征项集合来对训练网页向量重新描述,在新的网页达到首先确定新网页的向量表示,然后在训练网页中选出与新网页最相似的K 个网页。也是根据网页的向量之间的距离,具体如下:

∑∑∑===?=M

k M k jk ik M

k jk ik j i W W W W

d d 1122

1))((),Sim( 其中K 值的确定是一个关键的问题。现在的一般做法是先选定一个初始值(几百到几千之间),在进行自动归类的过程中根据结果进行调整。接下来在新网页的K 个邻居中,依次计算每一类的权重,计算公式为:

∑∈=KNN

d j i i j i C d y d x Sim C x p ),(),(),( 其中,x 为网页的特征向量,),(i d x Sim 为相似度计算公式,而),(j i C d y 为类别属性函数,

如果i d

属于类j C ,那么函数值为1,否则为0。最后比较类的权重,将网页分到权重最大

的那个类别中去。 2.2 自动聚类的实现方法

网页的自动聚类一般包括四个步骤:

(1)网页表示:包括特征抽取和特征选择。特征选择是选择那些最具有区分性的特征,也就是最能把不同类别区分开来的特征,而不是大多数对象都具有的特征。

(2)相似度计算。主要根据网页表示的距离函数来定义。

(3)聚类:根据网页表示和相似度计算的结果,按照一定的规则将聚类网页分成不同的类。

(4)给出聚类的标识。在最后形成的每一类中抽取一定具有代表性的特征,作为该类的标识。

常用的聚类方法有单遍聚类法、逆中心距聚类法、密度测试法、图聚类法等[10-13]。下面对以上方法做一简要介绍。

单遍聚类法是按照一定的顺序从待分类的网页集合中取出一篇网页,任意赋予它一个新

的类别,其标引向量作为该新类的聚类中心向量,此后取出的各篇网页与该类中心向量进行运算得到相似系数,当相似系数大于给定的一个预定值的时候,就将该网页归入此类,同时调整类中心向量。如果相似系数不在给定的预定值范围内,则该网页就另立新类并且创建该类中心向量。要处理的每一篇网页依次与已有的类中心向量进行比较,将其归入相似度最大(且在预定值范围之内)的类中,并且及时调整该类的中心向量。

逆中心聚类法与单遍聚类法比较类似,具体过程如下:任取一篇网页作为第一个聚类中心,计算剩下的网页到该网页的距离,距离最大的作为第二个聚类中心。计算所有非聚类中心的网页到每个聚类中心的距离,将每一篇网页到每个中心距的最小距离求出,选择出最大的最小中心距者作为新的聚类中心。当然,这个还要结合所定义的中心距离制约机制等其它条件。聚类中心确定以后,其余文献就近聚类。

密度测试法的原理是如果某个网页的附近集聚有较多的网页,并且在其周围较广的范围内也分布有一定的网页,那么该网页可作为一个聚类中心。在密度测试中,网页被划分为三种类型:未聚类网页,即还没有被集聚到任何一类中的网页;松散型网页,它们与已经存在的类中心相似度比较小,尚不具备被聚于某类的条件;已被聚类的网页。在聚类开始时,所有的网页都可以看作未聚类网页。用D

i

表示某篇网页,如果它同时满足以下两个条件,则

可以将D

i 作为类别中心:至少有n1篇网页,它们与D

i

的相似系数都超过T1;至少有n2篇

网页,它们与D

i

的相似系数都超过T2,其中T1≥T2且n1≤n2。T1、T2、n1、n2都是事先给定的参数。聚类的过程如下:在未聚类网页中任取一篇,把它作为聚类中心并对其进行密度测试,测试范围为尚未聚类和松散型的网页。如果测试失败,即被测试的网页周围不具有指定数量的网页,则该网页被作为松散型网页。然后在未聚类网页中重新选取网页测试聚类中心;如果测试成功,即被测试网页周围集聚一定预定值范围内的相似网页,则该网页被作为一个聚类中心,并将其中相似度超过T1的网页视为已聚类网页,对于相似度小于T1又大于T2的网页,视为松散型网页,其他网页不改变原有类型。聚类过程一直持续下去到没有未聚类网页为止。最后将剩下的松散型网页就近聚集到已存在的类别中。

3 自动分类在搜索引擎中应用的实例

3.1 WWlib自动归类系统

WWlib(https://www.doczj.com/doc/a32405812.html,/wwlib/)是伍尔弗汉普顿网络图书馆的简称(Wolverhampton Web Library),它是使用了自动归类技术的网络信息检索系统。它的主要组成部分如下[14-15]:

(1)蜘蛛:任务是自动从网络上抓取网页。

(2)索引器:它接收蜘蛛抓回来的网页并在本地服务器上储存一个副本,给网页一个唯一的索取号,同时创建一个新的元数据模板,将本地的副本分配给分析器,建造和增加分类器的元数据模板。

(3)分析器:对嵌入网页中的超链接进行分析。如果发现是有效的超链接,就将它的网址传递给索引器并检查它是否属于英国。

(4)分类器:在对索引网页进行分析的同时给出杜威十进分类法分类号。

(5)构建器:分析索引器提供的网页及其元数据,建立索引数据库,确定索引号和关键词之间的对应关系,使得使用索引号就可以迅速获得相应的关键词。

(6)搜索器:接受用户的检索提问,在构建器的索引数据库中进行查询,用得出的索取号获得相应的元数据和本地副本,使用以上的信息得到一个详细的结果,并按相关度排列检索结果。

WWlib中分类器对网页的处理方法如下:首先,对网页进行自动标引,对网页中的语词根据它们的词频和网页中出现的位置赋予权重。然后将处理后得到的语词集合与杜威十进分类法分类表中的每一个款目进行比较。每个款目包括它们的分类号、一长串关键词和它们的同义词。从一级类目开始比较,直到出现比较显著的匹配值为止,此时将该网页归入此类。匹配值是在综合考虑到语词的相似度以及文档的长短等因素之后给出的。

WWlib提供的检索途径有关键词检索、分类号检索、浏览类目下收录的网页等。WWlib 也支持布尔逻辑检索和截词检索。检索结果分为两行,第一行为分类号、网页标题,第二行是网页内容摘要。WWlib主要的问题是数据库规模太小,笔者在2003年4月18日查看时其款目只有4874个。但是它的方法对于今后大规模网页的自动分类仍然有一定的借鉴意义。

3.2 Grouper自动聚类系统

Grouper是Oren Zamir和Oren Etzioni 研制的一个自动聚类系统,它的主要作用是对Huskysearch(这个是他们开发的一个元搜索引擎)返回的结果进行自动聚类。他们在Grouper: A dynamic clustering interface to web search results[16]一文中详细描述了它的原理和功能,很遗憾的是随着Oren Zamir和Oren Etzioni的毕业离校,这两个系统也停止了对外服务,但是Grouper还是具有很大的参考价值。

Grouper采用的是一种叫做后缀树聚类(Suffix Tree Clustering)的算法(下文简称STC)。STC是一种线性时间聚类算法,根据待聚类网页中的相似短语进行聚类。这里所说的短语就是指几个有序的词。此算法可以分为三个步骤。

(1)网页“清洗”。这一步骤可以看作是网页特征的抽取。它对代表网页特征的字符串进行过滤,标明各句之间的间隔,去掉不是文字的标记符号(如HTML标记、大部分的标点)。

(2)确定基本聚类串。基本聚类串是一些具有共同短语网页的集合。它是在对网页特征进行抽取的同时使用STC算法进行计算后得到的。对于每一个基本聚类串,根据它包含的网页特征的数量以及组成短语的词的个数赋予一定的权值。但是,在停用词表中出现的词或者过于高频词或者低频词对基本聚类串的权值没有贡献。

(3)合并基本聚类串为最后的结果。其主要的依据是同一聚类中的网页在语义上的相关性,允许交叉聚类,也就是一篇网页可以在多个聚类中出现。

STC算法的主要特点有:(1)它是一种模糊聚类方法,允许交叉聚类。(2)使用短语而不是词去判断网页的相似性,同时也考虑这些短语出现的位置和顺序。它用共同短语来揭示聚类的内容,对用户而言这个也是一个有丰富信息量的摘要。(3)速度快,它是对元搜索引擎的结果进行聚类,在元搜索引擎返回结果的同时就开始工作,通常情况下在接收到最后一篇网页之后就可以显示出结果,不会产生明显的迟滞现象。

Grouper以表格形式来显示聚类结果。每一类用一行表示。首先是该类的大小,用它所包括的网页数量来标识;其次是共同短语,就是在该类中出现的高频词,同时用数字表示出该共同短语在此类中出现的百分比;最后是三个该类实例网页的标题。如果用户对某一类有兴趣,想深入看下去,可以点击“查看结果”这个链接,进入的页面就将该类中所有网页的标题都列出来了,点击网页的标题就可以看到具体的页面。

Grouper还有一个相关反馈的功能,可以根据某类来对检索策略进行修改,也就是利用该类中的共同词语来重新检索。

3.3 Vivísimo自动聚类系统

Vivísimo(https://www.doczj.com/doc/a32405812.html,)是个元搜索引擎,它调用AltaVista、MSN、 Netscape、Lycos、 Looksmart、 FindWhat等搜索引擎的结果(用户在它的高级检索中可以选择具体调用那一个或者那一些搜索引擎),对它们进行自动聚类后返回给用户。Vivísimo已经连续两年(2002年和2003年)被搜索引擎观察(Search Engine Watch)的专家评为“最好的元搜索引擎(Best Meta-Search Engine)”,英国物理学会出版社(Institute of Physics Publishing)也选择了Vivísimo来提供检索结果的自动聚类,以加强他们的电子期刊服务工作。[17]

Vivísimo基于的原理是一种叫做准确描述所有配对(concise all pairs profiling)(简称为CAPP)的方法。[18-19]这种方法着眼于形成可描述的聚类。它的基本原理是将所有的类别成对的进行比较,找出能够将每一对类别区分开来的特征,然后对那些特征进行组织,形成最后的描述,保证每一对至少有一个特征能够将它和其他对区别出来。

Vivísimo自动聚类所依据的是搜索引擎返回的网页的网址、标题和简单描述。而不是整个网页。我们可以通过下图来看Vivísimo的一些特点。

从图中我们可以清楚的看到Vivísimo采用类似于Windows资源管理器的界面来显示结果,非常直观。Vivísimo用一个词来对该类进行描述,点词语左边的“+”号就可以展开下级类目(如果“+”号是灰色的话就表示没有下位类了)。Vivísimo也允许交叉聚类。甚至有类目互为上下位类。例如Giant Panda(图中的第一个类目)的下位类是Panda Bear,Panda Cam,National Zoo,Bamboo等,而与图中的第三个类(与第一个类目应该是同一级的就是Panda Bear,它的下位类是Tare and Panda,Panda Bear's Playhouse,Giant Panda等。

尽管Vivísimo现在的性能不是令人很满意,但是毕竟它是少数几个投入商业营运并且取得不错口碑的自动聚类系统。如果不断对自动聚类系统进行改进,提高它的性能,自动聚类系统就可能有广阔的前景。

4 自动分类在搜索引擎中应用的策略分析

4.1自动聚类和自动归类的应用

从上文的论述中,我们可以知道,就目前的情况而言,自动聚类在搜索引擎中的实现要比自动归类容易一些,聚类的效果也比较显著。因此,可以考虑在搜索引擎中首先采用自动聚类。

如果要使用自动归类的话,首先就要考虑使用什么分类法。现在使用的分类法中既有传统的图书馆分类法,也有适应网络环境而生的网络分类法。二者各有千秋,传统的图书馆分类法系统性强,使用范围广,网络分类法比较灵活。如果条件许可的话,最好是两种类型的分类法都使用。对于熟悉图书馆分类法的用户就提供图书馆分类法的结果,对于一般用户则提供自编的网络分类法。在使用分类法的时侯,还要考虑分类的粗细问题,也就是分到几级

类目。对于网页的分类,可能没有必要分得很细。下面主要论述自动聚类实现时涉及到的问题。

4.2应用的时机

应用的时机是指自动聚类是在对网页数据进行索引的时候实施,还是在搜索引擎返回检索结果之后实施。前者可以利用网页的全文,后者一般只是使用网页的网址、标题和摘要等少量信息。一般而言,前者的结果要准确一些,但是综合考虑,后者的精确度虽然不如前者,但是成本比较低,实用性更强。它不需要对网页进行标引等预处理,工作量会大大降低,并且随着技术的发展,结果也会越来越令人满意。对于结果相关性的判断,既有客观因素,也有主观因素。机器只能够模拟人的思维而不能取代人的活动。自动聚类只是帮助用户进行相关性的判断而已,想靠它一劳永逸的解决相关性判断是不太现实的。

4.3应用的对象

自动聚类可以应用到元搜索引擎或者单个搜索引擎中。单个搜索引擎的覆盖范围有限,且随着网络信息资源的迅速增长而不断下降。所以将自动分类应用于元搜索引擎返回的结果要比应用到单个搜索引擎的效果要明显一些。当然,元搜索引擎的在对调用的搜索引擎进行选择必须要遵循一定的原则,要选取质量比较高的,覆盖面比较广的,力争扩大检全率和检准率。对于单个搜索引擎返回结果,也没有必要全部包括在内,只需要前面的一部分就可以了(例如50条左右)。因为一般情况下,前面的结果与检索要求的相关度要高一些,这样做对于系统的精确性不会有太大程度的影响,但是可以将系统的成本大大降低,实用性更高。

4.4用户界面

用户界面的设计是一个经常被忽略的问题,实际上用户界面的设计对于自动分类系统的使用效果有很大的影响。一个有关这方面的实验就证明了这一点。这个实验是Hao Chen和Susan Dumais完成的[20]。他们对七种检索界面的使用效果做了对比。这七种用户界面是:(1)悬浮显示摘要的清单式界面(List with hover summary),就是只有当鼠标移到返回的网页的标题时才显示出该网页内容的概要。

(2)内嵌摘要的清单是用户界面(List with summary inline),就是网页的摘要出现在返回网页的标题下面。

(3)显示类名的清单式界面(List with category names),就是在返回网页的标题后面出现其所属的类目名称,同时给出网页的摘要。

(4)悬浮显示摘要的分类界面(Category with hover summary),就是首先给出类目的名称,然后显示出该类目下网页标题,当鼠标移到该标题上的时候显示出该网页的摘要。

(5)内嵌显示摘要的分类界面(Category with summary inline),它与第四种界面基本上一样,除了是将网页的摘要显示在标题下面。

(6)无类名的分类界面(Category with no category names),它将类目的名称和网页的摘要都去掉了。

(7)无网页标题的界面(Category with no page titles),只显示出类目供浏览。

Hao Chen和Susan Dumais的挑选了西雅图地区微软公司的雇员参加这次实验。他们代表着不同年龄、背景、工作和教育水平的人群。每个人的实验都被分为两个部分,每一部分完成15个检索提问。在这两部分中,使用不同的检索界面。在完成检索任务之后,参加者还要填写一份网上调查问卷。整个过程大概需要2个小时。

此次实验的30个检索提问涉及的主题非常广泛,包括运动、电影、旅行、新闻、电脑、汽车和地方事物等等。检索提问难易程度不一,但是在返回的前100个网页中都可以找到答案。有17个问题的答案出现在返回的前20个网页中,有13个问题的答案出现在返回的第21-100个网页中。为了消除其它因素的影响,Hao Chen和Susan Dumais将每一个检索提问所用的检索词固定下来,并且将结果缓存下来,保证同样的检索提问返回一样的结果。他们还检查了返回网页链接的有效性,这样影响检索效果的因素就只有用户界面了。

在实验过程中,检索者的屏幕会出现三个窗口。顶部的窗口是比较小的控制窗口,它显示检索提问、检索词及计时器和“找到它了”、“放弃此题”这两个按钮。左边窗口出现返回的结果(采用不同的用户界面),用户点击左边窗口中的结果时,右边窗口就显示出相应的网页。当参加者找到答案的时候,就点击控制窗口中的“找到它了”,如果没有找到,可以点击“放弃此题”。定时器每五分钟提醒一次用户是继续此次检索还是进行新的检索。

对于用户界面的评价,采用的是将用户的主观感受和客观结果(包括检索所花费的时间和准确度等)相结合的方式。结果发现所有的分类界面都要比清单式的界面效果好。效果最好的是内嵌显示摘要的分类界面。

Hao Chen和Susan Dumais的实验说明自动分类系统用户界面的设计应该最大限度地帮助用户对返回结果的相关性进行判断。所以,不但要将类名显示出来还应包括类名的说明,使用户能够迅速了解该类的内容,做出相应的判断。类目结构之间的层次也不要过多,太多的话会使得用户在浏览的过程中迷失,感到无所适从。类目之间的排列可以按结果从多到少的顺序排列,同一类目中的网页可以按与该类目之间的紧密程度排列。每个类目中的相关网页给出与检索词内容相关的摘要。

5 结论

综上所述,我们认为现阶段自动分类在搜索引擎中的应用主要应该考虑自动聚类是在搜索引擎特别是元搜索引擎中的应用,将搜索引擎的结果进行自动聚类后返回给用户。采用类似于Vivísimo的用户界面,将类目的名称和网页的摘要明确地展现给用户,用户可以根据自动分类结果进行检索策略的修改。

参考文献:

1中国互联网信息中心.中国互联网络发展状况统计报告.

https://www.doczj.com/doc/a32405812.html,/develst/2003-1/4-2-2.shtml(2003年4月16日最后访问)

2中国大百科全书.图书馆学·情报学·档案学.中国大百科全书总编辑委员会编. 北京:中国大百科全书出版社,1993.1

3 Yiming Y ang, Jan O. Pedersen. A Comparative Study on Feature Selection in Text

Categorization (1997). https://www.doczj.com/doc/a32405812.html,/yang97comparative.html(2003年4月16日最后访问)

4丁璇,侯汉清,章成杰.中文网页标引源主题表达能力的调查.大学图书馆学报:2002(6):70-72

5 李晓黎,刘继敏,史忠植.基于向量机和无监督聚类相结合的中文网页分类器.计算机学报,

2001(1):62-68

6傅赛香,严小卫.网页分类浏览器CBrowser的设计与实现.计算机应用,2001(12):8-10

7 秦兵等.可分性判据在中文网页分类中的应用.微处理机,2002(1):26-28

8张俐,李星,陆大金.中文网页自动分类新算法.清华大学学报(自然科学版),2000(1):39-42

9 范焱等.用Na?ve Bayes方法协调分类Web网页.软件学报,2001(9),1386-1391

10 田捷编著.数字图书馆技术与应用.北京:科学出版社,2002

11 孟广均,徐引篪主编.国外图书馆学情报学研究进展.北京:北京图书馆出版社,1999

12 苏新宁,邵波编著.信息传播技术.南京:南京大学出版社,1998

13 诸青,郁亦明.文献自动分类的分析与研究.现代图书情报技术,1985(4):40-46

14 Jenkins Charlotte, Jackson Mike, Burden Peter, Wallis Jon. Automatic

classification of Web resources using Java and Dewey Decimal Classification.

Computer Networks and ISDN Systems. 1998(4):646-648

15 Peter Burden. The Automatic Classification Engine.Http://

https://www.doczj.com/doc/a32405812.html,/seed/docs/old.ace.thml

16 Oren Zamir , Oren Etzioni, Grouper: A dynamic clustering interface to web search

results. in Eighth International World Wide Web Conference, May 11--14 1999 17 Press Releases.https://www.doczj.com/doc/a32405812.html,/press/Press_Releases/2003PR.html(2003年4

月16日最后一次访问)

18 R. V aldes-Perez, V. Pericliev, and F. Pereira, “Concise, Intelligible, and Approximate Profiling

of Multiple Classes”.International Journal of Human Computer Systems, vol. 53 no.3, 411-436, 2000

19 Alisa Marshall . Cluster-Based Search and

Replace.https://www.doczj.com/doc/a32405812.html,/~alisa_m/meng/proposal/proposal-final2.htm(2003年4月16日最后一次访问)

20 H.Chen,D.Susan. Optimizing Search By Showing Results In Context.SIGCHI’01,March

31-April 4,2001,Seattle,WA,USA.

搜索引擎分类及工作原理

搜索引擎的分类及工作原理 姓名:XXX班级:XXX 摘要:这篇论文是关于搜索引擎的分类及原理的分析。在浩瀚的网络资源中,搜索引擎(SearchEngine)是一种网上信息检索工具,它能帮助用户迅速而全面地找到所需要的信息。它是一个集中了千千万万个站点的地方,主要功能是给人们搜索这些站点。它还会分门别类的把一些好的站点列出来,以方便人们查找资料,有了搜索引擎你就能很容易的找到你想要的内容或站点, 关键词: 1.前言 2. )、目录 2.1全文搜索引擎 全文搜索引擎是从网站提取信息建立网页数据库。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址 并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按 2.2 2.3 搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo 3搜索引擎的原理 全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机

中国搜索引擎用户行为研究报告

中国搜索引擎用户行为研究报告 篇一:XX年中国网民搜索行为研究报告 XX年中国网民搜索行为研究报告 (XX年8月) 中国互联网络信息中心 目录 摘要 1. 2. 3. 4. 5. 第一章 1. 2. 3. 4. 第二章 1.................................................. ................................................... ..........................................5 中国搜

索引擎市场现状................................................. .. (5) 搜索引擎用户PC端搜索行为................................................. ........................................5 搜索引擎用户手机端搜索行为................................................. ......................................6 不同终端用户搜索行为对比................................................. ..........................................6 搜索引擎用户广告接受度................................................. ..............................................7 研究设计................................................. ................................................... ...................8 研究对象................................................. ................................................... .......................8 研究内

搜索引擎使用技巧

搜索引擎使用技巧 1、简单查询 在搜索引擎中输入关键词,然后点击“搜索”就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。 2、使用双引号""、书名号《》 给要查询的关键词加上双引号、书名号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。例如在搜索引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页。 3、使用加号(+) 在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。 4、使用减号(-) 在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入“电视台-中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。 5、使用布尔检索 and,称为逻辑“与”,用and进行连接,表示它所连接的两个词必须同时出现在查询结果中,例如,输入“computer and book”,它要求查询结果中必须同时包含computer和book。or,称为逻辑“或”,它表示所连接的两个关键词中任意一个出现在查询结果中就可以,例如,输入“computer or book”,就要求查询结果中可以只有computer,或只有book,或同时包含computer和book。not,称为逻辑“非”,它表示所连接的两个关键词中应从第一个关键

词概念中排除第二个关键词,例如输入“automobile not car”,就要求查询的结果中包含automobile(汽车),但同时不能包含car(小汽车)。 6、使用搜索语法:filetype,site filetype就是按照文件类型搜索,比如搜毕业论文,可以用: 毕业论文filetype:doc site是只搜索某一个站点的,比如只想看百度上的小说,可以用: 玄幻小说site:baidu 关键词后必须带空格 7、使用通配符(*和?) 通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。例如输入“computer*”,就可以找到“computer、computers、computerised、com puterized”等单词,而输入“comp?ter”,则只能找到“computer、compater、competer”等单词。 8、区分大小写 这是检索英文信息时要注意的一个问题,许多英文搜索引擎可以让用户选择是否要求区分关键词的大小写,这一功能对查询专有名词有很大的帮助,例如:Web专指万维网或环球网,而web则表示蜘蛛网。

搜索引擎的种类与使用的技巧

搜索引擎的种类与使用的技巧 [摘要]随着信息技术的发展,网络的迅速普及,搜索引擎在网络用户的生活中扮演着越来越重要的地位,了解并能熟练使用搜索引擎成为大众的必修课。对搜索引擎的基本知识和种类作简要介绍,并结合亲身实践介绍几种实用的搜索技巧。 [关键词]搜索引擎种类技巧 一、搜索引擎概述 搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。它主要是用于检索网站、网址、文献信息等内容。随着网络技术的发展,各种搜索引擎层出不穷,目前流行的搜索引擎主要是帮助用户搜索表层信息,如google、百度、雅虎等。 二、搜索引擎的分类 目前,主流的搜索引擎有如下几类: (一)全文索引 根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。

(二)目录索引 目录索引虽然有搜索功能,但不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词进行查询。目录索引中最具代表性的是Yahoo、新浪分类目录搜索。 (三)元搜索引擎 元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。着名的元搜索引擎有InfoSpace、Dogpile等。中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。 三、搜索引擎使用技巧 (一)关键词的选择 目前搜索引擎不具备智能识别能力,较人脑而言还很“弱智”,往往不能很好地把握用户到底想要什么,只会在现成的数据库索引中查找相匹配的关键词。因此,选择合适的关键词是成功检索的第一步。关键词的选择虽然没有什么定式,不过也有一些规律可循,在提取关键词时力求做到规范,避免口语化,便能达到事半功倍的效果。此处用特殊实例来说明: 2.使用多个含义相近的关键词。对于热门信息来说,搜索时犯愁的是返回条目太多,可对冷门事件或事物来说往往恰恰相反。此时可使用同义关键词和关联关键词来检索,以达到更全面的搜索结果。如:在学术部门的年轻人想查阅申报课题的技巧时会发现相

搜索引擎基本工作原理

搜索引擎基本工作原理 目录 1工作原理 2搜索引擎 3目录索引 4百度谷歌 5优化核心 6SEO优化 ?网站url ? title信息 ? meta信息 ?图片alt ? flash信息 ? frame框架 1工作原理 搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。 1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重

复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。 3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。 搜索引擎基本工作原理 2搜索引擎 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库 的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP 地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,

搜索引擎原理及发展趋势

1 南昌航空大学 Nanchang Hangkong University 毕 业 论 文 题目 _搜索引擎原理及发展趋势__________________ 学院 _江西工业工程职业学校 _____________________ 专业 __________计算机网络________________________ 姓名 周文飞___________学号 036811100078 指导老师 李国忠______________职称________________ __2012__年_5__月_5_ 日 _

目录 第一章搜索引擎的概述 3 1.1 搜索引擎3 1.2 搜索引擎的发展史3第二章搜索引擎基本常识9 2.1 搜索引擎工作原理9 2.2 搜索引擎分类9 2.3 全文搜索引擎10第三章使用搜索引擎的一些基本规则和技巧12 3.1 搜索引擎的一些基本规则12 3.2 搜索引擎的一些基本技巧12第四章搜索引擎的评测16 4.1搜索引擎缺陷16 4.2搜索速度16第五章搜索引擎的未来发展动向及趋势18 5.1搜索引擎的未来发展动向18 5.2搜索引擎趋势19 结束语23致谢24参考文献25 2

第一章搜索引擎的概述 1.1 搜索引擎 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。 1.2搜索引擎的发展史 互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。 1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。 起源 所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。发展(1) Excite 的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目,他们还发布了一个供 3

搜索引擎工作的基础流程与原理

参数,然后对相应站点进行抓取。 在这里,我要说明一下,就是针对百度来说,site的数值并非是蜘蛛已抓取你页面的数值。比 如site:https://www.doczj.com/doc/a32405812.html,,所得出的数值并不是大家常说的百度收录数值,想查询具体的百度收录量应该在百度提供的站长工具里查询索引数量。那么site是什么?这个我会在今后的文章中为大家讲解。 那么蜘蛛如何发现新链接呢?其依靠的就是超链接。我们可以把所有的互联网看成一个有向集合的聚集体,蜘蛛由起始的URL集合A沿着网页中超链接开始不停的发现新页面。在这个过程中,每发现新的URL都会与集合A中已存的进行比对,若是新的URL,则加入集合A中,若是已在集合A中存在,则丢弃掉。蜘蛛对一个站点的遍历抓取策略分为两种,一种是深度优先,另一种就是宽度优先。但是如果是百度这类商业搜索引擎,其遍历策略则可能是某种更加复杂的规则,例如涉及到域名本身的权重系数、涉及到百度本身服务器矩阵分布等。 二.预处理。 预处理是搜索引擎最复杂的部分,基本上大部分排名算法都是在预处理这个环节生效。那么搜索引擎在预处理这个环节,针对数据主要进行以下几步处理: 1.提取关键词。 蜘蛛抓取到的页面与我们在浏览器中查看的源码是一样的,通常代码杂乱无章,而且其中还有很多与页面主要内容是无关的。由此,搜索引擎需要做三件事情:代码去噪。去除掉网页中所有的代码,仅剩下文本文字。②去除非正文关键词。例如页面上的导航栏以及其它不同页面共享的公共区域的关键词。③去除停用词。停用词是指没有具体意义的词汇,例如“的”“在”等。 当搜索引擎得到这篇网页的关键词后,会用自身的分词系统,将此文分成一个分词列表,然后储存在数据库中,并与此文的URL进行一一对应。下面我举例说明。 假如蜘蛛爬取的页面的URL是https://www.doczj.com/doc/a32405812.html,/2.html,而搜索引擎在此页面经过上述操作后提取到的关键词集合为p,且p是由关键词p1,p2,……,pn组成,则在百度数据库中,其相互间的关系是一一对应,如下图。

搜索引擎符号的使用

对于搜索中文内容,百度,腾讯等中国人创造的搜索引擎搜索出来的内容比较准确,而google,雅虎等则搜索英文内容比较准确,现在比较有名的还有360,新浪,网易等搜索引擎。 搜索引擎特殊符号 不同的搜索引擎提供的查询方法不完全相同,你要想具体了解,可以到各个网站中去查询,但有一些通用的查询方法,各个搜索引擎基本上都具有。由于使用目录查询比较简单,你只需确定要查找目标所在的目录,然后一层层打开,逐步细化就可以找到。 1、简单查询 在搜索引擎中输入关键词,然后点击“搜索”就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。} 2、使用双引号用(" ") 给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。例如在搜索引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页。 3、使用加号(+) 在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。 4、使用减号(-) 在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入“电视台-中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。 5、使用通配符(*和?) 通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。例如输入“computer*”,就可以找到“computer、computers、computerised、computerized”等单词,而输入“comp?ter”,则只能找到“computer、compater、competer”等单词。 6、使用布尔检索 所谓布尔检索,是指通过标准的布尔逻辑关系来表达关键词与关键词之间逻辑关系的一种查询方法,这种查询方法允许我们输入多个关键词,各个关键词之间的关系可以用逻辑关系词来表示。

搜索引擎基本工作原理

搜索引擎基本原理 一.全文搜索引擎 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。 二.目录索引 与全文搜索引擎相比,目录索引有许多不同之处。 首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。 其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。

尤其象Yahoo!这样的超级索引,登录更是困难。(由于登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo雅虎的技巧) 此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。 最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。 目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。 目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。

用户行为分析解决方案

用户行为分析解决方案

目录 一.简介................................... 错误!未定义书签。 1.特点 (4) 2.功能简介 (4) 二.Webtrends网站运营分析解决方案 (6) 1.分析方法论 (6) 1.1.网站运营分析的核心 (6) 1.2.传统网站运营分析的不足 (6) 1.3.Webtrends网站经营分析方法论 (7) 2.基础数据 (8) 2.1.Web server日志 (8) 2.2.嵌入代码采集日志 (8) 2.3.基础数据建议 (9) 3.基本分析功能 (10) 3.1.网站综合访问情况分析 (10) 3.2.网站频道、栏目和页面分析 (12) 3.3.广告及市场营销活动分析 (14) 3.4.搜索引擎分析 (16) 3.5.产品及服务分析 (18) 3.6.访问来源追踪及地理分析 (19) 3.7.访客行为分析 (20) 3.8.用户群细分 (23) 3.9.流媒体及WAP分析 (24) 3.10.网站效能分析 (25) 3.11.网站技术分析 (26) 4.SmartView:在线展示网站访问情况 (26) 5.自定义报告及第三方数据关联 (27) 6.访客历史分析 (27) 7.二次开发接口 (28) 8.其他功能 (28) 三.总体技术方案 (31) 1.webtrends体系结构 (31) 1.1.体系结构图 (31) 1.2.系统运行机制 (32) 1.3.与网站的接口 (33) 2.B/S结构设计 (34) 3.安全管理 (34) 4.审计管理 (35) 5.回滚分析 (35) 6.备份及恢复 (35) 7.自动运行,无需人工干预 (35) 8.分布式体系 (35) 9.支持多种日志文件 (36)

搜索引擎的使用方法和技巧

百度搜索引擎的使用方法和技巧 学生姓名: 学院:信息技术学院 专业:信管(电) 班级: 学号: 指导教师: 完成日期: 2015年3月28日 辽东学院 Eastern Liaoning University

一、简单搜索 1. 关键词搜索 只要在搜索框中输入关键词,并按一下“搜索”,百度就会自动找出相关的网站和资料。百度会寻找所有符合您全部查询条件的资料,并把最相关的网站或资料排在前列。 小技巧:输入关键词后,直接按键盘上的回车键(即Enter健),百度也会自动找出相关的网站或资料。 关键词,就是您输入搜索框中的文字,也就是您命令百度寻找的东西。可以是任何中文、英文、数字,或中文英文数字的混合体。可以命令百度寻找任何内容,所以关键词的内容可以是:人名、网站、新闻、小说、软件、游戏、星座、工作、购物、论文、、、 例如:可以搜索[windows]、[918]、[F-1赛车]。 可以输入一个关键词,也可以输入两个、三个、四个,您甚至可以输入一句话。 例如:可以搜索[博客]、[原创爱情文学]、[知音,不需多言,要用心去交流;友谊,不能言表,要用心去品尝。悠悠将用真诚,尊敬和大家来建立真正的友谊]。 注意:多个关键词之间必须留一个空格。 2. 准确的关键词 百度搜索引擎严谨认真,要求一字不差。 例如:分别输入 [舒淇] 和 [舒琪] ,搜索结果是不同的。 分别输入 [电脑] 和 [计算机] ,搜索结果也是不同的。 因此,如果您对搜索结果不满意,建议检查输入文字有无错误,并换用不同的关键词搜索。 3. 输入两个关键词搜索 输入多个关键词搜索,可以获得更精确更丰富的搜索结果。 例如,搜索[悠悠情未老],可以找到几千篇资料。而搜索[悠悠情未老],则只有严格含有“悠悠情未老”连续5个字的网页才能被找出来,不但找到的资料只有几十篇,资料的准确性也比前者差得多。 因此,当你要查的关键词较为长时,建议将它拆成几个关键词来搜索,词与词之间用空格隔开。 多数情况下,输入两个关键词搜索,就已经有很好的搜索结果。 4. 减除无关资料 有时候,排除含有某些词语的资料有利于缩小查询范围。 百度支持“-“功能,用于有目的地删除某些无关网页,但减号之前必须留一空格,语法是“A -B”。

搜索引擎工作原理

搜索引擎工作原理 在搜索引擎的后台,有一些收集网页信息的程序。收集到的信息一般是能够表明网站内容的关键词或短语。然后,信息的索引存储在数据库中。 搜索引擎的系统架构和操作模式吸收了信息检索系统设计中的许多宝贵经验,并根据万维网数据和用户的特点进行了许多修改。其核心文档处理和查询处理的过程基本上是类似传统信息检索系统的工作原理,但它处理的数据对象的复杂特征,也就是说,万维网数据,确定搜索引擎系统必须调整其系统结构,以满足数据处理和用户查询的需求搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。 3、1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 4、2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分

析超链接、计算网页的重要度/丰富度等。 5、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置、频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

搜索引擎的使用

6.1,搜索结果要求包含两个及两个以上关键字 一般搜索引擎需要在多个关键字之间加上“”,而Google无需用明文的“”来表示逻辑“与”操作,只要空格就可以了。现在,我们需要了解一下搜索引擎的历史,因此期望搜得的网页上有“搜索引擎”和“历史”两个关键字。 示例:搜索所有包含关键词“搜索引擎”和“历史”的中文网页 搜索:“搜索引擎历史” 结果:已搜索有关搜索引擎历史的中文(简体)网页。共约有78,600项查询结果,这是第1-10项。搜索用时0.36秒。 用了两个关键字,查询结果已经从70多万项减少到7万多项。但查看一下搜索结果,发现前列的绝大部分结果还是不符合要求,大部分网页涉及的“历史”,并不是我们所需要的“搜索引擎的历史”。怎么办呢?删除与搜索引擎不相关的“历史”。我们发现,这部分无用的资讯,总是和“文化”这个词相关的,另外一些常见词是“中国历史”、“世界历史”、“历史书籍”等。 6.2,搜索结果要求不包含某些特定信息 Google用减号“-”表示逻辑“非”操作。“A–B”表示搜索包含A但没有B的网页。 示例:搜索所有包含“搜索引擎”和“历史”但不含“文化”、“中国历史”和“世界历史”的中文网页 搜索:“搜索引擎历史-文化-中国历史-世界历史” 结果:已搜索有关搜索引擎历史-文化-中国历史-世界历史的中文(简体)网页。共约有36,800项查询结果,这是第1-10项。搜索用时0.22秒。 我们看到,通过去掉不相关信息,搜索结果又减少了将近一半。第一个搜索结果是: 搜索引擎直通车≡搜索引擎发展历史 搜索引擎直通车, ... 搜索引擎专业介绍站点. ... https://www.doczj.com/doc/a32405812.html,/about/about.htm - 14k - 网页快照- 类似网页 非常符合搜索要求。另外,第八项搜索结果: 463搜索王 本站检索整个网站在此输入关键词. 你的当前 位置:首页>> Internet搜索手册>> 搜索引擎的历史. ... https://www.doczj.com/doc/a32405812.html,/search/history.htm - 21k - 网页快照- 类似网页 也符合搜索要求。但是,10个结果只有两个符合要求,未免太少了点。不过,在没有更好的策略之前,不妨先点开一个结果看看。点开https://www.doczj.com/doc/a32405812.html,的这个名为“搜索引擎发展历史”的网页,我们发现,搜索引擎的历史,是与互联网早期的文件检索工具“Archie”息息相关的。此外,搜索引擎似乎有个核心程序,叫“蜘

搜索引擎在电子商务中的应用

搜索引擎在电子商务中的运用

搜索引擎在电子商务中的运用 摘要:20世纪互联网的出现和飞速发展,商务信息爆炸式的增长以及网络环境的日益复杂,搜索引擎作为信息检索的重要工具在网络经济中的作用变得越来越重要,搜索引擎与电子商务的结合是未来电子商务的发展趋势,因此本文以搜索引擎现状、面向电子商务的智能搜索引擎技术及在网络营销中的应用以及搜索引擎在今后的发展趋势做出简单的介绍. 关键词:电子商务;信息检索;搜索引擎;应用研究;发展趋势 一、对电子商务和搜索引擎的理解 从总体上来看,电子商务是指给整个贸易活动实现电子化。应用计算机与网络技术与现代信息化通信技术,按照一定标准,利用电子化工具来实现包括电子交易在内的商业交换和行政作业的商贸活动的全过程。 搜索引擎(SearchEngine):通过运行一个软件,该软件在网络上通过各种链接,自动获得大量站点页面的信息,并按照一定规则进行归类整理,从而形成数据库,以备查询。这样的站点(获得信息——整理建立数据库——提供查询)我们就称之为“搜索引擎”。 1.2 搜索引擎在我国的发展现状 (8) 1.2.1我国搜索引擎的背景 (8) 1.2.2 搜索引擎的现状 (9) 1.3本文的研究内容 (10) 第一章搜索引擎的原理…………………………………………………………… 11 2.1搜索引擎的原理概述…………………………………………………………… 11 2.2搜索引擎的实现原理…………………………………………………………… 12

2.2.1从互联网上抓取网页……………………………………………………… 12 2.2.2建立索引数据库…………………………………………………………… 12 2.2.3在索引数据库中搜索……………………………………………………… 13 2.2.4对搜索结果进行处理排序………………………………………………… 13 1.2搜索引擎的现状 1.2.1 我国搜索引擎的背景 百度上市后,我国的搜索市场一下子热了起来。越来越多的企业围绕着搜索市场作起了文章。而且,在搜索大战的同时,一些企业也抛出了一些惊人言论。近日,记者从专业做人脉交际的联络家(https://www.doczj.com/doc/a32405812.html,)技术总监冉征处了解到,联络家正在加紧研发人脉相关领域的专业垂直,联络家之所以涉足专业垂直搜索引擎领域,是看到未来垂直专业搜索引擎市场的巨大商机,他认为未来搜索市场将进一步细分,象Google、百度等主张大而全的全球式搜索引擎将会面临垂直专业搜索引擎更大的竞争与挑战,他们的市场分额将会被逐渐瓜分,专业的行业性垂直搜索将受到网民的青睐。 那么缘何能得出如此结论呢?CNNIC第十四次互联网调查显示,搜索以71.9%的绝对优势成为用户从互联网上获得信息的主要方式。几乎在全球所有的调查中,搜索引擎都是互联网上使用程度仅次于电子邮箱的服务,搜索引擎服务能成为最受欢迎的服务是因为他解决了用户在浩瀚的互联网海量快速定位信息屏颈问题,在海量的网页里找信息按照传统方式需要用户一个网站一个网站一级目录一级目录下找,要耗费大量的精力和时间,几乎是不可能实现的任务。 1.2.2 搜索引擎的现状 随着互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量

搜索用户的使用习惯.doc

搜索用户的使用习惯

本文从搜索引擎用户的搜索需求、关键词使用习惯以及在搜索失败后的行为选择进行了深入分析。 1. 搜索引擎用户的搜索内容 目前,中国平均每个搜索用户平时主要通过搜索引擎搜索2.14类内容,搜索引擎的使用以休闲娱乐为主要目的,对生活信息的搜索需求要略高于对专业工具的搜索需求。以休闲娱乐为目的的搜索中,音乐搜索的选择率最高,达32.6%;生活信息搜索主要以新闻信息的搜索为主;而在专业工具的搜索中,专业资料的需求最高,选择率达31.3%。 报告:用户搜索习惯- 宇缘- 水静台” alt=“搜索引擎调查报告:用户搜索习惯- 宇缘- 水静台” src=“https://www.doczj.com/doc/a32405812.html,/photo/y7txrnlgz2dz_k3npqoi8w==/176428515402409 1160.jpg” border=0> 网民在网络上搜索的内容 2. 搜索用户关键词使用习惯 搜索引擎用户使用关键词的特征关系到搜索引擎优化和营销战略的推广,所以,搜索用户关键词的使用习惯一直是搜索引擎商家所关注的重要信息。搜索引擎用户中,95%以上的用户都能够自述进行搜索时首先输入的关键词类型,只有4.2%的人群不固定地输入关键词。其中输入“主要一个关键词”的搜索用户占比最高,达38.1%。 搜索引擎用户输入关键词类型 搜索引擎用户在使用搜索引擎查找某不知名的商品时,34.8%的用户会选择输入产品的类别,选择率远高于其他类型关键词的使用率。 搜索引擎用户查找商品时关键词选择 3. 搜索得不到理想结果时的做法 当用户在第一次搜索不能得到理想结果后,会做出不同的反应。当一次搜索得不到理想结果时,平均每个用户会有2.03个不同的应对措施。有60.5%的用户会在搜索不到理想结果后采用“更换关键词”的方法重新搜索,有46.6%的用户会用“增加或者减少关键词”的方法重新搜索;这两个方法是用户选择率最高的。另外有40.0%的用户会选择更换搜索引擎,30.4%的用户会选择从结果中再次搜索,还有

电子商务中搜索引擎应用

搜索引擎应用电子商务

搜索引擎对于上网一族来说是非常熟悉的,特别是在电子商务上的应用。搜索引擎(search engine) 是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎通过对互联网上的信息资源进行搜集整理,然后供人们查询,它包括信息搜集、信息整理和用户查询三部分。目前的搜索引擎主要是以提供信息检索服务的网站为主,它使用某些程序把Internet 上的所有信息归类以用来帮助人们在茫茫网海中搜寻到所需要的信息。搜索引擎技术已经成为仅次于门户网站的互联网第二大核心技术,要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,具有很强的综合性和挑战性。 互联网的出现和飞速发展,给全球经济的模式和效率带来了跳跃式的发展。而建立在网络基础上的电子商务给商业领域带来了一次重大的革命,而在电子商务中,搜索引擎的运用将越来越重要。 电子商务网站搜索引擎与普通搜索引擎的区别在于,前者搜索的信息更具针对性和商业价值。到目前为止,国内只有很少一部分电子商务网站使用了比较良好的搜索工具。尽管发展搜索引擎需要一定的费用,但拥有高质量的搜索引擎,零售商的销售额必将随之增长。因此,针对电子商务搜索引擎,按照客户需求建立科学合理的评价体系和方法,这对改善电子商务搜索引擎、促进电子商务发展具有重要意义。 目前电子商务搜索引擎主要有以下两种实现形式:①以生意经、商务 搜、金泉网、企搜为代表的独立搜索引擎,该类搜索网站的页面与通用搜 索引擎网站的页面形式几乎完全一致,区别在于内容主要是针对商业用户使用者。

基于用户行为的搜索引擎营销策略研究分析

基于用户行为的搜索引擎营销策略研究分析 一、企业开展搜索引擎营销存在的问题 第13次CNNIC调查结果显示,搜索引擎是83.4%的用户得知新网站的主要途径。另外,《中国互联网络发展状况统计报告》中显示,在上网用户经常使用的网络服务功能中,搜索引擎仅次于电子邮箱(85.6%),占到65%。几乎每一个上网的人,每一天都会使用搜索引擎。许多企业从中看到商机,纷纷开始学习并且开展搜索引擎营销。然而其效果并不明显,大部分企业也没有从中受益。究其原因主要在于企业将自己的网站的信息提交给搜索引擎后就开始等待着搜索引擎营销效果的出现。虽然与电子邮件营销相比,搜索引擎营销中用户占据主动地位,而企业处于相对被动的地位,企业不能左右用户在搜索结果中选择的决策。但是有两点用户是可以变被动为主动的:一是在与同行其他企业相比,可以更积极主动;另一方面,在用户选择搜索结果时,虽不能左右,但是可以主动的去吸引用户。要想达到这两点,就应该分析用户使用搜索引擎的心理和行为,站在用户的角度上去开展搜索引擎营销。 二、基于用户行为的搜索引擎营销策略 用户在搜索引擎营销中占据主动地位,因为用户使用什么关键词进行搜索,在什么搜索引擎上搜索,在搜索结果中选择哪条结果点击进入,进入网站后会不会购买产品等等这些都是用户自己决定的。因此,企业若想在搜索引擎营销中取胜,就应该一步一步的分析用户的行为和心理,吸引用户来到本企业的网站,最终给用户以深刻的印象甚至促成销售。基于用户行为的搜索引擎营销策略一般可以分为三步:进入用户视线;引起用户关注;留住用户脚步。 (一)进入用户视线 1.用户行为分析 据艾瑞咨询调查显示,2007年中国搜索引擎市场营收份额中百度、Google 中国和中国雅虎三家的搜索引擎营收额之和超过95%,基本垄断搜索引擎市场。从这些数据可以得出:一方面搜索引擎市场被几个大的搜索引擎商所垄断,用户的视线也集中在这几个著名的搜索引擎商;另一方面这三家著名的搜索引擎瓜分

2019-2020中国网民搜索引擎使用情况研究报告

2019-2020中国网民搜索引擎使用情况研究报告 (2019年10月)

目录 报告摘要 (1) 第一章搜索引擎用户规模与属性 (3) 一、搜索引擎用户规模 (3) 二、搜索引擎用户属性 (5) (一) 性别结构 (5) (二) 年龄结构 (5) (三) 学历结构 (6) (四) 收入结构 (7) (五) 城乡结构 (8) 第二章搜索引擎市场整体发展情况 (9) 一、搜索引擎用户使用设备 (9) 二、搜索引擎服务使用场景 (9) 三、搜索引擎用户使用体验 (10) 四、搜索引擎用户满意度 (11) 五、搜索引擎用户信任度 (11) 六、搜索引擎品牌综合渗透率 (12) 七、搜索引擎广告认知与辨识情况 (13) 第三章用户手机端搜索引擎使用情况 (15) 一、手机端搜索引擎入口 (15) 二、手机端搜索输入方式 (16) 三、手机端搜索引擎品牌渗透率与首选率 (17) 四、手机端浏览器使用情况 (18) 五、手机端搜索引擎信息流服务使用情况 (19) 第四章用户 PC 端搜索引擎使用情况 (21)

一、PC 端搜索引擎入口 (21) 二、PC 端搜索引擎品牌渗透率与首选率 (22) 调查方法 (24) 版权声明 (25) 免责声明 (25)

图目录 图1 搜索引擎用户规模及使用率 (3) 图2 2014 年-2018 年新增搜索用户与新增网民比例 (4) 图3 手机搜索引擎用户规模及使用率 (4) 图4 搜索引擎用户性别结构 (5) 图5 搜索引擎用户年龄结构 (6) 图6 搜索引擎用户学历结构 (7) 图7 搜索引擎用户收入结构 (8) 图8 搜索引擎用户城乡结构 (8) 图9 搜索引擎用户使用设备 (9) 图10 搜索引擎服务在各类场景下的使用率 (10) 图11 搜索引擎用户使用体验 (11) 图12 搜索引擎用户满意度 (11) 图13 搜索引擎用户信任度 (12) 图14 各品牌在搜索引擎用户中的渗透率 (12) 图15 用户对搜索引擎广告的认知度 (13) 图16 用户对搜索引擎广告的辨识度 (14) 图17 各类手机端搜索引擎入口在用户中的渗透率 (15) 图18 各类手机端搜索引擎入口在用户中的首选率 (16) 图19 手机端搜索输入方式 (16) 图20 手机端各品牌搜索引擎渗透率 (17) 图21 手机端各品牌搜索引擎首选率 (18) 图22 手机端各类浏览器渗透率 (18) 图23 用户通过微信搜索商品或服务的比例 (19) 图24 用户对手机端搜索引擎信息流内容的关注比例 (19) 图25 各类PC 端搜索引擎入口在用户中的渗透率 (21) 图26 各类PC 端搜索引擎入口在用户中的首选率 (21) 图27 PC 端各品牌搜索引擎渗透率 (22) 图28 PC 端各品牌搜索引擎首选率 (23)

相关主题
文本预览
相关文档 最新文档