当前位置:文档之家› 基于P2P的搜索引擎的关键技术研究

基于P2P的搜索引擎的关键技术研究

基于P2P的搜索引擎的关键技术研究
基于P2P的搜索引擎的关键技术研究

上海交通大学

硕士学位论文

基于P2P的搜索引擎的关键技术研究

姓名:陆宵宏

申请学位级别:硕士

专业:计算机技术

指导教师:翁惠玉;郭力子

20090501

基于P2P的搜索引擎的关键技术研究

摘要

Peer-to-peer(P2P)技术的一个优势便是开发出强大的搜索工具。随着互联网的快速发展,搜索引擎作为一个网络用户所需的信息检索工具,其作用性越来越受到人们的重视。就中文用户而言,提高搜索引擎的效率的关键因素是中文分词匹配效率与搜索引擎索引检索效率的提高。

本文首先对P2P技术进行了阐述,包括P2P的定义、P2P模式与C/S模式的比较、P2P的特点以及P2P技术在搜索方面的应用及优势;其次对P2P搜索算法进行了分类探讨,重点研究和分析了几种P2P搜索算法,并指出它们的优缺点。对以传统索引方和倒排索引方这两种索引方式为核心的基于P2P的搜索引擎和其他几种典型的搜索引擎也进行了各方面的比较。接着,为了克服传统的集中式搜索引擎的缺点,针对中文分词本文提出了基于树状词库进行中文分词,这种经过优化的分词方法使传统的匹配算法效率得到大大地提高,并结合XML技术为中文分词提出并实现了可行的解决方案:本文设计了基于XML与B+树的倒排索引算法建立索引器的索引解决了传统的正、倒排索引模型实时更新性能差的缺点。将搜索引擎架设在P2P分布式网络结构之上,利用P2P的良好的分布式特性,使搜索引擎从集中式走向分布式,使搜索引擎能更深度、更广度地搜索互联网上的用户可用的信息。

基于树状词库与XML的中文分词方法使得搜索引擎对中文文段进行分词时更为准确。基于XML的倒排索引建立解决方案从新的角度探索了中英文混合检索的底层机制,使得搜索引擎在索引器中进行索引检索、寻找其相关的文档更为快捷。

当前,这方向的研究还处于试验、探索阶段,某些方面在理论上还需要有所突破,逐步使搜索引擎更好地服务于用户。

I

Key technology Study of P2P-based Search Engine

ABSTRACT

The advantage of the P2P technology is to develop the strong search tool. With the development of Internet, as Internet users' needed information search tool, the search engine gets more and more users recognition. Firstly, in this paper, the P2P technology was summarized, includes the definition of P2P, the difference between P2P mode and C/S mode, the characteristic of P2P, the applications and advantages using P2P technology in search. Secondly, the P2P search arithmetics were probed into class, there are some kind of P2P search arithmetics were researched and analyzed, then points out their advantage and disadvantage. To conquer concentrative search engine drawback., this paper brings forward tree shape-based word warehouse to split Chinese words, the Chinese Segmentation optimized method makes traditional matching algorithm efficiency to get quietly advance, it combines XML to implements viable solution for Chinese Segmentation;This paper adopts XML-based inverted index algorithm based on B+ tree to build the index to solve the traditional positive index and inverted index real time updating drawback.

At present, the research is at test and discovery step, some facets in theory need to get progress and make search engine serves users better.

KEY WORDS Peet-to-Peer, Distributed Search Engine, P2P Algorithm, Chinese Segmentation, Inverted Index

III

上海交通大学

学位论文原创性声明

本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。

学位论文作者签名:陆宵宏

日期:年月日

上海交通大学

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

保密□,在年解密后适用本授权书。

本学位论文属于

不保密□。

(请在以上方框内打“√”)

学位论文作者签名:陆宵宏指导教师签名:翁惠玉

日期:年月日日期:年月日

第一章引言

1.1 背景及问题的提出

随着信息技术的快速发展,互联网得到了飞速的发展,WWW己成为一个巨大的信息空间,为用户提供了大量的信息资源。Internet上的信息资源随着Internet的发展而呈现出以下特点:(1)信息量大而且分散;(2)自治性强;(3)信息资源多种多样;(4)不一致和不完整。如何快捷、准确地从WWW上获取所需信息,成为至关重要的问题。如果没有掌握一种有效的网上信息查询方法,则常常会漫游半天空手而归。搜索引擎的出现,大大提高了人们搜集信息的能力。搜索引擎是网上信息查询的一个有力的工具,是网络信息检索的重要手段。然而,现有的搜索引擎检索后得到的检索结果是杂乱的,有时出现了搜索结果集的开始处与用户想要的内容没有一点关系。由于传统的引擎不能适应信息技术的高速发展,人们便开始研究新一代搜索引擎,采用新的技术对搜索引擎进行优化,改善传统搜索引擎的负载均衡、查询效率、检索信息的深度与宽度、对中文信息的理解、检索结果的相关度排序等缺陷。搜索引擎用于帮助互联网用户查询信息的搜索工具,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。互联网上早期的搜索引擎和今天我们使用的搜索引擎有所不同,把因特网中的资源服务器的地址收集起来,由其提供的资源类型的不同而分成不同的目录,再逐层地进行分类。人们要找自己想要的信息可按他们的分类逐层进入。这其实是最原始的方式。现在是建立以词为单位的排序文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。当然,一个完整的搜索引擎系统还需要有一个检索结果的页面生成系统。搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎,也不能真正理解网页上的内容,它只能机械的匹配网页上的文字。人们通常所说的搜索引擎,指的是收集了互联网上数以亿计的网页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复

?1?

杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列,最终将结果通过用户接口呈现给用户。

由于人们在计算机对自然语言理解的研究取得了较大的进展,中文搜索引擎的发展速度非常快,这是搜索引擎结合了计算机对中文信息的理解技术。中文搜索引擎以百度、天网、搜狐、网易、新浪搜索等为代表,国际上一些大型的搜索引擎公司也加入了中文搜索引擎市场。

目前许多搜索引擎从体系结构上看是集中式的,即从Internet上取回页面,经过分析、处理后将所有的索引信息形成索引数据库集中存储在某个站点,用户通过访问该站点实现查询。这种架构的搜索引擎服务器负载过大,一旦大量用户同时向服务器请求检索服务,搜索引擎不可能及时响应,也会造成网络堵塞。由于 Internet网络庞大,分布广泛,所提供的信息浩如烟海,集中式的搜索引擎所能搜索到的信息十分有限,达不到深度与广度的搜索。正因如此,人们纷纷提出建立分布式搜索引擎的策略。

1.2 国内外研究现状

P2P作为一种应用技术是上世纪90年代末提出的,它能利用Internet中的各个节点进行对等计算,充分挖掘Internet上的空闲资源,在利用率、扩展性、容错等方面具有潜在的巨大优势,并在文件共享、分布式计算、协同工作、Internet存储等方面已经取得了初步的良好应用。

1.2.1P2P国外研究现状

由于P2P技术的巨大技术潜力和商业价值,国内外许多科研机构、大公司致身投入到P2P网络的研究中。其中,Microsoft公司、Sun公司和Intel公司投入较大。

Microsoft公司成立了Pastry项目组,已发布了基于Pastry的软件包SmiPastry/VisPastry。Intel公司在2000年8月,Intel公司宣布成立P2P工作组,正式开展P2P的研究。2002年Intel发布了.Net基础架构之上的Accelerator KitP(P2P加速工具包)和P2P安全API软件包,从而使得微软.Net开发人员能够迅速地建立P2P安全Web应用程序。Sun公司以Java技术为背景,开展了JXTA项目,发布了基于JXTA的即时聊天软件包。

?2?

1.2.2P2P国内研究现状

国内P2P市场基本是从2000年底开始启动的。目前,P2P的实际应用主要体现在以下几个方面:

(1)P2P分布式存储

(2)计算能力的共享

(3)P2P应用层组播

(4)Internet间接访问的基础结构

1.2.3搜索引擎国内外研究现状

伴随互联网的广泛普及,国内外搜索引擎迅速发展,其用于帮助互联网用户查询信息搜,从互联网上的海量信息中高速、低成本地提取有用信息。搜索引擎以一定的策略在互联网中搜集、发现、理解、提取、组织和处理信息,为用户提供检索服务,发挥信息导航的作用。根据搜索引擎的基本技术原理,国内外搜索引擎主要可以分为三类。

1)全文搜索引擎

其基本搜索思想是对搜索内容进行全文匹配,向用户返回大于一定相关度的内容。主要由:收集程序、筛选器、分词与词干程序、索引引擎、结果排序程序等构成,如Google ,Baidu。

2)目录索引型搜索引擎

其索引数据库是人工建立起来的,编辑人员在访问了某个WEB站点后根据自定的评判标准和主观印象撰写出对该站点的描述,并根据站点的内容和性质将其归为一个预先分好的类别,分门别类地存放在相应目录中,用户在查询时,可以通过关键词搜索,也可以按分类目录逐层检索。例如Yahoo,Open Directory。

3)元搜索引擎

元搜索引擎本身不需标引和搜索网页,而是将查询请求提交给它所要调用的后台标准搜索引擎,由这些搜索引擎做真正的查询,元搜索引擎再从各搜索引擎的查询结果中去除重复结果并加以整合,最后由统一用户接口提交结果。元搜索引擎包括3个部分:发送机制、接口代理和陈列机制。

?3?

1.3 研究的目标及其主要的内容

由于目前互联网搜索引擎主要依赖全文检索技术和“网络爬虫”来搜索互联网上的内容并将这些信息存储到海量可搜索的数据库中,用户在互联网上检索时,利用搜索引擎公司提供的服务器,在需要搜索信息的时候要向服务器发出指令,由服务器把检索出来的相关目录通过一定的排序法则呈现在用户面前,这就会不可避免的带来一些问题,比如:如果服务器信息更新周期长,将有大量过时的信息产生;如果服务器不加鉴别、只是一味的搜集信息,将带来许多无价值的垃圾信息;受设备条件影响,服务器收集的信息有限等等。如果利用P2P技术,则可以完全不受服务器的限制。当输入搜索关键字时,搜索指令便同时向若干台计算机发出,然后这若干台计算机再分别向另外若干台发出搜索指令,依此类推,搜索范围便以儿何级数迅速增长。显然,其搜索深度和广度是现有的搜索引擎所望尘莫及的。

P2P理念与搜索引擎技术相结合,是第三代搜索引擎技术发展的一个颇受瞩目的方向。建立在P2P模型基础上的搜索引擎与目前使用中的其他各类搜索引擎相比较,最大的优势在于它采用了其他搜索引擎以往从未采用过的对等信息搜索模型来对对等网络进行全方位的搜索。

而就国内而言,国内的互联网迅速发展,中文用户数量日趋庞大,人们对中文信息检索的需求推动了搜索引擎技术的发展,各种新技术纷纷应用到搜索引擎中,使得搜索引擎逐渐满足中文用户需求。中文搜索引擎以百度、天网、搜狐、网易、新浪搜索等为代表,国际上一些大型的搜索引擎公司也加入了中文搜索引擎市场。

本文通过查阅相关国内外文献资料,阐述了P2P相关技术,包括P2P的定义、P2P 工作模式与C/S工作模式的比较、P2P的特点以及P2P搜索技术的应用。对目前基于P2P 的搜索算法进行了分类探讨,并且重点研究和分析了几种P2P搜索算法,指出它们的优缺点,搜索引擎的索引建立本文提出了基于XML的倒排索引建立方法;在中文分词技术上,文中提出了基于XML的中文分词技术,将基于关系数据库的词库改造成树状结构的词库,来进行分词,将分词算法处理所得的结果转储成XML结构的文件,为数据提供通用的平台。最后通过对搜索引擎传统的正排索引模型和倒排索引的结构模式的性能对比,得出采用后者能使得网络中的数据移动速度更快,索引器的索引更新更迅速。

?4?

1.4 本文章节编排

第一章引言首先阐述了课题的背景,同时阐述了P2P及搜索引擎技术在国内外的研究现状,最后指出课题研究的内容。

第二章相关技术叙述介绍了P2P技术,包括P2P的定义、P2P工作模式与C/S 工作模式的比较、P2P的特点以及P2P搜索技术的应用。

第三章对搜索引擎及其原理进行了阐述,提出了P2P中文搜索引擎所要解决的问题所在。

第四章分析了在P2P服务基础上的搜索引擎的实现要点,提出了基于XML的中文分词技术。

第五章阐述了基于XML的中文分词技术XML的倒排索引算法,通过性能算法对比,突出了倒排索引算法在某些应用方面的优越性。

第六章对论文和研究工作进行总结并对此进行展望。

?5?

第二章 P2P技术

最近几年,对等计算(Peer-to-Peer,P2P)迅速成为计算机界关注的热门话题之一,财富杂志更将P2P列为影响未来Internet的四项科技之一。P2P称为对等网络或点对点技术,是一种网络模型,在这种网络中所有的节点是对等的(称为对等点),各节点具有相同的责任与能力并协同完成任务。对等点之间通过直接互连共享信息资源、处理器资源、存储资源甚至高速缓存资源等,无需依赖集中式服务器或资源就可完成。这种模式与当今广泛使用的客户端/服务器(C/S)的网络模式形成鲜明对比,C/S 模式中服务器是网络的控制核心,而P2P模式的节点则具有很高的自治性和随机性。随着像Napster、Gnutella这种信息共享应用程序变得越来越流行,P2P技术受到人们的广泛关注。

2.1 P2P定义

目前,在学术界、工业界对于P2P有两个层面的基本含义[1]:

(1)P2P通信模式。这种模式区别于传统的客户机/服务器或者主/从(Master/Slave)模式,每个通信方都具有相同的能力,并且每个通信方都可以发起一个通信过程。

(2) P2P网络。P2P网络是运行在互联网上的动态变化的逻辑网络。这个网络是由一些运行同一个网络程序的客户端彼此互连而构成的,客户端彼此间可以直接访问存储在对方驱动器上的文件。

虽然上述定义稍有不同,但共同点都是打破了传统的模式,在网络中的每个结点的地位都是对等的。每个结点既充当服务器,为其他结点提供服务,同时也享用其他结点提供的服务。

纯粹的P2P系统具有如下特征:没有中央的协作、没有中央数据库、所有的节点(peer)都没有这个系统的全局的视图、全局的行为通过局部交互产生、可以从任何一个节点访问所有现存的数据和服务、节点是自治的、节点和连接是不可靠的。

尽管P2P被许多人视为21世纪的技术热点之一,但它并不是一个新概念。早在30多年前,就有公司推出了一些具有典型P2P特征的产品。事实上,因特网最初的设计目标就是让网络上的计算机互相之间可以直接通信而不需要中介,只是随后由于

?6?

?7?

网络规模的不断扩大而必须来发展中间设备,本质上看,最近两年才开始成为热点的P2P 计算实际上是一种“向传统的回归”。Internet 就是基本的对等机制(不要将Internet 和World Wide Web 相混淆),用户可以很容易地连接到实际的计算机并与之进行交互。实际上,

Internet 就是以P2P 起源的:任何两台计算机都可以相互发送包,没有防火墙,也没有网络地址转换,没有不对称的连接,FTP 和TELNET 是C/S 结构,但任何人都可以FTP 和TELNET 任何其他人;服务器也可以是客户端,反之亦然:协作是主要的目的,没有垃圾邮件也不会很耗带宽。

P2P 为发布者提供了完全的控制权,信息存放于用户的个人计算机上。这比将信息放在Web 站点的服务器上所获得的控制权要大得多。相反,一旦用户将信息移动到服务器上,这些信息就处于他人的控制之下,尽管站点可以许诺保护隐私,但是仍有其他人控制着用户的信息以及关于这些信息所搜集的数据,例如访问这些信息的其他用户和时间。例如国外曾经做过承诺保护用户隐私的玩具站点,最终将其“受保护的”信息出卖。

越来越多的对等设备上保存着有用的信息和服务,为获得这些信息财富提供了一种廉价并且简单的途径。在建立该途径时,在对等设备之间开辟了丰富的通信路径。虽然站点可能有两个或者三个备份系统,但是却可能有上千个备份。虽然每个独立的对等设备一般都没有站点服务器可靠,但是数以万计对等设备的结合所创造的可靠性很可能超过站点。当然也有一些缺点。由于大多数应用程序都缺乏集中性,这使得对应用程序的预测很困难,因而具有不可预见性。

2.2 P2P 工作模式与C/S 工作模式比较

C/S 模式是目前流行的计算模式,典型的模式的体系结构如图2-1所示。

图2-1 C/S 模式

Fig2-1 C/S model

C/S结构的特点如下[2]:

(1)集中计算方式,信息和数据都保存在服务器端。只有服务器具有控制能力,客户端基本上只是一个高性能的I/O设备。

(2)服务器及网络的带宽决定了网络的性能。每台服务器所能提供的信息数量受到自身存储空间的限制,而任意时刻它所能支持的客户端访问数量则受到自身处理能力以及网络吞吐能力的限制。

(3)URL用来表示信息资源的地址,但是URL很少能直接体现所定位信息的内容,甚至不能直接连接到具体的内容上。

(4)被发布信息的分布与生存期十分稳定。服务器只发布机器所有者想公之于众的信息,这些信息将会在该服务器上稳定的保存一段时间,并且该服务器也不间断地运行在网络上。

(5)被发布信息的存储与管理比较集中,互联网上所有可以公开访问的信息基本上都保存在服务器上,服务器根据适当的算法和规则管理本地信息,应答客户端的访问请求或进行计算。

P2P模式是非中心结构,典型的模式如图2-2所示,它与C/S模式有明显的差别。

图2-2 P2P模式

Fig2-2 P2P model

(1)网络中的每一个对等点都具有相同的地位,既可以请求服务,也可以提供服务,同时扮演着C/S模式中的服务器和客户端两个角色,还可以具有路由器和高速缓冲存储器的功能,从而弱化了服务器的功能,甚至取消了服务器。

(2)P2P技术可以使得非互连网络用户很容易地加入到系统中。在P2P的计算环境中任何设备---从大型机到移动电话,甚至是传呼机等可以在任何地点方便地加入进来。

(3)P2P是基于内容的寻址方式,这里的内容不仅包括信息的内容,还包括空闲

?8?

机时、存储空间等。P2P网络中,用户直接输入要索取的信息的内容,而不是信息的地址,P2P软件将会把用户的请求翻译成包含此信息的节点的实际地址,而这个地址对用户来说是透明的。

(4)每个对等点可以随意的进入对等网络中,也可以随时的退出,它没有固定的IP地址,每次进入时都被随机分配IP地址。

(5)信息的存储及发布具有随意性,每个对等点都可以发布信息,所以数据的实时性好,但缺乏集中管理,从而会造成网络带宽和信息存在的不稳定。

通过以上对C/S模式和P2P模式特点的比较,可以看出模式相对于模式的一些主要优点[3,4],,

(1)P2P模式最主要的优点就是资源的高度利用率。在P2P网络上,闲散资源有机会得到利用,所有节点的资源总和构成了整个网络的资源,整个网络可以被用作具有海量存储能力和巨大计算处理能力的超级计算机。C/S模式下,即使客户端有大量的闲散资源,也无法被利用。

(2)随着节点的增加,C/S模式下服务器的负载就越来越重,形成了系统的瓶颈,一旦服务器崩溃,整个网络也随之瘫痪。而在P2P网络中,每个对等点都是一个活动的参与者,每个对等点都向网络贡献一些资源,如存储空间、CPU周期等。所以对等点越多,网络性能越好,网络随着规模的增大而越稳固。

(3)基于内容的寻址方式处于一个更高的语义层次,因为用户在信息搜索时只需指定具有实际意义的信息标识而不是物理地址。这将创造一个更加精炼的信息仓库和一个更加统一的信息标识方法。

(4)信息在网络设备节点间直接流动,高速即时,降低中转服务成本。

(5)C/S模式下的互联网完全依赖于中心点---服务器。没有服务器网络就没有意义。而在P2P网络中,节点所有者可以随意的将信息发布到网络上。

2.3 P2P技术特点

由于P2P蕴含着巨大的技术潜力和商业价值,许多学术机构、大公司先后投入到对P2P技术的研究之中,P2P技术的特点体现在以下几个方面[5]:

(1)非中心化(Decentralization):网络中的资源和服务分散在所有结点上,信息的传输和服务的实现都直接在结点之间进行,可以无需中间环节和服务器的介入,避免了可能的瓶颈。P2P的非中心化基本特点,带来了其在可扩展性、健壮性等方面的优势。

?9?

(2)可扩展性:在P2P网络中,随着用户的加入,不仅服务的需求增加了,系统整体的资源和服务能力也在同步地扩充,始终能较容易地满足用户的需要。整个体系是全分布的,不存在瓶颈。理论上其可扩展性几乎可以认为是无限的。

(3)健壮性:P2P架构天生具有耐攻击、高容错的优点。由于服务是分散在各个结点之间进行的,部分结点或网络遭到破坏对其它部分的影响很小。P2P网络一般在部分结点失效时能够自动调整整体拓扑,保持其它结点的连通性。P2P网络通常都是以自组织的方式建立起来的,并允许结点自由地加入和离开。P2P网络还能够根据网络带宽、结点数、负载等变化不断地做自适应式的调整。

(4)高性能/价格比:性能优势是P2P被广泛关注的一个重要原因。随着硬件技术的发展,个人计算机的计算和存储能力以及网络带宽等性能依照摩尔定理高速增长。采用P2P架构可以有效地利用互联网中散布的大量普通结点,将计算任务或存储资料分布到所有结点上。利用其中闲置的计算能力或存储空间,达到高性能计算和海量存储的目的。通过利用网络中的大量空闲资源,可以用更低的成本提供更高的计算和存储能力。

(5)隐私保护:在P2P网络中,由于信息的传输分散在各节点之间进行而无需经过某个集中环节,用户的隐私信息被窃听和泄漏的可能性大大缩小。此外,目前解决Internet隐私问题主要采用中继转发的技术方法,从而将通信的参与者隐藏在众多的网络实体之中。在传统的一些匿名通信系统中,实现这一机制依赖于某些中继服务器节点。而在P2P中,所有参与者都可以提供中继转发的功能,因而大大提高了匿名通讯的灵活性和可靠性,能够为用户提供更好的隐私保护。

(6)负载均衡:P2P网络环境下由于每个节点既是服务器又是客户机,减少了对传统C/S结构服务器计算能力、存储能力的要求,同时因为资源分布在多个节点,更好的实现了整个网络的负载均衡。

2.4 P2P搜索技术的应用

能开发出强大的搜索工具是P2P技术的一个优势。P2P技术使用户能够深度搜索文档,而且这种搜索无需通过Web服务器,也可以不受信息文档格式和宿主设备的限制,可达到传统目录式搜索资源无可比拟的深度。Google无疑是目前最出色的全文搜索,但即使是它也只能搜索到20%-30%的网络资源,因为它是基于传统的搜索技术。而一个设计良好的P2P搜索将远超过这一数字。

以P2P技术发展的先锋之一Gnutella进行的搜索为例来说明这一问题[6]:一台

?10?

PC上的Gnutella软件可将用户的搜索请求同时发给网络上另外10台PC,如果搜索请求未得到满足,这10台PC中的每一台都会把该搜索请求转发给另外10台PC,这样,搜索范围将在几秒钟内以几何级数增长,几分钟内就可搜遍几百万台上的信息资源。可以说,P2P为互联网的信息搜索提供了全新的解决之道。当然,准备把P2P技术应用到搜索引擎上来的不止Gnutella一家,Digital公司的Pandango搜索引擎目前也己经几近完成。

至今为止,主要的商用搜索引擎都把目光对准了各主要Web站点,人们对于信息的获取方式虽然已经大大的扩展了,却依然摆脱不了以服务器中心的信息获取方式,人们可以获取的信息取决与一些大的站点所提供的信息。互联网创造之初所提倡的那种自由、平等、无中心化的思想正在被逐渐淡化。其实,随着PC存储技术和处理器的迅速发展,作为互联网上的叶子节点的个人电脑并不缺少信息资源,也不缺乏足够的处理能力,只是由于在其上的资料无法被搜索、无法被他人知晓,而不能够被共享。同时个人计算机也拥有大量的空闲的计算资源被浪费[7]。

在目前的情况下,P2P技术针对网络资源的搜索将使得这一问题得到很大的改善。同时基于P2P技术,针对本地资源的搜索网络相对与传统的基于中心服务器的搜索还有以下优点:

(1)不需要昂贵的服务器端。计算机集群通过对于客户端计算机运算资源的共享,将原来需要使用昂贵的服务器端计算机集群来完成的任务分解为许多的较小并行运算任务。

(2)具有优秀的搜索性能。由于客户端计算机数目可能十分庞大,如果该搜索引擎的并行算法设计合理,则其系统的搜索能力是其它基于昂贵的服务器端计算机集群的系统所无法比拟的。

(3)准确的搜索结果。目前的搜索网络都是到各大的站点上去搜索,而忽略了个人计算机上有意义的资料,造成的后果是人们需要在返回的数以万计的信息中,再进行查阅,以寻找有效的信息,对于P2P的搜索,由于其搜索的内容主要来自客户的个人计算机,故这些资料很有可能是经过用户人工筛选过的,因此资料的有效性也得到了一定的保证。同时由于P2P搜索还可以和人工智能的一部分研究成果相结合,以获得更准确的搜索结果。

2.5 本章小结

本章对P2P做出基本的定义阐述并揭示了其在学术界和工业界的两层基本含义,

?11?

通过对P2P计算模式与传统C/S计算模式进行比较,突出了P2P的优越性,阐述了P2P在实际应用过程中的技术特点及其应用的优势。

?12?

第三章搜索引擎

在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,各种Web信息激增,用户要在海量的数据和异构的信息里查找所需要的信息,犹如大海捞针。搜索引擎技术的出现,却解决了这一难题,它可以为用户提供信息检索服务,为满足大众信息检索需求的专业搜索网站便应运而生了。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。目前,搜索引擎技术正成为计算机应用界和学术界争相研究、开发的对象。

3.1 搜索引擎

搜索引擎(Search Engine)己经成为大家在工作、学习、娱乐中不可或缺的工具。通过使用搜索引擎,使得我们检索信息的能力获得了极大的提高。可以说,搜索引擎是现代的计算机技术、互联网与传统的索引理论相结合的成功典范。

现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。1993年2月,6个Stanford大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。这就是Excite。后来曾以概念搜索闻名。1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线。除了网站搜索,它还支持Gopher 和Telnet搜索。Lycos是搜索引擎史上又一个重要的进步。Carnegie Mellon University的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要。1998年10月之前,Google只是Stanford大学的一个小项目BackRubo。1999年2月,完成了从Alpha版到Beta版的蜕变。Google在Pagerank、动态摘要、网页快照DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista

一样,再一次永远改变了搜索引擎的定义。

电脑“机器人”(Computer Robot)是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的Wanderer。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。

随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Matthew Gray的Wanderer基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以JumpStation, Overture和RBSE Spider最负盛名。然而JumpStation和Overture只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。最早现代意义上的搜索引擎是Lycos。1994年4月,斯坦福(Stanford)大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上知名的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google,其数据库中存放的网页已达50亿之巨。

随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。象国外的工nktomi,它本身并不是直接面向用户的搜索引擎,但向包括Overture, LookSmart, MSN, HotBot等在内的其他搜索引擎提供全文网页搜索服务。国内的百度也属于这一类。因此从这个意义上说,它们是搜索引擎的搜索引擎。

3.2 搜索引擎原理

搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎,也不能真正理解网页上的内容,它只能机械地匹配网页上的文字。

真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户

查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行相关性排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。

(1)从互联网上抓取网页

利用能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集到服务器中。

网络蜘蛛访问资源的过程,是对互联网上信息遍历的过程。在实际的蜘蛛程序中,为了保证信息收集的全面性,及时性,还有多个蜘蛛程序的分工和合作问题,往往有复杂的控制机制。如Google在利用蜘蛛程序获取网络资源时,是由一个认为管理程序负责任务的分配和结果的处理,多个分布式的蜘蛛程序从管理程序活动任务,然后将获取的资源作为结果返回,并从新获得搜集任务。

(2)索引器从搜索器获取的资源中抽取信息,建立索引数据库

由索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、生成时间、编码类型、页面内容包含的关键词、关键词位置、大小等),并把信息用一定的模型表示(即排序),使查询结果更为准确。其中信息的表示模型一般有布尔模型,向量模型,概率模型等。

Web上的信息一般表现为网页,对每个网页,须生成一个摘要,此摘要将显示在查询结果的页面中,告诉查询用户各网页的内容概要。由于web数据的数据量极为庞大,为了提高检索效率,须按照一定规则建立索引。不同搜索引擎在建立索引时会考虑不同的选项,如是否建立全文索引,是否过滤无用词汇,是否使用meta信息等。索引的建立包括:分析过程,处理文档中可能的错误;文档索引,完成分析的文档被编码存入索引数据库,有些搜索引擎还会使用并行索引:排序,根据一定的相关度算法进行复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),将索引数据库按照相关度排序,形成全文索引数据库。最终形成的索引一般按照倒排文件的格式存放。最后用这些相关信息建立网页索引数据库。

(3)在索引数据库中搜索

当用户输入关键词搜索后,由搜索引擎系统程序从网页索引数据库中找到符合该关键词的所有相关网页。

(4)对搜索结果进行处理排序

搜索引擎检索技巧

搜索引擎检索技巧

搜索引擎 搜索引擎(search engine),1995年开始搜索引擎以一定的策略从网络收集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。 搜索引擎站---“网络门户”

1、搜索引擎的工作原理 信息的收集处理 信息的检索输出

2、搜索引擎的分类 搜索引擎按其工作方式主要可分为三种: 目录索引类搜索引擎(Search Index/Directory) 机器人搜索引擎(全文搜索引擎)(Full Text Search Engine)元搜索引擎(Meta Search Engine)

2、搜索引擎的分类(续) 目录式搜索引擎 目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。 该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。 这类搜索引擎的代表是:yahoo!、Galaxy、Open Directory……

2、搜索引擎的分类(续) 机器人搜索引擎 由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。 该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。 这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:百度等。

httrack模拟搜索引擎爬虫

这纯粹是一条个人喜好,我经常拿HTTrack模拟搜索引擎爬虫用。 HTTrack是一个网站镜像工具,本来是用来抓取网站做离线浏览用的。但是我发现它的爬虫特性和搜索引擎爬虫非常的像,逐渐应用到了自己的SEO工作中。其实这两种看似不同的爬虫做的都是同样的工作,就是复制网站并存储下来(搜索引擎的网页快照就是被存储下来的内容)。以下是这个软件的界面: HTTrack界面 软件的官方网站是:https://www.doczj.com/doc/742927634.html,/软件安装后可以换成中文界面。 一般用它来检测网站的坏链接和测试搜索引擎对这个网站可能面临的抓取问题。另外用它也可以探知一些SEO做法的由来。 软件的使用方法非常简单,在“Web地址”里填上URL就可以了。然后点“选项”,先看“扫描规则”

扫描规则 这样的扫描规则搜索引擎也一定会有的,比如不收录.exe文件,zip文件等等。然后不收录一些特定的跟踪链接,如 https://www.doczj.com/doc/742927634.html, 。你需要把一些搜索引擎爬虫不收录的特征加进去。 然后在“搜寻”里面,很多的特征都是现在搜索引擎爬虫的特征: 搜寻 搜索引擎不会接受cookie,所以取消“接收cookie”。

至于“解析java文件”,google 爬虫也会去解析java文件的。这是一个像HTTrack这样的通用爬虫都可以做到的事情。可能很多人还不知道,google会去试图解析javascript代码。如果你的页面上放很多javascript代码,就会使爬虫的停留时间增加,进而影响爬虫效率。这也可以算是为什么要把javascript 代码外调的另一个原因。 还有,有些javascript代码里面的URL,google爬虫是可以收录的,原因不明。这样做可能是因为有些内容很好的网站,很多链接就是喜欢用javascript来做的缘故吧。但是不代表你的链接可以用javascript来做。 HTTrack也同样能识别并遵守robots.txt文件。 至于url hacks ,就是让那种带 www和不带www的网址,如www.***.com和 ***.com。以及有斜杠和无斜杠的网址,如http://www.***.com 和 www.***.com 能统一。 这种网站上URL不统一的状况爬虫程序其实能很简单的处理好。至于google为什么要网站所有者在webmaster tool 后台指定一下“首选域”,是因为有些网站 www.***.com 和***.com 指向不同的内容。所以google不能那么武断的就认为www.***.com 和***.com是同一个网站。 至于“流量控制”和“限制”, 流量控制

各种搜索引擎技巧

.html .asp/.aspx .php .jsp Html语言变量、函数、组建、流程、循环、结构 代码结构进行优化 URL 统一资源定位符号universal resources locator 网络地址 Filetype Intitle Inurl 美萍点播系统VOD down:43 Site: 在站内进行检索 Intext: Seo搜索引擎优化-》sem搜索引擎营销-》网络营销 【项目背景介绍】 信息社会,信息以爆炸式的方式增长,网络环境下,搜索引擎是我们通往目的地的必备武器,但是在浩如烟海的网络信息里面,很多网友都只会简单的搜索,往往不能够很好的达到搜索的目的,因此也无法完成对海量信息的综合处理。作为电子商务专业学生,如何高效的完成信息检索,无论是对个人依托网络进行的学习还是今后的网络商务工作,都十分重要。 【项目工具简介和环境要求】 互联网机房 能正常访问互联网、IE插件正常 【项目延伸思考题】 搜索引擎的商用价值 各类搜索引擎通用的高级搜索命令 提高网站被检索可能性的建议 【项目教学难点】 网站备案机制 网站支付流程的合理性 网站联系信息的真实性判断 【项目实施步骤】 项目简介—快速测试—软件包传送—学生自我摸索(安装、调试、搜索等)—手把手—应用场合分析—新模式联想 随着网络技术尤其是WWW站点的快速发展和普及,人们通过Internet获取全球信息的可能性越来越大。可以说,我们所需要的信息,绝大部分都可以通过因特网获取。但是网络信息内容庞杂、分散无序,各种有价值、所需的信息资源淹没在信息的“汪洋大海”中,给人们查询和利用网络信息资源带来了极大的不便。为了更有效地开发和利用网络信息资源,人们研制了许多网络信息检索工具,其中WWW是Internet上增长最快、使用最方便灵活的多媒体信息传输与检索系统,越来越多的用户将自己的信息以WWW的方式在网上发布。WWW服务器已称为互联网上数量最大和增长最快的信息系统,因而可以检索WWW网址网页以及新闻论坛、BBS文章的检索工具——搜索引擎称为查询网络信息的最主要的检索工具。 有人说,会搜索才叫会上网,搜索引擎在我们日常生活中的地位已是举足轻重。你也许是个刚买了“猫”兴冲冲地要上网冲浪,也许已经在互联网上蛰伏了好几年,无论怎样,要想在浩如烟海的互联网信息中找到自己所需的信息,都需要一点点技巧。对于企业而言,学习搜索,提高技巧,就能找到更多的潜在客户。

搜索引擎基本工作原理

搜索引擎基本原理 一.全文搜索引擎 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。 二.目录索引 与全文搜索引擎相比,目录索引有许多不同之处。 首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。 其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。

尤其象Yahoo!这样的超级索引,登录更是困难。(由于登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo雅虎的技巧) 此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。 最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。 目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。 目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。

基于JAVA技术搜索引擎的设计与实现

龙源期刊网 https://www.doczj.com/doc/742927634.html, 基于JAVA技术搜索引擎的设计与实现 作者:刘智勇 来源:《数字技术与应用》2017年第05期 摘要:随着科技的进步与发展,互联网成为21世纪的宠儿,网络信息也复杂多样。这些繁杂的网络信息在给我们带来便利的同时也产生了极大的问题,比如如何在这海量的信息里面找到自己所需要的内容,成为当前互联网技术的热门领域。互联网信息复杂多样,因此想要迅速、快捷的找到所需要的信息内容,就需要搜索引擎来帮忙实现。本文就对搜索引擎的工作原理,组成和数据结构等方面进行分析,对搜索引擎未来的发展方向进行探索。众所周知,智能化是未来的一个大的趋势,想要实现搜索引擎的智能化,就需要使搜索引擎具备自我学习的能力,适应用户的查询需求。 关键词:搜索引擎;智能化;信息检索 中图分类号:TP391.3 文献标识码:A 文章编号:1007-9416(2017)05-0205-01 1 搜索引擎概述 随着信息时代的来临,互联网的迅速普及应用,已经成为我们正常生活中不可或缺的一部分。因为互联网信息具备共享等多种特性,使得网络信息成倍的增加。谷歌公司所收录的网页信息都已经过亿,而且每天还在不断的攀升,想要在这么多数据里面,选取对自己有用的信息,就需要借助搜索引擎来进行实现。 搜索引擎是从1994年诞生,随着互联网的信息日益增多,搜索引擎也在不断的发展,从1994年到现在历经三个阶段。搜索引擎的第一个阶段就是1994年到1996年,这个阶段的搜索引擎以集中式检索为主。当时网络信息并没有很多,一般都是少于百万的网页,也没有索引,检索速度也非常慢。也是采用网络、数据库等关键技术来实现。第二个阶段是1996年到1998年,这个期间,搜索引擎采用分布式检索方案,使用多个微型计算机来协同工作,其目的是为了提高数据规模和响应速度。一般可以响应千万次的用户检索请求。第三代搜索引擎,就当前所使用的搜索引擎,也是搜索引擎极为繁荣的时期。它拥有完整的索引数据库,除了一般的搜索,还有主题搜索和地域搜索。但是这些搜索结果反馈给用户的数据量较大,检索结果的相关度又成为研究的核心。 我们通常所用的搜索引擎也分为多种,按照信息的搜集方法和服务提供方式的不同进行区分,常用的有三类,第一,目录式搜索引擎。它是以人工方式进行信息的搜集,由编辑员进行审查并制作成信息摘要,将其进行分类置入架构中去。这类搜索方式的搜索结果准确,信息质量高,但是需要大量的人工成本,信息更新不及时,维护量大。第二,机器人搜索引擎。就是我们常说的网络爬虫,是由一个网络蜘蛛的机器人程序以某种策略自动地在互联网中搜集和发现信息,这种信息查询方式是由索引器完成的。索引器为搜集到的信息建立一个完整的索引,

搜索引擎的使用方法和技巧

百度搜索引擎的使用方法和技巧 学生姓名: 学院:信息技术学院 专业:信管(电) 班级: 学号: 指导教师: 完成日期: 2015年3月28日 辽东学院 Eastern Liaoning University

一、简单搜索 1. 关键词搜索 只要在搜索框中输入关键词,并按一下“搜索”,百度就会自动找出相关的网站和资料。百度会寻找所有符合您全部查询条件的资料,并把最相关的网站或资料排在前列。 小技巧:输入关键词后,直接按键盘上的回车键(即Enter健),百度也会自动找出相关的网站或资料。 关键词,就是您输入搜索框中的文字,也就是您命令百度寻找的东西。可以是任何中文、英文、数字,或中文英文数字的混合体。可以命令百度寻找任何内容,所以关键词的内容可以是:人名、网站、新闻、小说、软件、游戏、星座、工作、购物、论文、、、 例如:可以搜索[windows]、[918]、[F-1赛车]。 可以输入一个关键词,也可以输入两个、三个、四个,您甚至可以输入一句话。 例如:可以搜索[博客]、[原创爱情文学]、[知音,不需多言,要用心去交流;友谊,不能言表,要用心去品尝。悠悠将用真诚,尊敬和大家来建立真正的友谊]。 注意:多个关键词之间必须留一个空格。 2. 准确的关键词 百度搜索引擎严谨认真,要求一字不差。 例如:分别输入 [舒淇] 和 [舒琪] ,搜索结果是不同的。 分别输入 [电脑] 和 [计算机] ,搜索结果也是不同的。 因此,如果您对搜索结果不满意,建议检查输入文字有无错误,并换用不同的关键词搜索。 3. 输入两个关键词搜索 输入多个关键词搜索,可以获得更精确更丰富的搜索结果。 例如,搜索[悠悠情未老],可以找到几千篇资料。而搜索[悠悠情未老],则只有严格含有“悠悠情未老”连续5个字的网页才能被找出来,不但找到的资料只有几十篇,资料的准确性也比前者差得多。 因此,当你要查的关键词较为长时,建议将它拆成几个关键词来搜索,词与词之间用空格隔开。 多数情况下,输入两个关键词搜索,就已经有很好的搜索结果。 4. 减除无关资料 有时候,排除含有某些词语的资料有利于缩小查询范围。 百度支持“-“功能,用于有目的地删除某些无关网页,但减号之前必须留一空格,语法是“A -B”。

JAVA基于网络爬虫的搜索引擎设计与实现

本科毕业设计 题目:基于网络爬虫的搜索引擎设计与实现 系别: 专业:计算机科学与技术 班级: 学号: 姓名: 同组人: 指导教师:教师职称:协助指导教师:教师职称:

摘要 本文从搜索引擎的应用出发,探讨了网络蜘蛛在搜索引擎中的作用和地住,提出了网络蜘蛛的功能和设计要求。在对网络蜘蛛系统结构和工作原理所作分析的基础上,研究了页面爬取、解析等策略和算法,并使用Java实现了一个网络蜘蛛的程序,对其运行结果做了分析。 关键字:爬虫、搜索引擎

Abstract The paper,discussing from the application of the search engine,searches the importance and function of Web spider in the search engine.and puts forward its demand of function and design.On the base of analyzing Web Spider’s system strtucture and working elements.this paper also researches the method and strategy of multithreading scheduler,Web page crawling and HTML parsing.And then.a program of web page crawling based on Java is applied and analyzed. Keyword: spider, search engine

[基于,搜索引擎,SIVA]基于搜索引擎的“SIVA”网络营销理论模型的应用研究

基于搜索引擎的“SIVA”网络营销理论模型的应用研究 基于搜索引擎的“SIVA”网络营销理论模型的应用研究 信息技术的到来改变了营销环境,需要建立一种新的由消费者主导的交互市场营销体系。传统的以线性的输出营销系统,都是基于内部驱动的品牌传播方法,而现在,消费者决策体系已由线性变成网状,选择由单一的点变成立体的面,因此,必须建立一种全新的以消费者为核心的交互式的营销模型来适应当今的大数据时代。 一、前言 回顾过去几十年营销理论的发展,从当年的4P理论到逐渐意识要与消费者沟通的4C、4R理论的发展,表明了营销体系的不断推进,消费者的地位不断被提升。要以消费者为中心,要了解消费者真正的需求,要实现与消费者对话,营销者就要不断努力地接近消费者, 改变营销策略,从说服转为倾听,希望能从消费者口中找到营销的最佳时机。 互联网的发展,特别是搜索引擎的出现,让越来越多的企业真正从消费者的心声中发现了商机。LANCOME兰蔻于1935年诞生于法国,兰蔻品牌已发展成为全法国第一和全世界第二 的世界知名化妆品牌。兰蔻以聚集了中国95%以上网民的百度搜索营销平台为基础,将关 键字投放、品牌专区、关联广告、精准广告等不同营销形式有机地整合在一起,各个营销环节层层相扣,全方位开展了网络营销活动。如若有消费者在百度搜索上敲下“兰蔻”两个字搜索关键词栏目即出现包含“兰蔻”的若干主题词。这些主题词与兰蔻产品或品牌的相关性极高,消费者可以从这些主题词的链接中找到自己想要的信息和解决方案。 而在当今的大数据时代,消费者的信息与需求源源不断地涌向互联网这个大口袋里,为企业品牌提供了巨大的机会与便利。消费者与企业双方依托搜索平台进行对接,期待最契合的连接点,相互得到满足。 二、搜索引擎 中国现在有5.64亿网民,4.2亿手机用户,每天在百度上的搜索请求超过50亿次《中国互 联网发展状况统计报告》(2013年1月,第31次)。根据全球最大的网络调查公司CyberAt las的调查表明,网站75%的流量都是来自于搜索引擎。 1.搜索引擎的定义 搜索引擎是指一种基于Internet上的信息查询系统,包括信息存取、信息管理和信息检索。搜索引擎便于网民获取有效信息,成为网民最喜爱的网络信息采集渠道,同时也有利于企业以较低的成本获得较高的信息传播效率,成为企业产品和服务推广的主要手段。 2.搜索引擎的营销功能 (1)对潜在客户的精准定位

新技术论文-搜索引擎研究

摘要 搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列,方便用户查找。 如何更加快捷、准确地查找到用户所需的网络信息资源,是各大搜索引擎服务提供商和计算机网络研究人员的研究热点。作为计算机专业的学生,搜索引擎技术对我们有很大的诱惑力,了解搜索引擎的发展现状、原理和技术手段,从算法的角度来认识搜索引擎,是我们必须掌握的知识之一。 文章概述了搜索引擎的出现与发展,原理与技术。 关键词:搜索引擎、基本原理、搜索算法、技术

目录 1绪论 (3) 1.1 搜索引擎的出现与发展 (3) 1.1.1 搜索引擎的出现 (3) 1.1.2 搜索引擎的发展 (4) 2 搜索引擎的原理与技术 (5) 2.1 分类目录检索 (5) 2.1.1 主题分类法 (6) 2.1.2 学科分类法 (6) 2.1.3 分面组配分类法 (6) 2.1.4 图书分类法 (6) 2.2 关键词检索 (6) 2.2.1 从互联网上抓取网页 (8) 2.2.2 建立索引数据库 (8) 2.2.3 在数据库中搜索 (8) 2.2.4 对搜索工作进行处理排序 (8) 结论 (9) 参考文献 (10)

1.绪论 近几年,随着网络的不断发展和壮大,搜索引擎越来越成为人们生活中重要的一部分,找资料、查地图、听音乐,只有想不到的,没有搜索不到的。中国十年多来互联网的不断发展,造就出1.3亿的网民,搜索引擎也出现空前的火热。在互联网出现的初期,雅虎、新浪、网易等大型门户网站拥有着绝对多的浏览量,原因在于当初的大部分网站在技术上无法与门户网站相媲美,多数质量较差,内容不丰富,所以大型门户网站优秀的网页设计风格,大量的信息及时更新赢得了用户的认可,创造了第一次互联网的高峰。然而随之近年来网络技术的普及与应用,建立一个专业的网站已经不存在太多的技术门槛。于是看好互联网前景的网站纷纷涌现在我们的面前。相对比而言在某些领域中,大型门户网站的页面风格反而不如一些中小型网站的界面漂亮,同时各种分类的行业网站也慢慢的兴起,使得搜索引擎越来越成为人们生活中必不可少的实用工具。 搜索引擎的出现,整合了众多网站信息,恰恰起到了信息导航的作用。通用搜索引擎就如同互联网第一次出现的门户网站一样,大量的信息整合导航,极快的查询,将所有网站上的信息整理在一个平台上供网民使用,于是信息的价值第一次普遍的被众多商家认可,迅速成为互联网中最有价值的领域。互联网的低谷由此演变为第二次高峰。大家熟知的搜索引擎Google、百度、雅虎等是通用搜索引擎现如今的杰出代,他们为互联网的发展做出了重要的贡献。然而,搜索引擎行业也不是一家公司就可以独撑天下的,从百度的上市、yahoo中国的并购一系列动作表明,如今的搜索引擎大战如同门户网站初期的竞争一样激烈。相信,通用搜索引擎在经历过一段时间的角逐后,也将会继续维持几大服务商各自分控一部分市场的局面。 总而言之搜索引擎改变了人们的生活给人们的生活工作学习带来了巨大的帮助。 1.1搜索引擎的出现与发展 1.1.1搜索引擎的出现 搜索引擎从1990年原型初显,到现在成为人们生活中必不可少的一部分,它经历了太多技术和观念的变革。 出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。这些资源当时主要存在于各种允许匿名访问的FTP 站点。为了便于人们在分散的FTP 资源中找到所需的东西,1990年,加拿大麦吉尔大学(McGillUniversity)的几个大学生开发了一个软件Archie。它是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载这个文件。Archie实际上是一个大型的数据库,再加上与这个大型数据库相关

百度搜索引擎搜索技巧

百度搜索引擎搜索技巧 信息时代让人们畅享着富足信息盛宴带来的便利,可是如何才能从海量的信息中找寻自己最满意的目标信息呢?正常的信息大家一般都很容易从搜索引擎中查找到,但大家应该也有过这样的经历,有些时候自己想要的信息可能并未如愿地出现在搜索结果中或者要翻了好几页才能找到自己想查找的信息。 可能有些时候确实是搜索引擎的收录中并没有这样的相关信息,但是也有很多时候是因为我们没有掌握全面的搜索引擎搜索技巧,特别是在组合搜索和特殊符号方面应用的不到位。 1、加号(+)、分隔号(|)和空格的应用 这三个都属于并行搜索,就比如知识+文化、知识文化、知识|文化,这三种的搜索方式都是用于搜索同时包含关键词“知识”和“文化”的信息,当然也搜索只包含关键词“知识”或者只包含关键词“文化”的信息。 2、减号(-)的应用 减号应用于排除含有某些词语的资料有利于缩小查询范围。 百度支持“-”功能,用于有目的地删除某些无关网页,但减号之前必须留一空格。例如,要搜寻关于“武侠小说”,但不含“古龙”的资料,可使用:武侠小说-古龙 3、双引号(“”)和中括号([])的应用 这两种符号属于精确匹配的搜索方式,双引号(“”)个人认为价值更大,这就是我们有时会听说的完全匹配,比如在搜索框中输入“厦门思明区和湖里区网络购物”,那么在搜索结果中的那些信息就一定会出现跟引号里一模一样的这句话。 如果用中括号[],我们也以刚才的那几个字[厦门思明区和湖里区网络购物]来举例,那么在出现的搜索结果中,那些信息的数量肯定比上面用双引号来的多。因为这种搜索方式虽然括号中的那些字在搜索出来的信息中也会全部出现,但是中括号里的这些字不一定是以整体方式出现的,这句关键词也会以零散的方式出现的搜索结果的信息中。比如,搜索结果的信息中可能出现:<物…网络购…门…湖里区和思明区…厦>这样的次序出现,当然还有其他组合的次序可以出现,但这几个字的每一字至少会出现一次在搜索结果的信息页中。 上面的这两种搜索方式如果不太理解,也可以自己具体去搜索比较一下,就会清楚多了。而且上面的这些符号有些也可以组合使用的,比如:你要查信息中同时出现(厦门思明区)、(和湖里区)、(网络购物),而且这括号里的三组词要完全匹配,那么你可以在搜索框中这样输入:“厦门思明区”+“和湖里区”+“网络购物”,那么你就可以得到你想要的结果了。 4、特殊字符串(site)、(intitle)、(inurl)的应用

搜索引擎爬虫外文翻译文献

搜索引擎爬虫外文翻译文献 (文档含中英文对照即英文原文和中文翻译) 译文: 探索搜索引擎爬虫 随着网络难以想象的急剧扩张,从Web中提取知识逐渐成为一种受欢迎的途径。这是由于网络的便利和丰富的信息。通常需要使用基于网络爬行的搜索引擎来找到我们需要的网页。本文描述了搜索引擎的基本工作任务。概述了搜索引擎与网络爬虫之间的联系。 关键词:爬行,集中爬行,网络爬虫 1.导言 在网络上WWW是一种服务,驻留在链接到互联网的电脑上,并允许最终用户访问是用标准的接口软件的计算机中的存储数据。万维网是获取访问网络信息的宇

宙,是人类知识的体现。 搜索引擎是一个计算机程序,它能够从网上搜索并扫描特定的关键字,尤其是商业服务,返回的它们发现的资料清单,抓取搜索引擎数据库的信息主要通过接收想要发表自己作品的作家的清单或者通过“网络爬虫”、“蜘蛛”或“机器人”漫游互联网捕捉他们访问过的页面的相关链接和信息。 网络爬虫是一个能够自动获取万维网的信息程序。网页检索是一个重要的研究课题。爬虫是软件组件,它访问网络中的树结构,按照一定的策略,搜索并收集当地库中检索对象。 本文的其余部分组织如下:第二节中,我们解释了Web爬虫背景细节。在第3节中,我们讨论爬虫的类型,在第4节中我们将介绍网络爬虫的工作原理。在第5节,我们搭建两个网络爬虫的先进技术。在第6节我们讨论如何挑选更有趣的问题。 2.调查网络爬虫 网络爬虫几乎同网络本身一样古老。第一个网络爬虫,马修格雷浏览者,写于1993年春天,大约正好与首次发布的OCSA Mosaic网络同时发布。在最初的两次万维网会议上发表了许多关于网络爬虫的文章。然而,在当时,网络i现在要小到三到四个数量级,所以这些系统没有处理好当今网络中一次爬网固有的缩放问题。 显然,所有常用的搜索引擎使用的爬网程序必须扩展到网络的实质性部分。但是,由于搜索引擎是一项竞争性质的业务,这些抓取的设计并没有公开描述。有两个明显的例外:股沟履带式和网络档案履带式。不幸的是,说明这些文献中的爬虫程序是太简洁以至于能够进行重复。 原谷歌爬虫(在斯坦福大学开发的)组件包括五个功能不同的运行流程。服务器进程读取一个URL出来然后通过履带式转发到多个进程。每个履带进程运行在不同的机器,是单线程的,使用异步I/O采用并行的模式从最多300个网站来抓取数据。爬虫传输下载的页面到一个能进行网页压缩和存储的存储服务器进程。然后这些页面由一个索引进程进行解读,从HTML页面中提取链接并将他们保存到不同的磁盘文件中。一个URL解析器进程读取链接文件,并将相对的网址进行存储,并保存了完整的URL到磁盘文件然后就可以进行读取了。通常情况下,因

基于JAVA技术的搜索引擎的研究与实现

基于JAVA 技术的搜索引擎的研究与实现 摘要 网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、We b 服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎——新闻搜索引擎。 新闻搜索引擎是从指定的Web 页面中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过Web 服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。 本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明,图文并茂、易于理解。 Abstract The resources in the internet are abundant, but it is a difficult job to search some useful information. So a search engine is the best method to solve this problem. This article fist introduces the system structur e of search engine based on the internet in detail, then gives a minute explanation form Spider search, e ngine and web server. In order to understand the technology more deeply, I have programmed a news se arch engine by myself. The news search engine is explained and searched according to hyperlink from a appointed web page, th en indexs every searched information and adds it to the index database. Then after receiving the custome

浅谈搜索引擎的研究现状

科 技 天 地 38 INTELLIGENCE ························浅谈搜索引擎的研究现状 西安外事学院计算机中心 李艳红 摘 要:文章分析了搜索引擎的发展历史及国内外搜索引擎的发展现状,采用了 对比的方法对特色搜索引擎的进行了阐述,并详尽的指出了各种搜索引擎的现状、特点及发展趋势。 关键词:搜索引擎 爬虫 网页快照 搜索引擎(Search Engine)正是帮助人们从网上检索信息的重要工具,是为了解决网上信息查询困难的问题应运而生的,它可以有效地帮助用户在网络上查找到自己需要的信息。它是在互联网产生后伴随着网上用户快速查询信息的需求的产物,即提供信息检索服务的计算机系统,检索的对象包括互联网上的站点,新闻组中的文章,软件存放的地址及作者,某个企业和个人的主页等。 当用户通过Archie 检索文件时,所要进行的全部工作就是对该数据库进行检索。尽管Archie 还不是真正的搜索引擎,但工作原理与现在的搜索引擎己经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者查询。1994年初,Internet 上出现了包括Lycos 在内的第一批Web 搜索引擎。第二代搜索引擎以1998年出的Google 和Directhit 为代表。它们是“根据以往用户实际访问一个网站并在该网站上所花费的时间来确定一个网站的重要性,或者根据一个网站被其他网站链接的数量来确定网站的重要性” ,“这种根据用户忠诚度的评判方法更具备客观性,因而,用户所获得的信息也就更准确”。如Directhit 以被大多数用户访问的情况认定一个网站的重要性;Google 以被其他网站链接的情况认定一个网站的重要程度。在发展过程中更强调了人的因素,主要表现在以下三个方面: (1)能利用自然语言查找信息。第二代搜索引擎可以将自然语言自动翻译成系统能理解的专业术语,进行精确查找。 (2)有判断地收集信息,根据众多网络用户行为特征来取舍信息。(3)人工分类。引入大量的人工对信息进行分类。强调人工分类的重要性。 此外,第二代的搜索引擎还有一个特点,他们只做后台技术,将技术提供给Yahoo 等门户网站。其中Google(https://www.doczj.com/doc/742927634.html,)是表现最为突出的。Google 于1998年9月发布测试版,是目前人们使用最广泛的搜索引擎。 Google 现为全球80多家门户和终级网站提供支持。Google 的优势是易用性和返回结果的高相关性。Google 提供一系列革命性的新技术,包括完善的文本对应技术和先进的PageRank 排序技术,后者可以保证重要的搜索结果排列在结果列表的前面。Google 还提供一项很有用的服务:“网页快照”功能。 目前,新一代的搜索引擎也己经进入了研制阶段,其最大特点就是大量智能化信息处理的引入,网络信息检索将步入知识检索和知识服务的领域。它的一个特征是能够解决文件格式问题,这就要求搜索引擎不仅能识别TXT 文件,也要能够识别PPT, Word, PDF,电子邮件等文件;另一个特征是把P2P 技术应用到网页的检索中,这样通过共享所有硬盘上的文件,目录乃至整个硬盘,用户搜索时无需通过Web 服务器,不受信息文档格式的限制,即可达到把散落在互联网上的不相关的人们关心的知识搜集起来,经过筛选,组织和分析返回给用户所需的信息。 国内目前已有很多关于搜索引擎的研究。百度搜索引擎[6]收录中文网页接近2亿,是全球最大的中文数据库。Baidu 搜索引擎的其它特色包括:网页快照,网页预览/预览全部网页,相关搜索词,错别字纠正提示,新闻搜索,Flash 搜索和信息快递搜索等。北大天 网搜索引擎是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,有强大的搜索功能。除了WWW 主页检索外,天网还提供FTP 站点搜索(“天网文件”),为高级用户查找特定文件提供方便。同时,天网将FTP 文件分为电影和动画片,MP3音乐,程序下载,文档资源共四大类,用户可以像目录导航式搜索引擎那样层层点击,查找自己需要的FTP 文件。天网提供的服务还包括“天网目录”和“天网主题”。搜狐分类目录设有独立的目录索引,并采用百度搜索引擎技术,提供网站,网页,类目,新闻黄页,中文网址,软件等多项搜索选择。搜狐搜索范围以中文网站为主,支持中文域名。慧聪搜索引擎拥有超过2亿网页的中文信息库,提供网页,网站,新闻,地域,行业,MP3, Flash 等多种检索方式,具有互联网实时新闻搜索,高精度检索,分类查询,网站导航,企业与产品查询等功能。 目前的搜索引擎,每天使用爬虫在互联网上获取大量网页,这花去了大量的时间,对于面向大量用户的商业搜索引擎是非常合理的,但是对于只面向某一类型的网络,如校园网的搜索引擎,这无疑需要大量的计算资源和存储空间,这往往是得不偿失的。因此,对于校园网内搜索引擎,需要设计一种对资源要求低,灵活机动的方法。 参考文献: [1] 刘建国:《搜索引擎概述》,北京大学计算机与科学技术,1999年。 [2] 李晓明、刘建国:《搜索引擎技术及趋势》,《大学图书馆学报》,2000年第16期。

搜索引擎爬虫工作原理

搜索引擎爬虫工作原理 搜索引擎的处理对象是互联网网页,日前网页数量以百亿计,所以搜索引擎首先面临的问题就是:如何能够设计出高效的下载系统,以将如此海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。 网络爬虫即起此作用,它是搜索引擎系统中很关键也根基础的构件。这里主要介绍与网络爬虫相关的技术,尽管爬虫技术经过几十年的发展,从整体框架上已相对成熟,但随着联网的不断发展,也面临着一些有挑战性的新问题。 版纳论坛下图所示是一个通用的爬虫框架流程。首先从互联网页面中精心选择一部分网页,以这些网页的链接地址作为种子URL,将这些种子URL放入待抓取URL队列中,爬虫从待抓取URL队列依次读取,并将URL通过DNS解析,把链接地址转换为网站服务器对应的IP地址。 然后将其和网页相对路径名称交给网页下载器,网页下载器负责页面内容的下载。对于下载到本地的网页,一方面将其存储到页面库中,等待建立索引等后续处理;另一方面将下载网页的URL放入已抓取URL队列中,这个队列记载了爬虫系统已经下载过的网页URL,以避免网页的重复抓取。对于刚下载的网页,从中抽取出所包含的所有链接信息,并在已抓取URL队列中检查,如果发现链接还没有被抓取过,则将这个URL放入待抓取URL队列末尾,在之后的抓取调度中会下载这个URL对应的网页。如此这般,形成循环,直到待抓取URL队列为审,这代表着爬虫系统已将能够抓取的网页尽数抓完,此时完成了一轮完整的抓取过程。

对于爬虫来说,往往还需要进行网页去重及网页反作弊。 上述是一个通用爬虫的整体流程,如果从更加宏观的角度考虑,处于动态抓取过程中的爬虫和互联网所有网页之间的关系,可以大致像如图2-2所身那样,将互联网页面划分为5个部分: 1.已下载网页集合:爬虫已经从互联网下载到本地进行索引的网页集合。 2.已过期网页集合:由于网页数最巨大,爬虫完整抓取一轮需要较长时间,在抓取过程中,很多已经下载的网页可能过期。之所以如此,是因为互联网网页处于不断的动态变化过程中,所以易产生本地网页内容和真实互联网网页不一致的情况。 3.待下载网页集合:即处于上图中待抓取URL队列中的网页,这些网页即将被爬虫下载。 4.可知网页集合:这些网页还没有被爬虫下载,也没有出现在待抓取URL队列中,不过通过已经抓取的网页或者在待抓取URL队列中的网页,总足能够通过链接关系发现它们,稍晚时候会被爬虫抓取并索引。

我国搜索引擎评价研究的现状_问题及对策_马志杰

我国搜索引擎评价研究的现状、问题及对策* 马志杰 【摘要】从评价指标、评价方法、评价对象、评价主体四个方面对我国搜索引擎评价研究进行总结和分析,指出其存在研究团队薄弱;理论基础薄弱,缺乏创新性;实践活动薄弱,缺乏实证研究;绩效评价研究较少;综合评价方法不太成熟等问题。为促进该研究,应坚持定性与定量相结合的发展方向;坚持用户导向开展搜索引擎评价工作;坚持理论与实践相结合,加强实证研究与创新研究;建立权威的搜索引擎评价组织;加强绩效评价。 【关键词】搜索引擎评价指标评价方法 Abstract:This paper summarizes and analyzes the research to the field of search engine evaluation from the aspects of evaluation index,evaluation methods,evaluation objects and evaluation subjects.And then it points out the main problems in the current search engine evaluation study,including weak research team;weak theoretical foundation,lack of innovation;weak practical activities,the lack of empirical research;less study of performance evaluation;less mature comprehensive evaluation method.To promote the research,it should be taken to adhere to the combination of qualitative and quantitative development direction,persist in the user-oriented search engine evaluation,uphold the theory and practice combine to strengthen empirical research and innovation research,establish the authoritative evaluation organization,and strengthen performance evaluation. Key words:search engine evaluation index evaluation method 随着互联网的迅速发展,搜索引擎已经成为互联网上访问全球信息资源的最重要的检索工具。搜索引擎的出现及其日益显著的重要性促进了关于搜索引擎的评价研究的发展。国内搜索引擎评价研究已经成为搜索引擎研究领域的一个热点问题,取得了一定的成果,然而也存在着一些不足。笔者现从评价的指标、方法、对象、主体4个方面就搜索引擎评价研究发展状况做出全面、系统的总结和分析,并在此基础上,深入探讨当前搜索引擎评价研究中存在的主要问题和发展策略。 1搜索引擎评价研究发展状况 1.1搜索引擎评价指标 1995年开始,国内开始了对搜索引擎进行比较和评价,但是由于搜索引擎自身的功能和规模问题,以及缺少搜索引擎评价技术的支持,对搜索引擎的评价、比较绝大多数仍然以定性描述为主[1][2][3][4]。这种评价方法局限于对单个搜索引擎各因素的描述和某几个搜索引擎之间的比较,却不能从整体上评价各搜索引擎的优劣。 随着搜索引擎评价研究的发展,国内出现了成套的整体性的搜索引擎体系评价研究。1997年,曾民族在综合国内外搜索引擎评价研究成果的基础上首次提出了一个综合性的搜索引擎评价指标体系,其中包括数据库规模和内容(覆盖范围、索引组成、更新周期)、索引方法(自动、人工索引,用户登录)、检索功能(布尔检索(含嵌套)、截词检索、字段检索、大小写有别、概念检索、词语加权、词语限定、特定字段限定、缺省值、中断退出、重复辨别、上下文关键词、查询集操作)、检索结果(相关性排序、显示内容、输出数量选择、显示格式选择)、用户界面(帮助文件、数据库和检索功能说明、查询举例)、查准率和响应时间7个方面的指标。这是国内最早的有关搜索 11 RESEARCH ON LIBRARY SCIENCE *本文系国家社科基金青年项目“网络信息资源的绩效评估体系研究”(项目编号:09CTQ029)的研究成果之一。DOI:10.15941/https://www.doczj.com/doc/742927634.html,ki.issn1001-0424.2013.04.007

相关主题
文本预览
相关文档 最新文档