当前位置：文档之家› 基于语义的个性化Web搜索

基于语义的个性化Web搜索

李雪梅

(江苏人民广播电台总编室资料科　南京　210002)

摘　要　针对目前Web搜索中存在的“表达差异”与“忠实表达”问题,对基于语义的个性化搜索机制进行了探讨。关键词　个性化　Web搜索　搜索引擎　语义搜索

随着Internet网络的普及和WWW的迅猛发展,网络已成为人们获得信息的必要途径和重要手段,网络中的海量信息既给人们带来方便,也带来了许多问题。信息浩如烟海,内容庞杂,组织松散,为找到有用信息,人们经常要耗费大量宝贵的时间,所以近年来Internet个性化搜索服务越来越引起人们的关注。虽然现在有些搜索引擎可以对检索结果进行打分并按得分的高低来呈现给用户,但是由于没有考虑到用户个人的兴趣爱好,不同用户对于同样的检索关键词检索出的信息是相同的,这样做并不能完全满足用户的要求,因此许多公司与研究团体纷纷致力于个性化Web搜索的开发与研究。

1　个性化Web搜索

所谓个性化Web搜索服务,既是一种个性化服务,又是一种信息服务,它能够满足用户的个体信息需求,它通过长期观察用户的搜索行为,从中识别用户的信息需求偏好,并且能够根据用户对搜索结果的评价,自觉调整搜索策略。个性化Web搜索服务是个性化Web信息服务的一个方面,它可以帮助用户更快、更准确地找到所需信息,还可以避免无关信息的干扰,这其实也是搜索智能化的一个方面。

个性化搜索服务体现在两个方面:a.用户可以使用比关键字表达方式更为方便灵活、符合用户个性习惯的描述方式,来表达自己的信息需求。b.用户能够从多个信息源中获得最贴近自己需要的信息,即针对同一检索关键词,不同用户能够获得不同的检索结果。

尽管搜索服务提供者在研发个性化搜索技术方面已经花费了大量的时间和精力,但是目前的个性化Web搜索服务仍然存在不少的问题,比如需要用户配合、个人信息泄露、信息无关等。除了这些问题外,当今网络用户还面临两个更深层次的问题:一个是“忠实表达”问题。很多情况下,用户很难简单地用关键词或关键词串来忠实地表达他所真正需要检索的内容,从而导致检索困难,比如,用户输入简单的关键字“bond”,bond有两种含义,一是金融方面的“债券”含义,另一个是工程方面的“粘结”含义,那么用户是想查询哪一种含义的“bond”呢?;另一个是“表达差异”问题。人类的自然语言中,随着时间、地域或领域的改变,同一概念可以用不同的语言表现形式来表达。对同一概念的检索,不同的用户可能使用不同的关键词来查询,例如:“计算机”和“电脑”,尽管它们指的是同一概念的东西,但在搜索引擎上使用其中的一个关键词就可能查不到含有另一关键词的网页。

造成上述信息检索问题的原因在于搜索引擎缺乏知识处理能力和理解能力,对要检索的信息仅仅采用机械的关键词匹配来实现。把信息检索从目前基于关键词层面提高到基于知识(或概念)层面,是解决问题的根本和关键。

基于语义的个性化搜索就是一个基于知识的信息检索过程,它能够对用户的检索内容定位得更快、更精确、更全面。有的人将这一过程叫做“以网络对网络”,其实质就是以有序的知识库对无序的Internet。

2　基于语义的个性化搜索示意图

图1　基于语义的个性化搜索机制检索示意图

基于语义的个性化搜索将搜索个性化与语义分析结合起来,它使用隐藏在Web搜索后的用户兴趣与语义知识来提高搜索的精度。

语义分析Agent。根据知识库中的语义知识分析用户查询请求,作关联性联想,比如进行同义词扩展等,以扩大搜索覆盖面。

个性化搜索Agent。根据用户兴趣知识对查询请求进行个性化分析并过滤返回结果。比如,针对上面提到的“bond”关键字查询问题,搜索引擎可以根据用户平时的检索兴趣,来自动进行检索意图识别。比如从以前该用户的检索行为中,发现该用户对金融方面的信息比对工程方面的信息更感兴趣,搜索引擎则将bond自动匹配为“债券”含义进行查询。

情报杂志2003年第3期 ?情报检索?

知识库/用户兴趣库。在基于语义的搜索机制中,知识库是一个捕获语义的重要途径。这里所说的知识库,是人的认知网络,存放的是人的知识,包括概念以及概念之间的种种关系。知识库中存放了十分丰富的语义知识,其知识完备性决定了基于语义的搜索完备性,如果知识库中存放的仅仅是某一领域知识,则语义分析Agent 只能作某一领域的查询请求的语义分析。除了知识库之外,我们在系统中还使用了用户兴趣库,它存贮的依然是通过用户浏览内容与行为挖掘得到的用户兴趣特征。将用户兴趣库与知识库分开纯粹是为了使两个Agent 的物理位置在存放上具有更大的灵活性。当然也可以将知识库与用户兴趣库合在一起称为综合知识库,让这个综合知识库同时指导两个Agent 的工作。

当然如图1所示,基于语义的个性化搜索机制也支持单独的语义搜索和无同义词扩展的个性化搜索。

3　基于语义的个性化搜索流程

下面举一个运行的例子来说明基于语义的个性化搜索的

流程。比如用户希望查询金融单词“stock ”(股票)的例子,stock 在字面上还有“树干、家庭、血统”等意思

。搜索引擎首

先通过实体匹配获取用户兴趣在于查询有关“股票”内容的网页。然后再根据知识库中知识来扩展搜索术语,即同义词扩展,并使用这些经过扩展后的实体来指导和加强搜索。

基于语义的个性化搜索引擎执行流程如图2所示分为八个步骤操作,其中语义分析Agent 作用于步骤1、3、6,个性化搜索Agent 作用于步骤2、7。当然在这个结构中,用户提供输入的仍然是一系列通过布尔操作符连接起来的关键词术语。

步骤1:Web 查询分析。用户首先输入一系列关键词、一系列布尔操作符(如

and ,or ),并选择搜索

参数,Web 查询分析对输入参数进行语法检查,包括对用户输入关键词进行语义分析,通过语义分析,得到用户查询请求的相关实体。例如,某一用户想投资于高回报股票,因此他在用户界面输入查询关键词“high grade ”&stock

,通过语义分析,搜索

引擎发现stock 在字面上具有“股票、树干、家庭、血统”等多种含义。

图2　基于语义的个性化搜索引擎执行流程图

步骤2:实体匹配。由于基于语义的个性化搜索引擎支持多语义实体搜索,而用户希望得到的是最相关的实体查询,因此必须进行实体匹配。实体匹配即匹配用户关键词,得到用户真正需要的实体含义。如图2所示,统实体匹配可以通过两种方式进行:一是系统给出显示页面,要求用户自己从排好序的关键词含义中选择最适宜的实体含义。例如,系统在识别关键词“stock ”存在“股票”与“树干、家庭、血统”等几种实体含义之后,它会询问用户,让用户去选择真正感兴趣的实体含义。如果用户关心的是金融领域的“stock ”,则用户选择“股票”。另一种方式是由个性化搜索Agent 根据用户兴趣库知识自动判别,比如由用户平时使用习惯中了解到用户比较关心金融外贸方面的网页内容,因而将stock 自动匹配为“股票”含义进行下面查询。

步骤3:同义词扩展。通过实体匹配之后,用户检索关键词的同义词根据知识库中的知识也相应被确定下来。例如,“AAA ”,“investment grade ”和“low risk ”均为“high grade ”的同义词,类似地,“share ”和“equity capital ”均为“stock ”的同义词。它们一起被作为查询术语用来进行下面的搜索。如图2所示,系统也可以不经过同义词扩展,而直接开始搜索。

步骤4:搜索。根据用户输入关键词与其扩展之后的同义词到网站分类或索引数据库中匹配,得到满足要求的网页或网站URL 。

步骤5:网页相关性评估。执行查询的搜索引擎将满足要求的网页URL 和网页摘要返回。有许多方法来对网页作相关性评估。比如使用计算网页摘要中匹配关键词的词的数目与整个摘要的词的数目之比来对网页相关性排名,并设定一个阈值,如0.05用来限定网页输出。例如在执行上述“stock ”和“high grade ”查询时搜索引擎返回三个网页,但搜索引擎通过相关性评估发现只有一个网页的URL 是相关的,因为虽然查询关键词(stock 和high grade )及其扩展关键词同样出现在第二、第三个URL 网页摘要中,但在第一个网页中更为丰富,满足阈值要求,因而系统仅仅将第一个URL 返回。

步骤6:语义查询过滤。经过相关性评估的网页被送到一组搜索过滤器,搜索过滤分为语义查询过滤和个性化查询过滤,先经过语义查询过滤,再进行个性化查询过滤。语义查询过滤包括可读性过滤、文档结构过滤、词性过滤等,其作用是根据文档结构、词性等过滤掉用户检索结果中的不相关文档。

步骤7:个性化查询过滤。个性化查询过滤器利用存贮在用户兴趣库中的知识来评估网页。

步骤8:网页排序。经过查询过滤后的搜索结果按照相关度和用户兴趣度递减的顺序排列,返回给用户。如果经过过滤查询之后输出的网页数目大于用户要求输出的网页数目,比如用户要求输出的网页数目为50,用户可以察看最前面50个网页;如图2所示,在本系统中用户也可以回到第四步加强相关性评估的匹配关键词,比如选择额外一些关键词

以缩小范围、减少最终相关网页的输出。

(下转第31页)

?情报检索? J o ur nal

of Inf or m a ti o n No.3,2003

根据课题选择合适的检索系统,它必须包括检索者检索需求的学科范围和熟悉的检索途径。在计算机检索中还需要确定检索所需要的文档名称或代码。

c.检索途径的确定。各检索系统一般都具有许多索引体系(即检索途径),应根据课题需要选择自己熟悉的检索途径。如:族性检索用分类途径较好,特性检索用主题途径好,知道分子式可用分子式途径,要查发明,有专利号的查专利途径。在查新检索时可多途径配合使用。

d.检索词的选定。各种检索途径均须有相应检索词(亦称入口词)方可进行检索。如分类途径以分类号作为检索词,主题途径以标题词、关键词等作为检索词等等。计算机检索还须选定检索词编制布尔逻辑提问式。对文本进行抽取检索词,尽量抽取专指词。

e.检索方法的应用。特别是计算机化的情报检索方法在提高检索效率(全、准、快、便、省)方面,起着不小的作用。包括:布尔逻辑检索法、加权检索法,扩检、缩检、改检,二次检索法,截词检索法,各种标志联合检索法,等等。这些检索方法在具体的查新检索中,经常不是单一使用的,通常检索人员会根据反馈的检索结果,随时调整或转换检索方法,以便获取满足相应查准率和查全率的资源信息。

f.检索技巧的运用。课题查新可视为问题解决的过程,包含组织与解释问题、建立检索规划、进行检索以及评估检索结果。在此复杂的过程中,检索技巧扮演着非常重要的角色。妥善地利用检索技巧不仅有助于产生新概念,提出解决问题的办法,同时有助于查新人员思考与建立检索策略。例如,在构造检索表达式时,最好要把同义词、近义词、反义词、否定词等用“逻辑和”连接进来;在检索时可对抽出的专指词进行截词浏览选择,这在提高检准率的同时对检全率的影响仍可得到一定的补救;检索用语优先使用专指词,需要扩检时再使用较泛指的词等等。

g.检索策略的转换。根据检索过程中出现的各种问题及时调整检索策略。从方法和资源的角度看,检索策略的转换包括方法的转换(可以理解为检索方法和检索技巧的变化)、资源的转换(利用的检索途径和检索系统发生变化)、方法和资源的同时转换;从目的和作用看,检索策略的转换包括补充转换(既定检索策略起了作用,但仅取得部分成功,需要进行改进,以便达到理想的查准或查全)、提高转换(通过努力改变不起作用的原检索策略,以获取成功)、替代转换(当前检索策略不成功,转而采用替代检索策略)。

检索策略制定与转换、检索方法的选择、检索程序和查新人员的经验有关。有的查新人员往往忽略检索策略的制定,忽略检索方法和检索工具各自的特点,且检索工具有综合性和专业性不同,覆盖专业面、收录文献类型、语种、出版文字的不同等,因此应根据课题分析的信息发现结果进行选用。拿了题目不了解课题内容,在题目中找出检索词,或由用户提出检索词就进行检索,这样检出来的文献不够全面,容易造成漏检。这种情况和查新人员的经验有关,尤其是涉及多学科,对各学科间存在的同义词、近义词的选择,稍有疏忽就会造成漏检。而查新人员能获得多少有助的检索经验与其所拥有的信息发现能力有直接的关系,查新人员必须在课题查新实践中不断探索和增强自身的信息发现能力。

参考文献

1　张琪玉.情报语言学基础.武汉:武汉大学出版社,1997

2　https://www.doczj.com/doc/404166263.html,worked Information Res ource Discovery:An Overview of Current Issues(Invited Paper).IEEE Jouranal on Selected Areas of Commuciation, 1995,13;(8)

3　H.A.Proper,P.D.Bruze.What is Information Discovery About.Journal of the American S ociaty for Information Science,1999,50;(9)

4　储节旺,鲍克忠.网上信息检索目标与策略的转换.情报理论与实践.

2002;(1)

5　吴东敏.科技查新中的检索策略.现代情报.2000;(1)

6　刘　静.计算机检索策略与技巧刍议.四川图书馆学报,2001;(3)

(责编:钧王京)

(上接第28页)

4　基于语义的个性化搜索特点

基于语义的个性化搜索与一般Web搜索相比,有下面的优点:

　411　语义分析与个性化分析相结合,信息服务更具综合性　由于采用了知识库、兴趣库导航,搜索引擎给用户提供更全面更综合的信息服务。一方面因为个性化分析,信息搜索更确切、针对性更强;另一方面又因为同义词扩展,信息覆盖面更广。

　412　解决了“表达差异”与“忠实表达”两大难题　知识库中的语言层面知识有助于解决前面提到“表达差异”问题,例如,只要定义“计算机”、

“电子计算机”、“电脑”是同义关系就可以消除用户由于使用不同的词表达同一概念而带来的检索困难。另一方面,根据用户兴趣库中的知识引导搜索引擎进行下一步查询,解决了信息检索中“忠实表达”的难题,实现了对查询的智能导航。

正如上面提到的,知识库在其中起到了关键作用。然而,建立理论上完备的知识库是不现实的,但是我们可以通过降低求解目标,针对某一领域、甚至某一站点所有网页所反映的知识来构造一个局部的小知识库,这里的知识库是对完备知识库的一种近似,一种局部实现。更重要的是,知识库里的知识可以在使用中不断改进,数量上不断增加,质量上不断提高。这是一个对知识进行训练的过程,可以通过人工来完成,也可以使用机器学习等手段来实现。

参考文献

1　陈　敏.中文智能搜索引擎:思路、设计与系统.https://www.doczj.com/doc/404166263.html,/ rj/2000-5/swm5/15.htm

2　周永红.水平搜索引擎与垂直搜索引擎比较研究.情报杂志,2002;(增)

3　李雪梅.个性化搜索引擎的研究.南京大学硕士研究生学位论文,2002

(责编:京加勃)

情报杂志2003年第3期 ?情报检索?

基于语义网的信息检索研究

基于语义网的信息检索研究肖芙蓉【摘　要】文章对传统信息检索中存在的问题进行了分析，简单介绍了语义网，并针对基于语义网的信息检索进行了简单的论述，最后对语义网信息检索进行了展望。【关键词】语义网　信息检索Ａｂｓｔｒａｃｔ：Ｔｈｉｓ　ｐａｐｅｒ　ａｎａｌｙｚｅｓ　ｔｈｅ　ｔｒａｄｉｔｉｏｎａｌ　ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｔｒｉｅｖａｌ，ｇｉｖｅｓ　ａ　ｓａｍｐｌｅ　ｉｎｔｒｏｄｕｃｔｉｏｎ　ｏｆ　ＳｅｍａｎｔｉｃＷｅｂ，ａｎｄ　ｄｉｓｃｕｓｓｅｓ　Ｓｅｍａｎｔｉｃ　Ｗｅｂ　ｂａｓｅｄ　ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｔｒｉｅｖａｌ　ｂｒｉｅｆｌｙ．Ａｔ　ｌａｓｔ，ｔｈｉｓ　ｐａｐｅｒ　ｐｒｏｓｐｅｃｔｓ　ｔｈｅｆｕｔｕｒｅ　ｄｅｖｅｌｏｐｍｅｎｔ　ｏｆ　Ｓｅｍａｎｔｉｃ　Ｗｅｂ　ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｔｒｉｅｖａｌ．Ｋｅｙ　ｗｏｒｄｓ：Ｓｅｍａｎｔｉｃ　Ｗｅｂ　ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｔｒｉｅｖａｌ互联网创始人Ｔｉｍ　Ｂｅｒｎｅｒｓ－Ｌｅｅ在１９９８年首次提出了语义网（Ｓｅｍａｎｔｉｃ　Ｗｅｂ）的概念，之后，世界各地的相关研究科研人员都将研究重点转向语义网。简单地说，语义网是一种能理解人类语言的智能网络，它不但能够理解人类的语言，而且还可以使人与电脑之间的交流变得像人与人之间交流一样轻松。语义网是对未来网络的一个设想，在这样的网络中，信息都被赋予了明确的含义，机器能够自动地处理和集成网上可用的信息。语义网使用ＸＭＬ来定义定制的标签格式以及用ＲＤＦ的灵活性来表达数据，下一步需要的就是用一种Ｏｎｔｏｌｏｇｙ的网络语言（比如ＯＷＬ）来描述网络文档中术语的明确含义和它们之间的关系。目前大多数商务网站的搜索引擎主要是基于关键词的全文匹配和基于主题分类进行检索的，由于信息资源缺少统一的语义描述，用户难以检索到与需求相关的资源，难以实现信息资源的语义共享，检索结果往往不能满足人们的需要。如何根据信息资源所具有的领域知识，实现信息资源的语义检索，提高数字化信息资源的利用率，是目前信息检索领域所面临的挑战。语义网的出现为这一问题提供了解决方案。语义网所描述的信息具有明确的含义，从而使得计算机能够更多地理解网上的信息，并以此为基础进行知识发现和关联等有关服务。本文的目的就是在分析传统信息检索存在的问题和对语义网进行大体描述的基础上，探讨语义网对网络信息检索的影响，同时指出语义网在网络信息检索中所面临的挑战和问题。１　传统检索信息面临的问题信息检索是信息资源与信息需求的匹配过程，是通过一定的算法寻找信息资源与信息需求的交集的过程。目前，传统的商务网站搜索引擎主要是基于关键词的全文匹配和基于主题分类进行检索的，这种搜索引擎的优点是简单、快捷和容易实现，但由于缺少统一的语义描述，用户很难快速地找到所需要的有用信息，从而导致了信息的查准率和查全率都不高。传统的信息检索技术主要由各种全文本检索技术组成，这些全文本检索技术是Ｇｏｏｇｌｅ、Ｂａｉｄｕ（百度）等搜索引擎的技术基础，也是当今Ｗｅｂ搜索最为流行的方法。由于传统的检索方式大都是基于关键词和分类目录进行检索的，只严格按照用户提交的信息进行匹配，然后把结果呈现给用户，而没有理解和处理信息的能力，检索结果的有效与否需要用户自己进行判断［１］。因此，在检索过程中，一方面可能会漏掉有用的信息，另一方面可能会检索出无关的信息。造成上述问题的实质在于传统的检索只是对检索的信息进行简单的匹配，而缺乏对知识的表示、理解和处理等能力。由于语义网的出现，很好解决了这个问题。语义网技术可以用计算机可理解的方式进行信息的表示，从而进行知识的发现、共享和重用。２　语义网的简单介绍２．１　语义网的结构经过一段时间的探讨，Ｂｅｒｎｅｒｓ－Ｌｅｅ在２０００年勾画了未来要实现的语义网架构（见图１）。由图１可见，语义网由下至上共分７个层次，语义网的第一层包括９７ＲＥＳＥＡＲＣＨ　ＯＮ　ＬＩＢＲＡＲＹ　ＳＣＩＥＮＣＥ

web信息检索

1. F1值 F1 值是检索性能评价的一个测度，它综合了精度和查全率，将两者赋予同样的重要性来考虑。F1的计算由下面的公式决定 F1 值的其他说法还表示调和平均值调和平均数定义为：数值倒数的平均数的倒数。其数值恒小于算术平均数。计算查准率p 和查全率r 的调和平均数作为度量指标。F 的取值在[0,1]。 2. 查全率查全率(Recall)：检出的相关文档个数与相关文档集合总数的比值，即R=|Ra| / |R| 其中，对某个测试参考集,信息查询实例为I ，I 对应的相关文档集合为R 。假设用某个检索策略对I 进行处理后，得到一个结果集合A 。令Ra 是R 与A 的交集 3. 查准率查准率(Precision)：检出的相关文档个数与检出文档总数的比值，即P=|Ra| / |A| 4. 支持向量机（SVM ）解决小样本、非线性及高维模式识别，SVM 将n 维空间中的点，通过一个n-1维的超平面分开。通常这个被称为线性分类器。有很多分类器都符合这个要求。但是我们还希望找到分类最佳的平面，即使得属于两个不同类的数据点间隔最大的那个面，该面亦称为最大间隔超平面。如果我们能够找到这个面，那么这个分类器就称为最大间隔分类器。 5. Deep Web Deep Web 是可以通过Internet 访问的数据库，它们所承载的信息量是目前Internent 的500倍！对Deep Web 网页的爬取有垂直搜索引擎，元搜索引擎 6. 向量空间模型（VSM ）通过给查询或文档中的索引词分配非二值权值来实现。文档的向量空间模型 ?词典, ∑={k1,k2,…kt} ?d= –此时，变量wi 称为权值，非负；表示对应词项ki 对于判断d 和查询q 相关性的重要程度（注意，这里的q 是一般的，而d 是具体的） ?q= –变量vi 的含义类似于wi ?让wi 和vi 为对应的词分别在d 和q 中出现的次数，于是我们有了两个m 维向量，用夹角的cos 表示“接近度”，即 ?R(d,q) = cos(d,q) = d·q/|d|×|q| ?认为：cos(di,q) > cos(dj,q)，则di 比dj 与q 更相关。如两个向量的分量都相同，相当与夹角为0，cos 的值为1.都不相同，垂直情况，cos 为0. ),(),(),(),(2),(j i precision j i recall j i precision j i recall j i F +??=211 F r p =+

语义web与知识管理

语义web与知识管理计81班李存禄高春阳安多分工明细：整理ppt及project展示：李存禄撰写总结论文：高春阳搜集材料：安多

摘要：关键词：语义web、xml、RDF、Ontology、ALC、web服务、知识管理、SHOE、OML、XOL、OWL、智能Agent服务

一、语义Web概况：历史： 1998年Web的发明者国际W3C主席Tim Berners-Lee首次提出了语义Web 的概念。 2001年9月9日国际W3C“技术与社会领域（Technology and Society Domain）”下的语义Web活动论坛（Semantic Web Activity）正式宣告成立。语义Web活动论坛在其宣言中指出：“语义Web是当前Web的一个扩展，其中信息具有形式化定义的语义，更有助于计算机之间以及计算机与人之间的协同工作。其思想是使Web上的数据以这样一种方式来定义与链接，使其能够在各种不同的应用场景中有效地实现数据的发现、自动化处理、集成与复用。当且仅当Web不仅成为人所共享加工的场所，也成为自动化工具所共享加工的场所时，语义Web方能实现其全部潜力。” 定义：简单的说，语义就是资源的含义(资源是一个很广泛的概念，它可以是网站、网页，甚至是网页中的部分内容)；语义Web是具有明确语义的能够被机器和人理解的网络。也就是说，语义Web是一种能够理解人类语言的智能网络，它使得人-机间及机-机间的交流变得像人-人间的交流一样便利流畅。语义Web是一个网，它包含了文档和文档的一些部分，描述了事物间的明显关系，且包含语义信息，以便于机器的自动处理。用途：万维网之父蒂姆·贝纳斯-李(Tim Berners-Lee)称，使用“语义Web”的用户将可应用远远强于现有网络中任何东西的功能。他表示，在“语义Web”中，用户可将两个毫不相干的东西连接在一起，比如说银行报帐单和日历。用户可以将银行报帐单拖到日历上，也可以将日历拖到银行报帐单上，这样就可以知道何时应当进行支付。他指出，“语义Web”将呈现给人们的是一个所有数据“无缝”式连接的网络。在“语义Web”(semantic Web)技术破土而出之后，目前人们对Facebook和MySpace等社交网站的“痴迷”终将被“无所不连”的网络所取代。

中外搜索引擎研究的现状与发展

中外搜索引擎研究的现状与发展夏旭李健康（第一军医大学图书馆广州510515）摘要: 以WWW网络搜索引擎的发展历程为基础，综述了WWW网络搜索引擎的定义、检索机制、检索规则、词表应用、分类研究、比较研究等方面取得的新进展，探讨搜索引擎发展走向与思路。同时就目前中外搜索引擎普遍存在的问题进行分析，希能对国内中文搜索引擎的开发和准确、快速、全面检索WWW网络乃至因特网信息资源有所启示。关键词：搜索引擎研究进展综述信息资源管理由于因特网上信息资源内容广泛、时效性强、访问快速、网络交互搜寻、动态更新，而且还提供快速访问网上信息资源的各种搜索引擎(Search Engines)，用于快速搜索WWW网络乃至因特上的有用信息，使得通过WWW网络获取网络信息资源成为国内外研究的一大热点。基于网络的搜索引擎的研制与开发应用成为当前网络信息资源开发应用研究领域的热点。英文搜索引擎“GOOGLE”和中文搜索引擎“百度搜索”的推出，拉开了搜索引擎核心技术争夺战的序幕。可以预言，在今后一段相当长的时间里，搜索引擎还将有长足的发展和进步，检索功能将更趋向于集成化和更具亲和力、更显人性化。 1 搜索引擎的定义、检索机制、检索规则和词表应用 1.1 定义搜索引擎，Search engines，又称搜索机，Web搜索器，是伴随WWW网络出现的检索网上信息资源的新工具。实质上是一种网页网址检索系统，有的提供分类和关键词检索途径，有的仅提供关键词检索途径。它根据检索规则和从其他信息服务器上得到数据并对数据进行加工处理，自动建立索引，并通过检索接口为用户提供信息查询服务，能够自动对WWW资源建立索引或进行主题分类，并通过查询语法为用户返回匹配资源的系统。搜索引擎主要是由Crawler、Spider、Worm、Robot等计算机软件程序自动在因特网上漫游，不断搜集各类新网址及网页，形成数以千万甚至上亿条记录的数据库。它是通过采集标引众多网络站点来提供全局性网络资源控制与检索机制、将全球WWW网络中所有信息资源作一完整的集合、整理和分类、方便用户查找所需信息的网络检索软件。具有检索面广、信息量大、信息更新速度快，特定主题的检索专指性强等特点。 1.1.1 常规搜索引擎和元搜索引擎自带索引数据库的搜索引擎通常被称为常规搜索引擎或独立搜索引擎，相应地，集多种常规搜索引擎于一体的搜索引擎则称为（多）元搜索引擎。元搜索引擎是国外搜索引擎开发者新设计的一种集成型搜索引擎，与独立搜索引擎的区别在于：它是通过一个统一的用户界面帮助用户在多个独立搜索引擎中选择和利用合适的搜索引擎，甚至是同时利用多个搜索引擎来实现检索操作。元搜索引擎没有自己独立的数据库，却更多地提供统一界面，形成一个由多个搜索引擎构成的具有独立功能的虚拟逻辑体，通过元搜索引擎的功能实现对这个虚拟逻辑体中各搜索引擎数据库的查询等一切操作。由于元搜索引擎预先配置好多个搜索引擎，每条检索指令都自动通过预先配置的搜索引擎执行，免去了用户逐一记忆和单独使用每个搜索引擎的麻烦。主要的元搜索引擎有ALL-IN-ONE、CUSI、Fun City Web Search、HyperNews、Linksearch、Savvysearch、Metacrawler、Best Search、W3Search Engines、WebSearch、Profusion、Mamma、Avenuesearch、Dogpile、Kwikseek、Findspot、Bytesearch、Webferret、Bluesquirrel Webseeker等。Metacrawler (http://www. https://www.doczj.com/doc/404166263.html,)能同时调用６个搜索引擎；Savvysearch (http://www. https://www.doczj.com/doc/404166263.html,)可有选择地调用21个独立的搜索引擎，检索Web、Usenet 新闻组、软件、参考工具、技术报告等信息，每次最多并行检索５个搜索引擎的数据库。Profusion (http://www. https://www.doczj.com/doc/404166263.html,)最多同时调用９个独立的搜索引擎，调用方式有全部调用、系统自动选择最好的３个、系统自动选择最快的３个、用户从中选取任意个搜索引擎。最新出现的桌面型离线式搜索引擎如Webcompass、WebSeeker、WebFerret、Echosearch、Copernic98等也是元搜索引擎。 1.1.2 集中式搜索引擎和分布式搜索引擎

语义网本体

Part2：创建本体本次所创建的本体是一个植物(plant)本体，所用的工具是Protege4.3。首先根据植物的分类来建立本体的Schema层，按照不同的分类方式可以有不同的分类例如可以分为花（flower）、草(grass)和树(tree)三类。花又可以分为蔷薇科（Rosaceae ）、十字花科（cruciferae）、百合科（liliaceae）。草又可以分为草坪草（turfgrass）、孔雀草（maidenhair）、千日草（One thousand days grass）。树又可以分为乔木（arbor）、灌木(shrub)。所建的Schema层如下图1所示。图1 植物本体的Schema层构建图 2、添加属性，属性包括对象属性和数据属性。所添加的对象属性有：颜色、枯萎季节、茂盛季节开花时间、开花时长，其定义域均设置为Plant。添加的数据属性有：根茎的长度。具体的添加如下图2所示。（1）对象属性添加图（2）数据属性添加图图2 植物本体的属性构建图

3、添加相应的实例。为百合科添加实例：百合花（greenish lily flower ）为乔木添加实例：雪松和杨树，为草坪草添加实例：马蹄金草（The horseshoe golden grass ）具体的实例图如下图3所示。图3 具体实例添加图 4、定义公理，例如可以对其定义灌木为丛生状态比较矮小。则需要添加对象属性丛生状态（Cluster_State）和子属性主要丛生状态(Main_Cluster_State)，然后添加分类：Type，包括short and small和tall。对草坪草定义为：主要丛生状态是short and small。对乔木添加定义：主要丛生状态是tall。在Plant类下面添加叶子(leaf)，然后添加对象属性is_part_of，给leaf定义为：叶子是树叶的一部分。对草坪草的具体的定义效果如下图4所示。图4 草坪草定义效果图

信息检索文献综述

信息检索文献综述前言：关于信息检索技术的文献综述，一、信息检索技术现状，信息检索技术综述，信息检索技术实现了把信息检索从基于关键词层面提高到知识层面，从传统的基于关键词的检索到吸引广大研究者眼球的语义检索，传统的基于关键词信息检索，语义检索是把信息检索与人工智能技术、自然语言处理技术相结合的检索技术，它从语义理解的角度分析信息对象和检索者的检索请求，提高了检索性能，语义检索技术将有一个长期深入研究的过程。关于信息检索技术的文献综述一、信息检索技术现状【1】梁鸿雁，信息检索技术综述，2010(9),软件导刊,35~37,在现有研究的基础上，信息检索技术实现了把信息检索从基于关键词层面提高到知识层面。从传统的基于关键词的检索到吸引广大研究者眼球的语义检索。实现了把信息检索从基于关键词层面提高到知识层面。传统的基于关键词信息检索，已取得了很大的成功，但是它不能从根本上表达用户的查询请求。语义检索是把信息检索与人工智能技术、自然语言处理技术相结合的检索技术，它从语义理解的角度分析信息对象和检索者的检索请求，提高了检索性能。但由于自然语言理解和人工智能等领域的局限，语义检索技术将有一个长期深入研究的过程。二、信息检索技术类型及方法

【1】赵阳，浅谈信息检索技术，2012年11月，科技创新与应用，45,介绍了当今比较热门的两种信息检索技术：第一，智能检索或知识检索传统的全文检索技术基于关键词匹配进行检索，智能检索利用分词词典、同义词典，同音词典等改善检索效果，还可在知识层面或者概念层面上辅助查询，通过主题词典、上下位词典、相关同级词典，形成一个知识体系或概念网络，给予用户智能知识提示，最终帮助用户获得最佳的检索效果。第二，知识挖掘，目前主要指文本挖掘技术的发展，目的是帮助人们更好的发现、组织、表示信息、提取知识，以满足信息检索的高层次需要。【2】孙广维，多媒体信息检索技术的研究，2012，6 ，吉林建筑工程学院学报，79~81，作者提出传统的多媒体检索方法处理比较简单，有的仅通过多媒体的外部属性和简单的文字描述进行检索，还脱离不了文本、数值和关键词的检索范畴，对图像、音频、视频信息则只有浏览或查看功能，缺乏多媒体本质特征的描述，在多媒体数据库中集成了图像、视频、音频等非文本信息，这样我们就可以用图像、音频、视频信息方便的进行检索。【3】双林平，分布式信息检索技术探析，2012（4），图书馆学刊，111~112，分布式信息检索是信息检索研究的一个重要方向，主要对分布式信息检索概念、分布式信息检索法、搜索引擎技术进行了分析，分布式技术与信息检索相结合，对于分布式资源的检索策略来讲，不仅可以对分布服务器之间的通信问题进行有效解决，还可以对

语义检索

在数字图书馆中，信息检索存在明显不足。在文献的组织与描述上,简单将关键词作为描述文献的基本元素,文献之间没有关联,是相互独立的、无结构的集合。在检索操作上,通常是基于关键词的无结构查询,难以反映词语间各种语义联系, 查询能力有限,误检率和漏检率很高,检索结果的真实相关度较低；计算查询和文档之间的相似度的方法也有局限。在用户交互界面上，用户的检索意图难以被机器理解，采用自然语言输入的检索关键词与机器的交互存在障碍。现有数字图书馆信息资源检索存在资源表示语义贫乏和检索手段语义贫乏、查准率低下等问题，语义网技术的出现，为数字图书馆的发展注入了新的活力，为信息检索质量的提高带来了新的生机。运用语义网技术，使解决信息检索中现存的问题，完善信息检索流程成为了可能。3.1 数字图书馆信息检索模型目前数字图书馆的信息检索主要借助于目录、索引、关键词方法来实现, 或者要求了解检索对象数据结构等, 对用户提供的关键词的准确性要求较高，基于语法结构进行检索, 却不能处理复杂语义关系,常常检索出大量相关度很差的文献。图3.1 数字图书馆信息检索模型用户通过检索界面，输入关键词，文本操作系统对用户的关键词进行简单的语法层次的处理整合，与数字图书馆资源进行匹配检索，最终将检索的结果，再通过用户界面返回给用户。而数字图书资源，专业数据库等都是数字图书馆信息检索的范畴，这些数字化的知识资源主要以数据库形态分布于全球互联网的数千个站点,这种以数据库形式存放的信息资源,通常是电子化了的一次文献,包括元数据、摘要或者是全文,也可以是全文链接的地址。 24 基于语义网的数字图书馆信息检索模型研究 3.2 基于语义网的数字图书馆信息检索模型的设计思想数字图书馆信息检索系统存在诸多问题。查询服务智能化水平低，无法对用户请求进行语义分析；信息资源的共享程度低，仅仅采用题名、文摘或全文中出现的关键词标识文献内容，难以揭示文献资料所反映的知识信息，易形成信息孤岛；对用户输入的关键词进行句法匹配，查准率不高；片面追求查全率，返回大量无关结果等。这些问题最终造成用户的真正检索意图难以实现。人们希望有突破性的信息检索技术出现，能够支持更为强大的信息检索功能，具备理解语义和自动扩展、联想的能力，并为用户提供个性化服务。在这样的需求下，本节深入探讨了现存问题的解决方法，结合语义网技术，提出了以下基于语义网的数字图书馆信息检索模型的设计思想。3.2.1 机器理解与人机交互人们通过信息的交流和沟通，表达一定的思想、意思和内容，因此，自然语言和表达的信息中蕴含着丰富的语义。尤其是自然语言中，一词多义、一义多词现象十分常见，在不同的语境中，同样的词汇还可以表达出不同的意义。在人与人的交流中，近义词、反义词、词语的词性、语法结构等帮助人们在特定的语言环境中理解语言表达的确切含义，而计算机要做到这点却有难度。随着网络的不断发展，网络信息充斥着人们的视野。如何在浩如烟海的信息资源中，以最短的时间查找出相关资源，成为人们所关注的问题之一。通常，检索系统总会返回相关度不高，甚至完全无关的信息，而有些相关的信息却往往被遗漏了。一方面，检索工具没能把已经存在的、对用户有价值的信息检索出来，另一方面，信息资源没有很好的被归纳，提炼成知识。利用语义网技术，将语义丰富的描述信息和资源关联起来，通过机器理解和人机交互，对信息资源进行深层次的分析和挖掘。从本质上讲，人机交互是认知的过程，主要通过系统建模、形式化语言描述等信息技术，最终实现和应用人机交互系统。3.2.2 语义知识与描述逻辑从语义学的角度讲，语义是语言形式表达的内容，是思维的体现者，是客观事物在人们头脑中的反映[72]。人们在进行信息交流和沟通时，通过词语、符号来表达思想。当人们看到

语义Web服务发现研究现状与发展_王珏

收稿日期：2012-05-11；修回日期：2012-07-16基金项目：国家“973”计划资助项目（2009CB3020402）；江苏省自然科学基金资助项目（BK2010103）作者简介：王珏（1987-），男，黑龙江哈尔滨人，助理工程师，主要研究方向为Web 服务匹配（415638921@qq．com ）；向朝参（1987-），男，博士研究生，主要研究方向为SOA 架构、无线传感网；王萌（1983-），男，助教，主要研究方向为Web 服务发现；田畅（1963-），男，教授，博导，主要研究方向为网络信息系统、无线分组网；赵文栋（1972-），男，副教授，主要研究方向为SOA 体系架构、计算机网络；代登坡（1986-），男，助理工程师，主要研究方向为Web 服务发现．语义Web 服务发现研究现状与发展* 王珏1，向朝参1 ，王萌1 ，田畅1，赵文栋1，代登坡 2（1．解放军理工大学通信工程学院，南京210007；2．中国人民解放军78083部队，成都610011）摘要：从不同方面对语义Web 服务发现相关技术进行综述。阐述了语义Web 服务的基本概念和特点，总结和分析了语义服务发现的基础———语义服务描述语言，重点从单服务匹配和服务组合匹配两个方面对语义Web 服务发现的关键问题———语义Web 服务匹配近年来的研究，进行了全面的总结和讨论，并指出了语义Web 服务发现研究领域的挑战和未来的研究方向。关键词：面向服务架构；语义Web 服务；服务发现；服务组合；服务匹配中图分类号：TP393 文献标志码：A 文章编号：1001-3695（2013）01-0007-06 doi ：10．3969/j．issn．1001-3695．2013．01．002 Survey on semantic Web services discovery WANG Jue 1，XIANG Chao-can 1，WANG Meng 1，TIAN Chang 1，ZHAO Wen-dong 1，DAI Deng-po 2 （1．Institute of Communication Engineering ，PLA University of Science ＆Technology ，Nanjing 210007，China ；2．78083PLA Troops ，Chengdu 610011，China ） Abstract ：This paper presented the state-of-the-art of semantic Web service from various aspects．First of all ，this paper ex-plained the basic concepts and character of semantic Web service．And then ， it summarized and analyzed several kinds of ser-vice description languages which were the base of service discovery．Moreover ， it comprehensively summarized and discussed service matching as the key problem of service discovery from two aspects —single service matching and service composition matching．In the end ， this paper proposed the challenge and the future work of the study on semantic Web service discovery．Key words ：SOA （service-oriented architecture ）；semantic Web service ；service discovery ；service composition ；service matching 0引言信息技术的发展带动了各类应用系统的不断涌现，在为用户带来更多便利的同时，也给IT 系统的设计和开发带来了新的挑战。如何将采用不同平台和不同技术开发的独立系统进行互连与共享，最终实现系统间的灵活配置、松散耦合、即插即用以及服务重用等功能，从而便于用户获取服务。面向服务架构（SOA ）由于实现了系统间的松散耦合，能很好地解决异构系统互连和共享这一难题，得到了高度的重视与广泛的应用［1 4］。2008年Gartner 公司调查发现，在当前大型的IT 系统中，已经采用SOA 的占53%，另有25%计划在一年内采用［5］。因此， SOA 已成为各种应用系统互连和集成的一种趋势［2］。针对不同的应用，SOA 有多种实现方式，而近年来随着因特网的不断发展，Web 服务逐渐成为SOA 实现技术的研究热点［6，7］。 Web 服务是一个广义的概念，不仅在因特网中有广泛应用，很多其他IT 系统也采用了Web 服务技术。例如文献［2］提出利用Web 服务技术将分布在不同地区的各种硬件设备互连，便于设备提供的功能进行共享和重用；文献［ 8，9］提出在无线、移动网络中利用Web 服务技术对服务进行重用和组合；文献［10］提出将Web 服务技术应用于非Web 组件中，并提出了原型系统。随着Web 应用的普及以及规模的扩大， Web 服务数量与日俱增，同时用户的服务需求也是千变万化，如何根据用户的需求快速、高效地从海量的服务中发现用户所需的服务是Web 服务研究的关键点和热点，直接决定着用户获取服务的效率和性能。 Web 服务发现依据服务描述方式划分，大体经历了基于关键字、基于语法和基于语义三个阶段［11］。由于基于关键字和语法的服务描述能力有限，导致服务发现的效率低，不便于服务的自动组合。为了提高服务描述能力和发现效率，学术界提出了语义服务描述。语义服务描述的出现，在增强服务描述能力的同时也给服务发现带来了新的挑战［5，11，12］。针对以上存在的问题，近年来学术界从不同侧面进行了研究，如基于语义的服务描述语言的提出［5，13，14］、基于语义的单服务匹配［10，15 17］与基于语义的服务组合匹配［18 21］等。文献［ 22］对2006年以前发布/订阅系统的各种关键技术进行了详细的综述，但其主要侧重于发布/订阅系统相关技术的分析；文献［15，23］分别对2004年以前的Web 服务核心技术和2008以前的服务发现技术进行了综述，但近年来Web 服务研究领域第30卷第1期2013年1月计算机应用研究 Application Research of Computers Vol.30No.1Jan．2013

移动搜索现状与发展研究

分类号：TP315 U D C：D10621-408-(2007) 5900-0 密级：公开编号：2003214051 电子科大成都学院学位论文搜索引擎与移动搜索论文作者姓名：申请学位专业：申请学位类别：指导教师姓名（职称）：论文提交日期：2010年06月01日

移动搜素基础，国内外移动搜索现状，国内外移动搜索发展，国内外移动搜索发展的问题与对策。搜索引擎与移动搜索摘要电脑网络与现代生活密切相关，它们已成为现代生活的标志，随着信息技术日新月异的发展，电脑网络在我们的日常生活、工作、学习、娱乐等方面日益重要，可以说，网络就象一个大宝库，里面有取之不尽的宝藏，要在浩如烟海的网络资源中迅速、有效的找到需要的资料，搜索引擎是最好的帮手。在3个月的毕业设计中，我在PCMAGZINE杂志社实验室学习了搜索引擎的一些原理及其使用方法，并实际参与测评了多款时下流行使用的搜索引擎，期间该评测实验室分别对５种不同的搜索引擎按易用性，功能和灵活性进行评测比较。以下便是我在实际测评工作中的心得体会。由于第一次从事这方面的分析，不足，错误之处在所难免，恳请各位老师批评指正。关键字：搜索：移动搜索：网络营销 bstract Computer Network and is closely related to modern life, they have become the symbol of modern life, as information technology rapid development of computer networks in our daily life, work, study, entertainment and more important, we can say as a big network treasury, which has an inexhaustible treasure, to the vast network of resources quickly and effectively find the information needed, the search engine is the best helper. In the 3 months of the graduation project, I PCMAGZINE magazine laboratory study search engine and use some of the principles and practice involved in a variety of popular measurement used by search engines, respectively, during the evaluation laboratory 5 different search engines by ease of use, functionality and flexibility compared to evaluation. The following are my experiences in the actual evaluation work experience. As for the first time in this analysis, less than, is wrong with the inevitable urge teachers criticized the correction.

语义搜索的分类

语义搜索的分类一．按语义搜索引擎服务内容的分类语义搜索引擎从人们头脑中的概念到在搜索领域占据一席之地经历不少坎坷。语义网出现后，语义搜索迎来了高速发展的机遇期。虽然语义搜索服务内容主要集中在传统搜索引擎不擅长的语义网搜索方面。不过语义搜索引擎也试图拓展服务范围，提供比传统搜索引擎更全面的服务。语义搜索引擎的服务内容主要包括以下几个方面：知识型搜索服务、生活型搜索服务、语义工具服务等。 (1)知识型搜索方面，主要针对语义网知识信息资源。其中包括： ①词典型搜索服务。一种形式是如同使用电子词典一样，通过关键词直接查询与关键词对应的概念。这些概念由语义搜索引擎索引的本体文件中提取。另一种形式则是对在线百科全书的搜索服务，如PowerSet，这一点与传统搜索引擎近似，但语义搜索引擎在信息的组织上远胜于传统搜索引擎。 ②语义网文档(SWD)的查询服务。用户可以通过语义搜索引擎查询所需的语义网文档和相关的语义网文档。Falcons 为统一资源标识符(URI)定义的语义网对象和内容提供基于关键词的检索方式。Swoogle 从互联网上抽取由RDF 格式编制的语义网文档(SWDs)，并提供搜索语义网本体、语义网例证数据和语义网术语等服务。 ③领域知识查询。部分语义搜索引擎提供了针对某个或某几个专业门类的信息检索服务，用户可以选择自己所需相关信息。Cognition 以搜索法律、卫生和宗教领域为主。个别语义搜索引擎提供针对特定领域的多媒体语义搜索服务，如Falcon-S 对足球图片的搜索服务。不过多媒体语义搜索面临与传统多媒体搜索相似的困境，缺乏有效的语义标注。对多媒体信息的辨别和分类能力仍有待提高。 (2)生活型搜索方面，语义搜索引擎在传统搜索引擎力所不及的诸方面发展迅速。 ①社会网络搜索。部分语义搜索引擎提供社会网络搜索功能，这种功能可以实现通过姓名、著作、所在单位等信息中的一条或几条，查询与这些信息有关联的更多信息，如我国的ArnetMiner。 ②资讯搜索。目前语义化的网络搜索服务能够更有针对性，更准确地为用户提供新闻资讯。Koru就是这方面的代表。 (3)语义工具服务。这是语义搜索引擎所属的研究机构的一个较为独特的方面，和传统搜索引擎提供的桌面搜索等工具不同，语义搜索引擎提供的语义工具一般不是对语义搜索功能的直接移植，而是对文档的相似性、标注等进行处理用的。这些工具可以为语义搜索引擎的索引对象进行前期数据加工，同时也供科研使用。理论上讲语义搜索引擎能够提供包括普通网络文档检索在内的所有类型网络文档搜索服务，但是由于语义搜索引擎对网页的索引方式不同，微处理器需要比传统搜索更长的时间才能分析完一个页面，因此很多语义搜索网站只能扫描到外部网站的二级页面，这样将难以满足用户全网络搜索的需求。二．按语义搜索引擎服务模式分类语义搜索引擎高速发展的阶段正值传统搜索引擎发展的平台期，虽然语义搜索引擎暂时尚不具备传统搜索引擎的市场竞争力，但是它们却可以很容易地借鉴传统搜索引擎的成

语义网技术

语义网技术是当前互联网技术研究的热点之一。目前大多数页面中的使用的文字信息不便于机器自动处理，只适合人们自己阅读理解，解决可自动处理的数据和信息方面发展较慢的问题，在网络上信息量剧增、人们迫切需要计算机分担知识整理这一压力的今天，成为信息检索的一个难题。本文首先建构了一种形式化的本体描述方法，并给出了标准化的定义，主要针对在本体层定义的基础上对逻辑层展开了基础研究，对于本体概念进行逻辑推理，通过本体中关系的属性，推理出隐含在本体概念间的关系。在本文的定义中本体包含五个基本的建模元语，概念，关系，函数，公理，实例，通过本体的五个建模元语构建本体，给出本体的形式化的规范定义，本体描述中的四种特殊关系有继承关系，部分关系，实例关系和属性关系，关系的各种属性是进行本体推理的逻辑依据，有传递性属性，关系继承性，反向关系继承性，逆属性，对称性属性，反身性属性，等价性属性等等，依据这些属性的逻辑性，可以推理出所要的查找。本文利用属性的逻辑推理机制采用树搜索的查找检索方式查找出隐含在概念之间的逻辑关系是本文所要进行的主要工作，这样可以判断出概念之间是否存在一些给定判断的关系，或者一个概念和什么概念存在给定的关系，再或者两个概念间都存在什么关系等等都是我们用推理检索所要实现的判断。摘要语义网技术是当前互联网技术研究的热点之一。目前大多数页面中所使用的文字信息不便于机器自动处理，只适合人们自己阅读理解，解决可自动处理的数据和信息方面发展较慢的问题，在网络上信息量剧增、人们迫切需要计算机分担知识整理这一压力的今

天，成为信息检索的一个难题，本文中对本体层概念的推理就是为了探索计算机理解语义所做的一个尝试。语义网的体系结构向我们说明了语义网中各个层次的功能和特征，语义网的研究是阶段性的，首先解决syntax(语法)层面的问题，也就是xml，然后是解决(数据层)基本资源描述问题，也就是rdf,然后是(本体层)对资源间关系的形式化描述，就是owl，damloil，这三步已经基本告罄，当然，基于rdf 或者owl的数据挖掘和ontology管理(如合并，映射，进化)按TIMBERNERS-LEE的构想，这个工作大概到2008左右可以完成，在商业上，很快就会在知识管理，数据挖掘，数据集成方面出现一些企业。目前亟待发展的是LogicLayer(逻辑层)，这方面在国内外的期刊著作中还少有提到，接下来的工作就应该是对于owlbased的数据进行推理和查询了，当前的推理方法主要是针对本体而言的，而本体的概念是在某个特定领域范围内的，而且在知识库中推理和查询是紧密的结合在一起的，相辅相成的，查询的同时必然存在着推理，而这里的推理就必须要建立在一定的逻辑模型的基础上，所以推理的方法就是基于逻辑模型的逻辑推理，可采用逻辑推理的方法。本体中推理的重点在于推理结论的正确性、完备性，若是不能保证推理的正确性，则语义网的引入就不但没有给网络资源的查询带来便利，反而阻碍了网络的发展，而且还要保证推理的完备，不遗漏应有的推理结果。本体推理的难点在于推理的高效性、资源利用率，若推理虽能达到正确性，完备性的目的而浪费了大量的时间和资源，则语义网也不能达到预期的效果，所以推理方法的使用及其效果是语义网成功的关

语义Web服务描述语言研究

王文博北京邮电大学网络与交换国家重点实验室，北京 (100876) E-mail：jsjmaopei@https://www.doczj.com/doc/404166263.html, 摘要：语义Web服务描述语言使得Web服务能够实现自动发现，自动执行，自动组合，是语义Web服务研究的重要组成部分。本文探讨了4种已提交给W3C的语义Web服务描述语言，并对其中影响最为深远的OWL-S和WSMO进行了比较。关键词：WSMO，OWL-S，SWSF，WSDL-S，语义Web服务中图分类号：TN911 1．引言 Web服务[1]由于其强大的松耦合能力，在工业界已经吸引了众多的目光。然而Web服务的接口是基于语法的，并不能为机器所理解，因而其服务的发现存在查全率和查准率低的问题[2]。基于此，人们提出了语义Web服务的概念：用语义Web技术对Web服务进行解释说明，让机器也能理解Web服务，提高服务发现的准确率，最终实现服务的自动发现，自动组合和自动调用[3,4]。语义Web服务描述语言在整个语义Web服务中所起的作用是不言而喻的。通过语义Web 服务语言能够对现有的Web服务进行语义层面的阐述，通过本体的支持，实现从服务的功能层面和非功能层面的详尽的描述，最终实现机器理解服务的最终目的。因而对语义Web服务描述语言进行研究有着十分重要的意义。 2．OWL-S DAML-S[5]（DARPA Agent Markup Language for Services）草案于2001年被提出，是第一个针对Web服务的本体描述语言。它建立在DAML+OIL本体基础之上，专门用来描述Web 服务的高层本体语言，由美国军方DARPA项目支持。DAML-S是采用DAML语言描述web服务而形成的一个本体。而OWL是在DAML基础之上的一种本体语言，它成为了W3C的Web Ontology推荐的语言标准。而OWL-S[6]类似于DAML-S相对于DAML的关系，是基于OWL的语义Web服务的本体描述框架。OWL-S是用OWL语言写的本体，语义良好。它根据对象和它们之间的复杂关系来定义Web服务的词汇表，并且是基于XML的结构化语言。图1 OWL-S服务本体 OWL-S预先定义了一组用来描述服务的本体（Ontology），通过这些本体让机器能够理解Web服务。如图1所示，OWL-S的本体由三部分组成：ServiceProfile、ServiceModel和ServiceGrounding。它们都是关于服务的最本质的描述，分别描述了服务的作用，服务如何

基于本体的语义检索系统的研究与应用

基于本体的语义检索系统的研究与应用董涛，孟祥武北京邮电大学计算机科学与技术学院，北京（100876） E-mail：tdong2005@https://www.doczj.com/doc/404166263.html, 摘要：基于本体查询的语义检索是建立在Semantic Web基础之上的一种检索技术。与传统搜索引擎技术相比，它极大地提高了系统的查全率和查准率。文章首先介绍了语义网和本体的基本概念，然后通过实际举例的概念层次图详尽地阐述了本体中概念及其关系的具体意义。最后利用本体构建工具Protege并结合本体的相关标准共同构建本体，通过Jena API实现了基于OWL本体文件的语义查询系统。关键词：本体，语义网，OWL，Jena，Protege 0. 引言随着Internet的迅猛发展，互联网上的信息正在随指数的速度在迅速增长，出现了信息爆炸的问题。在如此浩瀚的信息海洋中，检索到有价值的信息成为当前计算机检索系统必须解决的问题。因此，信息检索技术成为当前热门的研究课题。目前，最主要的信息检索技术有两种。一种是基于目录的检索技术，它将相关主题的页面组织起来，形成一棵目录树。因此，检索的过程，就是遍历一棵目录树的过程。另一种是基于关键字匹配的检索技术，也是最常见的检索技术[1]。以上两种信息检索技术在查全率和查准率方面还存在着很多欠缺之处。例如：当用户查询番茄时，搜索引擎只会将包含有“番茄”一词的页面提供给用户，而不会把包含有“西红柿”一词的页面也返回给用户。因此，这就存在着查全率的问题。与此同时，搜索引擎会把包含有“番茄花园”的页面返回给用户，但这并不是用户想得到的，因此，这在查准率方面就出现了问题。为了解决查全率和查准率的问题，就需要提高信息检索技术的精度和覆盖率。如何使搜索引擎更加智能化，使它能够充分理解用户的意图，是信息检索技术需要迫切解决的问题。近年来，语义网的提出为增强搜索引擎的智能化提供了良好的解决方案。它将网络中的各种资源结构化，使得计算机能够识别、处理。计算机首先将检索词本体化，检索引擎通过解析、推理，然后将相关资源从本体库中提取出来，最后返回给用户。这种智能的检索技术能够提高用户的满意度，减少不相关的结果，得到更多相关的结果。本文从构建本体及其本体库的角度出发，结合实际的应用，阐述如何建立语义检索系统进行信息检索。 1. 语义网与本体的概述 1.1 语义网在2000年11月的XML2000会议上，Tim Berners-Lee首次提出了语义Web的概念。他将语义Web定义为：语义Web是一个网，它包含了文档或文档的一部分，描述了事物间的明显关系，且包含语义信息，以利于机器的自动处理。他于2000年提出了语义Web的体系结构[2]，如下图所示：