当前位置:文档之家› 基于规则与相似度的语义web服务匹配_陶望胜

基于规则与相似度的语义web服务匹配_陶望胜

基于规则与相似度的语义web服务匹配_陶望胜
基于规则与相似度的语义web服务匹配_陶望胜

第46卷 第2期2010年3月

南京大学学报(自然科学)

JOU RNAL OF NANJING UNIVERSIT Y

(NA TU RA L SCIENCES)

Vo l.46,No.2

Ma r.,2010

基于规则与相似度的语义web服务匹配*

陶望胜**,陶先平,吕 建

(南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京,210093)

摘 要: 随着语义w eb技术的快速发展,基于语义的web服务发现技术,已成为w eb服务领域研究热

点之一.效率和精度,是web服务发现技术的两个主要关注点.W eb服务发现可以分为基于本体概念相

似度度量和基于逻辑推理这两种方法.这两个方法互有优点,前者主要效率方面占优,而后者则在精度

方面优势明显.本文提出了一种基于规则与相似度的语义web服务两阶段匹配方案.该方案采用语义网

规则语言作为规则描述语言,利用基于相似度的服务输入输出匹配方法进行第一阶段的筛选.在此基础

上再次利用基于规则推理的方法,对第一阶段的匹配结果进行进一步的精化,从而在效率与精度两方面

取得一定的平衡.

关键词: 语义w eb服务匹配,语义网规则语言,本体相似度

中图分类号: T P315

Rule and similarity based semantic web service matchmaking

Tao Wang-Sheng,Tao X ian-P ing,LǜJ ian

(Sta te K ey Labor atory of Com puter Sof twar e and New T echno lo gy,Depar tment of Com puter Science

and T echno lo gy,N anjing U niver sity,Nanjing,210093,China)

A bstract: Duo to the rapid develo pment of semantic web,semantics-based w eb ser vice disco very ha s beco me a ho t topic in web se rvice communities.With tw o main fo cuses,namely effec tivene ss and pr ecision,web se rvice disco very can be implemented in tw o approaches,w hich a re similarity-based and lo gic-based respectiv ely.Bo th of the two appro aches have their disadvantag es and adv antag es.Similar ity-based appro ach is usually go od fo r impro ving discov ering effectiveness w hile lo gic-based approach benefits precisio n.But if combined them toge ther,we can reach the balance of effectiveness a nd precision.Because of this,we put forw ar d rule and simila rity based tw o-stage web se rvice matchmaking approach in this paper.A t the first stage,we use the similarity-based approach to do the web se rvices IO matchmaking.Based on the result w e have go tten at the first stage,w e do rule-based matchmaking ag ain to refine it as the second stag e.As fo r the de scription lang uage fo r rules,we cho ose semantic web rule language. T he results o f our experiment show that our approach in this paper ca n reach the balance o f effectiveness and precision on semantics-based w eb serv ice disco very process.

***基金项目:国家自然科学基金青年基金(60903024)收稿日期:2008-10-25

通讯联系人,E-mail:taow angsheng@https://www.doczj.com/doc/1517323571.html,

Key words : semantic w eb service matchmaking ,semantic web rule lang uage ,ontology similarity

作为当前企业应用集成的重要手段,Web

服务提供了一个快速、方便的企业应用开发途径,这主要得益于其高度的跨语言、跨平台等特性.Web 服务的目标是使用哪个Web 标准实现不同系统之间的协同工作[1].对于w eb 服务而言,它被服务请求者使用的首要条件,就是后者需要知道其位置,也即服务请求者调用服务的第一步,就是发现服务.传统服务发现机制基于UDDI (Unive rsal Description ,Discovery and Integ ra tion ,通用描述、发现和集成)/WS -DL (Web Service De scriptio n Language ,Web 服务描述语言)[2,3]

,本质上通过关键字匹配来完成.这种发现机制的一个重要缺点就是缺乏显式的语义描述,从而可能导致两个相同的WSDL 描述所表示的web 服务,可能具有完全不同的功能[4].目前,解决这个问题的途径,就是通过融合传统w eb 服务和语义网技术,将web 服务语义信息加入到w eb 服务描述中去,如DAM L -S [5]、OW L -S [6]等.

基于语义技术的w eb 服务发现,目前已是web 服务领域研究热点之一.整体上来说,这类工作一般流程是:首先,给出w eb 服务的一个结构化语义描述,结构中的元素一般取之于服务的属性,比如输入、输出、服务Preconditio n 等,描述一般都基于本体技术;其次,在所定义的结构化描述基础上,根据一定的算法,对服务中的每一个属性与服务请求中所包含的相应属性进行匹配;最后,综合各个属性的匹配结果,根据一定的策略做出最后抉择,以确定该服务是否满足服务请求.具体到匹配时所采用的方法,可以分为以下几种:基于本体相似度度量[7~10]和基于逻辑推理[11~13].

基于本体相似度度量方法,首先需要给出一个本体相似度度量函数,然后计算服务描述中各个属性与服务请求中相应属性相对于该函数的值,如果满足服务请求者所提供的相似度阈值,则表示在这个属性上,服务满足服务请

求;否则表示不满足,此时一般停止与该服务继续进行匹配.这种方法一般针对,服务描述中所选取的元素为服务描述性属性,比如输入、输出等.它实现起来相对简单,但它仍然是一种服务接口级别的匹配,精度仍然不够.基于逻辑推理的服务匹配方法,除了要确定服务的结构性语义描述外,一般还需要选择一个本体推理工具,

如Jena [14]、Prot ég é[15]

等.在这种方法的结构语义描述中,不仅可以包括服务描述性元素,而且可以包含与服务相关的条件,比如服务执行前件等,不过缺点是实现起来较复杂.正是基于这一点考虑,在本文服务匹配方案中采用了混合了这两种服务匹配方式.

OWL -S 是目前语义w eb 服务描述事实上的标准,但是目前在采用基于逻辑推理的语义服务匹配的方法中,所采用的技术并没有考虑与它的融合.事实上,在OW L -S2004[6]版的规范中,已经考虑了关于服务条件表达式的表述,

如SW RL (Semantic Web Rule Language )[16]

KIF (Know ledge Interchang e Form at )[17]

等.为了和标准兼容,本文采用SWRL 作为服务涉及的条件描述语言,并提出了基于SWRL 的服务匹配算法.总的来说,本文的主要思路为:服务描述语言使用扩展后的OW L -S ,输入输出匹配通过相似度度量方法,相关的条件使用SWRL 来进行描述.另外,在OWL -S 中定义了四个基本本体,即Se rvice 、Service Profile 、Service M odel 和Service Grounding ,它们分别代表了服务的不同方面.其中,Service Profile 和Serv -ice M odel 中,都有对服务功能的描述,因而他们可以用于服务匹配.但是,Service Profile 缺

乏输入输出之间的逻辑关系[18]

,因而,本文的服务匹配基于扩展后的OW L -S M odel ,也就是以OW L -S M odel 来包含服务或者服务请求信息.

1 相关工作

前面提到过,服务匹配的基本思路是通过

·

160·南京大学学报(自然科学) 第46卷

匹配结构化描述的w eb服务和请求,描述中包含的元素为web服务相关的属性,比如输入、输出等.文献[7]在将服务属性分类的基础之上,定义了一组相似度度量函数.在他们的方法中,服务属性被分为服务共有属性、特殊属性、服务接口以及QoS属性等.不过,他们方法的缺陷是服务和服务请求者必须共享同一个领域本体.M adeche和Staab[19,20]提出了多阶段交叉评估来计算两个领域本体之间的相似性.Al-berto Fern'andez[9]等定义相似度度量函数时认为两个本体概念的相似度不具有对称性,这个思想已被本文所接受并在后面定义相似度函数时,作为考虑因素之一.

OW L-S作为当前语义w eb服务描述的事实上的标准,日益受到服务研究人员的重视. Yasser Ganjisaffar[21]等提出了基于OWL-S描述的w eb服务相似度度量方法,综合考虑了服务功能和注释的相似度.除此之外,他们还有一个很有意义的工作,就是在计算两个本体概念的相似度时,他不仅考虑了本体概念之间的语义距离,而且还将概念属性纳入到本体概念相似度度量的范围内.这种思想背后的原理是,两个本体概念所拥有的共同属性越多,相异属性越少,则它们两个越相似.

UDDI、SOAP、WSDL等作为传统w eb服务标准协议,已经有着广泛的应用和实现.因而,考虑如何将语义w eb服务技术与这些技术结合,有利于提高新旧系统间的兼容性,减少企业应用开发成本.其实,在OW L-S规范中,已经考虑了这个问题.一个OW L-S描述,可分为三个部分,分别是Service Pro file、Service Mo del、Service G rounding.其中,在Service G rounding中,定义了OW L-S如何与WSDL 关联.不仅如此,在语义w eb服务技术出现伊始,M assimo Paolucci等就探讨了如何将w eb 语义信息加入到UDDI中去,从而实现了传统服务发现与基于语义服务发现的有机融合.不过,它们所使用的描述框架是DAM L-S,而不是OWL-S.Qiu Tian等则提出了如何将OW L-S与UDDI融合,并在此基础上提出了一个基于相似度度量的匹配算法[10].

虽然,相似度度量函数在效率方面比较突出,但有些问题,譬如匹配服务涉及的条件,就很难通过它来完成.不过,S WRL,SPA R-QL[22]、KIF等可以用来描述服务涉及的条件,而且在OWL-S2004规范中还提供了融合它们的途径[6].Domenico Redavid[23]等利用SWRL 作为条件描述语言,探索了如何基于SW RL进行w eb服务组合.

2 服务本体模型及其描述

2.1 SWRL SWRL(Semantic Web Rule Lang uage,语义网规则语言)是在综合OWL DL[24]和OW L Lite[24]的基础上,结合RuleM L (Rule M arkup Lang uage)而发展起来的一个规则描述语言.它通过H orn形式的规则来扩展OW L公理集合,从而使得Ho rn形式的规则能够与OWL知识库相结合.

和一阶谓词逻辑的规则一样,一个SWRL 规则包含两个部分,即规则前件和结论,在SW RL中也叫主体和头部,它们都由零个或者多个原子构成.一个SWRL的规则含义可以解释为:无论何时规则前件中的所有条件成立,那么处于结论中的所有条件也必然成立.对于SW RL来说,还包含两个特殊形式的规则,分别是前件为空和结论为空,即前件或结论中包含零个原子.关于这两类规则,SW RL规范定义它们的解释为:一个包含空的前件的规则,规定其前件总是为真,因而所有结论中的条件都无条件成立;相反,一个包含空的结论的规则,则表示其结论永远为假,那么规定前件中的所有条件必然不成立.

规则中所包含的原子可以有如下形式: C(x)、P(x,y)、sameAs(x,y)、diffe rentFrom (x,y),其中,C、P分别表示OW L类、属性,x 和y则可为变量、OWL实体或者OWL数据值.但是,按照这种形式扩展的SWRL的缺陷是其不可判定性.这个问题的解决方案之一就是限制SWRL规则应用于那些在ABox中显示包含的实体,这种类型的SW RL称之为

·

161

·

 第2期陶望胜等:基于规则与相似度的语义web服务匹配

DL -safe [23].在后面的论述中,本文所涉及的S WRL ,也都是这种类型.

SW RL 规则中所能包含的原子,除了以上形式外,还可以包含SW RL 规范中定义的内嵌

函数,它们使得S WRL 表达更为清楚易懂,更具可读性.

2.2 服务本体模型 对于一个w eb 服务而言,其每一个功能可以从以下几个方面来描述:

·输入,可以有零个或者多个输入·输出,可以有零个或者多个输出;·服务执行前件,该服务功能在执行之前,所需要满足的条件;

·服务执行结果,主要用来说明在什么样的条件下,产生什么样的输出;

·服务执行后件,服务执行成功后,服务所在的域将会满足什么样的条件.

在OW L -S 规范定义的服务模型中,包含了四个基本的本体,即Service 、Service Profile 、Service Mo del 、Service Grounding .Service M odel 子类Process 包含四个属性,分别为In -put 、Output 、Precondition 和Result .为了使得OWL -S 与本文的方法更加匹配,本文扩展了OWL -S ,其最终的本体结构如图1所示,其中灰色的椭圆和方向线为本文添加的本体概念和属性.图中仅给出了与本文工作相关的Service M odel 详细情况,至于,Service Pro file 以及Service G rounding ,由于与本文的工作本身没有什么联系,图中没有更进一步给出其结构

.

图1 扩展的OWL -S Fig .1 Extension of OWL -S

2.3 web 服务描述实例 假设现有一个w eb 服务VODService ,用于向客户提供视频服务.图2为本文定义的简单视频服务领域本体模型.

服务VODService 执行需要满足以下约束:

·服务只向注册用户开放

·服务不向未成年人开放不健康内容·每一个视频只能同时向20个人开放.它们分别作为服务的Precondition 、Result 和Po stcondition ,其SWRL 描述分别如下:

M ember (x ) Passw (y )->hasPassw (x ,y )

(1)

Adult (?x )∧Video (?y )∧islimited

(?y ,true )※canView (?x ,?y )(2)Video (?x )∧view Count (?x ,?y )∧sw rlb :lessThan (?y ,20)※view Count (?x ,?y )

(3)当然,在OWL -S 服务描述文档中,规则的表示不是这种形式,而是基于XM L 的形式.该服务的描述如图3.

·

162·南京大学学报(自然科学) 第46卷

·

163· 第2期陶望胜等:基于规则与相似度的语义web 服务匹配

3 基于本体概念相似度的匹配

3.1 相似度度量函数 在给出这些函数之前,本文首先分析一下影响两个本体概念之间相似

度的因素.同一个本体框架中两个本体概念之间的关系,不外乎以下3种情况:

图4 本体概念关系

Fig .4 Relation betw een two ontolog y concepts

针对图4,本文有以下假设:

(1)A 与B 之间的相似度不具有对称性,

即图4a 中A 与B 的相似度与图4b 中B 与A 的相似度不相等,而且本文认为前者要小于后者.

(2)亲房不如直系,即考虑图4a 以及4c ,

本文得出前者的相似度要比后者大.

除此之外,再考虑以下情况:

 图5 本体概念关系

 Fig .5 Relation between two ontology concepts

很显然在图5中,本体概念A 与B 之间的相似度要比D 与E 之间的相似度要大.这是因

为随着本体概念的细化,处于本体下层的各概念之间的差异,越来越小.

综上所述,本文可以得出,影响某本体中两

个概念之间相似度的因素至少如下:

·概念在本体中所处的深度;

·两个概念之间的关系,比如是直系关系还是远房关系;

·两个概念之间的距离,即它们在本体概念层次结构图中的路径长度;

根据以上假设,本文设计了以下本体概念相似度度量函数:

sin (A ,B )=

1

(A ,B 是同一个概念)deep (A )dis (B ,A )*

deep (Onto )

(A 是B 的祖先)

deep (B )

dis (B ,A )*deep (Onto )

(B 是A 的祖先)

deep (C )

(dis (A ,C )2+dis (B ,C )2)*

deep (Onto )

(A ,B 为房亲关系,C 是它们最近祖先)(4)

其中,deep (Onto )为本体概念有向图中的最大

路径长度,dis 表示两个概念在本体框架中的路径长度.

上面所叙述的是两个本体概念之间的相似度度量函数,但是通常本文更多的是需要知道两个本体概念集合之间的相似度,比如服务的输入与服务请求的输入之间的相似度.假设,现有本体概念集合CA ={C 1,C 2,…,Cn }和CB ={C 1,C 2,…,Cm },本文定义CA 与CB 之间的相似度度量函数如下:

sim (C A ,C B )=∏n

i =1max {s s =sim (C i ,C j )C i ∈C A ,C j ∈C B ,1≤i ≤n ,1≤j ≤m }(5)由于服务或者服务请求中的输入和输出,

都可以看成是本体概念集合,故而,它们的相似度度量函数,只要将(5)中的概念集合换成相应的输入或者输出即可.

3.2 输入输出匹配 由于输入与输出匹配,算法上差别不大,故而在此,仅给出服务与服务请求输入之间的匹配算法.假设,Insr ={I1,I2,…,In }和Insa ={I1,I2,…,Im }分别表示服务

·

164·南京大学学报(自然科学) 第46卷

请求与某个服务的输入,α为服务请求者通过服务请求传送过来的相似度阈值.那么,它们之间的匹配算法可描述如图6

.

图6 输入输出匹配算法

Fig .6 Algo rithm for IO matchmaking

其中,sim Func (In s i ,In s j )用于计算两个本体概念之间的相似度,即是(4)式的实现.

需要指出的是,上面定义的相似度函数,在输入输出方面,只能保证经过这一轮筛选的服务满足服务请求,而不能保证满足服务请求的服务一定被选取.另外,也保证被选取的服务与不被选取的服务相比,前者更适合服务请求.

4 基于SWRL 的条件匹配

根据Preconditio n 、Po stcondition 和Re -sult 的含义,对于服务以及服务请求匹配而言,

它们之间的关系可描述如下:

·Preco ndition r =>Preconditio n a ·Po stcondition a =>Po stcondition r

·Result a =>Result r

其中,下标a 表示的是w eb 服务本身,而r 则表示w eb 服务请求.由此可知,服务和服务请求Precondition 、Postconditio n 以及Result 之间的匹配,可归结为Co ndition -a =>Con -dition -b 形式,具体算法描述如图7

.

图7 条件匹配算法

Fig .7 Algorithm for condition matchm aking

5 实 验

服务注册中心中,存储有视频点播相关的一些服务,如表1所示,包括视频点播、用户注册、用户登录、定制视频等等.

表1 注册中心服务集

Ta ble 1 Services in registration center

视屏点播

用户注册用户登录用户定制视频输入M ember ,Passw ,V ideoN ame

M embe r ,P assw ,

Passw M ember ,Passw M ember ,Passw ,V ideoN ame

输出Video BoolResult

Boo lResult

V ideo P reConditio ns

M ember (x ) Passw (x ,y )※hasPassw (x ,y )Passw (x ) Pa ssw (y )※sw rlb :equals (x ,y )M ember (x )

P assw (x ,y )※ha sP assw (x ,y )

M ember (x ) Passw (x ,y )※hasP assw (x ,y )

P ostConditio ns

Video (x ) viewCo unt (x ,y ) sw rlb :le ssT han (y ,20)※view Co unt (x ,y +1)Results

V ideo (x ) isLimited (x ,true ) A dult (y )※canView (x ,y )

·

165· 第2期陶望胜等:基于规则与相似度的语义web 服务匹配

在视频服务中心,对其所提供的内容有以下的限制:(1)情色暴力等少儿不宜的内容不向未成年人开放;(2)为了保障视频观看的质量,限定每一个视频的同时观看人数不超

过20.

设想以下场景:Tom 是一个未成年的高

中生,平时功课繁重;不过今天晚上作业不多,Tom 很快就完成;看看时间还早,于是想看健康电影KingofComics 轻松一下.为了获得较好的观看质量,To m 希望找视频观看人数不超过15的Kingo fComics 视频.Tom 的请求可简单描述如表2所示.

表2 Tom 视频点播服务请求描述Table 2 VOD request description for Tom

输入

输出

PreCo nditio ns

PostConditio ns

Results

M ember Passw Video N ame

V ideo

Video (K ingo fCo mics ) view Count (KingofCo mics ,y )※sw rlb :lessT han (y ,15)

V ideo (King ofComics )M embe r (T om )※ca nV iew (To m ,K ing ofComics )

在视屏服务中心中,与King ofComics 相关

的有三个视屏,其目前的状态如表3:

表3 KingofComics 相关的视频状态Table 3 KingofComics related videos 'state

V iew Co unt

isLimited KingofCo mics -A 12true King ofComics -B 13false K ing ofComics -C

18

false

针对上述场景,本文设计了一组对比试验:单纯的基于IO 以及基于IO 和逻辑推理,从而验证本文所提方法的有效性,实验所得结果如

表4所示.

表4 实验结果

Table 4 Experiment results

服务

消耗时间

精确度IO -Based M atchmaking 视频点播视频定制930.5IO and Rule -Ba sed M atchmaking

视频点播

125

1

从表4中看出,相对于单纯的基于IO 的匹配算法而言,本文所提出的基于IO 与约束匹配的服务发现方法虽然在时间消耗方面有一定的差距,不过在最终的服务发现结果精度方面优势很明显,符合我们所预想的时间与精度方面的平衡.

6 总结与展望

本文主要讨论了如何结合SWRL 和本体相似度度量,进行w eb 服务匹配.需要指出的一点是,不论是输出、输入等服务描述性质的属性,还是服务相关的条件,比如Precondition 、Postconditio n 等,这些都是服务相关的静态属性,它们很少需要改变.但对于服务的QoS 属性而言,包括服务响应时间、网络连接状况等,这些都是与时间相关的,随着服务的执行,可能这些值也会不同.因此,如何去动态维护这些值,使得它们不至于与服务当前状况冲突,或者至少相差不大,这将是本文以后工作的一个方向.

另外,前面已经指出,本文基于相似度度量函数的服务匹配方法,在输入输出级别,只能保证满足被选取的服务能够满足服务请求,而不能保证满足服务请求的服务一定被选取.这主

·

166·南京大学学报(自然科学) 第46卷

要是因为,本文的相似度度量函数中缺乏一个调节因子.但如何去确定这个调节因子,目前还有很多困难,因为本文认为该调节因子应是可以随着服务匹配历史记录而动态变化.对此目前还没有好的想法,不过这也将是本文以后工作目标之一.

References

[1] Qian Z Z,Qi Y S,Lu S L,et al.Ontolog y

based heterog eneo us messag e tr ansfo rmatio n in

web ser vice co mpo sitio n.Jo urna l of N anjing

U niver sity(N atural Sciences),2005,41(1):

67~71.(钱柱中,戚玉松,陆桑路等.基于本体

的Web服务组合异构消息的转换.南京大学学

报(自然科学),2005,41(1):67~71).

[2] Luc C,A ndrew H.U DDI Ver sion3.0.2.UD-

DI Spec T echnical Co mmittee D raft.http://

ww w.uddi.o rg/pubs/uddi-v3.htm,2004. [3] Eric C,F rancisco C.W eb Se rvice Desc riptio n

Languag e(W SDL)1.1.W3C N ote.http://

ww w.w3.o rg/T R/w sdl,2001.

[4] M assimo P,T akahiro K,T e rry R P,et al.Im-

po rting the Semantics Web in U DDI.http://

ww w.spring erlink.co m/content/

0k3m5htky7rbf t84/fulltex t.pdf,2002.

[5] Anupriy a A,M a rk B.D AM L-S:Web Se rvice

Descriptio n fo r the Semantic W eb.DAM L-S

0.7Draft Release.http://w ww.daml.o rg/

se rvices/daml-s/0.7/,2002.

[6] David M,M a rk B.O W L-S:Semantic markup

for W eb Se rvices.W3C M embe r Submission.

http://ww w.w3.or g/Submission/O W L-

S/,2004.

[7] Wu J,Wu Z H.Simila rity-ba sed w eb se rvice

matchmaking.Pr oceeding s of the2005IEEE

Inte rna tional Co nfere nce on Service s Compu-

ting.Lo s Vaque ros:IEEE Co mp Society,

2005,287~294.

[8] G eo rgios M,Nick B.Object-o riented similarity

mea sures fo r semantic w eb serv ice ma tchmak-

ing.Z immerma nn W,Ko nig Ries B,P ahl C.

T he5th Euro pean Conference o n Web Ser vices.

Los Vaquer os:IEEE Comp Socie ty,2007,57~

66.

[9] A lber to F,Salvador G.A role-based suppor t

mechanism for ser vice description and

discover y.Huang J,K ow alczyk R,M aamar Z,

et al.Pr oceeding s o f Service-O riented Co mpu-

ting:Ag ents,Semantics,and Enginee ring.

Be rlin:S rping er-V er lag Be rlin,2007,

132~146.

[10] Q iu T,Li L,Li P.Web service disco very with

U DDI ba sed o n semantic similarity of Serv ice

P roper ties.http://ieeexplo https://www.doczj.com/doc/1517323571.html,/ielx5/

4438492/4438493/04438593.pdf?arnumber=

4438593,2007.

[11] F ranz B,Carsten L,M aja M,et al.A descrip-

tio n logic based appro ach to reasoning about

w eb se rvice.http://w https://www.doczj.com/doc/1517323571.html,rmatik.uni-bre-

men.de/~clu/paper s/archive/w ss05.pdf,2005.

[12] Baader F H.Descriptio n log ics as ontology lan-

guage s fo r the semantic web.http://ww w.cs.

https://www.doczj.com/doc/1517323571.html,/~ho rro cks/Publicatio ns/do wnlo ad/

2003/BaHS03.pdf,2005

[13] M ichael K,Rub'en L,A xel P,et al.A logic

fr amew o rk for web se rvice disco very.http://

w https://www.doczj.com/doc/1517323571.html,/SWS2004/final-ver sio ns/

SWS2004-K ifer-F inal.pdf,2004.

[14] Chris B,Ben S,Steve B,et al.Jena—A

semantic web framew ork fo r Java.http://jena.

sourcefo rge.ne t/,2009.

[15] M ar k M,N atasha N,M a rtin O,et al.T he

pro tégéontolog y editor and knowledg e acquisition

sy stem.https://www.doczj.com/doc/1517323571.html,/,2009. [16] Ian H,Pe te r F P.SW RL:A semantic w eb r ule

lang uag e co mbining O W L and RuleM L.http://

w ww.w3.or g/Submissio n/SW RL/,2004. [17] M ichael R G.K now ledge interchang e fo rmat.

Dr aft P ro po sed Ame rican Na tional Standa rd.

https://www.doczj.com/doc/1517323571.html,/kif/dpans.html,1998.

[18] Ba nsal S.M atchmaking of web se rvice based on

the DAM L-S se rvice model.U nive rsity of South

Caro lina,2002.

[19] Er M,S teffen https://www.doczj.com/doc/1517323571.html, paring ontologies—Simi-

la rity measure and a co mpa riso n study

·

167

·

 第2期陶望胜等:基于规则与相似度的语义web服务匹配

w w w .aifb .uni -ka rlsr uhe .de /~sst /Research /Publicatio ns /repor t -aifb -408.pdf ,2002.

[20] Alexande r M ,S teffen S .M easuring similarity

betw ee n ontolog ies .Go mezPe rez A ,Benjamins V R .P roceedings of 13th Inte rnational Co nfer -ence o n Know ledge Enginee ring and K now ledge M anag ement .Berlin ,Ge rmany :Springe r -V erlag Berlin ,2002,251~263.

[21] Yasser G ,H assan A .A simila rity measure fo r

O W L -S anno tated web serv ices .Pr oceeding s of the 2006IEEE /WIC /A CM Internatio nal Con -

ference on Web Inte lligence .L os V aquero s :IEEE Co mputer So ciety ,2006,621~624.

[22] Eric P ,A ndy S .SP A RQ L query lang uag e fo r

RDF .http ://w ww .w 3.o rg /T R /rdf -spa rql -query ,2008

[23] Do menico R ,L uigi I ,T er ry P .O W L -S ato mic

services co mpo sitio n w ith SW RL rule s .http ://eprints .ecs .soton .ac .uk /15658/1/31.pdf ,2007.

[24] Debor ah L M cG ,F rank v an H .O W L w eb o n -tolog y

la ng uag e ,

W3C

Reco mmendatio n .

http ://w ww .w 3.or g /T R /ow l -features /,2004.

·

168·南京大学学报(自然科学) 第46卷

文本相似度算法

1.信息检索中的重要发明TF-IDF 1.1TF Term frequency即关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则 (公式1.1-1) 为该关键词在这篇文章中的词频。 1.2IDF Inverse document frequency指逆向文本频率,是用于衡量关键词权重的指数,由公式 (公式1.2-1) 计算而得,其中D为文章总数,Dw为关键词出现过的文章数。2.基于空间向量的余弦算法 2.1算法步骤 预处理→文本特征项选择→加权→生成向量空间模型后计算余弦。 2.2步骤简介 2.2.1预处理 预处理主要是进行中文分词和去停用词,分词的开源代码有:ICTCLAS。 然后按照停用词表中的词语将语料中对文本内容识别意义不大但出

现频率很高的词、符号、标点及乱码等去掉。如“这,的,和,会,为”等词几乎出现在任何一篇中文文本中,但是它们对这个文本所表达的意思几乎没有任何贡献。使用停用词列表来剔除停用词的过程很简单,就是一个查询过程:对每一个词条,看其是否位于停用词列表中,如果是则将其从词条串中删除。 图2.2.1-1中文文本相似度算法预处理流程 2.2.2文本特征项选择与加权 过滤掉常用副词、助词等频度高的词之后,根据剩下词的频度确定若干关键词。频度计算参照TF公式。 加权是针对每个关键词对文本特征的体现效果大小不同而设置的机制,权值计算参照IDF公式。 2.2.3向量空间模型VSM及余弦计算 向量空间模型的基本思想是把文档简化为以特征项(关键词)的权重为分量的N维向量表示。

这个模型假设词与词间不相关(这个前提造成这个模型无法进行语义相关的判断,向量空间模型的缺点在于关键词之间的线性无关的假说前提),用向量来表示文本,从而简化了文本中的关键词之间的复杂关系,文档用十分简单的向量表示,使得模型具备了可计算性。 在向量空间模型中,文本泛指各种机器可读的记录。 用D(Document)表示文本,特征项(Term,用t表示)指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,要求满足1<=k<=N。 下面是向量空间模型(特指权值向量空间)的解释。 假设一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为 D(a,b,c,d) 对于其它要与之比较的文本,也将遵从这个特征项顺序。对含有n 个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度,即 D=D(T1,W1;T2,W2;…,Tn,Wn) 简记为 D=D(W1,W2,…,Wn) 我们把它叫做文本D的权值向量表示,其中Wk是Tk的权重,

语义web与知识管理

语义web与知识管理 计81班李存禄 高春阳 安多 分工明细: 整理ppt及project展示:李存禄 撰写总结论文:高春阳 搜集材料:安多

摘要: 关键词: 语义web、xml、RDF、Ontology、ALC、web服务、知识管理、SHOE、OML、XOL、OWL、智能Agent服务

一、语义Web概况: 历史: 1998年Web的发明者国际W3C主席Tim Berners-Lee首次提出了语义Web 的概念。 2001年9月9日国际W3C“技术与社会领域(Technology and Society Domain)”下的语义Web活动论坛(Semantic Web Activity)正式宣告成立。语义Web活动论坛在其宣言中指出:“语义Web是当前Web的一个扩展,其中信息具有形式化定义的语义,更有助于计算机之间以及计算机与人之间的协同工作。其思想是使Web上的数据以这样一种方式来定义与链接,使其能够在各种不同的应用场景中有效地实现数据的发现、自动化处理、集成与复用。当且仅当Web不仅成为人所共享加工的场所,也成为自动化工具所共享加工的场所时,语义Web方能实现其全部潜力。” 定义: 简单的说,语义就是资源的含义(资源是一个很广泛的概念,它可以是网站、网页,甚至是网页中的部分内容);语义Web是具有明确语义的能够被机器和人理解的网络。也就是说,语义Web是一种能够理解人类语言的智能网络,它使得人-机间及机-机间的交流变得像人-人间的交流一样便利流畅。 语义Web是一个网,它包含了文档和文档的一些部分,描述了事物间的明显关系,且包含语义信息,以便于机器的自动处理。 用途: 万维网之父蒂姆·贝纳斯-李(Tim Berners-Lee)称,使用“语义Web”的用户将可应用远远强于现有网络中任何东西的功能。他表示,在“语义Web”中,用户可将两个毫不相干的东西连接在一起,比如说银行报帐单和日历。用户可以将银行报帐单拖到日历上,也可以将日历拖到银行报帐单上,这样就可以知道何时应当进行支付。他指出,“语义Web”将呈现给人们的是一个所有数据“无缝”式连接的网络。在“语义Web”(semantic Web)技术破土而出之后,目前人们对Facebook和MySpace等社交网站的“痴迷”终将被“无所不连”的网络所取代。

语义网本体

Part2:创建本体 本次所创建的本体是一个植物(plant)本体,所用的工具是Protege4.3。首先根据植物的分类来建立本体的Schema层,按照不同的分类方式可以有不同的分类例如可以分为花(flower)、草(grass)和树(tree)三类。花又可以分为蔷薇科(Rosaceae )、十字花科(cruciferae)、百合科(liliaceae)。草又可以分为草坪草(turfgrass)、孔雀草(maidenhair)、千日草(One thousand days grass)。树又可以分为乔木(arbor)、灌木(shrub)。所建的Schema层如下图1所示。 图1 植物本体的Schema层构建图 2、添加属性,属性包括对象属性和数据属性。所添加的对象属性有:颜色、枯萎季节、茂盛季节开花时间、开花时长,其定义域均设置为Plant。添加的数据属性有:根茎的长度。具体的添加如下图2所示。 (1)对象属性添加图(2)数据属性添加图 图2 植物本体的属性构建图

3、添加相应的实例。为百合科添加实例:百合花(greenish lily flower )为乔木添加实例:雪松和杨树,为草坪草添加实例:马蹄金草(The horseshoe golden grass )具体的实例图如下图3所示。 图3 具体实例添加图 4、定义公理,例如可以对其定义灌木为丛生状态比较矮小。则需要添加对象属性丛生状态(Cluster_State)和子属性主要丛生状态(Main_Cluster_State),然后添加分类:Type,包括short and small和tall。对草坪草定义为:主要丛生状态是short and small。对乔木添加定义:主要丛生状态是tall。在Plant类下面添加叶子(leaf),然后添加对象属性is_part_of,给leaf定义为:叶子是树叶的一部分。对草坪草的具体的定义效果如下图4所示。 图4 草坪草定义效果图

语义Web服务发现研究现状与发展_王珏

收稿日期:2012-05-11;修回日期:2012-07-16基金项目:国家“973”计划资助项目(2009CB3020402);江苏省自然科学基金资助项目 (BK2010103) 作者简介:王珏(1987-),男,黑龙江哈尔滨人,助理工程师,主要研究方向为Web 服务匹配(415638921@qq.com );向朝参(1987-),男,博士研究生,主要研究方向为SOA 架构、无线传感网;王萌(1983-),男,助教,主要研究方向为Web 服务发现;田畅(1963-),男,教授,博导,主要研究方向为网络信息系统、无线分组网;赵文栋(1972-),男,副教授,主要研究方向为SOA 体系架构、计算机网络;代登坡(1986-),男,助理工程师,主要研究方向为Web 服务发现. 语义Web 服务发现研究现状与发展* 王 珏1,向朝参1 ,王 萌1 ,田 畅1,赵文栋1,代登坡 2(1.解放军理工大学通信工程学院,南京210007;2.中国人民解放军78083部队,成都610011)摘 要:从不同方面对语义Web 服务发现相关技术进行综述。阐述了语义Web 服务的基本概念和特点,总结 和分析了语义服务发现的基础———语义服务描述语言,重点从单服务匹配和服务组合匹配两个方面对语义Web 服务发现的关键问题———语义Web 服务匹配近年来的研究,进行了全面的总结和讨论,并指出了语义Web 服务发现研究领域的挑战和未来的研究方向。 关键词:面向服务架构;语义Web 服务;服务发现;服务组合;服务匹配中图分类号:TP393 文献标志码:A 文章编号:1001-3695(2013)01-0007-06 doi :10.3969/j.issn.1001-3695.2013.01.002 Survey on semantic Web services discovery WANG Jue 1,XIANG Chao-can 1,WANG Meng 1,TIAN Chang 1,ZHAO Wen-dong 1,DAI Deng-po 2 (1.Institute of Communication Engineering ,PLA University of Science &Technology ,Nanjing 210007,China ;2.78083PLA Troops ,Chengdu 610011,China ) Abstract :This paper presented the state-of-the-art of semantic Web service from various aspects.First of all ,this paper ex-plained the basic concepts and character of semantic Web service.And then , it summarized and analyzed several kinds of ser-vice description languages which were the base of service discovery.Moreover , it comprehensively summarized and discussed service matching as the key problem of service discovery from two aspects —single service matching and service composition matching.In the end , this paper proposed the challenge and the future work of the study on semantic Web service discovery.Key words :SOA (service-oriented architecture );semantic Web service ;service discovery ;service composition ;service matching 0引言 信息技术的发展带动了各类应用系统的不断涌现,在为用 户带来更多便利的同时,也给IT 系统的设计和开发带来了新的挑战。如何将采用不同平台和不同技术开发的独立系统进行互连与共享,最终实现系统间的灵活配置、松散耦合、即插即用以及服务重用等功能, 从而便于用户获取服务。面向服务架构(SOA )由于实现了系统间的松散耦合,能很好地解决异构系统互连和共享这一难题,得到了高度的重视与广泛的应用 [1 4] 。2008年Gartner 公司调查发现,在当前大型的IT 系统 中,已经采用SOA 的占53%,另有25%计划在一年内采用[5]。因此, SOA 已成为各种应用系统互连和集成的一种趋势[2] 。 针对不同的应用,SOA 有多种实现方式,而近年来随着因特网的不断发展,Web 服务逐渐成为SOA 实现技术的研究热点 [6,7] 。 Web 服务是一个广义的概念,不仅在因特网中有广泛应用,很多其他IT 系统也采用了Web 服务技术。例如文献[2]提出利用Web 服务技术将分布在不同地区的各种硬件设备互连,便于设备提供的功能进行共享和重用;文献[ 8,9]提出在无线、移动网络中利用Web 服务技术对服务进行重用和组合; 文献[10]提出将Web 服务技术应用于非Web 组件中,并提出了原型系统。随着Web 应用的普及以及规模的扩大, Web 服务数量与日俱增, 同时用户的服务需求也是千变万化,如何根据用户的需求快速、 高效地从海量的服务中发现用户所需的服务是Web 服务研究的关键点和热点,直接决定着用户获取服务的效率和性能。 Web 服务发现依据服务描述方式划分,大体经历了基于 关键字、基于语法和基于语义三个阶段[11] 。由于基于关键字 和语法的服务描述能力有限, 导致服务发现的效率低,不便于服务的自动组合。为了提高服务描述能力和发现效率,学术界 提出了语义服务描述。语义服务描述的出现,在增强服务描述 能力的同时也给服务发现带来了新的挑战 [5,11,12] 。针对以上存在的问题, 近年来学术界从不同侧面进行了研究,如基于语义的服务描述语言的提出 [5,13,14] 、基于语义的单服务匹 配 [10,15 17] 与基于语义的服务组合匹配[18 21] 等。文献[ 22]对2006年以前发布/订阅系统的各种关键技术进行了详细的综述,但其主要侧重于发布/订阅系统相关技术的分析;文献 [15,23]分别对2004年以前的Web 服务核心技术和2008以 前的服务发现技术进行了综述,但近年来Web 服务研究领域 第30卷第1期2013年1月计算机应用研究 Application Research of Computers Vol.30No.1Jan.2013

语义网技术

语义网技术是当前互联网技术研究的热点之一。目前大多数页面中的使用的文字信息不便于机器自动处理,只适合人们自己阅读理解,解决可自动处理的数据和信息方面发展较慢的问题,在网络上信息量剧增、人们迫切需要计算机分担知识整理这一压力的今天,成为信息检索的一个难题。本文首先建构了一种形式化的本体描述方法,并给出了标准化的定义,主要针对在本体层定义的基础上对逻辑层展开了基础研究,对于本体概念进行逻辑推理,通过本体中关系的属性,推理出隐含在本体概念间的关系。在本文的定义中本体包含五个基本的建模元语,概念,关系,函数,公理,实例,通过本体的五个建模元语构建本体,给出本体的形式化的规范定义,本体描述中的四种特殊关系有继承关系,部分关系,实例关系和属性关系,关系的各种属性是进行本体推理的逻辑依据,有传递性属性,关系继承性,反向关系继承性,逆属性,对称性属性,反身性属性,等价性属性等等,依据这些属性的逻辑性,可以推理出所要的查找。本文利用属性的逻辑推理机制采用树搜索的查找检索方式查找出隐含在概念之间的逻辑关系是本文所要进行的主要工作,这样可以判断出概念之间是否存在一些给定判断的关系,或者一个概念和什么概念存在给定的关系,再或者两个概念间都存在什么关系等等都是我们用推理检索所要实现的判断。摘要语义网技术是当前互联网技术研究的热点之一。目前大多数页面中所使用的文字信息不便于机器自动处理,只适合人们自己阅读理解,解决可自动处理的数据和信息方面发展较慢的问题,在网络上信息量剧增、人们迫切需要计算机分担知识整理这一压力的今

天,成为信息检索的一个难题,本文中对本体层概念的推理就是为了探索计算机理解语义所做的一个尝试。语义网的体系结构向我们说明了语义网中各个层次的功能和特征,语义网的研究是阶段性的,首先解决syntax(语法)层面的问题,也就是xml,然后是解决(数据层)基本资源描述问题,也就是rdf,然后是(本体层)对资源间关系的形式化描述,就是owl,damloil,这三步已经基本告罄,当然,基于rdf 或者owl的数据挖掘和ontology管理(如合并,映射,进化)按TIMBERNERS-LEE的构想,这个工作大概到2008左右可以完成,在商业上,很快就会在知识管理,数据挖掘,数据集成方面出现一些企业。目前亟待发展的是LogicLayer(逻辑层),这方面在国内外的期刊著作中还少有提到,接下来的工作就应该是对于owlbased的数据进行推理和查询了,当前的推理方法主要是针对本体而言的,而本体的概念是在某个特定领域范围内的,而且在知识库中推理和查询是紧密的结合在一起的,相辅相成的,查询的同时必然存在着推理,而这里的推理就必须要建立在一定的逻辑模型的基础上,所以推理的方法就是基于逻辑模型的逻辑推理,可采用逻辑推理的方法。本体中推理的重点在于推理结论的正确性、完备性,若是不能保证推理的正确性,则语义网的引入就不但没有给网络资源的查询带来便利,反而阻碍了网络的发展,而且还要保证推理的完备,不遗漏应有的推理结果。本体推理的难点在于推理的高效性、资源利用率,若推理虽能达到正确性,完备性的目的而浪费了大量的时间和资源,则语义网也不能达到预期的效果,所以推理方法的使用及其效果是语义网成功的关

基于知网的语义相似度计算

基于《知网》的语义相似度计算 软件使用手册 1 功能简介 本软件是根据[刘群2002]一文中的原理编写的词汇语义相似度计算程序。 主要实现了以下功能: 1.1基于交互输入的义原查询、义原距离计算、义原相似度计算 1.2基于交互输入的词语义项查询、义项相似度计算、词语相似度计算; 1.3基于文件输入的词语义项查询、词语相似度计算; 1.4相似度计算中的参数调整。 2 安装说明 本软件包一共有四个文件: 《基于<知网>的词汇语义相似度计算》软件使用手册.doc:本使用手册 《基于<知网>的词汇语义相似度计算》论文.pdf:本软件所依据的论文,采用pdf 格式,用Acrobat Reader阅读时需要安装简体中文支持包。 自然语言处理开放资源许可证.doc:本软件包的授权许可证 WordSimilarity.zip:程序文件 软件安装时,将文件WordSimilarity.zip文件解压缩一个目录下即可,解压缩后有以下几个文件: WordSimilarity.exe:可执行程序; Glossary.dat:《知网》数据文件 Semdict.dat:《知网》数据文件 Whole.dat:《知网》数据文件 必须确保《知网》数据文件在程序执行时的当前目录下。 3 界面说明 软件使用简单的对话框界面,如下所示:

4 功能说明 4.1义原操作 4.1.1 义原查询 1.首先在“输入1”框中输入义原名称; 2.点击“察看义原1”按钮; 3.在“义项1”框中将依次显示出该义原及其所有上位义原的编号、中文、英文;类似的方法可以查询“输入2”框中的义原; 4.1.2 义原距离计算 1.首先在“输入1”和“输入2”框中输入两个义原; 2.点击“计算义原距离”按钮; 3.在“输出”框中显示两个义原的距离;

语义Web服务描述语言研究

王文博 北京邮电大学网络与交换国家重点实验室,北京 (100876) E-mail:jsjmaopei@https://www.doczj.com/doc/1517323571.html, 摘要:语义Web服务描述语言使得Web服务能够实现自动发现,自动执行,自动组合,是语义Web服务研究的重要组成部分。本文探讨了4种已提交给W3C的语义Web服务描述语言,并对其中影响最为深远的OWL-S和WSMO进行了比较。 关键词:WSMO,OWL-S,SWSF,WSDL-S,语义Web服务 中图分类号:TN911 1.引言 Web服务[1]由于其强大的松耦合能力,在工业界已经吸引了众多的目光。然而Web服务的接口是基于语法的,并不能为机器所理解,因而其服务的发现存在查全率和查准率低的问题[2]。基于此,人们提出了语义Web服务的概念:用语义Web技术对Web服务进行解释说明,让机器也能理解Web服务,提高服务发现的准确率,最终实现服务的自动发现,自动组合和自动调用[3,4]。 语义Web服务描述语言在整个语义Web服务中所起的作用是不言而喻的。通过语义Web 服务语言能够对现有的Web服务进行语义层面的阐述,通过本体的支持,实现从服务的功能层面和非功能层面的详尽的描述,最终实现机器理解服务的最终目的。因而对语义Web服务描述语言进行研究有着十分重要的意义。 2.OWL-S DAML-S[5](DARPA Agent Markup Language for Services)草案于2001年被提出,是第一个针对Web服务的本体描述语言。它建立在DAML+OIL本体基础之上,专门用来描述Web 服务的高层本体语言,由美国军方DARPA项目支持。DAML-S是采用DAML语言描述web服务而形成的一个本体。而OWL是在DAML基础之上的一种本体语言,它成为了W3C的Web Ontology推荐的语言标准。而OWL-S[6]类似于DAML-S相对于DAML的关系,是基于OWL的语义Web服务的本体描述框架。OWL-S是用OWL语言写的本体,语义良好。它根据对象和它们之间的复杂关系来定义Web服务的词汇表,并且是基于XML的结构化语言。 图1 OWL-S服务本体 OWL-S预先定义了一组用来描述服务的本体(Ontology),通过这些本体让机器能够理解Web服务。如图1所示,OWL-S的本体由三部分组成:ServiceProfile、ServiceModel和ServiceGrounding。它们都是关于服务的最本质的描述,分别描述了服务的作用,服务如何

基于《知网》的词汇语义相似度计算

基于《知网》的词汇语义相似度计算1 刘群??李素建? {liuqun,lisujian}@https://www.doczj.com/doc/1517323571.html, ?中国科学院计算技术研究所 ?北京大学计算语言学研究所 摘要: 《知网》是一部比较详尽的语义知识词典。在基于实例的机器翻译中,词语相似度计算是一个重要的环节。不过,由于《知网》中对于一个词的语义采用的是一种多维的知识表示形式,这给词语相似度的计算带来了麻烦。这一点与WordNet和《同义词词林》不同。在WordNet和《同义词词林》中,所有同类的语义项(WordNet的synset或《同义词词林》的词群)构成一个树状结构,要计算语义项之间的距离,只要计算树状结构中相应结点的距离即可。而在《知网》中词语相似度的计算存在以下问题: 1.每一个词的语义描述由多个义原组成,例如“暗箱”一词的语义描述为:part|部件,%tool|用具,body|身,“写信”一词的语义描述为: #TakePicture|拍摄write|写,ContentProduct=letter|信件; 2.词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通过一种专门的知识描述语言来表示。 我们的工作主要包括: 1.研究《知网》中知识描述语言的语法,了解其描述一个词义所用的多个义原之间的关系,区分其在词语相似度计算中所起的作用; 2.提出利用《知网》进行词语相似度计算的算法; 3.通过实验验证该算法的有效性,并与其他算法进行比较。 关键词:《知网》词汇语义相似度计算自然语言处理 1 引言 在基于实例的机器翻译中,词语相似度的计算有着重要的作用。例如要翻译“张三写的小说”这个短语,通过语料库检索得到译例: 1)李四写的小说/the novel written by Li Si 2)去年写的小说/the novel written last year 通过相似度计算我们发现,“张三”和“李四”都是具体的人,语义上非常相似,而“去年”的语义是时间,和“张三”相似度较低,因此我们选用“李四写的小说”这个实例进行类比翻译,就可以得到正确的译文: the novel written by Zhang San 1本项研究受国家重点基础研究计划(973)支持,项目编号是G1998030507-4和G1998030510。

深度学习解决 NLP 问题:语义相似度计算

导语 在NLP领域,语义相似度的计算一直是个难题:搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM 等深度学习模型在计算语义相似度上的应用,希望给读者带来帮助。 0. 提纲 1. 背景 2. DSSM 3. CNN-DSSM 4. LSTM-DSSM 5. 后记 6. 引用 1. 背景 以搜索引擎和搜索广告为例,最重要的也最难解决的问题是语义相似度,这里主要体现在两个方面:召回和排序。

在召回时,传统的文本相似性如BM25,无法有效发现语义类query-Doc 结果对,如"从北京到上海的机票"与"携程网"的相似性、"快递软件"与"菜鸟裹裹"的相似性。 在排序时,一些细微的语言变化往往带来巨大的语义变化,如"小宝宝生病怎么办"和"狗宝宝生病怎么办"、"深度学习"和"学习深度"。 DSSM(Deep Structured Semantic Models)为计算语义相似度提供了一种思路。 本文的最后,笔者结合自身业务,对DSSM 的使用场景做了一些总结,不是所有的业务都适合用DSSM。 2. DSSM DSSM [1](Deep Structured Semantic Models)的原理很简单,通过搜索引擎里Query 和Title 的海量的点击曝光日志,用DNN 把Query 和Title 表达为低纬语义向量,并通过cosine 距离来计算两个语义向量的距离,最终训练出语义相似度模型。该模型既可以用来预测两个句子的语义相似度,又可以获得某句子的低纬语义向量表达。 DSSM 从下往上可以分为三层结构:输入层、表示层、匹配层

语义web服务的分析与应用

语义WEB服务的分析与应用 摘要:WEB服务机制缺乏对服务的语义描述,难以在逻辑层面上实现基于语义的服务发现、服务流程组合和服务动态调用。通过在WEB服务中加入语义WEB,即构造WEB语义服务,以克服传统WEB服务语义操作能力的局限,使其支持WEB服务自动发现、执行以及动态智能组合。 关键字:语义WEB服务;WEB服务;语义WEB;OWL-S; 随着网络技术的发展,WEB正由网页的集合转向服务的集合。面对网络上存在的大量服务,如何检索、使用这些服务,更好地满足用户的需要,成为目前迫切需要研究的问题。因此,采用一种合适的WEB服务描述方法是必需的。语义WEB(Semantic WEB)致力于开发“以计算机可处理形式表示信息的语言”,正逐渐成为WEB服务描述的重要方法。 1.WEB 服务中添加语义WEB的必要性 WSDL已经提供了一种面向人理解的语义化描述,但是还不够,为什么?为了使用一个WEB Service,软件实体需要一个计算机可解释的服务描述。而语义WEB标识语言的目标之一,就是创建这些描述被定制和共享的框架;WEB站点应该使用一个基本的类和属性的集合来声明和描述服务。 WEB服务机制缺乏对服务的语义描述,难以在逻辑层面上实现基于语义的服务发现、服务流程组合和服务动态调用。而且WSDL和UDDI技术关注服务功能和接口的静态描述,忽视对服务进行非功能属性的描述,而非功能属性如服务质量正是用户在SOA环境中动态选择服务所关注和必需的。使用RDFS定义WEB服务本体,并逐层对其进行Agent扩展和QoS扩展,构建WEB服务及其质量本体,克服已有技术只能在设计时对服务接口进行微调以满足用户需求的缺陷,丰富了WEB服务机制的语义描述,使得WEB服务能够被机器理解、对用户透明、被代理自动处理,在语义逻辑上实现WEB服务之间的交互性,而且用户在选择服务时可以同时考虑WEB服务的质量,从而提高服务选择时的灵活性和自主性。 WEB服务基本上采用标准化分类的方式描述服务的功能、提供者以及如何访问服务,如何与之交互。这种机制对服务的描述能力非常有限,特别是缺乏对服务的语义描述,难以在逻辑层面上实现基于语义的服务发现、服务流程组合和服务动态调用。 为了克服上述缺陷,人们将目光投向语义WEB。在WEB服务描述中加入语义信息可以帮助更好地完成服务的自动发现、自动选择、自动组合以及服务间数据的自动映射和转换

语义相似度的计算方法研究

语义相似度的计算方法研究 信息与计算科学余牛指导教师:冉延平 摘要语义相似度计算在信息检索、信息抽取、文本分类、词义排歧、基于实例的机器翻译等很多领域中都有广泛的应用.特别是近几十年来随着Internet技术的高速发展,语义相似度计算成为自然语言处理和信息检索研究的重要组成部分.本文介绍了几种典型的语义相似度的计算方法,总结了语义相似度计算的两类策略,其中重点介绍了一种基于树状结构中语义词典Hownet的语义相似度计算方法,最后对两类主要策略进行了简单的比较.关键词语义相似度;语义距离;知网;语料库 The Reseach of Computing Methods about Semantic Similarity YU Niu (Department of Mathematics and Statistics,Tianshui Normal University , 741000) Abstract Semantic similarity is broadly used in many applications such as information retrieval, information extraction, text classification, word sense disambiguation, example-based machine translation and so on.Especially with the rapid development of Internet technology in recent decades, Calculation of semantic similarity has always been an important part of natural language processing and information retrieval research .This paper introduces several main methods of calculating semantic similarity , then two strategies of semantic similarity measurement are summarized, and we focuse on the Hownet based on the stucture of tree and use them to calculate the semantic similarity ,and finally the two strategies are easily compared . Key words Semantic similarity, Semantic distance,Hownet, Corpus

基于语义WEB服务的E-Learning技术与应用研究

河南省基础与前沿技术研究计划项目 申请书 项目名称:基于语义WEB服务的E-Learning 技术与应用研究 申请者: 所在单位(签章): 主管部门:河南省教育厅 联系电话: 电子信箱: 通讯地址: 邮政编码: 申请日期:2006 年09 月28 日 河南省科学技术厅制

填报说明 1.“申请书”用于申请河南省基础与前沿技术研究项目,由申请者负责填写。填写前请先查阅有关河南省基础与前沿技术研究项目申请办法及规定。申请书各项内容,要逐条认真填写,表达要明确、严谨,实事求是。外来语要同时用原文和中文表达,第一次出现的缩写词,须注明全称。 2.封面右上角“申报号”按照河南省科学技术厅分配的编号填写;“项目类别”栏由申请者填写, 申请项目属基础研究的此栏为“A”,属应用基础研究的为“B”,属前沿技术的为“C”。“学科名称”及“学科代码”请根据申报项目所属学科,按最新国家标准“学科分类与代码表”,填至三级学科分支。 3.基础研究是指以认识自然现象、探索自然规律为目的,不直接考虑应用目标的研究活动;应用基础研究是指有广泛应用前景,但以获取新原理、新知识、新方法为主要目的的研究;前沿技术是指有产业化前景以获取具有当代国际国内前沿的新工艺、新技术、新方法为主要目的研究;“项目名称”应确切反映研究内容和范围,最多不超过25个汉字(包括标点符号);“申请者”是指申请项目实际主持人。 4.在读(含在职)研究生和申请单位的兼职科研人员不得作为申请者提出申请,但可作为项目组成员参加研究。 5.申请者和项目组中具有高级专业技术职务的主要成员申请(含参加)的项目数,连同在研的省级以上基础研究项目数, 不得超过两项。同一项目组研究内容相近的项目,只允许报送一个项目。 6.不具有副高以上专业技术职务或硕士以上学位的申请者,须有两名具有正高专业技术职务的同行专家推荐。

相关主题
文本预览
相关文档 最新文档