本体相似度计算方法
- 格式:pdf
- 大小:1013.98 KB
- 文档页数:3
基于本体知识库的概念相似度计算方法近年来,基于本体知识库的概念相似度计算方法被广泛应用于信息检索、自然语言处理、知识管理等领域。
本体知识库是一种表示和组织知识的工具,它通过定义概念、属性和关系等元素构建语义网络,为人们理解和处理各种知识提供了便利。
基于本体知识库的概念相似度计算方法主要是通过比较两个概念之间的语义距离来确定它们的相似程度。
下面我们将从本体知识库的构建、概念相似度计算的理论基础和具体实现等方面进行探讨。
一、本体知识库的构建本体知识库的构建是基于领域知识的确定和概念元素的定义。
知识领域确定后,可以通过领域专家的指导或文献资料的收集等方式提取领域中存在的所有概念,并对这些概念进行层次化组织。
例如,对于医学领域,在确定了相关的概念(如病症、病因、病例等)后,可以通过定义它们的属性和关系,构建一个包含各种概念和它们之间关系的本体知识库。
在实际建立本体知识库时,还需要考虑一些重要的方面,如本体建模语言的选择、知识表示的精度和准确性等。
常见的本体建模语言有OWL、RDF等,它们可以规定知识元素的定义方式和语义关系,是开发本体知识库的重要工具。
二、概念相似度计算的理论基础计算概念相似度的过程涉及对概念含义的表示和比较。
为了实现概念的可比性,需要将概念转化为可计算的形式。
一般情况下,将概念表示为一组特征向量的形式,并通过相似度度量方法进行比较。
常见的相似度度量方法包括路径长度、信息内容、基于信息熵的方法等。
路径长度是比较简单和常用的相似度度量方法,它基于本体中概念之间的语义距离,即在树形结构中从一个概念到另一个概念的距离。
信息内容是一种基于信息论的度量方法,在与其他概念比较时由于当前概念的信息量越小,说明其在本体中的特异性越大,其概念相似度越高。
除此之外,还有一些基于机器学习、统计学等方法的计算方式。
例如,作者曾经采用过一种基于SVM的概念相似度计算方法,该方法利用了SVM对文本分类的有效性和泛化能力,将概念相似度的计算转化为文本分类问题,通过训练数据建立模型,实现对新的概念相似度的计算。
2012.1252 本体相似度计算方法研究张路长江大学工程技术学院 湖北 434020摘要:MD3模型是一种系统的跨本体概念间相似度的计算方法,这种方法无需建立一个集成的共享本体。
本文在MD3 模型的基础上,充分利用本体对概念的描述信息,重点讨论了跨本体概念间非层次关系相似度的计算,把MD3 模型扩展到EMD3 模型,使得概念间相似度的计算理论上更全面、更精确。
关键词:本体;元数据模型;语义相似度;MD3模型0 引言本体映射算法以两个本体作为输入,然后为这两个本体的各个元素(概念、属性或者关系) 建立相应的语义关系。
相似性提取是本体映射的一个重要步骤,它主要是进行概念相似度的计算,提高语义相似度计算精度成为提高语义信息检索质量的关键之一。
语义相似度一般是指计算本体概念间的相似度,多数方法所考虑的概念是基于一个本体的,跨本体概念间的方法比较少。
MD3模型是一种典型的计算跨本体概念间相似度的方法。
1 MD3模型Triple Matching-Distance Model(MD3)模型是一种跨本体概念间相似度计算框架。
计算实体类a 和b 之间的相似度通过计算同义词集、特征属性和语义邻居之间的加权和,公式如下:Sim(a,b)=wS synsets (a,b)+uS features (a, b)+vS neighborhoods (a,b) 其中w, u, v 表示了各组成部分的重要性。
特征属性细化为组成部分、功能以及其他属性。
概念a 和b 的语义邻居及其特征属性(即概念的部分、功能及其他属性)也通过同义词集合描述,每一个相似度的计算都通过Tversky 公式:(,)(,)(1(,))A BS a b A B a b A B a b B Aαα=+-+--其中A, B 分别表示概念a 和b 的描述集合,A-B 表示属于A 但不属于B 的术语集(B-A 相反)。
参数(,)a b α由概念a 和b 和在各自层次结构中的深度确定。
2 EMD3模型MD3模型的不足在于没有考虑对象实例对概念的影响,同时其语义邻居只考虑语义关系中层次之间的相似度,没有考虑非层次之间的相似度。
本文在MD3模型的基础上,参考了其概念名称相似度、特征属性,对本体的结构以及概念描述两方面做了扩充,重点讨论了跨本体概念间非层次关系的相似度的比较和实例对概念相似度的影响,把MD3模型扩展到Extension of TripleMapping Distance model (EMD3)模型。
2.1 概念属性的相似度属性有属性名称、属性数据类型、属性实例数据等要素,因此判断两个属性是否相似主要从这三个要素来考虑。
属性名称、属性类型本身是文本类型,是字符串,因此可以采用字符串相似度计算方法进行判定。
例如用Humming distance 来比较两字符串。
设两字符串s 和t ,则它们之间的相似度可由下式给出:min(,)1(,)1[(())]/max(,)s t i Sim s t f i s t s t ==-+-∑其中:若s[i]=t[i],则f(i)=0;否则f(i)=1。
由于每个概念的实例对该概念的每个属性都分配了一个相应的值,对于其他类型的数据,可以采用下面介绍的方法进行计算。
设概念A 的属性为a i ,概念B 的属性为b j ,两个属性之间的相似度的计算公式为:Sim(a i ,b j )= w 1s 1(a i ,b j )+ w 2s 2(a i ,b j )+ w 3s 3(a i ,b j ) 其中w i 是权重,代表属性名称、数据类型、属性实例数据对属性相似度计算的重要程度,且和为1。
设概念A,B 之间总共计算出m 个sim(a i ,b j ),并设置相应的权值k l ,则概念之间基于属性的相似度为:11(,)/(,)m ml i j ll l k Sim a b k Sim A B ==∑∑=2012.12532.2 概念名称相似度知网中概念的语义用义原来描述,义原是描述概念语义的最小单位,一共有1500多个义原。
由于所有义原根据上下位关系构成了一个树状的层次体系,所有可以用语义距离计算相似度。
假设两个义原在该层次体系中的路径为d ,可以得到两 个义原之间的语义相似度如下:12(,)/()Sim p p d αα=+,式中α是一个可以调节大小的因子。
在知网中一个概念由多个义原描述,所以我们只要计算每个义原的相似度来考虑其重要性,就可以得到概念之间的名称相似度。
计算方法如下:121(,)(,)1mname i i j i S c c w Max Sim p p j n ==∑≤≤,其中m, n 为概念c 1, c 2的义原数,w i 为第i 个义原所占的权重。
2.3 语义关系的相似度语义关系包括层次语义关系和非层次语义关系,层次语义关系具有有向传递性,非层次关系不具有传递性(如关联关系)。
(1) 层次语义关系的计算本文借鉴参考文献[1]中的方法来计算层次语义关系,利用语义邻居的概念,以实体为中心向周围辐射,设定一个语义半径,半径取值的大小反映与实体之间的亲疏关系。
划定语义邻居的范围集合进行匹配,取集合中的最大值作为语义邻居之间的相似度。
语义邻居计算公式如下:N(a 0, r)={c i 0}∀i, d(a 0,c i 0)≤r层次语义关系相似度计算:(,)/h S a b A B A B = ,其中A ,B 分别代表实体a ,b 的语义邻居集合。
(2) 非层次语义关系的计算上位词:定义概念的上位词为概念所有父类的集合,公式如下:UC(C i , H)={C j ∈C|H(C i , C j )}基于概念上位词的定义,定义概念的匹配公式:11221122/(,;,)(,)(,)CM C O C O UC C H UC C H =1122(,)(,)UC C H UC C H与概念相关的非层次关系:如果关系的定义域或值域是概念c ,则称这些关系为与概念c 相关的非层次关系,公式如下: (){()()|,}c x x x R P dom R c range R c R P c C ===∈∈ 还可以进一步把非层次关系细化为概念的In 关系和Out 关系(可以认为非层次关系的方向是从定义域到值域,凭此来定义In 和Out 的关系),In 关系指概念c 是非层次关系的值域,公式如下:{()|,}c I x x R range R c R P c C -==∈∈。
而Out 关系指的是概念c 是非层次关系的定义域,公式如下:(){()|,}c o x x R P dom R c R P c C -==∈∈比较概念的非层次关系,首先应该找出两个本体中与这两个概念相关的同类非层次关系(无需考虑不同类的非层次关系),进而比较这些同类非层次关系的另外一项之间的相似度(如果要比较的概念是非层次关系的定义域,分别找出这个关系的值域,通过概念匹配公式对其进行比较,反之亦然)。
下面以In 关系为例描述比较的过程:P q I a I b I R R R --= 其中P a I R -表示本体p 中与概念a 相关的In 关系,而q b I R -表示本体q中与概念b 相关的In 关系,所以其交集I R 表示本体p, q 中与概念a, b 相关的公共In 关系集合。
如果概念a, b 没有公共的In 关系,则I R 为空,无需下面的计算。
对于公共In 关系集合, 公式如下:11(,)((),;(),)Inon h I I I i i i I R S a b CM dom R p dom R q R --==∑; 对In 关系和Out 关系进行加权综合,得到非层次关系相似度的公式如下:(,)(,)(,)non h non h I non h O S a b iS a b oS a b -----=+ 其中i ,o 为权值,反映的是非层次关系的值域与定义域对概念相似度的影响程度。
对层次关系和非层次关系计算结果进行综合,得到概念语义环境的相似度计算公式如下:(,)(,)(,)neighborhoods h non h S a b tS a b uS a b -=+其中t ,u 分别是层次关系和非层次关系的权重,因为在本体中层次关系要比非层次关系的重要性高,所以在计算中应该赋以较大的值,即t>0.5>u ,且t+u=1。
2.4 概念实例特征的相似度基于实例特征计算相似度的理论依据是,如果概念所具有的实例全部都相同,那么这两个概念是相同的;如果两个概念具有相同实例的比重是相同的,那么这两个概念是相似的。
对于概念A,B 的具体实例,可以用Jaccard 系数来计算相似度:()(,)(,)()(,)(,)(,)inst B A P A B P A B S A B P A B P A B P A P B ==++ 。
其中P(A,B)表示一个实例既属于概念A 又属于概念B 的概率, (,)B P A 表示一个实例属于概念A 但不属于B 的概率。
2.5 结论由上面的分析,综合了各个部分相似度的值,得到跨本体概念间相似度的综合公式如下:(,)(,)(,)(,)(,)im name attr neighborhoods inst S a b mS a b nS a b rS a b tS a b =+++其中m, n, r, t 为各个部分所占的权重,根据各个部分重要性的不同m, n, r, t 分别被赋以不同的值,并且m+n+r+t =1。
3 结语本文扩展的模型充分继承了MD3模型的优点,并对MD3模型进行了优化。
在选择了适当权重的前提下,EMD32012.1254 模型能够确保语义相似度的计算更准确,更全面。
但是在语义相似度计算过程中存在着大量权重的设定问题,对模型的性能有一定的影响。
如何准确高效地设定权重是未来值得深入研究的问题。
参考文献[1]Rodriguez M A, Egenhofer M J. Determining Semantic Similarity Among Entity Classes from Different Ontologies. IEEE Trans. on Knowledge and Data Engineering.2003.[2]徐德智,肖文芳,王怀民.本体映射过程中的概念相似度计算[J]. 计算机工程与应用.2007.[3]陈杰,蒋祖华. 领域本体的概念相似度计算[J].计算机工程与应用.2006.[4]李鹏,陶兰,王弼佐.一种改进的本体语义相似度计算及其应用[J].计算机工程与设计.2007.[5]Alexander Budanitsky,Graeme Hirst.Evaluating W ordNet-based Measures of Lexical Semantic Relatedness[J].Computational Linguis2 tics.2006.[6]Tversky A.Features of similarity.Psychological Review.1977.The MD3 model systematiclly evaluates Semantic Similarity across different Ontologies dispense with Ontology; Metadata model; Semantic Similarity; MD3 model[上接65页]Artificial Intelligence [M]. Cambridge, MA: The MIT Press.2005. [3]M E Bratman1 Intentions, Plants, and Practical Reason[M]. Cambridge,MA: Harvard University Press.1987. [4]Rao A S,Georgeff M P.BDI Agents: From Theory toPractice[A]. Proc of the 1st Int’l Conf on Multi-Agent Systems(IC2MAS295) [C].1995.Li LiAgent oriented software engineering software engineering is an important new technology. Agent oriented AOSE;Prometheus;SONIA;AUML。