本体映射中概念相似度计算的改进

格式：pdf
大小：211.52 KB
文档页数：5

下载文档原格式

一种改进的本体相似度计算方法

ａｄｃｍｐｒｓｉｎｙｓｉｓｒｌｖｎ．ｃｎｏａｅｎｍａｙｗａｆｉｉｅｅａｔＡｏｍｐｒｈｎｉｅｓｍｉａｉａｕｉｇｍｅｈｄｂｓｄｏｈＤ３ｍｏｅｓｐｒｐｓｄｔｔｓｓｔｅｍｅｈｄｔｅｅｓｖｉｌｒｔｍｅｓｒｎｔｏａｅｎｔｅＭｙｄｌｏｏｅＩｅｔｈｔｏｉｗｉｗｏｇｏｐｄｔｎｈｎｃｍｐｒｓｔｅｒｓｌ．ｐｒｍｅｔｌｒｓｌｈｔｔｒｕａａａｄｔｅｏｈａｅｈｅｕｔＥｘｅｉｎａｅｕｔｓｏｗｈｔｔｅａｐｏｃｓｂｔｒｔａｈＤ３ｍｏｅｎｒｃｌｒｔｎｓｓｔａｈｐｒａｈｉｅｔｈｎｔｅＭｅｄｌｉｅａｌａｅａｄｐｅｉｉｎｒｔ．ｒｃｓｏａｅ
第３ห้องสมุดไป่ตู้卷第２期６４
Ｖｌ１６０．３
・
计
算
机
工
程
２１００年ｌ２月
Ｄｅｅｂｒ２１ｃｍｅ００
ＮＯ．４２
ＣｏｐｕｔｒＥｎｇｎｅｒｎｇｍｅｉｅｉ
软件技术与数据库・
一
文编号ｌ３８０） — ０ — ３文标码：章：０－４（１２３＿０２２ｏ４９ｏ献识Ａ
［ｓｒｃ］ＴｉｐｐｒｐｏｏｅｙｔｅｉｄａｐｏｃｆｓｍｉｒｙｃｍｐｔｔｎＩｕｅｈｒｔｔｇｅｎｉｒｌｉｉｌｏｉｍｓｔＡｂｔａｔｈｓａｅｒｐｓｓａｓｎｈｓｅｐｒａｈｏｉｌｉｏｕａｉ．ｔｓｓｔｅＨｉ — — ｅｓｍａｔｅａ￣ｔａｇｒｈＯｚａｔｏｓＳＯｎｃｔ，ｙｔ

基于OWL的本体映射中概念相似度计算方法的研究

义Ｗｂ数据集成、ｅ、信息检索等研究领域的热门课题。人们已开发出多种本体来满足各方面的需求。然而本体间的知识重用与共享却成为一个问题。这就需要用到本体映射技术。建立映射的关键在于
找到概念相同或相近的实体对，由于这些实体分但
维普资讯
第７卷
第１５期
２００７年８月
科
学
技
术
与
工
程
Ｖｏ．Ｎｏ５１７．１
Ａｕｇ．２０７０
１７ —８９２０）５３６ —５６１１１（０７１－７１０
ＳｉｎｅＴｃｎｌｇｎｇｎｅｉｇｃｅｃｅｈｏｏｙａｄＥｎｉｅｒｎ
计算，同义词词典将所有的词组织在一棵或几棵树
状的层次结构中。一棵树状图中，何两个结点在任之间有且只有一条路径。是，条路径的长度就于这可以作为这两个词汇的语义距离的一种度量。４（）
⑥
２０ＳｉｅｈＥｇｇ０７ｃ．Ｔｃ．ｎｎ．
基于ＯＷＬ的本体映射中概念相似度计算方法的研究
肖潇杨贯中陈春磊段瑞安
（湖南大学软件学院，长沙４０８）１０２
摘
要随着网络上的本体越来越多，了实现不同本体间的知识重用和共享，为需要在本体间建立映射。而建立映射的关键
本体映射
语义距离
概念相似度
中图法分类号

文本相似度计算的缺陷分析与改进

文本相似度计算的缺陷分析与改进随着信息技术的发展，文本相似度计算在自然语言处理、信息检索和文本挖掘等领域中扮演着重要的角色。

然而，当前的文本相似度计算方法存在一些缺陷，限制了其在实际应用中的效果。

本文将对文本相似度计算的缺陷进行分析，并提出一些改进的思路。

一、缺陷分析1. 语义理解不足：当前的文本相似度计算方法主要基于词袋模型或者基于规则的方法，忽略了词语之间的语义关系。

这导致了计算结果的不准确性，尤其是对于一些含有多义词或者上下文有关联的文本。

2. 忽略上下文信息：文本的相似度计算常常忽略了上下文信息的重要性。

例如，两个句子中存在相同的词语，但是由于上下文的不同，其含义可能完全不同。

当前的方法无法很好地捕捉到这种上下文信息，导致计算结果的偏差。

3. 长度差异问题：文本的长度差异也会对相似度计算造成影响。

较长的文本可能包含更多的信息，而较短的文本则可能缺乏充分的信息支持。

当前的方法对于长度差异的处理不够准确，容易导致计算结果的失真。

二、改进思路1. 语义建模：为了解决语义理解不足的问题，可以引入深度学习的方法，利用神经网络模型来进行语义建模。

通过训练大规模的语料库，模型可以学习到词语之间的语义关系，从而更准确地计算文本的相似度。

2. 上下文建模：为了更好地捕捉上下文信息，可以考虑引入上下文建模的方法。

例如，可以使用循环神经网络（RNN）或者注意力机制（Attention）来对文本的上下文进行建模，从而更准确地计算文本的相似度。

3. 长度归一化：为了解决长度差异问题，可以对文本进行长度归一化处理。

例如，可以将文本进行截断或者填充，使得所有文本的长度相同。

这样可以避免长度差异对相似度计算的影响，提高计算结果的准确性。

4. 结合其他特征：除了考虑语义和上下文信息外，还可以结合其他特征来进行相似度计算。

例如，可以考虑词频、词性、句法结构等特征，从多个角度综合考量文本的相似度。

三、总结文本相似度计算在实际应用中具有重要的意义，但当前的方法存在一些缺陷。

OWL本体之间概念相似度计算研究的开题报告

OWL本体之间概念相似度计算研究的开题报告
一、研究背景
现代信息技术快速发展，促进了语义Web的建设，语义Web通过Ontology规范和描述了知识和概念之间的关系，为机器自动推理提供了一种强有力的基础。

然而，大量的本体与知识库在语义Web上的广泛应用，使得概念的相似性计算显得越来越重要。

概念相似度计算是自然语言处理中的一个重要问题，它可以应用于对概念语义信息的挖掘、文本分类、问答系统中关键词选择、网络信息检索中的筛选等多种领域。

OWL（Web Ontology Language）本体是语义Web中常用的本体描述语言，本体之间概念的相似度计算可以为语义搜索、本体匹配和数据集成等多个方面提供支持。

二、研究目的
本研究的目标是设计一种有效的OWL本体之间的概念相似度计算方法，使其能够支持本体匹配、语义搜索和数据集成等应用。

三、研究内容
1. OWL本体描述语言的研究
OWL是一种本体描述语言，本研究将深入学习OWL语法、本体结构和知识表示等相关内容，为后续计算概念相似度做好准备。

2. 概念相似度计算算法研究
研究传统的基于词汇重叠的概念相似度计算方法，如路径长度、信息系数等，并对其进行改进和创新，提高其对语义信息的准确性和鲁棒性。

3. 基于OWL本体的相似度计算系统设计与实现
设计和实现基于OWL本体的概念相似度计算系统，包括本体的读取与解析、概念节点的分析和计算以及结果的展示等模块。

四、研究意义
本研究可以为语义Web的建设提供强有力的支持，为本体匹配、语义搜索和数据集成等多个领域提供基础技术支撑。

此外，在自然语言处理领域中，本研究也为相关技术的发展提供了参考和借鉴。

基于层次分析法的本体映射

ｒｃｆｔｅＳｍｉｒｙｃｃａｉｎａｙｏｉｌｉａｕｔ．ｈａｔｌｌｏ
Ｋｅｏｄ：ａｔａｈｅａｃｙｐｏｅｓｓｉｒａｕａｏ；ｅｔａｏａｌ；ｍｎｌｙｅｔｑａｔｔｅａａｓ；ｕｎｙｗｒｓａｌｉｌｉｒｒｒｃｓ；ｉｌｉｃｃｌｔｎｗｉｓＵｅｔｎｃｍｕａｔｔｓ；ｌａｖｎｌｉｑａ－ｎｙｃｈｍａｔｌｙｉｈｇｏｏｌｕｉｉｙｓ
ＯｎｏｏｙＭａｉｇＢａｅｎｔｌｇｐｐｎｓｄｏＡｎａｙｃｌＨｉｒｒｈｙＰｒｃｓｌｔａｅａｃｏｅｓｉ
Ｈｎｊ，ＤＩｈ— ｎ，ＡＧＪｎＥＷｅ —ｅＡｉｇＹＮｕｉＳｍｉ
ｊｄｍｅｔａｉ，ｃｃａｎｅｔａｄｃｍｍｎｌｓｈｅｔｄｃｍｂｎｓｕｌａｖａｓｉｕｔａｖａｓ，ｕｇｎｔｘａｕｔｇｗｉｓｎｏｕａｉｔｔｍｒｌｌｉｈｇｙｔｅ．Ｔｈｍｅｏｏｉｅａｔｅａｌｉｗｔｑａｉｔｅａｌｉｑｉｔｎｙｓｈｎｔｉｉｎｙｓ
（ｏｅｅｏｏｐｔｎｆｒａｏｎｉｅｆｇＪｇｉｇｃｌｒｎｖｒｔ，ａｃａｇ３０４，ＣｉａＣｌｇｆｍｕｒａｄＩｏｍｔｎＥｇｅｎ，ｉｘＡｒｕｕｅＵｉｓｙＮｈ３０５ｈｎ）ｌＣｅｎｉｎｉｎａｉｔｅｉｎｎ
少的问题，属性间的映射关系被应用在辅助概念映而

本体映射中相似度计算的改进

必要的。因此，计算时可以对概念对的数量进行限制，以减少计算量。本文针对相似度计算过程中所存在的这些问题，提出了
第４０卷第１２期２０１３年１２月
计
算
机
科
学
Ｖｏ１．４０ＮＯ．１２
Ｄｅｃ２０１３
ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ
本体映射中相似度计算的改进
郑晓洁张琳
（上海海事大学信息工程学院上海２０１３０６）
ｃｏｎｃｅｐｔ，ｓｅｍａｎｔｉｃ，ｐｒｏｐｅｒｔｉｅｓ，ｉｎｓｔａｎｃｅｓａｎｄｓｔｒｕｃｔｕｒｅｏｆｔｈｅｃｏｎｃｅｐｔ．Ｆｏｒｆｉｎｄｉｇｎｍｏｒｅｕｓｅｆｕ１ｓｉｍｉｌａｒｉｔｙｏｍｐｃｕｔａｔｉｏｎ
ｍｅｔｈｏｄ，ｔｈｅｐａｐｅｒｉｎｔｒｏｄｕｃｅｄｒｅｌａｔｉｖｉｔｙａｎｄａｔｔｒｉｂｕｔｅｔｈｅｏｒｙ．Ａｔｔｈｅｅｎｄ，ａｎｅｘｐｅｒｉｍｅｎｔｗａｓｕｓｅｄｔｏｐｒｏｖｅｔｈｉｓｍｅｔｈｏｄｃａｎａｄａｐｔｔｈｅｄｉｆｆｅｒｅｎｔｓｃａｌｅｏｎｔｏｌｏｇｉｅｓ，ａｎｄａｌｓｏｃａｎｉｍｐｒｏｖｅｔｈｅａｃｃｕｒａｃｙｏｆｔｈｅｓｉｍｉｌａｉｔｒｙ．

一种综合的概念相似度计算方法

映射的一个重要步骤，它主要是进行相似度的计算，并产生一个相似矩阵。
计算。第三，目前对于概念相似度的计算，仅仅利用概念自身的语义进行，没有考虑概念的属性和关系对概念的描述作用。对于本体中的每一个概念，概念的属性和关系也是重要的组成部分。在计算概念相似度时，不仅应该考虑概念自身的语
（ｏｌｇｆｎｏｍａｉｎＳｓｅ＆Ｍａａｅｎ，ＮＵＤＣｌｅｏｆｒｔｙｔｍｅＩｏｎｇｍｅｔＴ，ｈｎｓａ４０７）Ｃａｇｈ１０３
ＡｂｔａｔＯｎｏｏｙＭａｐｎ，ｈａｅｏｎｏｏｙａｉｎｎ，ｎｏｏｙｉｔｇａｉｎ，ｎｏｏｙｍｅｇｎｏｔｌｇ－ｒｎｌ— ｓｒｃｔｌｇ－ｐｉｇｔｅｂｓｆｏｔｌｇ－ｌｍｅｔｏｔｌｇ－ｎｅｒｔｏｏｔｌｇ－ｒｉｇ，ｎｏｏｙｔａｓａｇｔｎ，ａｅＵｅＯｓｌｅｔｅｐｏｌｍｍｏｇｈｔｒｇｎｏｓｏｔｌｇｅ．Ｔｏａｍｔｔｅｃｒｅｔｐｏｌｍｓｏｅｃｍｐｔ— ｉｃｎｂＳｄｔｏｖｈｒｂｅａｎｅｅｏｅｅｕｎｏｏｉｓｏｉａｈｕｒｎｒｂｅｆｔｏｕａｈｔｎｏｏｃｐｉｌｒｔ，ｈｓｐｐｒｐｔｏｗａｄａｃｍｐｓｔｅａｐｏｃ．Ｆｉｓｌｔｅｍｏｔｒｌｔｄｃｎｅｔｒｉｅｅｉｆｎｅｔｓｍｉｉｙｔｉａｅｕｓｆｒｒｏｏｉｉｐｒａｈｏｃａｖｒｔｈｓ－ｅａｅｏｃｐｓａｅｆｔｒｄｙ，ｌＯｔａｃｒｉｇｔｈｉｌｒｔｅｗｅｎｔｃｎｅｔｎｅＯａｏｒｄｃｈｍｏｎｆｏｕａｉｎ．ｅｏｄｙｎｉ－ｕｃｏｄｎＯｔｅｓｍｉｉｂｔｅｗｏｏｃｐａｓＳｓｔｅｕｅｔｅａｕｔｏｍｐｔｔａｙｍｃｏＳｃｎｌ，ａｎ

改进概念相似度的本体迁移学习

经概念格算法生成的概念格是图状结构．所以可以把生成的概念格看做是由概念组成的图．图中每一个结点代表～个概念．一个图是有结点
结点）可以说这两个概念是关联的．．也
定义３概念的度：概念格中，一个概念在每
定义５概念细度：在概念格中，如果在某些
合Ａ、：Ａ …Ａ．本体概念集合中选取一个概Ａ、，从念集合，中选取一个概念，概念与对应的集从此合中的度相同概念进行相似度计算．果集合中如的元素很多，以根据实际情况进行抽取．文阈可本值选取方法采用文献［中方法，置不同的相７］设似阈值Ｔ＝．，．，，．经ＳＣ０００１ … １０，ＦＡ算法分析
其中［ｕＥ）为边总数，［ｕＥ］和ｓｍ（］ｓｍ（）凸
数的结点放在一个集合里．得到概念集合Ｂ、Ｂ、其中。是所有的概念的度为１的集合，以此例推．本体中，同样的操作，到概念集在做得
…
．
［ｕＥ］分别表示节点Ｃ和节点Ｃ的边．ｓｍ（）。：
集合和边集合构成的图形结构，在本文中约定，每
一
结点具有的通路．ｄｇｅ（）．记ｅｒＣｅ
定义４边的密度：
（：
（）１
个结点包含两个特征其一是对象特征０，二其

一种基于语义的本体概念相似度的计算方法

图１Ｅｐｙｅｍｌｅ本体与Ｐｒｎｅ本体的映射ｏｅｏｎｌｓ
如图１示，ｍｐｏｅ和Ｐｒｏｎｌ同一个公司两个所Ｅｌｙｅｅｓｎｅ是
不同部门建立的雇员本体，因此存在一定差异，Ｗｅｈ属即ｉｔｇ性的度量单位不同，因而可以利用Ｕｎｔｎｅｓｎ的映射规ｉＣｖｒｉｏｏ则来建立这两个本体之间的映射关系。
ＷＵｉｕＷＡＮｏｇｂＺＨＵｅｇｚｏＫａ— ｉｇＨｎ－ｏＺｈｎ－ｈｕ
（ｏｌｇｆＣｍｐｔｒＣｌｅｏｏｅｕｅ，ＣｈｎｑｎｉｅｓｔＣｈｎｑｎ００４，ｉａｏｇｉｇＵｎｖｒｉｙ，ｏｇｉｇ４０４Ｃｈｎ）
似度的计算方法，主要从概念名称、念属性、概概念关系来计算概念相似度，过引入候选概念集和信息增益，高了通提
相似度的准确率，简化了相似度的计算过程。
关键词本体映射，念相似度，息增益概信
ＡｍｐｕａｉｎＭｅｈｏｏｎｅｔａｉｌｒｔｎＣｏｔｔｏｔｄｆＣｏｃｐｕｌＳｍｉａｉｙｉＯｎｔｌｇｓｄｎｅｎｉｅｏｏｙＢａｅｏＳｍａｔｃＷｂ
１引言
语义网采用多层次的表示框架，而本体位于从文档描述到知识推理转折的层次，因此本体的构建是实现语义网的关键环节。本体就是用来描述某个领域（领域本体）甚至更广范围（通用本体）内的概念以及概念之间的联系，使得这些概念和联系在共享的范围内有着明确唯一的定义，这样人和机器之间就可以进行交流＿。但是，１］由于在网络中可以获取的本体数量越来越多，并且本体的创建者不同，使用的建模方法不

本体映射中概念相似度计算的改进

１本体映射方法改进
１１本文的思想．
例对概念相似度进行计算．于一个实例，用对可Ｊｃａｄ系数来计算相似度［计算公式为：ａｃｒ６１，
在本体映射中，目前最常用的计算相似度的方
法是基于语法的方法和基于概念实例的方法［然５１．
周生宝，郭俊芳
（山西大同大学数学与计算机学院，山西大同０７０）３０９
摘要：通过对目前各种本体映射方法的分析，出一种改进的本体映射的方法．提该方法考虑了概念的名称、
本体映射概念相似度
实例、属性、关系对相似度计算的影响，使概念相似度的计算更加全面、准确．
作者简介：周生宝（９９）男，１７一，山西闻喜人，硕士，助教，研究方向：超网络、复杂网络
２００８钲
周生宝等：本体映射中概念相似度计算的改进
似度计算方法进行判定．们可用Ｅｉｉａｃ我ｄｔｓｎｅ方Ｄｔ
法来比较，也可用ｈｍｍｎｉａｃ．ｕｕｉｇｄｓｎｅｈｍｍｉｇｄｓｔｎｉ－
１４基于属性计算概念相似度．
估概念的相似度，主要用到的是字符串的相似性判断方法．文采用编辑距离（ｄｔｉａｃ）本Ｅｉｓｎｅ方法来计Ｄｔ
收稿日期：０８０ — ６２０ — ３１
在本体中，每个属性也是一个概念．属性名称、属性类型本身都是字符串，因此可以采用字符串相

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

本体映射中概念相似度计算的改进周生宝，俊芳山西大同大学数学与计算机学院，山西大同（037009）E-mail：zhouguohaishi@摘要：通过对目前各种本体映射方法的分析,针对本体映射中概念相似度计算所存在的问题,本文提出一种改进的本体映射的方法。

该方法充分考虑了概念的名称、实例、属性、关系对相似度计算的影响，使概念相似度的计算更加全面、准确。

关键词：本体；本体映射；概念相似度中图分类号：TP1. 引言在计算机领域，“本体是对共享的概念化的形式化的明确的规范说明”[1]。

目前,本体作为领域知识结构化的重要手段已经获得了广泛的认可。

然而,随着本体应用的增多,如何解决异构本体间的互操作已成为一个棘手的问题[2]。

通常，可以采用以下三种方法实现异构本体的互操作：（1）本体间建立包含关系；（2）本体间建立映射关系；（3）对本体进行合并，生成一个完整的公共本体。

在这三种方法中，最有效的方法是本体映射。

本体映射实质上就是概念层上语义相关的两个本体的实体根据语义关系进行转换的过程，即由源本体的实体转换成目标本体实体。

本体映射的核心内容是计算两个概念的相似度,并求出概念的相似矩阵。

当其相似度大于某个阈值时就认为这两个概念之间存在一定的映射关系。

在当前的本体映射研究方面，采用不同的映射方法已经开发出了一些本体映射的原型系统，如: GLUE系统[3]、MAFRA系统[4]、SF系统[5]、OMEN系统[6],在相关文献中都有陈述。

2. 本体映射方法改进2.1本文的思想在本体映射中,目前最常用的计算相似度的方法是基于语法的方法和基于概念实例的方法[7]。

然而，这两种方法都有其不足之处。

首先，基于语法的方法中，常用的是字符串的比较方法，如：EditDistance、humming distance、N-gramdistance等。

然而，这些方法却没有考虑概念间的语义关系。

比如,在计算相似度Sim(father,feather)时得到的值很大，但这两个词在概念上的相似性远没有这么大。

同时,当具有相同内涵的术语具有不同的外在形式时,该方法将无法度量(如母亲,妈妈)。

鉴于基于语法的相似性计算方法在本体环境中的局限,只可以对术语概念做初步的度量和比较。

其次,根据概念实例计算相似度是利用一定量的实例在两个概念中出现的联合分布概率来计算两个概念的相似度。

该方法对于两个本体的实例集没有交集时就束手无策,而这种情况却是一种很普遍现象。

比如:一个学校的“高级讲师”和另一个学校的“副教授”是相同的职称,然而在这两个学校的本体中, “高级讲师”和“副教授”的实例集没有交集，这样用基于实例的方法计算就会得出概念“高级讲师”和“副教授”之间是根本不相关的。

而这个结论却是错误的。

因此，仅仅利用实例的联合分布概率来确定概念的相似度是不可靠的。

另外，目前的本体映射的研究主要是集中在概念之间的映射，对于属性和关系的映射还没有具体的方法来实现。

而对于本体中的每一个概念，除了自身的语义信息外，概念的属性和关系也是重要的组成部分。

因此，在计算概念相似度时，不仅应该考虑概念自身的语义，而且应该考虑概念的属性和关系的影响。

针对以上几个问题，本文提出一种改进的本体映射方法。

在这种方法中，计算概念相似度时根据语法，概念实例、概念属性、概念关系分别计算概念相似度,然后进行相似度合并。

这样可使概念相似度的计算更加全面,计算结果更加准确。

具体实现步骤如下图1所示：图1.改进的相似度计算过程Fig1.calculating process of improved similarity2.2基于语法计算概念的名称相似度基于语法的方法主要是从概念的结构(如名称、类型等)上来评估概念的相似度。

由于名称主要是由字符串组成的，因此主要用到的是字符串的相似性判断方法。

本文采用常用的编辑距离(EditDistance)的方法来计算概念名称的相似度。

EditDistance 又称 Levenshtein Distance ，由 Levenshtein 在 1966年提出，是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。

它包括字符的插人、删除、替换及相邻字符的调换。

最初用来比较两个字符串，现在扩展到语句的相似度计算。

一种常见的相似度度量公式为:Sim(S 1,S 2)=max(0,),min()(),min(212,121s s s s ed s s −) (1)|S 1|、|S 2|表示字符串长度,min(|S 1|,|S 2|)表示较短字符串的长度,ed(S 1,S 2)指字符串S 1和S 2中不同字符个数的平均值。

我们用EditDistance 方法可以计算出基于语法的概念名称的相似度Sim name (A,B)。

2.3基于实例计算概念相似度在需要映射的两个本体中,利用概念的具体实例对概念相似度进行计算。

一个概念的实例也是它祖先概念的实例。

对于一个实例,可用Jaccard 系数来计算相似度[8]。

计算公式为: Sim instance (A,B)= B)P(A B)P(A ∪∩=B),A P(+)B P(A,+B)P(A,B)P(A, （2） Sim instance (A,B)∈[0,1]。

最小值为0,表示两个概念完全无关；最大值为1,表示两个概念完全相同。

根据本体中概念A 和概念B 的具体实例来计算P (A,B)、P(A,B )、P(A ,B)。

其中P(A,B)是一个实例在某本体中即属于概念A 又属于概念B 的可能性。

P(A,B )表示一个实例在某本体中属于概念A 但不属于概念B 的可能性。

P(A ,B) 表示一个实例在某本体中不属于概念A 但属于概念B 的可能性。

在计算P (A,B)、P(A,B )、P(A ,B)时要用到概念A 和概念B 在各自本体中的实例个数。

用Jaccard 系数公式(2)我们可以计算出概念A 和概念B 基于实例的相似度Sim instance (A,B)。

2.4基于属性计算概念相似度在本体中，每个属性也是一个概念。

属性有属性名称、属性数据类型、属性实例数据等要素组成,因此本文判断两个属性是否相似主要从这三个要素的相似度进行考虑。

属性名称、属性类型本身都是字符串,因此可以采用字符串相似度计算方法进行判定。

我们可用前述的EditDistance 方法来比较，也可用humming distance 、N-gramdistance 等方法来比较两个字符串，还可以根据子串相似度来确定字符串的相似程度。

其中，humming distance 具体方法是：两个字符串s 和t 的相似度的计算公式如下所示,其中若s[i]=t[i],则f(i)=0,否则f(i)=1。

Sim(s,t)=1-|)t ||,s max(|)]f(i [|)t |s|,min(|1=i t s −+∑ （3）由于每个概念的实例对该概念的每一个属性都分配了一个相应的值,所以对于其他类型的数据,也可以采用基于实例的方法进行计算。

设概念A 的属性为a i ,概念B 的属性为b j ,两个属性间的相似度记为ASim(a i ,b j )。

属性相似度计算公式如下:ASim(a i ,b j )=w 1Sim(a iname ,b jname )+w 2Sim(a idatatype ,b jdatatype )+w 3Sim(a iinstance ,b jinstance ) (4) 其中w 1、w 2、w 3是权重,代表属性名称、类型、数据对属性相似度计算的重要程度, w 1+ w 2+ w 3=1。

设概念A 和概念B 之间共计算出m 个ASim(a i ,b j ),并设置相应的权值w k attribute 。

概念A 和概念B 基于属性的相似度计算公式为:Sim attribute (A,B)=∑∑==m k kattribute m k j i k attributewb a ASim w11),( (5)由于一个概念可能有多个属性,每个属性对概念的描述程度和作用也各不相同。

如果每个属性都考虑,则计算量会大大增加。

所以在计算属性相似度时,可以先依据机器学习方法[7]计算出属性的信息增益[9],只选取几个信息增益大的属性进行相似度的计算,这样在一定程度上可以减少计算量。

2.5基于关系计算概念相似度本体中的概念之间都存在一定的关系。

关系之间的相似度也可以从名称、类型、实例数据等要素来考虑。

其中名称、类型可用字符串相似度的判定方法来计算，而关系的实例数据可用基于实例的方法来计算相似度。

具体方法、公式与上面基于属性计算概念相似度基本相同，在此不再赘述. 根据这些方法可计算出基于关系的相似度Sim relation (A,B)。

2.6概念相似度计算的改进如图1的算法图所示，我们先用基于语法的方法计算出概念的名称相似度Sim name (A,B)，然后从语义角度考虑,用基于实例的方法计算出相似度Sim ce ins tan (A,B)，把上述计算出的相似度合并起来，便可得到从概念自身角度考虑得到相似度Sim ),(B A concept 。

计算公式如下：Sim ),(B A concept =w name Sim name (A,B)+ w ce ins tan Sim ce ins tan (A,B) （6）因为考虑到概念的属性和关系对其相似度的计算有着重要的辅助作用，在本文中，我们利用上述的基于概念属性和基于关系分别计算出相似度Sim attribute (A,B)和Sim relation (A,B)，并将其按权相加，从而得到辅助相似度Sim ),(tan B A t assis 。

公式如下：Sim ),(tan B A t asis = w attribute Sim attribute (A,B)+w relation Sim relation (A,B) (7) 最后再将计算得出的概念自身相似度Sim ),(B A concept 和辅助相似度Sim ),(tan B A t asis 合并起来，得到最终的概念相似度Sim(A,B)。

公式为：Sim(A,B)= w concept Sim ),(B A concept +w t assis tan Sim ),(tan B A t assis (8) 其中：w name + w ce ins tan =1；w attribute + w relation =1；w concept + w t assis tan =1。

权值的具体设置根据具体环境由用户确定。

3. 结论本文采用了综合的相似度计算方法,虽然比单纯的基于语法或基于实例的相似度计算公式计算量更多,但对于概念相似度的计算更能反映概念之间的相似关系。

本体映射中概念相似度计算的改进

合集下载

一种改进的本体相似度计算方法

基于OWL的本体映射中概念相似度计算方法的研究

文本相似度计算的缺陷分析与改进

OWL本体之间概念相似度计算研究的开题报告

基于层次分析法的本体映射

本体映射中相似度计算的改进

一种综合的概念相似度计算方法

改进概念相似度的本体迁移学习

一种基于语义的本体概念相似度的计算方法

本体映射中概念相似度计算的改进

文档推荐

最新文档