本体相似度计算方法

格式：pdf
大小：1013.98 KB
文档页数：3

下载文档原格式

一种基于本体的句子相似度计算方法

Ａｂｓｔｒａｃｔｈｉｓａｅｒｒｏｏｓｅｄｓｅｎｔｅｎｃｅｓｉｍｉｌａｒｉｔｃｏｍｕｔｉｎｂａｓｅｄｏｎｏｎｔｏｌｏ．ＵｓｉｎｔｈｅｒｅｌａｔｉｏｎｓｂｅｔｗｅｅｎｔｈｅｏｎｔｏｌＴ－ｐｐｐｐｙｐｇｇｙｇｏｃｏｎｃｅｔｓａｎｄｋｅｗｏｒｄｓｉｎｔｈｅｓｅｎｔｅｎｃｅｓｔｏｅｓｔａｂｌｉｓｈｓｅｍａｎｔｉｃｉｎｄｅｘｔｏｅｘｔｒａｃｔｔｈｅｄｉｒｅｃｔａｎｄｉｎｄｉｒｅｃｔｓｅｍａｎｔｉｃｒｅｌａ－ｇｙｐｙ，，ｔｉｏｎｏｎｔｏｌｏｂａｓｅｄｓｅｍａｎｔｉｃｖｅｃｔｏｒｗａｓｒｅｒｅｓｅｎｔｅｄｔｏｃａｌｃｕｌａｔｅｔｈｅｓｅｍａｎｔｉｃｓｉｍｉｌａｒｉｔｂｅｔｗｅｅｎｓｅｎｔｅｎｃｅｓｔｈｕｓｔｈｅｇｙｐｙｓｅｎｔｅｎｃｅｓｉｍｉｌａｒｉｔｃｏｍｕｔｉｎｍｅｔｈｏｄｗａｓｒｏｏｓｅｄ．ＴｈｉｓｍｅｔｈｏｄｉｓａｌｉｅｄｉｎｔｈｅＭｉｃｒｏｓｏｆｔＲｅｓｅａｒｃｈＩｎｓｔｉｔｕｔｅｏｆａｒａ－ｙｐｇｐｐｐｐｐ，ｈｒａｓｅｃｏｒｕｓ（ＭＳＲＰ）．Ｅｘｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔｃｏｍａｒｅｄｗｉｔｈｔｈｅｒｅｌａｔｅｄｓｉｍｉｌａｒｉｔｃｏｍｕｔｉｎｍｅｔｈｏｄｓｔｈｉｓｍｅｔｈｏｄｐｐｐｐｙｐｇａｃｃｕｒａｃａｎｄｒｅｃａｌｌｒａｔｅｉｎｔｈｅｉｎｃｏｍｌｅｔｅａｄｄｉｔｉｏｎａｌｉｎｆｏｒｍａｔｉｏｎｂａｃｋｒｏｕｎｄ．ｏｂｔａｉｎｓｏｏｄｙｐｇｇ，，ＫｅｗｏｒｄｓｅｎｔｅｎｃｅｓｉｍｉｌａｒｉｔｃｏｍｕｔｉｎＯｎｔｏｌｏＷｏｒｄＮｅｔＳｙｐｇｇｙｙ随时获取到。在这种情况下，这些简短段落或句子之间的相似度只能从有限的表述中提取。本文研究如何仅通过本体结构所表达出来的概念间的语义关系来计算句子的相似度。

基于谱图理论的本体相似度计算

ＤＯ：０３７／ｉｎ１０ —３１０１８３文章编号：０２８３（０１２ —１００文献标识码：Ｉ１．７８．ｓ．２８３．１．０ｊｓ０２２０１０ —３１２１）８０１．３Ａ中图分类号：Ｐ９Ｔ３１
随着因特网技术的发展，网上信息量以指数规律迅速增
Ｋｅｒｓｏｔｌｇｃｎｅｔｓｍｉｒｔｓｅｔａｒｐｈｏｙ；ｐａｅＢｅｔａｐｒｔｒＧａｓｉｅｅｆｎｔｎｙｗｏｄ：ｎｏｏｙ；ｏｃｐｉｌｉａｙ；ｐｃｒｌｇａｈｔｅｒＬａｌｃｌｍｉｏｅａｏ；ｕｓａｋｒｌｕｃｉｒｎｎｏ
ＬＡＮＭｅｈｉＸＵＪａＳｉｕ，ｉｎ，ＵＮ・ｔｌｇｉｉｒｔｏＹｕＯｎｏｏｙｓｍｌｉｙｃｍｐｔｔｎａｅｉｐｅｔａｇａｈｈｏｙＣｏｍｐｕｔｒａｕａｉｂｓｄＯｌｏｓｃｒｌｒｐｔｅｒｅＥｎｇｎｅｒｎｇｉｅｉ
摘
要：概念的语义相似度研究，是知识表示以及信息检索领域中的一个重要内容。将与某概念相关的信息表示为一个向量，建
立原本体图的伴随图。用８领域方法定义边，高斯核函数定义边的权值。通过计算图拉普拉斯矩阵的次小特征值对应的特征一用向量得到本体相似度计算函数。实验结果表明该算法是有效的。关键词：本体；概念相似度；图理论；谱拉普拉斯Ｂｌａ算子；ｅｒｍｉｔ高斯核函数

一种改进的本体相似度计算方法

ａｄｃｍｐｒｓｉｎｙｓｉｓｒｌｖｎ．ｃｎｏａｅｎｍａｙｗａｆｉｉｅｅａｔＡｏｍｐｒｈｎｉｅｓｍｉａｉａｕｉｇｍｅｈｄｂｓｄｏｈＤ３ｍｏｅｓｐｒｐｓｄｔｔｓｓｔｅｍｅｈｄｔｅｅｓｖｉｌｒｔｍｅｓｒｎｔｏａｅｎｔｅＭｙｄｌｏｏｅＩｅｔｈｔｏｉｗｉｗｏｇｏｐｄｔｎｈｎｃｍｐｒｓｔｅｒｓｌ．ｐｒｍｅｔｌｒｓｌｈｔｔｒｕａａａｄｔｅｏｈａｅｈｅｕｔＥｘｅｉｎａｅｕｔｓｏｗｈｔｔｅａｐｏｃｓｂｔｒｔａｈＤ３ｍｏｅｎｒｃｌｒｔｎｓｓｔａｈｐｒａｈｉｅｔｈｎｔｅＭｅｄｌｉｅａｌａｅａｄｐｅｉｉｎｒｔ．ｒｃｓｏａｅ
第３ห้องสมุดไป่ตู้卷第２期６４
Ｖｌ１６０．３
・
计
算
机
工
程
２１００年ｌ２月
Ｄｅｅｂｒ２１ｃｍｅ００
ＮＯ．４２
ＣｏｐｕｔｒＥｎｇｎｅｒｎｇｍｅｉｅｉ
软件技术与数据库・
一
文编号ｌ３８０） — ０ — ３文标码：章：０－４（１２３＿０２２ｏ４９ｏ献识Ａ
［ｓｒｃ］ＴｉｐｐｒｐｏｏｅｙｔｅｉｄａｐｏｃｆｓｍｉｒｙｃｍｐｔｔｎＩｕｅｈｒｔｔｇｅｎｉｒｌｉｉｌｏｉｍｓｔＡｂｔａｔｈｓａｅｒｐｓｓａｓｎｈｓｅｐｒａｈｏｉｌｉｏｕａｉ．ｔｓｓｔｅＨｉ — — ｅｓｍａｔｅａ￣ｔａｇｒｈＯｚａｔｏｓＳＯｎｃｔ，ｙｔ

一种新的本体相似度计算方法

张忠平，田淑霞刘洪强。，
（．１燕山大学信息科学与工程学院，河北秦皇岛０６０；．６０４２南京邮电大学计算机学院，南京２００）１０３摘要：针对目前本体映射过程中相似度计算存在的问题，出了一种综合的相似度计算方法。首先判断不同提
ＺＨＡＮＧｏ — ｉｇ。Ｚｈｎｇｐｎ，ＴＩＡＮｈｘａＳｕ— ｉ，ＬＩＨｏ — ａｇＵｎｇｑｉｎ
（．ｏｌｅｏｎｒｔｎＳｉｃ１Ｃｌｇｆｍａｉｃｎｅ＆Ｅｇｎｅｎ，ＹｒｈｎＵｉｒｔ，ＱｎｕｎｄｏＨｂｉ６０４，ｈｎ；．Ｃｌｇｏｐｔ，ＮｎｉｅｆＩｏｏｅｎｉｅｒｇａａｎｖｓｙｉｈａｇａｅｅ０６０Ｃｉ２ｏｅｅｏＣｍｕｅａｊｇｉ￣ｅｉａｌｆｒｎ
ｔｅｒｌｔｉｙａｎｉｆｒｎｏｉｎｏｏｉｓｆｒｔＡｎｄｔｅｎｔｓｓｓｈｅａｉｔｍｏｇｄｆｅｅｔｄｍａｎｏｔｌｇｅｓ．ｖｉｈｎｉｈｉｕｂｕｍｐｉｎ，ｓｄｏｅｎｉｅｅｎｏｃｐｅｅ，ｔｏｂａｅｎｓｍａｔｃｌｖｌａｄｃｎｅｔｌｖｌｐｏｓｄａｃｍｐｅｅｓｖｉｌｒｔａｕｉｇｍｅｈｄ，ａｔｒｔｏｕｌｃｎｓｄｅａｉｎａｏｔｒｌｔｖａｔｒ．Ｌｓｌｈｉｐｐｒｐｏｅｏｒｈｎｉｅｓｍｉａｉｙｍｅｓｒｎｔｏｆｏｋａｆｌｏｉｒｔｏｂｕｅａｉｅｆｃｏｓａｔｙｔｓａ — ｅ

改进的本体语义相似度计算方法

一关系的树状结构，导致不能完整反映概念的语义。关系类型权值计算如下所示[7]：
R（x→r
y）=Maxr-
Maxr-Minr n（r x）
（5）
其中，→r 表示关系类型。Maxr 和 Minr 是某种关系的可能最大、
最小权重，n（r x）表示从 x 出发的 r 关系有向边和。
（4）有向边强度：若一个父节点的某个子节点对该领域比
本体结构中，每个概念是对其祖先节点的细化，每一个子节点都可以认为包含它所有祖先节点的信息内容，因此两个概念的语义相似度可以用它们最近共同祖先节点的信息量来衡
量，即共同祖先的最大信息量[4]。Resnik 根据该理论将两个概念 C1 和 C2 的共同祖先的最大信息量作为两概念的语义相似度。 Jiang 和 Conrath 利用两概念的信息量和它们的最大信息量之差作为语义距离进行语义相似度的计算[5]，该模型将信息量融合在语义距离计算中，具有较高的准确性。但是通过分析发现上述模型中存在如下问题：
（1）相似度计算中使用了两个概念共同祖先中的最大信息量。该方法对于本体树结构较合适，但实际的本体是具有多种关系的图结构，在本体的 DAG 图中一个概念的双亲可能有多个，并且两个概念的共同祖先可能是分离的，因此该方法会忽略这些节点的信息。
（2）进行语义距离计算时只考虑了信息量，而在实际的本体中，由于节点深度、密度的差异以及概念间关系的不同，都会影响语义相似度。因此语义距离计算还要考虑其他因素。
T0:All
T1:Plant structure
T2:plant
T3:tissue
T4:guard
T5:trichoblast
图 1 某本体片段结构图
分离祖先是 DAG 图状结构特有的。一个概念具有两个分

一种改进的本体概念相似度计算算法

１本体中概念相似度的计算
１１有向边权重的计算．
在本体层次网络中影响有向边权重的因素有以下四点阁：Ｊ父结点和子结点之问有向边的类型；２父（）（）
结点和子结点构成的有向边在层次网络图中的深度；３父结点和子结点构成的有向边在层次网络图中的密（）
第２８卷第２期
２１０１年６月
苏州科技学院学报（然科学版）自
ＪｕａｏｕｈｕＵｉｒｉｆｃｅｃｎｅｈｏｏｙ（ａｕａｃｅｃ）ｏｒｌｆＳｚｏｎｖｓｙｏｉｅａｄＴｃｎｌｇＮｔｒｌｉｎｅｎｅｔＳｎＳ
度；４有向边两端概念结点的属性对有向边的权重的影响。（）
［稿Ｅ期】０００－２收ｔ２１— ５１【金项目】家自然科学基金资助项目（０９ＱＺ０）基国２０ＳＲ２５［者简介］美辉（９３）女，作兰１８～，云南宜良人，士，究方向：息检索、算机智能。硕研信计
率。
关键词：体；义亏损；本语语义距离；义相似度语
中图分类号：Ｐ９Ｔ３１文献标识码：Ａ文章编号：１７ — ６７２１）２０４ — ５６２０８（０１０ — ０５０
本体（ｎｏｏ）词源于哲学，来描述事物的本质【ｏｔｌ一用 ” 。在计算机科学领域，体被定义为共享概念模型本

基于本体结构的语义相似度计算

第７期
杨方颖等：基于本体结构的语义相似度计算
・５３・
Ｓｉｍｉｌａｒｉｔｙ（０，ｂ）＝（２×Ｄ）一Ｌｅｎ（口，ｂ）
（１）
在计算信息量度量值时选用了该算法。ＤｉＳｈｌｎ算法的内容将在下文中详细说明。
．
（４）
其中信息量ＩＣ（ｃ）为概念Ｃ出现概率的负ｌｏｇ函数值：，ｃ（ｃ）＝一ｌｏ－ｇＰ（Ｃ）。其中Ｐ（ｃ）＝，ｎ（ｃ）为概念ｃ所包含的子概念
２算法介绍
文中将距离因子Ｄ，层次因子Ｌ，属性因子Ｐ和信息量因子通过线性加权的方式组合起来，得到了一个新的语义相似度算法，本算法形式化表示如下：
离。
的相似度的算法。Ｒｏｄｒｉｇｕｅｚ等还考虑了概念的同义词集合，区别特征和语义相邻点等特征。文中结合了基于边的方法和基于顶点的方法，同时吸取了Ｔｖｅｒｓｋｙ关于属性的观点，综合考虑了语义距离、属性、共同父节点所在层次、信息量等影响语义
∈［０，１］，ＩＦ∈［０，１］。
的共性所需的信息量和完全描述两个概念所需信息量
的比值：
通过算法的定义可知：
１）Ｓｉｍｉｌａｒｉｔｙ（ｃ１，ｃ２）∈ ［０，１］；
Ｓｉｍｉｌａｒｉｔｙ（）＝
（５）
２）当ｃ和ｃ：是等价概念时，其相似度取得最大值

一种基于语义的本体概念相似度的计算方法

图１Ｅｐｙｅｍｌｅ本体与Ｐｒｎｅ本体的映射ｏｅｏｎｌｓ
如图１示，ｍｐｏｅ和Ｐｒｏｎｌ同一个公司两个所Ｅｌｙｅｅｓｎｅ是
不同部门建立的雇员本体，因此存在一定差异，Ｗｅｈ属即ｉｔｇ性的度量单位不同，因而可以利用Ｕｎｔｎｅｓｎ的映射规ｉＣｖｒｉｏｏ则来建立这两个本体之间的映射关系。
ＷＵｉｕＷＡＮｏｇｂＺＨＵｅｇｚｏＫａ— ｉｇＨｎ－ｏＺｈｎ－ｈｕ
（ｏｌｇｆＣｍｐｔｒＣｌｅｏｏｅｕｅ，ＣｈｎｑｎｉｅｓｔＣｈｎｑｎ００４，ｉａｏｇｉｇＵｎｖｒｉｙ，ｏｇｉｇ４０４Ｃｈｎ）
似度的计算方法，主要从概念名称、念属性、概概念关系来计算概念相似度，过引入候选概念集和信息增益，高了通提
相似度的准确率，简化了相似度的计算过程。
关键词本体映射，念相似度，息增益概信
ＡｍｐｕａｉｎＭｅｈｏｏｎｅｔａｉｌｒｔｎＣｏｔｔｏｔｄｆＣｏｃｐｕｌＳｍｉａｉｙｉＯｎｔｌｇｓｄｎｅｎｉｅｏｏｙＢａｅｏＳｍａｔｃＷｂ
１引言
语义网采用多层次的表示框架，而本体位于从文档描述到知识推理转折的层次，因此本体的构建是实现语义网的关键环节。本体就是用来描述某个领域（领域本体）甚至更广范围（通用本体）内的概念以及概念之间的联系，使得这些概念和联系在共享的范围内有着明确唯一的定义，这样人和机器之间就可以进行交流＿。但是，１］由于在网络中可以获取的本体数量越来越多，并且本体的创建者不同，使用的建模方法不

基于本体知识库的概念相似度计算方法

基于本体知识库的概念相似度计算方法近年来，基于本体知识库的概念相似度计算方法被广泛应用于信息检索、自然语言处理、知识管理等领域。

本体知识库是一种表示和组织知识的工具，它通过定义概念、属性和关系等元素构建语义网络，为人们理解和处理各种知识提供了便利。

基于本体知识库的概念相似度计算方法主要是通过比较两个概念之间的语义距离来确定它们的相似程度。

下面我们将从本体知识库的构建、概念相似度计算的理论基础和具体实现等方面进行探讨。

一、本体知识库的构建本体知识库的构建是基于领域知识的确定和概念元素的定义。

知识领域确定后，可以通过领域专家的指导或文献资料的收集等方式提取领域中存在的所有概念，并对这些概念进行层次化组织。

例如，对于医学领域，在确定了相关的概念（如病症、病因、病例等）后，可以通过定义它们的属性和关系，构建一个包含各种概念和它们之间关系的本体知识库。

在实际建立本体知识库时，还需要考虑一些重要的方面，如本体建模语言的选择、知识表示的精度和准确性等。

常见的本体建模语言有OWL、RDF等，它们可以规定知识元素的定义方式和语义关系，是开发本体知识库的重要工具。

二、概念相似度计算的理论基础计算概念相似度的过程涉及对概念含义的表示和比较。

为了实现概念的可比性，需要将概念转化为可计算的形式。

一般情况下，将概念表示为一组特征向量的形式，并通过相似度度量方法进行比较。

常见的相似度度量方法包括路径长度、信息内容、基于信息熵的方法等。

路径长度是比较简单和常用的相似度度量方法，它基于本体中概念之间的语义距离，即在树形结构中从一个概念到另一个概念的距离。

信息内容是一种基于信息论的度量方法，在与其他概念比较时由于当前概念的信息量越小，说明其在本体中的特异性越大，其概念相似度越高。

除此之外，还有一些基于机器学习、统计学等方法的计算方式。

例如，作者曾经采用过一种基于SVM的概念相似度计算方法，该方法利用了SVM对文本分类的有效性和泛化能力，将概念相似度的计算转化为文本分类问题，通过训练数据建立模型，实现对新的概念相似度的计算。

基于关联规则的本体相似度综合计算方法

（重庆大学计算机学院，重庆４０４）００４（｛通信作者电子邮箱ｃｓｌ＠１３ＣＢｑｕｅ６．Ｏ）
摘
要：目前较为流行的最小风险的本体映射（ｉＭ）架通过采用“多策略 ” 思想虽然取得了一定的效果，ＲＭＯ框的
关键词：体；据挖掘；本数关联规则；体映射；义分析本语中图分类号：Ｐ１．１Ｔ１２Ｔ３１１；Ｐ８文献标志码：Ａ
Ｃｏｐｒｈｎｓｖｅｈｄｏｏｐｉｇｏｏｏｙｓｍｉａｉｙｂａｅｎａｓｃａｉｎｒｌｓｍｅｅｉｅｍｔｏｆｃｍｕｔｎｎｔｌｇｉｌｒｔｓｄｏｓｏｉｔｏｕｅ
但其框架比较臃肿庞杂，且采用的计算结构相似度的选择策略存在一定的局限性。针对上述问题，出一种基于关提
联规则的本体相似度综合计算方法。首先，构造关联规则的结构“ 模型，出相应事务集；次，树” 得其进行关联规则的
挖掘，根据关联规则计算概念结构的相似性；然后，计算概念的实例、属性、名称的相似度；最后，对多个特征相似度进行综合加权处理，实现本体相似度的最优计算。实验结果表明，该方法较ＲＭＯｉＭ在查全率、准率方面均有较大提查高；同时该方法省去了策略选择的步骤，有效降低了时间复杂度。
Ｃ０ＤＥＹＩＤＵＮＪＩ
ｈｔ：／ｗ．ｃ．ｎｔ／ｗｗｊａｃｐｏ
ｄｉ１．７４Ｓ．．０７２１．２７ｏ：０３２／ＰＪ１８．０２０４２

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2012.1252 本体相似度计算方法研究张路长江大学工程技术学院湖北 434020摘要：MD3模型是一种系统的跨本体概念间相似度的计算方法，这种方法无需建立一个集成的共享本体。

本文在MD3 模型的基础上，充分利用本体对概念的描述信息，重点讨论了跨本体概念间非层次关系相似度的计算，把MD3 模型扩展到EMD3 模型，使得概念间相似度的计算理论上更全面、更精确。

关键词：本体；元数据模型；语义相似度；MD3模型0 引言本体映射算法以两个本体作为输入，然后为这两个本体的各个元素(概念、属性或者关系) 建立相应的语义关系。

相似性提取是本体映射的一个重要步骤，它主要是进行概念相似度的计算，提高语义相似度计算精度成为提高语义信息检索质量的关键之一。

语义相似度一般是指计算本体概念间的相似度，多数方法所考虑的概念是基于一个本体的，跨本体概念间的方法比较少。

MD3模型是一种典型的计算跨本体概念间相似度的方法。

1 MD3模型Triple Matching-Distance Model(MD3)模型是一种跨本体概念间相似度计算框架。

计算实体类a 和b 之间的相似度通过计算同义词集、特征属性和语义邻居之间的加权和，公式如下：Sim(a,b)=wS synsets (a,b)+uS features (a, b)+vS neighborhoods (a,b) 其中w, u, v 表示了各组成部分的重要性。

特征属性细化为组成部分、功能以及其他属性。

概念a 和b 的语义邻居及其特征属性(即概念的部分、功能及其他属性)也通过同义词集合描述，每一个相似度的计算都通过Tversky 公式：(,)(,)(1(,))A BS a b A B a b A B a b B Aαα=+-+--其中A, B 分别表示概念a 和b 的描述集合，A-B 表示属于A 但不属于B 的术语集(B-A 相反)。

参数(,)a b α由概念a 和b 和在各自层次结构中的深度确定。

2 EMD3模型MD3模型的不足在于没有考虑对象实例对概念的影响，同时其语义邻居只考虑语义关系中层次之间的相似度，没有考虑非层次之间的相似度。

本文在MD3模型的基础上，参考了其概念名称相似度、特征属性，对本体的结构以及概念描述两方面做了扩充，重点讨论了跨本体概念间非层次关系的相似度的比较和实例对概念相似度的影响，把MD3模型扩展到Extension of TripleMapping Distance model (EMD3)模型。

2.1 概念属性的相似度属性有属性名称、属性数据类型、属性实例数据等要素，因此判断两个属性是否相似主要从这三个要素来考虑。

属性名称、属性类型本身是文本类型，是字符串，因此可以采用字符串相似度计算方法进行判定。

例如用Humming distance 来比较两字符串。

设两字符串s 和t ，则它们之间的相似度可由下式给出：min(,)1(,)1[(())]/max(,)s t i Sim s t f i s t s t ==-+-∑其中：若s[i]=t[i],则f(i)=0;否则f(i)=1。

由于每个概念的实例对该概念的每个属性都分配了一个相应的值，对于其他类型的数据，可以采用下面介绍的方法进行计算。

设概念A 的属性为a i ，概念B 的属性为b j ，两个属性之间的相似度的计算公式为：Sim(a i ，b j )= w 1s 1(a i ，b j )+ w 2s 2(a i ，b j )+ w 3s 3(a i ，b j ) 其中w i 是权重，代表属性名称、数据类型、属性实例数据对属性相似度计算的重要程度，且和为1。

设概念A,B 之间总共计算出m 个sim(a i ，b j )，并设置相应的权值k l ，则概念之间基于属性的相似度为：11(,)/(,)m ml i j ll l k Sim a b k Sim A B ==∑∑=2012.12532.2 概念名称相似度知网中概念的语义用义原来描述，义原是描述概念语义的最小单位，一共有1500多个义原。

由于所有义原根据上下位关系构成了一个树状的层次体系，所有可以用语义距离计算相似度。

假设两个义原在该层次体系中的路径为d ，可以得到两个义原之间的语义相似度如下：12(,)/()Sim p p d αα=+，式中α是一个可以调节大小的因子。

在知网中一个概念由多个义原描述，所以我们只要计算每个义原的相似度来考虑其重要性，就可以得到概念之间的名称相似度。

计算方法如下：121(,)(,)1mname i i j i S c c w Max Sim p p j n ==∑≤≤，其中m, n 为概念c 1, c 2的义原数，w i 为第i 个义原所占的权重。

2.3 语义关系的相似度语义关系包括层次语义关系和非层次语义关系，层次语义关系具有有向传递性，非层次关系不具有传递性(如关联关系)。

(1) 层次语义关系的计算本文借鉴参考文献[1]中的方法来计算层次语义关系，利用语义邻居的概念，以实体为中心向周围辐射，设定一个语义半径，半径取值的大小反映与实体之间的亲疏关系。

划定语义邻居的范围集合进行匹配，取集合中的最大值作为语义邻居之间的相似度。

语义邻居计算公式如下：N(a 0, r)={c i 0}∀i, d(a 0，c i 0)≤r层次语义关系相似度计算：(,)/h S a b A B A B = ，其中A ，B 分别代表实体a ，b 的语义邻居集合。

(2) 非层次语义关系的计算上位词：定义概念的上位词为概念所有父类的集合，公式如下：UC(C i , H)={C j ∈C|H(C i , C j )}基于概念上位词的定义，定义概念的匹配公式：11221122/(,;,)(,)(,)CM C O C O UC C H UC C H =1122(,)(,)UC C H UC C H与概念相关的非层次关系：如果关系的定义域或值域是概念c ，则称这些关系为与概念c 相关的非层次关系，公式如下： (){()()|,}c x x x R P dom R c range R c R P c C ===∈∈ 还可以进一步把非层次关系细化为概念的In 关系和Out 关系(可以认为非层次关系的方向是从定义域到值域，凭此来定义In 和Out 的关系)，In 关系指概念c 是非层次关系的值域，公式如下：{()|,}c I x x R range R c R P c C -==∈∈。

而Out 关系指的是概念c 是非层次关系的定义域，公式如下：(){()|,}c o x x R P dom R c R P c C -==∈∈比较概念的非层次关系，首先应该找出两个本体中与这两个概念相关的同类非层次关系(无需考虑不同类的非层次关系)，进而比较这些同类非层次关系的另外一项之间的相似度(如果要比较的概念是非层次关系的定义域，分别找出这个关系的值域，通过概念匹配公式对其进行比较，反之亦然)。

下面以In 关系为例描述比较的过程：P q I a I b I R R R --= 其中P a I R -表示本体p 中与概念a 相关的In 关系，而q b I R -表示本体q中与概念b 相关的In 关系，所以其交集I R 表示本体p, q 中与概念a, b 相关的公共In 关系集合。

如果概念a, b 没有公共的In 关系，则I R 为空，无需下面的计算。

对于公共In 关系集合，公式如下：11(,)((),;(),)Inon h I I I i i i I R S a b CM dom R p dom R q R --==∑；对In 关系和Out 关系进行加权综合，得到非层次关系相似度的公式如下：(,)(,)(,)non h non h I non h O S a b iS a b oS a b -----=+ 其中i ，o 为权值，反映的是非层次关系的值域与定义域对概念相似度的影响程度。

对层次关系和非层次关系计算结果进行综合，得到概念语义环境的相似度计算公式如下：(,)(,)(,)neighborhoods h non h S a b tS a b uS a b -=+其中t ，u 分别是层次关系和非层次关系的权重，因为在本体中层次关系要比非层次关系的重要性高，所以在计算中应该赋以较大的值，即t>0.5>u ，且t+u=1。

2.4 概念实例特征的相似度基于实例特征计算相似度的理论依据是，如果概念所具有的实例全部都相同，那么这两个概念是相同的；如果两个概念具有相同实例的比重是相同的，那么这两个概念是相似的。

对于概念A,B 的具体实例，可以用Jaccard 系数来计算相似度：()(,)(,)()(,)(,)(,)inst B A P A B P A B S A B P A B P A B P A P B ==++ 。

其中P(A,B)表示一个实例既属于概念A 又属于概念B 的概率, (,)B P A 表示一个实例属于概念A 但不属于B 的概率。

2.5 结论由上面的分析，综合了各个部分相似度的值，得到跨本体概念间相似度的综合公式如下：(,)(,)(,)(,)(,)im name attr neighborhoods inst S a b mS a b nS a b rS a b tS a b =+++其中m, n, r, t 为各个部分所占的权重，根据各个部分重要性的不同m, n, r, t 分别被赋以不同的值，并且m+n+r+t =1。

3 结语本文扩展的模型充分继承了MD3模型的优点，并对MD3模型进行了优化。

在选择了适当权重的前提下，EMD32012.1254 模型能够确保语义相似度的计算更准确，更全面。

但是在语义相似度计算过程中存在着大量权重的设定问题，对模型的性能有一定的影响。

如何准确高效地设定权重是未来值得深入研究的问题。

参考文献[1]Rodriguez M A, Egenhofer M J. Determining Semantic Similarity Among Entity Classes from Different Ontologies. IEEE Trans. on Knowledge and Data Engineering.2003.[2]徐德智,肖文芳,王怀民.本体映射过程中的概念相似度计算[J]. 计算机工程与应用.2007.[3]陈杰,蒋祖华. 领域本体的概念相似度计算[J].计算机工程与应用.2006.[4]李鹏,陶兰,王弼佐.一种改进的本体语义相似度计算及其应用[J].计算机工程与设计.2007.[5]Alexander Budanitsky,Graeme Hirst.Evaluating W ordNet-based Measures of Lexical Semantic Relatedness[J].Computational Linguis2 tics.2006.[6]Tversky A.Features of similarity.Psychological Review.1977.The MD3 model systematiclly evaluates Semantic Similarity across different Ontologies dispense with Ontology; Metadata model; Semantic Similarity; MD3 model[上接65页]Artificial Intelligence [M]. Cambridge, MA: The MIT Press.2005. [3]M E Bratman1 Intentions, Plants, and Practical Reason[M]. Cambridge,MA: Harvard University Press.1987. [4]Rao A S,Georgeff M P.BDI Agents: From Theory toPractice[A]. Proc of the 1st Int’l Conf on Multi-Agent Systems(IC2MAS295) [C].1995.Li LiAgent oriented software engineering software engineering is an important new technology. Agent oriented AOSE;Prometheus;SONIA;AUML。