改进的概念语义相似度计算

格式：pdf
大小：290.59 KB
文档页数：4

下载文档原格式

一种改进的本体语义相似度计算及其应用

关键词：似度；本体；智能检索；语义距离；概念扩展相中图法分类号：Ｐ９Ｔ３１文献标识码：Ａ文章编号：００７２２０）１０２－３１０。０４（０７０－２７０
Ｍｅｓｒｇｓｍａｔｉｉｒｔｎｏｏｙａｄｉｐｌａｉｎｉｆｒａｉｎｒｔｅａａｕｎｅｎｉｓｌｉｉｏｔｌｇｎｓａｐｉｔｉｏｍｔｒｖｌｉｃｍａｙｎｔｃｏｎｎｏｅｉ
ｉｎｏｏｙａｄｉｐｌａｉｎｉｆｒａｉｎｒｔｉｖｌｓｐｅｅｔｄｎｏｔｌｇｓｐｉｔｉｏｎｔａｃｏｎｎｍｔｒａｒｓｎｅ．ｏｅｅｉ
Ｋｅｒｓｓｍｉｒ；ｏｔｌｇ；ｉｆｒａｉｎｒｔｅａ；ｓｍａｔｉｔｎｅｃｎｅｔｘａｓｎｙｗｏｄ：ｉｌｉｎｏｏｙｎｏａｔｙｍｔｅｒｖｌｅｎｉｄｓａｃ；ｏｃｐｐｉｏｉｃｅｎｏ
维普资讯
第２卷８
ＶＯ．８１２
第１期
ＮＯ．１
计算机工程与设计
ＣｏｕｅｇｎｅｎｎｓｇｍｐｔｒＥｎｉｅｒｇａｄＤｅｉｎｉ
２０年１０７月
Ｊｎ．２０ａ０７
一
种改进的本体语义相似度计算及其应用
料库来统计。本体给词语问相似度计算带来了新的机会。利用本体结构上的ＩＡ关系，出了本体内部概念之间的相似度Ｓ提计算方法实验结果表明，方法能充分利用本体特点来计算相关概念之间的相似度。该结合一个简单本体，绍了如何计算介概念间的相似度，及其在智能检索系统中的应用。

一种改进的语义相似度计算模型

构的计算概念间语义相似度的算法。冉婕、孙瑜在对语素相似度、序相似度和词长相似度进行分字析的基础上，出了一种基于语素、提字序和词长的综合词语相似度计算方法。归纳起来，计算语义的相似度，主要有以下两类
Ｖｏ．３Ｎｏ３１３．
一
种改进的语义相似度计算模型
赖文炜
（江西教育学院，西南昌３０３）江３０２
摘
要：在对传统的术语相似度计算方法和模型的研究基础上，提取出最能够影响语义本体相似度因素。然后，
在综合传统相似度计算方法的优缺点的基础上，出了一种被证明是能有效改进相似度计算效果的模型。提关键词：信息检索；相似度；体推理本
ＬＡＩＷｅｗｅｎ— ｉ
（ｉｇｉｎｔｕｅｆｄｃｔｎＮｎｈｎ３０２ＣｉａＪｎｘＩｓｔｔｏｕａｉ，ａｃａｇ０３，ｈ）ａｉＥｏ３ｎ
Ａｂｓｒｃｔａｔ：Ｔｈｐｒｅｔａｔｈｉａｔｒｆｅｔｎｉｌｒｔｆｏｔｌｇｈｏｇｔｙｎｉｅｆｒｌｖｎｃｅｐａｅｘｒｃｓｔｅｍａｎｆｃｏｓａｆｃｉｇｓｍｉａｙｏｎｏｏｙｔｒｕｈｓｕｄｉｇｐｌｓｏｅｅａｔｄｏｕｍｅｔｉｎｓ
称、属性、结构等方面来综合考虑概念的相似度。陈
杰和蒋祖华＿提出先将概念相似度计算分为两层：２
“ 初始相似度 ” “ 过非上下位关系体现出的相似和通

一种改进的本体相似度计算方法

ａｄｃｍｐｒｓｉｎｙｓｉｓｒｌｖｎ．ｃｎｏａｅｎｍａｙｗａｆｉｉｅｅａｔＡｏｍｐｒｈｎｉｅｓｍｉａｉａｕｉｇｍｅｈｄｂｓｄｏｈＤ３ｍｏｅｓｐｒｐｓｄｔｔｓｓｔｅｍｅｈｄｔｅｅｓｖｉｌｒｔｍｅｓｒｎｔｏａｅｎｔｅＭｙｄｌｏｏｅＩｅｔｈｔｏｉｗｉｗｏｇｏｐｄｔｎｈｎｃｍｐｒｓｔｅｒｓｌ．ｐｒｍｅｔｌｒｓｌｈｔｔｒｕａａａｄｔｅｏｈａｅｈｅｕｔＥｘｅｉｎａｅｕｔｓｏｗｈｔｔｅａｐｏｃｓｂｔｒｔａｈＤ３ｍｏｅｎｒｃｌｒｔｎｓｓｔａｈｐｒａｈｉｅｔｈｎｔｅＭｅｄｌｉｅａｌａｅａｄｐｅｉｉｎｒｔ．ｒｃｓｏａｅ
第３ห้องสมุดไป่ตู้卷第２期６４
Ｖｌ１６０．３
・
计
算
机
工
程
２１００年ｌ２月
Ｄｅｅｂｒ２１ｃｍｅ００
ＮＯ．４２
ＣｏｐｕｔｒＥｎｇｎｅｒｎｇｍｅｉｅｉ
软件技术与数据库・
一
文编号ｌ３８０） — ０ — ３文标码：章：０－４（１２３＿０２２ｏ４９ｏ献识Ａ
［ｓｒｃ］ＴｉｐｐｒｐｏｏｅｙｔｅｉｄａｐｏｃｆｓｍｉｒｙｃｍｐｔｔｎＩｕｅｈｒｔｔｇｅｎｉｒｌｉｉｌｏｉｍｓｔＡｂｔａｔｈｓａｅｒｐｓｓａｓｎｈｓｅｐｒａｈｏｉｌｉｏｕａｉ．ｔｓｓｔｅＨｉ — — ｅｓｍａｔｅａ￣ｔａｇｒｈＯｚａｔｏｓＳＯｎｃｔ，ｙｔ

一种基于WordNet语义相似度的改进算法

一种基于WordNet语义相似度的改进算法作者：田姗来源：《数字技术与应用》2013年第08期摘要：随着信息的快速发展，计算词语语义相似度在很多领域得到了广泛应用与研究，包括信息检索，信息抽取，词义排歧，基于实例的机器翻译，文本分类等等。

本文在相关研究的基础上除了考虑路径外考虑了节点所在树中的深度和宽度，提出一种基于WordNet语义相似度的改进算法。

关键词：WordNet 语义距离语义相似度中图分类号：TP391 文献标识码：A 文章编号：1007-9416（2013）08-0113-01语义相似度计算在很多领域都有着广泛的应用，如自然语义处理，信息检索，词义排歧，文本分类以及基于实例的机器翻译等。

随着Internet技术的高速发展，语义相似度成为信息检索研究的重要组成部分。

当前语义相似度计算方法大致可以分为两类：一类是根据世界知识或者某种分类体系的方法来计算，主要是基于按照概念间结构层次关系组织的语义词典的方法，根据在这类语言学资源中概念之间的上下位关系和同位关系来计算词语的相似度；第二类是基于统计的方法，主要将上下文信息的概率分布作为词汇语义相似度的参照。

现有的研究中有的通过词结点之间上下位关系构成的最短路径计算语义相似度，文献[1-2]通过两个词的公共祖先结点的最大信息量计算语义相似度，文献[3-5]通过结合结点间的路径长度，概念层次树的深度，概念层次树的区域密度等因素综合考虑计算语义相似度。

国外很多研究者利用WordNet 中的同义词集组成的树状层次体系结构计算语义相似度。

1 WordNet简介WordNet是由Princeton 大学的心理学家，语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典，它不只把单词以字母顺序排列，而且按照单词的意义组成一个“网络”。

由于包含了语义信息，所以WordNet有别于通常意义上的字典。

WordNet描述对象包括复合词、短语动词、搭配次词、成语、单词，其中单词是最基本的单位。

文本相似度计算的缺陷分析与改进

文本相似度计算的缺陷分析与改进随着信息技术的发展，文本相似度计算在自然语言处理、信息检索和文本挖掘等领域中扮演着重要的角色。

然而，当前的文本相似度计算方法存在一些缺陷，限制了其在实际应用中的效果。

本文将对文本相似度计算的缺陷进行分析，并提出一些改进的思路。

一、缺陷分析1. 语义理解不足：当前的文本相似度计算方法主要基于词袋模型或者基于规则的方法，忽略了词语之间的语义关系。

这导致了计算结果的不准确性，尤其是对于一些含有多义词或者上下文有关联的文本。

2. 忽略上下文信息：文本的相似度计算常常忽略了上下文信息的重要性。

例如，两个句子中存在相同的词语，但是由于上下文的不同，其含义可能完全不同。

当前的方法无法很好地捕捉到这种上下文信息，导致计算结果的偏差。

3. 长度差异问题：文本的长度差异也会对相似度计算造成影响。

较长的文本可能包含更多的信息，而较短的文本则可能缺乏充分的信息支持。

当前的方法对于长度差异的处理不够准确，容易导致计算结果的失真。

二、改进思路1. 语义建模：为了解决语义理解不足的问题，可以引入深度学习的方法，利用神经网络模型来进行语义建模。

通过训练大规模的语料库，模型可以学习到词语之间的语义关系，从而更准确地计算文本的相似度。

2. 上下文建模：为了更好地捕捉上下文信息，可以考虑引入上下文建模的方法。

例如，可以使用循环神经网络（RNN）或者注意力机制（Attention）来对文本的上下文进行建模，从而更准确地计算文本的相似度。

3. 长度归一化：为了解决长度差异问题，可以对文本进行长度归一化处理。

例如，可以将文本进行截断或者填充，使得所有文本的长度相同。

这样可以避免长度差异对相似度计算的影响，提高计算结果的准确性。

4. 结合其他特征：除了考虑语义和上下文信息外，还可以结合其他特征来进行相似度计算。

例如，可以考虑词频、词性、句法结构等特征，从多个角度综合考量文本的相似度。

三、总结文本相似度计算在实际应用中具有重要的意义，但当前的方法存在一些缺陷。

语义相似度计算

语义相似度计算目前，语义相似度计算已经成为了自然语言处理领域中的一个研究热点，各种模型和算法不断涌现。

在本文中，我们将对语义相似度计算的基本概念和常用方法进行介绍，并且讨论一些当前研究中的热点问题和挑战。

## 语义相似度的定义和挑战语义相似度衡量的是两个句子或短语之间的语义相似程度。

在计算语义相似度时，我们通常会考虑到两个句子或短语之间的含义、单词的语义以及语法结构等因素。

然而，要准确地计算出两个句子之间的语义相似度并不是一件容易的事情，因为自然语言的含义通常是多样化、模糊不清的，而且受到语言表达方式的限制。

在计算语义相似度时，我们需要克服一些挑战和困难。

首先，要考虑到句子或短语之间的多样性。

同一句话可以有多种表达方式，而这些表达方式的语义可能是相似的，但又不尽相同。

其次，要考虑到语言的歧义性。

自然语言中存在着很多的歧义现象，一个词汇可以有多种不同的含义，这就增加了语义相似度计算的难度。

此外，要考虑到语言的多义性。

一个句子中的一些词汇可能具有多个含义，这就增加了语义相似度计算的复杂性。

## 语义相似度计算的常用方法为了克服这些挑战和困难，研究人员提出了许多语义相似度计算的方法和模型。

这些方法和模型大致可以分为基于知识的方法和基于数据的方法两种。

基于知识的方法通常利用词汇语义资源（如WordNet）来计算语义相似度。

其中，常用的算法包括基于路径的方法、基于信息内容的方法和基于语义子空间的方法等。

基于路径的方法通过计算两个词之间在WordNet中的最短路径来计算它们的语义相似度。

基于信息内容的方法则是利用词汇在语料库中的分布信息来计算它们的语义相似度。

而基于语义子空间的方法则是利用词汇在一个高维语义空间中的向量表示来计算它们的语义相似度。

这些方法在一定程度上可以解决语义相似度计算中的多样性、歧义性和多义性问题。

另一方面，基于数据的方法则是利用机器学习和深度学习技术来计算语义相似度。

其中，常用的方法包括基于词向量的方法、基于神经网络的方法和基于迁移学习的方法等。

改进的本体语义相似度计算方法

一关系的树状结构，导致不能完整反映概念的语义。关系类型权值计算如下所示[7]：
R（x→r
y）=Maxr-
Maxr-Minr n（r x）
（5）
其中，→r 表示关系类型。Maxr 和 Minr 是某种关系的可能最大、
最小权重，n（r x）表示从 x 出发的 r 关系有向边和。
（4）有向边强度：若一个父节点的某个子节点对该领域比
本体结构中，每个概念是对其祖先节点的细化，每一个子节点都可以认为包含它所有祖先节点的信息内容，因此两个概念的语义相似度可以用它们最近共同祖先节点的信息量来衡
量，即共同祖先的最大信息量[4]。Resnik 根据该理论将两个概念 C1 和 C2 的共同祖先的最大信息量作为两概念的语义相似度。 Jiang 和 Conrath 利用两概念的信息量和它们的最大信息量之差作为语义距离进行语义相似度的计算[5]，该模型将信息量融合在语义距离计算中，具有较高的准确性。但是通过分析发现上述模型中存在如下问题：
（1）相似度计算中使用了两个概念共同祖先中的最大信息量。该方法对于本体树结构较合适，但实际的本体是具有多种关系的图结构，在本体的 DAG 图中一个概念的双亲可能有多个，并且两个概念的共同祖先可能是分离的，因此该方法会忽略这些节点的信息。
（2）进行语义距离计算时只考虑了信息量，而在实际的本体中，由于节点深度、密度的差异以及概念间关系的不同，都会影响语义相似度。因此语义距离计算还要考虑其他因素。
T0:All
T1:Plant structure
T2:plant
T3:tissue
T4:guard
T5:trichoblast
图 1 某本体片段结构图
分离祖先是 DAG 图状结构特有的。一个概念具有两个分

一种改进的本体概念相似度计算算法

１本体中概念相似度的计算
１１有向边权重的计算．
在本体层次网络中影响有向边权重的因素有以下四点阁：Ｊ父结点和子结点之问有向边的类型；２父（）（）
结点和子结点构成的有向边在层次网络图中的深度；３父结点和子结点构成的有向边在层次网络图中的密（）
第２８卷第２期
２１０１年６月
苏州科技学院学报（然科学版）自
ＪｕａｏｕｈｕＵｉｒｉｆｃｅｃｎｅｈｏｏｙ（ａｕａｃｅｃ）ｏｒｌｆＳｚｏｎｖｓｙｏｉｅａｄＴｃｎｌｇＮｔｒｌｉｎｅｎｅｔＳｎＳ
度；４有向边两端概念结点的属性对有向边的权重的影响。（）
［稿Ｅ期】０００－２收ｔ２１— ５１【金项目】家自然科学基金资助项目（０９ＱＺ０）基国２０ＳＲ２５［者简介］美辉（９３）女，作兰１８～，云南宜良人，士，究方向：息检索、算机智能。硕研信计
率。
关键词：体；义亏损；本语语义距离；义相似度语
中图分类号：Ｐ９Ｔ３１文献标识码：Ａ文章编号：１７ — ６７２１）２０４ — ５６２０８（０１０ — ０５０
本体（ｎｏｏ）词源于哲学，来描述事物的本质【ｏｔｌ一用 ” 。在计算机科学领域，体被定义为共享概念模型本

改进的领域本体概念语义相似度计算方法

０引言
领域本体是本体的一种，描述特定领域（它医疗、教
１改进的领域本体概念语义相似度计算方法
本文主要基于领域本体的树状层次结构（图１所示）从如，路径距离、语义重合度、语义深度、语义密度和概念属性等几个角度来讨论概念语义相似度的计算方法，具体的计算过程中分别以路径距离因子艿语义重合度因子０、义深度因子、义、Ｉ语语
崔其文解福
（煤炭科学研究总院北京１０３０１）０（山东师范大学信息科学与工程学院山东济南２０１）５０４
摘

要
基于领域本体的树状层次结构，从路径距离、语义重合度、语义深度、义密度和概念属性几个角度讨论并优化了领域本语
ＳＭＩＩＬＡＲＩＹＮＴＩＤｏＭＡＩＯＮＴｏＬＯＧＹＮ
ＣｉｉｅＸｅＦｕｗｎＱｉｕ
（ｈｎｏｌｅｅｒｎｔｕｅＢｉｎ００３ＣｉａＣｉａＣａｓａｃＩｓｉｔ，ｅｉｇ１０１，ｈｎ）Ｒｈｔｊ
。ＳｈｏｎｏａｉｎＳｉｃｎｎｉｅｉＳａｄｎｏｍａｎｅｉ，ｉａ５０４，ｈｎｏｇＣｉ）（ｃｏｌｆＩｒｔｃｎｅａｄＥｇｎｒｇ，ｈｎｏｇＮｒｌｉｒｔＪａｎ２０１Ｓａｎ，ｈｎｏｆｍｏｅｅｎＵｖｓｙｄａ
密度因子Ａ和概念属性因子来进行刻画。下面对各因子的计
学等）中概念以及概念之间的关系。其目标是捕获相关领域的知识，提供对该领域知识的共同理解，确定该领域内共同认可的

改进概念相似度的本体迁移学习

经概念格算法生成的概念格是图状结构．所以可以把生成的概念格看做是由概念组成的图．图中每一个结点代表～个概念．一个图是有结点
结点）可以说这两个概念是关联的．．也
定义３概念的度：概念格中，一个概念在每
定义５概念细度：在概念格中，如果在某些
合Ａ、：Ａ …Ａ．本体概念集合中选取一个概Ａ、，从念集合，中选取一个概念，概念与对应的集从此合中的度相同概念进行相似度计算．果集合中如的元素很多，以根据实际情况进行抽取．文阈可本值选取方法采用文献［中方法，置不同的相７］设似阈值Ｔ＝．，．，，．经ＳＣ０００１ … １０，ＦＡ算法分析
其中［ｕＥ）为边总数，［ｕＥ］和ｓｍ（］ｓｍ（）凸
数的结点放在一个集合里．得到概念集合Ｂ、Ｂ、其中。是所有的概念的度为１的集合，以此例推．本体中，同样的操作，到概念集在做得
…
．
［ｕＥ］分别表示节点Ｃ和节点Ｃ的边．ｓｍ（）。：
集合和边集合构成的图形结构，在本文中约定，每
一
结点具有的通路．ｄｇｅ（）．记ｅｒＣｅ
定义４边的密度：
（：
（）１
个结点包含两个特征其一是对象特征０，二其

改进的基于《知网》的词汇语义相似度计算

Ａｂｓｔｒａｃｔ：ＴｈｅｐｒｅｓｅｎｔＨｏｗＮｅｔ — ｂａｓｅｄｖｏｃａｂｕｌａｒｙｓｅｍａｎｔｉｃｓｉｍｉｌａｉｒｔｙｃａｌｃｕｌａｔｉｏｎｍｅｔｈｏｄｆａｉｌｓｔｏｇｉｖｅｄｕｅａｔｔｅｎｔｉｏｎｔｏｔｈｅｌｉｎｅａｒｆｅａｔｕｒｅｏｆｃｏｎｃｅｐｔｕｌａｄｅｓｃｉｒｐｔｉｏｎｉｎｋｎｏｗｌｅｄｇｅｄａｔａｂａｓｅｍａｒｋ — ｕｐｌａｎｇｕａｇｅ．Ｔｏｒｅｓｏｌｖｅｔｈｉｓｓｈｏｒｔｃｏｍｉｎｇ，ａｎｉｍｐｒｏｖｅｄｖｏｃａｂｕｌａｒｙｓｅｍａｎｔｉｃｓｉｍｉｌａｉｒｔｙｃａｌｃｕｌａｔｉｏｎｍｅｔｈｏｄｗａｓｐｒｏｐｏｓｅｄ．Ｆｉｒｓｔｌｙ，ｆｕｌｌｙｃｏｎｓｉｄｅｒｉｎｇｔｈｅｌｉｎｅａｒｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｔｈｅ
摘
要：针对当前基于《知网》的词；ｒ－语义相似度计算方法没有充分考虑知识库描述语言对概念描述的线性特征
的情况，提出一种改进的词ｊｒ－语义相似度计算方法。首先，充分考虑概念描述式中各义原之间的线性关系，提出一种位置相关的权重分配策略；然后，将所提出的策略结合二部图最大权匹配进行概念相似度计算。实验结果表明，采用改进方法得到的聚类结果Ｆ值较对比方法平均提高了５％，从而验证了改进方法的合理性和有效性。

本体映射中概念相似度计算的改进

１本体映射方法改进
１１本文的思想．
例对概念相似度进行计算．于一个实例，用对可Ｊｃａｄ系数来计算相似度［计算公式为：ａｃｒ６１，
在本体映射中，目前最常用的计算相似度的方
法是基于语法的方法和基于概念实例的方法［然５１．
周生宝，郭俊芳
（山西大同大学数学与计算机学院，山西大同０７０）３０９
摘要：通过对目前各种本体映射方法的分析，出一种改进的本体映射的方法．提该方法考虑了概念的名称、
本体映射概念相似度
实例、属性、关系对相似度计算的影响，使概念相似度的计算更加全面、准确．
作者简介：周生宝（９９）男，１７一，山西闻喜人，硕士，助教，研究方向：超网络、复杂网络
２００８钲
周生宝等：本体映射中概念相似度计算的改进
似度计算方法进行判定．们可用Ｅｉｉａｃ我ｄｔｓｎｅ方Ｄｔ
法来比较，也可用ｈｍｍｎｉａｃ．ｕｕｉｇｄｓｎｅｈｍｍｉｇｄｓｔｎｉ－
１４基于属性计算概念相似度．
估概念的相似度，主要用到的是字符串的相似性判断方法．文采用编辑距离（ｄｔｉａｃ）本Ｅｉｓｎｅ方法来计Ｄｔ
收稿日期：０８０ — ６２０ — ３１
在本体中，每个属性也是一个概念．属性名称、属性类型本身都是字符串，因此可以采用字符串相

改进的领域本体概念相似度计算方法

第３６卷第２３期
Ｖｏ．１３６
・
计
算
机
工
程
２１００年１２月
Ｄｅｅｂｅ０１ｃｍｒ２０
ＮＯ３．２
ＣｏｐｅｍｕｔｒＥｎｇｎｅｉｉｅｒｎｇ
软件技术与数据库・
文章编号：０—３２（１） —０６—０１０４８２ｏ２ｏ６３０ｏ３
（．ｈｏｆＭａａｅｅ１Ｓｃｏｌｎｇｍｍｏ
．
，
ＨｅｅｆｉＵｎｉｒｉｙｏｃｎｌｇｖｅｓｔｆＴｅｈｏｏｙ，Ｈｅｅ３０９ｆｉ２００，Ｃｈｎｉａ
２３２Ｕｎｉ，ＰＬＡｅｔｏｉｇｎｅｉｎｔｔｔ，Ｈｅｅ３０７．０ｔＥｌｃｒｎｃＥｎｉｅｒｎｇＩｓｉｕｅｆｉ２０３，Ｃｈｎａｉ）
ｏｏｃｐｓｃｎｏｔｆｌｙｒｆｅｔｔｅｓｍｉｒｔｔｅｗｏｃｎｅｔ，ｂｃｕｅｉｏｙｃｎｉｒｈｅｐｔｔｈｈｒｅｔｉｔｎｅｆｃｎｅｔａｎｕｌｅｃｈｉｌｉｙｂｅｗｅｎｔｏｃｐｓｅａｓｔｎｌｏｓｄｅｓｔａｈｗｉｈｔｅｓｏｔｓｓａｃ．ＡｏｅｅｈｄｌａｄｎｖｌｔｏｍｆｒｃｎｅｔｓｍｉｒｔｏｐｔｔｏｓｄｏｈｉｈｔｄｓｍａｔｉｔｎｅｉｒｐｓｄＩｆｄＳｏｔａｌｐｔｅｗｅｎｔｏｃｐｓｂｔｅｏｏｃｐｉｌｉｃｍｕａｉｎｂａｅｎｔｅｗｅｇｅｅｎｉｄｓａｃｓｐｏｏｅ．ｔｉｕｌａｈｓｂｔｅｗｏｃｎｅｔｙｈａｙｃｎｐｏｏｅｅｒｈｎｒｃｄｒ，ｃｌｕａｅｏｃｐｉｌｒｔｓｎｈｉｈｅｖｒｇｉｔｎｅＯｌｐｔｓｎｔｄｅｏｒｌｏｉｅｈｒｐｓｄｓａｃｉｇｐｏｅｕｅａｃｌｔｓｃｎｅｔｓｍｉｉｙｕｉｇｔｅｗｅｇｔｄａｅａｅｄｓａｃｆａｌａｈ，ａｄｉｏｓｎｔｍｅｅｙｃｎｓｄｒｔｅａｓｏｔｓｉｔｎｅＩｄｉｉｎ，ｉａｓｏｓｄｒｈｎｕｎｃｓｏｈｏｅｄｐｈａｕｌａｅｔｉｈｐｒａｈｈｒｅｔｄｓａｃ．ｎａｄｔｏｔｌｏｃｎｉｅｓｔｅｉｆｅｅｆｔｅｎｄｅｔｎｄｐｂｉｐｒｎｎｔｅａｐｏｃ．Ｅｘｅｉｅｔｌｒｓｌｓｓｏｔａｌｃｐｒｍｎａｅｕｔｈｗｈｔ

改进的本体中概念相似度计算方法

行。相似性提取是本体映射的一个重要步骤，主要是进行概它念语义相似度的计Байду номын сангаас ，产生一个相似矩阵。
当今各个研究机构也从不同角度提出了概念语义相似度计
２改进的概念语义相似度算法
通过以上对本体和概念的分析可知，影响概念的语义相似度计算结果的因素并不单一，在本文中，将综合考虑距离的语义
第２７卷第２期
２１００年２月
计算机应用与软件
ＣｏｍｐｕｅｐｉａｉｎｎｏｗａｅｔｒＡｐｌｃｔｏｓａｄＳｆｒｔ
Ｖｏ．７Ｎｏ２１２．
Ｆｂ２１ｅ．００
改进的本体中概念相似度计算方法
ＴＥＩＰＨＭＲｏＶＥＤＣｏＭＰＵＴＡＴＩｏＮｏＦＣｏＮＣＥＰＵＡＬＩＩＴＳＭＬＡＲＩＹＮＴＩＯＮＴｏＬｏＧＹ
ＫｏｕｎＷａｇＧｕｘａＺｈｎｎｇＬｗｅｎｉｕｎａｇＨｕｉｎｍｉ
（＆ｅｔｈｉｌｎｉｅｒｇＴｃｎｌｙＤａｉｎＵｉｒｉ，ａｉｎ１６２Ｌａｎｎ，ｈｎＲＤＣｎｅｏｅＣｖｇｎｅｉｅｏｏ，ｌｎｅｓｙＤｌ１６２，ｉｏｉｇＣｉｒｆｔｉＥｎｈｇａｖｔａａ）
函数ｒ，ｅ公理集。：＝｛Ｒ，，ｌ。。ｚ）Ｏ：Ｃ，Ｈ。ｒ，｝ｅＡ
１２概．
念
概念是客观世界中任何事物的抽象描述，形式上，概念定义为一个四元组（概念的标示符，语言词汇，属性集合Ｐ，实

一种改进的多因素语义相似度计算方法

ＤＡＡｑｏｇ，ＬＵｅ — ｕＮＧＩ — ｉｎＩＷｎｈｉ
（．ｃｏｌｆｏｐｔｉｃ，ｉａｈｏｎｖｒｔ，ｉａ１０５Ｃｉ；．５９ｎｔｏＰＡ，ａｅｇ７０３Ｃｉ）１ＳｈｏｏｍｕｒｃｅｅＸ ’ｎＳｉｕＵｉｓｙＸ ’ｎ７０６，ｈｎ２９０２ＵｉＬＫｉｎ４５０，ｈａＣｅＳｎｙｅｉａｓｆｆｎ
关键词：义词典；网；义相似度；多因素语知语中图分类号：Ｐ９Ｔ３１文献标识码：Ａｄｉ１．９９ｊｉｎ１０－７．０１１．０ｏ：０３６／．ｓ．０６２５２１．００７ｓ４
ＡｎＩｐｒｖｄＭｕｌ－ａｔｒＳｅａｔｃＳｍｉａｉｙＣａｃｌｔｏｍｏｅｉｔｆｃｏｍｎｉｉｌｒｔｌｕａｎｉ
０引言
词语相似度计算在自然语言处理、能检索、本智文聚类、分类、文本自动应答、词义排歧和机器翻译等领域都有广泛的应用，它是一个基础研究课题，正在为越来越多的研究人员所关注 ¨ 。其中基于语义词典的相似度计算方法，由于存在计算简单、基础条件低、假设条件易于满足等优点，受到越来越多研究者的欢迎。
１２常用语义词典．
基于语义词典的词语相似度计算方法是一种基于语言学和人工智能的理性主义方法，它利用语义词
典，依据概念之间的上下位关系和同义关系，过计通算两个概念在树状概念层次体系中的距离来得到词语间的相似度。基于语义词典的方法建立在两个词

一种改进的概念语义相似度计算方法

系， “ ｅｅａｌ” 和 “ ｉｍｉ” 之间是ｅｅｎｏｉｉ二元ｖｇｔｂｅｖｔｎａｌｍｅｔｒｎ的ｇ
Ｂ，它们之间的语义距离为：Ｄｓ，）（ｌ）而它们之ｉＡＢｅｏ，，（，＿
一
ｌ
关系。在实际的本体中，概念之间通过各种关系连接成图状结构，而目前对语义距离的计算大多针对单一关系的树状结构，导致不能完整反映概念的语义。因此，本文引入关系类
概念之间存在着同义关系、继承关系、整体和部分关系、
２改进的相似度计算模型
针对传统相似度计算不足，本文基于以下３点进行改进：（）１引入边的权重。在不同领域的本体模型中，每个节点可能与多个节点相连通，各概念节点之间的继承关系或其他丰富的语义关系对应着本体网络中的一种有向边类型，并且各边节点所起的作用不同，意味着概念之间的语义相关程度
ｉｏｔｎａｅｔｄｄｔｃ—ａｅｅｏｄｅｕａｂｃｖｄｍｎｒｕｏｅａｔｓｔｄｓｅｓｌａｄａｄｎｒｉ — ｓｍｅｏ，ｉａｅｓｄｔｄｍｓｊｔｅｕｇｅｔｅｌｒｓｈｔｉｍｅｏａｂｌ．ｆｍａｏｂｄｈｓｎｂｍｈａｔｈｎｕｅｉｊｎｈ，ｓｔｖｔｈｉｆｉｅｖｉｐｈｎ
ＩｐｏｅｎｅｔｅａｔｉｉｒｔｍｐｔｔｏｅｈｄｍｒｖｄＣｏｃｐｍｎｉＳｍｌｉＣｏＳｃａｙｕａｉｎＭｔｏ
ＺＡＮＧＹｎｘａＺＮＧｉｇｊｎＰＮＬ－ｕＸＥＢｎｈｎ，ＨＥｉｈｏＨａ－ｉ，ＨＡＹｎ－，Ａｉ，Ｉｉ－ｏｇＣＮＬ－ａｕｈｃ

基于本体的语义相似度计算模型改进

图ｌ中，每个节点ｃ表示本体中的一个概念，，而节点间
的箭头连线表示概念问的关系。概念间的关系有多种，如等
价、继承等，这里仅体现了最常见的继承关系。研究语义相
似度计算的文献中的文献没有明确指出采用的模型，有有的文献对模型进行了简单的扩展（加概念属性）那些模添，型都是基于图１示的一般模型的。所
型．．
２１在一般模型中添加实例．
要在图１所示的模型中添
加实例．需要分析本体知识库中的概念和实例之问的关系。
考虑实例对ｉ算结果的影响。对于典型的本体知识库，知十其
识的表示结构可以用圈２来表示。度的一个量化．义相似度值的大小反应了概念之间的相似语
程度。相似度值在［，］区间Ｊ０１的。一个概念与其本身的语义相似度值为１即完全相似：．当两个概念之问没有联通路径时，即完全不相似，为０值。语义相似度值与概念问的语义距离相关，距离大则相似度小。目前语义相似度计算的方法多种多样，如基于距离的．
第２９卷
２１００年１２月
情
报
杂
志
ＪＯＵＲＮＡＬＯＦＩＥＬＩＮＣＥＮＴＬＧＥ
Ｖｏ．９１２Ｄｅ２０ｃ．Ｏｌ
基于本体的语义相似度计算模型改进

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ｉｐｌｄｉｏｏｉ，ａｒｖｄｓｍｉｒｙｃｍｐｔｔｎｍｏｅｒｐｓｄＴｉｔｏｓｄｓｂｕｔｎｒｌｔｎｏｕｅｓｐｉｓｍｅｄｍａｎｎｉｏｅａｅｎｍｐｉｌｉｏｕａｉｄｌｓｏｏｅ．ｈｓａｔｏｉｐｍｅｈｄｕｅｕｓｍｐｉａｉｓｔｃｍｐｔｏｅｏｏ
中图法分类号：Ｐ９Ｔ３１
文献标识码：Ａ
文章编号：００７２２１）５１２ —４１０ —０４（０ｏ０—１１０
Ｉｒｖｄｃｎｅｔｉｌｒｙｃｍｐｔｔｎｍｐｏｅｏｃｐｍｉｉｏｕａｉｓａｔｏ
ＨＵｅ，ＺＨＥＧｅｇＺｈＮＣｈｎ
ａｄＳｇａＰｏｅｓｇｎｉｎｌｒｃｓｎ，Ｍｉｉｒｆｄｃｔｎｎｕｎｅｉ，Ｈｆ３０９ｈｎ）ｉｎｓｏｕａｉ，ＡｈｉｉｒｔｔｙＥｏＵｖｓｙｅｅ２０３，Ｃｉａｉ
ＡｂｔａｔＯｎｏｏｙｃｎｅｐｅｓｄｆｉｌｎｏｍａｌｌｋｎｓｏｎｅｔａｄｒｌｔｏｓｅｗｅｎｔｅ，Ｓｌｙｎｉｏｔｎｌｓｒｃ：ｔｌｇａｘｒｓｅｎｔｙａｄｆｒｌａｌｉｄｆｏｃｐｓｎａｉｎｔｅｍｉｅｙｃｅｂｈＯｉｐａｓａｔｍｐｒｔｏｅａｒ
算模型。利用上下位关系计算相似度，非上下位关系计算相关度，二者合成，同时考虑语义检索领域中，似度计算的将并相
不对称性经过实验验证了该方法有效且精确。关键词：体；语义距离；概念相似度；语义相似度；基于图本
ｉｔｅｃａａｔｒｅｉｌｒｏｕａｉｎｉａｐｉｄｉｅｎｉｅｒｅａ．Ｉｒｖｄｔａｉｐｒａｈｉｆｅｔｅａｄｐｅｉｅｓｈｈｒｃｅｎｓｍｉｉｃｍｐｔｔｏｓｐｌｓｍａｔｒｔｖ１ｔｓｏｅｔｈｓａｐｏｃｅｆｃｉｎｒｃｓ．ｗｈａｔｙｅｎｃｉｉｐｈｔｓｖＫｅｒｓｏｔｌｇ；ｓｍａｔｉａｃ；ｃｎｅｔｉｌｒｙｓｍａｔｃｓｍｉｉ；ｇａｈｂｓｄｙｗｏｄ：ｎｏｏｙｅｎｉｄｓｎｅｏｃｐｍｉｉ；ｅｎｉｉｌｔｃｔｓａｔｒａｙｒｐ－ａｅ
２．安徽大学教育部信号处理和智能计算重点实验室，安徽合肥２０３）３０９
摘要：相似度计算中，在本体能够将各种概念及相互关系明确地、形式化地表达，因而发挥着重要的作用。为了使相似度
计算结果更为精确，考虑更全面的利用本体中的关系，和相似度计算在特定领域中应用的特点，提出一个改进的相似度计
ｓｍｉｒｙａｄｎｎｓｂｕｔｎｒｌｔｏｓｏｌｖｎｅＴｅｏｏｎｅｅａｄｃｎｉｅｅｅａｙｉｌｉ，ｎｏ —ｕｓｍｐｉａｉｎｒｅｅａｃ．ｈｎｉｃｍｐｕｄｄｔｍｎｏｓｄｒｄｔｓｍｍｅｒｍｕｔｎｏｓｙｗｈｃａｔｏｅｆｒｔｈｈｔｓｌｅｕｌｉｈｙｉａ
０引言
概念语义相似度计算在语义检索、据挖掘、器翻译等数机领域有着广泛的应用，为当今信息技术研究的一个热点。成
一
概念的集合、系的集合、念间的分类关系、念问的非分关概概类关系和本体公理。其中，体中概念之间的关系对相似度本计算非常重要，们主要分为以下１种：下位关系、同它２上等
ｉｉｉｒｙｃｍｐｔｔｎＴｒｖｅｅｕｔａｄｍａｅｓｆｈｌｔｎｎｏｏｙａｄｔｅｃａａｔｒｅｉｌｉｏｕａｉｎｎｓｒｌｉｏｕａｉ．ｏｉｏｅｔｓｌｎｋｅｏｔｅｒａｉｓｎｏｔｌｇｈｒｃｅｓｎａｔｏｍｐｈｒｓｕｅｏｉｎｈｗｈｎｓｍｉｔｃｍｐｔｔｏｒａｙ
计算机工程与设计ＣｍｕｒｎｉｅｎｄｅｇｏｐｔＥｇｅｒｇｎＤｓｎｅｎｉａ１１
・开发与应用・
改进的概念语义相似度计算
胡哲郑诚，
（．安徽农业大学理学院，安徽合肥２０３；１３０６
（．ｃｏｌｆｃｎｅ，ｈｉｇｉｌｒｌｎｖｒｉ，ｆｉ３０６ｈｎ；２Ｋｙａｏａｒｆｎｅｉｎｏｐｔｇ１ＳｈｏｏＳｉｃｓＡｎｕＡｒｕｔａＵｉｅｓｙＨｅｅ２０３，Ｃｉｅｃｕｔａ．ｅｂｒｏｙＩｔｌｅｔｍｕｉＬｔｏｌｇＣｎ