基于本体和相似图的概念语义相似度计算
- 格式:pdf
- 大小:393.17 KB
- 文档页数:5
王栋,吴军华:可以自动更新的本体概念语义相似度计算2009,30(19)44190引言词语相似度计算在自然语言处理、智能检索、文档聚类、文档分类等很多领域起很重要的基础作用。
概念之间的语义相似度计算是自然语言处理研究的一个重要组成部分,也是人工智能应用中亟待解决的问题[1]。
本体之间的语义相似度应该随着时间的变化和知识的更新而变化。
比如,现在大部分人在网上搜索“苹果”这个词的时候,根本不是想着“苹果是一种水果”,而是作为“计算机”、“手机”之类的电子产品。
最近“Google ”出了一款手机,那么“Google ”和“手机”就应该联系在一起,而它们之前没什么联系。
本文提出了一种自动实时更新的本体概念之间语义相似度计算方法,利用知网的结构严谨和搜索引擎来提高算法的性能,并进行了实验比较。
1相关理论1.1本体本体(Ontology )已经成为语义Web 、知识工程、数据集成、人工智能、信息检索等研究领域的热门课题。
本体原来被哲学家用来描述事务的本质。
1993年,Tom Gruber 提出本体的一个公认的定义,即“本体是概念模型的明确的规范说明”,Gruber 还提出了构造本体的5条准则。
后来,Brost 在其基础上稍作修改,提出更明确定义:“本体是共享概念模型的形式化规范说明”。
Studer 等人在此进行了深入的研究后,认为本体是共享概念模型的明确的形式化规范说明。
这包含了4层含义:概念化、明确化、形式化和共享。
很多研究人员从实践出发,提出了不少有益于构造本体的标准用来指导人们构造本体,其中最有影响力的是Gruber 在1995年提出的构造本体的5条准则:清晰性、完全性、一致性、最大单调可扩展性、最小承诺和最小编码偏好。
5条准则给出了构造本体的基本思路,但不足之处是非常模糊和难以掌握。
后来,不少研究人员给出补充,其中最著名的是Arpirez 提出的3个规则:概念名称命名标准化、概念层次多样化、和语义距离最小化。
语义相似度的计算方法研究信息与计算科学余牛指导教师:冉延平摘要语义相似度计算在信息检索、信息抽取、文本分类、词义排歧、基于实例的机器翻译等很多领域中都有广泛的应用.特别是近几十年来随着Internet技术的高速发展,语义相似度计算成为自然语言处理和信息检索研究的重要组成部分.本文介绍了几种典型的语义相似度的计算方法,总结了语义相似度计算的两类策略,其中重点介绍了一种基于树状结构中语义词典Hownet的语义相似度计算方法,最后对两类主要策略进行了简单的比较.关键词语义相似度;语义距离;知网;语料库The Reseach of Computing Methods about Semantic SimilarityYU Niu(Department of Mathematics and Statistics,Tianshui Normal University , 741000) Abstract Semantic similarity is broadly used in many applications such as information retrieval, information extraction, text classification, word sense disambiguation, example-based machine translation and so on.Especially with the rapid development of Internet technology in recent decades, Calculation of semantic similarity has always been an important part of natural language processing and information retrieval research .This paper introduces several main methods of calculating semantic similarity , then two strategies of semantic similarity measurement are summarized, and we focuse on the Hownet based on the stucture of tree and use them to calculate the semantic similarity ,and finally the two strategies are easily compared .Key words Semantic similarity, Semantic distance,Hownet, Corpus1引言语义相似度计算研究的是用什么样的方法来计算或比较两个词语的相似性.自然语言的词语之间有着非常复杂的关系,在实际应用中,有时需要把这种复杂的关系用一种简单的数量来度量,而语义相似度就是其中的一种.词语的语义相似度计算主要有两种方法:一类是通过语义词典,把有关词语的概念组织在一个树形的结构中来计算;另一类主要是通过词语上下文的信息(本文只介绍了主要的理论方法),运用统计的方法进行求解.对于前一类基于树状层次结构的计算语义相似度方法的研究已经比较成熟,国外的Dekang Lin ]1[, Rudi L .Cilibrasi ]2[等都给出了自己的比较合理的语义相似度计算公式和方法;国内这方面起步较晚,但发展很快,董振东]3[,刘群,李素建]4[等在这方面的研究做了很多开创性的工作,李峰]5[,杨哲]6[,李熙]7[,夏天]8[等后来者做了很多补充性和改进性的工作. 针对以上研究现状,笔者对当前的语义相似度研究成果进行了简单的归纳和总结,然后对相关方法进行了简单比较,并提出了研究的应用方向,以供相关研究人员参考和应用. 2语义相似度什么是语义相似度?语义相似度是一个主观性相当强的概念,没有明确的客观标准可以衡量.脱离具体的应用去谈论语义相似度,很难得到一个统一的定义.由于词语在语言结构中的一般性,我们着重研究词语的相似度,进而推广到句子,以致整个文本的相似度. Dekang Lin ]1[认为任何两个词语的相似度取决于它们的共性(Commonality )和个性(Differentces ),然后从信息论的角度给出了定义公式: )),((log )),((log ),(B A n descriptio p B A Common p B A Sim (1) 其中,分子表示描述B A ,共性所需要的信息量;分母表示完整地描述B A ,所需要的信息量. 刘群,李素建]4[以基于实例的机器翻译为背景,认为语义相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度.两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低.对于两个词语 21W W 、,如果我们记其相似度为 ),(21W W Sim ,其词语距离为),(21W W Dis ,根据刘群,李素建]4[的公式: ),(),(2121W W Dis W W Sim +=αα(2)其中α是一个可调节的参数.α的含义是:当相似度为 0.5 时的词语距离值.笔者尝试从树论的角度给出一个定义,假设任意两个词语21W W 、可以表示为一个树形结构中(如同义词词典Wordnet 即为这种树形结构)的两个结点,由于语义距离(),(21W W Dis )与语义相似度(),(21W W Sim )成反比例关系。
一种本体概念的语义相似度计算方法李文清;孙新;张常有;冯烨【期刊名称】《自动化学报》【年(卷),期】2012(038)002【摘要】概念语义相似度已广泛应用于Web服务发现、本体映射等领域,但现有的概念语义相似度计算方法对概念间语义相似程度的区分不够细致.本文从本体结构出发,首先提出了自底向上的本体概念出现概率计算方法,并在此基础上改进了基于节点信息量的概念语义相似性度量方法;然后又设计了基于边计算的本体概念语义相似度计算方法;最后对上述两种方法线性加权,提出了一种加权的本体概念语义相似度计算方法.实验结果表明该方法能进一步正确区分本体中父子概念及兄弟概念间的相似程度.%Concept semantic similarity is wildly used in web service matchmaking, ontology mapping and so on. But the existing concepts semantic similarity measuring methods cannot distinguish the similarities further. So in this paper, we firstly propose a bottom-up concept probability computation method based on ontology structure, and based on this probability, we improve an information content based semantic similarity method. Then, we design an edge based concept semantic similarity method. Finally, we linearly combine the two previous semantic similarity methods to form a weighted one. Result shows that the weighted one can distinguish similarity between concept and its children, or between siblings.【总页数】7页(P229-235)【作者】李文清;孙新;张常有;冯烨【作者单位】北京理工大学计算机学院北京 100081;北京理工大学计算机学院北京 100081;北京理工大学计算机学院北京 100081;石家庄铁道大学信息科学技术学院石家庄 050043;北京控制工程研究所北京 100190【正文语种】中文【相关文献】1.一种改进的本体概念语义相似度计算方法 [J], 吴星同;翁燕;朱婷;陈中育2.一种改进的本体概念语义相似度计算方法 [J], 吴星同;翁燕;朱婷;陈中育3.一种综合加权的本体概念语义相似度计算方法 [J], 甘明鑫;窦雪;王道平;江瑞4.一种新的本体的概念语义相似度计算方法 [J], 孙铁利;邢元元;关煜;陈斯娅;杨凤芹;孙红光;5.一种新的本体的概念语义相似度计算方法 [J], 孙铁利;邢元元;关煜;陈斯娅;杨凤芹;孙红光因版权原因,仅展示原文概要,查看原文内容请购买。
词语相似度计算方法分析崔韬世麦范金桂林理工大学广西 541004摘要:词语相似度计算是自然语言处理、智能检索、文档聚类、文档分类、自动应答、词义排歧和机器翻译等很多领域的基础研究课题。
词语相似度计算在理论研究和实际应用中具有重要意义。
本文对词语相似度进行总结,分别阐述了基于大规模语料库的词语相似度计算方法和基于本体的词语相似度计算方法,重点对后者进行详细分析。
最后对两类方法进行简单对比,指出各自优缺点。
关键词:词语相似度;语料库;本体0 引言词语相似度计算研究的是用什么样的方法来计算或比较两个词语的相似性。
词语相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有广泛的应用,它是一个基础研究课题,正在为越来越多的研究人员所关注。
笔者对词语相似度计算的应用背景、研究成果进行了归纳和总结,包括每种策略的基本思想、依赖的工具和主要的方法等,以供自然语言处理、智能检索、文本聚类、文本分类、数据挖掘、信息提取、自动应答、词义排歧和机器翻译等领域的研究人员参考和应用。
词语相似度计算的应用主要有以下几点:(1) 在基于实例的机器翻译中,词语相似度主要用于衡量文本中词语的可替换程度。
(2) 在信息检索中,相似度更多的是反映文本与用户查询在意义上的符合程度。
(3) 在多文档文摘系统中,相似度可以反映出局部主题信息的拟合程度。
(4) 在自动应答系统领域,相似度的计算主要体现在计算用户问句和领域文本内容的相似度上。
(5) 在文本分类研究中,相似度可以反映文本与给定的分类体系中某类别的相关程度。
(6) 相似度计算是文本聚类的基础,通过相似度计算,把文档集合按照文档间的相似度大小分成更小的文本簇。
1 基于语料库的词语相似度计算方法基于统计方法计算词语相似度通常是利用词语的相关性来计算词语的相似度。
其理论假设凡是语义相近的词,它们的上下文也应该相似。
因此统计的方法对于两个词的相似度算建立在计算它们的相关词向量相似度基础上。
自然语言处理(NLP)是人工智能领域中一项重要的技术,其目的是帮助计算机理解和处理人类语言。
在NLP中,语义相似度计算是一个重要的问题,因为它能够帮助计算机更好地理解语言,从而更准确地进行自然语言处理。
一、词嵌入模型词嵌入模型是一种常见的语义相似度计算方法,它通过将词语映射到一个高维实数向量空间中,使得语义相似的词语在向量空间中的距离更近。
其中最著名的词嵌入模型是Word2Vec和GloVe。
Word2Vec通过神经网络模型学习词语的分布式表示,而GloVe则使用了全局词语共现矩阵来学习词嵌入。
这些词嵌入模型可以用来计算两个词语之间的语义相似度,例如通过计算它们在词嵌入向量空间中的余弦相似度。
二、基于知识图谱的语义相似度计算知识图谱是一种结构化的知识表示方法,它将实体和概念之间的关系以图的形式表示出来。
在NLP中,可以利用知识图谱来计算语义相似度。
一种常见的方法是使用实体之间的关系路径来计算它们之间的语义相似度,例如通过计算两个实体在知识图谱中的最短路径的长度。
另外,还可以利用知识图谱中实体之间的关系来计算它们之间的语义相似度,例如通过计算它们在知识图谱中的共同邻居数。
三、基于神经网络的语义相似度计算近年来,随着深度学习技术的发展,基于神经网络的语义相似度计算方法也得到了广泛应用。
其中有一种常见的方法是使用Siamese神经网络来计算两个句子之间的语义相似度。
Siamese神经网络可以通过学习将两个句子映射到同一个向量空间中,然后计算它们之间的相似度。
此外,还可以使用注意力机制来计算两个句子之间的语义相似度,例如通过计算它们在注意力机制中的权重。
四、基于词语对齐的语义相似度计算在跨语言NLP中,词语对齐是一个重要的问题,它可以帮助计算机识别不同语言中的相似词语。
一种常见的方法是使用双语词嵌入模型来进行词语对齐,然后计算词语在两种语言中的相似度。
此外,还可以使用基于翻译模型的方法来计算跨语言词语之间的语义相似度,例如通过计算它们在翻译模型中的对齐概率。