浅议语义相似度计算
- 格式:docx
- 大小:14.49 KB
- 文档页数:6
nlp 语义相似度计算
在NLP领域,语义相似度的计算一直是个难题,常见的计算方法有以下几种:
- 余弦相似度:通过测量两个向量的夹角的余弦值来度量它们之间的相似性。
- 欧氏距离:考虑的是点的空间距离,各对应元素做差取平方求和后开方。
- 曼哈顿距离:向量各坐标的绝对值做差后求和。
- 明可夫斯基距离:是欧氏距离的推广,是对多个距离度量公式的概括性的表述。
- Jaccard 相似系数:主要用于计算符号度量或布尔值度量的向量的相似性。
在实际应用中,需要根据具体的场景和需求选择合适的计算方法。
若你还有关于NLP 语义相似度计算的疑问,可以继续向我提问。
导语在NLP领域,语义相似度的计算一直是个难题:搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。
本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM 等深度学习模型在计算语义相似度上的应用,希望给读者带来帮助。
0. 提纲1. 背景2. DSSM3. CNN-DSSM4. LSTM-DSSM5. 后记6. 引用1. 背景以搜索引擎和搜索广告为例,最重要的也最难解决的问题是语义相似度,这里主要体现在两个方面:召回和排序。
在召回时,传统的文本相似性如BM25,无法有效发现语义类query-Doc 结果对,如"从北京到上海的机票"与"携程网"的相似性、"快递软件"与"菜鸟裹裹"的相似性。
在排序时,一些细微的语言变化往往带来巨大的语义变化,如"小宝宝生病怎么办"和"狗宝宝生病怎么办"、"深度学习"和"学习深度"。
DSSM(Deep Structured Semantic Models)为计算语义相似度提供了一种思路。
本文的最后,笔者结合自身业务,对DSSM 的使用场景做了一些总结,不是所有的业务都适合用DSSM。
2. DSSMDSSM [1](Deep Structured Semantic Models)的原理很简单,通过搜索引擎里Query 和Title 的海量的点击曝光日志,用DNN 把Query 和Title 表达为低纬语义向量,并通过cosine 距离来计算两个语义向量的距离,最终训练出语义相似度模型。
该模型既可以用来预测两个句子的语义相似度,又可以获得某句子的低纬语义向量表达。
DSSM 从下往上可以分为三层结构:输入层、表示层、匹配层2.1 输入层输入层做的事情是把句子映射到一个向量空间里并输入到DNN 中,这里英文和中文的处理方式有很大的不同。
语义相似度计算目前,语义相似度计算已经成为了自然语言处理领域中的一个研究热点,各种模型和算法不断涌现。
在本文中,我们将对语义相似度计算的基本概念和常用方法进行介绍,并且讨论一些当前研究中的热点问题和挑战。
## 语义相似度的定义和挑战语义相似度衡量的是两个句子或短语之间的语义相似程度。
在计算语义相似度时,我们通常会考虑到两个句子或短语之间的含义、单词的语义以及语法结构等因素。
然而,要准确地计算出两个句子之间的语义相似度并不是一件容易的事情,因为自然语言的含义通常是多样化、模糊不清的,而且受到语言表达方式的限制。
在计算语义相似度时,我们需要克服一些挑战和困难。
首先,要考虑到句子或短语之间的多样性。
同一句话可以有多种表达方式,而这些表达方式的语义可能是相似的,但又不尽相同。
其次,要考虑到语言的歧义性。
自然语言中存在着很多的歧义现象,一个词汇可以有多种不同的含义,这就增加了语义相似度计算的难度。
此外,要考虑到语言的多义性。
一个句子中的一些词汇可能具有多个含义,这就增加了语义相似度计算的复杂性。
## 语义相似度计算的常用方法为了克服这些挑战和困难,研究人员提出了许多语义相似度计算的方法和模型。
这些方法和模型大致可以分为基于知识的方法和基于数据的方法两种。
基于知识的方法通常利用词汇语义资源(如WordNet)来计算语义相似度。
其中,常用的算法包括基于路径的方法、基于信息内容的方法和基于语义子空间的方法等。
基于路径的方法通过计算两个词之间在WordNet中的最短路径来计算它们的语义相似度。
基于信息内容的方法则是利用词汇在语料库中的分布信息来计算它们的语义相似度。
而基于语义子空间的方法则是利用词汇在一个高维语义空间中的向量表示来计算它们的语义相似度。
这些方法在一定程度上可以解决语义相似度计算中的多样性、歧义性和多义性问题。
另一方面,基于数据的方法则是利用机器学习和深度学习技术来计算语义相似度。
其中,常用的方法包括基于词向量的方法、基于神经网络的方法和基于迁移学习的方法等。
基于语义网络的语义相似度计算技术研究第一章引言语义相似度计算是自然语言处理领域中的重要研究方向之一。
在文本分类、信息检索、机器翻译等应用中,语义相似度计算技术都扮演着重要的角色。
本文将介绍一种基于语义网络的语义相似度计算技术,并对其进行研究和探讨。
第二章相关技术介绍2.1 语义网络语义网络是一种描述概念间关系的图形模型。
在语义网络中,由节点和边组成,节点表示概念,边表示概念间的关系。
语义网络是一种通用的表示模型,在自然语言处理、人工智能、语义Web等领域得到广泛应用。
2.2 语义相似度计算语义相似度计算是指衡量两个文本或概念之间的语义接近程度。
其基本思想是:利用自然语言处理技术对文本或概念进行分析,然后根据不同的算法模型计算出它们之间的相似度。
2.3 基于语义网络的语义相似度计算基于语义网络的语义相似度计算是一种新兴的计算方法。
它将语义网络中节点之间的距离作为相似度的度量指标,通过计算节点之间的距离来反映它们之间的语义接近程度。
该方法不仅具有高效性和准确性,而且还能够避免传统方法中存在的难以处理语义歧义等问题。
第三章基于语义网络的语义相似度计算技术3.1 语义网络构建在构建语义网络时,需要根据具体任务选择不同的语义关系类型。
例如,在文本分类任务中,常用的语义关系包括同义词、上下位词等。
3.2 语义网络扩展在实际应用中,由于网络中可能存在未知的节点和边,因此需要对语义网络进行扩展。
常用的方法包括:基于语料库的语义扩展、基于知识库的语义扩展等。
3.3 语义相似度计算在计算语义相似度时,需要对语义网络中的节点进行矩阵化处理,然后采用不同的算法进行计算。
常用的算法包括:路径距离算法、基于PageRank的算法、基于熵权法的算法等。
第四章实验与评估为了验证该方法的有效性,需要进行实验与评估。
在实验中,需要选择合适的语料库、语义关系类型和算法,并分别计算不同文本或概念对之间的相似度。
在评估中,需要采用标准评价指标如Pearson相关系数、Spearman等来评估方法的准确性和效率。
语义相似度计算语义相似度计算是自然语言处理领域的一个重要任务,它旨在衡量两个词语、短语或句子之间的语义相似程度。
在实际应用中,语义相似度计算可以帮助机器理解语言,从而实现诸如信息检索、问答系统、机器翻译等任务。
现在我们将介绍几种常用的语义相似度计算方法:1. 基于词向量的方法:词向量是将词语映射到一个高维实数向量空间的表示方法。
在这种方法中,可以使用预训练的词向量模型(如Word2Vec、GloVe、FastText等)将词语表示为向量,然后通过计算两个词向量之间的相似度(如余弦相似度、欧氏距离、曼哈顿距离等)来衡量它们之间的语义相似度。
2. 基于词汇语义资源的方法:除了词向量外,还可以利用词汇语义资源(如WordNet、PPDB等)来计算语义相似度。
这些资源中包含了词语之间的语义关系(如同义词、上下义词、反义词等),可以通过这些关系计算词语的语义相似度。
3. 基于深度学习的方法:深度学习模型(如Siamese神经网络、BERT、ELMO 等)在语义相似度计算任务中也取得了很好的效果。
这些模型可以学习词语、短语或句子的语义表示,然后通过模型的输出来计算它们之间的语义相似度。
4. 基于语义图的方法:语义图是一种将词语表示为节点、语义关系表示为边的图结构。
在语义相似度计算中,可以利用语义图中的节点和边来计算词语之间的语义相似度。
这种方法可以很好地捕捉词语之间的语义关系,从而提高语义相似度计算的准确性。
总的来说,语义相似度计算是一个复杂而重要的任务,在实际应用中需要综合考虑不同的方法和技术。
通过不断的研究和实践,我们可以提高语义相似度计算的准确性和效率,从而更好地帮助机器理解语言,实现更多的自然语言处理任务。
希望以上介绍能够对语义相似度计算有所帮助。
语义相似度的计算方法研究信息与计算科学余牛指导教师:冉延平摘要语义相似度计算在信息检索、信息抽取、文本分类、词义排歧、基于实例的机器翻译等很多领域中都有广泛的应用.特别是近几十年来随着Internet技术的高速发展,语义相似度计算成为自然语言处理和信息检索研究的重要组成部分.本文介绍了几种典型的语义相似度的计算方法,总结了语义相似度计算的两类策略,其中重点介绍了一种基于树状结构中语义词典Hownet的语义相似度计算方法,最后对两类主要策略进行了简单的比较.关键词语义相似度;语义距离;知网;语料库The Reseach of Computing Methods about Semantic SimilarityYU Niu(Department of Mathematics and Statistics,Tianshui Normal University , 741000) Abstract Semantic similarity is broadly used in many applications such as information retrieval, information extraction, text classification, word sense disambiguation, example-based machine translation and so on.Especially with the rapid development of Internet technology in recent decades, Calculation of semantic similarity has always been an important part of natural language processing and information retrieval research .This paper introduces several main methods of calculating semantic similarity , then two strategies of semantic similarity measurement are summarized, and we focuse on the Hownet based on the stucture of tree and use them to calculate the semantic similarity ,and finally the two strategies are easily compared .Key words Semantic similarity, Semantic distance,Hownet, Corpus1引言语义相似度计算研究的是用什么样的方法来计算或比较两个词语的相似性.自然语言的词语之间有着非常复杂的关系,在实际应用中,有时需要把这种复杂的关系用一种简单的数量来度量,而语义相似度就是其中的一种.词语的语义相似度计算主要有两种方法:一类是通过语义词典,把有关词语的概念组织在一个树形的结构中来计算;另一类主要是通过词语上下文的信息(本文只介绍了主要的理论方法),运用统计的方法进行求解.对于前一类基于树状层次结构的计算语义相似度方法的研究已经比较成熟,国外的Dekang Lin ]1[, Rudi L .Cilibrasi ]2[等都给出了自己的比较合理的语义相似度计算公式和方法;国内这方面起步较晚,但发展很快,董振东]3[,刘群,李素建]4[等在这方面的研究做了很多开创性的工作,李峰]5[,杨哲]6[,李熙]7[,夏天]8[等后来者做了很多补充性和改进性的工作. 针对以上研究现状,笔者对当前的语义相似度研究成果进行了简单的归纳和总结,然后对相关方法进行了简单比较,并提出了研究的应用方向,以供相关研究人员参考和应用. 2语义相似度什么是语义相似度?语义相似度是一个主观性相当强的概念,没有明确的客观标准可以衡量.脱离具体的应用去谈论语义相似度,很难得到一个统一的定义.由于词语在语言结构中的一般性,我们着重研究词语的相似度,进而推广到句子,以致整个文本的相似度. Dekang Lin ]1[认为任何两个词语的相似度取决于它们的共性(Commonality )和个性(Differentces ),然后从信息论的角度给出了定义公式: )),((log )),((log ),(B A n descriptio p B A Common p B A Sim (1) 其中,分子表示描述B A ,共性所需要的信息量;分母表示完整地描述B A ,所需要的信息量. 刘群,李素建]4[以基于实例的机器翻译为背景,认为语义相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度.两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低.对于两个词语 21W W 、,如果我们记其相似度为 ),(21W W Sim ,其词语距离为),(21W W Dis ,根据刘群,李素建]4[的公式: ),(),(2121W W Dis W W Sim +=αα(2)其中α是一个可调节的参数.α的含义是:当相似度为 0.5 时的词语距离值.笔者尝试从树论的角度给出一个定义,假设任意两个词语21W W 、可以表示为一个树形结构中(如同义词词典Wordnet 即为这种树形结构)的两个结点,由于语义距离(),(21W W Dis )与语义相似度(),(21W W Sim )成反比例关系。
汉语词语相似度计算方法分析【摘要】词语相似度计算在自动问答、智能检索、文本聚类、机器翻译等领域,词语相似度计算等领域有着广泛的应用,本文对词语相似度计算方法进行了介绍,并侧重介绍了基于《知网》的词语相似度计算方法。
最后对常用的两类计算方法进行了对比。
【关键词】词语相似度计算;知网1.什么是词语相似度汉语最基本的语义和语法单位就是词语,词语相似度计算用来研究用什么样的方法来计算或比较两个词语的相似性。
本文认为,词语相似度就是词语在语义上的匹配程度,取值范围为[0,1]。
词语相似度的值越大,说明两个词语的语义越相近;反之,则说明两个词语的语义差别越大。
特殊的,当值为1时,表明两个词语的语义完全相同;当值为0时,表明两个词语的语义完全不同。
2.词语相似度计算方法词语相似度计算方法大体上可以分为以下两类:2.1基于语料库统计的方法这种方法综合体现了词语在句法、语义还有语用等方面的异同。
该方法属于基于统计的定量分析方法,其应用前提是:两个词语语义相似,当且仅当它们处于相似的上下文环境中。
思想是统计大规模的语料,利用词汇上下文信息的概率分布进行词语之间的语义相似度的计算。
该方法能够相对精确、有效的度量词语的语义相似度。
比如计算词语相似度也可以利用词语的相关性来进行。
方法是事先选择一组特征词,接着计算这一组特征词与每一个词语的相关性,一般基于大规模语料选择这组词在某个词语的上下文中出现的频率作为度量词语相似度的相关数据,对于每一个词都可以得到一个特征词向量。
两个词的相似度就可以通过这些向量之间的相似度来衡量。
而向量之间的相似度,一般通过计算向量之间的夹角余弦值得出。
2.2基于某种世界知识(ontology)的计算方法该方法一般利用语义词典来进行词语相似度计算。
基于语义词典的词语相似度计算方法,以语言学和人工智能两方面为基础。
它基于语义词典,根据概念之间的上下位关系、同义关系进行计算。
这种方法建立在这样的前提下:当且仅当两个词语在概念间的结构层次网络图中存在一条通路(上下位关系)时,这两个词语具有语义相关性。
语义相似度矩阵计算
语义相似度矩阵计算是自然语言处理领域一个重要的任务,在文
本相似度比较、语义查询、推荐系统等方面具有重要意义。
语义相似度矩阵计算的过程中,需要对文本进行语义分析,将文
本中的词语进行向量化表示,以便计算它们之间的相似度。
常见的向
量化方法有词袋模型、word2vec、fastText等,每种方法都有其优劣
之处。
在计算语义相似度矩阵的过程中,需要注意词语之间的关系,比
如近义词、反义词、上下位词等,这些关系可能会对相似度计算产生
影响。
此外,语义相似度矩阵计算还需要考虑到语言的多义性,同一个
词语可能在不同的语境下具有不同的含义,这也需要在计算相似度时
进行处理。
语义相似度矩阵计算在实际应用中有着广泛的应用,如在推荐系
统中,可以将用户的历史行为进行相似度计算,从而为用户推荐个性
化的商品或服务,提高用户的购物体验;在搜索引擎中,可以根据用
户的查询意图,计算文本与查询的相似度,从而提高搜索结果的准确
度和质量。
总之,语义相似度矩阵计算是自然语言处理领域的一个重要任务,它的发展和应用将在各个领域产生广泛的影响。
文本语义相似度计算背景在自然语言处理领域中,文本语义相似度计算是非常重要的一个问题。
随着智能化技术的广泛应用,相似度计算的准确性和效率对于许多应用程序的性能提高具有决定性的影响。
例如,搜索引擎中的相关性排序、在线广告的推荐、信息检索中的同义词转换和机器翻译等。
文本语义相似度计算要求在句子、短语或段落级别上度量两个文本之间的相似程度。
其目标是将文本表示为一组数字,以便更容易地进行相似性比较。
这可以通过词向量化来实现,即将每个词表示为向量,然后结合这些向量以形成整个文本表示。
常见的文本相似度计算方法1. 余弦相似度余弦相似度是最常见的文本相似度计算方法之一。
它度量两个非零向量之间的夹角余弦值。
在文本语义相似度计算中,余弦相似度的输出通常在0到1之间。
0表示两个文本完全不相关,而1表示两个文本具有完全相同的意义。
2. Jaccard相似度Jaccard相似度是另一个常用的文本相似度计算方法。
它度量两个集合之间的相似程度。
在文本相似性方面,可以将每个文本转换为它所包含的词的集合。
然后,Jaccard相似度度量这些词集之间的相似程度。
3. 欧几里得距离欧几里得距离也称为欧氏距离,被认为是最基本和最常见的距离度量方法之一。
在文本语义相似度计算中,欧几里得距离是计算两个文本向量之间的距离。
根据欧几里德距离的计算方式,距离越短表示两个文本越相似。
基于深度学习的文本相似度计算方法与传统的计算方法相比,基于深度学习的文本相似度计算方法可以更好地捕捉语义信息。
深度学习的一大优势是它可以使用大量的数据进行训练,从而提高模型的准确性。
1. 卷积神经网络卷积神经网络(CNN)是一种优秀的文本相似度计算方法。
CNN从输入的文本中提取特征,以帮助选择最接近的语义表示。
在文本相似性方面,卷积神经网络最常用的做法是首先将每个字符或单词都与具有固定权值的过滤器进行卷积操作,然后将结果传递到池化层进行抽样。
2. 循环神经网络循环神经网络(RNN)是一种擅长处理序列数据的神经网络。
“深度学习”计算词和句子的语义相似度及应用1. 引言1.1 研究背景深度学习技术的快速发展在近年来在人工智能领域引起了巨大的关注。
深度学习是一种基于人工神经网络的机器学习方法,其在图像识别、语音识别、自然语言处理等领域取得了显著的成果。
语义相似度计算作为自然语言处理中的重要任务之一,在信息检索、机器翻译、问答系统等方面具有广泛的应用。
对于计算机而言,准确地理解词语和句子之间的语义关系是至关重要的。
传统的基于统计方法的语义相似度计算往往面临着维度灾难和数据稀疏的问题,难以准确表达词语和句子的语义信息。
而深度学习技术通过构建深层次的神经网络模型,可以学习到更加抽象和高级的特征表示,从而在语义相似度计算中取得了显著的进展。
深度学习在计算词语和句子的语义相似度方面具有重要的理论和实践意义。
本文将探讨深度学习在语义相似度计算中的方法和应用,并展望未来的研究方向。
1.2 研究目的研究目的主要是探究深度学习在计算词和句子的语义相似度中的应用,从而提高自然语言处理领域的效率和质量。
通过深入研究深度学习技术,我们可以更好地理解词和句子之间的语义关系,从而实现准确的语义相似度计算。
我们还将探讨深度学习在其他领域的应用,探索其在图像识别、音频处理和推荐系统等方面的潜在价值。
通过本研究,我们希望能够为深度学习在自然语言处理和其他领域的应用提供新的思路和方法,促进相关技术的进一步发展和应用。
2. 正文2.1 深度学习技术概述深度学习是一种基于人工神经网络的机器学习方法,旨在模拟人类大脑的工作方式来实现复杂的模式识别任务。
其核心思想是通过多层次的神经网络结构,从数据中学习高阶抽象特征表示,以提高模型的性能和泛化能力。
深度学习技术包括卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)等多种网络结构,每种结构都有其适用的领域和优势。
CNN主要用于图像处理领域,RNN和LSTM则擅长处理时序数据和自然语言处理任务。
浅议语义相似度计算
摘要语义相似度研究的是两个词语的相似性,被广
泛应用于信息检索、信息提取、文本词义消歧、机器翻译等领域中。
本文介绍几种主要的语义相似度计算方法,以供大
一^,
家参考。
关键词语义相似度词义相似度语义距离
、引言
自然语言的词语之间关系比较复杂,我们又时常要把这
种复杂关系进行比较,所以要将其转化为简单的数量关系,再进行比较。
语音相似度计算正是这样的方法。
词语的语义相似度计算有3 种方法:基于知识体系的方
法、基于语料库的方法、基于网络的方法。
基于知识体系的方法,大多以WordNet 作为基础。
WordNet 是语义字典,它根据词条的意义将词语分组,每一个具有相同意义的字条组称为一个synset (同义词集合)。
WordNet为每一个synset提
供了简短,概要的定义,并记录不同synset之间的语义关系。
它用概念之间的语义关系形成符合常识和语法的语义关系图。
基于信息量的方法主要是通过词语上下文的信息,用统计的方法求解。
基于网络的方法,主要是利用搜索引擎的搜索结果进行计算。
二、语义相似度概念
信息论中任何两个词语的相似度取决于它们的共性
Commonality )和个性( Differences )。
公式如下:
其中,分子表示描述A,B 共性所需要的信息量;分母表
示完整地描述A,B 所需要的信息量。
刘群、李素建认为语义相似度就是两个词语在不同的上
文中可以互相替换使用而不改变文本的句法语义结构的程度。
两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低。
对于两个词语
W1,W2 如果记其相似度为Sim (W1 , W2),其词语距离为Dis (W1 , Wz),根
据刘群、李素建的公式:
其中a 是一个可变参数,含义是当相似度为0.5 时的词
语距离值。
相似度被定义为一个0到1 之间的实数,当两个词语完
全一样时,相似度为1 ;是完全不同的概念时,它们的相似度
接近于0。
三、语义相似度的计算方法常用计算方法有基于知识体系的计算,基
于大规模语料
库的计算,基于网络的计算。
一)根据分类体系计算词语语义距离的方法
这种方法也称为基于树的语义相似度计算方法,大体分
为两种:一是基于距离的语义相似性测度是基于信息内容
的语义相似性测度。
主要是利用语义词典,我们可以把概念 看做节点,关系看作边,这样 WordNet 的结构就可以看作是 图结构。
1)基于树状层次计算语义相似度的基本思想
这是以边为距离来计算语义相似度。
如果树状语义网中
的测度。
假定要确定词语 W1.W2 之间的语义相似度,可以 在该语义网中首先找到包含待比较词的那些子概念(或义 原)。
在此情况下,两者之间的语义相似性可以用连二者之
间的最短路径来表示。
例如,在图 1(取自 Wordnet 本体中 ,kid 和 boy 之间的最短路径是 }kid 一 juvenile persor 一 male-girl ,最小路径长度为 4。
而 educator 和 boy 之间的最小路径长度为 5。
因此, girl 比 teacher 在语义上更 接近于boy 。
该测度算法在基于 Wordnet 的语义网中获得了
较好的计算结果。
图1
2)基于《知网》 hownet 的语义相似度计算
知网(英文名称为 HowNet )是一个以汉语和英语的词
语所代表的概念为描述对象,以揭示概念与概念之间以及概 念所具有的属性之间的关系为基本内容的常识知识库。
其中
描述了 16 种关系,如上下位关系、部件 -整体关系、属性 宿主关系等。
《知网》中有两个主要的概念: “概念(义项)
与“义原”。
“概念”是对词汇语义的一种描述。
每一个词可 以表达为几个概念。
“概念”是用一种“知识表示语言”来 描述的, 这种“知识表示语言” 所用的“词汇” 叫做“义原”。
义原”是用于描述一个“概念”的最小意义单位,用多个 义原对概念进行所有的边即树的分支是等长
的,那么边的数目可以作为距离
的一小部分) 中
描述。
目前有1500 多个义原,但可以组合数量庞大的词汇。
用义原计算可以有效提高效率,并且义原的相似度也可以根据其在义原树中的位置得出。
因此它并非树状结构,而是一种网状结构;同时借助义原和符号对概念进
行描述。
对于两个汉语词语a和b:,如果A有n个义项(概
念):sll, SIz}... , Sin, B 有m 个义项(概念):Szl,
Szz, ...}Sz}n , 则词语A 和B 的相似度是各个义项相似度的最大值,义项又由义原表示,这样就将词语相似度转化为两个词语义原之间的相似度。
并且由于义原在知网中所处的层次不同,它们在整体相似性中所占的比重也不一样,对词语相似性的影响程度也有所有不同。
二)利用大规模的语料库进行统计
语料库语言学( Corpus Linguistics )是计算语言学的分
支学科。
它研究机器可读的自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用
( [HCN90] )。
语料库语言学研究的基础是机器可读的大容量语料库和一种易于实现的统计处理模型,两者是相辅相成、缺一不可的。
从本质上讲,语料库语言学的研究采用的是一种基于统计的经验主义处理方法,它与传统的基于规则的理性主义处理方法是不同的。
基于语料库的词语相似度研究大都采用了上下文语境
的统计描述方法,即认同这样一个论断:词语的上下文可以为词语定义提供足够信息。
词语向量空间模型是目前基于统计的词语相似度计算策略使用比较广泛的一种,算法复杂度也能够实现的模型。
该模型事先选择一组特征词,然后计算这一组特征词与每一个词的相关性(一般用这组词在实际的大规模语料中以该词在上下文中出现的频率来度量),于是对于每一个词都可以得到一个相关性的特征词向量,然后利用这些向量之间的相似度作为这两个词的相似度。
三)基于信息量的计算方法种是根据语义词典树的信息,根据树状
结构中两个节
点所含的信息量大小(子结点数与树中的所有结点数的比)来计算语义相似度。
另一种是把Internet 作为一个大型的语料库,以搜索引擎返的结果数作为计算的依据。
公式如下:
其中,NGD 介于0与1之间,表示相似度.f(x),f(y)
分别表示含概念x, y的网页数,f (x, y)表示同时含有概
念的网页数,N 表示搜索引擎引用的网页总数。
以词语horse
与rider为例,搜索词语"horse”返回46700000 (记为f (x))
条结果,搜索词语“ rider"返回结果数为12200000 记为f(y)), 搜索同时含“ horse, rider'的网页数是2630000(记为f(x,y)),共引用的网页数是
N=8058044651 ,代人上述公式(7)求得:
NGD (horse,rider0.443
四、结束语语音相似度应用广泛,本文主要介绍了基于分类体系的
语义相似度计算方法,以及基于搜索引擎的相似度计算方法。
这些方法对于
论文检测等工作很大的推进作用。
作者单位:襄阳职业技术学院)。