基于WordNet的语义分布词典建设
- 格式:pdf
- 大小:178.77 KB
- 文档页数:6
基于WordNet的情感词库构建研究情感词库是自然语言处理中的重要组成部分,通常用于文本情感分析、情感极性判断以及舆情分析。
WordNet是一种常用的语义网络,可以通过它来构建情感词库,本文主要介绍基于WordNet的情感词库构建研究。
一、WordNet简介WordNet是由普林斯顿大学的心理学家George Miller教授领导的一项项目,它是一种英语词汇数据库,用于自然语言处理和语义计算。
WordNet将英语单词分解为词义,每个词义都与一个或多个单词相关联。
这些词义之间以及单词之间都存在着语义关系,比如同义词、反义词、上位词、下位词等等。
二、情感词库介绍情感词库(Sentiment Lexicon)是包含情感极性和情感强度等信息的一组单词或短语列表。
情感词库可以帮助计算机自动分析文本的情感倾向,以此为根据来进行情感分类、情感极性判断、舆情分析等工作。
情感词库的构建通常需要基于人工标注和机器学习技术。
传统的构建方法在标注大量的文本后,利用MMI(最大相互信息)或PMI(点间互信息)等方法计算情感单词或短语准确率。
但是这种方法对人的时间和精力的要求太大,也不够灵活。
因此开始使用WordNet构建情感词库。
三、基于WordNet构建情感词库的方法基于WordNet的情感词库构建方法主要分为两种:查找词性和语义相似度。
1. 查找词性在WordNet中,每个单词在其定义中有多个释义和词性标记:名词(Noun)、动词(Verb)、形容词(Adjective)和副词(Adverb)。
在这种情况下,可以使用名词、动词、形容词和副词标记,选择有情感信息的单词。
然后借助WordNet上语义关系(如同义词、反义词、上位词、下位词等)来扩展情感词库。
例如,将“love”作为基本情感词,利用同义词“adore”,反义词“hate”,上位词“comfort”、下位词“hug”等扩展情感词表。
2.语义相似性利用WordNet关系结构中词之间的关系,计算两个单词之间的语义相似性,从而将与情感相关的单词添加到情感词库中。
WORDNET与HOWNET之比较作者:张笛来源:《青年文学家》2011年第13期摘要:本文在对Wordnet和Hownet进行简单介绍的基础上,从理论基础,设计原理与建设方法,目的与应用这三个大方面进行了比较。
从而找出两个系统的相似之处和差异,以期对自然语言处理有所帮助。
关键词:Wordnet;Hownet ;比较;语义作者简介:张笛,临沂大学外国语学院讲师,语言学。
近年来,随着计算机本身以及信息高速公路的飞速发展,人们开始更加重视语义的研究。
各国都致力于可用于自然语言处理的大规模语义词典或大规模知识库的建设。
例如:普林斯顿大学的英语Wordnet,微软的Mindnet,欧洲有基于Wordnet的Eurowordnet,日本的日语和英语的概念词典,韩国的Koreanwordnet,中国有以Wordnet为框架而研制的现代汉语概念词典——中文概念辞书(CCD)和董振东、董强的Hownet(知网)。
Wordnet是一个在线的英语词汇数据库(词汇参照系统),而Hownet是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
现在两者都被放在网上,供人们使用,并且可以参与他们的完善、扩展和发展。
所以,本文拟把二者放在一起进行比较研究,找出两个系统的相似之处与差异,取长补短,以期为自然语言处理寻求一个较为完善的语义关系系统。
一、理论基础首先,二者都以一种“模式假设”(patterning hypothesis)为前提和理论基础。
其次,“理解性假设”(comprehensiveness hypothesis)也是二者的理论基础。
但二者的理论基础不同之处也很多。
Wordnet的一个较主要的理论基础是“可分离性假设”(separability hypothesis)即语言的词汇成分可以被离析出来并专门针对它加以研究。
Hownet的最重要的理论基础是它的哲学。
/paper_110583811_1/论文标题:中文信息处理专题研究:语义研究一个在线义类词库:词网WordNet论文作者陈群秀(论文关键词,论文来源语言文字应用,论文单位京,点击次数184,论文页数69~104页1998年1998月论文网/paper_110583811/ 计算机的自然语言理解和处理,依赖于计算语言学的研究成果。
)与计算词汇学和计算句法学相比,计算语义学是计算语言学领域里一门比较年轻的学科。
相对而言,句法分析的理论和技术发展得比较成熟、完善,而语义分析的理论和技术起步比较晚,尚处于探索阶段,空白点较多而且难度最大。
目前,自然语言理解正处于一个关键时期,处在取得重大突破的前夜,而语义研究领域的进展和突破对全局的进展和突破有至关重要的作用。
语义包括词汇义、句义、篇章义等,其中最根本最重要的是词汇义的研究。
词汇义的研究和表示的方法有多种,很重要的一种是语义分类。
人读的义类词典几乎各国都有,机读的(即信息处理用的)义类词典在日本、美国等先进国家也都有研究或成果。
在国内外同类课题中,最著名的是普林斯顿大学Miller等人研制的英语词网数据库WordNet。
该词网旨在从心理语言学角度建立英语词汇基本语义关系的实际模型。
本文简要介绍这个在线的义类词库。
一词网WordNet的概况WordNet是一个在线词汇参照系统(在网上可机读的英语词库),是一个基于心理语言学原则的机器词典。
WordNet用大家熟悉的拼法来表示词形,用同义词集Synsets(在一定上下文中可以互换的同义词形的列表)来表示词义。
有两种关系:词汇的和语义的。
词汇关系存在于词形间,语义关系存在于词义间。
通常的人读词典或机读词典是按字母顺序组织词汇信息,将拼写相似的词放在一起,而让意思上相近的或相关的词随意地散置。
WordNet 则想为广大读者依概念而不是依字母顺序查找词典获取词汇语义知识提供帮助。
WordNet 目前包含大约95600个词条(51500个简单词和44100个复合词,它们被组织成约70100个词义或同义词集),描写了上下位、同义、反义、部分—整体等词汇语义关系。
利用构建语义词典的查询自动分类方法岳峰;孙亮;王宽全;王永吉;左旺孟【期刊名称】《哈尔滨工业大学学报》【年(卷),期】2008(40)7【摘要】为解决传统的文档分类方法和手工分类方法都不适宜于处理查询分类的问题,提出了一种基于Web的自动构建特定主题的语义词典的方法来分类搜索查询,通过基于主题的Web信息采集和bootstrap-ping,由某个主题的少量关键词逐步扩充,最终得到该主题的语义词典及词典中每个单词的相对词频.Web中信息的冗余和各主题语义上的差别使各主题的语义词典中单词的种类和数量存在很大差异,这种差异可以用来对用户的搜索查询进行分类.实验结果表明,利用语义词典可以较准确地将用户的查询分类,同时该分类方法基本上不需要人工介入,且可适应搜索查询覆盖面广和实时性强的特点,较好地解决了搜索查询分类的问题.【总页数】5页(P1094-1098)【作者】岳峰;孙亮;王宽全;王永吉;左旺孟【作者单位】哈尔滨工业大学,计算机学院,哈尔滨,150001;中国科学院软件研究所,互联网实验室,北京,100190;中国科学院软件研究所,互联网实验室,北京,100190;哈尔滨工业大学,计算机学院,哈尔滨,150001;中国科学院软件研究所,互联网实验室,北京,100190;哈尔滨工业大学,计算机学院,哈尔滨,150001【正文语种】中文【中图分类】TP391.1【相关文献】1.基于SOM的语义词典自动构建实验研究 [J], 陈涛;孙茂松2.基于改进决策树算法的Web数据库查询结果自动分类方法 [J], 孟祥福;马宗民;张霄雁;王星3.基于耦合相关度的空间数据查询结果自动分类方法 [J], 毕崇春;孟祥福;张霄雁;唐延欢;唐晓亮;梁海波4.基于WordNet的藏文语义词典半自动构建方法研究 [J], 柔特5.Web数据库查询结果的自动分类方法 [J], 孟祥福;马宗民;严丽;张富因版权原因,仅展示原文概要,查看原文内容请购买。
国内外英语学习词典语义网络处理调查对比研究张相明【摘要】在语言运用中,相关语词之间通过意义构成语义网络.学习词典是语言学习中释疑解惑的工具,是用户获取语义网络信息的重要途径以词典结构的各个组成部分为视角,对国内外的主流英语学习词典进行了语义网络处理方面的对比分析.调查表明,与国外学习词典相比,国内词典呈现语义网络的方式比较单一,处理力度较小;学习词典应该呈现哪些形式的语义网络信息以及如何呈现,国内外词典尚未形成比较一致的看法.国外英语学习词典具有相对完整的语义网络信息处理体系,值得国内英汉学习词典编纂者学习借鉴.【期刊名称】《外国语文(四川外语学院学报)》【年(卷),期】2014(030)005【总页数】6页(P94-99)【关键词】学习词典;语义网络;词典处理;调查【作者】张相明【作者单位】华南师范大学外文学院,广东广州510631;广东财经大学外国语学院,广东广州510320【正文语种】中文【中图分类】H3161.引言学习词典是“主要面向非母语的语言学习者的教学型词典”(Hartmann&James,1998:82)。
学习者在语言习得过程中遇到的许多语词问题,都希望在学习词典中找到答案。
在语言运用中,相关语词之间通过意义构成语义网络。
语义网络信息就是词典用户希望查询的一个重要语词问题。
语义网络是一个重要的语义信息类别,是“在提及一个特定词时脑海中显现的相关语词的联系。
”(Richards&Schmidt,2002:478)。
学习词典是用户获得语词语义网络信息的主要途径,如何准确、全面、简明地呈现语词的语义网络信息是词典编纂者和词典学研究者需要解决的重要课题。
本研究以词典结构的各个组成部分为视角,从宏观结构层面对国内外的主要英语学习词典进行了语义网络处理方面的对比分析。
国外英语学习词典选取OALD8(2010)、LDOCE5(2009)、MED2(2007)等;国内英汉学习词典则选取了《新英汉词典》(2009)、《英汉多功能词典》(2011)、《新英汉大词典》(2012)等(词典信息详见参考文献)。
)作为一般词典的WordNet (WordNet as a dictionary)· WordNet跟传统的词典相似的地方是它给出了同义词集合的定义以及例句。
在同义词集合中包含对这些同义词的定义。
对一个同义词集合中的不同的词,分别给出适合的例句来加以区分。
(七)WordNet中的关系(relations in WordNet)·不同句法词类中的语义关系类型也不同,比如尽管名词都动词都是分层级组织词语之间的语义关系,但在名词中,上下位关系是hyponymy关系,而动词中是troponymy关系;动词中的entailment(继承)关系有些类似名词中的meronymy(整体部分)关系。
名词的meronymy关系下面还分出三种类型的子关系(见“WordNet 中的名词”部分)。
(八)网球问题(the tennis problem)· WordNet是基于同义性和反义(对义)性来描述词语和概念之间的各种语义关系类型的。
由于WordNet的注意力不是在文本和话语篇章水平上来描述词和概念的语义,因此WordNet中没有包含指示词语在特定的篇章话题领域的相关概念关系。
例如,WordNet中没有将racquet(网球拍)、 ball(球)、net(球网)等词语以一定方式联系到一起。
Roger Chaffin在一封私人信笺中,曾把这类问题称为“tennis problem”(网球问题),指的就是如何把racquet、ball、net、court game (场地比赛);或者把physician(内科医生)跟hospital(医院)联系到一起。
这对电子词典来说,是一个挑战。
已经有一些相关的研究工作在探索如何从WordNet 中包含的词汇和概念之间的语义关系,来推导出话题信息。
Hirst和St-Onge描述了一种所谓的“词汇链”(lexical chain)的应用方法。
“词汇链”是在基于名词的语义关系构成的上下文中的名词的序列。
应用语义关系自动构建情感词典谢松县;刘博;王挺【期刊名称】《国防科技大学学报》【年(卷),期】2014(000)003【摘要】构建英文情感词典研究相对成熟,形成了丰富可靠的词典资源。
而针对中文的研究时间短,中文情感分析词典资源较少。
借鉴现有可靠的英文词典资源,提出了基于语义关系的情感词典自动构建算法,算法先从HowNet的概念中进行中文义原和词语抽取及语义分析,再利用HowNet概念中DEF中英文属性值,在英文情感词典SentWordNet中进行义原和词语情感值查询,最后根据词语和义原之间的语义关系进行词语的情感值计算。
算法直接利用现有的英文情感词典,无须人工标注,生成的情感词典记录了词语的语义关系、情感极性值等多种信息,弥补了现有词典的不足。
评测实验结果表明,根据算法实现的情感词典相比其他词典在准确率接近的情况下,召回率和F值最高,取得了较好的评测性能。
【总页数】5页(P111-115)【作者】谢松县;刘博;王挺【作者单位】国防科技大学计算机学院,湖南长沙 410073;国防科技大学计算机学院,湖南长沙 410073;国防科技大学计算机学院,湖南长沙 410073【正文语种】中文【中图分类】TP391【相关文献】1.基于Word2Vec的情感词典自动构建与优化 [J], 杨小平;张中夏;王良;张永俊;马奇凤;吴佳楠;张悦2.情感词典自动构建方法综述 [J], 王科;夏睿3.股市情感词典自动构建与优化 [J], 陈可嘉;陈荣晖4.面向在线评论的领域情感词典的自动构建 [J], 宗宇;方朝阳;吴波5.面向突发事件倾向性分析的情感词典自动构建方法 [J], 王学贺;赵华因版权原因,仅展示原文概要,查看原文内容请购买。
Metaphor Processing System Based on WordNet 作者: 许雅缘
作者机构: 福建师范大学外国语学院,福建福州350007
出版物刊名: 外语电化教学
页码: 39-43页
年卷期: 2010年 第6期
主题词: 隐喻 WordNet 相似度 语料库
摘要:本文以WordNet(在线词典数据库系统)里的各种语义知识和语义关系为基础,设计并实现一个处理“AisB”型的英文隐喻自动处理系统。
该系统主要包括对语句的预处理和隐喻语句的自动识别。
系统对语句先进行预处理(包括分词和句法分析),再对主、表语进行知识搜索和语义相似度计算,并根据求得的相似度判别是否为隐喻。
系统还采用数据库的相关技术,以提高系统对隐喻处理的效率。
最后,我们分别从Goatly创建的英语隐喻语料库Metalude和桂诗春创建的中国学习者英语语料库中选取大量隐喻和非隐喻的例子,对系统进行测试和评估,证实了该系统的合理性和可行性。
基于改进的Lesk算法的词义排歧算法王永生【期刊名称】《微型机与应用》【年(卷),期】2013(000)024【摘要】英文中的一词多义现象非常普遍,这给英文的词义排歧带来了极大的困难。
针对这种情况,提出了一种基于改进的 Lesk 算法的词义排歧算法,即以语义词典 WordNet 为基础,借助 CBC 算法扩充目标词的相似词集合,通过改进的Lesk 算法进行词义排歧。
算法以英文 Senseval-2任务作为测试目标,通过对目标词的义项进行筛选,去除其中一些不常用的义项,实验结果表明,总体排歧正确率达到58.4%。
%In English , lexical ambiguity is pervasive , so English word sense disambiguation is one of the most difficult tasks in natural language processing . This paper presents an adaptation of Lesk algorithm based on WordNet . Additionally an algorithm called CBC is used to enlarge the amount of similar words of the target word . This method is evaluated using the Senseval-2 word sense disambiguation exercise , and attains an overall accuracy of 58 . 4%.【总页数】4页(P69-71,75)【作者】王永生【作者单位】同济大学出国培训学院,上海 200092【正文语种】中文【中图分类】TP391【相关文献】1.基于核模糊C均值聚类算法的词义排歧研究 [J], 任恺2.改进的基于义原同现频率的汉语词义排歧方法 [J], 刘亚清;于纯妍;张瑾3.一种改进的词义排歧算法 [J], 郭志兵;黄广君;卢朝华4.基于改进的VSM的词义排歧策略 [J], 赵晨光;蔡东风5.一种基于语义关系图的词义消歧算法 [J], 张健立因版权原因,仅展示原文概要,查看原文内容请购买。
基于互信息的概念语义相似度算法种晓阳;周子力;吴玲玲【摘要】With the development of information technology, the conceptual semantic similarity computation now becomes a hot research topic. A novel algorithm based on mutual information for calculating conceptual semantic similarity in WordNet is proposed. This algorithm, withIC(Information Content) model as the basis, the conditional probability of neighboring concept as the edge weighting information, and the mutual information as the semantic similarity, considers the depth and density of concept in the taxonomic tree of WordNet, even including the route factor. Experiments show that the similarity calculated by the proposed method has fairly good correlation with the similarity by artificial method, and the similarity is even more accurate.%随着信息技术的发展,概念语义相似度计算成为当前的一个研究热点。
本文提出一种基于互信息的概念语义相似度算法,以IC概念信息内容模型为基础,将相邻概念的条件概率作为边的权值,将概念间的互信息作为语义相似度,不仅考虑概念所处分类树的深度、密度,而且将路径因素考虑在内。
基于不同语义资源的词语相似度算法综述词语相似度研究作为人工智能领域中一项重要研究,被广泛应用于信息检索,词义消歧,机器翻译,语音自动摘要,分类和聚类等方面。
现有的词语相似度算法主要分为基于语义资源和基于统计两类方法,第一种也被称为基于本体的词语相似度算法,主要根据词语所处的语境来反应词语的词义,即根据不同的层次结构组织中词所处的上下位与同位关系来计算词语的相似度。
另一种也被称为基于大规模语料库的算法,研究上下文环境中各个词语之间出现的某种规律,利用统计技术计算的一种无监督机器学习的方法。
本文重点介绍基于不同的语义资源的词语相似度算法,对词语相似度算法的未来做了展望。
标签:词语相似度;语义资源;维基百科1 引言随着云时代的来临,大数据越来越受人们关注。
伴随着办公室无纸化推行,人们逐渐习惯于利用计算机进行数字化处理数据,自然语言处理的研究也飞速发展。
词语是自然语言处理的最小单位,词语相似度的计算在自然语言处理的各个领域占有很重要的地位。
词语相似度计算研究的是计算两个词语相似度的方法,词语之间有着非常复杂的关系,应用中常常将这种复杂的关系用简单的数量来度量。
可见词语相似度研究有广阔的应用前景和重大研究价值。
本文综合介绍了近年来基于几种常见语义资源的词语相似度算法和最新研究成果,对该领域的发展前景做出了展望。
2 基于Wordnet的方法Wordnet是由普林斯顿大学的心理学家,语言学家和计算机工程师联合设计的一个在线词典参考系统,在认知语言学理论下推动形成的覆盖范围非常广阔的词汇语义网。
Wordnet不像传统的在线词典按照字母排序构造而成,这个系统中的词语根据同义关系,反义关系,部分关系聚类分为代表某一类词汇概念的相关集合。
并在这些聚类后形成的集合之间建立起不同关系。
Wordnet主要代表算法是通过计算两个词语在本体结构分类的路径长度,本体库的统计特征,概念层次树上下位关系和同位关系或对词语涉及的边进行处理。