WordNet研究
- 格式:doc
- 大小:47.50 KB
- 文档页数:4
基于WordNet的情感词库构建研究情感词库是自然语言处理中的重要组成部分,通常用于文本情感分析、情感极性判断以及舆情分析。
WordNet是一种常用的语义网络,可以通过它来构建情感词库,本文主要介绍基于WordNet的情感词库构建研究。
一、WordNet简介WordNet是由普林斯顿大学的心理学家George Miller教授领导的一项项目,它是一种英语词汇数据库,用于自然语言处理和语义计算。
WordNet将英语单词分解为词义,每个词义都与一个或多个单词相关联。
这些词义之间以及单词之间都存在着语义关系,比如同义词、反义词、上位词、下位词等等。
二、情感词库介绍情感词库(Sentiment Lexicon)是包含情感极性和情感强度等信息的一组单词或短语列表。
情感词库可以帮助计算机自动分析文本的情感倾向,以此为根据来进行情感分类、情感极性判断、舆情分析等工作。
情感词库的构建通常需要基于人工标注和机器学习技术。
传统的构建方法在标注大量的文本后,利用MMI(最大相互信息)或PMI(点间互信息)等方法计算情感单词或短语准确率。
但是这种方法对人的时间和精力的要求太大,也不够灵活。
因此开始使用WordNet构建情感词库。
三、基于WordNet构建情感词库的方法基于WordNet的情感词库构建方法主要分为两种:查找词性和语义相似度。
1. 查找词性在WordNet中,每个单词在其定义中有多个释义和词性标记:名词(Noun)、动词(Verb)、形容词(Adjective)和副词(Adverb)。
在这种情况下,可以使用名词、动词、形容词和副词标记,选择有情感信息的单词。
然后借助WordNet上语义关系(如同义词、反义词、上位词、下位词等)来扩展情感词库。
例如,将“love”作为基本情感词,利用同义词“adore”,反义词“hate”,上位词“comfort”、下位词“hug”等扩展情感词表。
2.语义相似性利用WordNet关系结构中词之间的关系,计算两个单词之间的语义相似性,从而将与情感相关的单词添加到情感词库中。
/paper_110583811_1/论文标题:中文信息处理专题研究:语义研究一个在线义类词库:词网WordNet论文作者陈群秀(论文关键词,论文来源语言文字应用,论文单位京,点击次数184,论文页数69~104页1998年1998月论文网/paper_110583811/ 计算机的自然语言理解和处理,依赖于计算语言学的研究成果。
)与计算词汇学和计算句法学相比,计算语义学是计算语言学领域里一门比较年轻的学科。
相对而言,句法分析的理论和技术发展得比较成熟、完善,而语义分析的理论和技术起步比较晚,尚处于探索阶段,空白点较多而且难度最大。
目前,自然语言理解正处于一个关键时期,处在取得重大突破的前夜,而语义研究领域的进展和突破对全局的进展和突破有至关重要的作用。
语义包括词汇义、句义、篇章义等,其中最根本最重要的是词汇义的研究。
词汇义的研究和表示的方法有多种,很重要的一种是语义分类。
人读的义类词典几乎各国都有,机读的(即信息处理用的)义类词典在日本、美国等先进国家也都有研究或成果。
在国内外同类课题中,最著名的是普林斯顿大学Miller等人研制的英语词网数据库WordNet。
该词网旨在从心理语言学角度建立英语词汇基本语义关系的实际模型。
本文简要介绍这个在线的义类词库。
一词网WordNet的概况WordNet是一个在线词汇参照系统(在网上可机读的英语词库),是一个基于心理语言学原则的机器词典。
WordNet用大家熟悉的拼法来表示词形,用同义词集Synsets(在一定上下文中可以互换的同义词形的列表)来表示词义。
有两种关系:词汇的和语义的。
词汇关系存在于词形间,语义关系存在于词义间。
通常的人读词典或机读词典是按字母顺序组织词汇信息,将拼写相似的词放在一起,而让意思上相近的或相关的词随意地散置。
WordNet 则想为广大读者依概念而不是依字母顺序查找词典获取词汇语义知识提供帮助。
WordNet 目前包含大约95600个词条(51500个简单词和44100个复合词,它们被组织成约70100个词义或同义词集),描写了上下位、同义、反义、部分—整体等词汇语义关系。
)作为一般词典的WordNet (WordNet as a dictionary)· WordNet跟传统的词典相似的地方是它给出了同义词集合的定义以及例句。
在同义词集合中包含对这些同义词的定义。
对一个同义词集合中的不同的词,分别给出适合的例句来加以区分。
(七)WordNet中的关系(relations in WordNet)·不同句法词类中的语义关系类型也不同,比如尽管名词都动词都是分层级组织词语之间的语义关系,但在名词中,上下位关系是hyponymy关系,而动词中是troponymy关系;动词中的entailment(继承)关系有些类似名词中的meronymy(整体部分)关系。
名词的meronymy关系下面还分出三种类型的子关系(见“WordNet 中的名词”部分)。
(八)网球问题(the tennis problem)· WordNet是基于同义性和反义(对义)性来描述词语和概念之间的各种语义关系类型的。
由于WordNet的注意力不是在文本和话语篇章水平上来描述词和概念的语义,因此WordNet中没有包含指示词语在特定的篇章话题领域的相关概念关系。
例如,WordNet中没有将racquet(网球拍)、 ball(球)、net(球网)等词语以一定方式联系到一起。
Roger Chaffin在一封私人信笺中,曾把这类问题称为“tennis problem”(网球问题),指的就是如何把racquet、ball、net、court game (场地比赛);或者把physician(内科医生)跟hospital(医院)联系到一起。
这对电子词典来说,是一个挑战。
已经有一些相关的研究工作在探索如何从WordNet 中包含的词汇和概念之间的语义关系,来推导出话题信息。
Hirst和St-Onge描述了一种所谓的“词汇链”(lexical chain)的应用方法。
“词汇链”是在基于名词的语义关系构成的上下文中的名词的序列。
Metaphor Processing System Based on WordNet 作者: 许雅缘
作者机构: 福建师范大学外国语学院,福建福州350007
出版物刊名: 外语电化教学
页码: 39-43页
年卷期: 2010年 第6期
主题词: 隐喻 WordNet 相似度 语料库
摘要:本文以WordNet(在线词典数据库系统)里的各种语义知识和语义关系为基础,设计并实现一个处理“AisB”型的英文隐喻自动处理系统。
该系统主要包括对语句的预处理和隐喻语句的自动识别。
系统对语句先进行预处理(包括分词和句法分析),再对主、表语进行知识搜索和语义相似度计算,并根据求得的相似度判别是否为隐喻。
系统还采用数据库的相关技术,以提高系统对隐喻处理的效率。
最后,我们分别从Goatly创建的英语隐喻语料库Metalude和桂诗春创建的中国学习者英语语料库中选取大量隐喻和非隐喻的例子,对系统进行测试和评估,证实了该系统的合理性和可行性。
WordNet:概念知识库WordNet 是美国 Princeton 大学研发的一个英语词汇语义知识库,或者概念知识库。
本 wiki 只介绍 WordNet 里的名词和动词概念,及其概念间的主要关系。
对形容词和副词概念感兴趣的读者,可以参阅 WordNet 的手册或相关论文。
WordNet 的研发历经近二十年,目前的版本是 3.0,FreeBSD 中有它的 port。
WordNet 最初的研发者是 Princeton 大学的一些心理学家。
后来,由于计算语言学(或自然语言处理)的需求,WordNet 成为语义学研究最权威的知识库之一。
概念的表达或构建要通过自然语言完成,不同的文化和历史可能导致概念的差异,进而导致不同语言的词汇语义之间不是一一对应的。
例如,中文中“叔叔”、“伯父”、“姨夫”、“舅舅”等概念在英文中没有具体的对应,英文中只有 uncle。
虽然如此,人类的概念在很大程度上是共享的,那些小的差异可以忽略。
加上英语是世界语,这也是 WordNet 在全球得以流行的原因吧。
WordNet 里的概念所谓“概念”,在 WordNet 里抽象为一个同义词集合,它是 WordNet 的基本单位,也是 WordNet 所要描述的基本对象。
例如,“computer”有两个语义,分别是“计算机”和“计算者”。
IOU@~$ wn "computer" -synsnSynonyms/Hypernyms (Ordered by Estimated Frequency) of noun computer2 senses of computerSense 1computer, computing machine, computing device, data processor,electronic computer, information processing system=> machineSense 2calculator, reckoner, figurer, estimator, computer=> expert概念的上下位关系名词和动词概念(即同义词集合)之间有两个基本的关系,上位关系和下位关系。
基于WordNet的文本特征抽取方法研究与实验评估随着互联网的快速发展,海量的文本数据成为了人们获取信息和进行研究的重要来源。
然而,如何从这些庞大的文本数据中提取有用的特征,成为了自然语言处理领域的一个关键问题。
WordNet作为一种语义知识库,可以帮助我们理解和分析文本中的词汇关系,因此被广泛应用于文本特征抽取。
首先,我们需要了解WordNet的基本概念和结构。
WordNet是由普林斯顿大学开发的一种英语词汇数据库,它将英语单词组织成一种层次化的关系网络。
在WordNet中,单词被分为不同的词性类别,并且通过上位词、下位词、同义词等关系进行连接。
这种结构使得我们可以通过WordNet来获取词汇的语义信息,从而进行文本特征的抽取。
基于WordNet的文本特征抽取方法可以分为两个主要步骤:词汇扩展和特征表示。
在词汇扩展阶段,我们利用WordNet中的同义词关系来扩展文本中的词汇。
例如,对于一个给定的单词,我们可以通过WordNet找到它的同义词,并将这些同义词作为扩展后的词汇。
这样做的目的是丰富文本中的词汇量,提高特征的覆盖范围。
在特征表示阶段,我们将扩展后的词汇表示成向量形式,以便于计算机进行处理。
常见的表示方法有词袋模型和词向量模型。
词袋模型将文本表示为一个词汇的集合,每个词汇对应一个维度。
词向量模型则将每个词汇表示为一个实数向量,向量的维度通常较低。
这些向量表示了词汇的语义信息,可以作为文本特征进行进一步的分析和处理。
为了评估基于WordNet的文本特征抽取方法的有效性,我们可以进行一系列的实验。
首先,我们可以选择一些具有挑战性的文本任务,例如文本分类或情感分析,并使用基于WordNet的特征抽取方法来提取特征。
然后,我们可以将提取得到的特征输入到机器学习算法中进行训练和测试。
通过与其他特征抽取方法进行比较,我们可以评估基于WordNet的方法在不同任务上的性能表现。
除了性能评估,我们还可以对基于WordNet的方法进行进一步的分析。
WordNet在图像语义分析中的应用摘要:WordNet在图像语义分析中具有很重要的作用。
它提供了对图像语义精准的描述,图像语义特征的提取。
本文介绍了颜色直方图,边缘方向直方图,边缘直方图,局部二值模式(LBP)等四种方法,并根据这几种方法的优缺点进行比较,综合每种方法的优点来对图像的语义进行分析。
关键字:WordNet 图像语义分析应用随着计算机科学技术的进步,尤其是图像语义分析的发展,人类所获得的图像信息越来越多,对图像语义分析的要求也越来越强烈。
在这众多的图像中,为了获得我们所需要的图片。
就要求我们提供好的图像检索技术。
以便准确的搜索出要找的图片信息。
在进行图像语义分析中,WordNet在图像语义分析中的应用就显得非常重要了。
1 WordNet发展概况在WordNet的早期阶段,研究人员主要是在考虑用关系语义来描述词义的方式是否能够大规模地广泛使用,而不是仅仅停留在玩具式的演示水平上。
到了研究人员确信这是可行的时候,他们就编制了应用软件来把想法变成现实。
实际上,在早期,Miller并没有关于构建一个大词库的完整想法。
初步设想是识别由字符串组成的最重要的词节点,并探索其中的语义关系模式。
当时的想法是,如果得到了正确的语义关系模式,词语的定义就能从中推理出来,因此,对于一个有关词义的关系网来说,词义的定义是多余的。
WordNet从一个简单的“词典浏览器”(dictionary browser)发展成一个自足的词汇数据库(self-contained lexical database),主要的进步是从1989年年初开始的。
当时Susan Chip man不满于WordNet仅仅作为一个词汇浏览器而存在,要求研究小组开发一个工具。
该工具可以在WordNet的基础上阅读一个文本,并报告文本中词语的各种信息。
这一工具即所谓的“Word Filter”(词过滤器)。
罕用的或不符合需要的词能够从小说文档中被过滤出去,而同时更常见的词语可以用来替代这些词。
基于WordNet重用的领域本体构建方法研究摘要:构建本体是开发基于语义信息系统的重要步骤。
为了提高构建领域本体的效率,提出了一种基于WordNet重用的领域本体构建方法。
该方法分析了WordNet的结构和语义关系,将WordNet抽象为图模型,从中抽取以领域术语为节点的子图,得到一个领域子本体,再利用编辑工具对其进行修改和完善。
通过分析与核对实验数据和结果,表明该方法可以重用WordNet的结构并从中获取领域知识,并半自动地快速构建领域本体。
关键词:WordNet; 重用; 领域本体; 语义; 图模型Research of Building Domain Ontology Method Based OnReusing WordNet【Abstract】Building ontology is an important process to develop semantic-based information system. For enhancing the efficiency of building domain ontology, an approach for building a domain ontology reusing WordNet was proposed. The approach analyzed the structure and semantic relations of WordNet and abstracted WordNet as a graph model. Regarding domain terms as the concepts of the ontology, a subgraph whose nodes were domain terms was abstracted and a domain sub-ontology was generated. The ontology was modified and complemented using an ontology editor. By means of analyzing and verifying the figures and results of the experiment, it shows that the structure of WordNet can be reused and domain knowledge is able to be acquired in this approach, and a domain ontology can be built semi-automatically and quickly.【Key words】WordNet; reusing; domain ontology; semantic; graph model1 概述信息技术的知识化和智能化发展趋势,使得信息和数据的表示不只是停留在语法层面,更要聚焦到语义层面。
而本体作为语义网的核心技术,它能够在语义层面上描述信息和数据的概念模型,因此为解决该类问题提供了一种良好的途径。
在基于本体的应用中,构建本体是一项基本任务。
然而现有的领域本体的构建方法基本上是人工处理,该类方法尽管本体概念和概念间的关系处理的比较准确,但是其构建效率不能满足当今信息技术发展的速度要求。
因此,自动的领域本体构成方法成为了迫切需求。
本体(Ontology)是共享概念模型的明确的形式化规范说明。
这包含四层含义:概念模型、明确、形式化和共享。
“概念模型”指通过抽象出客观世界中一些现象的相关概念而得到的模型。
“明确”指所使用的概念及使用这些概念的约束都有明确的定义。
“形式化”指本体是计算机可读的。
“共享”指本体所体现的是共同认可的知识,反映的是相关领域中公认的概念集。
本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义。
本体的建立是一项非常繁重的工作。
因此,如何快速建立本体成为一个热点研究问题。
目前主要有两种方法用于构建本体:第一种是基于数据挖掘的本体构建,第二种是重用现有本体来构建新本体,又分为全自动和半自动构建两种方法。
要实现全自动构建本体是非常困难的。
尽管现有的自动领域本体构建的方法在构建效率上取得了一定的提高,但是其所构建领域本体中的概念及其关系由于所采用的技术性能差等原因导致准确度较差。
针对以上不足,本文充分利用现有资源,对已提出的一种基于WordNet重用的领域本体构建方法进行研究。
该方法将领域术语集看作领域本体中的概念,基于WordNet为源本体,分析其结构和语义关系,自动从WordNet中抽取出相关领域的本体,将其抽象为图模型,从中抽取以领域术语为节点的子图,得到一个领域子本体,再利用编辑工具对其进行修改和完善。
实验表明该方法可以重用WordNet的结构,并从中获取领域知识,从而半自动地快速构建特定领域的本体。
2 WordNetWordNet是由Princeton(普林斯顿)大学的心理学家、语言学家和计算机工程师在1985年联合设计的一种基于认知语言学的覆盖范围宽广的英语词汇语义网。
它是一个在线的词汇参照系统,其独特之处在于它不仅仅是把单词依据词性以字母顺序排列,而是依据词义来组织词汇信息,可以说是一部基于心理学规则的词典。
WordNet能在概念层次上查找词汇,根据语义来组织分类词汇信息,而不是根据词典形式,这是与传统词典的一个最明显的区别。
2.1 WordNet的设计思想一个单词包括两个层面:单词的表现形式和单词所代表的含义。
前者称为词性,后者称为词义。
WordNet重点解决的问题是词语所表达概念的性质和组织方式,也就是词性和词义之间的映射。
这种映射是多种多样的,某些词形有多个不同的词义;某些词义可以用多个不同的词形来表达,它们分别对应着自然语言中的多义词和同义词。
WordNet描述的对象包含复合词、短语动词、搭配词、成语和单词,其中单词是最基本的单位,单词主要包括名词、动词、形容词和副词。
WordNet使用同义词集合(Synset)代表概念(Concept),词汇关系在词语之间体现,语义关系在概念之间体现。
WordNet构造的核心是如何表示词汇概念节点,以及在这些概念节点之间建立起各点语义关系。
WordNet将英语词汇组织为一个同义词集合(Synset),每个集合标明一个词汇概念,比如说{board,plank}表示木板的概念,{board,committee}表示会议桌的概念;同时力图在概念间建立不同指针,表达上下位、同义反义、整体与部分、继承等不同的语义关系。
由于语义关系是多个词义之间的关系,而词义用同义集来表示,因此语义关系就可看作是同一词集之间的一些指针。
这些语义关系和关系代表的指针所指向的同义词集组成了一个复杂的网络。
在这个网络中,知道了一个词语的位置,也就等于了解了这个词的含义。
简单来说:WordNet会很据词条的意义将其分组,每个具有相同涵义的词条组称为一个Synset(同义词集合),WordNet为每一个Synset提供了概要定义,并记录了Synset之间的语义关系。
通俗来讲,这个字典中每个词条不是独立的,是有关系的。
所以说WordNet是刻画本体的一个字典。
经过这样的过程,原本抽象的概念就被形式化了,变得具体而且可以通过词汇意义加以操作,概念之间还可以建立多种语义关系的联系和推理,这样就构成了一个比较完整的词汇语义网络系统。
2.2 WordNet中的名词本文所进行的源本体研究是基于WordNet1.6版本进行的,其描写了4类实词、99643个概念节点和超过5 000 000个语义关系,形成了一张庞大的概念语义网络。
其中实词主要包括名词、动词、形容词和副词4类,虚词不予以考察。
WordNet中词汇概念的语义关系主要包括:上下位、同义、反义、整体与部分、蕴含、属性和致使等。
而在上述的4类实词中,WordNet着重描写的是名词和动词。
从认知的角度来看,名词是大部分概念的主要表现形式;形容词只在较少情况下单独作为概念,一般是作为概念中的修饰语;动词和副词作为概念出现的概率较少,动词作为概念独立出现时,一般也应看做是名词属性。
因此,名词是一个本体的主要组成部分。
WordNet 的名词网络是第一个发展起来的,正因为如此,本文所研究的对象都仅限于名词网络。
WordNet1.6版本中包含了近800000个名词以及60000个词汇化的概念。
WordNet用树结构来定义词,例如oak@→tree@→plant@→organism。
这里的“@→”是可传递的、不对称的语义关系,称为上位关系。
多个词间的上/下位关系形成WordNet中名词的层次关系,名词网络的主干就是这种蕴涵关系的层次,也就是说这种层次关系组成了名词的骨架,它占据了关系中的将近80%。
层次中的最顶层是11个抽象概念,称为基本类别始点(unique beginners),例如实体(entity,“有生命的或无生命的具体存在”),心理特征(psychological feature,“生命有机体的精神上的特征”)。
名词层次中最深的层次是16个节点。
WordNet为名词划分了25个独立的起始概念(见表1),可看作是客观世界的最大分类,它们所包括的名词数量或多或少,互不排斥,大体上覆盖了明确的概念和词汇范围。
表1 WordNet中独立的起始概念名词概念名称{目的} {自然物} {动物,动物系} {自然现象} {人工物} {属性,特征} {植物,植物系} {身体,躯体} {所有物} {认知,知识} {信息,迷信} {量,数量} {事件} {关系} {知觉,情感} {食物} {状态,情形} {团体,组织} {物质} {场所,位置} {动作,行为,动作} {人,人类} {作用,方法} {形状} {时间}3 重用WordNet构建领域本体在语义网[1]技术被提出后,本体[2]作为其中的关键技术越来越受到研究者的青睐,其开发语言和开发工具相继出现并不断升级。
但由于分散在网络中的本体不易被查找,每次领域本体[3]的创建几乎都是从头开始做,包括网络中已经存在的本体,因此不仅浪费了宝贵的研究时间,也降低了本体的可重用性,而可重用性是本体的重要特征。
本体主要由以下几部分组成:概念、概念的层次、概念的属性和概念间的语义关系等。
在这几部分中,概念、概念的层次关系和概念间的语义关系是最为重要的,一定程度上,它们是领域知识的表现形式。
而普遍认可的本体开发流程为:(1)决定本体的领域和范围;(2)考虑重用已有本体;(3)列举本体中的术语;(4)定义本体中的类及其结构层次;(5)定义类的属性;(6)定义属性的各个方面;(7)创建实例。