《WordNet简介》PPT课件
- 格式:ppt
- 大小:203.05 KB
- 文档页数:24
WordNet:概念知识库WordNet 是美国 Princeton 大学研发的一个英语词汇语义知识库,或者概念知识库。
本 wiki 只介绍 WordNet 里的名词和动词概念,及其概念间的主要关系。
对形容词和副词概念感兴趣的读者,可以参阅 WordNet 的手册或相关论文。
WordNet 的研发历经近二十年,目前的版本是 3.0,FreeBSD 中有它的 port。
WordNet 最初的研发者是 Princeton 大学的一些心理学家。
后来,由于计算语言学(或自然语言处理)的需求,WordNet 成为语义学研究最权威的知识库之一。
概念的表达或构建要通过自然语言完成,不同的文化和历史可能导致概念的差异,进而导致不同语言的词汇语义之间不是一一对应的。
例如,中文中“叔叔”、“伯父”、“姨夫”、“舅舅”等概念在英文中没有具体的对应,英文中只有 uncle。
虽然如此,人类的概念在很大程度上是共享的,那些小的差异可以忽略。
加上英语是世界语,这也是 WordNet 在全球得以流行的原因吧。
WordNet 里的概念所谓“概念”,在 WordNet 里抽象为一个同义词集合,它是 WordNet 的基本单位,也是 WordNet 所要描述的基本对象。
例如,“computer”有两个语义,分别是“计算机”和“计算者”。
IOU@~$ wn "computer" -synsnSynonyms/Hypernyms (Ordered by Estimated Frequency) of noun computer2 senses of computerSense 1computer, computing machine, computing device, data processor,electronic computer, information processing system=> machineSense 2calculator, reckoner, figurer, estimator, computer=> expert概念的上下位关系名词和动词概念(即同义词集合)之间有两个基本的关系,上位关系和下位关系。
WordNetIntroduction究人员撰写的。
第5章和第6章描述了WordNet的改进;第7章从形式化的概念分析的角度描述了WordNet;第8到第16章讨论了WordNet的各种不同应用。
(一)计算机与词库(computers and lexicon)·一个人即使不接受把人脑比作计算机的隐喻,也一定同意,计算机提供了一个良好的模式演练场,通过它,人们可以测试各种关于人类认知能力的理论模型。
·越来越多的人认识到,一个大的词库对自然语言理解,人工智能的各方面研究都具有重要的价值。
·对大规模机器可读词典的需求同时也带来许多基础问题。
首先是如何构造这样一个词库,是手工编制还是机器自动生成?第二,词典中应包含什么样的信息?第三,词典应如何设计,即信息如何组织,以及用户如何访问?实际上,这些问题涉及到词典的编纂方法,词典的内容,词典的使用方式这一系列非常基础的问题。
(二)构造词库数据库(constructing the lexical database)·构建词典的两种基本方式:自动获取/ 手工编制。
手工构建词典的优点之一是便于创建更为丰富的词条信息;其次是便于控制。
(三)WordNet的内容· WordNet的描述对象包含compound(复合词)、phrasal verb(短语动词)、collocation(搭配词)、idiomatic phrase(成语)、word(单词),其中word 是最基本的单位。
· WordNet并不把词语分解成更小的有意义的单位(这是义素分析法/componential analyses的方法);WordNet也不包含比词更大的组织单位(如脚本、框架之类的单位);由于WordNet把4个开放词类区分为不同文件加以处理,因而WordNet中也不包含词语的句法信息内容;WordNet包含紧凑短语,如bad person,这样的语言成分不能被作为单个词来加以解释。
Wordnet是一个WordNet是一个由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立和维护的英语字典。
在WordNet中,名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,一个多义词将出现在它的每个意思的同义词集合中。
WordNet是按语义关系组织的,其语义关系有以下几类:(1)同义关系。
WordNet最重要的关系就是词的同义关系,因为判断词这种关系的能力是在词汇矩阵中表达词义的先决条件。
Wordnet中根据替换原则定义同义词:如果两种表达方式在语言文本中相互替代而不改变其真值,则这两种表达就是同义的。
因而,WordNet分成名词,动词、形容词和副词几大类。
不同词类中的语义关系类型也不同。
比如尽管名词都动词都是分层级组织词语之间的语义关系,但在名词中,上下位关系是hyponymy关系,而动词中是troponymy关系;动词中的entailment(继承)关系有些类似名词中的meronymy (整体部分)关系。
名词的meronymy关系下面还分出三种类型的子关系(见“WordNet中的名词”部分)。
(2)反义关系。
反义词是一种词形间的词汇关系,而不是词义间的语义关系。
反义关系为WordNet中的形容词和副词提供了一种中心组织原则。
(3)上下位关系。
上下位关系具有某种限制,且是一种不对称的关系(Lyons,1977,v01.1),由下它只有唯一的上属关系,这就产生了一种层次语义结构,其中下位词位于其上属关系的下层。
下位词继承了它的上位词——更一般化概念的所有性质,并且至少增加一种属性,以区别它与它的上位词以及该上位词的其他下位词。
这种方法为WordNet中的名词提供了一种核心的组织原则。
在名词网络中,通过词语的上下位关系来计算词间的距离是WordNet 中简单常用的一种计算相似度方法。
(4)部分-整体关系(HASA)。