自然语言理解-词典介绍
- 格式:ppt
- 大小:486.50 KB
- 文档页数:99
python+NLTK⾃然语⾔学习处理五:词典资源前⾯介绍了很多NLTK中携带的词典资源,这些词典资源对于我们处理⽂本是有⼤的作⽤的,⽐如实现这样⼀个功能,寻找由egivronl⼏个字母组成的单词。
且组成的单词每个字母的次数不得超过egivronl中字母出现的次数,每个单词的长度要⼤于6.要实现这样的⼀个功能,⾸先我们要调⽤FreqDist功能。
来得到样本字母中各个字母出现的次数puzzle_letters=nltk.FreqDist('egivrvonl')for k in puzzle_letters:print(k,puzzle_letters[k])得到如下结果:可以看出puzzle_letters其实是⼀个可迭代的对象,并且是以字典形式存在的,key值为字母,item为字母出现的次数e 1g 1i 1v 2r 1o 1n 1l 1那么我们是否可以通过FreqDist来⽐较两个单词的字母是否包含呢,来看下⾯的这个例⼦:对两个FreqDist对象进⾏⽐较print(nltk.FreqDist('eg')<=puzzle_letters)print(nltk.FreqDist('ae') <= puzzle_letters)运⾏结果:如果puzzle_letters包含前⾯被⽐较的对象,则会返回true,⽐如eg都包含在'egivrvonl'中,⽽ae尽管e包含在'egivrvonl'中,但是a并不存在,因此返回False.TrueFalse介绍了FreqDist的功能,那么我们⼤致已经清楚该如何实现我们的这个功能。
我们创建两个FreqDist对象,其中⼀个由egivronl组成。
其中由nltk.corpus.words.words()中的单词组成,将两个对象进⾏⽐较得到满⾜的单词puzzle_letters=nltk.FreqDist('egivrvonl')obligatory='r'wordlist=nltk.corpus.words.words()ret=[w for w in wordlist if len(w) >=6 and obligatory in w and nltk.FreqDist(w) <= puzzle_letters]print(ret)obligatory代表单词中必须包含r,然后通过w for w in wordlist if len(w) >=6 and obligatory in w and nltk.FreqDist(w) <= puzzle_letters来得到满⾜条件的单词:1 长度⼤于6 2 r包含在单词中 3 w单词中单词都来⾃于'egivrvonl'得到的结果如下:['glover', 'gorlin', 'govern', 'grovel', 'ignore', 'involver', 'lienor', 'linger', 'longer', 'lovering', 'noiler', 'overling', 'region', 'renvoi', 'revolving', 'ringle', 'roving', 'violer', 'virole']这个功能类似⼀个词谜游戏,通过NLTK中的功能与词典资源可以很轻松的得出结果。
自然语言理解教学大纲教材:自然语言理解赵海清华大学出版社第1章:自然语言处理概要1.概念和术语包括什么是自然语言、自然语言处理和自然语言理解的关系、以及计算语言学。
2.自然语言处理技术的挑战自然语言处理被迫需要承担两类知识一一常识知识与语言学知识的处理和解析任务。
后者属于自然语言处理这一领域独一无二的需求。
3.机器翻译4.语言处理层次形态分析、句法分析、语义分析、语用分析、篇章分析、世界知识分析5.应用型自然语言处理人机对话系统6.自然语言处理的学术出版体系国际计算语言学会(AC1)等第2章:n元语言模型1.概率论基础首先回顾概率论的基本知识,如联合概率、条件概率、贝叶斯等。
2.语言模型用于语言生成语言生成的过程称为解码。
n元语言模型给出的是n元组出现的概率,因此合理或正确的语言现象必然有更大的概率或似然,这一观察是语言模型能在预测性解码任务之中发挥作用的关键。
3.n元语言模型的工作方式n元机制、马尔可夫假设4.评价指标困惑度5.n元语言模型的平滑方法1aP1aCe平滑、Good-TUring平滑、Je1inek-MerCer平滑、KatZ平滑、KneSer-Ney平滑、Pitman-YOr平滑6.非n元机制的平滑方法缓存、跳词、聚类7.平滑方法的经验结果对比几种平滑技巧的组合效果,以及对比它们在困惑度和语音识别的单词准确率上的差异。
8.n元语言模型的建模工具介绍了一些常用的平滑工具包第3章:语言编码表示1.独热表示用独热码表示语言符号2.特征函数一个文本对象样本基于词一级的独热表示就是展示n元组本身,因此这个部分也称之为n元组特征,它也是自然语言最直接、最基本的特征。
3.通用特征模板在实际机器学习模型建立过程中,会用到成千上万维的特征向量,故而涉及成千上万个特征函数,如果这些函数要一个个定义,建模过程将会变得烦琐不堪。
因此,实际上,特征函数可以按照定义属性进行分组,这样统一定义的一组特征函数(对应于特征向量维度上的一个片段)称之为特征模板。
自然语义的元语言阐释张文彦序言一直以来,人们对语言的研究都遵循着皮尔斯的三分法模式:语法、语义、语用。
客观的讲,除了对语音和语法的研究取得一定的成果之外,语义和语用部分进展很缓慢,甚至有的语言学家认为语义研究不能看作一门科学,这是大多数语言学家都无法接受的。
然而事实情况是,不论在哲学领域、人工智能领域、还是词典学界,人们对于语义分析的需求越来越迫切。
于是出现了各种各样的语义分析理论和观点。
今天我们主要介绍的是自然语义元语言的观点。
简单说就是用元语言的办法来解释和处理语义。
(一)自然语义元语言的思想核心1、语言是用来表达意义的,因此对语言的研究应该从意义来着手。
2、不论是词项、语音、还是句法结构,都有着各自的语义,可以称之为词汇语义,语法语义,语用语义等。
甚至会有文化语义。
3、和逻辑学家不同,自然语义元语言的支持者们认为语义研究的并不是符号和现实世界的关系,而是符号和人类认知的世界之间的关系。
4、通过寻找基本义素(或者说是各个语言的共同语义最小片段)的办法,我们可以确定一些最初始的概念或词汇,以此来解释具有复杂语义的概念、词汇、或者句法结构。
(二)研究相关性这样一种寻找基本义素生成语义的思想和形式语义学中对词项和修辞关系确定中所要求的初始谓词有着理念上的异曲同工之处。
SDRT对这些初始谓词报以搁置的态度,究竟有多少初始谓词,应该以什么样的方式组合来生成新的概念,都还没有涉及。
只是在需要用到初始谓词来确定语义时才凸显一下,非常不成系统。
如果自然语义元语言能够找到足够的基本义素,那么自然语义的形式化也就有了坚实的基础。
首先我们来看什么是元语言。
一、元语言的发展历程20世纪20年代,德国数学家Hilbert创造出metamathematics一词,借助于前缀meta-而构成的新概念也不断涌现出来。
(如元科学、元理论、原问题)metalanguage也随之提出。
Meta是标志着研究层面转变的一种哲学语言,指人们的讨论对象由客体(object)转变为讨论(talk)本身。
内容大概分为:自然语言处理的简介、关键技术、流程及应用。
首先,介绍一下什么是自然语言处理(也叫自然语言理解):语言学家刘涌泉在《大百科全书》(2002)中对自然语言处理的定义为:“自然语言处理是人工智能领域的主要内容,即利用电子计算机等工具对人类所特有的语言信息(包括口语信息和文字信息)进行各种加工,并建立各种类型的人-机-人系统,自然语言理解是其核心,其中包括语音和语符的自动识别以及语音的自动合成。
”从微观上讲,自然语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。
从宏观上看,自然语言理解是指机器能够执行人类所期望的某些语言功能。
这些功能包括:①回答有关提问;计算机正确地回答用自然语言输入的有关问题②提取材料摘要;机器能产生输入文本的摘要③同词语叙述;机器能用不同的词语和句型来复述输入的自然语言信息④不同语言翻译。
机器能把一种语言翻译成另外一种语言自然语言处理的关键技术自然语言处理的关键技术包括:词法分析、句法分析、语义分析、语用分析和语句分析。
1.词法分析词法分析的主要目的是从句子中切分出单词,找出词汇的各个词素,并确定其词义。
词法分析包括词形和词汇两个方面。
一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。
在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。
通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。
它是中文全文检索技术的重要发展方向。
不同的语言对词法分析有不同的要求,例如英语和汉语就有较大的差距汉语中的每个字就是一个词素,所以要找出各个词素是相当容易的,但要切分出各个词就非常难。
如”我们研究所有东西“,可以是“我们——研究所——有——东西”也可是“我们——研究——所有——东西”。
英语等语言的单词之间是用空格自然分开的,很容易切分一个单词,因而很方便找出句子的每个词汇,不过英语单词有词性、数、时态、派生、变形等变化,因而要找出各个词素就复杂得多,需要对词尾和词头进行分析。
中国·广州 现代外语 1998年第3期(总第81期):46261自然语言的心理表征与词典释义 章宜华随着教育事业的不断发展,人们认识到传统消极型词典不能适应学习和教学的需要,着手编纂并出版了大量的积极型学习词典。
但大多数学习词典仍采用传统的“充分必要条件”进行释义,继续严格遵循“替代性”原则,使释义的质量难以得到根本的提高。
本文从自然语言语义生成的心理表征入手,对现行的释义方式和原则提出质疑,指出应采用自然语言的概念结构、语义结构和句法结构,在各种规范化规则和语用规则的制约下进行释义,从根本上改变传统的释义方法和原则,提高积极型学习词典的释义质量。
关键词: 积极型词典 释义 概念结构 优先规则 搭配11引言 自然词汇产生于一定的语言和社会环境,每一个词的出现都伴随着特定的使用语境和创造者的心理动机。
一旦这个词进入语言系统、为公众所接受,这些原始特征也作为词的意义成分,与词的所指对象和声音一道存入人的大脑,构成复合所指内容。
当人们对这些词进行释义时,必须要反映这些意义成分。
然而,传统词典和现今许多学习词典的释义,对自然语言的语义结构或概念结构以及认知语言学在这方面所取得的研究成果没有给予足够的重视,只是凭感觉来寻觅概念的“充分必要条件”,并把“替代性”作为释义原则长期严格遵循。
这种释义难以全面、准确地揭示词义,受到了许多语言学家的批评(见212,213);更重要的问题是这种释义难以适应迅速发展的教育和学习的需要。
那么,自然词汇是怎样为人所习得并贮存在大脑中的?人们是怎样根据需要调用、组织词汇来表达思想的?我们有必要对这些问题做一些探讨,以便使我们的词典释义与人们的心理表征相符合。
应当指出的是,本文并非试图论述完整的形式语义理论和心理表征结构特征,只是想探讨一下这些意义理论,特别是心理表征对词典释义有益的某些方面。
21概述在50年代末期出现了生成语法,其研究对象是内在化语言,目标就是解释和描述人们对语言的直觉或语感。
1 引言自然语言理解这个概括的术语,适用于多样的电脑应用,从小型、相对简单之事,例如发给机器人的简短命令,到高度复杂的任务,例如完全读懂报纸新闻或理解一段诗。
许多真实世界的运用介于两个极端之间,例如文本分类用于自动分析电邮,并且将其转发至公司适合的部门,并不需要深切理解文本[1],但是比起结构固定的数据库之查询,要处理的词汇以及句法更广更多样。
自然语言理解系统设定的目标深度与广度,决定其复杂度(连带隐含的挑战)与处理的应用类型。
系统的广度以其词汇及文法的多寡来衡量;系统的深度以其相对于母语人士的理解程度来衡量。
“近似英语”指令的翻译程式属于最窄浅的一种,但处理的应用也少。
狭窄但深入的系统探究并模拟理解的机制[2],但应用范围仍然有限。
超越简单关键字对比的文件内容理解系统,例如判断新闻稿是否适合某读者,属于比较宽广的系统,也算复杂[3],但是仍然有些浅薄。
既广且深的系统,现今的尖端技术仍无法达成。
2 概念及主要内容自然语言处理(N LP , Natural Language Processing)是使用自然语言同计算机进行通讯的技术, 因为处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解(NLU ,Natural Language Understanding), 也称为计算语言学(Computational Ling uistics)。
一方面它是语言信息处理的一个分支, 另一方面它是人工智能(AI , Artificial Intelligence)的核心课题之一。
Natural Language Understanding 俗称人机对话。
人工智能的分支学科。
研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。