自然语言理解-语料库..共52页文档
- 格式:ppt
- 大小:3.61 MB
- 文档页数:52
一分词概述语言学中一般将“词”定义为“能够独立运用的,有意义的最小语法单元”。
自然语言中句子是由词组成的,而计算机要理解和处理自然语言就是从词这一步开始的。
汉语不同于西文,在一个汉语句子中,词与词之间没有明显的分隔符(如空格)。
此外,汉语的词法约束很不规范,而且千变万化,就给汉语分词带来了很大的麻烦。
正是由于汉语分词的困难及其在中文信息自动处理中的重要地位,自70 年代末以来,许多人投入到了汉语自动分词的研究工作中来,也出现了好多具有应用前景的分词方法。
1.1 汉语分词的歧义汉语分词是汉语分析以及计算机处理汉语的一大难点,导致汉语分词精度不高的原因一般有:词语(抑或说汉语分析基本单位)的界定、词典范围、分词中因为算法问题产生的歧义。
分词过程中歧义产生的根源可归结为以下三类:(1)由自然语言的二义性所引起的歧义,称为第一类歧义。
如:“乒乓球拍卖完了”可切分为“乒乓球/拍卖/完了”又可以切分为“乒乓球拍/卖/完了”。
这两种切分形式无论在语法上还是语义上都是正确的,就是人工分词也会产生歧义,只有结合上下文才能给出正确的切分。
(2)由机器自动分词产生的特有歧义,称为第二类歧义。
如:“在这种环境下工作是太可怕了”用机器切分可以切分为“在/这种/环境/下工/作/是/太/可怕/了”也可以切分为,“在/这种/环境/下/工作/是/太/可怕/了”。
对本句来说,只有第二种切分是正确的,用人工分词是不可能产生歧义的,歧义是由于机器机械切分产生的。
(3)由于分词词典的大小而引起的歧义,称为第三种歧义。
如:“王小二是一个农民”用机器切分被分为“王/小/二/是/一个/农民”,这里“王小二”是一个人名,在汉语中应是一个词,所以这个切分是错误的。
由于机器自动切分是依据分词词典进行的,故词典中没有的词,就不可能被正确切分,分词词典不可能也没有必要包括所有的词(如人名、地名),同时,词典中所包括的词越多,就会产生新的歧义。
例如“发展社会主义的新乡村”,新乡是一个地名,若词典中有该词,则“新乡村”是一个歧义字段。
语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。
传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。
计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。
后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。
语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。
多年来,机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。
因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub-language)中获得一定的成功。
为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。
不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。
本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。
一、国外语料库概况现在,美国Brown大学建立了BROWN语料库(布朗语料库),英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB 语料库。
欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。
什么是语言相信大多数同学都有过和计算机对话的经历,我们这个苹果手机上搭载了SIRI,我们的微信上也有一些公众号,它们能够在一定程度上跟我们进行文字交流。
可见计算机能够理解自然语言,也就是我们人类的语言,使得我们觉得人工智能更加的平易近人了。
今天我们就来详细的聊一聊自然语言理解这门技术,语言是人类区别其他动物的本质特性之一。
在所有生物中,只有人类才具有语言能力。
当然,我们话不能说的这么绝对。
语言:语言是人类区别其他动物的本质特性。
在所有生物中,只有人类才具有语言能力。
人类的多种智能都与语言有着密切的关系。
人类的逻辑思维以语言为形式,人类的绝大部分知识也是以语言文字的形式记载和流传下来的。
因而,它也是人工智能的一个重要,甚至核心部分有些报道说猩猩也会一定的语言,2004年的报道中,美国有只猩猩啊,说是会1000个单词的手语,可以和人类通过手语交流,这个猩猩发音好像由于构造原因不能发那么多复杂的音节,但人家不傻,可以用手语交流,不禁让老师感叹也许这个人猿星球中的未来,还真说不准什么时候就会到来。
但不管怎么说,这个语言是高级智能的一种最直观的反应。
人类的逻辑思维以语言为形式,人类的绝大部分知识也是以语言文字的形式记载和流传下来的。
因此,它是人工智能的一个重要,甚至是核心的一个部分。
当然,这门技术不光光是用在人机交互这个功能上。
我们用机器翻译的时候就需要用到自然语言理解的技术,未来如果这门技术发展到非常成熟了,我们就不需要学四六级了,不管去什么国家,带个电脑做翻译,你说一句中文,它说一句英语。
这种工具在很多的科幻片里面都出现过。
非常的方便,但是现在大家还是要好好学英语,因为这个技术现在还不够成熟,大家可以期待我们的后代能够免去学习外语的痛苦。
但是话说回来,我们这节课还真要用到一些英文,因为传统的自然语言理解的就是建立在英文的基础上的。
大家似乎没法回忆自己是如何掌握第一门语言了吧?也就是中文的学习过程,但英文的学习过程大家应该都还记得比较清楚,很多同学可能从小学就开始学英文。
自然语言理解自然语言理解自然语言也就是我们是日常使用的语言,像各国语言汉语,英语等只要能完成人们之间相互交流的语言就成为自然语言,自然语言是人类学习环境和互相通讯的工具。
在人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。
就计算机的应用而言,据统计用于数学计算的仅占10%,用于过程控制的不到5%,其余85%左右都是用于语言文字的信息处理。
所谓语言信息处理,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。
根据可计算性理论,任一计算机的运算都是按一定程序,分步骤相继作用在离散对象之上所完成的,而这些对象又都以线性序列相邻接地排列组合所构成。
而自然语言具有的离散性、序列性和邻接性三个特征其具备了“可计算性”,为自然语言处理奠定了物质基础。
语法是语言的组织规律。
语法规则制约着如何把词素构成词,把词构成词组和句子。
语言正是在这种严格的制约关系中构成的。
用词素构成词的规则称为构词规则,如“学”+“生”构成“学生”。
一个词又有不同的词形、单数、复数、阴性、阳性等等。
这种构造词形的规则称为构形法,如“学生”+“们”构成“学生们”。
这里,只是在原来的词的后面加上了一个具有复数意义的词素,所构成的并不是一个新词,而是同一个词的复数形式。
构形法和构词法称为词法。
语法中的另一部分是句法。
句法可分为词组构造法和造句法两部分。
词组构造法是把词搭配成词组的规则,例如,把“新”+“朋友”构成“新朋友”。
这里,“新”是一个修饰“朋友”的形容词,它们的组合构成了一个新的名词。
造句法则是用词和词组构造句子的规则,如“我们是计算机系的学生”就是按照汉语造句法构造的句子。
对于自然语言德理解,能够更好的处理计算机语言与人类语言的交互。
他也就是利用计算机技术研究和处理语言的一门学科,即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。
No.95, Zhongguancun Beijing 100080, ChinaNLPR4.1 基本概念NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念输入输出处理模块大规模语言数据:•模型参数训练•知识获取NLP中知识库包括:•词汇语义库语言数据库或知识库•词法、句法规则库•常识库等等NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念语料库(corpus)¾语料库(corpus)就是存放语言材料的仓库(语言数据库)。
基于语料库进行语言学研究-语料库语言学(corpus linguistics)NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念语料库语言学根据篇章材料对语言的研究称为语料库语言学。
-[Aijmer, 1991]基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。
-[McEnery, 1996]以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。
-[Crystal, 1991] NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念两种解释:不是新术语:利用语料库对语言的某个方面进行研究,或者发现某些规律性知识。
是新术语:对现行语言学理论进行批评,提出新的理论。
NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念“语料库语言学已经成为语言研究的主流。
基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。
”-J. Thomas等人为祝贺语料库语言学的主要奠基人和倡导者G. Leech六十岁生日而出版的语料库语言学研究论文集的开场白[丁信善,1998]。
NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念语料库语言学研究的内容:语料库的建设与编纂语料库的加工和管理技术语料库的使用NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR4.2 语料库技术的发展NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.2语料库技术的发展三个阶段20世纪50年代中期之前:早期¾语料库在语言研究中被广泛使用:语言习得、方言学、语言教学、句法和语义、音系研究等NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.2语料库技术的发展1957~20世纪80年代初期:沉寂时期¾1957年Chomsky的《句法理论》及其以后一系列著作的发表,根本改变了语料库语言学的发展状况。