当前位置:文档之家› NATURAL RESOURCE CONSERVATION AND CROP MANAGEMENT EXPERT SYSTEMS

NATURAL RESOURCE CONSERVATION AND CROP MANAGEMENT EXPERT SYSTEMS

NATURAL RESOURCE CONSERVATION AND CROP MANAGEMENT EXPERT SYSTEMS
NATURAL RESOURCE CONSERVATION AND CROP MANAGEMENT EXPERT SYSTEMS

浅谈自然语言处理

浅谈自然语言处理 摘要 主要阐述了自然语言处理的定义,发展历史,并对其研究内容,以及目前相关领域的应用加以讨论。最后对自然语言处理的未来发展趋势做简单的介绍。 关键词 自然语言处理 Abstract The definition and the development history of Natural Language Processing(NLP) are explained,the research content and the applications in interrelated areas of NLP are discussed.And the develop direction of NLP in the future are simply introduced. Key Words: Natural Language Processing(NLP)

0.引言 早在计算机还未出现之前,英国数学家A.M.Turing便已经预见到未来计算机将会对自然语言处理研究提出新的问题。他指出,在未来我们可以“教机器英语并且说英语。”同时他觉得“这个过程可以仿效教小孩子说话的那种办法进行”。这便是最早关于自然语言处理概念的设想。 人类的逻辑思维以语言为形式,人类的多种智能都与语言有着密切的联系。所以用自然语言与计算机进行通信是计算机出现以来人们一直所追求的目标。 1.什么是然语言处理 美国计算机科学家Bill Manaris(马纳瑞斯)在1999年出版的《计算机进展》(Advances Computers)第47卷的《从人—机交互的角度看自然语言处理》一文中,曾经给自然与然处理提出了如下定义:“自然语言处理可以定义为研究在人与人交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”这个定义被广泛的接受,它比较全面的地表达了计算机对自然语言的研究和处理。 简单来说,自然语言处理就是一门研究能实现人鱼计算机之间用自然语言处理进行有效的通信与方法的一门学科,它是计算机科学领域与人工智能领域中的一个重要方向。普遍认为它主要是应用计算机技术,通过可计算的方法对自然语言处理的各级语言单位(字,词,语句,篇章等)进行转换,传输,存储,分析等加工处理的学科,是一门融合了语言学,计算机学,数学等学科于一体的交叉性学科。 互联网技术的发展,极大地推动了信息处理技术的发展,也为信息处理技术不断提出新的需求,语言作为信息的载体,语言处理技术已经日益成为全球信息化和我国社会及经济发展的重要支撑技术。

自然语言处理_NLP Dataset for Training and Testing Models(NLP训练和测试模型数据集)

NLP Dataset for Training and Testing Models(NLP训 练和测试模型数据集) 数据摘要: Three data sets from the PASCAL Recognising Textual Entailment Challenge. they are Development Set,Test Set,Annotated Test Set. 中文关键词: 训练,测试模型,开发集,测试集,带注释的测试集, 英文关键词: Training,Testing Models,Development Set,Test Set,Annotated Test Set, 数据格式: TEXT 数据用途: Information Processing 数据详细介绍:

NLP Dataset for Training and Testing Models Three data sets from the PASCAL Recognising Textual Entailment Challenge. For more information about the contest (now ended) and instructions for the data sets, please visit the official site. Development Set (58k zipped) Test Set (74k zipped) Annotated Test Set (67k zipped) 数据预览:

点此下载完整数据集

什么是语言类型学

《什么是语言类型学》读后感 本学期阅读了一本语言学专业书籍—《什么是语言类型学》。这本书使我不仅仅了解到了语言类型学的相关知识,更加是让我对世界语言的共性得到了了解。世界上的语言有几千种,但是它们却都可以找到一些共性。同时,阅读这本书也使我更加了解了我们的母语—汉语。 语言类型学是属于语言学,而不是属于类型学。因为它的研究对象是包括世界上所有语言的类型。绝大部分人都会认为,世界上所有的语言都不一样,外语跟自己的母语会完全不同。但是在世界许多语言学家的研究来看,语言也是有类型的,但只有几种为数有限的语言类型。语言学是研究人类语言中的要素和规则的。语言中的要素都是客观存在的,例如语音和词汇单位。语言中的规则也是客观存在的,例如构词法、句法、篇章构成的方法等等。要素的客观存在是可以通过实验来证实的,规则的客观存在则是要通过不以某个人的意志转移而必须服从来体现。因此语言学要研究的都是可观察的对象,拿客观性这个标准来衡量,语言学属于严格意义上的科学,它不同于主观性为主的文学艺术等学科。 人类对语言的研究已经有了两千多年的历史,人类对探索自己的语言的兴趣至今不减。我们对语言进行分类的目的是为了解释某种语言现象。通过这本书语言类型学的研究成果我们可以知道,世界上所有的语言都有类型上的一致性,这种一致性实际上就是普遍性,或者共性。因此语言类型学对世界语言的划分是一种追去普遍共性理论解释的工作。它对语言的划分本身表现为一种理论,这种理论尽可能地对所有语言具有普遍的解释价值。语言类型学要解释的是不同的语言类型之间都有哪些内在的一致性,这种一致性在哪些方面要表现为一套规则系统,这种规则系统背后是什么样的制约规律在起作用,这种规律性的作用是否同样作用于世界上所有的语言。通过对语言的各种不同类型的考察,发现某些规则是某些类型的语言所具有的,而另一些语言并不具有。语言类型学也同样追求对人类的语言作出普遍的解释,并且通过建立一套有层次的规则系统来解释的。这就是我读过这本书所了解到的语言类型学的研究目标。 每一种学科有自己的研究目标就有自己的研究方法。而研究方法也是由研究目标所决定的。语言类型学首先便要学会调查。语言类型学要建立的是人类语言的类型,它理所当然地包括现存的世界上的所有的语言,因此语言类型学要求研究者对人类语言作尽可能广泛的调查,在调查的基础上对各种语言现象进行抽象和分析,在此基础上才可能对各种现象进行一致性分类,并从这些分类中寻求规律。接着研究语言类型学就要分类并寻求相关性。如果一个研究者仅仅对某种语言现象进行了甚至是穷尽性的调查,得到了许多翔实的数据或者是资料,接下来更重要的工作是对这些数据和资料进行分类,在分类的同时寻求这些类别与另一些相关的类型参项的联系,即寻去它们之间可能存在的一致性或条件关系,只有把这种一致性或条件关系建立起来,我们才能从中寻求解释,才能建立起语言类型学的理论。最后对类与类之间的相关性或条件关系提出它们为何存在必然关系的证明和解释。这就是语言类型学的研究方法。 美国著名语言学家和人类学家格林伯格是语言类型学研究学者中最有代表性的,是现代语言类型学的奠基者。他将语言类型学的研究方向从语言的形态研究方便转向了语言的语法类型。因而语言类型学的形态类型和语序类型是研究得相对较为充分的,成果丰富。而语音类型、历史演变类型、时体类型、地理类型等领域的研究成果相对薄弱。 通过这本书的阅读理解,使我知道了语言类型学的研究对象、研究目标、研究方法以及研究领域。我相信,随着研究的一步步深入,人类语言的真实面目终究有一天会完全展示在我们面前,犹如人类基因图谱真是地展示在我们面前,是我们能一睹生命的奥妙一样,我们

自然语言处理

《自然语言处理》课程教学大纲 一、课程基本信息 1、课号:CS229 2、课程名称(中/英文):自然语言处理/Natural Language Processing 3、学时/学分:32/2 4、先修课程:程序设计语言 5、面向对象:本科三\四年级(ACM班) 7、教材、教学参考书: ?James Allen. Natural Language Understanding (The Second Ver.) The Benjamin / Cummings Publishing Company, Inc., 1995. ?Christopher D. Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing. The MIT Press. Springer-Verlag, 1999 二、本课程的性质和任务 自然语言处理是计算机科学与技术专业的一门专业选修课。它的主要任务是使学生了解自然语言处理的主要研究内容及关键技术,并介绍自然语言处理方面的研究成果,为学生从事自然语言处理研究和开发做准备。此外,通过指导学生阅读计算语言学专业会议的论文,进行摘要和评价,并进行介绍、提问和讨论,使他们对所学课程的有关概念与目前的流行方法和技术的关系有更深入地了解。在此基础上,要求学生完成一篇有关自然语言处理主题的课程项目,使他们能用所学的知识发挥自身的能力查找有关资料和概括某一研究领域的国内外最新理 论和技术并最终加以实践。 三、本课程教学内容和基本要求 1. Overview (4)

语言类型学的眼光

域的语言文字标准。信息领域的语言文字标准具有工业标准性质,促进了制标手段的现代化,特别是在 民间首倡、政府颁布 转变到 政府为主之后,又开始出现 企业为主、国际合作 的制标新体制。 时代日行千里,新的语言生活领域不断出现,一些领域对语言文字标准会有新需求。比如,汉语国际传播需要建立语言文字标准、语言文字教学标准和相关的工作标准;计算机屏幕的书面语显示,需要有新的标点符号、行款格式标准;信息时代的小学识字教学,需要有合适的小学信息教育软件和支持识字教学的软件;需要研究中西文混排、汉语与民族语混排等的技术标准;等等。语言文字标准的制定应有战略性思考,在机制、体制等方面要有新举措,特别需要认识新形势,研究新问题,理念更新,思想解放,开拓语言文字标准建设的新局面。 [附注] !见?说文解字#序?。 %1981年5月停用。 &1987年5月,在山东泰安举行的全国第三次手语工作会议,确定将?聋哑人通用手语图?易名为?中国手语?。1994年出版?中国手语?(续集)。 2003年5月,?中国手语?再次修订出版。 [参考文献] [1]费锦昌.中国语文现代化百年记事(1892~ 1995)[Z].北京:语文出版社,1997. [2]李宇明.搭建中华字符集大平台[J].中文信息 学报,2003,(2). [3]李宇明.信息时代的语言文字标准化工作[J]. 语言文字应用,2009,(2). [4]厉兵.汉字字形研究[M].北京:商务印书 馆,2004. [5]王均.当代中国的文字改革[M].北京:当代 中国出版社,1995. [6]清末文字改革文集[C].北京:文字改革出版 社,1958. 语言类型学的眼光 沈家煊 (中国社会科学院语言研究所) 格林伯格(J.H.Greenberg)是当代语言类型学的开创者和代表人物,他在1966年撰写的 语法的某些共性:论有意义成分的序次 (Some universals of gram mar with particular reference to the order of meaningful elements)一文已成为这一领域的经典论文。语言类型和语言共性其实是同一件事情的两个方面,这可以从两个角度来理解。类型学是通过比较从结构特点上对语言进行分类,然而比较得有一个共同的基础,比如,要比较各种语言名词短语的结构,前提是承认每种语言都有名词,这个前提就是语言的共性。另一个角度的理解是,世界上的语言看上去千变万化,无一定宗,其实不然,语言之间的变异要受一定的限制,有一定的变化 模式 ,有些变异不可能出现,这叫做 万变不离其宗 。这种普遍适用的变异模式也是一种共性。因此,语言的类型研究和共性研究只是侧重面不同而已:类型学主要关心语言有哪些种不同的变化类型,共性研究主要关心语言类型的变化有哪些限制。 研究语言的共性也就是要回答 什么是可能有的人类语言 这个问题。要回答这个问题现在大致有两条路子,一条是以乔姆斯基为代表的生成语法理论,它主张对一种语言用推演法找出语 # 11 # 2009年第3期纪念新中国成立60周年笔谈

自然语言处理大纲

课程编号:S0300010Q 课程名称:自然语言处理 开课院系:计算机科学与技术学院任课教师:关毅刘秉权 先修课程:概率论与数理统计适用学科范围:计算机科学与技术 学时:40 学分:2 开课学期:秋季开课形式:课堂讲授 课程目的和基本要求: 本课程属于计算机科学与技术学科硕士研究生学科专业课。计算机自然语言处理是用计算机通过可计算的方法对自然语言的各级语言单位进行转换、传输、存贮、分析等加工处理的科学。是一门与语言学、计算机科学、数学、心理学、信息论、声学相联系的交叉性学科。通过本课程的学习,使学生掌握自然语言(特别是中文语言)处理技术(特别是基于统计的语言处理技术)的基本概念、基本原理和主要方法,了解当前国际国内语言处理技术的发展概貌,接触语言处理技术的前沿课题,具备运用基本原理和主要方法解决科研工作中出现的实际问题的能力。为学生开展相关领域(如网络信息处理、机器翻译、语音识别)的研究奠定基础。 课程主要内容: 本课程全面阐述了自然语言处理技术的基本原理、实用方法和主要应用,在课程内容的安排上,既借鉴了国外学者在计算语言学领域里的最新成就,又阐明了中文语言处理技术的特殊规律,还包括了授课人的实践经验和体会。 1 自然语言处理技术概论(2学时) 自然语言处理技术理性主义和经验主义的技术路线;自然语言处理技术的发展概况及主要困难;本学科主要科目;本课程的重点与难点。 2 自然语言处理技术的数学基础(4学时) 基于统计的自然语言处理技术的数学基础:概率论和信息论的基本概念及其在语言处理技术中的应用。如何处理文本文件和二进制文件,包括如何对文本形式的语料文件进行属性标注;如何处理成批的文件等实践内容 3 自然语言处理技术的语言学基础(4学时) 汉语的基本特点;汉语的语法功能分类体系;汉语句法分析的特殊性;基于规则的语言处理方法。ASCII字符集、ASCII扩展集、汉字字符集、汉字编码等基础知识。 4 分词与频度统计(4学时) 中文分词技术的发展概貌;主要的分词算法;中文分词技术的主要难点:切分歧义的基本概念与处理方法和未登录词的处理方法;中外人名、地名、机构名的自

语言类型学

语言类型学 一,语言学流派大体上分成两类:形式学派和功能学派。这两派都是为了寻找语言的本质。 但是语言类型学并不关心语言的本质究竟是什么(或者说是以另外一种方式关心),这一流派以研究方法和研究观念而区别于传统的两大阵营。当然,在语言类型学中,也有的学者偏形式,也有的学者片功能,用刘老师的话说就是:这里没有分界,只有程度。现在比较热门的方向是词类类型学。 二,形式语法跟语言类型学基本是正好相对的(这和那台湾老师的说法一样)。形式语言学是从一种语言出发,向纵深挖掘,找出人类语言的深层结构,这是演绎式的。类型学是从很多种语言中找出共同点来,从而探索到人类语言的共同形式,这是归纳式的。 两者的区别就是:前者认定每一种语言都是深层结构的分支,从一种逆流向上总能找到源头。后者认为每一种语言都是深层结构的一个表现,通过大范围整理语料,可以消除不同之处,找到原初的语言形式。 三,形式学派是test,即告诉人们什么是“不可说”,未作规定的便合法(这就和法理上的原则是一样的) 功能学派是text,即重视篇章、语用这些东西,“这世上没有语法,只有语法化”。 类型学派是attest,探讨某几种语言的共性和变异限度,看语言中是否有某种结构。 四,双宾语结构可以作为非常好的测试样本,各种语言中的双宾语有很大不同,不但表现了语法规则,还代表了语用、篇章知识在语法化过程中的痕迹。我们要考察的是:这一意义是怎么表达的?近宾语和远宾语的结构是怎样的?是否被介词隔开了? 语言类型学 语言类型学有广狭松严不同的种种含义,但都离不开一个“跨”字,即它必须有一种跨语言(及跨方言、跨时代)的研究视角,才能称为类型学研究。而严格意义上的类型学,是具有自己研究范式的“语言共性与语言类型研究”。 从当代语言学的学术构成看,语言类型学既是语言学的一种分支,也是语言学的一种学派。 说它是分支,因为它和其他研究领域构成了某种分工:承担了跨语言比较和在比较中总结人类语言共性的任务,从而与注重语言结构内部深入研究的工作形成学科上的一种互补合作。

自然语言处理技术分享1

内容大概分为:自然语言处理的简介、关键技术、流程及应用。 首先,介绍一下什么是自然语言处理(也叫自然语言理解): 语言学家刘涌泉在《大百科全书》(2002)中对自然语言处理的定义为:“自然语言处理是人工智能领域的主要内容,即利用电子计算机等工具对人类所特有的语言信息(包括口语信息和文字信息)进行各种加工,并建立各种类型的人-机-人系统,自然语言理解是其核心,其中包括语音和语符的自动识别以及语音的自动合成。” 从微观上讲,自然语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。 从宏观上看,自然语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括: ①回答有关提问;计算机正确地回答用自然语言输入的有关问题 ②提取材料摘要;机器能产生输入文本的摘要 ③同词语叙述;机器能用不同的词语和句型来复述输入的自然语言信息 ④不同语言翻译。机器能把一种语言翻译成另外一种语言 自然语言处理的关键技术 自然语言处理的关键技术包括:词法分析、句法分析、语义分析、语用分析和语句分析。 1.词法分析 词法分析的主要目的是从句子中切分出单词,找出词汇的各个词素,并确定其词义。 词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。 不同的语言对词法分析有不同的要求,例如英语和汉语就有较大的差距 汉语中的每个字就是一个词素,所以要找出各个词素是相当容易的,但要切分出各个词就非常难。 如”我们研究所有东西“,可以是“我们——研究所——有——东西”也可是“我们——研究——所有——东西”。

语言类型学与汉语研究

语言类型学与汉语研究

语言类型学与汉语研究 语言类型学是当代语言学的一门“显学”,但目前还不能说已是汉语语言学中的“显学”。单从语言学理念来看,类型学应当比形式学派甚至功能学派更具有与汉语语言学的亲和力。形式学派从语法能力的先天性假说出发,通过假设、演绎和母语者的语感测试来寻求生与俱来的普遍语法。功能学派则抱有与之对立的基本信念,认为语言之所以如此是因为要满足交际或认知功能的需要,于是以此为出发点,致力从语言的使用或理解规则中去解释语言的结构及其演变。两者不同程度地带有从假设出发、“主题先行”的特点。语言类型学则更多保留了语言学作为一门经验性学科的特性,注重材料、讲究实证、主张旁征博引、提倡归纳推理,力求以事实说话,在调查之前不假设任何东西。这本是最容易为中国的语言学家认可的研究方法。然而事实上,在形式、功能、类型三大当代“显学”中,偏偏是类型学在中国国内最少为人了解。怪也不怪,这与中国学术界的另一些“国情”有深刻的关系。中国的传统学术包括语言文字之学,素有尊夏贬

夷、厚古薄今、重文轻语的传统。虽然华夏-汉民族数千年来就在众多民族部族的大交融中产生发展,中国也一直是一个多民族的大家庭,但在汗牛充栋的传统中文典籍中,我们几乎看不到对汉语以外语言文字的记述,更遑论研究了。不要说非汉族语言,即使是各地的方言,除了作为“匡谬正俗”的对象偶尔一现,也很难引起历朝历代学者们的关注。也就是说,正统的学术向来缺少对异族语言的兴趣,更没有进行语言比较的传统。进入现代以来,外语、方言和少数民族语言研究都获得了强大了推动力,这本是孕育跨语言比较的很好时机。可是,50年代过于追求专业分工的前苏联式教育科研体系,以及语言研究队伍和学术兴趣向普通话的高度集中,又强化固化了不同语种研究队伍间的壁垒,形成了纯粹语种导向的语言研究体系。不要说汉语、外语和少数民族语言三大队伍很少有切实的交流,即使在古今汉语之间、普通话和方言之间也缺少实质性的沟通,更谈不上在跨语言基础上对语言共性的追求了。这种学术格局下,结构主义、功能主义、甚至生成语法都有一定的机会被引进过来成为汉语研究的利器,甚至发展成主流,唯独语言类

认知语言学与语言类型学的关系

Cognitive Linguistics and linguistic typology Johan van der Auwera and Jan Nuyts University of Antwerp 0. Introduction This chapter looks into the relations between Cognitive Linguistics and linguistic typology. Thefirst half of the chapter offers a ‘neutral’ characterization of the field of linguistic typology.Linguistic typology is defined as a cross-linguistic, descriptive as well as explanatory enterprisedevoted to the unity and diversity of language with respect to linguistic form or the relationbetween linguistic form and meaning or function. The second half is devoted to an explorationof the relations between linguistic typology and Cognitive Linguistics. It is argued that the twostrands are eminently compatible, that there is work that illustrates this, but also that mostcognitive linguists and typologists nevertheless work in different spheres. In a first section wediscuss the difficulty of applying typology’s sampling method in Cognitive Linguistics. In asecond one, we focus on the typologists’ prim e orientation on grammar and their hesitation torelate their strictly speaking linguistic generalizations to wider cognitive concerns. 1. What is linguistic typology? The term ‘linguistic typology’ is rather general. It could be taken to mean no more than theinvestigation of linguistic types. Linguistic types appear when the linguist has classified linguistic entities in virtue of a similarity. In this sense, any linguistic discipline counts as typology. Inmorphology, for instance, prefixes and suffixes can be said to be entities of the same type, called‘affixes’; and affixes and roots or stems are also entities of the same type, called ‘morphemes’.In sociolinguistics, most Australian languages and most native American languages are of thesame type: they are all threatened languages. Or in

关于语言类型学

关于语言类型学

关于语言类型学 语言类型学(linguistic typology)是研究各种语言的特征并进行分类的学科。其方法是比较这些语言,找出其相同和相异之处。 语言类型学与历史比较语言学的区别 学者们比较语言特征往往抱有不同的目的。第1种是追溯历史渊源,其方法是比较各语言的语法结构和最古老的基本词汇的语音和语义,发现这些语言之间的亲属关系。第2种是建立人类语言类型体系,其方法是按某些特征把语言分类,如把汉语和马来-波利尼西亚语系波利尼西 亚语族的萨摩亚语都归入孤立型语言(虽然二者并无亲属关系)。第3种是寻找人类语言的普遍现象或近乎普遍的现象,其方法是考察某一特征存在于多少种语言之中。这样做,同样不问所研究的语言是否有亲属关系。由于目的不同,第1种比较工作是历史比较语言学家的事情,第2、第3种才是类型语言学家的事情。 在语言类型研究方面有较大贡献的是德国的W.F.洪堡特,美国的E.萨丕尔、R.雅柯布逊和J.H.格林伯格,英国的S.乌尔曼(1914~1976)等。 按特征对语言进行分类 远在19世纪初期,德国语言学家F.von施列格尔(1772~1829)就把世界诸语言分为3大类型,即孤立型、粘着型和屈折型。后来洪堡特又增加了编插语或称多式综合语。 孤立型语言包括汉语、越南语、萨摩亚语等等,其主要特征有两个:

①实词通常不带语法标志,如汉语单词“信”不分单复数,可指一封信或几封信;②句法关系主要靠词序表明,如"我写信”不能改为“我信写”或“信写我”。粘着型包括蒙古语、曰语、芬兰语、匈牙利语、土耳其语等等,其特征是一个词根(或词干)前面,尤其是后面有一串表示语法关系的词缀,每个词缀只表示一个语法意义,每个语法意义也只用一个词缀表示,词缀同词缀之间在语音上界限分明,不融合在一起。如土耳其语odalarimdan〔从我的(一些)房间里〕是一个词,其中词根oda (房间)后面有后缀-lar(表示复数),-im(表示第一人称单数的领属关系,相当于汉语“我的”),-dan(表示离格)等。屈折型包括拉丁语、希腊语、阿拉伯语等等,其特征是用词形的变化(即屈折)表示语法关系,而且往往一个词尾表示几个语法意义,如拉丁语am-o(我爱)中词尾-o同时表示现在时、主动态、第一人称、单数、陈述语气等5项。 上述语言类型的三分法是有用的,因为它能指出语言的一些基本特征。但这只是大体的划分,并不是十分严密和准确的。同一类型的语言,其间也还有许多差异。有的语言还兼有几种类型的特征,如英语的有些动词一个词形表示多种语法意义(He go-es表示陈述语气、现在时、主动态、第三人称单数),类似屈折型;英语词序比较固定,类似孤立型;但它的有些词根前后可能有几个表示语法意义的词缀,每个词缀只表示一个语法意义,词缀同词缀在语音上不融合在一起,界线分明,又类似粘着型,如英语的un-affect-edly(不矫揉造作地)中的un-表示否定,-ed表示形容词后缀,-ly表示副词后缀,用粘着方式串联在一起;

语言类型学

语言类型学 1.语言类型学的发展 较早的语言类型学的研究主要是分类学意义上的,她可以追溯到19世纪初期的形态类型学,当时的语言学家施列格尔(Friedrich von Schlegel)根据语言在形态方面的特征,把语言分为附加语(affixal)和屈折语( inflectional)两种类型。后来施列格尔的兄弟奥古斯特?施列格尔(August von Schlegel)又在前面的基础上加上了第三种类型:“无结构”语(nostructure),典型的如现代汉语[2?39]。德国语言学家洪堡特(W ilhelm von Humboldt, 1836)又在以上学者的基础上增加了第四种类型:多式综合语( incor-porating language)。如北美的一些语言,把动词和它的宾语整合成一个词汇形式。多式综合语的词根上可以黏附多个语素用来表示各种语法意义,一个动词词根上面可以黏附表示“时”、“体”、“态”、“式”、“人称”、“数”等各种语法意义的语素,可以构成一个结构很复杂的“词”。同样,名词的词形也有类似的语素组合形式,具有“数”、“格”等语法功能的语素与名词词根整合为一个词汇形式。实际上,奥古斯特?施列格尔的三种类型“无结构”(no structure)、“附加”(affixal)、“屈折”( inflec-tional)即相当于奥古斯特?施莱希尔的孤立语( iso-lating,例如汉语、越南语等),黏着语(agglutinative,例如蒙古语、日语、芬兰语、匈牙利语、土耳其语)和屈折语( inflectiona,l例如德语、法语、俄语、阿拉伯语等)。 萨丕尔(Edward Sapir)根据构成词的语素的多寡将语言分为“分析 语”(analytic) ,一个语素对应于一个词;“综合语”(syntheti c),少量的语素构成一个词;“多式综合语”(polysynthetic), 数量上较多的语素、一些特定词根一起共同构成一个词。因此,后来他又根据词形的变化,将语言分为四种类型:孤立语( isolating,绝对没有词缀的);黏着语

自然语言处理的应用及发展趋势

自然语言处理的应用及发展趋势 摘要本文主要阐述了自然语言处理的研究内容,以及对目前相关领域的应用加以讨论。自然语言处理的研究内容主要有四大块[1-2]:语言学方向、数据处理方向、人工智能和认知科学方向、语言工程方向。最后对自然语言处理的未来发展趋势做简单的介绍。 关键词自然语言处理应用发展趋势 一.自然语言处理的研究内容 自然语言处理的范围涉及众多方面,如语音的自动识别与合成,机器翻译,自然语言理解,人机对话,信息检索,文本分类,自动文摘,等等。我们认为,这些部门可以归纳为如下四个大的方向: (1)语言学方向 本方向是把自然语言处理作为语言学的分时来研究,它之研究语言及语言处理与计算相关的方面,而不管其在计算机上的具体实现。这个方向最重要的研究领域是语法形式化理论和数学理论。 (2)数据处理方向 是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发,近些年来则有大规模的语料库的涌现。 (3)人工智能和认知科学方向 在这个方向中,自然语言处理被作为在计算机上实现自然语言能力的学科来研究,探索自然语言理解的只能机制和认知机制。这一方向的研究与人工智能以及认知科学关系密切。 (4)语言工程方向 主要是把自然语言处理作为面向实践的、工程化的语言软件开发来研究,这一方向的研究一般称为“人类语言技术”或者“语言工程”。 二.自然语言处理的应用 以上所提及的自然语言处理的四大研究方向基本上涵盖了当今自然语言处理研究的内容,更加细致的说,自然语言处理可以进一步细化为以下13项研究内容,也即为自然语言处理的应用方向,这13个应用方向分别是[3]:口语输入、

关于语言类型学

关于语言类型学 语言类型学(linguistic typology)是研究各种语言的特征并进行分类的学科。其方法是比较这些语言,找出其相同和相异之处。 语言类型学与历史比较语言学的区别 学者们比较语言特征往往抱有不同的目的。第1种是追溯历史渊源,其方法是比较各语言的语法结构和最古老的基本词汇的语音和语义,发现这些语言之间的亲属关系。第2种是建立人类语言类型体系,其方法是按某些特征把语言分类,如把汉语和马来-波利尼西亚语系波利尼西亚语族的萨摩亚语都归入孤立型语言(虽然二者并无亲属关系)。第3种是寻找人类语言的普遍现象或近乎普遍的现象,其方法是考察某一特征存在于多少种语言之中。这样做,同样不问所研究的语言是否有亲属关系。由于目的不同,第1种比较工作是历史比较语言学家的事情,第2、第3种才是类型语言学家的事情。 在语言类型研究方面有较大贡献的是德国的W.F.洪堡特,美国的E.萨丕尔、R.雅柯布逊和J.H.格林伯格,英国的S.乌尔曼(1914~1976)等。 按特征对语言进行分类 远在19世纪初期,德国语言学家F.von施列格尔(1772~1829)就把世界诸语言分为3大类型,即孤立型、粘着型和屈折型。后来洪堡特又增加了编插语或称多式综合语。 孤立型语言包括汉语、越南语、萨摩亚语等等,其主要特征有两个:①实词通常不带语法标志,如汉语单词“信”不分单复数,可指一封信或几封信;②句法关系主要靠词序表明,如"我写信”不能改为“我信写”或

“信写我”。粘着型包括蒙古语、曰语、芬兰语、匈牙利语、土耳其语等等,其特征是一个词根(或词干)前面,尤其是后面有一串表示语法关系的词缀,每个词缀只表示一个语法意义,每个语法意义也只用一个词缀表示,词缀同词缀之间在语音上界限分明,不融合在一起。如土耳其语odalarimdan〔从我的(一些)房间里〕是一个词,其中词根oda (房间)后面有后缀-lar(表示复数),-im(表示第一人称单数的领属关系,相当于汉语“我的”),-dan(表示离格)等。屈折型包括拉丁语、希腊语、阿拉伯语等等,其特征是用词形的变化(即屈折)表示语法关系,而且往往一个词尾表示几个语法意义,如拉丁语am-o(我爱)中词尾-o同时表示现在时、主动态、第一人称、单数、陈述语气等5项。 上述语言类型的三分法是有用的,因为它能指出语言的一些基本特征。但这只是大体的划分,并不是十分严密和准确的。同一类型的语言,其间也还有许多差异。有的语言还兼有几种类型的特征,如英语的有些动词一个词形表示多种语法意义(He go-es表示陈述语气、现在时、主动态、第三人称单数),类似屈折型;英语词序比较固定,类似孤立型;但它的有些词根前后可能有几个表示语法意义的词缀,每个词缀只表示一个语法意义,词缀同词缀在语音上不融合在一起,界线分明,又类似粘着型,如英语的un-affect-edly(不矫揉造作地)中的un-表示否定,-ed 表示形容词后缀,-ly表示副词后缀,用粘着方式串联在一起;所以有人说,英语是由屈折型走向孤立型的语言。 对于语言,除象上面那样按词表示语法意义的不同方式分类外,还可以

NLP入门+实战必读:一文教会你最常见的10种自然语言处理技术(附代码)

大数据文摘作品 编译:糖竹子、吴双、钱天培 自然语言处理(NLP)是一种艺术与科学的结合,旨在从文本数据中提取信息。在它的帮助下,我们从文本中提炼出适用于计算机算法的信息。从自动翻译、文本分类到情绪分析,自然语言处理成为所有数据科学家的必备技能之一。 在这篇文章中,你将学习到最常见的10个NL P任务,以及相关资源和代码。

为什么要写这篇文章? 对于处理NL P问题,我也研究了一段时日。这期间我需要翻阅大量资料,通过研究报告,博客和同类NL P问题的赛事内容学习该领域的最新发展成果,并应对NL P处理时遇到的各类状况。 因此,我决定将这些资源集中起来,打造一个对N L P常见任务提供最新相关资源的一站式解决方案。下方是文章中提到的任务列表及相关资源。那就一起开始吧。 目录: 1.词干提取

2.词形还原 3.词向量化 4.词性标注 5.命名实体消岐 6.命名实体识别 7.情感分析 8.文本语义相似分析 9.语种辨识 10.文本总结 1.词干提取 什么是词干提取?词干提取是将词语去除变化或衍生形式,转换为词干或原型形式的过程。词干提取的目标是将相关词语还原为同样的词干,哪怕词干并非词典的词目。例如,英文中: 1.b e a u t i f u l和b e a u t i f u l l y的词干同为b e a u t i 2.G o o d,b e t t e r和b e s t的词干分别为g o o d,b e t t e r和b e s t。 相关论文:M a r t i n P o r t e r的波特词干算法原文

相关算法:在P yt h o n上可以使用P o r t e r2词干算法 (h t t p s://t a r t a r u s.o r g/m a r t i n/P o r t e r S t e m m e r/d e f.t xt) 程序实现:这里给出了在p yt h o n的s t e mm i n g库中使用 (https://https://www.doczj.com/doc/b713299217.html,/mchaput/stemming/src/5c242aa592a6 d4f0e9a0b2e1afdca4fd757b8e8a/stemming/porter2.py?at=d efault&fileviewer=file-view-default) P o r t e r2算法做词干提取的代码: #!pip install stemmingfrom stemming.porter2 import stem stem("casually") 2.词形还原 什么是词形还原?词形还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑到了P O S问题,即词语在句中的语义,词语对相邻语句的语义等。例如,英语中: 1.b e a u t i f u l和b e a u t i f u l l y被分别还原为b e a u t i f u l和b e a u t i f u l l y。 2.g o o d,b e t t e r和b e st被分别还原为g o o d,g o o d和g o o d 相关论文1:这篇文章详细讨论了词形还原的不同方法。想要了解传统词形还原的工作原理必读。(h t t p://www.i j r a t.o r g/d o wn l o a d s/i c a t e st2015/I CA TE S T-2015127.p d f)

语言类型学与汉语研究

语言类型学与汉语研究 语言类型学是当代语言学的一门“显学”,但目前还不能说已是汉语语言学中的“显学”。单从语言学理念来看,类型学应当比形式学派甚至功能学派更具有与汉语语言学的亲和力。形式学派从语法能力的先天性假说出发,通过假设、演绎和母语者的语感测试来寻求生与俱来的普遍语法。功能学派则抱有与之对立的基本信念,认为语言之所以如此是因为要满足交际或认知功能的需要,于是以此为出发点,致力从语言的使用或理解规则中去解释语言的结构及其演变。两者不同程度地带有从假设出发、“主题先行”的特点。语言类型学则更多保留了语言学作为一门经验性学科的特性,注重材料、讲究实证、主张旁征博引、提倡归纳推理,力求以事实说话,在调查之前不假设任何东西。这本是最容易为中国的语言学家认可的研究方法。然而事实上,在形式、功能、类型三大当代“显学”中,偏偏是类型学在中国国内最少为人了解。怪也不怪,这与中国学术界的另一些“国情”有深刻的关系。 中国的传统学术包括语言文字之学,素有尊夏贬夷、厚古薄今、重文轻语的传统。虽然华夏-汉民族数千年来就在众多民族部族的大交融中产生发展,中国也一直是一个多民族的大家庭,但在汗牛充栋的传统中文典籍中,我们几乎看不到对汉语以外语言文字的记述,更遑论研究了。不要说非汉族语言,即使是各地的方言,除了作为“匡谬正俗”的对象偶尔一现,也很难引起历朝历代学者们的关注。也就是说,正统的学术向来缺少对异族语言的兴趣,更没有进行语言比较的传统。进入现代以来,外语、方言和少数民族语言研究都获得了强大了推动力,这本是孕育跨语言比较的很好时机。可是,50年代过于追求专业分工的前苏联式教育科研体系,以及语言研究队伍和学术兴趣向普通话的高度集中,又强化固化了不同语种研究队伍间的壁垒,形成了纯粹语种导向的语言研究体系。不要说汉语、外语和少数民族语言三大队伍很少有切实的交流,即使在古今汉语之间、普通话和方言之间也缺少实质性的沟通,更谈不上在跨语言基础上对语言共性的追求了。这种学术格局下,结构主义、功能主义、甚至生成语法都有一定的机会被引进过来成为汉语研究的利器,甚至发展成主流,唯独语言类型学很难获得发展的空间,因为这株树苗是无法在单一语言的土壤中生长的[2]。而缺少了类型学视野的汉语语言学,也很难用汉语研究的成果去贡献于普通语言学理论。 当然,跨语言、跨方言、跨时代的兴趣和研究实践在现代中国并非完全没有,但它主要表现为少数学者、特别是一些视野开阔的语言学大家的个人行为,未成风尚,更不成学派。赵元任先生公开发表的首篇语法论文就是《北京、苏州、常州语助词的研究》(1926),论文不但从语法和语义功能的角度比较了三地方言的许多虚词,而且不时穿插与英语、德语等的比较。黎锦熙先生在他开创现代汉语语法研究先河的《新著国语文法》之后又撰《比较文法》一书,进行古今汉语和英汉之间的语法比较。王力先生的《现代中国语法》以《红楼梦》为主要语料研究普通话的语法,但在各章之后设有与吴、粤等主要方言的比较。吕叔湘先生《中国文法要略》首创将古今汉语合为一书的体例,便于读者在古今比较中认识汉语的内在联系和演变。陆志韦先生在给萨丕尔(Sapir)《语言论》中译本所作的序和译注中,不时流露出他在汉语和其他语言比较中获得的一些真知卓见。朱徳熙先生则在其学术生涯的后期写出了数篇方言比较和古今比较的语法论文,涉及结构助词、名词化标记、疑问句类型等。语言学大家对跨语言跨方言跨时代研究的兴趣不是偶然的,而与他们的学术成就是互为因果的。因为他们有超越汉语本身的更广阔的语言学兴趣,才会注意其他方言语言的情况;也正因为他们视野开阔,才会在汉语语法的研究上取得更加杰出的成就。这些研究虽然没有同当代类型学的学术范式直接挂钩,但其中的精神仍与类型学有相通之处。遗憾的是,中国大陆分工过细、语种导向的语言学学术体系,以及结构主义学派对纯共时状态和语种“特色”的过分追求,使跨语言研究在很长时间里难以发扬光大。有一些著作出于语言教学的需要进行一些中外语言的语法对比,这种基于应用的对比距语言类型学所关心的理论问题还是相当遥远的。

相关主题
文本预览
相关文档 最新文档