当前位置:文档之家› Computational_Linguistics_01计算语言学概论

Computational_Linguistics_01计算语言学概论

名称

授课时间授课地点助教

平时成绩期末笔试

计算语言学是一门交叉学科。计算语言

语言障碍

终极目标当前目标

建立形式化的适于计算机处理的语言模研制分析、生成以及处理语言的各种算

规则方法举例

计算语言学的研究方法

用上述规则分析句子“the boy saw the girl with a telescope”

《语言学纲要》(叶蜚声_徐通锵)详细复习资料_课堂讲义笔记

语言学纲要讲义笔记 导言 一、语言的定义 语言是人类最重要的交际工具和思维工具、是由音义结合的词汇和语法构成的一种符号系统。 二、语言学的对象和任务 语言学是研究语言的科学。 要把语言学跟语文学区分开来 中国传统语文学——“小学” 小学是我国古代语文学的统称,由训诂学、文字学、音韵学三部分组成。 在古印度,公元前4世纪,著名学者潘尼尼在整理、注释婆罗门教经典《吠陀》时,写了一本《梵语语法》,提出3996条规则,被人们称为最完备的语法书。在古希腊,伯拉图和亚里斯多德是从哲学的角度来研究语言的,他们讨论了词为什么具有意义等内容。 三、语言学在科学体系中的地位 语言学既是一门古老的科学,又是一门年轻的科学。 1、与社会科学、自然科学的联系 语言研究的成果是哲学、历史学、考古学、文学、政治学、经济学、逻辑学、社会学、民族学、计算机科学等学科所必须利用的,可见语言研究在这些社会科学中已占重要地位。 语言学与其他学科相交叉产生社会语言学、心理语言学、计算语言学、生物语言学、模糊语言学、实验语音学等。如:运用语言传递信息的过程,可分为五个阶段: 编码——发送——传递——接收——解码 对这一具体过程的解释需要结合物理学、生理学、心理学等其他学科的知识。三、语言学的基本类别 总体上,根据研究对象的不同,语言学可以分为理论语言学和应用语言学两大类。(一)理论语言学可分为: 1、一般/普通语言学

2、个别/具体语言学 具体语言学 (1)历时语言学 (2)共时语言学 (二)应用语言学 1、社会语言学:研究语言与社会集团的关系。如地域方言、社会方言、语言的接触、语言规划等。 2、心理语言学:研究儿童语言习得、语言的接收和发生过程,等。 3、神经语言学 最近二十年才从心理语言学中分离出来的一门新的学科,主要研究语言和大脑结构的关系,中心是大脑如何生成语言。 此外,还有数理语言学、统计语言学、实验语音学等。 第一章语言的功能 第一节语言的社会功能 一、语言的信息传递功能 信息传递功能是语言的最基本的社会功能。 人类还借助语言之外的其他形式传递信息,它们是文字,旗语,信号灯,电报代码,数学符号,化学公式等等。 身势等伴随动作等是非语言的信息传递形式。 身势等非语言的形式多半是辅助语言来传递信息; 文字是建立在语言基础之上的最重要的再编码形式; 旗语之类是建立在语言或文字基础之上的再编码形式; 语言是人类社会信息传递第一性的、最基本的手段,是最重要的交际工具。二、语言的人际互动功能 语言的社会功能的另一个重要方面是建立或保持某种社会关联,这就是语言的人际互动功能。互动包括两个方面:一个是说话者在话语中表达自己的情感、态度、意图,另一方面这些又对受话者施加了影响,得到相应的语言或行动上的反馈,从而达到某种实际效果。

人工智能,机器学习和深度学习之间的差异是什么

人工智能,机器学习和深度学习之间的差异是什么? 人工智能的定义可以分为两部分,即“人工”和“智能”。“人工”比较好理解,争议性也不大。有时我们会要考虑什么是人力所能及制造的,或者人自身的智能程度有没有高到可以创造人工智能的地步,等等。但总的来说,“人工系统”就是通常意义下的人工系统。 人工智能+区块链的发展趋势及应用调研报告 如果你在科技领域,你经常会听到人工智能,机器学习,甚至是深度学习。怎样才可以在正确的时间正确的使用这些词?他们都是一样的意思吗?然而更多时候,人们总是混淆的使用它们。 人工智能,机器学习和深度学习都是属于一个领域的一个子集。但是人工智能是机器学习的首要范畴。机器学习是深度学习的首要范畴。 深度学习是机器学习的一个子集,机器学习是人工智能的一个子集 这个领域的兴起应该归功于深度学习。人工智能和机器学习这个领域近年来一直在解决一系列有趣的问题,比如从自动化的杂货店购买到自动驾驶汽车。

人工智能: 人工智能的定义可以分为两部分,即“人工”和“智能”。“人工”比较好理解,争议性也不大。有时我们会要考虑什么是人力所能及制造的,或者人自身的智能程度有没有高到可以创造人工智能的地步,等等。但总的来说,“人工系统”就是通常意义下的人工系统。 尼尔逊教授对人工智能下了这样一个定义:“人工智能是关于知识的学科――怎样表示知识以及怎样获得知识并使用知识的科学。”而另一个美国麻省理工学院的温斯顿教授认为:“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”这些说法反映了人工智能学科的基本思想和基本内容。即人工智能是研究人类智能活动的规律,构造具有一定智能的人工系统,研究如何让计算机去完成以往需要人的智力才能胜任的工作,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。 人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,主要包括计算机实现智能的原理、制造类似于人脑智能的计算机,使计算机能实现更高层次的应用。人工智能将涉及到计算机科学、心

语用学与修辞学讲义

语用学与修辞学讲义 第一章绪论 第一节语用学与修辞学的概念 一、什么是语用学 Pragmatics这一术语由美国哲学家C.Morris在《符号学理论基础》(1938)一书中首次提出。如果以1977年在荷兰创刊的《语用学杂志》为标志,则语用学作为一们独立的学科迄今不过30多年的历史。 1、定义:Charles W.Morris在其《符号理论基础》中提出:语用学研究“符号与符号解释者的关系”,研究“符号与有生命的方面,即研究符号作用下出现的所有心理、生理和社会现象”。 列文森(Levinson S.C.,1983:转引自何兆熊,1989:8-9)有关语用学的几个定义: (1)“语用学是对在一种语言的结构中被语法化后被编码的语言和语境之间的关系的研究”; (2)“语用学是对所有那些未能纳入语义理论的意义侧面研究”; (3)“语用学是对语言和语境之间对于说明语言理解来说是十分根本的那些关系的研究”; (4)“语用学是对语言使用者把句子和使这些句子得以合适的语境相匹配的能力的研究”; (5)“语用学是对指示(至少是其中的一部分)、含义、前提、言语行为以及话语结构各个侧面的研究。” (6)“语用学多要研究的是语言使用者在特定的语境中运用合适的语句的能力。”(英·列文森 S。C。Levinson,Pragmatics,Cambrige University Press。1983 P。24。 再来看看其他学者对语用学的定义(何兆熊,1989:10-11): (1)“语用学是对语言行为以及实施这些行为的语境所作的研究(Stalnaker,1972)”; “语用学是一种旨在描述说话人如何使用一种语言的句子达致成功交际的理(2) 论(Kempson,1975)”; (3)“语用学是对语言的使用和语言交际进行的研究(Akmajian,1979)”; (4)“语用学可以有效地定义为对话语如何在情景中取得意义的研究。”(英·利奇G。N。Leech,Principles of Pragmatics,Longman,1983。P。X。 何自然:“语用学研究特定情景中的特定话语,研究不同的语言交际环境下如何理解和运用语言。”(《语用学概论》第1页 金定元:“语用学就是研究语境的科学。”(《语用学——研究语境的科学》载《中国语文天地》1986年第1期。) 周礼全:“语用学是符号学的重要部分……它研究:在一个语境中,说话者如何应用话语准确地表达和传达自己的思想感情给听话者,从而达到自己的意图;它也研究:在一个语境中,听话者如何准确地了解说话者通过话语所表达和传达的思想

武汉大学文学院各专业培养方案(2010级、2011级、2012级用)

武汉大学文学院简介 文学院中文学科发端于1893年建校之初的自强学堂。起初开设“华文”课,后改称“汉文”。国立武昌高等师范学校时期,于1917年设立国文史地部。1922年正式成立国文系,中文学科从此有了独立的行政建制。1927年改称中国文学系。1928年国立武汉大学成立时设置文学院,闻一多先生出任首任院长。1953年,兄弟学校中文系并入武汉大学组建了新的中国语言文学系。1997年改建文学院。1999年与其他学院合并为人文科学学院。2003年7月恢复文学院建制至今。 文学院暨中文学科创建以来,名流云集,代有传人。在1928 年以前的初创时期,著名学者王葆心、黄福、黄侃、廖立勋、郁达夫、杨振声等等,筚路蓝缕,开启先路,奠定了文学院的坚实基础。其中,黄侃先生与章太炎先生所创立的“章黄学派”饮誉海内外,对文学院的学风和学术发展产生了深远影响。1928年之后的数十年是文学院的发展壮大时期。杨树达、闻一多、刘博平、刘永济、刘异、游国恩、苏雪林、叶圣陶、沈从文、朱东润、高亨、冯沅君、袁昌英、陈西滢、徐天闵、朱光潜、陈登恪、席鲁思、黄焯、程千帆、刘绶松、胡国瑞、李健章、周大璞、李格非等先辈,鞠躬尽瘁,不断开拓,使文学院的中文学科迅速发展壮大、走向辉煌,跃居全国同类学科前列。尤其是五十年代,以“五老八中”为代表的学术中坚声名远播。改革开放以来,是文学院奋发图强、蓬勃向上的时期。这一时期,刘禹昌、吴林伯、王启兴、陆耀东、王文生、吴志达、何国瑞、蔡守湘、易竹贤、罗立乾、陈美兰、李希贤、夏渌、郑远汉、宗福邦、杨合鸣、龙泉明等学者,励精图治,奋起直追,为文学院再铸辉煌做出了重要贡献。 如今的文学院,下设中国文学系、汉语言文化系、大学语文部、古籍整理研究所、《长江学术》杂志社、《写作》杂志社等常设机构,还与“国家汉办”合作建立了“汉语国际推广教学资源研究与开发基地”,建有海外孔子学院。共有教职工88人,其中专任教师65人。教师中教授32人,博士生导师30人,副教授26人。学院拥有中国语言文学一级学科博士学位授予权和博士后流动站;拥有国家重点学科一个,国家重点培育学科一个,中国语言文学一级学科被评为湖北省重点学科,中国现当代文学和中国古代文学分别被评为湖北省优势学科和特色学科。人才培养方面,在国家规定的中国语言文学学科的8个学位点中,除中国少数民族语言文学之

计算语言学与语义分析

汉语计算语言学与语义分析研究 编码——解码 表达——理解 自然语言生成——自然语言处理 只有真正熟悉了汉语的语素,词,词义以及相互之间的 关系,才能正确的理解出语义,并制定相关的语义解析 规则

一绪论 1、语义识别背景 语义识别是在语音识别(或其它模式识别)的基础上,对获取的客观字符文本数据,做进一步的分析挖掘,提取其中所包含 的用户主观意图 语义识别技术,目的是让计算机能够理解人类的语言。通俗的定义:即通过用户无规则的说话就能知道用户想做什么 语义识别技术涉及:海量数据处理、分词、语素、义素、语义特征建模、规则库等主要技术

音节和音节相连时,有的音节的调值会发生有规律的变化 有些音节的读音在一定条件下失去了原有声调的调值 句子不同的连停方式,也会对语义的理解产生影响语音中的重音强调不同,所含的语义也不同 语音影响语义 有些音节的读音在一定条件下失去了原有声调的调值 2、语音对语义识别的影响 汉字的读音影响机器语音识别,进而影响到语义识别

?2、语义识别的关键技术难点?(1)提供高准确率的语音识别系统?(2)系统分词算法的精确度?(3)计算机如何尽可能的消除歧义?(4)语义分析的特征建模 ?(5)服务于建模的规则库的建立

语法基本单位 语素最小的语法单位,是语言中最小的音 义结合体,既有声音,又有意义 “妹妹不吃白菜”就包 含 “妹”“妹”“不”“ 吃”“白”“菜”这六 个语素 词有意义的能独立运用的最小的语言语 法单位,词都是由语素构成的 妹—妹妹、白—菜—白 菜、不—吃—不吃 词组词和词按一定句法规则组合成的比词 大的语法单位 句子“长虹生产电视” 是由“长虹”和词组 “生产电视”组成的, 而“生产电视”又是由 词组“生产”和“电视” 组成的 句子语言中最大的语法单位,通常是由一 个词或者词组加上一个句调形成的 (1)你喜欢看电视吗? (2)能看高清电视了!

语言学讲义

语言学讲义

1/ What is linguistics? 什么是语言学? Linguistics is generally defined as the scientific study of language. It studies not any particular language, but languages in general. 2/ The scope of linguistics phonology:音韵学, 语言学一门研究各种语言内部语音模式的学科。历时音系学(历史音系学)考查和分析语音声音体系在一段时间内的变化,如英语sea(海)和see(看见)这两个词中的元音曾一度发音不同,而演变至今则发同样的音。共时音系学(描写音系学)研究一种语言在其发展的某一个别阶段的语音,揭示它可能存在的语音模式(如英语里nt和rk这两组音只能出现在词的中间和词尾,而不能出现在词首)。phonetics:语音学, 发音学研究言语的声音学科。语音学研究它们的发音(发音语音学)、声学性质(声学语音学),以及如何组合起来构成音节、词语和句子(语言语音学)。最早的语音学家为印度学者(约公元前300),他们试图保存梵文

经文的发音。古代的希腊人被证明是首次以语音字母作为书写系统的人。现代语音学的创立者为A.M.贝尔(1819~1905),其《语音图解法》(1867)研发一套书写语音的精确符号体系。20世纪时,语言学家专注于开发一种分类系统,可以用来比较所有的人类语音。现代语音学关注的另一个方面是语音感知的心理过程。 morphology(形态学)是对单词的结构的分析,一般认为是syntax的最小单位。morphology is the identification, analysis and description of structure of words , and words are generally accepted as being (with clitics) the smallest units of syntax. syntax(句法学)指的是对构造句子时应该遵循的原则。(狭义上就是语法)syntax is the study of the principles and rules for constructing sentences in natural languages。 语义学又称作词义学(Semantics,来自于希腊语 semantikos),对中文等方块文字而言,则称为字义学。研究对象是词语,是词汇学的一个分支。主要研究词义。 词和词之间的各种关系是语义学研究的一个主

从语言学到深度学习nlp一文概述自然语言处理

从语言学到深度学习nlp一文概述自然语言处理 自然语言处理(NLP)近来因为人类语言的计算表征和分析而获得越来越多的关注。它已经应用于许多如机器翻译、垃圾邮件检测、信息提取、自动摘要、医疗和问答系统等领域。本论文从历史和发展的角度讨论不同层次的NLP 和自然语言生成(NLG)的不同部分,以呈现NLP 应用的各种最新技术和当前的趋势与挑战。 1 前言 自然语言处理(NLP)是人工智能和语言学的一部分,它致力于使用计算机理解人类语言中的句子或词语。NLP 以降低用户工作量并满足使用自然语言进行人机交互的愿望为目的。因为用户可能不熟悉机器语言,所以NLP 就能帮助这样的用户使用自然语言和机器交流。 语言可以被定义为一组规则或符号。我们会组合符号并用来传递信息或广播信息。NLP 基本上可以分为两个部分,即自然语言理解和自然语言生成,它们演化为理解和生成文本的任务(图1)。 图1:NLP 的粗分类 语言学是语言的科学,它包括代表声音的音系学(Phonology)、代表构词法的词态学(Morphology)、代表语句结构的句法学(Syntax)、代表理解的语义句法学(Semantics

syntax)和语用学(Pragmatics)。 NLP 的研究任务如自动摘要、指代消解(Co-Reference Resolution)、语篇分析、机器翻译、语素切分(Morphological Segmentation)、命名实体识别、光学字符识别和词性标注等。自动摘要即对一组文本的详细信息以一种特定的格式生成 一个摘要。指代消解指的是用句子或更大的一组文本确定哪些词指代的是相同对象。语篇分析指识别连接文本的语篇结构,而机器翻译则指两种或多种语言之间的自动翻译。词素切分表示将词汇分割为词素,并识别词素的类别。命名实体识别(NER)描述了一串文本,并确定哪一个名词指代专有名词。光学字符识别(OCR)给出了打印版文档(如PDF)中间的文字信息。词性标注描述了一个句子及其每个单词的词性。虽然这些NLP 任务看起来彼此不同,但实际上它们经常多个任务协同处理。 2 NLP 的层级 语言的层级是表达NLP 的最具解释性的方法,能通过实现内容规划(Content Planning)、语句规划(Sentence Planning)与表层实现(Surface Realization)三个阶段,帮助NLP 生成文本(图2)。 图2:NLP 架构的阶段 语言学是涉及到语言、语境和各种语言形式的学科。与NLP 相关的重要术语包括:

计算语言学概论——应用语言学系列教材

本书简介 本教材从“基础”“算法”和“应用”三个方面,较为系统地介绍计算语言学的基础理论、相关的自然语言处理技术和应用。 基础部分(包括一、二、三章)主要讲述计算语言学的数学和语言学基本概念,计算语言学和自然语言处理技术的关系,自然语言处理的基本流程等内容。此外,作为计算语言学的重要分支之一,语料库语言学得到了较大发展,有关语料库语言学的基础概念、基本理论、近年来的一些发展概况在第三章中加以介绍。介绍这部分内容的目的,是让读者在不涉及技术细节的情况下,对计算语言学有一个初步的,同时也是较为全面的理解和掌握。 算法部分(包括第四、五章)主要介绍计算语言学的常用技术和算法。从处理对象来讲,主要包括词法层面的分析技术、句法层面的分析技术和语义层面的处理技术;从处理方法来讲,既有传统的规则方法,也有基于语料库的统计方法的介绍。这部分内容的主旨是希望通过本章学习后,使学生能对计算语言学的领域中的一些主流技术(比如隐马尔可夫模型在词性标注中的应用,GLR算法 ,部分分析技术等)有一个概要的认识,并能运用这些技术进行计算语言学相关的工作实践。

应用部分(包括第六、七章)主要讲授自然语言处理应用系统。需要说明的是,基于语言信息处理技术的应用系统很多,本教材只是重点介绍一些常见的系统,介绍这些系统的工作机理、发展、取得的成绩,也客观介绍这些系统存在的问题和困难。主要包括机器翻译系统,信息检索系统、信息提取系统,文本分类系统等。 目录 第一章 绪论:什么是计算语言学  第一节 计算语言学的研究对象  第二节 计算语言学的研究方法  第三节 计算语言学的实际应用  第四节 小结 第二章 语言知识的形式化表达  第一节 语言与语言知识  第二节 形式化表达手段  第三节 语法知识的形式化表述理论体系  第四节 语义知识的形式化表述理论体系  第五节 语篇知识的形式化表述理论体系  第六节 小结 第三章 语料库:语言知识的另一种表示形式  第一节 语料库研究概况  第二节 语料的收集与加工  第三节 语料库的应用  第四节 小结 第四章 词法分析  第一节 概述  第二节 “词”的识别  第三节 词性标注  第四节 词义标注  第五节 小结 第五章 句法分析  第一节 句法分析导引  第二节 广义LR分析算法  第三节 基于线图的分析技术  第四节 其他句法分析技术  第五节 小结 第六章 机器翻译  第一节 机器翻译概述  第二节 基于规则的机器翻译  第三节 基于语料库的机器翻译以及混合式机器翻译  第四节 机器翻译的困难、对策和评价  第五节 小结 第七章 面向文本的智能信息处理  第一节 信息检索  第二节 信息提取  第三节 文本自动分类  第四节 小结

语言学概论 第四章 语法 提纲

第四章 语法 【内容简介及重点】主要要掌握语法结构的基本规律,包括:语法的结构单位——句子、词组、词、语素;语素和词组合成更大的语法单位的类型;语法结构的层次性与递归性特点;语法的聚合规则;句子的变换、语言结构的类型和普遍特征。难点是学会运用已学的语法理论分析和阐释常见的语法现象。 第一节语法和语法单位 一语言结构是有规则的 1.1 语言结构是有规则的 1.1.1 语言语法规则的存在客观性 用什么样的形式体现符号之间的结构关系,是有规则的。 1.1.2 从母语者和二语习得者的材料看 1.2 语法和语法研究 1.2.1 语法 语法是词的构成和变化的规则(词法)以及组词成句的规则(句法)的总和。 The rules of syntax combine words into phrases and phrases into sentences. (1)语言中现成的词不能任意更换其中的构成成分,同时也不能任意挪动它们的位置。 (2)一句话可以只有一个词,也可以有几个词。 (3)词法和句法是不同的语法规则,但二者有密切的关系。 1.2.2 语法是客观存在的,语法研究则是对这种客观存在进行客观的归纳、总结和描写。语法研究不能带有研究者的主观性。 1.2.3 几个概念 (1)语法中的任何成分都是内容和形式的统一体。语法成分的内容是语法意义,语法意义的表达者是语法形式。 (2)在词的范围内的语法形式称为形态,如英语表示“复数”的“-s”就是一种形态。词序表示词与词的关系,超出了词的范围,因此词序不是形态。 (3)把具有共同特点的语法形式概括起来就成为一种语法手段。如附加语素和词序就是两种语法手段。 (4)语法最重要的特点是它的抽象性。 二语法的组合规则和聚合规则 2.1 语法的两个基本规则 2.1.1 组合规则 语法单位互相连接起来构成更大的语言片断的规则叫做语法的组合规则。 2.1.2 聚合规则

叶蜚声、徐通锵《语言学纲要》教材精讲+考研真题(1-9章)【圣才出品】

第一部分教材精讲讲义 导言 一、语言学的对象和学科性质 (一)语言学的研究对象 语言学是研究语言的科学,语言是语言学的研究对象。 1.语言现象 语言现象是人类社会普遍具有的现象,它是最早纳入人类研究视野的现象之一。 (1)人类对于世界上的各种自然现象和社会现象的理性认识以及相关的许多抽象观念,是在各个古典文明形成的时期出现的。有关语言的理性思考也是从这一时期开始的。 (2)中国先秦时期的思想家、古希腊的哲学家、古代印度的思想家等,都提出了对语言的一般看法,并且对后人产生了深远影响。这是对语言的最早的理性认识。 2.语言学的发展过程 (1)语言学的三大发源地 在各个文明的发展过程中,古代文化典籍的传承成为文化发展延续的重要途径。这些政治、哲学、宗教、历

史、文学等方面的经典著作要得到学习和继承,都需要语言方面的分析和解释。这样,在许多有着悠久历史文化传统的地区都出现了语文学研究,这是语言的系统研究的开始。中国、印度和希腊一罗马在传统语文学的研究上都取得了辉煌成就,是语言学的三大发源地。 (2)语言学三大发源地的成就 ①中国传统语言研究主要围绕解读文言文典籍的需要进行 a.先秦时期已经出现大量的文化典籍,它们所使用的古代书面语体被后人学习继承,称作文言文。直至20世纪初,正式的书面语一直使用这种文言文的形式。 b.中国传统的语言研究主要是围绕着解读文言文典籍的需要进行的。中国传统语言研究主要是分析汉字的形体,探求它的古代读音和意义,形成了统称“小学”的文字、音韵、训诂之学,也就是中国传统的语文学。 ②古代印度语言研究主要是对宗教经典的解读 a.在印度,文化经典主要是宗教典籍,所用的语言是古代的梵语。最初这些经典是靠口耳相传,后来由文字记载下来。 b.古代印度的语言研究主要是对这些经典的解读。古代印度的学者在对语言一般性质的认识以及具体的语音和语法研究等方面,都有卓越建树,对世界其他地区的语言研究也产生了深远影响。 ③西欧语言研究主要围绕拉丁语进行 a.古希腊有丰富的文化典籍,语文学非常发达,已经有了系统的语法研究成果。 b.罗马人继承了古希腊的语言研究传统,形成了拉丁语的语法研究体系。 c.西欧各国有一千多年时间在正式的场合都使用古典拉丁语,语言研究主要围绕拉丁语进行,语法、修辞、逻辑成为学校传授的主课,编出了种种语法、词典和读本,逐渐形成了传统的西方语言学。 (二)语言学的学科性质 1.语文学时期的语言研究不是独立的学科 (1)语文学时期的语文学研究首先关注的是反映在古代书面文献中的古代思想观念、政治制度等等。 (2)语文学时期语言研究的直接目的是解读古典文献,而不是自觉地探索语言自身的规律。因此,语文学

《计算语言学》简评

龙源期刊网 https://www.doczj.com/doc/6313942743.html, 《计算语言学》简评 作者:刘金路 来源:《湖北函授大学学报》2015年第13期 [摘要]计算语言学是一门横跨语言学、数学和计算机科学的边缘性交叉学科。《计算语言学》是清华大学中国语言文学系刘颖教授的新作,该书系统介绍了计算语言学的相关理论及计算方法。从方法论视角看,该书对推动语言学或计算语言学学科建设及发展具有重要意义。 [关键词]计算语言学;计算机科学;交叉学科 [中图分类号]G642 [文献标识码]A [文章编号]1671-5918(2015)13-0122-03 计算语言学(Computational Linguistics)是当代语言学中的一个新兴学科。《计算语言学》是清华大学中国语言文学系刘颖教授的一部新作,由清华大学出版社于2014年9月出版。刘颖教授研究计算语言学、自然语言处理和机器翻译多年,已出版著作四部,发表相关专业论文近六十篇。本书是2002年10月出版的《计算语言学》的修订版本,全书系统介绍了计算语言学的相关理论与计算方法,以及统计语言学与机器翻译的相关理论。近十几年来,国内对于计算语言学的相关著作尤其是系统性介绍的书籍还是为数不多的,许多对计算语言学感兴趣的研究者们迫切需要这样的一本较为全面性的书籍问世。相信本书应该会受到计算语言学界学者及研究者的极大关注。本文首先探讨计算语言学的背景,之后简要介绍该书各章节的主要内容,最后在此基础之上对该书作出简要评价。 一、背景介绍 二十世纪四十年代到五十年代末这段时期可谓是计算语言学的萌芽期。虽然“计算语言学”这个术语概念还未被提出,但是有很多具备先见之明的研究者及学者们就开始从计算的角度来探讨语言现象,揭示语言所具有的数学性。 二十世纪六十年代的中期到八十年代末可以算作是计算语言学的主要发展期。在此期间,许多的相关学科在相互借鉴,互为补充的基础上取得了不少鼓舞人心的成果。 在二十世纪九十年代的最后五年,计算语言学的研究变化显著,出现了空前繁荣的局面。这主要表现在以下三个方面:首先,概率与数据驱动方法成了计算语言学的标准方法。其次,由于计算机速度与其存储量的增加,使得在计算语言学的某些领域,特别是语音合成、语音识别、文字识别、拼写检查、语法检查这些应用领域,有可能进行商品化的开发。第三,随着网

最新整理自考《现代语言学》复习讲义word版本

自考《现代语言学》复习讲义 一、常考题型 1.填空 2.单项选择 3.判断正误 4.解释词语并举例说明 对名词解释并举一两个例子进行说明 5.回答问题 做题要求:用英文进行答题。 二、各章节学习要点 Chapter 1 Introduction (绪论) 1.What is linguistics? 1.1 Definition (语言学的定义)P.1 Linguistics is generally defined as the scientific study of language. Linguistics studies not any particular language, e.g., English, Chinese, Arabic, and Latin, but in language in general. 1.2 The Scope of linguistics (语言学的研究范畴)P.2—4 The study of language as a whole is often called general linguistics(普通语言学).This deals with the basic concepts, theories, descriptions, models and methods applicable in any linguistic study, in contrast to those branches of study which relate linguistics to the research of other areas. Main branches of linguistics 语言学的主要分支: 1)phonetics(语音学)2)phonology (音系学)3)morphology (形态学)4)syntax (句法学)5)semantics (语义学)6)pragmatics (语用学) The study of all these aspects of language forms the core of linguistics. Findings in linguistic studies can often be applie3d to the solution of such practical problems as the

大学计算机基础--人工智能基础思考与练习[1]

思考与练习 一、单选题 1.人工智能是一门( B )。 A.数学和生理学 B.心理学和生理学 C.语言学 D.综合性的交叉学科和边缘学科 2.机器学习的核心任务是在新的、未知的数据中执行得好。而这种在未知数据中执行的能力,称为( A )。 A.泛化能力 B.过拟合 C.欠拟合 D.正则化 3.( A )以住宅为平台,兼备建筑设备、网络通讯、信息家电和设备自动化,集系统、结构、服务、管理为一体的高效、舒适、安全、便利、环保的居住环境。 A.智能家居 B.专家系统 C.模式识别 D.智能控制 4.以下属于机器学习研究领域的是( D )。 A.模式识别 B.计算机视觉 C.语音识别 D.以上都是 5.人工智能概念的确立是在( D )年。 A.1946 B.1960 C.1916 D.1956 6.下面不属于人工智能研究基本内容的是( C )。 A.机器感知 B.机器学习 C.自动化 D.机器思维 7.要想让机器具有智能,必须让机器具有知识。因此,在人工智能中有一个研究领域,主要研究计算机如何自动获取知识和技能,实现自我完善,这门研究分支学科叫( B )。 A.专家系统 B.机器学习 C.神经网络 D.模式识别 8.人工智能的目的是让机器能够( A ),以实现某些脑力劳动的机械化。 A.模拟、延伸和扩展人的智能 B.具有完全的智能

C.和人脑一样考虑问题 D.完全代替人 9.自然语言理解是人工智能的重要应用领域,下面列举中的( C )不是它要实现的目标。 A.理解别人讲的话 B.对自然语言表示的信息进行分析概括或编辑 C.欣赏音乐 D.机器翻译 10.下列关于人工智能的叙述不正确的是( C )。 A.人工智能技术它与其他科学技术相结合极大地提高了应用技术的智能化水平。 B.人工智能是科学技术发展的趋势。 C.因为人工智能的系统研究是从上世纪五十年代才开始的,非常新,所以十分重要。 D.人工智能有力地促进了社会的发展。 11.为了解决如何模拟人类的感性思维,例如视觉理解、直觉思维、悟性等,研究者找到一个重要的信息处理的机制是( B ) 。 A.专家系统 B.人工神经网络 C.模式识别 D.智能代理 12.下列哪个表达式在Python中是非法的?( B ) A.x = y = z = 1 B.x = (y = z + 1) C.x, y = y, x D.x += y 13.下列代码的运行结果是?( C ) print (‘a' < 'b' < 'c') A.a B.c C.True D.False 14.a与b定义如下,下列哪个是正确的?( B ) a = '123' b = '123' A.a != b B.a is b C.a == 123

应用语言学概论(于根元)课后练习及答案重点讲义资料

应用语言学概论课后练习及答案 第一章: 1、举例说明为什么有了本体语言学还要有应用语言学。 答:因为本体语言学和应用语言学两者之间不具有可比性。一方面,语言基本上是社会现象而不是自然现象,语言的发展和使用受到多种因素的影响,语言的应用有自身的规律,无论是语言应用的哪个方面。另一方面,人们已经而且将会进一步看到,仅从语言自身看语言是不能完全认识语言的。语言的应用研究不仅有利于语言应用本身,而且也有利于加深对语言本身的认识。因此,没有语言的运用,就没有语言。要全面认识语言,真正认识语言,必须结合语言的应用来进行。例如,为什么一个人在不同的场合会使用不同的表达方式?为什么明明是两个不同的音有人却听成相同的音?为什么同样的词语会产生不同的交际效果?离开了语言的运用,单从语言本身是无法回答这些问题的。因此,有了本体语言学还要有应用语言学。 2、历史比较语言学让位于结构主义语言学的两个历史教训是什么?答:历史比较语言学让位于结构主义语言学的一个历史教训是:历史比较语言学家的唯我独尊和封闭的态度。认为只有研究语言历史的语言学才是科学,其他的研究都不是科学。第二个教训是:研究的局限性。它只注意古语言,并不研究现有的活语言。因此,它在经历了光辉的百年之后,逐渐被新的研究兴趣所替代。 3、说说《普通语言学教程》的作者、出版时间和历史地位。

答:《普通语言学教程》的作者是瑞士语言学家索绪尔,出版时间是1916年,历史地位:书中针对历史比较语言学的不足提出的语言学理论,奠定了现代语言学的基础,因此成为现代语言学的“圣经”。 4、说说《马氏文通》的作者、出版时间和历史地位。 答:《马氏文通》的作者是马建忠,出版时间是1898年,历史地位:是中国形成独立的语言学学科的标志。 5、说说中国形成语言学的背景。 答:中国形成语言学是在19世纪和20世纪之交,有两个背景:一是受西方学术文化的影响,一是中国传统语文学自身的发展。当时语言学方面中国向外国所学的理论、方法及层次是比较低的;学习的方法、层次也是比较低的。学习外国最重要的成果是马建忠将西文中的规矩同汉语典籍比较,写成的语法书《马氏文通》,该书成为中国形成独立的语言学学科的标志。而19世纪和20世纪之交,中国的传统语文学进入语言学阶段,主要是我国传统语文学自身发展的结果。当时甲骨不断被发现,对甲骨文的研究取得了很大进展,孙诒让、罗振玉、王国维等人都做出了贡献,后来唐兰、于省吾等人还在理论研究方面取得了突破。正是这些大量的材料动摇了传统汉语文字学受许慎《说文解字》笼罩的局面、以文字个体分析对象偏重考古的研究方法、作为经学附庸明经致用的研究目的,呼吁建立科学的理论体系,加上受西方学术文化的影响,我国传统语文学终于进入了语言学。 6、中国20世纪的应用语言学变化的总线索是什么? 答:中国20世纪的应用语言学变化的总线索是:应用语言学同本体语言学苦苦地探求高层次的结合,在探求的路上摇摇摆摆地前进。

语言学培养方案

语言学及应用语言学专业硕士研究生培养方案 (学科专业代码:050102 授予文学硕士学位) 一、学科专业简介 本专业是我校首批获得硕士学位授予权的专业之一,1978年开始招收硕士生,2001年开始招收博士生。现有博士生导师6人,硕士生导师6人。本专业主要依托文学院和语言研究所,承担了20多项国家级和省部级科研项目,拥有一流的图书资料和科研设施。 二、培养目标 通过各类硕士研究生学位课程的教学和毕业论文的写作,熟悉本学科国内外研究的历史、现状及发展趋势,把本专业硕士研究生培养成为具有较高政治思想水平,具有较扎实的语言理论基础,具有独立从事语言研究工作的能力,能胜任语言学课程和相关课程的教学工作的合格专业人才。至少熟练掌握一门外语。 三、研究方向简介

四、学习年限 1.硕士研究生学习年限一般为2-3年,最长不超过4年。符合学校提前毕业的要求的,可申请提前毕业(见《研究生手册》)。 2、因特殊情况需延期毕业的,填写《华中师范大学博(硕)士研究生延期毕业申请表》,经导师和所在院系主管研究生负责人同意,报研究生处审批。申请延长毕业的年限,不能超过学校规定的最长学习年限;延期毕业年限期间,不享受任何奖学金和各类评奖。 五、课程设置与学分 实行学分制,总学分要求38学分。其中: 1、一级学位课程7门,20学分(公共课程3门,9学分;专业学位课程4门,11学分)。 2、二级学位课程(通选课)中任选2门,4学分。 3、指定选修课程4门,8学分。

4、任意选修课程中任选2门,4学分。 5、教学实践1学分,学术活动1学分。已有三年相关工作经历的硕士生,可以免修教学实践。 6、同等学力、跨学科、专业录取的硕士研究生,均须补修本学科大学本科主干课程3门,并且考试须与本科生同堂同卷。要求通过考核,取得及格成绩,不计学分。 六、实践环节 实践环节包括教学实践、学术活动两部分,各占1学分。教学实践必须面对本专业本科学生,一般安排在第二学年进行,教学实践内容可以是讲授部分本专业课程,也可以辅导答疑、批改作业、指导实验、辅导或协助指导本科生课程设计和毕业论文,教学实践的工作量为17学时,学生要填写《华中师范大学硕士研究生教学实践考核表》,已有三年相关工作经历的硕士生,可以免修教学实践;学术活动要求必须参加本学科的学术活动8次以上,其中1次必须是校外学术活动,每次都要有1千字以上的学习报告(由导师和导师组规定具体要求),并填写《华中师范大学硕士研究生学术活动考核表》。实践活动结束后,由导师和导师组进行考核,确定合格或不合格。 七、科学研究 鼓励学生从事科学研究,撰写科学论文。三年毕业的硕士生不作发表论文的硬性规定,申请提前毕业的硕士生按学校规定以华中师范大学为第一署名单位和第一作者身份(或除导师之外的第一作者)在CSSCI来源期刊上公开、正式发表本专业学术论文1篇(用稿通知无效)。 八、学位论文

引入深度学习的人工智能类课程

引入深度学习的人工智能类课程 摘要:深度学习是人工智能领域最近的惊人进展,从模型、算法,到大规模的应用都取得了令人瞩目的成果。文章提出在人工智能类课程中引入深度学习的初步内容和实施建议,同时分析其必要性和可行性。 关键词:人工智能;深度学习;教学建议 0 引言 传统的人工智能课程主要包括人工智能导论、模式分析、机器学习、数据挖掘等。这些课程由各个院校根据专业情况不同而选择,课程的内容也有较大差别,但是,基本上都涉及人工神经网络的内容。然而在人工神经网络的教学内容上,一般只讲解经典的多层感知器和反向传播算法,或再加入一些反馈网络的内容,这种教学内容设计的一个不足是忽视了人工智能领域的最新发展——深度学习,它是近几年人工智能领域最具影响力的研究主题,并在大规模语音识别、大规模图像检索等领域取得突破。 北京邮电大学计算机学院开设人工智能科学与技术的本科专业,笔者从事深度学习的研究工作,同时承担了本科生和研究生人工智能类课程的教学工作,因此产生了将深度学习内容引人人工智能类课程的想法。本文先介绍深度学习的背景,说明深度学习在人工智能发展中的地位,之后分析了将深度学习基本内容引入人工智能类课程的必要性和可行性,最后给出了一些实施建议供探讨。 1 深度学习背景 2006年,加拿大多伦多大学的GeoffreyHinton教授与Salakhutdinov博士在美国《科学》杂志发表了题为“Reducing the Dimensionality ofDatawith Neural Networks”的论文,该文提出一种学习多层神经网络的方法,并将这种具有多层结构的学习方法命名为深度学习(Deep Learning),而这成为深度学习研究的一个导火索,从此深度学习的研究与应用蓬勃发展起来。 深度学习在语音识别与生成、计算机视觉等应用领域取得了突出进展。近几年的国际机器学习大会(International Conference on MachineLearning,ICML)、神经信息处理大会(AnnualConference On Neural Information Processing Systems,NIPS)、计算机视觉大会(InternationalConference on Computer Vision,ICCV)、 声学语音与信号处理大会(International ConferenceOn Acoustics,Speech,and Signal Processing,ICASSP)、计算语言学大会(Annual Meeting of the Association for Computational Linguistics.ACL)、计算机视觉与模式识别(InternationalConference on Computer Vision and P atternRecognition,CVPR)等都有不少相关的研究论文、会议教程和小组研讨会(Workshop)。美国国防高级研究计划(DARPA)也提出了关于深层学习的研究项目。此外,2013年6月《程

计算语言学的历史回顾与现状分析

计算语言学的历史回顾与现状分析 冯志伟《外国语》2011年1月 一、当前计算语言学发展的特点 第一,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为计算语言学的主要战略目标,计算语言学中出现了“战略转移”( strategic transit)。当前语料库的建设和语料库语言学的崛起,正是计算语言学战略目标转移的一个重要标志。 随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的分析方法(即经验主义的方法)至少是对基于规则的分析方法(即理性主义的方法)的一个重要补充。因为从“大规模”和“真实”这两个因素来考察,语料库才是最理想的语言知识资源。但是,要想使语料库名符其实地成为自然语言的知识库,就有必要首先对语料库中的语料进行自动标注,使之由“生语料”变成“熟语料”,以便于人们从中提取丰富的语言知识。 第二,计算语言学中越来越多地使用机器自动学习的方法来获取语言知识。传统语言学基本上是通过语言学家归纳总结语言现象的手工方法来获取语言知识的,由于人的记忆能力有限,任何语言学家,哪怕是语言学界的权威泰斗,都不可能记忆和处理浩如烟海的全部的语言数据,因此,使用传统的手工方法来获取语言知识,犹如以管窥豹,以蠡测海,这种获取语言知识的方法带有很大的主观性。 传统语言学中啧啧地称道的所谓“例不十,不立法;例外不十,法不破”的朴学精神,貌似严格,实际上,在浩如烟海的语言数据中,以十个例子或十个例外就轻而易举地来决定语言规则的取舍,难道就能够万无一失地保证这些规则是可靠的吗?当前的计算语言学研究提倡建立语料库,使用机器学习的方法,让计算机自动地从浩如烟海的语料库中获取准确的语言知识。机器词典和大规模语料库的建设,成为了当前计算语言学的热点。 第三,计算语言学中越来越多地使用统计数学方法来分析语言数据:使用人工观察和内省的方法,显然不可能从浩如烟海的语料库中获取精确可靠的语言知识,必须使用统计数学的方法。目前,统计机器翻译( statistical machine translation,简称SMT)成为了机器翻译的主流技术。 来自德国亚琛大学的年轻的博士研究生F. J.Och使用统计方法,在很短的时间之内就构造了阿拉伯语和汉语到英语的若干个机器翻译系统。两千多年前,伟大的希腊科学家阿基米德说过:“只要给我一个支点,我就可以移动地球。”(“Give me a place to stand on,and will move the world.”),而这次评比中,Och也模仿着Archimedes说:“只要给我充分的并行语言数据,那么对于任何的两种语言,我就可以在几小时之内给你构造出一个机器翻译系统。”(“Give me enough parallel data,and you can have translation system for any two languages in a matter of hours.”)这反映了新一代的机器翻译研究者朝气蓬勃的探索精神和继往开来的豪情壮志。 过去我们研制一个机器翻译系统往往需要几年的时间,而现在采用Och的方法构造机器翻译系统只要几个小时就可以了,研制机器翻译系统的速度已经大大地提高了。这是当前计算语言学中令人兴奋的新进展。 第四,计算语言学中越来越重视词汇的作用,出现了“词汇主义”( lexicalism)的倾向:词汇信息在自然语言的计算机处理中起着举足轻重的作用,单词之间的相似度( similarity)的计算、词汇搭配关系( lexical collocation)和词汇联想关系(lexical association)的自动获取、动词的次范畴框架( sub-categorization frame of verb)的自动获取、计算词汇语义学(computational lexical semantics)等都是当前计算语言学研究的热点。

相关主题
文本预览
相关文档 最新文档