语料库课程(一)笔记
- 格式:ppt
- 大小:26.41 MB
- 文档页数:127
专业的语料库使用技巧语料库是在语言学和应用语言学研究中非常重要的工具。
它是大规模文本的集合,可以用来研究语言的使用情况和规律。
对于语言学研究者、翻译人员、教师和学生来说,掌握语料库的使用技巧是必不可少的。
本文将介绍一些专业的语料库使用技巧,帮助读者更好地利用语料库进行学习和研究。
一、选择合适的语料库选择合适的语料库是使用语料库的第一步。
不同的语料库有不同的特点和用途,因此我们需要根据具体的需求选择合适的语料库。
常见的语料库包括:1. 综合性语料库:这些语料库收录了各种类型的文本,涵盖了不同的话题和领域。
例如,BNC(British National Corpus)是一个英语综合性语料库,适合于对英语的整体使用情况进行研究。
2. 学科专业语料库:这些语料库针对特定学科的使用情况进行了收集和整理。
例如,法律语料库和医学语料库分别用于研究法律和医学领域的语言使用。
3. 历时语料库:这些语料库收录了不同时期的文本,可以用来研究语言的演变。
例如,COHA(Corpus of Historical American English)是一个用来研究美国英语历史演变的语料库。
二、设置搜索条件在使用语料库进行检索时,我们需要设置适当的搜索条件,以便找到所需的文本。
以下是一些常用的搜索条件:1. 词汇:我们可以输入一个或多个词汇,以搜索包含这些词汇的文本。
还可以设置搜索词的位置(如句首、句中、句末)和词性(如名词、动词、形容词等)。
2. 短语:除了单个词汇,我们还可以搜索特定的短语。
短语搜索可以通过添加引号来实现,以确保搜索结果仅包含完整的短语。
3. 上下文:为了更精确地定位所需的文本,我们可以指定搜索词的上下文。
上下文可以是一个特定的句子、段落或文档。
4. 语言特征:语料库通常提供一些基于语言特征的搜索选项,如词频、词汇搭配、句法关系等。
这些选项可以帮助我们更深入地了解和研究语言的使用。
三、分析搜索结果搜索结果的分析是使用语料库的关键步骤之一。
语料库简单DIY 第一讲语料库--语料库语言学的工具主讲叶城日本国立广岛大学综合科学研究中心计算机辅助语言教学博士一年联系方式: QQ 47354211 E-mail: sery2004@在语言学QQ群里面混迹了多年,经常潜水走马观花似的看着群里面的朋友们针对语料库提出各种各样的问题和困惑,总结起来,大家的问题无非离不开对于语料库的理解,应用,以及研究。
不过,因为群里面的朋友大多数都是文科的文学,语言学,以及对外汉语专业。
对于计算机辅助语言研究,语料库语言学等概念接触的机会并不是很多。
加上群里的女性朋友居多,她们对于电脑操作系统本身的使用都存在诸多头疼的问题,就更不要提数据量超大的语料数据库了。
本人不是计算机专业的毕业生,本科是日语专业,硕士是比较语言学,博士是计算机辅助对日汉语教学。
所以对于语料库本身的程序和数据库,认识只是停留在应用和架设阶段,实在说不清楚里面很多细节的问题,也请朋友们原谅。
我有说的不对的地方,欢迎来信或者QQ群里直接批判,我一定虚心接受。
谢谢!首先,我们来个扫盲活动,把对于语料库的认识梳理清楚。
第一个内容:语料库是干嘛的?CORPUS =The body of written or spoken material upon which a linguistic analysis is based .这里的CORPUS就是我们说的语料库,它实际上也等于CORPSE或者Dead Body。
就是死尸的意思。
好奇怪,这里怎么搞个死尸进来呢?其实这个概念是在构造主义时期1956年由英国的语言学会提出来的。
他们认为,人类研究语言的时候,需要诸多实体例子,这样的例子最好是最纯净的,最朴实的,甚至是最低俗低劣但是最普及的。
并且我们需要一个庞大的地方放置我们日常的言行,报纸杂志上刊登的新闻,以及各种各样的文学体裁等等。
而放置这些语言信息的地方,则被称为没有活力没有变化没有生机勃勃,像停尸房一样的地方----语料库。
中国海洋大学本科生课程大纲课程属性:公共基础/通识教育/学科基础/专业知识/工作技能,课程性质:必修、选修一、课程介绍1.课程描述(中英文):语料库语言学(Corpus Linguistics)是基于大规模语料进行语言研究的学科。
本课程针对英语系本科生开设。
课程内容包括:语料库语言学的基本情况、发展历程、主要流派及理论模型、语料库在各类研究中的应用等。
通过课程学习,要求学生掌握语料库语言学的基本理论及研究方法,从而初步形成利用语料库探索语言学及相关领域的科研能力。
Corpus linguistics probes into linguistic problems by analyzing a large quantity of real-life language data. This course is intended for the undergraduate English majors. The course covers the basic topics of corpus linguistics, including an overview of the field, its history, major theoretical schools, research methods as well as its application in other branches of linguistics. After taking the course, students are expected to acquire a basic understanding of the fundamental theories and methods of corpus linguistics and are able to design and conduct simple corpus based linguistic studies.2.设计思路:- 1 -本课程将介绍语料库语言学的整体情况及理论基础。
/yingyong/courses/corpusbase.htm语料库研究与应用综述语料库研究与应用综述 一 概述 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。
人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。
语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。
语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。
有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous ):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous ):只收集同一类内容的语料;(3)系统的(Systematic ):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized ):只收集用于某一特定用途的语料。
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual )、双语的(Bilingual )和多语的(Multilingual )。
按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。
双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。
语料库建设中涉及的主要问题包括:(1) 设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。
(2) 语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。
(3) 语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。
对于语言学的研究可以追溯到古希腊时期。
公元前五到四世纪,希腊著名哲学家苏格拉底、伯拉图、亚里斯多德在他们的研究中对语言的研究就站和大地位。
伯拉图的一篇《对话》,《克雷特里斯》(Cratylus)讨论到词为什么具有意义。
克雷特里斯认为:一个对象的名称是由于它的性质而产生的所以语言自然而然地具有意义。
赫莫吉尼斯:反对这种观点,认为名称之所以能指称生物是由于惯例的原因,也就是语言使用者达成的协议。
然后苏格拉底论述两种观点的有缺点。
他说,一个句子分成两部分,名词部分和动词部分。
亚里斯多德是古希腊最著名的哲学家、思想家。
他在《解释篇》、《修辞学》、《诗学》等著作中讨论了有关语言的问题。
他认为:由于形成于惯例,因为名称没有天然产生之理。
语言的词汇只是这些思想的标记。
他进一步讨论名词部分和动词部分,指出名词没有时间成分,而动词有时间成分。
斯多噶派是盛行于公元前四世纪的一批哲学家和逻辑学家。
(他是亚里斯多德的反对者)他们区分了五大词类:名词、动词、连词、冠词和关系代词。
提出“白板说”“自然说”。
亚历山大大帝建立了两个殖民地:埃及亚历山大、土耳其帕加马,亚里斯多德将自己的藏书都赠给了亚历山大,许多学者来此定居从事科学研究成了有名的亚历山大学派、帕加马学派。
辩论的开始围绕:自然界是如何构成的,自然界的运动情况如何反映到人类语言之中?(公元300--146)斯拉克思《语法科学》总结了亚历山大派的语法研究工作,在第一部中进行了语音研究语法部分他认为词汇分8种。
名词、动词、冠词、代词、介词、副词、连词,分词。
文艺复兴前只是对古希腊和拉丁语的研究,14,15 世纪开始将语言学范围扩大。
开始对希伯来语阿拉伯语的研究。
因为《圣经》原文是希伯来语。
古罗马与古希腊来往已久,公元前三世纪罗马帝国征服希腊城之后,希腊科学文化直接影响罗马的发展。
罗马帝国西部拉丁语是官方语言,东部希腊语事官方语言。
希腊的文化科学乘机而入。
著名语言学家瓦罗将语言研究分为三大部分:词源学、形态学、句法学。
我空间有很多北语语用,文字,汉教专业课笔记。
更多北语语用,文字,汉教专业课笔记欢迎访问我空间了解。
我的新浪微博是@那些年追过的梦想,上面有分享很多专业课资料,已经备考心得,欢迎访问!祝你金榜题名程娟老师现代汉语词汇课堂笔记语素、词、词汇(一)语素(morepheme)1.什么是语素2.1按语音形式划分(1)单音语素:手灯/走观/红绿/男女/一千/条个/吗的(2)多音语素:乌鲁木齐新加坡香港(源自莞香装运地/源自海盗香姑的名字)2.2按语言功能划分(1)成词语素(2)非词语素不能独立成词的语素,包含半自由语素与不自由语素两种类型。
①半自由语素:皆为实词性语素,与成词语素相比,不能在句中独立使用。
例如:视伟威艰荐民②不自由语素:绝大多数是虚词性语素,即词缀语素。
例如:老子头2.3按意义性质划分(1)词根语素▲特点:意义实在;位置不固定:比如视:视力/重视;伟:伟大/雄伟判断:教师与老师(2)词缀语素▲特点:意义虚化;位置固定。
①前缀(5)老:老爸老妈老外老记老公/老人阿:阿妹第:第三初:初一小:小张▲前缀的特点:意义虚化;语音读本调a 改变词汇意义:把基数词该为序数词,比如“一”与“第一”;b增加色彩意义:爸与阿爸(方言色彩);c适应汉语词汇双音化的需要:虎与老虎②后缀(17单音后缀;2个双音后缀)子:名词:桌子椅子瓶子鼻子凳子稻子刀子动词:推子疯子盖子形容词:胖子瘦子儿:名词:刀儿皮儿花儿鸟儿动词:画儿盖儿扣儿托儿(医托/布托)形容词:亮儿短儿尖儿明儿头:名词:舌头石头动词:看头想头听头吃头搞头玩头形容词:甜头苦头家:姑娘家小孩家巴:有分歧名词:泥巴盐巴尾巴嘴巴;形容词:干巴瘦巴;动词:砸巴哑巴眨巴洗巴扫巴者:马列主义者科学工作者作者读者学者患者记者长者//第三者强者乎:合乎热乎似乎于:敢于勇于在于搭:甩搭扭搭化:美化绿化现代化然:竟然忽然(副词后缀)/突然(形容词后缀)其:尤其极其地:忽地霍地特地价:成天价震天价着:本着沿着得:免得值得舍得乐得乎乎:脏乎乎黑乎乎兮兮:神经兮兮“们”表示语法意义复数,但不是后缀。
我空间有很多北语语用,文字,汉教专业课笔记。
更多北语语用,文字,汉教专业课笔记欢迎访问我空间了解。
我的新浪微博是@那些年追过的梦想,上面有分享很多专业课资料,已经备考心得,欢迎访问!祝你金榜题名程娟老师现代汉语词汇课堂笔记语素、词、词汇(一)语素(morepheme)1.什么是语素2.1按语音形式划分(1)单音语素:手灯/走观/红绿/男女/一千/条个/吗的(2)多音语素:乌鲁木齐新加坡香港(源自莞香装运地/源自海盗香姑的名字)2.2按语言功能划分(1)成词语素(2)非词语素不能独立成词的语素,包含半自由语素与不自由语素两种类型。
①半自由语素:皆为实词性语素,与成词语素相比,不能在句中独立使用。
例如:视伟威艰荐民②不自由语素:绝大多数是虚词性语素,即词缀语素。
例如:老子头2.3按意义性质划分(1)词根语素▲特点:意义实在;位置不固定:比如视:视力/重视;伟:伟大/雄伟判断:教师与老师(2)词缀语素▲特点:意义虚化;位置固定。
①前缀(5)老:老爸老妈老外老记老公/老人阿:阿妹第:第三初:初一小:小张▲前缀的特点:意义虚化;语音读本调a 改变词汇意义:把基数词该为序数词,比如“一”与“第一”;b增加色彩意义:爸与阿爸(方言色彩);c适应汉语词汇双音化的需要:虎与老虎②后缀(17单音后缀;2个双音后缀)子:名词:桌子椅子瓶子鼻子凳子稻子刀子动词:推子疯子盖子形容词:胖子瘦子儿:名词:刀儿皮儿花儿鸟儿动词:画儿盖儿扣儿托儿(医托/布托)形容词:亮儿短儿尖儿明儿头:名词:舌头石头动词:看头想头听头吃头搞头玩头形容词:甜头苦头家:姑娘家小孩家巴:有分歧名词:泥巴盐巴尾巴嘴巴;形容词:干巴瘦巴;动词:砸巴哑巴眨巴洗巴扫巴者:马列主义者科学工作者作者读者学者患者记者长者//第三者强者乎:合乎热乎似乎于:敢于勇于在于搭:甩搭扭搭化:美化绿化现代化然:竟然忽然(副词后缀)/突然(形容词后缀)其:尤其极其地:忽地霍地特地价:成天价震天价着:本着沿着得:免得值得舍得乐得乎乎:脏乎乎黑乎乎兮兮:神经兮兮“们”表示语法意义复数,但不是后缀。
No.95, Zhongguancun Beijing 100080, ChinaNLPR4.1 基本概念NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念输入输出处理模块大规模语言数据:•模型参数训练•知识获取NLP中知识库包括:•词汇语义库语言数据库或知识库•词法、句法规则库•常识库等等NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念语料库(corpus)¾语料库(corpus)就是存放语言材料的仓库(语言数据库)。
基于语料库进行语言学研究-语料库语言学(corpus linguistics)NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念语料库语言学根据篇章材料对语言的研究称为语料库语言学。
-[Aijmer, 1991]基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。
-[McEnery, 1996]以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。
-[Crystal, 1991] NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念两种解释:不是新术语:利用语料库对语言的某个方面进行研究,或者发现某些规律性知识。
是新术语:对现行语言学理论进行批评,提出新的理论。
NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念“语料库语言学已经成为语言研究的主流。
基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。
”-J. Thomas等人为祝贺语料库语言学的主要奠基人和倡导者G. Leech六十岁生日而出版的语料库语言学研究论文集的开场白[丁信善,1998]。
NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念语料库语言学研究的内容:语料库的建设与编纂语料库的加工和管理技术语料库的使用NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR4.2 语料库技术的发展NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.2语料库技术的发展三个阶段20世纪50年代中期之前:早期¾语料库在语言研究中被广泛使用:语言习得、方言学、语言教学、句法和语义、音系研究等NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.2语料库技术的发展1957~20世纪80年代初期:沉寂时期¾1957年Chomsky的《句法理论》及其以后一系列著作的发表,根本改变了语料库语言学的发展状况。
语言信息处理与汉语知识研讨会,2010/5/29-30,北京语言大学从语料库中挖掘知识Mining Knowledge from Corpus冯志伟提要:本文主要介绍中国传媒大学依存树库研究团队从依存树库中获取语言学知识的一些工作,如,汉语名词语法功能的研究,20种语言中心词居前与中心词居后的分布研究,汉语复杂网络的研究。
这些工作都是在汉语依存树库的基础上进行的。
本文也简要地介绍了国外从语料库中获取非语言学知识的研究。
20世纪90年代以前,从事计算语言学系统开发的绝大多数学者,都把自己的目的局限于某个十分狭窄的专业领域之中,他们采用的主流技术是基于规则的句法-语义分析,尽管这些应用系统在某些受限的“子语言”(sub-language)中也曾经获得一定程度的成功,但是,要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。
因为从自然语言系统所需要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往的任何系统所远远不及的。
而且,随着系统拥有的知识在数量上和程度上发生的巨大变化,系统在如何获取、表示和管理知识等基本问题上,不得不另辟蹊径。
这样,就提出了大规模真实文本的自动处理问题。
1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学会议(即COLING'90)为会前讲座确定的主题是:“处理大规模真实文本的理论、方法和工具”,这说明,实现大规模真实文本的处理将是计算语言学在今后一个相当长的时期内的战略目标。
为了实现战略目标的转移,需要在理论、方法和工具等方面实行重大的革新。
1992年6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议(TMI-92)上,宣布会议的主题是“机器翻译中的经验主义和理性主义的方法”。
所谓“理性主义”,就是指以生成语言学为基础的方法,所谓“经验主义”,就是指以大规模语料库的分析为基础的方法。
从中可以看出当前计算语言学关注的焦点。