语料库课程(一)笔记解析
- 格式:ppt
- 大小:26.41 MB
- 文档页数:127
专业的语料库使用技巧语料库是在语言学和应用语言学研究中非常重要的工具。
它是大规模文本的集合,可以用来研究语言的使用情况和规律。
对于语言学研究者、翻译人员、教师和学生来说,掌握语料库的使用技巧是必不可少的。
本文将介绍一些专业的语料库使用技巧,帮助读者更好地利用语料库进行学习和研究。
一、选择合适的语料库选择合适的语料库是使用语料库的第一步。
不同的语料库有不同的特点和用途,因此我们需要根据具体的需求选择合适的语料库。
常见的语料库包括:1. 综合性语料库:这些语料库收录了各种类型的文本,涵盖了不同的话题和领域。
例如,BNC(British National Corpus)是一个英语综合性语料库,适合于对英语的整体使用情况进行研究。
2. 学科专业语料库:这些语料库针对特定学科的使用情况进行了收集和整理。
例如,法律语料库和医学语料库分别用于研究法律和医学领域的语言使用。
3. 历时语料库:这些语料库收录了不同时期的文本,可以用来研究语言的演变。
例如,COHA(Corpus of Historical American English)是一个用来研究美国英语历史演变的语料库。
二、设置搜索条件在使用语料库进行检索时,我们需要设置适当的搜索条件,以便找到所需的文本。
以下是一些常用的搜索条件:1. 词汇:我们可以输入一个或多个词汇,以搜索包含这些词汇的文本。
还可以设置搜索词的位置(如句首、句中、句末)和词性(如名词、动词、形容词等)。
2. 短语:除了单个词汇,我们还可以搜索特定的短语。
短语搜索可以通过添加引号来实现,以确保搜索结果仅包含完整的短语。
3. 上下文:为了更精确地定位所需的文本,我们可以指定搜索词的上下文。
上下文可以是一个特定的句子、段落或文档。
4. 语言特征:语料库通常提供一些基于语言特征的搜索选项,如词频、词汇搭配、句法关系等。
这些选项可以帮助我们更深入地了解和研究语言的使用。
三、分析搜索结果搜索结果的分析是使用语料库的关键步骤之一。
No.95, Zhongguancun Beijing 100080, ChinaNLPR4.1 基本概念NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念输入输出处理模块大规模语言数据:•模型参数训练•知识获取NLP中知识库包括:•词汇语义库语言数据库或知识库•词法、句法规则库•常识库等等NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念语料库(corpus)¾语料库(corpus)就是存放语言材料的仓库(语言数据库)。
基于语料库进行语言学研究-语料库语言学(corpus linguistics)NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念语料库语言学根据篇章材料对语言的研究称为语料库语言学。
-[Aijmer, 1991]基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。
-[McEnery, 1996]以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。
-[Crystal, 1991] NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念两种解释:不是新术语:利用语料库对语言的某个方面进行研究,或者发现某些规律性知识。
是新术语:对现行语言学理论进行批评,提出新的理论。
NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念“语料库语言学已经成为语言研究的主流。
基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。
”-J. Thomas等人为祝贺语料库语言学的主要奠基人和倡导者G. Leech六十岁生日而出版的语料库语言学研究论文集的开场白[丁信善,1998]。
NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.1 基本概念语料库语言学研究的内容:语料库的建设与编纂语料库的加工和管理技术语料库的使用NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR4.2 语料库技术的发展NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.2语料库技术的发展三个阶段20世纪50年代中期之前:早期¾语料库在语言研究中被广泛使用:语言习得、方言学、语言教学、句法和语义、音系研究等NLPR, CAS-IA 2007-4-3宗成庆:《自然语言理解》讲义NLPR 4.2语料库技术的发展1957~20世纪80年代初期:沉寂时期¾1957年Chomsky的《句法理论》及其以后一系列著作的发表,根本改变了语料库语言学的发展状况。
语料库简单DIY 第一讲语料库--语料库语言学的工具主讲叶城日本国立广岛大学综合科学研究中心计算机辅助语言教学博士一年联系方式: QQ 47354211 E-mail: sery2004@在语言学QQ群里面混迹了多年,经常潜水走马观花似的看着群里面的朋友们针对语料库提出各种各样的问题和困惑,总结起来,大家的问题无非离不开对于语料库的理解,应用,以及研究。
不过,因为群里面的朋友大多数都是文科的文学,语言学,以及对外汉语专业。
对于计算机辅助语言研究,语料库语言学等概念接触的机会并不是很多。
加上群里的女性朋友居多,她们对于电脑操作系统本身的使用都存在诸多头疼的问题,就更不要提数据量超大的语料数据库了。
本人不是计算机专业的毕业生,本科是日语专业,硕士是比较语言学,博士是计算机辅助对日汉语教学。
所以对于语料库本身的程序和数据库,认识只是停留在应用和架设阶段,实在说不清楚里面很多细节的问题,也请朋友们原谅。
我有说的不对的地方,欢迎来信或者QQ群里直接批判,我一定虚心接受。
谢谢!首先,我们来个扫盲活动,把对于语料库的认识梳理清楚。
第一个内容:语料库是干嘛的?CORPUS =The body of written or spoken material upon which a linguistic analysis is based .这里的CORPUS就是我们说的语料库,它实际上也等于CORPSE或者Dead Body。
就是死尸的意思。
好奇怪,这里怎么搞个死尸进来呢?其实这个概念是在构造主义时期1956年由英国的语言学会提出来的。
他们认为,人类研究语言的时候,需要诸多实体例子,这样的例子最好是最纯净的,最朴实的,甚至是最低俗低劣但是最普及的。
并且我们需要一个庞大的地方放置我们日常的言行,报纸杂志上刊登的新闻,以及各种各样的文学体裁等等。
而放置这些语言信息的地方,则被称为没有活力没有变化没有生机勃勃,像停尸房一样的地方----语料库。
构建语料库的方法《构建语料库的超酷方法,独家分享!》嘿,宝子!今天我要跟你唠唠构建语料库这个超有用的事儿,就像我要把我压箱底的独家秘籍传给你一样,可别外传哦(开个小玩笑啦)。
一、明确语料库的用途(这就像确定目的地一样重要)首先呢,你得知道为啥要构建这个语料库。
是为了写学术论文,还是搞创作写小说,或者是为了学习外语呢?比如说我有一次想写个科幻小说,结果我构建语料库的时候,都不知道要收集啥,后来发现我连科幻小说里常见的一些科学术语、星际旅行的词汇都没搞清楚,就瞎收集,那肯定不行啊。
就像你要去旅游,你得先知道你要去海边还是山里吧。
要是为了学术论文,那就要围绕你研究的领域,像我一朋友研究古代历史的,他构建语料库的时候就专门收集古代文献、考古报告这些相关的语料。
二、确定语料的来源(找食材的过程)这一步就像我们做饭找食材一样。
来源可多啦。
1. 书籍去图书馆或者网上找相关的书籍。
如果你是搞文学创作,那各种经典小说、散文都是你的宝库。
我有次构建关于爱情主题的语料库,就从《霍乱时期的爱情》《简·爱》这些书里扒出了好多超感人的句子和词汇。
2. 网络资源这可是个大宝库。
各种新闻网站、博客、论坛啥的。
不过要小心筛选哦,就像你在菜市场买菜,有些菜看着新鲜,其实可能有农药残留呢。
比如你要构建关于时尚的语料库,时尚博主的文章就很有用,但有些小网站可能会有错误信息。
像我之前在一个不靠谱的小论坛上找美食语料,结果好多错字,还把一些食材名字都写错了,差点闹笑话。
3. 学术数据库(如果是学术用途)学校或者机构的学术数据库里有很多专业的研究论文、报告。
这些就像高级食材,特别适合学术研究这个“大餐”。
三、收集语料(开始疯狂囤货啦)现在开始把你找到的语料收集起来。
可以用笔记软件,像印象笔记就超好用。
你可以把文字复制粘贴进去,要是看到纸质书上的好内容,那就打字输入进去呗。
我刚开始的时候可傻了,我看到一本超棒的诗集里的句子想放进语料库,我就手抄,抄了半天,手都酸了,后来才发现可以拍照识别文字,再稍微修改下就好,真是笨死了。
/yingyong/courses/corpusbase.htm语料库研究与应用综述语料库研究与应用综述 一 概述 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。
人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。
语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。
语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。
有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous ):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous ):只收集同一类内容的语料;(3)系统的(Systematic ):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized ):只收集用于某一特定用途的语料。
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual )、双语的(Bilingual )和多语的(Multilingual )。
按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。
双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。
语料库建设中涉及的主要问题包括:(1) 设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。
(2) 语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。
(3) 语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。
对于语言学的研究可以追溯到古希腊时期。
公元前五到四世纪,希腊著名哲学家苏格拉底、伯拉图、亚里斯多德在他们的研究中对语言的研究就站和大地位。
伯拉图的一篇《对话》,《克雷特里斯》(Cratylus)讨论到词为什么具有意义。
克雷特里斯认为:一个对象的名称是由于它的性质而产生的所以语言自然而然地具有意义。
赫莫吉尼斯:反对这种观点,认为名称之所以能指称生物是由于惯例的原因,也就是语言使用者达成的协议。
然后苏格拉底论述两种观点的有缺点。
他说,一个句子分成两部分,名词部分和动词部分。
亚里斯多德是古希腊最著名的哲学家、思想家。
他在《解释篇》、《修辞学》、《诗学》等著作中讨论了有关语言的问题。
他认为:由于形成于惯例,因为名称没有天然产生之理。
语言的词汇只是这些思想的标记。
他进一步讨论名词部分和动词部分,指出名词没有时间成分,而动词有时间成分。
斯多噶派是盛行于公元前四世纪的一批哲学家和逻辑学家。
(他是亚里斯多德的反对者)他们区分了五大词类:名词、动词、连词、冠词和关系代词。
提出“白板说”“自然说”。
亚历山大大帝建立了两个殖民地:埃及亚历山大、土耳其帕加马,亚里斯多德将自己的藏书都赠给了亚历山大,许多学者来此定居从事科学研究成了有名的亚历山大学派、帕加马学派。
辩论的开始围绕:自然界是如何构成的,自然界的运动情况如何反映到人类语言之中?(公元300--146)斯拉克思《语法科学》总结了亚历山大派的语法研究工作,在第一部中进行了语音研究语法部分他认为词汇分8种。
名词、动词、冠词、代词、介词、副词、连词,分词。
文艺复兴前只是对古希腊和拉丁语的研究,14,15 世纪开始将语言学范围扩大。
开始对希伯来语阿拉伯语的研究。
因为《圣经》原文是希伯来语。
古罗马与古希腊来往已久,公元前三世纪罗马帝国征服希腊城之后,希腊科学文化直接影响罗马的发展。
罗马帝国西部拉丁语是官方语言,东部希腊语事官方语言。
希腊的文化科学乘机而入。
著名语言学家瓦罗将语言研究分为三大部分:词源学、形态学、句法学。
语言信息处理与汉语知识研讨会,2010/5/29-30,北京语言大学从语料库中挖掘知识Mining Knowledge from Corpus冯志伟提要:本文主要介绍中国传媒大学依存树库研究团队从依存树库中获取语言学知识的一些工作,如,汉语名词语法功能的研究,20种语言中心词居前与中心词居后的分布研究,汉语复杂网络的研究。
这些工作都是在汉语依存树库的基础上进行的。
本文也简要地介绍了国外从语料库中获取非语言学知识的研究。
20世纪90年代以前,从事计算语言学系统开发的绝大多数学者,都把自己的目的局限于某个十分狭窄的专业领域之中,他们采用的主流技术是基于规则的句法-语义分析,尽管这些应用系统在某些受限的“子语言”(sub-language)中也曾经获得一定程度的成功,但是,要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。
因为从自然语言系统所需要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往的任何系统所远远不及的。
而且,随着系统拥有的知识在数量上和程度上发生的巨大变化,系统在如何获取、表示和管理知识等基本问题上,不得不另辟蹊径。
这样,就提出了大规模真实文本的自动处理问题。
1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学会议(即COLING'90)为会前讲座确定的主题是:“处理大规模真实文本的理论、方法和工具”,这说明,实现大规模真实文本的处理将是计算语言学在今后一个相当长的时期内的战略目标。
为了实现战略目标的转移,需要在理论、方法和工具等方面实行重大的革新。
1992年6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议(TMI-92)上,宣布会议的主题是“机器翻译中的经验主义和理性主义的方法”。
所谓“理性主义”,就是指以生成语言学为基础的方法,所谓“经验主义”,就是指以大规模语料库的分析为基础的方法。
从中可以看出当前计算语言学关注的焦点。
我空间有很多北语语用,文字,汉教专业课笔记。
更多北语语用,文字,汉教专业课笔记欢迎访问我空间了解。
我的新浪微博是@那些年追过的梦想,上面有分享很多专业课资料,已经备考心得,欢迎访问!祝你金榜题名程娟老师现代汉语词汇课堂笔记语素、词、词汇(一)语素(morepheme)1.什么是语素2.1按语音形式划分(1)单音语素:手灯/走观/红绿/男女/一千/条个/吗的(2)多音语素:乌鲁木齐新加坡香港(源自莞香装运地/源自海盗香姑的名字)2.2按语言功能划分(1)成词语素(2)非词语素不能独立成词的语素,包含半自由语素与不自由语素两种类型。
①半自由语素:皆为实词性语素,与成词语素相比,不能在句中独立使用。
例如:视伟威艰荐民②不自由语素:绝大多数是虚词性语素,即词缀语素。
例如:老子头2.3按意义性质划分(1)词根语素▲特点:意义实在;位置不固定:比如视:视力/重视;伟:伟大/雄伟判断:教师与老师(2)词缀语素▲特点:意义虚化;位置固定。
①前缀(5)老:老爸老妈老外老记老公/老人阿:阿妹第:第三初:初一小:小张▲前缀的特点:意义虚化;语音读本调a 改变词汇意义:把基数词该为序数词,比如“一”与“第一”;b增加色彩意义:爸与阿爸(方言色彩);c适应汉语词汇双音化的需要:虎与老虎②后缀(17单音后缀;2个双音后缀)子:名词:桌子椅子瓶子鼻子凳子稻子刀子动词:推子疯子盖子形容词:胖子瘦子儿:名词:刀儿皮儿花儿鸟儿动词:画儿盖儿扣儿托儿(医托/布托)形容词:亮儿短儿尖儿明儿头:名词:舌头石头动词:看头想头听头吃头搞头玩头形容词:甜头苦头家:姑娘家小孩家巴:有分歧名词:泥巴盐巴尾巴嘴巴;形容词:干巴瘦巴;动词:砸巴哑巴眨巴洗巴扫巴者:马列主义者科学工作者作者读者学者患者记者长者//第三者强者乎:合乎热乎似乎于:敢于勇于在于搭:甩搭扭搭化:美化绿化现代化然:竟然忽然(副词后缀)/突然(形容词后缀)其:尤其极其地:忽地霍地特地价:成天价震天价着:本着沿着得:免得值得舍得乐得乎乎:脏乎乎黑乎乎兮兮:神经兮兮“们”表示语法意义复数,但不是后缀。
“HSK动态作文语料库”语料标注及代码说明“HSK动态作文语料库”从字、词、句、篇、标点符号等角度,对所收入的作文语料中存在的外国人使用汉语的中介语偏误进行全面标注。
1 、字处理(包括标点符号)[C]:错字标记,用于标示考生写的不成字的字。
用[C]代表错字,在[C]前填写正确的字。
例如:地球[C](“球”是错字)、这[C]。
[B]:别字标记,用于标示把甲字写成乙字的情况。
别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。
把别字移至[B]中B的后面,并在[B]前填写正确的字。
例如:提[B题]高、考虑[B虎]。
[L]:漏字标记,用于标示作文中应有而没有的字。
用[L]表示漏掉的字,并在[L]前填写所漏掉的字。
例如:后悔[L],表示“悔”在原文中是漏掉的字。
农[L]药,表示“农”在原文中是漏掉的字。
[D]:多字标记,用于标示作文中不应出现而出现的字。
把多余的字移至[D]中D的后面。
例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。
[F]:繁体字标记,用于标示繁体字。
把繁体字移至[F]中F的后面,并在[F]前填写简体字。
例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。
注意:1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。
例如:俭朴[F樸[B僕]]。
2)繁体字写错了,标为:后[F後[C]]。
[Y]:异体字标记,用于标示异体字。
把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。
例如:偏[Y徧]、沉[Y沈]。
[P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。
把拼音字移至[P]中P的后面,并在[P]前填写简体字。
例如:缘[Pyúan]分、保护[Phù]。
[#]:无法识别的字的标记,用于标示无法识别的字。
每个不可识别的字用一个[#]表示。
例如:更[#][#]保存自己的生命,……[BC]:错误标点标记,用于标示使用错误的标点符号。
语料库翻译学一引言二语料库/语料库翻译学三语料库翻译学的研究内容四Content译学研究语料库的种类一、引言Example:Start or begin?在口语中哪个更常用?在BNC等语料库中查到,在口语中,start更常用。
一、引言◆在口头表达、写作或翻译中如何确定某些用法是地道的?◆学习者一般要有多大词汇量才能读懂英文报纸?◆哪些是商务英语中最常用的单词和短语?◆某种考试中,哪些单词、词组等语言现象出现频率偏高?◆如何通过量化统计来分析文学作品的写作风格?语料库的方法基于真实的语言使用情况。
一、引言语料库具有以下特征:➢语料库建设有系统的语言学理论为指导,开发有明确又具体的目的。
➢语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某人杜撰的。
语料库的容量和语料采用方法保证了语料具有代表性,也由此保证语料库的语言研究科学性、客观性。
一、引言➢语料库以先进的计算机技术为技术手段,语料通过电子文本形式存储并且是通过计算机处理的,具有资源优势和处理速度优势。
➢基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。
➢语料库既是一种研究方法,又代表着一种新的研究思维。
二、语料库通俗意义:语言材料库严格意义:语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。
以语料库为基础,真实的双语语料或翻译语料为研究对象,数据统计和理论分析为研究方法,依据语言学、文学和文化理论及翻译理论,系统分析翻译本质、翻译过程和翻译现象等内容的研究。
语料库翻译学语料库语料库建设有特定研究目的和具体用途,在语料抽样范围和文类覆盖方面力求平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。
大型电子文档目标在于搜集任何可获得的语言材料或所限定的语种文类语料,其语言材料之间关系松散。