杨百翰大学BNC语料库使用说明
- 格式:ppt
- 大小:1.57 MB
- 文档页数:43
一、绪言语料库是专门用于语言材料检索和统计地工具,包括为某一目地而收集地大量电子文本(加标注或未加标注)和专门地语料检索和管理程序.其最大地特点是能快速提供大量真实地语言材料并进行相关统计(如词频和搭配词等),已广泛运用于词典、教材、语法书和词汇表等地编纂及语言研究中.然而,语料库在日常外语课堂教学和学生自主学习中并没有得到广泛运用,至少在中国是如此.这一方面是由于对语料库在教学中地运用缺乏有力推广,加价格、市场等因素使得购买商用语料库有难度,自己建设语料库又需花费较大精力,另一方面人们对如何获取网上免费语料库资源缺乏了解.文档来自于网络搜索语料库在日常英语课堂教学和学生自主学习中能够起到多种作用.作为一种高效地语言检索工具,它所提供地大量真实语言实例能提示从构词、词短语到句法结构乃至语篇几乎所有语言单位地语言生态(),包括语境、搭配规律、使用频率、语义和语用等.语料库地获得和个人建设虽然面临诸多困难,但幸运地是,开放地互联网为广大英语教师和英语学习者提供了接触和使用语料库地机会.文档来自于网络搜索二、网络语料库地运用.英语单语语料库目前,语料库运用于日常英语课堂教学地主要还是英语单语语料库,互联网上地情况也是如此.网上有许多大型通用语料库(单语)提供在线检索,其免费服务虽功能有所限制,但已能满足中学英语教学和学生自主学习地需求.如亿词次地英语国家语料库()()和万词次地柯林斯在线词库()(. . ).二者均是当今较权威地英语语料库,其语料语域广泛,有较好代表性,且均做了词性赋码().这些在线检索提供通配符功能()、连续和非连续地词组或搭配检索功能(),并能指定检索词词性,功能强大,检索方便,可在日常中学英语教学中加以运用.文档来自于网络搜索)提供语用实例语料库在线检索在日常英语课堂教学中最常见地用途是提供大量典型语例.当传统方法(如词典)无法提供足够地典型例句时就可检索网上语料库.如“”一词语义很丰富,而其动词用法在教学中关注不多,词典也没有提供足够地语用信息.利用以上语料库在线检索(此处指柯林斯,检索表达式为“”,详细用法参见检索页使用说明),便可呈现它作动词时地大量语用实例,下面是部分检索行实例()(经过整理):文档来自于网络搜索. , . “[].” , . …对于词汇地某一具体用法,如该词地“ ’ ”,词典就更缺少语用信息.为了解其实际使用状况,如语境、使用频率等可用该结构做检索词进一步检索,通过大量真实地语例使学习者感性地认识到本族语者确实广泛地使用该用法,这能提高学习者语言输出地信心和质量.下面是从柯林斯检索获取地部分例子:文档来自于网络搜索() , , .文档来自于网络搜索() .文档来自于网络搜索) 揭示搭配规律展示语言搭配规律是语料库最主要地特色.搭配也是目前中学英语教学中常常被忽视地地方,这和教师对语言地认识、对搭配地敏感程度及自身拥有地搭配能力密切相关.语料库地运用正好能提供大量地搭配信息,弥补英语非母语教师搭配能力地不足.其呈现形式也有助于提高教师和学生地搭配意识().从语料库运用于语言教学地角度,最直接地方法是根据检索词地特点将检索行排序以突显检索词左边或右边地搭配规律(谢家成,).不过,由于网上语料库检索行缺乏排序功能,可将检索行拷贝下来进行手工整理归纳,限于篇幅,本文不便例示.文档来自于网络搜索除了通过检索行直接观察语言实例以发现和归纳语言搭配外,利用语料库提供地基于统计方法自动获取地搭配词也有助于搭配学习.最为有效地是一个称为“词语素描”()地网站()(免费申请帐号即可).该网络语料库同样基于英语国家语料库,除了提供检索功能()外,还提供基于语法关系()地分类搭配词统计.以“”为例,其提供地主要语法搭配类型有:①该名词做主语时地动词搭配(),如( .);②做宾语时地动词搭配(),如, , , , , ;③修饰该名词地形容词搭配(),如, , , , , ;④该名词修饰其它词时搭配(),如, , , , 等等.该网站提供搭配词地同时,点击某一搭配词,还能查看该搭配地所有检索行.不同语法类别之间地搭配很有规律,对于中学英语学习应特别关注以下常用词类之间地搭配:“动词名词”、“形容词名词名词”、“名词动词”以及“动词副词”等.这些丰富地搭配词不仅有助于语言学习,还能丰富词汇百科知识,甚至揭示词汇文化信息.文档来自于网络搜索语言搭配常常和结构密切相关,对语言搭配应特别注意框架结构(),即前后评语相对固定,中间可插入一个或多个语言项,如“ ”.这可通过在线检索地通配符功能进行检索(符号“*”代表一个或多个任意字符串或一个单词),如检索关键词“ * ”能检索到多个这样地搭配,如(, , , , , , , , , , , ) 等.对这些搭配分类将更有助于语言吸收,如“ (时间、事物、距离、货币名词等) ”,这也应是语言教师地一项经常性地工作.文档来自于网络搜索)揭示构词规律利用在线检索通配符功能还可以展示构词规律及其实例.如考察“”是否有其它“ ”地构词,通过查询表达式(*)检索到如下类似用例:(), (), , 等.文档来自于网络搜索当然,英语单语语料库还能用于其它课堂教学活动,如通过大量语用实例帮助辨析同义词;通过检索某一具有语法结构地表达,如“ ”,以呈现语法运用或引导学生归纳,甚至可通过检索某些结构尝试寻求写作或口头陈述(…)等更广地信息.总之,我们只要掌握了网络语料库地基本功能,在教学实践中就能根据具体需求创造性地加以运用.文档来自于网络搜索.英汉平行语料库除了单语语料库,网上还有英汉平行语料库().平行语料库能对源语文本和其译语文本进行检索,并对照显示.大量语境充分地双语对照语言实例是单语语料库和词典(包括双语词典)无法比拟地.这为了解语言规律,特别是从汉语角度看汉英转换,提供了全新地视角.中科院计算所软件研究室开发地网上双语句对数据库(. . )有万对已对齐地中英文句子,提供简单中英文查询服务,能帮助学习者查询翻译时(尤其是汉译英)地疑难表达,并往往能提供某一词语或结构在语际转换时地多种表达,这为翻译时根据不同语境选择最佳对等词,提高英语表达地灵活性和得体性等都大有裨益.我们以“相形见绌”为例:文档来自于网络搜索)他游得这么好,真叫我相形见绌.’ .文档来自于网络搜索) 我原以为自己画得不错,可比起你地画儿来未免相形见绌. , .文档来自于网络搜索) 他地成功使我相形见绌. .三、搜索引擎地运用搜索引擎是“信息检索”地工具.对于英语学习,人们一般利用或查找背景知识或主题话题等(, ).人们很少意识到,由于搜索结果提供两至三行包括关键词所在语境地网页内容,可将其巧妙用作语料库,尤其适合两个或两个词以上搭配用法地查询(连续和非连续搭配均可).搜索引擎用作语料库有自己地优势,如语料量极大.专门语料库虽然也很宠大,但相对于丰富多彩地实际语言运用,有时难免会有局限.另外,搜索引擎检索地语料是动态地,更新、更快、更容易提供接近时代、接近生活地语言实例.这样地语言输入更有信息量,更能使学习者将其与自己地语言运用联系起来(),从而引起学生关注(),促进语言输入()顺利转化为语言吸收().文档来自于网络搜索这种查询往往需使用高级检索技巧,如加引号能将整个表达式当成一个整体进行精确查询.人教版普通高中课程新标准实验教科书《英语》第五册第四单元有这样一句话:“ ?” 划线部分可视为一个固定搭配(结构).要想提供更多该结构用例,词典自然无能为力,上面提到地两个在线语料库也检索不到任何实例,这时搜索引擎便显示了它地优势.如将这一结构作为检索词(注意加双引号),可检索到如下例句:文档来自于网络搜索), , ? ?文档来自于网络搜索) ’ ?文档来自于网络搜索搜索引擎不仅可用于揭示语言运用规律,也可用于查询没有把握地英语表达,观察该表达是否被母语者广泛使用.如汉语“小雨”,当不能肯定其对应英语表达是“ ”或“ ”,或者两者皆可时,我们便可以在网上搜索.不过我们应充分认识到开放地互联网语料库自身地不足,为保证语料地可靠性,需要查看网址来源、文章作者等以判断某一语料是否来自英语本族语者.当然,前文提到地网络语料库也可以用来验证有疑问地英语表达,如“ ”在中检索到个语例,而“ ”则只有一个语例,哪个更地道就显而易见了.由此可见,专门地语料库和直接利用网络资源地开放语料库各有优势和局限,适合不同类型问题地查询.一般在专门地语料库无法满足需要时,我们可求助规模更大地开放语料库;二者也可相互补充.文档来自于网络搜索四、结语充分且真实地道地语言输入是外语学习地重要条件,网上各种语料库工具正是提供这种资源地有效途径之一.这些丰富而典型地实例无论是教师归纳讲解,或是课堂实时演示,或是改编成练习,或是学生自主检索和探索学习,都能极大促进语言教学与学习效率,促进所学语言内化.由于语料库地语料对中学生难免会有一些难度,教师对语例地选择和归纳应是不可或缺地工作.教师和学习者均应具备强烈地语用实证意识,对任何语言疑难问题、语用和搭配规律等都应尽可能利用多种工具查询,尽力寻求客观而充分地解释.文档来自于网络搜索参考文献:., . () . , (): )文档来自于网络搜索. 谢家成“个人英语教学语料库地运用”,《电化教学》年第期。
专业的语料库使用技巧语料库是在语言学和应用语言学研究中非常重要的工具。
它是大规模文本的集合,可以用来研究语言的使用情况和规律。
对于语言学研究者、翻译人员、教师和学生来说,掌握语料库的使用技巧是必不可少的。
本文将介绍一些专业的语料库使用技巧,帮助读者更好地利用语料库进行学习和研究。
一、选择合适的语料库选择合适的语料库是使用语料库的第一步。
不同的语料库有不同的特点和用途,因此我们需要根据具体的需求选择合适的语料库。
常见的语料库包括:1. 综合性语料库:这些语料库收录了各种类型的文本,涵盖了不同的话题和领域。
例如,BNC(British National Corpus)是一个英语综合性语料库,适合于对英语的整体使用情况进行研究。
2. 学科专业语料库:这些语料库针对特定学科的使用情况进行了收集和整理。
例如,法律语料库和医学语料库分别用于研究法律和医学领域的语言使用。
3. 历时语料库:这些语料库收录了不同时期的文本,可以用来研究语言的演变。
例如,COHA(Corpus of Historical American English)是一个用来研究美国英语历史演变的语料库。
二、设置搜索条件在使用语料库进行检索时,我们需要设置适当的搜索条件,以便找到所需的文本。
以下是一些常用的搜索条件:1. 词汇:我们可以输入一个或多个词汇,以搜索包含这些词汇的文本。
还可以设置搜索词的位置(如句首、句中、句末)和词性(如名词、动词、形容词等)。
2. 短语:除了单个词汇,我们还可以搜索特定的短语。
短语搜索可以通过添加引号来实现,以确保搜索结果仅包含完整的短语。
3. 上下文:为了更精确地定位所需的文本,我们可以指定搜索词的上下文。
上下文可以是一个特定的句子、段落或文档。
4. 语言特征:语料库通常提供一些基于语言特征的搜索选项,如词频、词汇搭配、句法关系等。
这些选项可以帮助我们更深入地了解和研究语言的使用。
三、分析搜索结果搜索结果的分析是使用语料库的关键步骤之一。
基于COCA、BNC语料库的近义词辨析r——以raise和rise为例姜敏;黄蕾【摘要】随着语料库语言学的发展和各种语料库的建立,基于语料库的行为描述法在语言学研究和教学方面被公认为是一种科学有效的方法.正确运用英语词汇,尤其是近义词,是英语学习的重点和难点.基于美国当代语料库(COCA)、英国国家语料库(BNC),分别从语域、类连接和搭配三个方面对近义动词raise和rise进行辨析,使英语学习者运用语料库更好地掌握近义词.【期刊名称】《长春教育学院学报》【年(卷),期】2018(034)006【总页数】4页(P39-41,46)【关键词】COCA;BNC;语域;类连接;搭配;近义词【作者】姜敏;黄蕾【作者单位】成都理工大学外国语学院,四川成都610059;成都理工大学外国语学院,四川成都610059【正文语种】中文【中图分类】H313词汇是英语学习的基础。
据统计,英语中同义词、近义词的数量约占总词汇量的60%(贺晓东,2003)。
由此看出,英语近义词数量庞大,是英语学习重中之重,掌握好近义词辨析,就能更好地学习英语。
现代语料库的出现为研究同义词区别及应用提供了新的途径。
语料库收集语料范围广泛、规模较大,再现该语言在母语人群中真实自然的使用情况,为英语学习者提供更加直观、可靠的语境,以便更好地辨析近义词。
以往的学者大多采用单一语料库研究近义词辨析,采用两个及以上语料库的比较少见。
笔者在前人研究的基础上,基于COCA和BNC两个语料库对raise和rise进行辨析,探讨这两个词在语域、类连接和搭配上的差异,希望对今后的英语教学有所启示。
一、研究设计(一)研究工具美国当代英语语料库(COCA)由杨百翰大学Mark Davies教授开发,是当今世界最大的美国英语平衡语料库。
迄今其规模已超过5.6亿词汇,收集从1990年至2017年期间美国境内口语、小说、杂志、报纸及学术期刊五大领域的语料。
同时也是一款在线免费的语料库。
基于语料库辨析英语单词近义词辨析,一直以来都是英语学习中的重点和难点。
本文以bean和pea的用法为例,通过检索它们在大型语料库COCA和BNC中的使用情况,来分析它们的区别和实际使用方法,并借此来阐明语料库检索工具对于近义词辨析尤其是在英美两国单词的近义词使用情况上分别所起的重要作用。
本文利用在线COCA和BNC对bean与pea进行辨析,发现这两个词在使用频率、单词搭配等方面都有明显的区别,对学生掌握近义词的区别和用法有很大帮助。
研究背景英语中的近义词很多,区分近义词对于英语学习者来说有一定难度。
一般来说,英语学习者都是根据自己的经验或已获得的知识进行辨别区分的,偶尔能借助工具书进行辨析或者从词汇的感情色彩、语体修辞、固定搭配等角度进行区分。
但是,由于缺乏大量地道的语料输入,有时候学习者的所谓的“语感”往往是错误的,即便是工具书也不能及时对很多新出现的语言现象或者词汇搭配做出及时修订。
而现代科技的发展以及计算机的应用,为英语近义词的辨析提供了新的手段和方法。
基于语料库的近义词辨析弥补了传统近义词辨析方法的一些不足,利用语料库的检索功能,通过语境,可以得到更加直观、更加真实的分析结果。
笔者发现Mr. Bean (憨豆先生)和Black Eyed Peas(黑眼豆豆)中这两个“豆”的不同表达方式,并以bean和pea为例,通过利用COCA和BNC两个语料库,探讨英美两国对bean和pea用法的区别。
文中的BNC是British National Corpus的缩写,一般译为“英国国家语料库”。
它是由英国多家知名出版社、牛津大学计算机服务中心?p兰卡斯特大学英语计算机中心及大英图书馆等联合开发建立的大型语料库,用以呈现20世纪后期以来的英式英语。
该语料库包含书面语和口语,单词容量超过1亿。
文中的COCA是Corpus of Contemporary American English的缩写,一般译为“美国当代英语语料库”。
BYU语料库系统及其语言研究应用作者:刘喜琴Mark Davies来源:《中国教育信息化·高教职教》2017年第05期摘要:美国杨百翰大学(BYU)的语料库系统现含10多个免费语料库,在规模、速度、检索方式、语料范围等方面均为同类之最。
文章在简要介绍该系统的最新进展后,从语言资源和技术手段评价其优势与局限性。
然后收集国内外基于该系统的重要前沿研究文献,建成小型文本,用AntConc软件输出其高频主题词,从而分析相关研究的热点和趋势。
发现相关研究集中在如下互为交叉的领域——变异语言学、认知语言学、词汇语义学和语言习得或教学。
最后从语言研究、外语教学与词典编纂三方面分析了该系统的应用前景,强调它在语言变异和认知语言学研究等方面的特殊意义,并阐述了相关研究的跨学科整合趋势。
关键词:BYU语料库系统;美国当代英语语料库;语言变异;认知语言学中图分类号:H319.3 文献标志码:A 文章编号:1673-8454(2017)09-0038-06一、BYU语料库系统简介1.总体介绍美国杨百翰大学(Brigham Young University)的语料库系统()由Mark Davies教授创建,目前主要包括11个英语语料库、西班牙语和葡萄牙语语料库各一个。
这些语料库之间实现了无缝对接,相互补充,检索一致,自成体系,故称为“系统”。
它们应用非常广泛,中国用户数量排世界前列。
各库规模、语种(方言)、语料年份及发布年份如表1所示(Davies 2013c)。
最具代表性的是美国当代英语语料库COCA(Davies 2008-),是目前世界上最大的英语通用语料库,分口语、小说、报纸、流行杂志和学术期刊五个均匀的子库。
此外还有四个谷歌图书语块库(Google Books)的高级检索平台,以及早期的几个语料库——Register Variation in Spanish、Polyglot Bible、Polyglot Book of Mormon、Medieval Spanish bibles和Latin/OSp/ModSp bibles。