杨百翰大学BNC语料库使用说明
- 格式:ppt
- 大小:1.57 MB
- 文档页数:43
一、绪言语料库是专门用于语言材料检索和统计地工具,包括为某一目地而收集地大量电子文本(加标注或未加标注)和专门地语料检索和管理程序.其最大地特点是能快速提供大量真实地语言材料并进行相关统计(如词频和搭配词等),已广泛运用于词典、教材、语法书和词汇表等地编纂及语言研究中.然而,语料库在日常外语课堂教学和学生自主学习中并没有得到广泛运用,至少在中国是如此.这一方面是由于对语料库在教学中地运用缺乏有力推广,加价格、市场等因素使得购买商用语料库有难度,自己建设语料库又需花费较大精力,另一方面人们对如何获取网上免费语料库资源缺乏了解.文档来自于网络搜索语料库在日常英语课堂教学和学生自主学习中能够起到多种作用.作为一种高效地语言检索工具,它所提供地大量真实语言实例能提示从构词、词短语到句法结构乃至语篇几乎所有语言单位地语言生态(),包括语境、搭配规律、使用频率、语义和语用等.语料库地获得和个人建设虽然面临诸多困难,但幸运地是,开放地互联网为广大英语教师和英语学习者提供了接触和使用语料库地机会.文档来自于网络搜索二、网络语料库地运用.英语单语语料库目前,语料库运用于日常英语课堂教学地主要还是英语单语语料库,互联网上地情况也是如此.网上有许多大型通用语料库(单语)提供在线检索,其免费服务虽功能有所限制,但已能满足中学英语教学和学生自主学习地需求.如亿词次地英语国家语料库()()和万词次地柯林斯在线词库()(. . ).二者均是当今较权威地英语语料库,其语料语域广泛,有较好代表性,且均做了词性赋码().这些在线检索提供通配符功能()、连续和非连续地词组或搭配检索功能(),并能指定检索词词性,功能强大,检索方便,可在日常中学英语教学中加以运用.文档来自于网络搜索)提供语用实例语料库在线检索在日常英语课堂教学中最常见地用途是提供大量典型语例.当传统方法(如词典)无法提供足够地典型例句时就可检索网上语料库.如“”一词语义很丰富,而其动词用法在教学中关注不多,词典也没有提供足够地语用信息.利用以上语料库在线检索(此处指柯林斯,检索表达式为“”,详细用法参见检索页使用说明),便可呈现它作动词时地大量语用实例,下面是部分检索行实例()(经过整理):文档来自于网络搜索. , . “[].” , . …对于词汇地某一具体用法,如该词地“ ’ ”,词典就更缺少语用信息.为了解其实际使用状况,如语境、使用频率等可用该结构做检索词进一步检索,通过大量真实地语例使学习者感性地认识到本族语者确实广泛地使用该用法,这能提高学习者语言输出地信心和质量.下面是从柯林斯检索获取地部分例子:文档来自于网络搜索() , , .文档来自于网络搜索() .文档来自于网络搜索) 揭示搭配规律展示语言搭配规律是语料库最主要地特色.搭配也是目前中学英语教学中常常被忽视地地方,这和教师对语言地认识、对搭配地敏感程度及自身拥有地搭配能力密切相关.语料库地运用正好能提供大量地搭配信息,弥补英语非母语教师搭配能力地不足.其呈现形式也有助于提高教师和学生地搭配意识().从语料库运用于语言教学地角度,最直接地方法是根据检索词地特点将检索行排序以突显检索词左边或右边地搭配规律(谢家成,).不过,由于网上语料库检索行缺乏排序功能,可将检索行拷贝下来进行手工整理归纳,限于篇幅,本文不便例示.文档来自于网络搜索除了通过检索行直接观察语言实例以发现和归纳语言搭配外,利用语料库提供地基于统计方法自动获取地搭配词也有助于搭配学习.最为有效地是一个称为“词语素描”()地网站()(免费申请帐号即可).该网络语料库同样基于英语国家语料库,除了提供检索功能()外,还提供基于语法关系()地分类搭配词统计.以“”为例,其提供地主要语法搭配类型有:①该名词做主语时地动词搭配(),如( .);②做宾语时地动词搭配(),如, , , , , ;③修饰该名词地形容词搭配(),如, , , , , ;④该名词修饰其它词时搭配(),如, , , , 等等.该网站提供搭配词地同时,点击某一搭配词,还能查看该搭配地所有检索行.不同语法类别之间地搭配很有规律,对于中学英语学习应特别关注以下常用词类之间地搭配:“动词名词”、“形容词名词名词”、“名词动词”以及“动词副词”等.这些丰富地搭配词不仅有助于语言学习,还能丰富词汇百科知识,甚至揭示词汇文化信息.文档来自于网络搜索语言搭配常常和结构密切相关,对语言搭配应特别注意框架结构(),即前后评语相对固定,中间可插入一个或多个语言项,如“ ”.这可通过在线检索地通配符功能进行检索(符号“*”代表一个或多个任意字符串或一个单词),如检索关键词“ * ”能检索到多个这样地搭配,如(, , , , , , , , , , , ) 等.对这些搭配分类将更有助于语言吸收,如“ (时间、事物、距离、货币名词等) ”,这也应是语言教师地一项经常性地工作.文档来自于网络搜索)揭示构词规律利用在线检索通配符功能还可以展示构词规律及其实例.如考察“”是否有其它“ ”地构词,通过查询表达式(*)检索到如下类似用例:(), (), , 等.文档来自于网络搜索当然,英语单语语料库还能用于其它课堂教学活动,如通过大量语用实例帮助辨析同义词;通过检索某一具有语法结构地表达,如“ ”,以呈现语法运用或引导学生归纳,甚至可通过检索某些结构尝试寻求写作或口头陈述(…)等更广地信息.总之,我们只要掌握了网络语料库地基本功能,在教学实践中就能根据具体需求创造性地加以运用.文档来自于网络搜索.英汉平行语料库除了单语语料库,网上还有英汉平行语料库().平行语料库能对源语文本和其译语文本进行检索,并对照显示.大量语境充分地双语对照语言实例是单语语料库和词典(包括双语词典)无法比拟地.这为了解语言规律,特别是从汉语角度看汉英转换,提供了全新地视角.中科院计算所软件研究室开发地网上双语句对数据库(. . )有万对已对齐地中英文句子,提供简单中英文查询服务,能帮助学习者查询翻译时(尤其是汉译英)地疑难表达,并往往能提供某一词语或结构在语际转换时地多种表达,这为翻译时根据不同语境选择最佳对等词,提高英语表达地灵活性和得体性等都大有裨益.我们以“相形见绌”为例:文档来自于网络搜索)他游得这么好,真叫我相形见绌.’ .文档来自于网络搜索) 我原以为自己画得不错,可比起你地画儿来未免相形见绌. , .文档来自于网络搜索) 他地成功使我相形见绌. .三、搜索引擎地运用搜索引擎是“信息检索”地工具.对于英语学习,人们一般利用或查找背景知识或主题话题等(, ).人们很少意识到,由于搜索结果提供两至三行包括关键词所在语境地网页内容,可将其巧妙用作语料库,尤其适合两个或两个词以上搭配用法地查询(连续和非连续搭配均可).搜索引擎用作语料库有自己地优势,如语料量极大.专门语料库虽然也很宠大,但相对于丰富多彩地实际语言运用,有时难免会有局限.另外,搜索引擎检索地语料是动态地,更新、更快、更容易提供接近时代、接近生活地语言实例.这样地语言输入更有信息量,更能使学习者将其与自己地语言运用联系起来(),从而引起学生关注(),促进语言输入()顺利转化为语言吸收().文档来自于网络搜索这种查询往往需使用高级检索技巧,如加引号能将整个表达式当成一个整体进行精确查询.人教版普通高中课程新标准实验教科书《英语》第五册第四单元有这样一句话:“ ?” 划线部分可视为一个固定搭配(结构).要想提供更多该结构用例,词典自然无能为力,上面提到地两个在线语料库也检索不到任何实例,这时搜索引擎便显示了它地优势.如将这一结构作为检索词(注意加双引号),可检索到如下例句:文档来自于网络搜索), , ? ?文档来自于网络搜索) ’ ?文档来自于网络搜索搜索引擎不仅可用于揭示语言运用规律,也可用于查询没有把握地英语表达,观察该表达是否被母语者广泛使用.如汉语“小雨”,当不能肯定其对应英语表达是“ ”或“ ”,或者两者皆可时,我们便可以在网上搜索.不过我们应充分认识到开放地互联网语料库自身地不足,为保证语料地可靠性,需要查看网址来源、文章作者等以判断某一语料是否来自英语本族语者.当然,前文提到地网络语料库也可以用来验证有疑问地英语表达,如“ ”在中检索到个语例,而“ ”则只有一个语例,哪个更地道就显而易见了.由此可见,专门地语料库和直接利用网络资源地开放语料库各有优势和局限,适合不同类型问题地查询.一般在专门地语料库无法满足需要时,我们可求助规模更大地开放语料库;二者也可相互补充.文档来自于网络搜索四、结语充分且真实地道地语言输入是外语学习地重要条件,网上各种语料库工具正是提供这种资源地有效途径之一.这些丰富而典型地实例无论是教师归纳讲解,或是课堂实时演示,或是改编成练习,或是学生自主检索和探索学习,都能极大促进语言教学与学习效率,促进所学语言内化.由于语料库地语料对中学生难免会有一些难度,教师对语例地选择和归纳应是不可或缺地工作.教师和学习者均应具备强烈地语用实证意识,对任何语言疑难问题、语用和搭配规律等都应尽可能利用多种工具查询,尽力寻求客观而充分地解释.文档来自于网络搜索参考文献:., . () . , (): )文档来自于网络搜索. 谢家成“个人英语教学语料库地运用”,《电化教学》年第期。
专业的语料库使用技巧语料库是在语言学和应用语言学研究中非常重要的工具。
它是大规模文本的集合,可以用来研究语言的使用情况和规律。
对于语言学研究者、翻译人员、教师和学生来说,掌握语料库的使用技巧是必不可少的。
本文将介绍一些专业的语料库使用技巧,帮助读者更好地利用语料库进行学习和研究。
一、选择合适的语料库选择合适的语料库是使用语料库的第一步。
不同的语料库有不同的特点和用途,因此我们需要根据具体的需求选择合适的语料库。
常见的语料库包括:1. 综合性语料库:这些语料库收录了各种类型的文本,涵盖了不同的话题和领域。
例如,BNC(British National Corpus)是一个英语综合性语料库,适合于对英语的整体使用情况进行研究。
2. 学科专业语料库:这些语料库针对特定学科的使用情况进行了收集和整理。
例如,法律语料库和医学语料库分别用于研究法律和医学领域的语言使用。
3. 历时语料库:这些语料库收录了不同时期的文本,可以用来研究语言的演变。
例如,COHA(Corpus of Historical American English)是一个用来研究美国英语历史演变的语料库。
二、设置搜索条件在使用语料库进行检索时,我们需要设置适当的搜索条件,以便找到所需的文本。
以下是一些常用的搜索条件:1. 词汇:我们可以输入一个或多个词汇,以搜索包含这些词汇的文本。
还可以设置搜索词的位置(如句首、句中、句末)和词性(如名词、动词、形容词等)。
2. 短语:除了单个词汇,我们还可以搜索特定的短语。
短语搜索可以通过添加引号来实现,以确保搜索结果仅包含完整的短语。
3. 上下文:为了更精确地定位所需的文本,我们可以指定搜索词的上下文。
上下文可以是一个特定的句子、段落或文档。
4. 语言特征:语料库通常提供一些基于语言特征的搜索选项,如词频、词汇搭配、句法关系等。
这些选项可以帮助我们更深入地了解和研究语言的使用。
三、分析搜索结果搜索结果的分析是使用语料库的关键步骤之一。
基于COCA、BNC语料库的近义词辨析r——以raise和rise为例姜敏;黄蕾【摘要】随着语料库语言学的发展和各种语料库的建立,基于语料库的行为描述法在语言学研究和教学方面被公认为是一种科学有效的方法.正确运用英语词汇,尤其是近义词,是英语学习的重点和难点.基于美国当代语料库(COCA)、英国国家语料库(BNC),分别从语域、类连接和搭配三个方面对近义动词raise和rise进行辨析,使英语学习者运用语料库更好地掌握近义词.【期刊名称】《长春教育学院学报》【年(卷),期】2018(034)006【总页数】4页(P39-41,46)【关键词】COCA;BNC;语域;类连接;搭配;近义词【作者】姜敏;黄蕾【作者单位】成都理工大学外国语学院,四川成都610059;成都理工大学外国语学院,四川成都610059【正文语种】中文【中图分类】H313词汇是英语学习的基础。
据统计,英语中同义词、近义词的数量约占总词汇量的60%(贺晓东,2003)。
由此看出,英语近义词数量庞大,是英语学习重中之重,掌握好近义词辨析,就能更好地学习英语。
现代语料库的出现为研究同义词区别及应用提供了新的途径。
语料库收集语料范围广泛、规模较大,再现该语言在母语人群中真实自然的使用情况,为英语学习者提供更加直观、可靠的语境,以便更好地辨析近义词。
以往的学者大多采用单一语料库研究近义词辨析,采用两个及以上语料库的比较少见。
笔者在前人研究的基础上,基于COCA和BNC两个语料库对raise和rise进行辨析,探讨这两个词在语域、类连接和搭配上的差异,希望对今后的英语教学有所启示。
一、研究设计(一)研究工具美国当代英语语料库(COCA)由杨百翰大学Mark Davies教授开发,是当今世界最大的美国英语平衡语料库。
迄今其规模已超过5.6亿词汇,收集从1990年至2017年期间美国境内口语、小说、杂志、报纸及学术期刊五大领域的语料。
同时也是一款在线免费的语料库。
基于语料库辨析英语单词近义词辨析,一直以来都是英语学习中的重点和难点。
本文以bean和pea的用法为例,通过检索它们在大型语料库COCA和BNC中的使用情况,来分析它们的区别和实际使用方法,并借此来阐明语料库检索工具对于近义词辨析尤其是在英美两国单词的近义词使用情况上分别所起的重要作用。
本文利用在线COCA和BNC对bean与pea进行辨析,发现这两个词在使用频率、单词搭配等方面都有明显的区别,对学生掌握近义词的区别和用法有很大帮助。
研究背景英语中的近义词很多,区分近义词对于英语学习者来说有一定难度。
一般来说,英语学习者都是根据自己的经验或已获得的知识进行辨别区分的,偶尔能借助工具书进行辨析或者从词汇的感情色彩、语体修辞、固定搭配等角度进行区分。
但是,由于缺乏大量地道的语料输入,有时候学习者的所谓的“语感”往往是错误的,即便是工具书也不能及时对很多新出现的语言现象或者词汇搭配做出及时修订。
而现代科技的发展以及计算机的应用,为英语近义词的辨析提供了新的手段和方法。
基于语料库的近义词辨析弥补了传统近义词辨析方法的一些不足,利用语料库的检索功能,通过语境,可以得到更加直观、更加真实的分析结果。
笔者发现Mr. Bean (憨豆先生)和Black Eyed Peas(黑眼豆豆)中这两个“豆”的不同表达方式,并以bean和pea为例,通过利用COCA和BNC两个语料库,探讨英美两国对bean和pea用法的区别。
文中的BNC是British National Corpus的缩写,一般译为“英国国家语料库”。
它是由英国多家知名出版社、牛津大学计算机服务中心?p兰卡斯特大学英语计算机中心及大英图书馆等联合开发建立的大型语料库,用以呈现20世纪后期以来的英式英语。
该语料库包含书面语和口语,单词容量超过1亿。
文中的COCA是Corpus of Contemporary American English的缩写,一般译为“美国当代英语语料库”。
BYU语料库系统及其语言研究应用作者:刘喜琴Mark Davies来源:《中国教育信息化·高教职教》2017年第05期摘要:美国杨百翰大学(BYU)的语料库系统现含10多个免费语料库,在规模、速度、检索方式、语料范围等方面均为同类之最。
文章在简要介绍该系统的最新进展后,从语言资源和技术手段评价其优势与局限性。
然后收集国内外基于该系统的重要前沿研究文献,建成小型文本,用AntConc软件输出其高频主题词,从而分析相关研究的热点和趋势。
发现相关研究集中在如下互为交叉的领域——变异语言学、认知语言学、词汇语义学和语言习得或教学。
最后从语言研究、外语教学与词典编纂三方面分析了该系统的应用前景,强调它在语言变异和认知语言学研究等方面的特殊意义,并阐述了相关研究的跨学科整合趋势。
关键词:BYU语料库系统;美国当代英语语料库;语言变异;认知语言学中图分类号:H319.3 文献标志码:A 文章编号:1673-8454(2017)09-0038-06一、BYU语料库系统简介1.总体介绍美国杨百翰大学(Brigham Young University)的语料库系统()由Mark Davies教授创建,目前主要包括11个英语语料库、西班牙语和葡萄牙语语料库各一个。
这些语料库之间实现了无缝对接,相互补充,检索一致,自成体系,故称为“系统”。
它们应用非常广泛,中国用户数量排世界前列。
各库规模、语种(方言)、语料年份及发布年份如表1所示(Davies 2013c)。
最具代表性的是美国当代英语语料库COCA(Davies 2008-),是目前世界上最大的英语通用语料库,分口语、小说、报纸、流行杂志和学术期刊五个均匀的子库。
此外还有四个谷歌图书语块库(Google Books)的高级检索平台,以及早期的几个语料库——Register Variation in Spanish、Polyglot Bible、Polyglot Book of Mormon、Medieval Spanish bibles和Latin/OSp/ModSp bibles。
1. Who created these corpora?The corpora were created by Mark Davies, Professor of Linguistics at Brigham Young University in Provo, Utah, USA. In most cases (though see #2 below) this involved designing the corpora, collecting the texts, editing and annotating them, creating the corpus architecture, and designing and programming the web interfaces. Even though I use the terms "we" and "us" on this and other pages, most activities related to the development of most of these corpora were actually carried out by just one person.2. Who else contributed?3. Could you use additional funding or support?As noted above, we have received support from the US National Endowm ent for the Humanities and Brigham Young University for the developm ent of several corpora. However, we are always in need of ongoing support for new hardware and software, to add new features, and especially to create new corpora. Because we do not charge for the use of the corpora (which are used by 80,000+ researchers, teachers, and language learners each month) and since the creation and maintenance of these corpora is essentially a "one person enterprise", any additional support would be very welcom e. There might be graduate programs in linguistics, or ESL or linguistics publishers, who might want to make a contribution, and we would then "spotlight" them on the front page of the corpora. Also, if you have contacts at a funding source like the Mellon Foundation or the MacArthur grants, please let them know about us (and no, we're not kidding).4. What's the history of these corpora?The first large online corpus was the Corpus del Español in 2002, followed by the BYU-BNC in 2004, the Corpus do Português in 2006, TIME Corpus in 2007, the Corpus of Contemporary American English (COCA) in 2008, and the Corpus of Historical American English (COHA) in 2010. (More details...)5. What is the advantage of these corpora over other ones that are available?For some languages and time periods, these are really the only corpora available. For example, in spite of earlier corpora like the American National Corpus and the Bank of English, our Corpus of Contemporary American English is the only large, balanced corpus of contemporary American English. In spite of the Brown family of corpora and the ARCHER corpus, the Corpus of Historical American English is the only large and balanced corpus of historical American English. And the Corpus del Español and the Corpus do Português are the only large, annotated corpora of these two languages. Beyond the "textual" corpora, however, the corpus architecture and interface that we have developed allows for speed, size, annotation, and a range of queries that we believe is unmatched with other architectures, and which makes it useful for corpora such as the British National Corpus, which does have other interfaces. Also, they're free -- a nice feature.6. What software is used to index, search, and retrieve data from these corpora?We have created our own corpus architecture, using Microsoft SQL Server as the backbone of the relational database approach. Our proprietary architecture allows for size, speed, and very good scalability that we believe are not available with any other architecture. Even complex queries of the more than 425 million word COCA corpus or the 400 million word COHA corpus typically only take one or two seconds. In addition, be cause of the relational database design, we can keep adding on more annotation "modules" with little or no performance hit. Finally, the relational database design allows for a range of queries that we believe is unmatched by any other architecture for large corpora.7. How many people use the corpora?As measured by Google Analytics, as of March 2011 the corpora are used by more than 80,000 unique people each month. (In other words, if the same person uses three different corpora a total of ten times that month, it counts as just one of the 80,000 unique users). The most widely-used corpus is the Corpus of Contemporary American English -- with more than 40,000 unique users each month. And people don't just come in, look for one word, and move on -- average time at the site each visit is between 10-15 minutes.8. What do they use the corpora for?For lots of things. Linguists use the corpora to analyze variation and change in the different languages. Some are materials developers, who use the data to create teaching materials. A high number of users are language teachers and learners, who use the corpus data to model native speaker performance and intuition. Translators use the corpora to get precise data on the target languages. Some businesses purchase data from the corpora to use in natural language processing projects. And lots of people are just curious about language, and (believe it or not) just use the corpora for fun, to see what's going on with the languages currently. If you are a registered user, you can look at the profiles of other users (by country or by interest) after you log in.9. Are there any published materials that are based on these corpora?As of mid-2011, researchers have submitted entries for more than 260 books, articles and conference presentations that are based on the corpora, and this is probably only a sm all fraction of all of the publications that have actually been done. In addition, we ourselves have published three frequency dictionaries that are based on data from the corpora -- Spanish (2005), Portuguese (2007), and American English (2010).10. How can I collaborate with other users?You can search users' profiles to find researchers from your country, or to find researchers who have similar interests. In the near future, we may start a Google Group for those who want more interaction.11. What about copyright?Our corpora contain hundreds of millions of words of copyrighted material. The only way that their use is legal (under US Fair Use Law) is because of the limited "Keyword in Context" (KWIC) displays. It's kind of like the "snippet defense" used by Google. They retrieve and index billions of words of copyright material, but they only allow end users to access"snippets" (片段,少许)of this data from their servers. Click here for an extended discussion of US Fair Use Law and how it applies to our COCA texts.12. Can I get access to the full text of these corpora?Unfortunately, no, for reasons of copyright discussed above. We would love to allow end users to have access to full-text, but we simply cannot. Even when "no one else will ever use it" and even when "it's only one article or one page" of text, we can't. We have to be 100% compliant with US Fair Use Law, and that means no full text for anyone under any circumstances -- ever. Sorry about that.13. I want more data than what's available via the standard interface. What can I do?Users can purchase derived data -- such as frequency lists, collocates lists, n-grams lists (e.g. all two or three word strings of words), or even blocks of sentences from the corpus. Basically anything, as long as it does not involve full-text access (e.g. paragraphs or pages of text), which would violate copyright restrictions. Click here for much more detailed information on this data, as well as downloadable samples.14. Can my class have additional access to a corpus on a given day?Yes. Sometimes your school will be blocked after an hour or so of heavy use from a classroom full of students. (This is a security mechanism, to prevent "bots" from running thousands of queries in a short time.) To avoid this, sign up ahead of time for "group access".15. Can you create a corpus for us, based on our own materials?Well, I probably could, but I'm not overly inclined to at this point. Creating and maintaining corpora is extremely time intensive, even when you give me the data "all ready" to import into the database. The one exception, I guess, would be if you get a large grant to create and maintain the corpus. Feel free to contact me with questions.16. How do I cite the corpora in my published articles?Please use the following information when you cite the corpus in academic publications or conference papers. And please remember to add an entry to the publication database (it takes only 30-40 seconds!). Thanks.In the first reference to the corpus in your paper, please use the full name. For example, for COCA: "the Corpus of Contemporary American English" with the appropriate citation to the references section of the paper, e.g. (Davies 2008-). After that reference, feel free touse something shorter, like "COCA" (for example: "...and as seen in COCA, there are..."). Also, please do not refer to the corpus in the body of your paper as "Mark Davies' COCA corpus", "a corpus created by Mark Davies", etc. The bibliographic entry itself is enough to indicate who created the corpus.。
基于 COCA、 BNC 和 CLEC 语料库辨析同义词--以learn与study为例杨惠丽【摘要】正确运用英语词汇,尤其是同义词是学生英语学习的一个难点,而基于语料库进行教学方法的研究是语言教学的一个新趋势。
基于美国当代英语语料库( COCA)、英国国家语料库( BNC)、中国英语学习者语料库( CLEC)三个语料库从语域、类连接和搭配三个方面对动词同义词learn和study进行辨析,可以发现这learn与study在类连接、搭配方面存在明显差异,而在语域的运用方面差别不明显。
learn与study在不同语料库中存在语域方面的差异,而在类连接与动词搭配方面无显著性差异。
%The correct use of English vocabulary , especially a synonym is one of the students'difficulties in English learning , while the teaching methods research based on corpus is a new trend of language teaching .This paper, based on the Contemporary English Corpus (COCA), the British National Corpus (BNC), and Chinese Learners of English Corpus (CLEC), aims to analyze verb synonyms “learn” and“study” from registers, colliga-tion structures and collocation features , and finds that the two words have obvious differences in colligation struc-tures and collocation features , while little difference in registers .However , the usages of these two words in regis-ters have differences among these three corpora , while no significant differences in colligation structures and verb collocation.【期刊名称】《洛阳师范学院学报》【年(卷),期】2015(000)007【总页数】5页(P112-116)【关键词】语料库;同义词;learn;study;辨析【作者】杨惠丽【作者单位】郑州大学外语学院,河南郑州450001【正文语种】中文【中图分类】H313.2英语学习过程中,词汇知识在听、说、读写中都起着很关键的作用。
收稿日期:2021-3-9基于iWeb语料库的英语同义词辨析研究——以shape 和form 为例□ 李恩耀广州中医药大学外国语学院[摘 要] 同义词作为英语词汇的重要组成部分,一直是英语教学的重点和难点。
在传统的词汇教学中,教师主要通过词典中的中英文释义或举例来区分同义词,难以全面解释其不同用法。
近年来,随着计算机网络技术的飞速发展,语料库在英语教学尤其是词汇教学中发挥着日益重要的作用。
本文基于iWeb 在线语料库,以同义词shape 和form 为例,从词典释义、话题、搭配、词簇、语境共现等方面对英语同义词进行辨析研究,以期对英语词汇教学与研究提供一定的启示。
[关键词] iWeb ;语料库;同义词;英语教学[中图分类号] H0-0 [文献标识码] A [文章编号] 1009-6167(2021)11-0057-05作者简介:李恩耀,博士在读,讲师。
研究方向:功能语言学、应用语言学。
基金项目:广州中医药大学2020年高等教育教学改革项目“基于语料库的中医药院校英语专业词汇教学模式研究”。
词汇学习是提高英语听、说、读、写等技能的前提,而同义词作为英语词汇的重要组成部分,一直是英语教学的重点和难点。
在传统的词汇教学中,教师主要通过词典中的中英文释义或举例来区分同义词,难以全面解释其不同用法。
近年来,随着计算机技术的发展,语料库在语言学研究和语言教学中发挥着越来越重要的作用。
语料库具有容量大、速度快、效率高的特点,能够提供丰富、真实的口语或书面语语料,并为英语同义词辨析提供全新的研究视角。
鉴于此,本文借助iWeb 语料库,以同义词shape 和form 为例,从词典释义、话题、搭配、词簇、语境共现等方面对英语同义词进行辨析研究,以期为英语词汇教学与研究提供一定的启示。
1 研究设计本研究选取的一对动词同义词shape 和form 来自新世纪高等院校英语专业本科生系列教材《综合教程(修订版)》第一册第八单元Text A 的课后练习,也是实际教学中的重难点。
基于语料库的check、examine词义辨析作者:周欣来源:《文教资料》2019年第02期摘要:近义词辨析是英语学习的重点和难点。
本文主要使用英语国家语料库(BNC)和美国当代英语语料库(COCA)对check, examine, inspect这组近义词进行研究。
采用对比分析方法从词频、搭配、语域这三个角度对check, examine这组近义词进行详细的比较。
关键词: check examine 语料库在第七版《牛津高阶英汉双解词典》第324页,check被定义为“to examine sth. to see if it is correct, safe, or acceptable检查;审查;核查;检验”,如Check the oil and water before setting off. 出发前查看一下油和水。
在第七版《牛津高阶英汉双解词典》第688页,examine被定义为“to look at sth/sb closely to see if there is anything wrong or to find the cause of a problem仔细地检查;检验”,如The goods were examined for damage on arrival.货物到达时检查是否有破损。
从check和examine这两个词的中英文解释可以看出,这两个词意义相近,都有“检查;检验”的意思。
这两个词表面意义看起来很相近,但是观察它们各自使用的语域和搭配词可以很明显地发现之间的区别。
1.相关研究近义词一直是英语学习的难点,利用语料库这个强大的检索工具可以真实地反映词语运用语境,从而为近义词的研究提供一些帮助和依据。
Sinclair提出,任何研究文本的人都需要了解不同的词性在文本中出现的次数,即词频。
Frith指出,从一个词的相伴可知该词。
从词语的搭配,学习者了解词块,把它们作为整体一块记忆。
多语种在线语料库检索平台BFSU CQPweb使用简明手册许家金中国外语教育研究中心(2012-11-07)1、访问及登录访问124.193.83.252/cqp/(用户名:test和密码:test),可点击使用相应的语料库。
目前BFSU CQPweb平台上已安装英语、汉语、德语、日语、俄语、阿拉伯语、冰岛语等7个语种23个语料库。
图1:BFSU CQPweb主界面2、CQPweb功能概要按McEnery & Hardie(2012)对语料库分析工具的时代划分,CQPweb属于第四代语料库工具,即在线语料库分析工具。
四代工具的突出代表是美国杨百翰(Brigham Young)大学Mark Davies教授创建的BYU系列语料库检索界面(/)。
类似的在线语料库检索系统还有SketchEngine、CWB、BNCweb、Phrase in English等。
而当前主流的语料库工具属于第三代,其中以WordSmith、AntConc和PowerConc等为代表。
第四代语料库工具,将语料库与分析工具合二为一,越来越受到普通用户的青睐。
在线语料库工具通常将语料库文本按特定格式建成索引(index),存储在服务器上。
用户检索响应速度要远高于三代软件在本地电脑上的检索速度。
其操作也较三代语料库软件简便得多。
四代语料库工具可完成三代语料库几乎所有的功能,其中又以CQPweb所能实现的功能最多最全。
更重的是,CQPweb是开源软件。
概括说来,CQPweb可以实现以下功能。
(1)在线生成语料库的词频表(frequency list);(2)查询(query)字词、语言结构等,以获取大量语言实例或相应结构的出现频次(frequency),并可以按语体、年代、章节、学生语言水平级别、写作题材等分别呈现查询结果;(3)计算特定词语在语料库中的典型搭配(collocation);(4)计算语料库中的核心关键词(keywords),等。
英国国家语料库BNC在英语词汇教学中的应用【摘要】本文以作者的高中英语词汇教学实践为基础,阐述在高中英语教学过程中如何借助英国国家语料库BNC实现有效的词汇教学。
该文旨在通过实例展示BNC语料库在英语词汇教学中的应用,拓宽学生英语学习渠道,建立探究式、自主式英语词汇学习模式提供有力的依据,实现英语学科核心素养的培养目标。
【关键词】高中英语;词汇教学;英语国家语料库BNC一、引言语料库(corpus)指的是“A collection of naturally occurring language text, chosen to characterize a state or variety of a language. ”(Sinclair,1991)。
中国学者对corpus也有自己的解释“语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或话语片段而建成的具有一定容量的大型电子文库。
”(赵俊峰等,2010)在计算机技术的发展之下,语料库自上世纪50年代开始发展,在其发展初期,仅对词语进行一般分析,如词频统计等,之后增加了对于词语的语法属性标注,例如:词性。
语料库发展到现在,使用者们越来越重视对例如:语音、构词、句法、语义以及语用层面的标注。
随着计算机技术的普及以及网络技术的飞速发展,计算机在外语学习中的辅助作用越来越显著。
英语语料库在英语学习者和使用地道的语言中起着不可估量的作用。
经过近70年的发展和提升,语料库语言学无论在理论上还是技术上都已趋于成熟,得到了越来越多的专家认可,其应用范围也趋于广泛,涉及语言分析、语言教学、词典编撰到大数据、人工智能等领域。
语料库应用于外语教学已有30多年时间,英国伯明翰大学语言学专家Tim Johns于1994年提出数据驱动型学习方法(Data-Driven Learning, DDL),指的是语言学习者运用语料库数据和教育语料库的方法自主进行语言学习的过程。