BNC和COCA语料库
- 格式:ppt
- 大小:1.69 MB
- 文档页数:31
156青年文学家·语言研究基于语料库BNC和COCA对SORRY的对比研究丁玲玲 西安电子科技大学人文学院 陕西 西安 710071TOTBNC 10766COCA 40036图一:sorry 的频数对比摘 要:本文使用英国国家语料库BNC(The British NationalCorpus)和当代美国英语语料库COCA(Corpus of ContemporaryAmerican English)对sorry 进行对比研究。
目的是说明这两种语料库之间的异同点以及加深语言学习者对于sorry 的认识。
关键词:BNC ;COCA ;sorry ;对比研究[中图分类号]:H061 [文献标识码]:A[文章编号]:1002-2139(2013)-13-156-01一、前言现在国内运用BNC 、中国学习者英语语料库CLEC 以及中国大学学习者英语口语语料库COLSEC 进行对比研究的较多,但是运用BNC 与COCA 来进行英式英语与美式英语对比的研究还较少。
本文将以sorry 为例在这方面做一尝试。
二、使用工具——BNC 和 COCA本文用到的语料库有英国国家语料库(BNC ),美国当代英语语料库(COCA )。
本文会依次对sorry 上述两个语料库中进行检索,比较得出的结果,并进行阐释说明。
BNC :英国国家语料库是目前世界上最具代表性的当代英语语料库之一,是目前网络可直接使用的最大的语料库,其中书面语语料库9千余万词,口语语料库1千余万词。
COCA :美国当代英语语料库,是由美国Brigham Young University 的Mark Davies 教授开发的高达3.6亿词汇的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。
与其他语料库不同的是它是免费在线供大家使用,是不可多得的一个英语学习宝库。
三、研究问题本文的研究将从以下几个方面展开:(一)sorry 在BNC 与COCA 里面的总频数对比;(二)sorry 在BNC 与COCA 里面的搭配 a)左右搭配情况的对比(取前一百个例子分析),b)sorry 在KWIC 中搭配频率最高的单词统计对比;(三)sorry 在BNC 和COCA 里面出现场合情况对比;四、研究结果与分析(一)sorry 在BNC 与COCA 里面的总频数对比首先我们将SORRY 放入BNC 语料库与COCA 语料库分别进行检索,发现SORRY 在BNC 中一共出现了10766次,而在COCA 中却出现了40036次(如图一所示)。
英语语料库#参考2012-03-02 22:29:26■BNC=The British National Corpus英国国家语料库/(备用)/bnc/■ANC = The American National Corpus美国国家语料库/■COCA = Corpus of Contemporary American English 美国当代英语语料库/■COHA = Corpus of Historical American English 美国近当代英语语料库/coha/■BOE=Bank of English 柯林斯英语语料库/wordbanks/■NMC=New Model Corpus 新规范语料库/■ARC=ACL Anthology Reference Corpus (ARC) 文选参考语料库/auth/preloaded_corpus/aclarc/ske/first_form■BAWE=British Academic Written Eng Corpus (BAWE) 英国学术书面语语料库/auth/preloaded_corpus/bawe2/ske/first_form/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download■BASE= British Academic Spoken English Corpus (BASE) 英国学术口语语料库/fac/soc/celte/research/base/■SCTS=Scottish Corpus Of Texts and Speech苏格兰口语与书面语语料库/■SCTS=Corpus Of Modern Scottish Writing 当代苏格兰语实库/cmsw/Slang/ (American, English, and Urban slang)/slang/ (UK)//cybereng/slang///可以免费使用的大型英语语料库资源常用语料库资源链接汇集(语料天涯)/time/http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集(语料天涯)http://202.204.128.82/sweccl/Corpus//netprints/Corporalink/Corporalink.htm1. BNC-World Simple Search ☆☆☆/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context.2. Brown, LOB, BNC sampler ☆☆☆Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora.English: /concordance/WWWConcappE.htmEnglish: http://www.lextutor.ca/concordancers/concord_e.htmlParallel: /concordance/paralleltexts/3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆/Corpus/CorpusSearch.aspxThe Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text.4. New BNC interface - VIEW: ☆☆☆☆☆/5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆The Brown Corpus and many others - native, learner... Go tohttp://www.lextutor.ca/concordancers/concord_e.html6. MICASE ☆☆☆☆/m/micase/There are currently 152 transcripts (totaling 1,848,364 words) available at the site.7. CLEC online concordancing ☆☆☆☆/corpus/EngSearchEngine.aspxCLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
专业的语料库建设理论语料库是指用于语言学研究的大型文本数据库,它包含大量实际使用的自然语言文本,如书籍、报纸、杂志、互联网文本、对话录音等等。
语料库建设理论旨在有效地选择、组织和分析语料库,以便满足研究者的需求。
本文将介绍一些专业的语料库建设理论。
1. 语料库选择选择合适的语料库是语料库建设的首要任务。
语料库的规模和内容应该与研究目的相匹配。
通常,大型综合性语料库可以满足大多数研究项目的需求。
研究者可以选择已经存在的现成语料库,如COCA (Corpus of Contemporary American English)、BNC(British National Corpus)等,也可以根据自己的需要创建新的语料库。
2. 语料库组织语料库的组织需要考虑多种因素。
首先,语料库应该包含各种不同类型的文本,以反映真实的语言使用情况。
其次,语料库应该具有丰富的标注信息,如词性标注、句法分析、语义标记等,以便进行更深入的语言分析。
最后,语料库还应该具备良好的可访问性和可搜索性,以便研究者能够方便地检索和提取需要的语言样本。
3. 语料库分析语料库的分析是语料库建设的核心内容。
研究者可以利用语料库中的样本进行语言学的定量和定性分析。
定量分析可以通过统计方法计算出语言现象的频率、分布和变异等信息,帮助研究者揭示语言规律和趋势。
定性分析则可以通过人工观察和解释来深入理解特定的语言现象,如语言变体、修辞手法等。
4. 语料库应用语料库的应用范围广泛。
首先,语料库在语言学研究中扮演着重要角色,帮助研究者进行语言规律的发现和验证。
其次,语料库也被广泛应用于语言教学和学习中。
教师可以利用语料库的真实语言样本来帮助学生理解和掌握语言的实际用法。
另外,语料库还可以用于机器翻译、语音识别、自然语言处理等领域,为相关技术的发展提供重要的数据支持。
总结:专业的语料库建设理论包括语料库选择、语料库组织、语料库分析和语料库应用四个方面。
常用的英语语料库有以下几个:
英国国家语料库(BNC):是目前世界上非常有代表性的当代英语语料库之一,收录了1亿字的电子资源,涉及口语和书面英语。
美国当代英语语料库(COCA):是目前最大的免费英语语料库,包含5.2亿词的文本,由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成。
密歇根大学学术口语语料库(MICASE):专注于学术口语,收集了大量学术讨论和讲座的语音转录。
密西根高阶学生论文语料库(MICUSP):主要收录高年级学生的论文,对于研究学术写作风格和习惯很有帮助。
台湾清大自然语言处理语料库(Linggle):结合大数据分析,提供了丰富的语料和语言统计信息。
这些语料库各具特色,可以根据具体的研究需求选择合适的语料库。
coca等级词汇摘要:一、引言1.介绍COCA 等级词汇的背景和作用2.阐述COCA 等级词汇对于学习者的重要性二、COCA 等级词汇的概述1.COCA 的定义和来源2.COCA 等级词汇的分类和特点三、COCA 等级词汇的应用1.在英语学习中的作用2.如何有效地利用COCA 等级词汇提高英语水平四、COCA 等级词汇与其他词汇体系的比较1.GSL (General Service List)2.BNC (British National Corpus)五、结论1.总结COCA 等级词汇的重要性2.鼓励学习者积极利用COCA 等级词汇提高英语能力正文:一、引言COCA(The Corpus of Contemporary American English)等级词汇是英语学习者提高英语能力的重要工具。
COCA 等级词汇不仅可以帮助学习者掌握英语中最常用的词汇,还能让学习者了解词汇的难度和重要性,从而更好地进行英语学习。
二、COCA 等级词汇的概述COCA 等级词汇是基于COCA 语料库(The Corpus of Contemporary American English)进行的研究成果。
COCA 语料库包含了大量美国英语的文本,包括书籍、报纸、杂志、网络文章等,共约5.2 亿词。
通过对这些语料库的分析,研究人员将词汇按照其在英语中的使用频率和重要性进行分类,形成了COCA 等级词汇。
COCA 等级词汇共分为十个等级,从最常用的Level 1 词汇到较为生僻的Level 10 词汇。
每个等级的词汇都有其特定的使用场景和重要性。
例如,Level 1 词汇是英语中最常用的词汇,学习者需要熟练掌握这些词汇;而Level 10 词汇虽然在日常生活中使用频率较低,但对于学习特定领域(如科技、医学等)的专业知识具有重要意义。
三、COCA 等级词汇的应用COCA 等级词汇在英语学习中具有广泛的应用。
学习者可以通过掌握不同等级的词汇,提高自己的英语水平。
基于COCA、BNC语料库的近义词辨析r——以raise和rise为例姜敏;黄蕾【摘要】随着语料库语言学的发展和各种语料库的建立,基于语料库的行为描述法在语言学研究和教学方面被公认为是一种科学有效的方法.正确运用英语词汇,尤其是近义词,是英语学习的重点和难点.基于美国当代语料库(COCA)、英国国家语料库(BNC),分别从语域、类连接和搭配三个方面对近义动词raise和rise进行辨析,使英语学习者运用语料库更好地掌握近义词.【期刊名称】《长春教育学院学报》【年(卷),期】2018(034)006【总页数】4页(P39-41,46)【关键词】COCA;BNC;语域;类连接;搭配;近义词【作者】姜敏;黄蕾【作者单位】成都理工大学外国语学院,四川成都610059;成都理工大学外国语学院,四川成都610059【正文语种】中文【中图分类】H313词汇是英语学习的基础。
据统计,英语中同义词、近义词的数量约占总词汇量的60%(贺晓东,2003)。
由此看出,英语近义词数量庞大,是英语学习重中之重,掌握好近义词辨析,就能更好地学习英语。
现代语料库的出现为研究同义词区别及应用提供了新的途径。
语料库收集语料范围广泛、规模较大,再现该语言在母语人群中真实自然的使用情况,为英语学习者提供更加直观、可靠的语境,以便更好地辨析近义词。
以往的学者大多采用单一语料库研究近义词辨析,采用两个及以上语料库的比较少见。
笔者在前人研究的基础上,基于COCA和BNC两个语料库对raise和rise进行辨析,探讨这两个词在语域、类连接和搭配上的差异,希望对今后的英语教学有所启示。
一、研究设计(一)研究工具美国当代英语语料库(COCA)由杨百翰大学Mark Davies教授开发,是当今世界最大的美国英语平衡语料库。
迄今其规模已超过5.6亿词汇,收集从1990年至2017年期间美国境内口语、小说、杂志、报纸及学术期刊五大领域的语料。
同时也是一款在线免费的语料库。
基于语料库辨析英语单词近义词辨析,一直以来都是英语学习中的重点和难点。
本文以bean和pea的用法为例,通过检索它们在大型语料库COCA和BNC中的使用情况,来分析它们的区别和实际使用方法,并借此来阐明语料库检索工具对于近义词辨析尤其是在英美两国单词的近义词使用情况上分别所起的重要作用。
本文利用在线COCA和BNC对bean与pea进行辨析,发现这两个词在使用频率、单词搭配等方面都有明显的区别,对学生掌握近义词的区别和用法有很大帮助。
研究背景英语中的近义词很多,区分近义词对于英语学习者来说有一定难度。
一般来说,英语学习者都是根据自己的经验或已获得的知识进行辨别区分的,偶尔能借助工具书进行辨析或者从词汇的感情色彩、语体修辞、固定搭配等角度进行区分。
但是,由于缺乏大量地道的语料输入,有时候学习者的所谓的“语感”往往是错误的,即便是工具书也不能及时对很多新出现的语言现象或者词汇搭配做出及时修订。
而现代科技的发展以及计算机的应用,为英语近义词的辨析提供了新的手段和方法。
基于语料库的近义词辨析弥补了传统近义词辨析方法的一些不足,利用语料库的检索功能,通过语境,可以得到更加直观、更加真实的分析结果。
笔者发现Mr. Bean (憨豆先生)和Black Eyed Peas(黑眼豆豆)中这两个“豆”的不同表达方式,并以bean和pea为例,通过利用COCA和BNC两个语料库,探讨英美两国对bean和pea用法的区别。
文中的BNC是British National Corpus的缩写,一般译为“英国国家语料库”。
它是由英国多家知名出版社、牛津大学计算机服务中心?p兰卡斯特大学英语计算机中心及大英图书馆等联合开发建立的大型语料库,用以呈现20世纪后期以来的英式英语。
该语料库包含书面语和口语,单词容量超过1亿。
文中的COCA是Corpus of Contemporary American English的缩写,一般译为“美国当代英语语料库”。
语言学常用语料库
以下是一些语言学常用的语料库:
- Brown语料库:这是一个基于英语的语料库,包含了1961年至1979年间推广的1,000,000个单词的样本,覆盖了各种文体和题材。
- COCA(Corpus of Contemporary American English):这是一
个覆盖美国当代英语的语料库,包含了1990年至今的一亿多
个单词样本。
- BNC(British National Corpus):这是一个覆盖英国英语的
语料库,包含了1980年代至1993年间的一亿个单词样本。
- CHILDES(Child Language Data Exchange System):这是一
个收集婴儿和儿童语言数据的数据库,用于研究儿童语言发展。
- Penn Treebank:这是一个标注了句法和语义信息的英语语料库,用于自然语言处理研究。
- EuroParl语料库:这是一个包含欧洲议会会议记录的多语言
语料库,可以用于研究多语言对比和机器翻译。
- COrE(Corpus of English):这是一个以英语为基础的多样
化语料库,包含了来自不同国家和地区的语言样本,用于研究语言变体和语言接触。
- WALS(World Atlas of Language Structures):这是一个收集了世界各地不同语言结构的数据库,可以用于跨语言比较和语言学理论研究。
这些语料库可以通过在线平台或特定的研究机构访问和获取。
使用语料库可以帮助语言学家进行语言研究、语言分析和理论构建。