BNC和COCA语料库
- 格式:ppt
- 大小:1.69 MB
- 文档页数:31
156青年文学家·语言研究基于语料库BNC和COCA对SORRY的对比研究丁玲玲 西安电子科技大学人文学院 陕西 西安 710071TOTBNC 10766COCA 40036图一:sorry 的频数对比摘 要:本文使用英国国家语料库BNC(The British NationalCorpus)和当代美国英语语料库COCA(Corpus of ContemporaryAmerican English)对sorry 进行对比研究。
目的是说明这两种语料库之间的异同点以及加深语言学习者对于sorry 的认识。
关键词:BNC ;COCA ;sorry ;对比研究[中图分类号]:H061 [文献标识码]:A[文章编号]:1002-2139(2013)-13-156-01一、前言现在国内运用BNC 、中国学习者英语语料库CLEC 以及中国大学学习者英语口语语料库COLSEC 进行对比研究的较多,但是运用BNC 与COCA 来进行英式英语与美式英语对比的研究还较少。
本文将以sorry 为例在这方面做一尝试。
二、使用工具——BNC 和 COCA本文用到的语料库有英国国家语料库(BNC ),美国当代英语语料库(COCA )。
本文会依次对sorry 上述两个语料库中进行检索,比较得出的结果,并进行阐释说明。
BNC :英国国家语料库是目前世界上最具代表性的当代英语语料库之一,是目前网络可直接使用的最大的语料库,其中书面语语料库9千余万词,口语语料库1千余万词。
COCA :美国当代英语语料库,是由美国Brigham Young University 的Mark Davies 教授开发的高达3.6亿词汇的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。
与其他语料库不同的是它是免费在线供大家使用,是不可多得的一个英语学习宝库。
三、研究问题本文的研究将从以下几个方面展开:(一)sorry 在BNC 与COCA 里面的总频数对比;(二)sorry 在BNC 与COCA 里面的搭配 a)左右搭配情况的对比(取前一百个例子分析),b)sorry 在KWIC 中搭配频率最高的单词统计对比;(三)sorry 在BNC 和COCA 里面出现场合情况对比;四、研究结果与分析(一)sorry 在BNC 与COCA 里面的总频数对比首先我们将SORRY 放入BNC 语料库与COCA 语料库分别进行检索,发现SORRY 在BNC 中一共出现了10766次,而在COCA 中却出现了40036次(如图一所示)。
英语语料库#参考2012-03-02 22:29:26■BNC=The British National Corpus英国国家语料库/(备用)/bnc/■ANC = The American National Corpus美国国家语料库/■COCA = Corpus of Contemporary American English 美国当代英语语料库/■COHA = Corpus of Historical American English 美国近当代英语语料库/coha/■BOE=Bank of English 柯林斯英语语料库/wordbanks/■NMC=New Model Corpus 新规范语料库/■ARC=ACL Anthology Reference Corpus (ARC) 文选参考语料库/auth/preloaded_corpus/aclarc/ske/first_form■BAWE=British Academic Written Eng Corpus (BAWE) 英国学术书面语语料库/auth/preloaded_corpus/bawe2/ske/first_form/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download■BASE= British Academic Spoken English Corpus (BASE) 英国学术口语语料库/fac/soc/celte/research/base/■SCTS=Scottish Corpus Of Texts and Speech苏格兰口语与书面语语料库/■SCTS=Corpus Of Modern Scottish Writing 当代苏格兰语实库/cmsw/Slang/ (American, English, and Urban slang)/slang/ (UK)//cybereng/slang///可以免费使用的大型英语语料库资源常用语料库资源链接汇集(语料天涯)/time/http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集(语料天涯)http://202.204.128.82/sweccl/Corpus//netprints/Corporalink/Corporalink.htm1. BNC-World Simple Search ☆☆☆/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context.2. Brown, LOB, BNC sampler ☆☆☆Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora.English: /concordance/WWWConcappE.htmEnglish: http://www.lextutor.ca/concordancers/concord_e.htmlParallel: /concordance/paralleltexts/3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆/Corpus/CorpusSearch.aspxThe Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text.4. New BNC interface - VIEW: ☆☆☆☆☆/5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆The Brown Corpus and many others - native, learner... Go tohttp://www.lextutor.ca/concordancers/concord_e.html6. MICASE ☆☆☆☆/m/micase/There are currently 152 transcripts (totaling 1,848,364 words) available at the site.7. CLEC online concordancing ☆☆☆☆/corpus/EngSearchEngine.aspxCLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
专业的语料库建设理论语料库是指用于语言学研究的大型文本数据库,它包含大量实际使用的自然语言文本,如书籍、报纸、杂志、互联网文本、对话录音等等。
语料库建设理论旨在有效地选择、组织和分析语料库,以便满足研究者的需求。
本文将介绍一些专业的语料库建设理论。
1. 语料库选择选择合适的语料库是语料库建设的首要任务。
语料库的规模和内容应该与研究目的相匹配。
通常,大型综合性语料库可以满足大多数研究项目的需求。
研究者可以选择已经存在的现成语料库,如COCA (Corpus of Contemporary American English)、BNC(British National Corpus)等,也可以根据自己的需要创建新的语料库。
2. 语料库组织语料库的组织需要考虑多种因素。
首先,语料库应该包含各种不同类型的文本,以反映真实的语言使用情况。
其次,语料库应该具有丰富的标注信息,如词性标注、句法分析、语义标记等,以便进行更深入的语言分析。
最后,语料库还应该具备良好的可访问性和可搜索性,以便研究者能够方便地检索和提取需要的语言样本。
3. 语料库分析语料库的分析是语料库建设的核心内容。
研究者可以利用语料库中的样本进行语言学的定量和定性分析。
定量分析可以通过统计方法计算出语言现象的频率、分布和变异等信息,帮助研究者揭示语言规律和趋势。
定性分析则可以通过人工观察和解释来深入理解特定的语言现象,如语言变体、修辞手法等。
4. 语料库应用语料库的应用范围广泛。
首先,语料库在语言学研究中扮演着重要角色,帮助研究者进行语言规律的发现和验证。
其次,语料库也被广泛应用于语言教学和学习中。
教师可以利用语料库的真实语言样本来帮助学生理解和掌握语言的实际用法。
另外,语料库还可以用于机器翻译、语音识别、自然语言处理等领域,为相关技术的发展提供重要的数据支持。
总结:专业的语料库建设理论包括语料库选择、语料库组织、语料库分析和语料库应用四个方面。
常用的英语语料库有以下几个:
英国国家语料库(BNC):是目前世界上非常有代表性的当代英语语料库之一,收录了1亿字的电子资源,涉及口语和书面英语。
美国当代英语语料库(COCA):是目前最大的免费英语语料库,包含5.2亿词的文本,由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成。
密歇根大学学术口语语料库(MICASE):专注于学术口语,收集了大量学术讨论和讲座的语音转录。
密西根高阶学生论文语料库(MICUSP):主要收录高年级学生的论文,对于研究学术写作风格和习惯很有帮助。
台湾清大自然语言处理语料库(Linggle):结合大数据分析,提供了丰富的语料和语言统计信息。
这些语料库各具特色,可以根据具体的研究需求选择合适的语料库。
coca等级词汇摘要:一、引言1.介绍COCA 等级词汇的背景和作用2.阐述COCA 等级词汇对于学习者的重要性二、COCA 等级词汇的概述1.COCA 的定义和来源2.COCA 等级词汇的分类和特点三、COCA 等级词汇的应用1.在英语学习中的作用2.如何有效地利用COCA 等级词汇提高英语水平四、COCA 等级词汇与其他词汇体系的比较1.GSL (General Service List)2.BNC (British National Corpus)五、结论1.总结COCA 等级词汇的重要性2.鼓励学习者积极利用COCA 等级词汇提高英语能力正文:一、引言COCA(The Corpus of Contemporary American English)等级词汇是英语学习者提高英语能力的重要工具。
COCA 等级词汇不仅可以帮助学习者掌握英语中最常用的词汇,还能让学习者了解词汇的难度和重要性,从而更好地进行英语学习。
二、COCA 等级词汇的概述COCA 等级词汇是基于COCA 语料库(The Corpus of Contemporary American English)进行的研究成果。
COCA 语料库包含了大量美国英语的文本,包括书籍、报纸、杂志、网络文章等,共约5.2 亿词。
通过对这些语料库的分析,研究人员将词汇按照其在英语中的使用频率和重要性进行分类,形成了COCA 等级词汇。
COCA 等级词汇共分为十个等级,从最常用的Level 1 词汇到较为生僻的Level 10 词汇。
每个等级的词汇都有其特定的使用场景和重要性。
例如,Level 1 词汇是英语中最常用的词汇,学习者需要熟练掌握这些词汇;而Level 10 词汇虽然在日常生活中使用频率较低,但对于学习特定领域(如科技、医学等)的专业知识具有重要意义。
三、COCA 等级词汇的应用COCA 等级词汇在英语学习中具有广泛的应用。
学习者可以通过掌握不同等级的词汇,提高自己的英语水平。
基于COCA、BNC语料库的近义词辨析r——以raise和rise为例姜敏;黄蕾【摘要】随着语料库语言学的发展和各种语料库的建立,基于语料库的行为描述法在语言学研究和教学方面被公认为是一种科学有效的方法.正确运用英语词汇,尤其是近义词,是英语学习的重点和难点.基于美国当代语料库(COCA)、英国国家语料库(BNC),分别从语域、类连接和搭配三个方面对近义动词raise和rise进行辨析,使英语学习者运用语料库更好地掌握近义词.【期刊名称】《长春教育学院学报》【年(卷),期】2018(034)006【总页数】4页(P39-41,46)【关键词】COCA;BNC;语域;类连接;搭配;近义词【作者】姜敏;黄蕾【作者单位】成都理工大学外国语学院,四川成都610059;成都理工大学外国语学院,四川成都610059【正文语种】中文【中图分类】H313词汇是英语学习的基础。
据统计,英语中同义词、近义词的数量约占总词汇量的60%(贺晓东,2003)。
由此看出,英语近义词数量庞大,是英语学习重中之重,掌握好近义词辨析,就能更好地学习英语。
现代语料库的出现为研究同义词区别及应用提供了新的途径。
语料库收集语料范围广泛、规模较大,再现该语言在母语人群中真实自然的使用情况,为英语学习者提供更加直观、可靠的语境,以便更好地辨析近义词。
以往的学者大多采用单一语料库研究近义词辨析,采用两个及以上语料库的比较少见。
笔者在前人研究的基础上,基于COCA和BNC两个语料库对raise和rise进行辨析,探讨这两个词在语域、类连接和搭配上的差异,希望对今后的英语教学有所启示。
一、研究设计(一)研究工具美国当代英语语料库(COCA)由杨百翰大学Mark Davies教授开发,是当今世界最大的美国英语平衡语料库。
迄今其规模已超过5.6亿词汇,收集从1990年至2017年期间美国境内口语、小说、杂志、报纸及学术期刊五大领域的语料。
同时也是一款在线免费的语料库。
基于语料库辨析英语单词近义词辨析,一直以来都是英语学习中的重点和难点。
本文以bean和pea的用法为例,通过检索它们在大型语料库COCA和BNC中的使用情况,来分析它们的区别和实际使用方法,并借此来阐明语料库检索工具对于近义词辨析尤其是在英美两国单词的近义词使用情况上分别所起的重要作用。
本文利用在线COCA和BNC对bean与pea进行辨析,发现这两个词在使用频率、单词搭配等方面都有明显的区别,对学生掌握近义词的区别和用法有很大帮助。
研究背景英语中的近义词很多,区分近义词对于英语学习者来说有一定难度。
一般来说,英语学习者都是根据自己的经验或已获得的知识进行辨别区分的,偶尔能借助工具书进行辨析或者从词汇的感情色彩、语体修辞、固定搭配等角度进行区分。
但是,由于缺乏大量地道的语料输入,有时候学习者的所谓的“语感”往往是错误的,即便是工具书也不能及时对很多新出现的语言现象或者词汇搭配做出及时修订。
而现代科技的发展以及计算机的应用,为英语近义词的辨析提供了新的手段和方法。
基于语料库的近义词辨析弥补了传统近义词辨析方法的一些不足,利用语料库的检索功能,通过语境,可以得到更加直观、更加真实的分析结果。
笔者发现Mr. Bean (憨豆先生)和Black Eyed Peas(黑眼豆豆)中这两个“豆”的不同表达方式,并以bean和pea为例,通过利用COCA和BNC两个语料库,探讨英美两国对bean和pea用法的区别。
文中的BNC是British National Corpus的缩写,一般译为“英国国家语料库”。
它是由英国多家知名出版社、牛津大学计算机服务中心?p兰卡斯特大学英语计算机中心及大英图书馆等联合开发建立的大型语料库,用以呈现20世纪后期以来的英式英语。
该语料库包含书面语和口语,单词容量超过1亿。
文中的COCA是Corpus of Contemporary American English的缩写,一般译为“美国当代英语语料库”。
语言学常用语料库
以下是一些语言学常用的语料库:
- Brown语料库:这是一个基于英语的语料库,包含了1961年至1979年间推广的1,000,000个单词的样本,覆盖了各种文体和题材。
- COCA(Corpus of Contemporary American English):这是一
个覆盖美国当代英语的语料库,包含了1990年至今的一亿多
个单词样本。
- BNC(British National Corpus):这是一个覆盖英国英语的
语料库,包含了1980年代至1993年间的一亿个单词样本。
- CHILDES(Child Language Data Exchange System):这是一
个收集婴儿和儿童语言数据的数据库,用于研究儿童语言发展。
- Penn Treebank:这是一个标注了句法和语义信息的英语语料库,用于自然语言处理研究。
- EuroParl语料库:这是一个包含欧洲议会会议记录的多语言
语料库,可以用于研究多语言对比和机器翻译。
- COrE(Corpus of English):这是一个以英语为基础的多样
化语料库,包含了来自不同国家和地区的语言样本,用于研究语言变体和语言接触。
- WALS(World Atlas of Language Structures):这是一个收集了世界各地不同语言结构的数据库,可以用于跨语言比较和语言学理论研究。
这些语料库可以通过在线平台或特定的研究机构访问和获取。
使用语料库可以帮助语言学家进行语言研究、语言分析和理论构建。
免费的英语语料库汇总Some are not corpora, but (I think) they are corpus-related. The list is incomplete and just let me know if I omit any corpora.1. The best corporaCOCA:/BNC-BYU:/bnc/TIME-BYU:/time/JustTheWord:http://193.133.140.102/JustTheWord/index.html BNCweb:/bncwebSignup/user/login.php Jukuu(句酷):/ for learnersLeeds: /internet.htmlLextutor: http://www.lextutor.ca/Web Concordancer: 2. General CorporaJiaoda(上海交大): /WebCast/click on “guest”Brown/lob Corpus: http://www.lextutor.ca/concordancers/concord_e.html Corpuseye: http://corp.hum.sdu.dk/cqp.en.htmlCorpus swb : /cgi-bin/?&corpus=swb BNC: //lookup.ht mlBank of English: /Corpus/CorpusSearch.aspx ANC: /OANC/index.htmlICE Corpora /english-usage/i...load/index.htm3. English-Chinese Parellel Corpora(英汉双语语料库)CEO:/ceo/Babel:.sg/cgi-bin/babel/paraconc.plThe Dream Of Red Chamber(红楼梦): .sg/hlm/index.htmHK Poly U(香港理工大学):.hk/Co...ts/default.htmLaozi(老子): .sg/laozi/index.htmXiamen U(厦门大学): /ec-corpus/query.asp 4. Textbook CorporaCollege English:/corpora/COLEN.rarNew Horizon College English(NHCE):New Concept English:/oechw/hanyu/da...e/framconc.aspFamily Album USA:/oechw/hanyu/da...m/framconc.asp5. Business and Financial CorporaBusiness English Corpus (BEC): http://users.utu.fi/micnel/BEC/PolyU BusinessCorpus: .hk/en...ng=1&corpus=30Business Letter Corpus: /concordancer Financial Corpus: .hk/hkfsc/6. Literary CorporaThe Online Corpus of Old English Poetry(OCOEP):http://www.oepoetry.ca/Shakespeare's SonnetsCorpus: /ecorpus/sonnets/framconc.aspBlues Lyric Poetry Corpus: / (search Catalog). Canadian Poets Anthology Corpus: / (search Catalog). CAPA (contemporary American PoetryArchive): /Claremont Corpus of Elizabethan Verse: / (search Catalog)Late Modern English Prose Corpus: / (search Catalog) New Dragon Book of Verse Corpus : / (search Catalog).Northwest Coast Indian mythology Corpus: / (search Catalog).Online Classics Horror and PhantasyFiction: http://home.swipnet.se/~w-60478/SETIS Australian Literary and HistoricalTexts: .au/ozlit/Corpus of Middle English Prose andVerse: /c/cme/Harry Potter Corpus:/oechw/hanyu/da...r/framconc.aspTowneley Plays Corpus: / (search Catalog)Web Concordances Site: /english/wics/wics.htm York Miracle Play Cycle Corpus: / (search Catalog) ME Texts Anthology Corpus: / (search Catalog) 7. Web As CorpusWeb As Corpus :/searchwac.htmWeb Corp: /WebCONC: http://www.niederlandistik.fu-berlin...=en&art=google8. Learner CorporaChinese Learners of English(中国英语学习者): /corpus/EngSearchEngine.aspxCorpus of Hungarian students' essays:/2008/06...subcorpus.htmlThe Multimedia Adult English Learner Corpus:/maelc_access.htmlThe Uppsala Student English Corpus (USE):Dowloadable data at /headers/2457.xml Michigan Corpus of Upper-level StudentPapers: /eli/eli1/micusp/Contact.htmIWILL Corpus: /project/bncrce/default.htm Wordneighbours:t.hk/PICLE Corpus:.pl/~kprzemek/conc...h_adv_new.html EV A Corpus:http://kh.hd.uib.no/eva/PolyU Language Bank Concordancer:.hk/en...ng=1&corpus=16The Montclair Electronic Language Learners' Database under construction)/linguistics/MELD/Singapore Corpus of Research in Education:.sg/score/index.htmBirkbeck Spelling Error Corpus: / (search Catalog) Open Mind Commonsense Corpus: / Corpus for Higher Education:.hk/en...ng=1&corpus=11National Taiwan Normal University Corpora:.tw/English/search/Default.htm.tw/English/search/tag.htm.tw/English/search/tag2.htmhttp://140.122.83.246/cwb/http://140.122.83.246/cwb2/ELISA corpus: http://www.uni-tuebingen.de/elisa/html/elisa_index.html VLC: .hk/9. News CorporaReuters Corpus: /researchandstandards/corpus/ arpers Magazine 1879-1880 Corpus: / (search Catalog).Hong Kong South China Morning PostCorpus: / (search Catalog)New York Newspaper Advertisements and News Items1777-1779: /VOA Special EnglishCorpus: /voa/sentences.htmVOA Special English audio and textcorpus: /voanews.html.American News Stories Corpus: / (search Catalog). MPQA Opinion Corpus: /mpqa/databaserelease/。
语言翻译必备:国内外23个语料库推荐语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。
下面推荐一些优质的语料库资源。
国内语料库资源1. 国家语委现代汉语语料库 现代汉语通用平衡语料库现在重新开放网络查询了。
重开后的在线检索速度更快,功能更强,同时提供检索结果下载。
现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。
2. 国家语委古代汉语语料库 网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。
同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。
3. 北京大学“《人民日报》标注语料库”4. 北大语料库——北京大学中国语言学研究中心 北大语料库由“现代汉语语料库”、“古代汉语语料库”、“汉英双语语料库”三个语料库组成。
其中,北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。
正在此基础上做汉英对照短语库,预计规模将达数十万条。
(汉英双语语料库目前仅对北大校内用户开放)5. 北京语言大学高翻学院的“高翻记忆库”6. 清华大学汉语均衡语料库TH-ACorpus7. 中央研究院“现代汉语平衡语料库” 专门针对语言分析而设计的,每个文句都依词断开,并标示词类。
语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。
现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。
8. 中央研究院“近代汉语标记语料库”9. 中央研究院汉籍电子文献(瀚典全文检索系统) 包含整部25史整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。
英语语料库及词频表介绍
英语语料库是收集英语书面和口语等各类英文表述方式的语言材料集合,涵盖了英语词汇的各个方面。
其中,目前主流的有三个语料库,分别是GBC(Google Book's Corpus)、BNC(British National Corpus)和COCA(Corpus of Contemporary American English)。
COCA(Corpus of Contemporary American English)是由美国伯翰大学(Brigham Young University)的Mark Davies教授开发的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。
它涵盖了美国这一时期的口语、小说、流行杂志、报纸和学术期刊五大类型的语料库,并且这五个方面基本上成均匀平衡分布。
COCA词频表基于COCA的5亿单词语料库,利用算法提取出来最高的前5000和20000的高频词,并注释了搭配,解决了单词最实际的实用问题。
如需更多关于英语语料库及词频表的信息,建议咨询英语专业人士或查阅相关文献资料。