中国英语学习者语料库CLEC(桂诗春杨惠中)
- 格式:doc
- 大小:381.00 KB
- 文档页数:10
语料库相关资源David Lee语料库研究书签Bookmarks for Corpus-based Linguists (David Lee).au/~dlee/CBLLinks.htm (/corpora)常用语料库资源链接汇集(语料天涯)/corpus/互动平台/forum/入门读物专著梁茂成、李文中、许家金,2010,《语料库应用教程》。
北京:外语教学与研究出版社。
Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进)Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进)期刊论文中国期刊网EBSCO英文期刊数据库书店可以买到的语料库相关书籍Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进)Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St.Jerome Publishing. (外研社引进)Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999.Longman Grammar of Spoken and Written English. Longman Publications Group.(外研社引进)Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进)Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)Granger, S. & S. Petch-Tyson (Eds.). 2003. Extending the Scope of Corpus-based Research: New Applications, New Challenges. Amsterdam: Rodopi. (世界图书出版社引进)Granger, S. et al. (Eds.). 2003. Corpus-based Approaches to Contrastive Linguistics and Translation Studies《基于语料库的语言对比和翻译研究》. Amsterdam: Rodopi. (外研社引进)Gries, Stefan Thomas. 2004. Multifactorial Analysis in Corpus Linguistics: A Study of Particle Placement. Beijing: Peking University Press. (北大出版社引进)Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进)Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进)Kettemann, B. & G. Marko. 2002. Teaching and Learning by Doing Corpus Analysis.Amsterdam: Rodopi. (世界图书出版社引进)Meyer, Charles. 2002. English Corpus Linguistics: An Introduction. Cambridge: Cambridge University Press. (外教社引进)Mukherjee, J. 2001. Form and Function of Parasyntactic Presentation Structures. A Corpus-based Study of Talk Units in Spoken English. Amsterdam: Rodopi. (世界图书出版社引进)Nattinger, James R. & Jeanette S. DeCarrico. 1992. Lexical Phrases and Language Teaching. Oxford: Oxford University Press. (外教社引进)Sinclair, John. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press.(外教社引进)Thomas, Jenny & Mick Short. 1996. Using Corpora for Language Education. London: Pearson Education. (外研社引进)Zanettin, F., et al. (eds.). 2003. Corpora in Translator Education《语料库与译者培养》.Manchester: St. Jerome Publishing. (外研社引进)蔡金亭,2003,《语言因素对英语过渡中使用——一般过去时的影响》。
语料库和语料库建设一、什么叫语料库1、定义语料库,通俗意义上指的是语言材料库。
严格意义上的语料库(corpus)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。
目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。
阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。
赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。
我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。
语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。
而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。
语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。
2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。
语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。
摘 要:本文通过对学习者语料库相关文献的搜索和整理,对近十年国内外学习者语料库建设情况进行了重点介绍,同时对基于学习者语料库的二语习得相关研究进行了探讨,旨在对我国学习者语料库的建设和相关研究提供借鉴。
关键词:学习者语料库;二语习得;英语学习[中图分类号]H319.3[文献标识码]A[文章编号]1006-2831(2015)02-0052-6 doi:10.3969/j.issn.1006-2831.2015.01.014苏晓俐(四川外国语大学,四川 重庆 400031)收稿日期:2014-11-29;修改稿:2014-12-101. 概述语料库语言学的研究开始于20世纪50年代,之后该领域的研究者逐渐增多,语料库的研究开始与大多数语言研究相关领域相结合,这一结合的主要贡献之一为变体研究,包括语言媒介变体研究(口语变体与笔语变体),语场变体研究(一般文体与专门化语体)以及地理地位变体研究(世界英语)。
然而,对外语/二语学习者语言变体的语料库研究直到20世纪90年代初才逐渐兴起(Granger, 2003: 538)。
学习者语料库主要是指经过计算机处理的外语学习者的语言产出的数据库(Leech, 1998: 3),本文将对近十年国内外学习者语料库的发展现状和基于学习者语料库的二语习得相关研究作一个评述。
2. 学习者语料库的建设情况经过三十多年的发展,学习者语料库的建设在全世界范围内掀起一股热浪。
在学习者语料库研究颇有建树的研究团队代表是由比利时Louvain-La-Neuve 大学的Sylviane Granger 教授所创建的英语语料库语言学中心(Center for English Corpus Linguistics ),简称CECL 。
根据C E C L 的不完全统计,截止到2014年11月14日,全世界学习者语料库已经达到136个,涉及的语言包括英语、汉语、捷克语、阿拉伯语、荷兰语、法语、德语、匈牙利语、朝鲜语、挪威语、西班牙语、意大利语等十几种,媒介方式由之前的以笔语为主逐渐向多媒介方式转变,包括口语(spoken )、笔语(written )、多媒体(m u l t i m e d i a )以及计算机中介交流(computer-mediated communication ,简称C M C ),收录的语料丰富多样,例如学生习作、访谈、演讲、测试等,涵盖了从语言初学者到熟练使用者不同层次的语言学习者(http://www.uclouvain.be/en-cecl-lcworld.html )。
英语语料库建设及应用研究:现状与趋势叶章勇【摘要】田野语言学(field linguistics)已取代沙发里的语言学(armchair linguistics)成为现代语言学研究的主流,语料库成为语言学研究及语言工程不可或缺的基础资源,国外在英语语料库研究方面起步较早,已形成完善的语料库研究规范,我国在借鉴国外经验的基础上结合我国国情及英语学习者实际对英语语料库建设、语料库语言学、语料库翻译学等方面开展了广泛的研究并取得丰硕成果.基于对国内外英语语料库建设现状及趋势的研究,我们应当在今后的英语语料库建设中更高程度地凸显其跨学科性,更多地关注语料库建设规范化、多模态化及智能化.【期刊名称】《宁波广播电视大学学报》【年(卷),期】2014(012)001【总页数】5页(P31-35)【关键词】英语语料库;现状;趋势【作者】叶章勇【作者单位】宁波职业技术学院浙江宁波315800【正文语种】中文【中图分类】H312一、引言自17世纪以来,由于受经验主义 (empiricism)影响,由内省法主导的传统“沙发里的语言学”(armchairlinguistics)(Charles J.Fillmore 1992:35)走入低谷,语言研究开始重视研究自然发生的语料,大量收集真实语言数据,在客观分析语言现象的基础上进行相关实证研究。
这种基于真实语料的语言研究在19世纪得到了进一步发展,人们尝试运用类似于自然科学研究方法收集真实语言数据,进行描述及探讨,重构语言之间的谱系关系。
20世纪初,受实证主义和行为主义思潮的影响,这种欧洲传统被美国结构主义语言学继承,经验主义在语言研究中逐渐占据主导地位。
经验主义认为:语言学研究的主要素材是语料,而大量收集某种语言中自然出现的语言实例,对研究该语言不仅是必要的,也是充分的 (Geoffrey Leech 1991:8)。
这种研究方法需要大量收集某种语言中的语句,组成一个语料库。
基于语料库的英语专业学习者动名搭配行为特征的研究作者:郑玲晓吴甜甜来源:《亚太教育》2015年第17期摘 ;要:本文利用中国学习者英语语料库(CLEC)和英国学术书面语语料库(BAWE)调查了中国英语专业学习者和英语本族语者动名搭配行为的特征。
研究结果显示:(1)中国英语专业学习者与knowledge搭配使用最多的是learn、have、get等动词,而英语本族语者与knowledge搭配使用最多的是gain、acquire、require等动词。
(2)与英语本族语者相比,中国英语专业学习者在与knowledge进行搭配的高频动词使用上存在差异,比较倾向于使用同义替换,且母语迁移现象严重。
关键词:中介语;学习者语料库;动名搭配;个案研究一、引言随着二语习得研究的深入,搭配(collocation)作为一项重要的研究内容,已经引起国内外研究者的广泛关注。
英国语言学家Firth(1957)所说的“You shall know a word by the company it keeps”更指出了词汇搭配的重要性。
近十几年来,随着语料库的建设与发展,越来越多的学者开始尝试利用语料库进行词汇搭配研究,这对英语教学大有裨益。
从目前的研究现状来看,有不少国内学者(如王立非、梁茂成 2007;许家金、吴良平 2014)对语料库的使用做过介绍,且越来越多的学者(如卫乃兴 2002;张文忠、杨士超 2014)开始使用语料库数据进行中国英语学习者的词语搭配研究,这极大地丰富了我国词汇搭配研究领域的相关成果。
在中国学习者书面语语料库(CLEC)中,动名搭配偏误被标注为[cc3] (桂诗春 2005),是所有搭配偏误类型中出现最多的(夏立新等 2014:68),这是本研究选取动名搭配进行研究的一个重要原因。
经过统计,中国学习者动名搭配偏误频数最高的是learn这个动词,其次是knowledge (夏立新等 2014:68)。
Vol.19No.3引言“近义词”(near-synonyms)是指有相同或相似的意思,但用法存在区别的词或词组。
近义词并不等于同义词,同义关系是指在给定领域内,用来描述同一概念的不同词语之间所具有的关系(田璐、张晓翠2015)。
在某一范围内,两个或多个词语的语义表征并能激活相同概念的词语就具有同义关系;为表达同一个意思可以使用近义词。
近义词用法的区分一直是外语学习者的重点和难点之一。
近年来,用语料库的方法研究英语同义关系的成果颇丰,通过提供真实的母语环境,语料库的研究方法可以弥补在二语习得过程中近义词辨析仅依赖“下定义”区别的传统思维,从而帮助非本族语者在语言习得过程中正确区分并运用相应的词语。
2000年,比伯(Biber)用语料库的方法研究了近义词的用法、近义词使用的语境和语域的不同;同年,肯尼迪(Kennedy)基于语料库的方法区分了between和through的差别;2001年,托马斯(Thomas)也用语料库的方法比较了keep和get的不同用法;2009年,王春艳运用语料库的方法,对real和true以语料库为基础进行探讨。
a little和a few是英语中常用的表示数量的词组,也是英语初学者经常混用的词组,但两者在语义使用、搭配词、语法方面存在差异。
前人将a little纳入模糊限制语范畴,探讨其在话语生成和理解中的语用功能;a little作为否定词、弱化词,在少数情况下充当否定焦点,而few作为隐形否定词用。
前人还未直接从近义词组角度运用语料库的方法对a little和a few 进行分析。
本文采用语料库的方法探讨近义词组a little 和a few的异同,希望对我国的英语教学起到启示作用。
目前我国中小学英语教学、科研还存在诸多问题。
我国关于英语教学方面的科学研究不多,研究的数据难以保证其真实性,对学生学习的研究不足,很少有研究从教学方法角度来看英语教学(刘道义2009)。
基于语料库的中国英语学习者success用法对比研究摘要:本文基于语料库方法,对中国英语学习者语料库和英语本族语者语料库中常用词success的用法进行对比研究。
客观数据的统计结果表明,该词在两个语料库中的使用模式呈现出显著差异。
学习者对success的词性误用以及搭配上的过度使用、使用不足和错误搭配是问题的集中所在。
因此,应当提供更加丰富的语言环境,提高学习者常用词的运用能力。
关键词:语料库;搭配;误用;过度使用;使用不足1 引言语料库(corpus或corpora)是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或话语片断建成的具有一定容量的大型电子文库[1],主要用于观察、分析和研究目的语的各种特征。
它能准确地提供诸如构词、搭配、语境等多方面的素材及信息,并以语料真实、检索快捷等独特优势在现代语言学研究和语言教学及学习中有着广阔的应用前景和极大潜力。
而作为一种专用语料库,学习者语料库则是收集学生学习某种目标语言时所产生的中介语而建立的,因此也被称为中介语语料库[2]。
正如Granger[3]所指出,学习者语料库主要用于两个范畴的研究:(1)对于学习者差错的分析;(2)集中于母语与非母语之间的差别的分析。
可见,以学习者语料库为基础并参照本族语者语料库,我们不但可以描述学习者语言的使用特征,还可以比较学习者与本族语者在目标语言使用上的差异。
鉴于此,本文拟以语料库真实自然的数据为依托,对比分析在中国英语学习者语料库与本族语语料库中success这一常用词的使用情况,调查中国学习者在其用法上存在的问题及对该词搭配形式的掌握程度,以期对英语教学与研究提供一定的帮助。
2 研究数据、方法及目的2.1 研究数据本文所使用的学习者语料库是“中国学习者英语语料库”[4](Chinese Learner English Corpus,即CLEC)的两个子语料库:ST3(大学非英语专业一至四年级学生的四级考试作文语料库)和ST4(大学非英语专业一至四年级学生的六级考试作文语料库),共两千余篇。
《从中国学习者英语语料库看英语被动语态习得》评析摘要:陈万霞基于语料库的研究方法,研究中国学习者被动语态的习得,并用 concapp6.0语料库分析软件,确定了可靠的分类体系和操作步骤,分析出了中国学习者使用英语被动语态的各类错误及其产生原因。
其研究方法新颖,数据充足,但是基于语料库的研究方法无法深入了解语言使用者的心理活动,有一定的局限性。
关键词:语料库英语被动语态习得中图分类号:g642 文献标识码:c doi:10.3969/j.issn.1672-8181.2013.15.2001 前言《从中国学习者英语语料库看英语被动语态习得》选自于期刊《外语教学与研究》,其作者是陈万霞。
文章引言中,作者指出被动语态是中国学习者的一个重点难点,但是至今,关于中国英语学习者被动语态习得的研究却不多。
针对这一研究现状,作者试图通过基于中国学习者语料库的研究方法,分析中国学习者对英语被动语态的习得情况。
在第二部分,作者讨论了英汉被动结构的相关问题,并提出了四个相应的假设。
然后作者介绍了研究设计和步骤,指出了几点发现,并讨论了被动语态错误的成因。
2 基于语料库的研究方法独特新颖用语料库的研究法,可以获取大量的中国学习者习得被动语态的实例,其研究方法比较新颖,论据充分。
内省法、诱导法和语料库的方法是语言学研究中主要的三种研究方法。
作者没有用过去常常用的内省法和诱导法,而是采用了近年来兴起的语料库的研究方法。
基于语料库的方法,作者根据对英汉语被动语态的认识,提出了非常有价值的4个研究假设。
通过验证这四个假设,作者完善了关于中国学习者被动语态的研究,在理论和实践上具有一定的创新性。
3 语料库的选用恰当作者选定了合适的语料库——中国英语学习者语料库。
中国学习英语语料库(chinese learner english corpus,简称clec),是国家社科基金“九五”规划项目,由桂诗春、杨惠中教授主持。
该语料库的建立是为了对学习者的语言特征和语言发展进行全面而系统的描述和对比分析,其中收录了我国高中生、大学英语四、六级、英语专业低年级和高年级学生在内的100多万词的书面语,包括试卷作文和自由作文。
可以免费使用的大型英语语料库资源常用语料库资源链接汇集(语料天涯)http://202.204.128.82/sweccl/Corpus//netprints/Corporalink/Corporalink.htm1. BNC-World Simple Search ☆☆☆/lookup.htmlBut no more than 50 hits will be displayed, with a fixed amount of context.2. Brown, LOB, BNC sampler ☆☆☆Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: /concordance/WWWConcappE.htmEnglish: http://www.lextutor.ca/concordancers/concord_e.htmlParallel: /concordance/paralleltexts/3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆/Corpus/CorpusSearch.aspxThe Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text.4. New BNC interface - VIEW: ☆☆☆☆☆/5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆The Brown Corpus and many others - native, learner...Go to http://www.lextutor.ca/concordancers/concord_e.html6. MICASE ☆☆☆☆/m/micase/There are currently 152 transcripts (totaling 1,848,364 words) available at the site.7. CLEC online concordancing ☆☆☆☆/corpus/EngSearchEngine.aspxCLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
中国英语学习者与英语本族语者并列连词用法对比研究杨贝(广东外语外贸大学 基础英语学院,广东 广州510420)摘要:连接词在语言交际的清晰、连贯中起着重要的作用。
以往的研究显示,连接词的用法对于学习者尤其是外语学习者来说较难掌握。
本文通过对比分析中国学习者语料库中的四、六级作文和国际学习者语料库中英美大学二、三年级本族语者作文中并列连词(and,but,or)的使用,发现:学习者不仅少用或多用某个并列连词,还误用或避免使用并列连词;学习者倾向于在书面文中把并列连词置于句首;并列连词各主要语义关系在学习者语料库和在英语本族语料库中的分布不同,学习者多用或是少用某些语义关系。
这些误用现象可能由语言迁移、文化差异、语体意识弱、对并列连词用法没完全掌握等引起。
最后,文章探讨了本研究对英语教学的启示。
关键词:语料库;并列连词;标准频数中图分类号:H319 文献标示码:A1.引言连接词作为语篇中的粘合标志手段之一,在语言交际的清晰、连贯中起着重要的作用。
它们帮助听者和读者把前后文有机地联系起来从而有助于语篇含义的理解(Leech & Svartvik 1994)。
但连接词的用法相当复杂。
首先,当文章的逻辑关系可以根据上下文推测出来时,就不必使用连接词,因此一篇文章中连接词出现频率高并不一定能使其更加连贯;然而,少用或误用连接词却也可能使语篇难于理解。
其次,连接词的使用受语体限制,不同的语体中连接词的选用及用法不同。
最后,不同语言文化中连接词的使用也是有差异的,这一点对外语学习者而言尤其重要(Altenberg & Tapper 1998)。
Granger于1996年提出了对比中介语分析(Contrastive Interlanguage Analysis), 认为这一对比分析可以在两个层面上进行。
第一,在中介语语料与目标语语料之间进行对比。
这种对比不仅能发现学习者语言中不合乎本族语的特征,还能发现某些特征在学习者语言中的多用或少用。
可以免费使用的大型英语语料库资源/time/http://www.lextutor.ca/concordancers/concord_e.html常用语料库资源链接汇集(语料天涯)http://202.204.128.82/sweccl/Corpus//netprints/Corporalink/Corporalink.htm1. BNC-World Simple Search ☆☆☆/lookup.htmlBut no more than 50 hits will be displayed, with a fixed amount of context.2. Brown, LOB, BNC sampler ☆☆☆Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: /concordance/WWWConcappE.htmEnglish: http://www.lextutor.ca/concordancers/concord_e.htmlParallel: /concordance/paralleltexts/3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆/Corpus/CorpusSearch.aspxThe Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text.4. New BNC interface - VIEW: ☆☆☆☆☆/5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆The Brown Corpus and many others - native, learner...Go to http://www.lextutor.ca/concordancers/concord_e.html6. MICASE ☆☆☆☆/m/micase/There are currently 152 transcripts (totaling 1,848,364 words) available at the site.7. CLEC online concordancing ☆☆☆☆/corpus/EngSearchEngine.aspxCLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
中学生英语写作中的动名搭配错误研究山东省临沂市营南县汀水中学/咸雷【摘要】动名搭配错误是英语学习中常见的错误。
本文基于中国英语学习者语料库,对中学生英语写作中的动名搭配错误展开深入分析,将错误的主要原因归结于母语负迁移、轻动词滥用、语法结构错误。
最后,本研究针对动名搭配提出几点教学建议。
【关键词】中学生英语写作动名搭配错误动词和名词是英语中两种非常重要的词类,而动名搭配错误也是英语学习者学习过程中经常出现的错误。
先前研究表明,动名搭配错误远远高于其他类型的搭配错误。
因此研究学习者动名搭配错误对于提高学习者的英语水平具有重要意义。
然而,近年来英语动名搭配错误研究主要集中于大学生英语学习者,很少有研究针对中学阶段的英语学习者。
有鉴于此,本文将对中学生英语写作中的动名搭配错误展开深入分析,并探讨搭配错误的潜在原因,以期为英语教学提供一些启示。
一、语料库与检索工具本研究使用的中学生英语作文来自桂诗春、杨惠中教授主建的中国学习者英语语料库(CLEC)中的ST2子库,库容为240, 149词。
CLEC是经过错误赋码的语料库,涵盖以下几类搭配错误:名名搭配(CC1),名动搭配(CC2)、动名搭配(CC3)、形名搭配(CC4)、动副搭配(CC5)、形副搭配(CC6)。
本研究使用AntConc 语料库检索工具,以CC3为节点词对中学生英语作文中的动名搭配错误进行检索。
对检索行逐一深入分析,总结中学生英语学习者在动名搭配错误上存在的特点及其原因。
二、动名搭配错误原因分析本研究使用的中学生英语作文语料库中总共检索出211例动名搭配错误,大致相当于每千词的英语作文中出现一次。
笔者通过深入分析检索行,主要从三个方面对动名搭配错误进行归因分类,即母语负迁移、轻动词滥用和语法结构错误。
1母语负迁移。
索引行分析表明,母语负迁移是导致动名搭配错误的首要原因。
Krashen认为,学习者在目的语中还没有掌握或者小知道怎样表达思想和概念时往往会求助于母语。
中国英语学习者语料库 CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。
表1 CLEC语料分布 类型 词次 ST2 208088 ST3 209043 ST4 212855 ST5 214510 ST6 226106 总计 1070602
言语失误标注 原则 1. 简单合理,易于系统操作。参与标注的人比较多,分类表过于繁复,就难于掌握。我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。每一类里再用数目字细分。如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
2. 分类表的类别要适中。过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。现在的分类表有61个失误码,是属于中等规模的分类表。
提供足够的失误信息(失误本身、失误类型和失误发生范围)。例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。 [vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。要联系这4个词,才能判断are这个词用错了。
开放性。容许研究者根据需要对失误类型进行补充或进一步再分出细类。例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。这需要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81,sn82,等等。 5. 对语体或失误的来由暂不作标注,因为这需要标注者较多的主观判断,更难以统一。
言语失误分类表(总数:61) 词形 动词短语 名词短语 代词 码 类型 码 类型 码 类型 码 类型 fm1 Spelling vp1 pattern np1 pattern pr1 Reference
fm2 word building vp2 set phrase np2 set phrase pr2 anticipatory it fm3 capitalization vp3 agreement np3 agreement pr3 Agreement vp4 finite/non-finite np4 case pr4 Case vp5 non-finite np5 countability pr5 wh- vp6 tense np6 number pr6 Indefinite vp7 voice np7 article vp8 mood np8 quantifiers vp9 modal/auxiliary np9 other determiners 形容词短语 副词 介词短语 连词 码 类型 码 类型 码 类型 码 类型 aj1 pattern ad1 order pp1 pattern cj1 pattern
aj2 set phrase ad2 modification pp2 set phrase cj2 set phrase aj3 degree ad3 degree aj4 -ed/-ing confusion aj5 predicative/attributive 词语 搭配 句子 码 类型 码 类型 码 类型 wd1 order cc1 noun/noun sn1 run-on
sentence wd2 part of speech cc2 noun/verb sn2 sentence fragment wd3 substitution cc3 verb/noun sn3 dangling modifier wd4 absence cc4 adj/noun sn4 illogical comparison wd5 redundancy cc5 verb/adv sn5 topic prominence wd6 repetition cc6 adv/adj sn6 Coordination wd7 ambiguity sn7 Subordination sn8 structural deficiency sn9 Punctuation 标注说明 码 分 类 类 别 说 明 fm1 word Spelling(拼写) spelling, coinage, abbreviation, apostrophe fm2 word word building(构词) derivation, inflection, compounding, plurality (noun), irregularity(verb), 3rd person singular form(verb), syllabification, hyphenation, word division or fusion
fm3 word Capitalization(大小写) lower initial letter for upper initial letter or vice versa vp1 vb phr Pattern(及物性型式) error in transitivity(vi as vt or vice versa), transitive verb pattern/ grammatical(cf Oxford advanced learner’s dictionary of current English edited by A. S. Hornby)
vp2 vb phr set phrase(固定词组) phrasal verb and verbal phrase: error in form or use vp3 vb phr Agreement(主谓一致性) number agreement with its subject (noun or pronoun) vp4 vb phr finite/non-finite(定式) finite verb for non-finite verb or vice versa vp5 vb phr non-finite(不定式) infinitive error: form and use/ infinitive for participle or vice versa/ -ed participle for -ing participle or vice versa vp6 vb phr Tense(时态) error in tense use within a sentence/ the sequence of tenses between sentences vp7 vb phr voice (语态) error in the use of voice: active for passive or vice versa vp8 vb phr Mood(语气) error in the use of mood: imperative, subjunctive/ improper structure of conditional sentences vp9 vb phr modal/auxiliarymisuse of modal/auxiliary verbs/ wrong (情态) form of modal verb(or auxiliary verb) and verb combination (e.g tense form, voice form, etc) np1 nn phr Pattern(名词型式) Error in combination with other words/grammatical np2 nn phr set phrase(固定词组) omission or replacement of a fixed element that goes after a certain noun np3 nn phr Agreement(主谓一致性) number agreement of a noun with its determiner or a word that refers to it np4 nn phr Case(格) possessive case error: form or use np5 nn phr Countability(可数性) uncountable noun used as countable noun np6 nn phr Number(数) countable noun used with no determiner or -s/ a or -s with plural noun np7 nn phr Article(冠词) a/an confusion or definite/indefinite confusion np8 nn phr Quantifiers(数量词) misuse or confusion between many/much, (a) few/(a) little, some/any, etc
np9 nn phr other determiners(其他限定词) misuse or confusion of demonstratives, wh- determiners, numerals, etc.
pr1 pron Reference(指称) incorrect/ambiguous pronoun reference/anaphoric pr2 pron anticipatory it(先行it) improper or wrong use of anticipatory it / it replaced by a demonstrative,
etc pr3 pron Agreement(主谓一致性) number agreement with a noun it refers to pr4 pron Case(格) case error of any personal pronoun pr5 pron wh-(wh-代词) misuse or confusion of interrogative, relative and conjunctive pronouns pr6 pron Indefinite(不定式) misuse or confusion of indefinite pronouns such as all/both, few/little, some/any, either/neither, etc aj1 adj Pattern(形容词型式) error in the combination with other words/grammatical aj2 adj set phrase(固定词组) error in the idiomatic use of an adjectival phrase/ omission or replacement of a fixed element that goes after a certain adjective aj3 adj Degree(级) adjective degree error: form and use aj4 adj -ed/-ing confusion-ed adjective for -ing adjective or vice versa