中国英语学习者语料库
- 格式:doc
- 大小:381.00 KB
- 文档页数:11
国家哲学社会科学“九五”规划项目中国学习者英语语料库桂诗春杨惠中广东外语外贸大学上海交通大学国外语言学及应用语言文字工程研究所语言学研究中心上海外语教育出版社目录前言I.中国学习者英语语料库一导言二CLEC的建立三CLEC的统计分析四中国学习者言语失误统计分析II.词频排列(按频数)表III.拼写失误表IV.词目表V.词频分布表VI.语法标注频数表(附Lob134个语法标注的说明与例子)VII.言语失误表I.中国学习者英语语料库一.导言中国学习者英语库(Chinese Learner English Corpus,CLEC)是国家社科基金95规划项目“基于语料库的中国学习者英语错误分析”(Corpus-based Analysis of Chinese Learner English,CBACLE)的一个重要组成部分。
本书所载的是CLEC的各种统计资料和列表;对中国学习者英语错误的各种分析另收集在《中国学习者英语错误分析》一书里。
两书为姐妹篇,供读者互相引证。
在某种意义上说,语料库语言学是一种研究方法; 而这种研究方法是借助计算机来实现的,故Leech(1998a)主张把语料库语言学(corpus Array linguistics)说成是计算机语料库语言学(computer corpuslinguistics)。
随着计算机的普及和现代技术(高速的中央处理器、精密的扫描仪和字母识别程序、大容量硬盘等等)的发展,这种研究方法在最近20~30年有了很大的发展。
McEnery & Wilson(1996)对使用语料库方法来进行语言学研究的发展归纳如表1.1。
根据英国Lancaster大学Taylor,Leech & Fligelstone等人在1989年的统计,英语的机读语料库当时已有36种,非英语的有18种。
Hofland等人(1999)更把18个大型的英语语料库制成ICAME (International Computer Archive of Modern English)英语语料库光盘(第二版),公诸于世。
基于语料库的中国英语学习者短语动词的使用调查摘要:文章基于中国英语学习者语料库,通过机辅语料检索与人工分析相结合,主要调查研究了中国英语学习者英语短语动词的使用情况。
结果表明,两个不同水平的学习者在短语动词的使用上有很多相似之处,所使用的英语短语动词有很多重合且数量不多。
关键词:语料库方法短语动词中国英语学习者一、引言短语动词(pvs)是英语习语的一个重要类别,又称“多词动词”(multi-word verbs)。
动词加上副词或介词或两者(有的语言学家把副词和介词统称为小品词particles),表达一个不可分割的完整动词概念,就构成了短语动词。
所谓不可分割的完整概念,指的是新形成的概念与其各组成部分的原有概念有较大区别,人们在使用短语动词的时候把它当做一个单词实义词对待,而不是几个词的随意组合,不同于自由的动词词组(free combination of verbs)。
当代有些语言学家把“介词动词”(动词+介词)和“短语介词动词”(动词+副词+介词)从短语动词中分出来(短语动词只限于“动词+副词”),本文采用的是广义的提法。
在现代英语中,短语动词数量多,使用广,成为现代英语词汇的一大特色。
那么,中国英语学习者在英语写作中的pvs的使用情况如何?本文对不同水平学习者pvs的使用情况加以对比,试图找到我国英语学习者学习和使用pvs 的一些规律和特点。
二、研究设计1.研究问题短语动词数量多,使用广,是现代英语词汇的一大特色。
由此本文以中国学习者语料库为基础,研究的具体问题是:两个水平的英语学习者在英语pvs的使用上是否具有相似之处?如果有,是什么?2.语料来源根据本研究的研究目的,我们从中国英语学习者语料库中挑选了两个字库(st2 & st4),代表不同水平的中国英语学习者。
详细信息见表1:表1 基本语料信息3.短语动词提取本文以clec(chinese learner english corpus)的两个子库(st2& st4)为基础,调查小品词是up,out,off,in和on的二词短语动词的使用特点。
中国学生英语语料库The Chinese Student English CorpusEnglish language learning has gained significant importance in China in recent years, as there is a growing demand for proficiency in English among Chinese students. To meet this demand and facilitate language education, the Chinese Student English Corpus has been established.The Chinese Student English Corpus is a collection of authentic English language texts generated by Chinese students. These texts cover a wide range of topics and reflect the language proficiency and specific needs of Chinese students. The corpus is a valuable resource for researchers, educators, and learners alike, offering a unique insight into the English language learning process in China.One of the main objectives of the Chinese Student English Corpus is to aid research in the field of second language acquisition. By analyzing the language patterns, errors, and challenges faced by Chinese students, researchers can identify common difficulties and develop effective teaching strategies. This corpus not only provides a comprehensive data source but also serves as a reference for curriculum development and syllabus design.Educators can benefit greatly from the Chinese Student English Corpus. It allows them to access a vast collection of English language texts written by Chinese students of varying proficiency levels. By analyzing these texts, teachers can gain a better understanding of the language abilities and areas that require improvement among their students. With this knowledge, educators can tailor their teaching methods to address specific difficulties and enhance the effectiveness of their instruction.Furthermore, the Chinese Student English Corpus can greatly benefit Chinese learners of English. By examining authentic texts written by their peers, students are exposed to different writing styles, vocabulary usage, and grammar structures. This exposure helps them develop a better sense of the English language and improve their own writing skills. Additionally, learners can use the corpus as a reference tool to expand their vocabulary and enhance their overall language proficiency.In conclusion, the Chinese Student English Corpus is a valuable linguistic resource that sheds light on the language learning process of Chinese students. By providing authentic English language texts, it benefits researchers, educators, and learners alike. With the aid of this corpus, educators can refine their teaching methods, researchers can advance their understanding of second language acquisition, and learners can enhance their English language skills.。
中国英语学习者书面语中连接词的语料库研究摘要:连接词是构建连贯英语语篇的重要手段。
本文运用语料库方法探究中国英语学习者书面语中连接词的使用状况。
结果表明:一是学习者使用的连接词显著多于本族语者;二是学习者和本族语者在选词倾向上有较大相似性;三是在连接词使用上学习者存在语义概念模糊、句法知识欠缺以及语体意识薄弱等问题。
中介语发展的特征以及母语负迁移是形成以上问题的主要成因。
关键词:语料库;英语书面语;连接词衔接是实现篇章顺畅、逻辑清晰的重要途径。
作为衔接成分之一,连接词语的主要功能是在篇章中表示显性的逻辑关系。
通过连接词语人们可以了解句子之间的语义联系,甚至可以经前句从逻辑上预见后句的语义。
[1](P92)学者们普遍认为,正确合理地使用连接词能显著增强文章的连贯性和清晰度,易于读者把握作者的写作思路,提高读者理解篇章的效率,从而达到有效交流的目的。
然而,英语连接词由于数量大、用法多、意义复杂而成为学习者的一大难点。
本文采用中介语对比的语料库研究方法,调查中国英语学习者书面语中连接词的使用状况,分析其中存在的问题,期望能够为英语教学改进提供可参考的数据。
一、研究背景自20世纪80年代以来,计算机语料库的飞速发展为更好地理解和描述语言提供了巨大的潜力和可能性。
国内有关衔接的研究为数不少,但运用语料库方法对连接词语进行专项对比、定量研究的并不多见,主要研究者有罗一、[2](P59-62)赵蔚彬、[3](P72-76)潘璠[4](P157-162)和莫俊华。
[5](P45-50)综观以上研究,可以发现:第一,以相近或相同群体为研究对象,研究结果并不完全一致。
多数学者认为,相对于母语作者而言,中国学习者总体上存在过多使用英语连接词语的倾向;也有研究发现中国学习者在大多数连接词语使用上呈现过少使用趋势;第二,对比语料库的匹配性有待进一步提高。
正如罗一在谈到其研究的局限性时所言“应增强语料的匹配性,对比性分析语料的匹配性越高,结果就越说明问题。
学习者语料库在高中英语写作教学的应用佘泽群引言英语写作是英语语言输出的重要方式,英语写作水平是反映高中生英语学习成果的重要手段之一。
《普通高中英语课程标准》的语言能力目标要求学生能有效地使用书面语表达意义和进行人际交流。
然而学生写作成绩一直是英语教学中“扶不起的阿斗”,与高中英语课程标准的目标要求存在差距。
语料库是应用计算机技术对海量自然语言材料进行处理、存储,以供自动检索、统计分析的大型资料库。
随着信息技术的进步,语料库建设呈现多元化发展趋势,学习者语料库也应运而生,为语言研究与教学做出了巨大的贡献。
高中教学作为学生进入大学前的基础教育,应当紧跟最新的教学技术和方法。
因此如何结合语料库的运用,提高英语写作的教学效果,成为值得探索的问题。
一、学习者语料库发展历史及应用学习者语料库的发展历史并不长,作为语料库发展的分支,起步虽晚,但发展速度较快,并在语言研究和语言教学方面发挥着重要且独特的作用。
(一)学习者语料库的发展学习者语料库是指非母语学习者的口头和书面语料库,是当今语料库建设中的一股新生力量。
在我国比较有影响力的语料库有中国学习者英语口语语料库和中国英语教育语料库。
前者由卫乃兴和杨慧中两位教授建立而成,主要侧重口语语料的收集和编写,语料主要来源于学生大学英语四级考试时的口语录音。
后者是一个大型综合语料库,由华南师范大学何安平教授主持建立,语料包括课堂教学,课堂回话及初高中学习者口笔语等内容。
(二)学习者语料库在外语教学的应用学习者语料库运用于外语教学主要可以分为两种:间接运用和直接运用。
间接运用是指将基于学习者语料库的中介语研究发现应用到外语教学中,针对学习者语言特点及学习困难,有效干预教学大纲制定、教材编写、教案设计、课堂模式设计等一系列外语教学过程。
直接运用是指直接将语料库资源运用于课堂之中,用语料库进行分析,师生通过语料库进行语料分析,发现语言使用特点,解决教学中的难题。
另一种直接应用的方法是教师自行开发具有针对性的小型学习者语料库。
中国学生英语口笔语语料库中国学生英语口笔语语料库的作用中国学生英语口笔语语料库是一种资源库,旨在提供给学生们用来提高英语口语和笔语能力的学习材料。
这些语料库中包含了丰富的实用语言资源,能够帮助学生们更好地理解和运用英语。
一、语料库的内容与功能语料库的内容十分丰富多样,覆盖了各个领域和主题,包括但不限于日常对话、旅行交流、学术写作和演讲等。
它们是由真实的语言材料收集而成,帮助学生们更好地了解英语的使用环境和常见表达方式。
语料库主要具有以下几个功能:1.提供真实的语言输入:语料库中的语料来自于真实的英语使用情景,包括电视节目、电影、音频录音等。
通过接触这些真实材料,学生们可以获得更加地道、自然的语言输入,提高自己的听力和口语能力。
2.提供模范的表达方式:语料库中的语料都是由母语为英语的人士使用的,因此这些短语、句型和表达方式都是非常地道和合理的。
学生们可以通过学习和模仿这些表达方式,提高自己的语言表达能力,使自己的英语更加地道。
3.提供多样化的词汇和语法:语料库中的句子和语言表达形式非常多样化,包含了丰富的词汇和语法结构。
学生们可以通过接触这些不同的词汇和语法结构,丰富自己的语言知识,提升自己的语言能力。
4.提供语言学习实践机会:语料库中的语料可以作为学生们进行语言学习实践的素材,比如进行对话演练、口头或书面表达实践等。
通过运用语料库中的语料进行实践,学生们可以更好地巩固和应用所学的知识,提高自己的语言运用能力。
二、使用语料库的方法与技巧为了更好地利用语料库提高语言能力,学生们可以采取以下方法和技巧:1.多听多读:通过多听多读语料库中的语料,学生们可以培养自己的听力和阅读能力。
可以选择听写和朗读练习,重复和模仿语料库中的句子和对话,提高自己的语音和语调。
2.案例分析:选择一些特定主题的语料,进行详细的分析和学习。
比如,选择一些旅行交流的语料,学习其中的常用词汇和句型,以便将来在旅行中能够更流利地与外国人交流。
中国英语学习者语料库C L E C(桂诗春杨惠中)中国英语学习者语料库CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。
言语失误标注原则1.简单合理,易于系统操作。
参与标注的人比较多,分类表过于繁复,就难于掌握。
我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。
每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
2.分类表的类别要适中。
过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。
目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。
现在的分类表有61个失误码,是属于中等规模的分类表。
提供足够的失误信息(失误本身、失误类型和失误发生范围)。
例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。
[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。
要联系这4个词,才能判断are这个词用错了。
开放性。
容许研究者根据需要对失误类型进行补充或进一步再分出细类。
例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。
这需要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81,sn82,等等。
基于语料库的中国英语学习者success用法对比研究摘要:本文基于语料库方法,对中国英语学习者语料库和英语本族语者语料库中常用词success的用法进行对比研究。
客观数据的统计结果表明,该词在两个语料库中的使用模式呈现出显著差异。
学习者对success的词性误用以及搭配上的过度使用、使用不足和错误搭配是问题的集中所在。
因此,应当提供更加丰富的语言环境,提高学习者常用词的运用能力。
关键词:语料库;搭配;误用;过度使用;使用不足1 引言语料库(corpus或corpora)是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或话语片断建成的具有一定容量的大型电子文库[1],主要用于观察、分析和研究目的语的各种特征。
它能准确地提供诸如构词、搭配、语境等多方面的素材及信息,并以语料真实、检索快捷等独特优势在现代语言学研究和语言教学及学习中有着广阔的应用前景和极大潜力。
而作为一种专用语料库,学习者语料库则是收集学生学习某种目标语言时所产生的中介语而建立的,因此也被称为中介语语料库[2]。
正如Granger[3]所指出,学习者语料库主要用于两个范畴的研究:(1)对于学习者差错的分析;(2)集中于母语与非母语之间的差别的分析。
可见,以学习者语料库为基础并参照本族语者语料库,我们不但可以描述学习者语言的使用特征,还可以比较学习者与本族语者在目标语言使用上的差异。
鉴于此,本文拟以语料库真实自然的数据为依托,对比分析在中国英语学习者语料库与本族语语料库中success这一常用词的使用情况,调查中国学习者在其用法上存在的问题及对该词搭配形式的掌握程度,以期对英语教学与研究提供一定的帮助。
2 研究数据、方法及目的2.1 研究数据本文所使用的学习者语料库是“中国学习者英语语料库”[4](Chinese Learner English Corpus,即CLEC)的两个子语料库:ST3(大学非英语专业一至四年级学生的四级考试作文语料库)和ST4(大学非英语专业一至四年级学生的六级考试作文语料库),共两千余篇。
语料库标记与标注以中国英语语料库为例一、本文概述本文旨在探讨语料库标记与标注的重要性及其在中国英语语料库中的应用。
我们将简要介绍语料库的定义和类型,以及标记与标注在语料库建设中的作用。
接着,我们将以中国英语语料库为例,详细阐述语料库的标记与标注过程,包括标记符号的选择、标注规则的制定以及标注质量的控制等方面。
在此基础上,我们将进一步探讨语料库标记与标注对于语言研究、自然语言处理以及机器翻译等领域的影响和应用价值。
我们将总结当前语料库标记与标注研究中存在的问题和挑战,并展望未来的发展趋势和研究方向。
通过本文的阐述,我们希望能够加深对语料库标记与标注的理解,推动中国英语语料库的建设和发展,为相关领域的研究提供有益的参考和启示。
二、语料库的基本概念与分类语料库(Corpus)是以电子形式存储的语言材料的集合,通常包括文本、音频或视频等形式的语言数据。
语料库语言学是语言学的一个分支,专注于利用语料库进行语言研究。
在语料库语言学中,语料库被视为一种研究工具,可用于描述语言的实际使用情况,揭示语言的规律,以及评估语言教学和自然语言处理的效果。
语料库可以按照不同的标准进行分类。
按照语料库的来源,可以分为原生语料库(native corpus)和编译语料库(compiled corpus)。
原生语料库是直接收集的自然语言文本,如新闻报道、文学作品、社交媒体帖子等。
编译语料库则是由多个不同来源的文本经过整理、清洗和标注后形成的。
按照语料库的内容,可以分为通用语料库(general corpus)和专用语料库(specialized corpus)。
通用语料库包含各种类型的文本,旨在反映语言的整体使用情况。
专用语料库则针对某一特定领域或主题,如医学、法律、科技等领域的语料库。
按照语料库的处理程度,可以分为生语料库(raw corpus)和标注语料库(annotated corpus)。
生语料库是未经处理的原始文本,而标注语料库则对文本进行了各种形式的标注,如词性标注、句法标注、语义标注等。
CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。
言语失误标注原则1.简单合理,易于系统操作。
参与标注的人比较多,分类表过于繁复,就难于掌握。
我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。
每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
2.分类表的类别要适中。
过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。
目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。
现在的分类表有61个失误码,是属于中等规模的分类表。
提供足够的失误信息(失误本身、失误类型和失误发生范围)。
例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。
[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。
要联系这4个词,才能判断are这个词用错了。
开放性。
容许研究者根据需要对失误类型进行补充或进一步再分出细类。
例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。
这需要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81,sn82,等等。
5.对语体或失误的来由暂不作标注,因为这需要标注者较多的主观判断,更难以统一。
1.英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外、上海交大2.大学英语学习者口语语料库 COLSEC (5万) 上海交大3.香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学4.中国英语专业语料库 CEME (148万) 南京大学5.中国英语学习者口语语料库 SECCL (100万) 南京大学6.国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) 华南师大7.硕士写作语料库 MWC (12万) 华中科技大学9.平行语料库汉英平行语料库 PCCE 北外10.南大-国关平行语料库南京大学11.英汉文学作品语料库;外研社12.冯友兰《中国哲学史》汉英对照语料库13.李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库14.计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所15.柏拉图(Plato)哲学名著《理想国》的双语语料库16.英汉双语语料库(15万对) 中科院软件所17.英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所18.英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学19.英汉双语语料库(40-50万句子对) 哈尔滨工业大学20.双语语料库(5万多对) 北京大学计算语言学研究所21.对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学22.平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾23.特殊英语语料库中国英语(China English)语料库河南师范大学24.军事英语语料库(Corpus of Military Texts) 解放军外语学院25.新视野大学英语教材语料库上海交通大学26.汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学27.现代汉语语料库(1983年,2000万字) 北京航空航天大学28.中学语文教材语料库(1983年,106万8000字) 北京师范大学29.现代汉语词频统计语料库(1983年,182万字) 北京语言学院30.国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会31.《人民日报》语料库(2700万字) 北京大学计算机语言学研究所32.大型中文语料库(5亿字,10分库) 北京语言文化大学33.现代汉语语料库(1亿字) 清华大学34.汉语新闻语料库;(1988年,250万字) 山西大学35.标准语料库(2000年,70万字)36.生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学37.现代自然口语语料库中国社会科学院语言所38.旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所39.北京大学汉语语言学研究中心的三个语料库现代汉语语料库/yuliao.asp?item=1古代汉语语料库/yuliao.asp?item=2汉英双语语料库/yuliao.asp?item=3/printthread.php?t=2742汉语语料库使用权限国家语委语料库(http://219.238.40.213:8080/CpsQrySv.srf)”虽说是通用型平衡语料库,但不能完全免费使用;北京语言大学的汉语语料库(http://202.112.195.8)语料产出时间较早,且不能完全免费使用;北京大学汉语语言学研究中心语料库(现代汉语子库)”(/YuLiao_Contents.Asp)规模最大,逾亿字,但取样极不均衡,多半为文学作品;台湾“中央研究院”Sinica Corpus也是可免费使用的平衡汉语语料库。
中国英语学习者语料库CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。
表1 CLEC语料分布类型词次ST2 208088ST3 209043ST4 212855ST5 214510ST6 226106总计1070602言语失误标注原则1.简单合理,易于系统操作。
参与标注的人比较多,分类表过于繁复,就难于掌握。
我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。
每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
2.分类表的类别要适中。
过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。
目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。
现在的分类表有61个失误码,是属于中等规模的分类表。
提供足够的失误信息(失误本身、失误类型和失误发生范围)。
例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。
[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。
要联系这4个词,才能判断are这个词用错了。
开放性。
容许研究者根据需要对失误类型进行补充或进一步再分出细类。
例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。
语言技术研究国内外英语学习者语料库的发展:现状与方法王立非1,孙晓坤2(1.对外经济贸易大学,北京 100029;1.2.南京国际关系学院,江苏南京 210039)摘 要:本文对国内外英语学习者语料库的发展现状作出评述,讨论了近年来兴起的第二语言习得研究的新分支———基于学习者语料库的第二语言习得研究的理论与方法。
关键词:学习者语料库;第二语言习得研究;现状中图分类号:H319.9文献标识码:A 文章编号:100125795(2005)052001920006 学习者语料库与一般语料库不同,它是指经过计算机处理的外语学习者的语言产出的文本数据库(Leech 1998:3),属于学习者中介语范畴。
大型的学习者语料库经过词性赋码、错误赋码、语义赋码或句法标注就能使我们从中发现中介语发展的重要规律和特点。
本文将对国内外学习者语料库的发展现状和基于学习者语料库的第二语言习得研究方法作一个评述。
1 国外学习者语料库发展的现状目前国际上对学习者语料库的研究大体上分为三个方面:①学习者语料库的建设与开发,主要是语料库的设计和与学习者语料库的建设相关的软件开发,由语言学和软件两个专业的人员合作完成。
②基于学习者语料的二语习得研究,包括语音、语法、词汇和语篇的各个方面。
③学习者语料研究在语言教学中的应用,利用学习者语料的数据编写词典、语法书、选择课文材料和开发自学的电子产品。
目前,在语料库建设方面,据不完全统计,已经建成和在建的学习者英语书面语语料库8个,口语库2个。
1.1 书面语语料库就书面语语料库而言,其中2个为商业性语料库,主要用于出版社的学习辞书和教材编写,其余6个为研究性语料库,用于研究第二语言学习者的中介语发展。
(1)国际英语学习者语料库———I CLEI CLE (I nternati onal Cor pus of Learner English )是最重要的学习者语料库之一,容量为200万词,1990年启动,项目负责人为比利时Louvain -La -Neuve 大学的Sylviane Granger 教授。
CLEC中国英语学习者语料库CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。
表1 CLEC语料分布类型词次ST2 208088ST3 209043ST4 212855ST5 214510ST6 226106总计 1070602言语失误标注原则1. 简单合理,易于系统操作。
参与标注的人比较多,分类表过于繁复,就难于掌握。
我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。
每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
2. 分类表的类别要适中。
过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。
目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。
现在的分类表有61个失误码,是属于中等规模的分类表。
提供足够的失误信息(失误本身、失误类型和失误发生范围)。
例如In the past,[vp6, 4-] kind to each other…, 失误用方括号表示,放在失误people are 之后。
[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。
要联系这4个词,才能判断are这个词用错了。
开放性。
容许研究者根据需要对失误类型进行补充或进一步再分出细类。
例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。
中国英语学习者语料库CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。
言语失误标注原则1.简单合理,易于系统操作。
参与标注的人比较多,分类表过于繁复,就难于掌握。
我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。
每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
2.分类表的类别要适中。
过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。
目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。
现在的分类表有61个失误码,是属于中等规模的分类表。
提供足够的失误信息(失误本身、失误类型和失误发生范围)。
例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。
[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。
要联系这4个词,才能判断are这个词用错了。
开放性。
容许研究者根据需要对失误类型进行补充或进一步再分出细类。
例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。
这需要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81,sn82,等等。
5.对语体或失误的来由暂不作标注,因为这需要标注者较多的主观判断,更难以统一。
言语失误分类表(总数:61)标注说明标准化处理后的各种失误频数及其比例失误类型 st2st3st3st4 st5 总计 百分比(%)fm11928.8 2877.4 2112.6 1826.7 1686.7 10432.2 17.47 fm2 349.3 448.9 438.9 226.9 328.7 1792.7 3 fm3 1474.4 731.8 405.8 694.1 174.6 3480.7 5.83 vp1 259.4 325.9 498.4 103.4 200.8 1387.9 2.32 vp2 179 139.3 61.2 104.2 22.1 505.8 0.85 vp3 374 524.6 785.2 273.1 327 2283.9 3.82 vp4 140.8 159.1 110.8 63.9 51.6 526.2 0.88 vp5 140 118.7 107.4 89.9 46.7 502.7 0.84 vp6 1165.7 356 311.6 379.8 215.6 2428.7 4.07 vp7 172.7 104.1 98.4 63.9 46.7 485.8 0.81 vp8 27.1 16.3 8.3 25.2 11.5 88.4 0.15 vp9111.4 274.3 278.5 42.9 86.1 793.2 1.33np2 24.7 22.4 17.4 19.3 2.5 86.3 0.14 np3 202.1 247.7 249.6 210.9 186 1096.3 1.84 np4 66.8 55.9 26.4 22.7 21.3 193.1 0.32 np5 58.9 98 71.9 60.5 84.4 373.7 0.63 np6 374 654.4 481 358.8 354.1 2222.3 3.72 np7 237.9 107.5 89.3 174.8 54.9 664.4 1.11 np8 35 65.4 47.9 13.4 7.4 169.1 0.28 np9 6.4 41.3 12.4 7.6 5.7 73.4 0.12 pr1 82 236.5 205 89.9 18.9 632.3 1.06 pr2 16.7 78.3 23.1 4.2 0 122.3 0.2 pr3 52.5 54.2 172.7 28.6 60.6 368.6 0.62 pr4 74.8 37 20.7 48.7 10.7 191.9 0.32 pr5 26.3 53.3 14.1 7.6 10.7 112 0.19 pr6 9.5 2.6 5 3.4 0 20.5 0.03 aj1 6.4 18.9 15.7 5 9 55 0.09 aj2 9.5 3.4 9.9 5.9 7.4 36.1 0.06 aj3 38.2 39.6 32.2 43.7 97.5 251.2 0.42 aj4 16.7 2.6 22.3 12.6 5.7 59.9 0.1 aj5 0.8 3.4 7.4 1.7 0 13.3 0.02 ad1 35.8 96.3 39.7 27.7 15.6 215.1 0.36 ad2 42.2 37.8 12.4 9.2 4.9 106.5 0.18 ad3 7.2 12 9.9 1.7 2.5 33.3 0.06 pp1 136.1 98 43 169.7 28.7 475.5 0.8 pp2 25.5 262.3 143.8 37 27.9 496.5 0.83 cj1 27.8 20.6 18.2 21.8 12.3 100.7 0.17 cj2 4 7.7 13.2 5.9 4.9 35.7 0.06 Wd1 43.8 151.3 114.1 25.2 37.7 372.1 0.62 Wd2 324.6 929.6 772.8 226.9 242.6 2496.5 4.18 Wd3 1102 1634.7 1815 757.1 359.8 5668.6 9.49 Wd4 585.6 829.8 443.8 403.3 427 2689.5 4.5 Wd5 410.6 613.1 518.2 265.5 171.3 1978.7 3.31 Wd6 27.1 37 22.3 34.5 29.5 150.4 0.25 Wd7 261.8 430.8 261.2 228.6 209.8 1392.2 2.33 cc1 72.4 65.4 76 23.5 36.1 273.4 0.46 cc2 35 177.1 49.6 6.7 21.3 289.7 0.49 Cc3 168.7 514.2 417.4 75.6 112.3 1288.2 2.16 Cc4 64.5 94.6 134.7 42 39.3 375.1 0.63 Cc5 23.9 40.4 29.8 5 4.1 103.2 0.17 Cc6 17.5 12 6.6 2.5 1.6 40.2 0.07 Sn1 419.3 596.8 576.9 118.5 42.6 1754.1 2.94 Sn2 424.9 389.6 303.3 132.8 76.2 1326.8 2.22 Sn3 10.3 20.6 17.4 2.5 10.7 61.5 0.1 Sn4 17.5 24.9 6.6 20.2 4.9 74.1 0.12中国学习者最常见的言语失误类型st2 st3 st4 st5 st6 总计百分比fm1 1928.8 2877.4 2112.6 1826.7 1686.7 10432.2 1 wd3 1102 1634.7 1815 757.1 359.8 5668.6fm3 1474.4 731.8 405.8 694.1 174.6 3480.7sn8 1103.6 446.3 862.1 493.2 231.9 3137.1sn9 861.7 573.6 337.2 649.5 322.9 2744.9wd4 585.6 829.8 443.8 403.3 427 2689.5wd2 324.6 929.6 772.8 226.9 242.6 2496.5vp6 1165.7 356 311.6 379.8 215.6 2428.7vp3 374 524.6 785.2 273.1 327 2283.9np6 374 654.4 481 358.8 354.1 2222.3wd5 410.6 613.1 518.2 265.5 171.3 1978.7fm2 349.3 448.9 438.9 226.9 328.7 1792.7sn1 419.3 596.8 576.9 118.5 42.6 1754.1wd7 261.8 430.8 261.2 228.6 209.8 1392.2 vp1 259.4 325.9 498.4 103.4 200.8 1387.9 sn2 424.9 389.6 303.3 132.8 76.2 1326.8 cc3 168.7 514.2 417.4 75.6 112.3 1288.2 np3 202.1 247.7 249.6 210.9 186 1096.3 vp9 111.4 274.3 278.5 42.9 86.1 793.2 np7 237.9 107.5 89.3 174.8 54.9 664.4 pr1 82 236.5 205 89.9 18.9 632.3从上表可看出,1.词形的3种失误(拼写、构词、大小写)均在其中,而拼写更是居榜首,占失误中的17.47%。
3种失误合并共占20.57%。
2.词汇失误7种中有5种(替代、缺少、词类、冗余、歧义),占失误中的23.81%。
3.句法失误9种中有4种(结构缺陷、标点符号、不断句、片段),占失误中的15.01%。
4.动词词组9种中有4种(时态、主谓不一致、及物性、情态),占失误中的11.54%5.名词词组9种中有3种(数、主谓不一致、冠词),占6.67%。
6.其他失误(动词/名词搭配、代词指称),占3.22%。
34 TECHNOLOGY 17 CREATE 13 FINANCIAL 10 HAPPINESS32 BENEFIT 17 GRAMMAR 13 GREAT 10 INDIVIDUALS32 EUTHANASIA 17 NECESSARY 13 MOREOVER 10 PURSUE30 BECAUSE 17 PEOPLE 13 OPPORTUNITY 10 RAISE28 LANTERNS 17 SATURDAY 13 PRACTICAL 10 SHOULD28 REALIZE 17 THEORETICAL 13 RECEIVED 10 SUCCESS27 COLLEGE 17 THOUGHT 13 YOURSELF 10 THEREFORE26 INTERESTING 16 CONTROL 12 EXPECTANCY 10 TRAVELING25 COMMODITIES 16 CONVENIENT 12 FACTORIES 10 WASTE25 LANTERN 16 POPULATION 12 OPPORTUNITIES 10 WHETHER25 SUDDENLY 16 WILLIAM 12 PRACTICES24 IMPORTANT 15 BEGINNING 12 TRANSPORTATION中国学习者词汇失误表失误类型St2 St3 St4 St5 St6 总计百分比Wd1 43.8 151.3 114.1 25.2 37.7 372.1 0.62Wd2 324.6 929.6 772.8 226.9 242.6 2496.5 4.18Wd3 1102 1634.7 1815 757.1 359.8 5668.6 9.49Wd4 585.6 829.8 443.8 403.3 427 2689.5 4.5Wd5 410.6 613.1 518.2 265.5 171.3 1978.7 3.31Wd6 27.1 37 22.3 34.5 29.5 150.4 0.25Wd7 261.8 430.8 261.2 228.6 209.8 1392.2 2.33。