中国英语学习者语料库

格式：doc
大小：381.00 KB
文档页数：11

下载文档原格式

中国英语学习者交际动词的语料库应用研究

Ｄｕｌｉｅ¨ 在ＬｎｍｎＧａｍｒｆＳｏｅｎｒｔｎｌｈ《ｏｇａＢｂｒｏｇａｒｍａｐｋｎａｄＷｉｅＥｇｉ（朗文英语口笔语语法》一书中将动ｓｏｔｎｓ）词分为七类。交际动词（ｏｕｉｔｎｖｒｓ是指包含交际动作的动词，ｃｍｍｎｃｉｅｂ）ａｏ如说和写等，其应该归属在行为动词这一词类之中。普通交际动词包含以下动词行为，：问、布、叫、论、释、如询宣呼讨解叫喊、话、讲陈述、建
一
、
基于学习者语料库的交际动词研究
本文所选学习者语料库为ＣＥ参照语料库为ＦＯ。本文旨在回答以下三个问题，：ＬＣ，ＬＢ即１学生英语作文中交际动词的使用频率是否存在过高或过低的现象？．
２如果学生英语作文中交际动词存在过多或过少使用的情况，么哪些交际动词存在的问题最为突出？．那
二、究方法及过程研
首先，用Ｗｏｄｍｉ利ｒＳｔｈ的基于文本的检索功能，别对赋码后的学习者作文语料库和本族语者语料库分
收稿日期：０１王振（９０一）男，１８，河南开封人，讲师，硕士。研究方向：英语语料库应用。
议、、说告诉和写。Ｂｂｒ认为交际动词主要有以下几个：ｓ，ｎｏｎｅｃｌ，ｉｕｓｘｌｉ，ｓｙｓｏｔｉｅａｋａｎｕｃ，ａｄｓｓ，ｅｐａｌｃｎａ，ｈｕ，

桂诗春,杨惠中-语料库

国家哲学社会科学“九五”规划项目中国学习者英语语料库桂诗春杨惠中广东外语外贸大学上海交通大学国外语言学及应用语言文字工程研究所语言学研究中心上海外语教育出版社目录前言I.中国学习者英语语料库一导言二CLEC的建立三CLEC的统计分析四中国学习者言语失误统计分析II.词频排列（按频数）表III.拼写失误表IV.词目表V.词频分布表VI.语法标注频数表（附Lob134个语法标注的说明与例子）VII.言语失误表I．中国学习者英语语料库一.导言中国学习者英语库（Chinese Learner English Corpus，CLEC）是国家社科基金95规划项目“基于语料库的中国学习者英语错误分析”（Corpus-based Analysis of Chinese Learner English，CBACLE）的一个重要组成部分。

本书所载的是CLEC的各种统计资料和列表；对中国学习者英语错误的各种分析另收集在《中国学习者英语错误分析》一书里。

两书为姐妹篇，供读者互相引证。

在某种意义上说，语料库语言学是一种研究方法; 而这种研究方法是借助计算机来实现的，故Leech（1998a）主张把语料库语言学（corpus Array linguistics）说成是计算机语料库语言学（computer corpuslinguistics）。

随着计算机的普及和现代技术（高速的中央处理器、精密的扫描仪和字母识别程序、大容量硬盘等等）的发展，这种研究方法在最近20~30年有了很大的发展。

McEnery & Wilson（1996）对使用语料库方法来进行语言学研究的发展归纳如表1.1。

根据英国Lancaster大学Taylor,Leech & Fligelstone等人在1989年的统计，英语的机读语料库当时已有36种，非英语的有18种。

Hofland等人（1999）更把18个大型的英语语料库制成ICAME （International Computer Archive of Modern English）英语语料库光盘（第二版），公诸于世。

学习者英语语料库研究类型及应用

照建库的基本原则，对数据要进行科学合理的编码，以便快速准确地进行检索。
综上所述，在理论研究方面，基于学习者语料库的二语习得研究具有几个显著的特点。第一，利用大量实在的例证及计算机统计数据，而不是依赖主观的逻辑判断；第二，深入和真实地描写中介语的微观层而，为抽象的定量统计分析和精确的定性分析之『架起一座桥日ｊ
不解之缘。 ”
纵观近十年的语料库研究，关注二语习得的研究最多，据统计占总数的７％。中国人强调理论和实践相结合．再者中国的语言学研究３者大多数为英语教师，因此研究不可避免地落脚于外语教学的实际。通过分析错误使学习者避免犯同样的错误和改进教学模式以更适应学习者的需要。随着学习者语料库和各种专门语料库的发展，外语学习者和教师将得到大量的预料资源和在线帮助，学习者的外语接触和语言输入将远远突破以往的限制，困扰语言学习的真实材料问题和真实交际问题将得到有效解决，使外语学习更富于交互性和人性化。语言学习的过程不再被视为习惯的养成，学习者也不是被动地对刺激做出
要来源。很多对中国英语学习者语言习得的研究都是基于这一语料库。在这些研究当中，实证研究以其科学详实的实证数据成为研究的主流、
１中国英语学习者语料库的研究现状
用Ｍｉｏｏｃｒ检索软件对该库中ａｃｃｎｏｒｄｔ的用法进行检索，并将ａ在本族ｔ语语料库Ｂｏｎｒｗ中的用法进行比较后发现：中国英语学习者对介词ａｔ存在滥用和误用的现象。以此ｉ明了介词学习的重要性。自建语料兑库由于语料规模小，并且语料收集往往受到研究者本身的影响，不可避免会具有一定的片面性。因此在建库的过程中，一定要严格研究按

语料库中国英语学习者短语动词使用调查

基于语料库的中国英语学习者短语动词的使用调查摘要：文章基于中国英语学习者语料库，通过机辅语料检索与人工分析相结合，主要调查研究了中国英语学习者英语短语动词的使用情况。

结果表明，两个不同水平的学习者在短语动词的使用上有很多相似之处，所使用的英语短语动词有很多重合且数量不多。

关键词：语料库方法短语动词中国英语学习者一、引言短语动词（pvs）是英语习语的一个重要类别，又称“多词动词”（multi-word verbs）。

动词加上副词或介词或两者（有的语言学家把副词和介词统称为小品词particles），表达一个不可分割的完整动词概念，就构成了短语动词。

所谓不可分割的完整概念，指的是新形成的概念与其各组成部分的原有概念有较大区别，人们在使用短语动词的时候把它当做一个单词实义词对待，而不是几个词的随意组合，不同于自由的动词词组（free combination of verbs）。

当代有些语言学家把“介词动词”（动词+介词）和“短语介词动词”（动词+副词+介词）从短语动词中分出来（短语动词只限于“动词+副词”），本文采用的是广义的提法。

在现代英语中，短语动词数量多，使用广，成为现代英语词汇的一大特色。

那么，中国英语学习者在英语写作中的pvs的使用情况如何？本文对不同水平学习者pvs的使用情况加以对比，试图找到我国英语学习者学习和使用pvs 的一些规律和特点。

二、研究设计1.研究问题短语动词数量多，使用广，是现代英语词汇的一大特色。

由此本文以中国学习者语料库为基础，研究的具体问题是：两个水平的英语学习者在英语pvs的使用上是否具有相似之处？如果有，是什么？2.语料来源根据本研究的研究目的，我们从中国英语学习者语料库中挑选了两个字库（st2 & st4），代表不同水平的中国英语学习者。

详细信息见表1：表1 基本语料信息3.短语动词提取本文以clec（chinese learner english corpus）的两个子库（st2& st4）为基础，调查小品词是up，out，off，in和on的二词短语动词的使用特点。

中国学生英语语料库

中国学生英语语料库The Chinese Student English CorpusEnglish language learning has gained significant importance in China in recent years, as there is a growing demand for proficiency in English among Chinese students. To meet this demand and facilitate language education, the Chinese Student English Corpus has been established.The Chinese Student English Corpus is a collection of authentic English language texts generated by Chinese students. These texts cover a wide range of topics and reflect the language proficiency and specific needs of Chinese students. The corpus is a valuable resource for researchers, educators, and learners alike, offering a unique insight into the English language learning process in China.One of the main objectives of the Chinese Student English Corpus is to aid research in the field of second language acquisition. By analyzing the language patterns, errors, and challenges faced by Chinese students, researchers can identify common difficulties and develop effective teaching strategies. This corpus not only provides a comprehensive data source but also serves as a reference for curriculum development and syllabus design.Educators can benefit greatly from the Chinese Student English Corpus. It allows them to access a vast collection of English language texts written by Chinese students of varying proficiency levels. By analyzing these texts, teachers can gain a better understanding of the language abilities and areas that require improvement among their students. With this knowledge, educators can tailor their teaching methods to address specific difficulties and enhance the effectiveness of their instruction.Furthermore, the Chinese Student English Corpus can greatly benefit Chinese learners of English. By examining authentic texts written by their peers, students are exposed to different writing styles, vocabulary usage, and grammar structures. This exposure helps them develop a better sense of the English language and improve their own writing skills. Additionally, learners can use the corpus as a reference tool to expand their vocabulary and enhance their overall language proficiency.In conclusion, the Chinese Student English Corpus is a valuable linguistic resource that sheds light on the language learning process of Chinese students. By providing authentic English language texts, it benefits researchers, educators, and learners alike. With the aid of this corpus, educators can refine their teaching methods, researchers can advance their understanding of second language acquisition, and learners can enhance their English language skills.。

中国英语学习者书面语中连接词的语料库研究

中国英语学习者书面语中连接词的语料库研究摘要：连接词是构建连贯英语语篇的重要手段。

本文运用语料库方法探究中国英语学习者书面语中连接词的使用状况。

结果表明：一是学习者使用的连接词显著多于本族语者；二是学习者和本族语者在选词倾向上有较大相似性；三是在连接词使用上学习者存在语义概念模糊、句法知识欠缺以及语体意识薄弱等问题。

中介语发展的特征以及母语负迁移是形成以上问题的主要成因。

关键词：语料库；英语书面语；连接词衔接是实现篇章顺畅、逻辑清晰的重要途径。

作为衔接成分之一，连接词语的主要功能是在篇章中表示显性的逻辑关系。

通过连接词语人们可以了解句子之间的语义联系，甚至可以经前句从逻辑上预见后句的语义。

［1］(P92)学者们普遍认为，正确合理地使用连接词能显著增强文章的连贯性和清晰度，易于读者把握作者的写作思路，提高读者理解篇章的效率，从而达到有效交流的目的。

然而，英语连接词由于数量大、用法多、意义复杂而成为学习者的一大难点。

本文采用中介语对比的语料库研究方法，调查中国英语学习者书面语中连接词的使用状况，分析其中存在的问题，期望能够为英语教学改进提供可参考的数据。

一、研究背景自20世纪80年代以来，计算机语料库的飞速发展为更好地理解和描述语言提供了巨大的潜力和可能性。

国内有关衔接的研究为数不少，但运用语料库方法对连接词语进行专项对比、定量研究的并不多见，主要研究者有罗一、［2］(P59-62)赵蔚彬、［3］(P72-76)潘璠［4］(P157-162)和莫俊华。

［5］(P45-50)综观以上研究，可以发现：第一，以相近或相同群体为研究对象，研究结果并不完全一致。

多数学者认为，相对于母语作者而言，中国学习者总体上存在过多使用英语连接词语的倾向；也有研究发现中国学习者在大多数连接词语使用上呈现过少使用趋势；第二，对比语料库的匹配性有待进一步提高。

正如罗一在谈到其研究的局限性时所言“应增强语料的匹配性，对比性分析语料的匹配性越高，结果就越说明问题。

学习者语料库在高中英语写作教学的应用

学习者语料库在高中英语写作教学的应用佘泽群引言英语写作是英语语言输出的重要方式，英语写作水平是反映高中生英语学习成果的重要手段之一。

《普通高中英语课程标准》的语言能力目标要求学生能有效地使用书面语表达意义和进行人际交流。

然而学生写作成绩一直是英语教学中“扶不起的阿斗”，与高中英语课程标准的目标要求存在差距。

语料库是应用计算机技术对海量自然语言材料进行处理、存储，以供自动检索、统计分析的大型资料库。

随着信息技术的进步，语料库建设呈现多元化发展趋势，学习者语料库也应运而生，为语言研究与教学做出了巨大的贡献。

高中教学作为学生进入大学前的基础教育，应当紧跟最新的教学技术和方法。

因此如何结合语料库的运用，提高英语写作的教学效果，成为值得探索的问题。

一、学习者语料库发展历史及应用学习者语料库的发展历史并不长，作为语料库发展的分支，起步虽晚，但发展速度较快，并在语言研究和语言教学方面发挥着重要且独特的作用。

（一）学习者语料库的发展学习者语料库是指非母语学习者的口头和书面语料库，是当今语料库建设中的一股新生力量。

在我国比较有影响力的语料库有中国学习者英语口语语料库和中国英语教育语料库。

前者由卫乃兴和杨慧中两位教授建立而成，主要侧重口语语料的收集和编写，语料主要来源于学生大学英语四级考试时的口语录音。

后者是一个大型综合语料库，由华南师范大学何安平教授主持建立，语料包括课堂教学，课堂回话及初高中学习者口笔语等内容。

（二）学习者语料库在外语教学的应用学习者语料库运用于外语教学主要可以分为两种：间接运用和直接运用。

间接运用是指将基于学习者语料库的中介语研究发现应用到外语教学中，针对学习者语言特点及学习困难，有效干预教学大纲制定、教材编写、教案设计、课堂模式设计等一系列外语教学过程。

直接运用是指直接将语料库资源运用于课堂之中，用语料库进行分析，师生通过语料库进行语料分析，发现语言使用特点，解决教学中的难题。

另一种直接应用的方法是教师自行开发具有针对性的小型学习者语料库。

中国英语学习者语料库中高频词good的类联接及搭配探析

词汇学习是外语学习中最重要的组成部分。
与词汇相关的错误率也是外语学习中各类错误比率中最高的。在学习外语词汇时，仅仅学习一个单词的发音、拼写和意义是远远不够的，还需要有
意识地掌握词的搭配（ｏｏａｏ）ｃｌｃｔｎ及类联接（ｏｌｉｃｌ－
收稿日期：０９— ５一ｌ２００１
语本族语语料库是根据本研究的需要自建的语料库（以下简称Ｎ）Ｃ。该语料库是由来自美国《纽
作者简介：陈建生（９３，，１５一）男教授，研究方向：语言学、应用语言学、语料库语言学
ｆｒＥｎｌｈｌｎｕｇｅｃｉｇａｄｌａｎｎ．ｅｐｐｒａｓａｓｓｓｍｅｉｏｔｎｓｕｓｃｎｅｉｇｔｅｄｔ — ｏｇｉａｇａｅｔａｈｎｎｅｒｉｇＴｈａｅｌｏｒｉｅｏｍｐｒａｔｉｓｅｏｃｒｎｈａａａｓｎ
是关于词与词结合的研究。但搭配不仅仅是词的
简单并置，它体现了词与词的相互期待，ｎｇｔ如ｉｈ与ｄｒ。高于搭配层面的抽象是类联接，ａｋ即语法范畴间的组合关系。搭配研究的是具体的词与词
的组合，而类联接则仅涉及抽象的语法概念与范
畴。Ｍｔｅ（９５认为，ｉｈｌ１７）ｃｌ类联接是关于词语类别
共现的词中体现（ｏｈｌｎｗａｗｒቤተ መጻሕፍቲ ባይዱ ｙｔＹｕｓａｏｏｄｂｈｌｋｅ
ｃｍａｙｔｅｐ．，ｎｇｔｄｒｏｐｎｅｓ）如ｉ与ａｉｋｈｋ结伴。搭配就

中国学生英语口笔语语料库

中国学生英语口笔语语料库中国学生英语口笔语语料库的作用中国学生英语口笔语语料库是一种资源库，旨在提供给学生们用来提高英语口语和笔语能力的学习材料。

这些语料库中包含了丰富的实用语言资源，能够帮助学生们更好地理解和运用英语。

一、语料库的内容与功能语料库的内容十分丰富多样，覆盖了各个领域和主题，包括但不限于日常对话、旅行交流、学术写作和演讲等。

它们是由真实的语言材料收集而成，帮助学生们更好地了解英语的使用环境和常见表达方式。

语料库主要具有以下几个功能：1.提供真实的语言输入：语料库中的语料来自于真实的英语使用情景，包括电视节目、电影、音频录音等。

通过接触这些真实材料，学生们可以获得更加地道、自然的语言输入，提高自己的听力和口语能力。

2.提供模范的表达方式：语料库中的语料都是由母语为英语的人士使用的，因此这些短语、句型和表达方式都是非常地道和合理的。

学生们可以通过学习和模仿这些表达方式，提高自己的语言表达能力，使自己的英语更加地道。

3.提供多样化的词汇和语法：语料库中的句子和语言表达形式非常多样化，包含了丰富的词汇和语法结构。

学生们可以通过接触这些不同的词汇和语法结构，丰富自己的语言知识，提升自己的语言能力。

4.提供语言学习实践机会：语料库中的语料可以作为学生们进行语言学习实践的素材，比如进行对话演练、口头或书面表达实践等。

通过运用语料库中的语料进行实践，学生们可以更好地巩固和应用所学的知识，提高自己的语言运用能力。

二、使用语料库的方法与技巧为了更好地利用语料库提高语言能力，学生们可以采取以下方法和技巧：1.多听多读：通过多听多读语料库中的语料，学生们可以培养自己的听力和阅读能力。

可以选择听写和朗读练习，重复和模仿语料库中的句子和对话，提高自己的语音和语调。

2.案例分析：选择一些特定主题的语料，进行详细的分析和学习。

比如，选择一些旅行交流的语料，学习其中的常用词汇和句型，以便将来在旅行中能够更流利地与外国人交流。

中国英语学习者语料库CLEC(桂诗春杨惠中)doc资料

中国英语学习者语料库C L E C(桂诗春杨惠中)中国英语学习者语料库CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词，并对言语失误进行标注。

其目的就是观察各类学生的英语特征和言语失误的情况，希望通过定量和定性的方法对中国学习者英语作出较为精确的描写，为我国学生的英语教学提供有用的反馈信息。

言语失误标注原则1.简单合理，易于系统操作。

参与标注的人比较多，分类表过于繁复，就难于掌握。

我们采取两级分类，第一级有11类：词形（fm）、动词短语（vp）、名词短语（np）、代词（pr）、形容词短语（aj）、副词（ad）、介词短语（pp）、连词（cj）、词汇（wd）、搭配（cc）、句子（sn）。

每一类里再用数目字细分。

如[cc]为词语搭配不当，[cc1]表示名词和名词的搭配，[cc2]表示名词和动词的搭配，[cc3]表示动词和名词的搭配，等等。

2.分类表的类别要适中。

过粗容易统一，但信息太少，不利于分析学习者的失误/过细难以统一，容易把同一种失误归到不同类别。

目前我们采取的办法是对常见的失误从细（如vp和np都有9小类），对少见的失误从粗（如cj只有两小类）。

现在的分类表有61个失误码，是属于中等规模的分类表。

提供足够的失误信息（失误本身、失误类型和失误发生范围）。

例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示，放在失误之后。

[vp6]为vp（动词）第6种（时态）失误，4-为失误发生的范围，-表示失误的位置，4表示失误前有4个词。

要联系这4个词，才能判断are这个词用错了。

开放性。

容许研究者根据需要对失误类型进行补充或进一步再分出细类。

例如[sn8]为句子结构有缺陷，研究者可以对这种失误再分为若干细类来研究。

这需要把sn8的失误全部检索出来，然后定出第三级的分类范畴，如sn81，sn82，等等。

基于语料库的中国英语学习者success用法对比研究

基于语料库的中国英语学习者ｓｕｃｃｅｓｓ用法对比研究摘要：本文基于语料库方法，对中国英语学习者语料库和英语本族语者语料库中常用词success的用法进行对比研究。

客观数据的统计结果表明，该词在两个语料库中的使用模式呈现出显著差异。

学习者对success的词性误用以及搭配上的过度使用、使用不足和错误搭配是问题的集中所在。

因此，应当提供更加丰富的语言环境，提高学习者常用词的运用能力。

关键词：语料库；搭配；误用；过度使用；使用不足1 引言语料库（corpus或corpora）是指按照一定的语言学原则，运用随机抽样的方法，收集自然出现的连续的语言文本或话语片断建成的具有一定容量的大型电子文库[1]，主要用于观察、分析和研究目的语的各种特征。

它能准确地提供诸如构词、搭配、语境等多方面的素材及信息，并以语料真实、检索快捷等独特优势在现代语言学研究和语言教学及学习中有着广阔的应用前景和极大潜力。

而作为一种专用语料库，学习者语料库则是收集学生学习某种目标语言时所产生的中介语而建立的，因此也被称为中介语语料库[2]。

正如Granger[3]所指出，学习者语料库主要用于两个范畴的研究：（1）对于学习者差错的分析；（2）集中于母语与非母语之间的差别的分析。

可见，以学习者语料库为基础并参照本族语者语料库，我们不但可以描述学习者语言的使用特征，还可以比较学习者与本族语者在目标语言使用上的差异。

鉴于此，本文拟以语料库真实自然的数据为依托，对比分析在中国英语学习者语料库与本族语语料库中success这一常用词的使用情况，调查中国学习者在其用法上存在的问题及对该词搭配形式的掌握程度，以期对英语教学与研究提供一定的帮助。

2 研究数据、方法及目的2.1 研究数据本文所使用的学习者语料库是“中国学习者英语语料库”[4]（Chinese Learner English Corpus，即CLEC）的两个子语料库：ST3（大学非英语专业一至四年级学生的四级考试作文语料库）和ST4（大学非英语专业一至四年级学生的六级考试作文语料库），共两千余篇。

语料库标记与标注以中国英语语料库为例

语料库标记与标注以中国英语语料库为例一、本文概述本文旨在探讨语料库标记与标注的重要性及其在中国英语语料库中的应用。

我们将简要介绍语料库的定义和类型，以及标记与标注在语料库建设中的作用。

接着，我们将以中国英语语料库为例，详细阐述语料库的标记与标注过程，包括标记符号的选择、标注规则的制定以及标注质量的控制等方面。

在此基础上，我们将进一步探讨语料库标记与标注对于语言研究、自然语言处理以及机器翻译等领域的影响和应用价值。

我们将总结当前语料库标记与标注研究中存在的问题和挑战，并展望未来的发展趋势和研究方向。

通过本文的阐述，我们希望能够加深对语料库标记与标注的理解，推动中国英语语料库的建设和发展，为相关领域的研究提供有益的参考和启示。

二、语料库的基本概念与分类语料库（Corpus）是以电子形式存储的语言材料的集合，通常包括文本、音频或视频等形式的语言数据。

语料库语言学是语言学的一个分支，专注于利用语料库进行语言研究。

在语料库语言学中，语料库被视为一种研究工具，可用于描述语言的实际使用情况，揭示语言的规律，以及评估语言教学和自然语言处理的效果。

语料库可以按照不同的标准进行分类。

按照语料库的来源，可以分为原生语料库（native corpus）和编译语料库（compiled corpus）。

原生语料库是直接收集的自然语言文本，如新闻报道、文学作品、社交媒体帖子等。

编译语料库则是由多个不同来源的文本经过整理、清洗和标注后形成的。

按照语料库的内容，可以分为通用语料库（general corpus）和专用语料库（specialized corpus）。

通用语料库包含各种类型的文本，旨在反映语言的整体使用情况。

专用语料库则针对某一特定领域或主题，如医学、法律、科技等领域的语料库。

按照语料库的处理程度，可以分为生语料库（raw corpus）和标注语料库（annotated corpus）。

生语料库是未经处理的原始文本，而标注语料库则对文本进行了各种形式的标注，如词性标注、句法标注、语义标注等。

国内外英语学习者语料库的发展现状与方法

三、研究结果与讨论
为了进一步探讨这些现象的原因，我们对比了本族语者和学习者在写作中使用的词块。发现本族语者更加倾向于使用灵活的搭配，而学习者则更倾向于使用固定的词组。我们认为，这可能是由于学习者在语言学习过程中过于依赖记忆而非语法规则所致。
四、教学启示
四、教学启示
本研究结果表明，中国高级英语学习者在英语写作中使用的词块存在一定的问题。因此，教师在教学过程中应注意以下几点：
主题词的发展趋势
主题词的发展趋势
随着技术的不断进步，主题词的发展趋势也日益明显。特别是人工智能和自然语言处理技术的快速发展，对主题词的研究和应用将产生深远影响。以下是未来主题词可能的几个发展趋势：
主题词的发展趋势
1、自动主题词提取：利用人工智能技术，可以自动从大规模文本数据中提取出关键主题词，提高主题词提取的效率和准确性。
五、展望未来
五、展望未来
在总结前人研究的基础上，我们对国内外英语学习者语料库的未来发展进行展望。首先，随着技术的不断发展，多模态数据处理能力将得到提升。这将使我们能够更加全面地了解英语学习者的语言使用情况，进一步深化对语言学习的认识。其次，语料库的标准化和数据偏差问题将得到更好的解决，提高研究的可靠性和准确性。
2、主题词排序：根据主题词在文本中出现的频率进行排序，可以帮助研究者了解语料库文本中的重点和趋势。
主题词的应用
3、主题词共现分析：通过分析主题词与其他词汇的共现关系，可以挖掘语料库中文本之间的和语义关系。
主题词的应用
4、主题词情感分析：通过判断文本中主题词的情感倾向，可以对语料库中的文本进行情感分类或评估。
3、语义丰富性：主题词具有丰富的语义信息，能够表达多种含义和概念，有助于研究者深入挖掘语料库中的信息。

iWriteBaby中国学习者英语语料库的创建

近年，我国大学生的英语写作方式发生了显著变化。在各大高校，学生们的日常写作，乃至测验和考试中的英语作文部分往往都是在线完成。由此产生的海量学生作文构成学习者英语语料库的宝贵素材。本文介绍的“iWriteBaby 中国学习者英语语料库”（以下简称“iWriteBaby 语料库”）便是在这一背景下诞生的。
iWriteBaby 语料库由北京外国语大学许家金总体设计，并完成相关的语料整理校对工作。语料库建设的全过程得到北京外研在线数字科技有限公司、汇智明德（北京）教育科技有限公司的资金和技术支持。语料库的整体设计得到梁茂成教授的指导。
3. iWriteBaby 语料库在线检索平台
目前的单机版语料库软件已很难处理 800 万词规模的 iWriteBaby 语料库。因此，我们将该语料库部署在“ 语料云 ” 在线平台（）。该云平台可以实现 WordSmith、AntConc、BFSU PowerConc 等单机版语料库工具的相应功能，例如词表、索引分析、搭配等。语料云是在大数据时代 BFSU PowerConc 的网络实现（许家金、贾云龙 2013；许家WriteBaby 语料库为 iWriteBaby 1.0 版。其中包含学习者英语作文 52,855 篇，计 8,299,066 词次（单词定义为 [a-zA-Z0-9-]+）。库中作文来自全国 69 所高校（其中重点大学与普通高校比例约为 1: 10）。它们来自全国 23 个省市自治区，48 个不同的城市。这些学生分布在 154 个不同的学科专业。入库的作文题目超过 1,000 个。
通过语料云的“工具”菜单找到“词表生成”，就可以创建 iWriteBaby 语料库的词频表。图 1 中显示的是 iWriteBaby 中最常用的词汇。在词表结果中显示的库容量为 8,293,751 词，与前文我们提供的总词数略有差别。这与该系统与我们的单词定义不同有关。若使用该云平台，则库容信息及其他相应频数都应统一以系统提供的数据为准。

CLEC中国英语学习者语料库

CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词，并对言语失误进行标注。

言语失误标注原则1.简单合理，易于系统操作。

参与标注的人比较多，分类表过于繁复，就难于掌握。

每一类里再用数目字细分。

如[cc]为词语搭配不当，[cc1]表示名词和名词的搭配，[cc2]表示名词和动词的搭配，[cc3]表示动词和名词的搭配，等等。

2.分类表的类别要适中。

过粗容易统一，但信息太少，不利于分析学习者的失误/过细难以统一，容易把同一种失误归到不同类别。

目前我们采取的办法是对常见的失误从细（如vp和np都有9小类），对少见的失误从粗（如cj只有两小类）。

现在的分类表有61个失误码，是属于中等规模的分类表。

提供足够的失误信息（失误本身、失误类型和失误发生范围）。

例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示，放在失误之后。

[vp6]为vp（动词）第6种（时态）失误，4-为失误发生的范围，-表示失误的位置，4表示失误前有4个词。

要联系这4个词，才能判断are这个词用错了。

开放性。

容许研究者根据需要对失误类型进行补充或进一步再分出细类。

例如[sn8]为句子结构有缺陷，研究者可以对这种失误再分为若干细类来研究。

这需要把sn8的失误全部检索出来，然后定出第三级的分类范畴，如sn81，sn82，等等。

5.对语体或失误的来由暂不作标注，因为这需要标注者较多的主观判断，更难以统一。

英汉语料库汇总

1.英语学习者语料库（书面语及口语）中国学习者语料库 CLEC（100万）广外、上海交大2.大学英语学习者口语语料库 COLSEC (5万) 上海交大3.香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学4.中国英语专业语料库 CEME (148万) 南京大学5.中国英语学习者口语语料库 SECCL (100万) 南京大学6.国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) 华南师大7.硕士写作语料库 MWC (12万) 华中科技大学9.平行语料库汉英平行语料库 PCCE 北外10.南大－国关平行语料库南京大学11.英汉文学作品语料库；外研社12.冯友兰《中国哲学史》汉英对照语料库13.李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库14.计算机专业的双语语料库；国家语言文字工作委员会语言文字应用研究所15.柏拉图(Plato)哲学名著《理想国》的双语语料库16.英汉双语语料库(15万对) 中科院软件所17.英汉双语语料库：LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所18.英汉双语语料库(100万)，网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学19.英汉双语语料库(40-50万句子对) 哈尔滨工业大学20.双语语料库(5万多对) 北京大学计算语言学研究所21.对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学22.平衡语料库(Sinica Corpus)；树图语料库(Sinica Treebank) 台湾23.特殊英语语料库中国英语(China English)语料库河南师范大学24.军事英语语料库(Corpus of Military Texts) 解放军外语学院25.新视野大学英语教材语料库上海交通大学26.汉语语料库汉语现代文学作品语料库(1979年，527万字) 武汉大学27.现代汉语语料库(1983年,2000万字) 北京航空航天大学28.中学语文教材语料库(1983年,106万8000字) 北京师范大学29.现代汉语词频统计语料库(1983年,182万字) 北京语言学院30.国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会31.《人民日报》语料库(2700万字) 北京大学计算机语言学研究所32.大型中文语料库(5亿字,10分库) 北京语言文化大学33.现代汉语语料库(1亿字) 清华大学34.汉语新闻语料库；(1988年,250万字) 山西大学35.标准语料库(2000年,70万字)36.生语料库(3000万字)；《作家文摘》的标注语料库(100万字) 上海师范大学37.现代自然口语语料库中国社会科学院语言所38.旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所39.北京大学汉语语言学研究中心的三个语料库现代汉语语料库/yuliao.asp?item=1古代汉语语料库/yuliao.asp?item=2汉英双语语料库/yuliao.asp?item=3/printthread.php?t=2742汉语语料库使用权限国家语委语料库（http://219.238.40.213:8080/CpsQrySv.srf）”虽说是通用型平衡语料库，但不能完全免费使用；北京语言大学的汉语语料库（http://202.112.195.8）语料产出时间较早，且不能完全免费使用；北京大学汉语语言学研究中心语料库（现代汉语子库）”（/YuLiao_Contents.Asp）规模最大，逾亿字，但取样极不均衡，多半为文学作品；台湾“中央研究院”Sinica Corpus也是可免费使用的平衡汉语语料库。

中国英语学习者语料库CLEC(桂诗春杨惠中)

中国英语学习者语料库CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词，并对言语失误进行标注。

表1 CLEC语料分布类型词次ST2 208088ST3 209043ST4 212855ST5 214510ST6 226106总计1070602言语失误标注原则1.简单合理，易于系统操作。

参与标注的人比较多，分类表过于繁复，就难于掌握。

每一类里再用数目字细分。

如[cc]为词语搭配不当，[cc1]表示名词和名词的搭配，[cc2]表示名词和动词的搭配，[cc3]表示动词和名词的搭配，等等。

2.分类表的类别要适中。

过粗容易统一，但信息太少，不利于分析学习者的失误/过细难以统一，容易把同一种失误归到不同类别。

目前我们采取的办法是对常见的失误从细（如vp和np都有9小类），对少见的失误从粗（如cj只有两小类）。

现在的分类表有61个失误码，是属于中等规模的分类表。

提供足够的失误信息（失误本身、失误类型和失误发生范围）。

例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示，放在失误之后。

[vp6]为vp（动词）第6种（时态）失误，4-为失误发生的范围，-表示失误的位置，4表示失误前有4个词。

要联系这4个词，才能判断are这个词用错了。

开放性。

容许研究者根据需要对失误类型进行补充或进一步再分出细类。

例如[sn8]为句子结构有缺陷，研究者可以对这种失误再分为若干细类来研究。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

中国英语学习者语料库CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词，并对言语失误进行标注。

言语失误标注原则1.简单合理，易于系统操作。

参与标注的人比较多，分类表过于繁复，就难于掌握。

每一类里再用数目字细分。

如[cc]为词语搭配不当，[cc1]表示名词和名词的搭配，[cc2]表示名词和动词的搭配，[cc3]表示动词和名词的搭配，等等。

2.分类表的类别要适中。

过粗容易统一，但信息太少，不利于分析学习者的失误/过细难以统一，容易把同一种失误归到不同类别。

目前我们采取的办法是对常见的失误从细（如vp和np都有9小类），对少见的失误从粗（如cj只有两小类）。

现在的分类表有61个失误码，是属于中等规模的分类表。

提供足够的失误信息（失误本身、失误类型和失误发生范围）。

例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示，放在失误之后。

[vp6]为vp（动词）第6种（时态）失误，4-为失误发生的范围，-表示失误的位置，4表示失误前有4个词。

要联系这4个词，才能判断are这个词用错了。

开放性。

容许研究者根据需要对失误类型进行补充或进一步再分出细类。

例如[sn8]为句子结构有缺陷，研究者可以对这种失误再分为若干细类来研究。

这需要把sn8的失误全部检索出来，然后定出第三级的分类范畴，如sn81，sn82，等等。

5.对语体或失误的来由暂不作标注，因为这需要标注者较多的主观判断，更难以统一。

言语失误分类表（总数：61）标注说明标准化处理后的各种失误频数及其比例失误类型 st2st3st3st4 st5 总计百分比（%）fm11928.8 2877.4 2112.6 1826.7 1686.7 10432.2 17.47 fm2 349.3 448.9 438.9 226.9 328.7 1792.7 3 fm3 1474.4 731.8 405.8 694.1 174.6 3480.7 5.83 vp1 259.4 325.9 498.4 103.4 200.8 1387.9 2.32 vp2 179 139.3 61.2 104.2 22.1 505.8 0.85 vp3 374 524.6 785.2 273.1 327 2283.9 3.82 vp4 140.8 159.1 110.8 63.9 51.6 526.2 0.88 vp5 140 118.7 107.4 89.9 46.7 502.7 0.84 vp6 1165.7 356 311.6 379.8 215.6 2428.7 4.07 vp7 172.7 104.1 98.4 63.9 46.7 485.8 0.81 vp8 27.1 16.3 8.3 25.2 11.5 88.4 0.15 vp9111.4 274.3 278.5 42.9 86.1 793.2 1.33np2 24.7 22.4 17.4 19.3 2.5 86.3 0.14 np3 202.1 247.7 249.6 210.9 186 1096.3 1.84 np4 66.8 55.9 26.4 22.7 21.3 193.1 0.32 np5 58.9 98 71.9 60.5 84.4 373.7 0.63 np6 374 654.4 481 358.8 354.1 2222.3 3.72 np7 237.9 107.5 89.3 174.8 54.9 664.4 1.11 np8 35 65.4 47.9 13.4 7.4 169.1 0.28 np9 6.4 41.3 12.4 7.6 5.7 73.4 0.12 pr1 82 236.5 205 89.9 18.9 632.3 1.06 pr2 16.7 78.3 23.1 4.2 0 122.3 0.2 pr3 52.5 54.2 172.7 28.6 60.6 368.6 0.62 pr4 74.8 37 20.7 48.7 10.7 191.9 0.32 pr5 26.3 53.3 14.1 7.6 10.7 112 0.19 pr6 9.5 2.6 5 3.4 0 20.5 0.03 aj1 6.4 18.9 15.7 5 9 55 0.09 aj2 9.5 3.4 9.9 5.9 7.4 36.1 0.06 aj3 38.2 39.6 32.2 43.7 97.5 251.2 0.42 aj4 16.7 2.6 22.3 12.6 5.7 59.9 0.1 aj5 0.8 3.4 7.4 1.7 0 13.3 0.02 ad1 35.8 96.3 39.7 27.7 15.6 215.1 0.36 ad2 42.2 37.8 12.4 9.2 4.9 106.5 0.18 ad3 7.2 12 9.9 1.7 2.5 33.3 0.06 pp1 136.1 98 43 169.7 28.7 475.5 0.8 pp2 25.5 262.3 143.8 37 27.9 496.5 0.83 cj1 27.8 20.6 18.2 21.8 12.3 100.7 0.17 cj2 4 7.7 13.2 5.9 4.9 35.7 0.06 Wd1 43.8 151.3 114.1 25.2 37.7 372.1 0.62 Wd2 324.6 929.6 772.8 226.9 242.6 2496.5 4.18 Wd3 1102 1634.7 1815 757.1 359.8 5668.6 9.49 Wd4 585.6 829.8 443.8 403.3 427 2689.5 4.5 Wd5 410.6 613.1 518.2 265.5 171.3 1978.7 3.31 Wd6 27.1 37 22.3 34.5 29.5 150.4 0.25 Wd7 261.8 430.8 261.2 228.6 209.8 1392.2 2.33 cc1 72.4 65.4 76 23.5 36.1 273.4 0.46 cc2 35 177.1 49.6 6.7 21.3 289.7 0.49 Cc3 168.7 514.2 417.4 75.6 112.3 1288.2 2.16 Cc4 64.5 94.6 134.7 42 39.3 375.1 0.63 Cc5 23.9 40.4 29.8 5 4.1 103.2 0.17 Cc6 17.5 12 6.6 2.5 1.6 40.2 0.07 Sn1 419.3 596.8 576.9 118.5 42.6 1754.1 2.94 Sn2 424.9 389.6 303.3 132.8 76.2 1326.8 2.22 Sn3 10.3 20.6 17.4 2.5 10.7 61.5 0.1 Sn4 17.5 24.9 6.6 20.2 4.9 74.1 0.12中国学习者最常见的言语失误类型st2 st3 st4 st5 st6 总计百分比fm1 1928.8 2877.4 2112.6 1826.7 1686.7 10432.2 1 wd3 1102 1634.7 1815 757.1 359.8 5668.6fm3 1474.4 731.8 405.8 694.1 174.6 3480.7sn8 1103.6 446.3 862.1 493.2 231.9 3137.1sn9 861.7 573.6 337.2 649.5 322.9 2744.9wd4 585.6 829.8 443.8 403.3 427 2689.5wd2 324.6 929.6 772.8 226.9 242.6 2496.5vp6 1165.7 356 311.6 379.8 215.6 2428.7vp3 374 524.6 785.2 273.1 327 2283.9np6 374 654.4 481 358.8 354.1 2222.3wd5 410.6 613.1 518.2 265.5 171.3 1978.7fm2 349.3 448.9 438.9 226.9 328.7 1792.7sn1 419.3 596.8 576.9 118.5 42.6 1754.1wd7 261.8 430.8 261.2 228.6 209.8 1392.2 vp1 259.4 325.9 498.4 103.4 200.8 1387.9 sn2 424.9 389.6 303.3 132.8 76.2 1326.8 cc3 168.7 514.2 417.4 75.6 112.3 1288.2 np3 202.1 247.7 249.6 210.9 186 1096.3 vp9 111.4 274.3 278.5 42.9 86.1 793.2 np7 237.9 107.5 89.3 174.8 54.9 664.4 pr1 82 236.5 205 89.9 18.9 632.3从上表可看出，1.词形的3种失误（拼写、构词、大小写）均在其中，而拼写更是居榜首，占失误中的17.47%。

3种失误合并共占20.57%。

2.词汇失误7种中有5种（替代、缺少、词类、冗余、歧义），占失误中的23.81%。

3.句法失误9种中有4种（结构缺陷、标点符号、不断句、片段），占失误中的15.01%。

4.动词词组9种中有4种（时态、主谓不一致、及物性、情态），占失误中的11.54%5.名词词组9种中有3种（数、主谓不一致、冠词），占6.67%。

6.其他失误（动词/名词搭配、代词指称），占3.22%。

34 TECHNOLOGY 17 CREATE 13 FINANCIAL 10 HAPPINESS32 BENEFIT 17 GRAMMAR 13 GREAT 10 INDIVIDUALS32 EUTHANASIA 17 NECESSARY 13 MOREOVER 10 PURSUE30 BECAUSE 17 PEOPLE 13 OPPORTUNITY 10 RAISE28 LANTERNS 17 SATURDAY 13 PRACTICAL 10 SHOULD28 REALIZE 17 THEORETICAL 13 RECEIVED 10 SUCCESS27 COLLEGE 17 THOUGHT 13 YOURSELF 10 THEREFORE26 INTERESTING 16 CONTROL 12 EXPECTANCY 10 TRAVELING25 COMMODITIES 16 CONVENIENT 12 FACTORIES 10 WASTE25 LANTERN 16 POPULATION 12 OPPORTUNITIES 10 WHETHER25 SUDDENLY 16 WILLIAM 12 PRACTICES24 IMPORTANT 15 BEGINNING 12 TRANSPORTATION中国学习者词汇失误表失误类型St2 St3 St4 St5 St6 总计百分比Wd1 43.8 151.3 114.1 25.2 37.7 372.1 0.62Wd2 324.6 929.6 772.8 226.9 242.6 2496.5 4.18Wd3 1102 1634.7 1815 757.1 359.8 5668.6 9.49Wd4 585.6 829.8 443.8 403.3 427 2689.5 4.5Wd5 410.6 613.1 518.2 265.5 171.3 1978.7 3.31Wd6 27.1 37 22.3 34.5 29.5 150.4 0.25Wd7 261.8 430.8 261.2 228.6 209.8 1392.2 2.33。

中国英语学习者语料库

合集下载

中国英语学习者交际动词的语料库应用研究

桂诗春,杨惠中-语料库

学习者英语语料库研究类型及应用

语料库中国英语学习者短语动词使用调查

中国学生英语语料库

中国英语学习者书面语中连接词的语料库研究

学习者语料库在高中英语写作教学的应用

中国英语学习者语料库中高频词good的类联接及搭配探析

中国学生英语口笔语语料库

中国英语学习者语料库CLEC(桂诗春杨惠中)doc资料

基于语料库的中国英语学习者success用法对比研究

语料库标记与标注以中国英语语料库为例

国内外英语学习者语料库的发展现状与方法

iWriteBaby中国学习者英语语料库的创建

CLEC中国英语学习者语料库

英汉语料库汇总

中国英语学习者语料库CLEC(桂诗春杨惠中)

文档推荐

最新文档