当前位置:文档之家› 桂诗春,杨惠中-语料库

桂诗春,杨惠中-语料库

桂诗春,杨惠中-语料库
桂诗春,杨惠中-语料库

国家哲学社会科学

“九五”规划项目

中国学习者英语语料库

桂诗春杨惠中

广东外语外贸大学上海交通大学

国外语言学及应用语言文字工程研究所

语言学研究中心

上海外语教育出版社

目录

前言

I.中国学习者英语语料库

一导言

二CLEC的建立

三CLEC的统计分析

四中国学习者言语失误统计分析

II.词频排列(按频数)表

III.拼写失误表

IV.词目表

V.词频分布表

VI.语法标注频数表

(附Lob134个语法标注的说明与例子)VII.言语失误表

I.中国学习者英语语料库

一.导言

中国学习者英语库(Chinese Learner English Corpus,CLEC)是国家社科基金95规划项目“基于语料库的中国学习者英语错误分析”(Corpus-based Analysis of Chinese Learner English,CBACLE)的一个重要组成部分。本书所载的是CLEC的各种统计资料和列表;对中国学习者英语错误的各种分析另收集在《中国学习者英语错误分析》一书里。两书为姐妹篇,供读者互相引证。

在某种意义上说,语料库语言学是一种研究方法; 而这种研究方法是借助计算机来实现

的,故Leech(1998a)主张把语料库语言学(corpus Array linguistics)说成是计算机语料库语言学(computer corpus

linguistics)。随着计算机的普及和现代技术(高速的中央处

理器、精密的扫描仪和字母识别程序、大容量硬盘等等)

的发展,这种研究方法在最近20~30年有了很大的发展。

McEnery & Wilson(1996)对使用语料库方法来进行语言

学研究的发展归纳如表1.1。根据英国Lancaster大学Taylor,

Leech & Fligelstone等人在1989年的统计,英语的机读语

料库当时已有36种,非英语的有18种。Hofland等人

(1999)更把18个大型的英语语料库制成ICAME (International Computer Archive of Modern English)英语语料库光盘(第二版),公诸于世。

语料库方法可以广泛地应用在语言学的各个领域(句法学、语音学、语义学、语用学、社会语言学、心理语言学、应用语言学,等等)。语料库和语言教学有密切的关系,它成为1994年ICAME年会的主题,1997年由Wichman等人将论文编辑为《教学与语言语料库》(1997)。根据Leech(1997)的说法,语料库运用到教学可以是直接的(如对学习者讲授语料库语言学、教他们使用语料库、利用语料库进行教学, 等等);也可以是间接的(如编辑词典、编写教材、语言测试,等等)。Leech还提出编写专门用途英语语料库、母语和二语语言发展的语料库、双语和多语语料库,以进一步探索语料库对教学的作用。二语语言发展的语料库也可称为学习者语料库(以后均略为LC,learner corpus)。Granger(1998)所编著的《计算机上的学习者英语》收录了15篇关于LC的论文,体现了语料库语言学研究者近年来探索在语言教学中使用语料库的各种努力。LC还可分为有标注(tagged)和无标注(untagged)两种,而有标注的LC还可以从不同的角度进行标注。从语法角度的标注叫做语法标注(grammatical tagging),主要是对词类(parts of speech,POS)标注;现在已经可能根据概率的原则,用计算机来进行自动化处理,准确率最高达95~97%。另一个角度从学习者的言语失误1来标注,叫做失误标注(error tagging)。它需要由人工进行,难度大而工

1失误是失检(mistakes)和错误(errors)的合称。一般人把语言运用(performance)中的误差

作繁重,所以尽管有一些人在做这方面的努力,到目前为止,还未有一个对言语失误进行标注的LC正式问世。我们所建立的100万词的CLEC组织了一批教师对言语失误进行标注,体现了一种很有意义的尝试。它现在已经放在因特网上供教师试用,希望能获得反馈,以作进一步的改进;我们更希望教师们利用语料库所提供的信息,对中国学习者英语特点和英语失误进行探索,产生更多的研究成果,推进我国的英语教学。

根据Leech(1998b)的说法,建立LC的目的是:

?比较LC和以目标语为母语的语料库(以后均略为ECNS,English Corpus of Native Speakers),看有哪些语言特征是超用的(overused)或少用的(underused)

的?

?学习者的母语在多大程度上影响了他们使用目标语的行为?

?学习者的目标语在哪些方面达到或未达到目标语的说话人的言语行为?

?学习者有哪些主要方面(按照频数)未能符合目标语说话人的言语行为而需要特别的帮助?

这意味着我们需要从两个方面来分析学习者语料:一个方面是对比分析LC和别的ECNS的异同,我们选择了美国英语的Brown语料库和英国英语的LOB语料库,因为这两个语料库的数目都是100万个词左右,而且我们的学习者有的学美国英语,有的学英国英语。但是这两个语料库反映的是60~70年代英语使用情况,所以我们也尽可能使用Frown和FLOB来进行对比。这两个语料库是德国Freiburg 大学根据Brown和LOB两个语料库的采样方案收集90年代美国和英国英语语料建成的语料库。另一个方面是分析LC的言语失误,这是他们言语行为偏离目标语说话人的主要方面。应该说明的是学习者的语料偏离ECNS 有许多方面,例如语言风格、文化色彩和母语影响等等,我们一下还未能对它们进行标注。因为对它们的标注有争议,而且带有较强的主观成分;而我们参与标注的人较多,难以统一。但我们的语料库一旦公诸于世,研究者就可以根据自己的需要对失误进行再分类和再标注,以便根据特定需要作更深入的研究。

叫做失检,这些误差是学习者可以自行检查出来,并作更正的;而错误则是语言能力(competence)中的误差,学习者不能自行更正。但是这种区分是从解释误差的角度提出来的,学习者语料库仅能提供言语误差,至于它们是失检,还是错误,则无法说明。例如一个词拼写错了,是因为学习者已经懂得它的正确拼写法,但在使用中不小心拼错了,还是因为学习者根本不懂其正确拼写法,需要研究者根据具体情况来解释,语料库是无能为力的。所以我们把这两种情况笼统称为失误。

二.CLEC的建立

1.样本的选定

LC和ECNS最主要的不同是学习者本身是有差异的,他们语言发展居于不同的阶段,

所以样本必须来自不同发展阶段的学习者。而制订ECNS抽样方Array案则考虑文体类型(genre)而不是语言能力。学习者的写作能力

只是停留在“一般的”英语(例如我们不能期望我们的学习者去

写小说、社论、科技文章,而这些类型是一般ECNS都有的)。从

整体上看,我们所建立的LC基本上是同质的(homogeneous),

都是中国的英语学习者;从分体上却是异质的(heterogeneous)的,

他们处于不同的发展阶段。我们定为5个阶段,如表2.12:

a)中学阶段,主要是高中生,因为初中生还没有写作课。

代号为st2。

b)大学英语4级,大学1~2年级非英语专业学习者,多数学习者将参加CET4级

考试。代号为st3。

c)大学英语6级,大学3~4年级非英语专业学习者,多数学习者将参加CET6级

考试。代号为st4。

d)英语专业1~2年级学习者。代号为st5。

e)英语专业3~4年级学习者。代号为st6。

整个语料库的语料有100万词,每一类型的学习者的语料为20万词。为了避免学习者在考试时往往采取回避策略(strategy of avoidance),避免写一些没有把握的东西,因此语料采样应不仅来自考试的试卷,还应来自课内外的作业。前者称为试卷作文,后者称为自由作文3。

由于采样和录入的困难,目前的语料库严格来说是书面英语的语料库。但是初级的英语学习者不会在语体上区别目标语,所以他们所写的往往就是他们要说的话。

2这是经过处理后的数字,未经处理的原始语料库为1207879词,整理原则见1.词频排列表。

3我们在研究过程中发现,试卷作文和自由作文在语言运用方面有很大差异:试卷作文是在考试环境下的语言运用,不仅有时间和考试规则的限制,而且不允许考生查阅词典和参考书,此外还有考试焦虑因素的影响等等,因此试卷作文是一种非常态语言运用。目前CLEC中所收集的学习者语料,ST2和ST5、ST6都是自由作文,而ST3、ST4主要是试卷作文。由于来源不同,目前CLEC 中的数据仅适宜于做同类语料的比较,但不适合作纵向的比较,即不能用来说明中国学习者的语言发展过程。从长远来看,本项目将开展后续研究,把整个CLEC语料库分为两个子库:CLEC1全部由自由作文构成,CLEC2全部由试卷作文构成,这样才能作纵向的比较。关

于试卷作文和自由作文的进一步讨论请参阅《中国学习者英语错误分析》一书中的有关文章。

2.样本的处理

样本的处理在LC里也是比较特殊的。一般的语料库可以通过扫描仪和光学字母识别程序来建立, 十分方便。但是我们的样本都是学习者的手写文字,需要组织专人来输入,而且还要找人来校对,以免出错。我们的处理程序如下:

a)选好样本。

b)输入样本。

c)校对。

d)对言语失误进行标注。

e)对标注进行统一。统一最好由一个人进行,使标准得以统一。但语料太多,我

们最后由三个人把失误类型分为三大部分来进行统一。

f)对语料库和言语失误进行统计分析。

g)建立语料库索引检索器(concordancer)。

h)将语料库索引检索器和整个语料库放在因特网上试用。

i)将语料库的统计数据公开发表。

3.言语失误分类表的制订

对语料库中的学习者的言语失误进行标注是本语料库最主要的特点。在制订言语失误分类表前我们考虑了几条编制原则:

a)简单合理,易于系统操作。参与标注的人比较多,分类表过于繁复,就难于掌握。我们采取两级分类,第一级有11类:词形、动词短语、名词短语、代词、

形容词短语、副词、介词短语、连词、词汇、搭配、句子。每一类里再用数目

字细分。如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词

和动词的搭配,[cc3]表示动词和名词的搭配,等等。

b)分类表的类别要适中。过粗容易统一,但信息太少,不利于分析学习者的失误;

过细难以统一,容易把同一种失误归到不同类别。目前我们采取的办法是对常

见的失误从细,对少见的失误从粗。现在的分类表有61个失误码,是属于中等

规模的分类表。

c)提供足够的失误信息(失误本身、失误类型和失误发生范围)。例如In the past, people are[vp6, 4-]kind to each other…, 失误用方括号表示,放在失误之后。

[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位

置,4表示失误前有4个词。要联系这4个词,才能判断are这个词用错了。

d)开放性。容许研究者根据需要对失误类型进行补充或进一步再分出细类。例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。这需

要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81,sn82,

等等。

e)对语体或失误的来由暂不作标注,因为这需要标注者较多的主观判断,更难以统一。

表2.2 言语失误分类表4总数:61

4我们没有对表2.2和表2.3的说明译成汉语,因为没有统一译法,勉强统一容易引起误解。

表2.3 标注说明

4.语料库的制作工具

语料库是在计算机上实现的一个数据库,必须使用合适的软件来进行加工。这方面的软件已有不少,如WordCruncher,MicroConcord, Longman’s Concordancer, Concordance, Concordancer, Lexa, TACT, Wordsmith, 等等。经过实验和比较,我们决定使用TACT和Wordsmith,因为它们的功能比较强大,而且是自由软件或共享软件。但是我们有特殊的标注要求,而且这些软件大都不能处理汉语(我们的LC虽然是英语的,但偶尔也有汉字,影响了文件的处理),故我们也编写了一些专门的软件,如corpfind (供标注用;有的同志还用Word的自动图文集的功能编制言语失误分类表,找到失误后,按鼠标键入码,效果也很好), cbrowser(供检索用), cleantxt(供清除汉字符号用), paragraph(供清除转行符用), merge (供合并和统计词表用),PosTagger(供做语法标注用),lemma(作词目归并用),wordlist (作改正拼写后归并词表用)。所有的这些软件都要求语料库的文件是纯文本(.txt)格式。另外我们觉得Microsoft Office的Excel制造表格的功能十分强大,我们所做的表格都是Excel 的.xls格式的,必须装有Excel才能打开。对这些表格我们不作进一步转换,以便用户在Excel 状态下进行处理数据。如有需要,用户可以在Excel下把文件另存为别的格式。Excel本身也能做一些统计和制图工作;在需要做进一步的统计分析和制图时,我们使用了SPSS,Statistica和Harvard Chart。

TACT和Wordsmith都可以对语料库作统计分析,并进行索引检索。但是TACT可以定出检索条件(如全部语料或某一类学习者的语料)来检索词语或失误,而Wordsmith有一个特殊的功能,叫做keyness(关键词性),可以把两个语料库的词语频数进行比较,找出比参照语料库超用或少用的词语。例如我们可以把5类学习者的词表与一个参照语料库的词表进行比较,看哪些词语是各类学习者多用或少用的。在光盘里,我们提供了这两个软件,要发挥Wordsmith的全部功能,必须经过注册。

三.CLEC的统计分析

1.统计列表

(1)词频排列表(按频数)

词频排列表(Rank List),按频数把语料库的词型从高到低进行排列,例如the的出现频数最高,共有61787次,排在第一位。对词频也可以按字母顺序排列,叫做字母排列表(Alphabetical List)。这两个表的数据是一样的,只是排列次序不一。本书只提供按频数的词频排列表,编号II,在光盘中还提供按字母排列的词频排列表,编号III。为了把CLEC 的词频排列表和别的ECNS的词频排列表进行比较,我们必须对CLEC的语料做一些筛选处理。语料中有许多汉语拼音的专有名词和我们加到语料库里的失误标注,还有许多拼写失误,例如*abilitical, *abilitities, *abilitys, *abillities, *ablelity, *ablity, *abtilities等等,都是ability和abilities的拼写失误的不同形式。如果我们把它们都作为词型算进词频排列表里来和ECNS的词频排列表比较,则中国学习者的词汇量显然含有水分。故我们在编制词频排列表时,把汉语拼音的专有名词和失误标注加以剔除,把拼写失误的都改过来。经过处理后,

原来语料库的词次(tokens,语料库所有单词出现的次数)从1207879减为1070602,词型(types,语料库中所有拼写相同的连续词符串,如do, does, did, doing, done是五个词型)从25562减为15313。但这仅在编制词频排列表时所做的改变,原始的语料并没有减少和改正,以保持原貌。但在使用词语检索器进行其他统计时,仍按原来1207879个词计算,望读者留意。

一般语料库的词频排列表都要提供一些重要参数如频数(frequency)和分布率(dispersion)。AHI还提供U值(一个词在1,000,000词理论频数)和标准频数指数(SFI)。我们采取了AHI的几个参数来整理我们的词频排列表。具体的公式和它的含义见词频排列表前的说明。

(2)拼写失误表

拼写失误表,编号IV。我们在编制词频排列表时,为了了解学习者所使用的词汇量,把他们的拼写失误改正。但不同类型学习者的拼写失误对教学很有参考意义,故我们把词频排列表中改正的拼写失误形式单独列出一个拼写失误表。拼写失误共有10540词次、5810词型。拼写失误表先列出正确的拼写形式,然后列出各类学习者的失误形式。我们可以看到有些常用词是学习者容易拼写错的,如knowledge(22种),society(21种),important(13种),government(13种),opinion(12种),beautiful(12种),because(11种),industry (11种),people(11种),等等。

(3)词目表

词目表,编号V。词频排列表所排列的词型来自原始语料库,所以take,took,taken,taking都作为词型而统计,我们需要把这些不同形式的词型归并而成为词目(lemmas),这就是词目归并(lemmatization)。目的是了解学习者实际使用了多少词。

在编制词目表时,我们以1998年Yasumasa Someya 所编制的E_lemma表为依据, 编成专门软件。在E_lemma里,代词、副词并没有归并。词目表仍按词频排列表所设定的参数来统计,可参考词频排列表前的说明。

经过词目归并后,词型大概减少1/3强,见表3.1:

表3.1 词目归并前后的变化

*参见P5脚注3

(4)词频分布表

词频分布表(Word Frequency Distribution),编号VI。它和词频排列表所提供的数据是一致的,但是排列方式不一。主要是从排列的序号看词频的分布。在书中,我们提供了整个CLEC的词频分布总表,但在光盘里则增加了各类学习者的分表(编号IX~XI)。

(5)词目分布表

CLEC词目分布表,编号为VII。Flob词目分布表,编号为VIII。编制这两个表的目的是了解词目归并后词频分布的变化情况。

(6)语法标注频数表

CLEC语法标注表,编号为XIV。根据Lob的Tagset进行词类的自动标注,标注后再进行归类统计,因为各类学习者的语料不完全一样,故表中既提供原始的语法标注频数,又提供经标准化处理后的频数,后者可以进行比较。标准化处理的方法见表4.1前的说明。

Johansson,S. & Hofland,K.(1989)曾按上述Tagset的14大类比较了Lob和Brown的频数,现增加CLEC的频数,以作比较。表3.2显示,几个语料库的语法标注的比例比较一致,用得最多的名词类和动词类,其词汇密度(名词、动词、形容词、副词、数词等实义词所占的比例)亦很一致,在58~59%之间。

如果我们把这14类语法标注作图,就可以看到CLEC的限定词和介词用得少些,而代词又用得多些,如图3.1。这可能反映了CLEC的特点,学习者作文中有很多与个人和社会生活有关的题材,故使用了较多的代词。至于限定词(特别是the,a(n))和介词用得少些,则可能是中国学习者受汉语影响,掌握得不好,有意或无意地少用。

表3.2CLEC,Lob,Brown语法标注比较

*参见P5脚注3

(7)言语失误表

言语失误表编号为XV,这是未经标准化处理的原始记录。表中仍按词频排列表那样提供F,D,U,SFI,几个参数,但是实际有意义的是F和D,F表示实际频数,而D表示失误在各类学习者中的分布情况。

2.CLEC的对比分析

(1)分布模型

早在上一世纪的30年代,美国Zipf 提出了解释词频分布中词频和它的排列序号的关系的定律:r *f=c (词的相应的序号(r )和词的频数(f )的乘积等于一个常数(c )),所以P r =1/(10r ),即某一个序号的概率相当于1除以这个序号乘以10。但是这个定律和实际的观察并不很一致。于是法国的Mandelbrot 又提出修正的公式。英国的Herdan 对Zipf 定律提出批评,认为它既不是一条象物理学定律那样的定律,也不符合实际的观察(不能正确描述高频词和低频词的分布)。 他认为词频的分布是遵循所谓对数正态模型(Herdan ,1960a ;Carroll ,1967),即如果把样本(用词次表示)的积累百分比和相应的词型频数的对数作图,前者为Y 轴,后者为X 轴,其分布是正态的。Herdan 对圣经,Carroll 对Brown 和AHI (American Heritage Intermediate Corpus )语料库的分析证实了这一点。

那么LC 的词频分布是否也遵循这个规律,这是我们首先感兴趣的。因为如果分布模型不一样,其他的对比也就缺乏依据了。下面我们比较CLEC ,Brown 和AHI 。三个语料库都是以对数作为X 轴坐标的,但用的单位略有不同:CLEC 把词型频数转换成对数(这是Herdan 最初使用的单位);Brown 以φ(即以log (π)为单位,π是词型频数/总词次),而AHI 用的是SFI ,(即10(φ+10))。因为使用的都是对数单位,所做出的曲线是可以比较的。从图3.2可见,CLEC 的词频数据是线性的,和其他语料库的相似(参看图3.3和3.4)。Carroll 还建议把词型频数转换成对数从而取得中位数(median )。根据这个分布,CLEC 所得出的中位数是-4.20(Brown 的为-3.39,AHI 为-2.69)。-4.20意味着语料库中有一半的词居于63/1,000,000。

1

10

100

1000

发生频率

010203040506070

8090100积

累词次比

例图 3.2 CLEC 词频分布图

AHI 图把词次和词型做在同一幅图,而且用回归的最小二乘法来进行拟合,说明实际观察和预测的曲线是非常一致的,因此语料库是符合对数正态模型的。我们用同样的方法,作出词次和词型(图中上一组曲线代表词型,下一组代表词次)的拟合曲线。读者可以看出,实际观察和预测曲线也是高度吻合的。

46.61

60.8964.166.6170.2577.74

SFI (标准频率指数)

-3

-2-101234正

差图3.5 CLEC 词次和词型的实际观察值和预测值

以上CLEC 的两幅图都是根据词频分布表做出的,只能给我们一个总体感觉。下面我们进一步解释怎样使用词频分布表来了解中国学习者使用英语词语,特别是常用词的情况。

Palmer ,H.(见Bongers ,1947)在没有使用计算机的情况下曾估计头1000个英语常用词覆盖了任何英语文本的85%,第二个1000覆盖了7%,第三个1000覆盖了3%。换句话说,头3000个英语常用词覆盖了95%。有了词频分布表,我们就可以进行精确的估算。例如以Brown 语料库为例,头一个1000常用词型覆盖了68.98%,第二个覆盖了6.3%,第三个覆盖了5.4%,共80.68%。Palmer 的估算实际上有些偏高。那么CLEC 的常用词型的覆盖面又如何?这是我们需要作比较分析。

在比较之前,我们需要对怎样使用词频分布表做一点说明。例如我们想知道CLEC 中头100个常用词型的覆盖面,只要到VI 词频分布表的序号栏里找到100,然后交叉查阅积累词次栏的值(0.453)和积累词型栏的值(0.9935),再用1来减去这两个值(因为词频分布表的排列是从低到高递加的),头一个值为0.547,这是覆盖面的比率,即54.7%。第二个值为0.0065,即6.5%,这是词型的比率。这两个值的含义是占了总词型的6.5%的头100个常用词型覆盖了54.7%的总词次。 其实我们也可在根据词频分布表中序号100的各排数据来算出同样结果,例如积累词次为484534,而CLEC 的总词次为1070602,因此这个位置词次为1070602-484534=586068,而比例则为586068/1070602=.547。同样的,积累词型为15214,而总词型为15313,因此比例为(15313-15214)/15313=.0065。

下面我们把Brown ,Lob ,Frown ,Flob 几个语料库和CLEC 一起按头100,500,1000,3000,5000个常用词型列出它们的覆盖面。

从这个表可

料库的覆盖面基

本上是相同的,

即数目较少的词

型占了很大份量

的词次。但是

CLEC有一个鲜

明的特点,即积

累词型频数的百

分比比较大(原

因是总词型数

少,只有15313),

而占的积累词次数也大:头100个词型占54.7%,头1000词型占85.9%,而头3000词型占

95.2%。而其他ECNS的覆盖面只有80~83%。CLEC的头1000个常用词型的覆盖面(85.9%)已经相当于其他ECNS语料库的头5000个常用词型的覆盖面(85.8%~88.7),而这1000个词型只占总词型的6.52%;CLEC的头5000个常用词型(占总词型的31.5%)已经覆盖了其

语料的97.6%。

这里应该说明的是,Palmer当初所做的估计指的其实是词目,而不是词型,因为当时并没有用计算机建立起来的语料库。为了更准确地说明覆盖面的问题,我们把CLEC和Flob 的词目表再制成词目分布表(它们均载入光盘内,编号为VII和VIII),然后再比较两者的

词目覆盖面:

由此可见,从词目分布来看覆盖面,范围更宽。这更进一步说明中国学习者的词汇量有限,他们掌握的词汇量比较少,而使用面却比较宽;所以说,很多常用词都超量使用。另一方面这也说明他们写作题目范围的狭窄。就语料库自身的采样范围而言,CLEC的常用词覆盖面明显地超出其他的几个语料库,如表3.3所显示。这几个语料库的总词次都在一百万个词左右,但是它们只出现一次的词汇量又明显比CLEC的大3倍多。按照Carroll的说法,这些罕见词在语料库的出现是带有偶然性的,但都属于理论模型的一部分,都有出现的可能。使用词汇量小,而罕见词也比较少,应该是LC的一种特征。

我们还可以把CLEC内部的5类学习者的常用词覆盖面来和ECNS加以比较。首先取得几个ECNS的各个档次的常用词的平均值,定为X(其实它们的差异不大,取哪一个也可以),

类学习者和这个参照点一起列表和作图,如下:

作为比较的参照点,然后把5

从图中可见,它们都比X偏高,即覆盖面都较大;但较为接近X的是St5和St6的学习者,即水平较高的学习者。

分布表还有另一个用途,可帮助我们了解学习者需要掌握多少常用词才能覆盖所有的文本。例如我们想知道达到90%的覆盖面需要掌握多少常用词型,通过查阅各个ECNS,我们知道:Brown 为7920(90.51%),Frown为7809(90.463%),Lob为5881(90.02%),Flob 为7012(90.029%),其平均为7200左右。而在我们的St6语料中总词型为9978,但一次词有3795(只是个别学习者偶然使用),减去它以后只有6183个词,这说明St6的学习者要达到90%的覆盖面还要多懂1000个词。当然,CLEC的语料都是学习者产生的(productive),不等于他们能辨认的语料也只有那么多。

(2)型/次比

Herdan(1960b,25)曾经指出,在语体统计学里观察词汇及其发生频数的关系的特征时,首先要考虑的是型/次比、对数型/次比和K特征值。

型/次比(type/token ratio)指的是一个语篇里所用的词型和该语篇的总词次的比率,是观察语料库用词多少最常用的参数。一般来说,这个比率视语篇体积的大小而改变:语篇的长度增加,词汇也会随着增加;但是增加并非按比例进行。语篇的长度越大,型/次比反而会降低。因为不少常用词(特别是一些功能词)的重复率增加了。例如Brown的词型为50406,词次为1014232,型/次比为0.0497;AHI的词型为86741,词次为5088721,型/次比为0.017。这是因为AHI的收词量为5百万,比Brown多5倍。但是对数型/次比(即log (词型)/log(词次))却相对稳定,不受语料库大小的影响。Brown的对数型/次比为0.783,而AHI的对数型/次比为0.736。在我们把CLEC和其他ECNS比较,把CLEC内部的各类学习者比较时,语料的体积不完全一样,所以采用了对数型/次比的计量办法。Scott 在他的Wordsmith专用程序里,还使用了一个标准型/次比的计量,其方法是在首1000个词次中计算出其型/次比,然后在次1000个词中再重新计算一遍,一直算下去。最后取所有型/次比的平均。

K特征值是Yule(1944)首先提出的。对K特征值有不同的解释,Brown用它来表示语词的重复率,即在一个样本里随机抽取两个词,这两个词是同一个词的概率。K值大表示两个词是同一个词的概率大,这意味着使用了较大比例的常用词;K值小表示这两个词是同一个词的概率小,这意味着使用了较多的低频词。

Brown还提供了词型的平均值(总词次/总词型)、标准差和差异指数(coefficient of variation,V),后两个数据都是表示离散程度,V是相对于平均值的离散值(=标准差/平均值)。

型/次比和平均值都是表示语料库中的词汇密度的(严格意义的词汇密度是把功能词排除以后再计算型/次比,见我们在语法标注表中的讨论)。一个语料库里的词型越多,型/次比就越高,而平均值也越小。表3.6给出CLEC和其他几个ECNS在这几个方面的数据:

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探* 王立非1,刘斌2 (1.南京大学, 江苏南京 210093; 2.解放军国际关系学院,江苏南京 210039) 摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一, 对开展口语语料库研究和语言习得研究具有重要价值,本文探讨该语料库 的录写系统的赋码原则与具体操作问题,对促进我国英语口语语料库的建 立和研究具有借鉴作用和启示意义。 关键词:国际儿童口语语料库;英语口语语料;语料库语言学 中图分类号:文献标识码:文章编号:The CHILDES Corpus: Coding and Operation of the CHAT Tool WANG Lifei1, LIU Bin2 (1. Nanjing University Nanjing, Jiangsu Prov., 210093; 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China) Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China. Key words: CHILDES;English spoken corpus;corpus linguistics 1.引言 新世纪的语言学研究已进入计算机时代,基于语料库的研究成果不断涌现,国际儿童口语语料库CHILDES(Child Language Data Exchange System)就是众多语料库中的一员,已有一千项基于这个语料库的研究成果发表。该语料库由美国麦克阿瑟基金会资助,于1984年开始筹建,经过近20年的建设,已成为目前世界上最大的儿童口语语料库。到目前为止,该语料库已收集了包括英语、汉语在内的25种语言。用户可直接从网上免费登录、使用或下载(https://www.doczj.com/doc/7914054657.html,/CHA T.html)语料。CHILDES语料库由三部分组成,第一部分是儿童英语口语语料库(DATA-BASE),第二部分为文本赋码系统(CHAT),第三部分为语料分析程序(CLAN),均可在网上免费下载。本文探讨该语料库的录写系统的文本赋码原则和操作,目的是对我国建设英语口语语料库提供借鉴与启示。 2.录写赋码系统的途径与原则

CCL语料库与检索系统方案

一关于CCL语料库及其检索系统 (如果时间紧张,可直接跳到最后的举例部分!) 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如: “作者列表”:列出语料库中所包含的文件的作者 “篇名列表”:列出语料库中所包含的篇目名 “类型列表”:列出语料库中文章的分类信息 “路径列表”:列出语料库中各文件在计算机中存放的目录 “模式列表”:列出语料库中可以查询的模式 1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色: ?支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等); ?支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句); ?支持在“结果集”中继续检索; ?用户可定制查询结果的显示方式(如左右长度,排序等); ?用户可从网页上下载查询结果(text文件); 二关于查询表达式 本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号 查询表达式中可以使用的特殊符号包括8个: | $ # + - ~ ! : 这些符号分为四组: Operator1: | Operator2: $ # + - ~ Operaotr3: !

Delimiter: : 符号的含义如下: (一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2) (1) | 相当于逻辑中的“或”关系。 (二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3) (2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number (3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number (4) + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number (5) - 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,-号右边的“简单项”不出现。 (6) ~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字的范围内,~号右边的“简单项”不出现。 (三)Operator3:Operator3是一元操作符。 (7) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。 注意: Operator2后面的Number是必须的,不能省略。Number=0表示相 邻,Number=1表示间隔1个单位,其余依此类推。 (四)Delimiter:西文冒号 : 是分隔符 (8) : 跟在 path,author,name,type,pattern 等关键字后面,用于分隔关键字和它们的取值。这样形成的查询式我们称之为“过滤项”(见下面2.5) 注意:上述特殊字符不能作为基本项在语料库中进行检索。path,author等关键字可以作为基本项进行检索。 2.2 基本项 指不包含特殊符号和空格的连续字符串

语料库语言学的发展

语料库语言学的发展 语料库顾名思义就是放语言材料的仓库。现在人们谈起语料库,不言而喻是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。现在世界上已经有了不少规模较大的语料库,有些是国家级的,有些由大学和词典出版商联合建设。另外,由于个人微机的迅猛发展和存贮数据的硬盘造价持续下降,研究者个人也开始建立适合于自己研究的小型语料库。 语料库语言学(英文corpus linguistics)这个术语有两层主要含义。一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。只有在这个意义上“语料库语言学”才是一个新学科的名称。从现有文献来看,属于后一类的研究还是极个别的。所以,严格地说,现在不能把语料库语言学跟语言学的分支, 如社会语言学、心理语言学、语用学等相提并论。 近年来,随着我国经济的发展,科研经费的增加,汉语语料库的建设得到了开展。1999 年我院把建立汉语语料库列为院重大课题。目前语言所正在构建三个大规模的语料库: 现场即席话语语料库,主要方言口语库和现代汉语文本语料库。在世界范围内,我国的语料库建设在规模上还赶不上欧洲的一些发达国家,特别是英国。然而,在语料库语言学的研究上,以及语料库的实际运用上,我国已经进入世界前沿的行列。 20 世纪语言研究的总特点可以用四个字概括──高度抽象。最近几十年来,语言研究的高度抽象倾向已经失去主导地位。这主要缘于两个方面的因素: 一是计算机技术,特别是基于计算机处理的多媒体技术的飞速发展;二是社会语言学、语用学、会话分析、人类语言学、计算语言学、人机对话研究、语音识别与合成等研究取得令人瞩目的成就。先前难以抓住并进行有效处理的五花八门的实际语料,现在可以对其进行大规模地的、自动的或人机配合的处理。比如个人发音特征,先前认为这跟语言学毫无关系,现在成了侦破语音学的重要内容。侦破语音学家首先建立个人发音特征语料库,这个语料库可以用来鉴别嫌疑犯。概言之,当今的语言研究由先前的高度抽象逐步走向最具体的语言的实际活动,其中

桂诗春等-2010-语料库语言学与中国外语教学

2010年11月November 2010 第33卷第4期Vol.33No.4 现代外语(季刊) Modern Foreign Languages (Quarterly )语料库语言学与中国外语教学 桂诗春 冯志伟杨惠中何安平卫乃兴李文中梁茂成 [编者按] 为推动我国应用语言学研究的新发展,教育部人文社科重点研究基地———广东 外语外贸大学外国语言学及应用语言学研究中心于2010年9月24-25日成功举办了“首届广外应用语言学论坛”,庆贺我国著名语言学家、应用语言学学科的开拓者桂诗春教授八十华诞。期间,举行了题为“语料库语言学与外语教学”的高层论坛,就语料库语言学的现状、发展前景及语料库的建设、共享、应用等展开了互动讨论。以下是根据专家发言,整理后的主要内容。 [中图分类号]H319 [文献标识码]A [文章编号]1003-6105(2010)04-0419-08 语料库语言学的发展前景与资源共享 广东外语外贸大学 桂诗春 1.语料库语言学的发展前景 语料库语言学在外国和国内都发展很快,有的人选择了它作为发展方向,因为它的入门比较容易,上手较快;有的人把语料库语言学作为收集数据的重要手段。但是总的来说,我们的语料库研究还处在比较初级阶段,需要提高。究其原因是很多人把它看成是一种工具或手段,可以运用现有的一些现成的程序和公开的语料库,如Brown ,LOB ,Frown. Flob , BNC ,CLEC ,只要选题得当,就能获得很多量化的数据,从而写出洋洋洒洒的文章来。在计算机和扫描仪的支持下,自行收集一些语言素材,建立一个特定的语料库,也不是什么难事。 我觉得,语料库语言学既是一种工具,但更是一门学科;它是对语言行为进行概率性归纳和概括的一门学科,它本身是跨学科性的,要做语料库语言学研究必须许多方面要有比较雄厚的基础。首先是数学和统计学。Herdan (1960)的一本早期著作,叫做《词次/词型数学》(Type /token Mathematics ),其副标题就是《数理语言学教科书》(A Textbook of Mathematical Linguistics ),当时还是前计算机 时代,但Herdan 觉得有两件语言事实值得我们注意:一是大量语言资料(language in mass ),二是语言排列(language in line ),它们是任何语言运作都不能离开的两个方面。某些语言学研究分支如果考虑到这两个方面,将会从中获益。当时还没有真正的机读语料库, Brown 的语料库在1967年才面世,美国心理 学家John Carroll 根据该语料库以及他后来参与制作500万词的AHI 语料库,所提出的词汇频数对数正态模型(lognormal model )均源于Herdan 所奠定的基础。一直到最近美国Barber 利用计算机对英语语体的各种研究,更是利用了因子分析的统计方法。其次是计算机科学。语料库的发展离不开现代科学技术,其主要表现是个人电脑、扫描仪和大容量硬盘的普及,当初Brown 语料库要动用到大型电脑,而到如今,只需一万元左右就能在家里拥有这些设备,制作出甚至比Brown 还要大的语料库。但是我们往往只注意到硬件部分,而不认识到软件的建设。从事语料库语言学研究的人而不掌握一到两种编成语言,也不可能拓展他们的研究领域,因为他不能根据个人的研究需

语料库

关于语料库的三点基本认识:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源; 在语言学中,语料库(Corpus)指大量文本的集合,库中的文本(称为语料)通常经过整理,具有既定的格式与标记,特指计算机存储的数字化语料库。 语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。 分类 语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。 除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。目前已经累积了大量各种类型的语料库,如:葡萄牙语种树库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service(SMS ) corpus(短消息服务(SMS)语料)等。 特征 语料库有三点特征 1.语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库; 2.语料库是承载语言知识的基础资源,但并不等于语言知识;

语料库语言学的发展及研究现状

当代语言学(试刊)1998年第1期4-12页,北京 语料库语言学的发展及研究现状 丁信善 1.0引言 语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。 这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。 2.0语料库语言学的定义 关于语料库语言学的定义,现引述三例: a. 根据篇章材料对语言的研究称为语料库语言学。 (K.Aijmer&B.Aitenberg,1991,p.1) b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。 (T.M c Enery&A. Wilson,1996,p.1) c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。 (D. Crystal,1991,p.86) 由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。 3.0语料库语言学的历史发展 语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段: 3.1语料库语言学的早期发展 早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。此类研究主要集中在以下几个方面: (1)语言习得是应用语料研究方法较早且较普遍的领域。19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。据悉,这些日记作为原始材料,不仅是当时W.Preyer和W.Stern等人的理论假说的依据,而且时至今日仍是许多学者的研究语料之一。自本世纪30年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言发展模式。这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。 (2)利用自然语料开展音系研究,在西方当首推美国早期的结构主义语言学家,如F.Boas和 E.Sapir等人。他们注重 野外工作 ,强调语料获取的自然性和语料分析的客观性。这些都为后来的语料语言学所继承和发展。 本文承蒙哥本哈根大学翻译与词典学研究中心主任C.Dollerup博士提供有关欧洲语料库网络的材料,特此致谢。

语料库常用术语

语料库常用术语 Type 类符 Tokens 形符 例如“I see a cat and a dog”类符6个,形符7个 Type/token ratio =TTR TTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR会越低。因此用TTR衡量词汇密度不合理,于是,出现了标准化类符/形符比,即STTR。例如,计算每个文本1000词的TTR,均值处理,得出STTR。Frequency(频率) 例如每百万词、十万词中,某单词出现次数。常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。 Wordlist词表 根据单词或词组在语篇中出现的频率大小而排列形成的列表。 Ranks Lemma词目,词元 比如go是lemma,对应各种屈折变化形式(inflections),go,goes,went,going,gone共5种屈折变化形式。在分析语言时,需要将它们全部归到go名下,这个过程叫词形还原。Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词 Concordance 索引(KWIC 语境中的关键词key words in context) 运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境,可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配 搭配强度MI,T-score ,Z-score Colligation类连接、语法搭配 semantic prosody语义韵 词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。 POS tagging 词性赋码 Regular expression regex 正则表达式

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

可以免费使用的大型英语语料库资源

英语语料库#参考 2012-03-02 22:29:26 ■BNC=The British National Corpus英国国家语料库 https://www.doczj.com/doc/7914054657.html,/(备用) https://www.doczj.com/doc/7914054657.html,/bnc/ ■ANC = The American National Corpus美国国家语料库 https://www.doczj.com/doc/7914054657.html,/ ■COCA = Corpus of Contemporary American English 美国当代英语语料库 https://www.doczj.com/doc/7914054657.html,/ ■COHA = Corpus of Historical American English 美国近当代英语语料库 https://www.doczj.com/doc/7914054657.html,/coha/ ■BOE=Bank of English 柯林斯英语语料库 https://www.doczj.com/doc/7914054657.html,/wordbanks/ ■NMC=New Model Corpus 新规范语料库 https://www.doczj.com/doc/7914054657.html,/ ■ARC=ACL Anthology Reference Corpus (ARC) 文选参考语料库 https://www.doczj.com/doc/7914054657.html,/auth/preloaded_corpus/aclarc/ske/first_form ■BAWE=British Academic Written Eng Corpus (BAWE) 英国学术书面语语料库 https://www.doczj.com/doc/7914054657.html,/auth/preloaded_corpus/bawe2/ske/first_form https://www.doczj.com/doc/7914054657.html,/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download ■BASE= British Academic Spoken English Corpus (BASE) 英国学术口语语料库 https://www.doczj.com/doc/7914054657.html,/fac/soc/celte/research/base/ ■SCTS=Scottish Corpus Of Texts and Speech苏格兰口语与书面语语料库 https://www.doczj.com/doc/7914054657.html,/ ■SCTS=Corpus Of Modern Scottish Writing 当代苏格兰语实库 https://www.doczj.com/doc/7914054657.html,/cmsw/ Slang https://www.doczj.com/doc/7914054657.html,/ (American, English, and Urban slang) https://www.doczj.com/doc/7914054657.html,/slang/ (UK) https://www.doczj.com/doc/7914054657.html,/ https://www.doczj.com/doc/7914054657.html,/cybereng/slang/ https://www.doczj.com/doc/7914054657.html,/ https://www.doczj.com/doc/7914054657.html,/

语料库语言学术语汇编Aglossaryofcorpuslinguistics.docx

语料库语言学术语汇编 ( V2.0 ) Last updated 2012-10-08 by许家金 Aboutness所言之事 Absolute frequency绝对频数 Alignment (of parallel texts)(平行或对应)语料的对齐Alphanumeric字母数字构成的 Annotate标注(动词) Annotated text/corpus标注文本 /语料库、赋码文本/语料库Annotation标注(名词) Annotation scheme标注方案 ANSI/American National Standards Institute美国国家标准学会 ASCII/American Standard Code for Information美国信息交换标准码 Exchange Associates (of keywords)(主题词的)联想词 AWL/academic word list学术词表 Balanced corpus平衡语料库 Base list/baselist底表、基础词表 Bigram二元组、二元序列、二元结构 Bi-text/bitext双语合并文本、双语分行对齐文本 (一句源语一句目标语对齐后的文 本) Bi-hapax两次词 Bilingual corpus双语语料库 Bootcamp debate/discourse/discussion(新手)训练营大辩论 /话语 /大探讨CA/Contrastive Analysis对比分析 Case-sensitive/case sensitivity大小写敏感、区分大小写 Category-based approach基于类(范畴)的方法 Chi-square test/ 2χ卡方检验 Chunk词块 CIA/Contrastive Interlanguage Analysis中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-CLAWS 词性赋码系统 tagging System Clean text policy干净文本原则 Cluster词簇、词丛 Colligation类联接、类连接、类联结 Collocate n./v.搭配词;搭配 Collocability搭配强度、搭配力 Collocation搭配、词语搭配 Collocational strength搭配强度 Collocational framework/frame搭配框架 Collocational profile搭配概貌

中国语料库研究的历史与现状

中国语料库研究的历史与现状 语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpus linguistics),并成为了自然语言处理的一 个分支学科。 语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。多年来,机器翻译和自然语言理解的研究中, 分 析语言的主要方法是句法语义分析。因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub- language)中获得一定的成功。为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。 本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。 一、国外语料库概况 现在,美国Brown大学建立了BROWN语料库(布朗语料库),英国Lancaster大学与 挪威Oslo大学与Bergen大学联合建立了 LOB 语料库。欧美各国学者利用这两个语料库 开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。他们设计了基于规则的自动标注系统 TAGGIT 来给布朗语料库的 100 万词的语料作自动标注,正确率为77%. 他们还设计了 CLAWS 系统来给 LOB 语料库的100万词的语料作自动标注,根据统 计信息来建立算法,自动标注正确率达 96%, 比基于规则的 TAGGIT 系统提高了将近 20%. 最近他们同时考察三个相邻标记的同现频率,使自动语法标注的正确率达到 99.5%。这个指标已经超过了人工标注所能达到的最高正确率。

语料库的应用(最终)

语料库的应用 语料库方法广泛应用于语言学理论研究、军事等领域。当代语料库语言学(以语料库方法为取向的研究语言的分支就被称为语料库语言学)已是高歌猛进,日新月异,新的语料库更是层出不穷,经过科学选材和标注,具有适当规模的语料库能够反映和记录语言的实际使用情况,人们通过语料库观察和把握语言事实,分析和研究语言系统的规律,极大地方便了语言研究者。 军事语料库对信息化条件下的军事斗争具备潜在价值,积极开展军事语料库的研究和建设实践活动,并把研究成果转化到实战之中。和平时期对信息化高科技武器的建设不可小视,对战场态势的综合信息捕捉、把握和利用的能力建设至关重要,但对身边已有的各类信息的综合收集和利用也同样不可忽视。军事语料库的建设正是针对实现信息化战争中争夺与占有信息资源、获取不对称的战争中的信息掌握和信息利用的不对称优势。 【一】、语料库成为语言学理论研究的基础资源 语料库是计算语言学的基础。语料库对应的英文是corpus,复数形式为corpora。这个词既可以指语料也可以表示语料库。英国语言学专家戴维?克里斯特尔认为,语料库“指收集的一批语言学数据,或为书面文本或为言语录音的转写,可用作语言学描写的出发点,也

可作为验证语言假说的手段。计算机语料库是一大批机器可读文本的结集。各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究,社会语言学研究,口语研究,词典编纂,语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。 起初语料库主要用于语言学研究,而且建成的语料库多为通用语料库,服务的研究领域主要集中于词典编纂、词语搭配与结构、基于平行语料库的英汉互译、文学作品和作家语言风格的研究以及基于语料库的外语教学研究等。随着研究的不断深入,各种专业领域语料库也相继建立,语料库的应用研究逐渐扩大到其他学科。 我国在语料库的应用上还处于起步阶段,在计算语言学和语言信息处理领域,语料库主要用来为统计语言模型提供语言特征信息和概率数据,在语言研究的其他领域,多使用语料的检索和频率统计结果。 目前国外已建成且较有影响的主要为以下的语料库:美国:布朗大学的今日美国英语标准语料库(The Brown University Standard Corpusof Present Day American English)、兰卡斯特一奥斯陆/卑尔根语料库(The Lancast-er-Oslo/Bergen (LOB) Corpus)、英语语库(TheBank of English)、英国国家语料库(The BritishNational Corpus(BNC、伦敦一隆德语料库(Lon-don -Lund Corpus(LLC》、美国传统中介语料(American Heritage Intermediate(AHI) Corpus)以及英语国际语料库(The Intemational Corpus ofEnglish(ICE》等。

语料库的类型

语料库的类型 [作者:李文中转贴自:Corpora and the ELT点击数:97 文章录入:neilruan ] 语料库来自拉丁词corpus,原意为“汇总”、“文集”等,复数形式为corpora或corpuses。语料库是“作品汇集,以及任何有关主题的文本总集”(OED)是“书面语或口头语材料总集,为语言学分析提供基础”(OED)。语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”(Sinclair,1986:185-203)。语料库是按照明确的设计标准,为某一具体目的而集成的大型文本库(Atkins and Clear,1992:1-16)。 Renouf认为,语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”(Renouf, 1987:1)。 Leech指出,大量收集的可机读的电子文本是概率研究方法中获得“必需的频率数据”的基础,“为获得必需的频率数据,我们必须分析足量的自然英语(或其它语言)文本,以便基于观测频率(observed frequency)进行合乎实际的预测。 因此,就需要依靠可机读的电子文本集,即可机读的语料库”(Leech, 1987:2)。综上所述,语料库具有以下基本特征: 1〕语料库的设计和建设是在系统的理论语言学原则指导下进行的,语料库的开发具有明确而具体的研究目标。如二十世纪六十年代初的BROWN语料库主要目的是对美国英语进行语法分析,而随后的LOB语料库基本按照BROWN语料库的设计原则收集了同年代的英国英语,目的是进行美国英语和英国英语的对比分析和语法分析。 2〕语料库语料的构成和取样是按照明确的语言学原则并采取随机抽样方法收集语料的,而不是简单地堆积语料。所收集的语料必须是语言运用的自然语料(naturally-occurred data)。 3)语料库作为自然语言运用的样本,就必须具有代表性(representativeness)。Chomsky曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料,其结果必然存在偏差,缺乏代表性,“自然语料库存在如此严重的偏差,以至于对其所进行的描述将不过是一个词表而已”(Chomsky, 1962:159)。这种批评对任何以概率统计为基础手段的研究都是有价值的(McEnery, 1996:5)。 但是,目前的计算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差,增强语料的代表性。决定语料代表性的主要因素不外乎样本抽样的过程和语料量的大小。语料库抽样一般采取随机抽样方法。一种做法是在抽样前首先确定抽样的范围,如BROWN语料库和LOB语料库分别是以1961年全年的美国英语和英国英语出版物作为抽样范围i[i];再就是确定语料的分层结构,进行分层抽样,如把语料按文类(genre)和信道(channel, 如书面语和口语等)进行分层,如图2.1所示。从各种语料的抽样比例上又可分为‘均衡抽样’(balanced)和‘塔式抽样’(pyramidal)。前者对各种语料按平均比例抽取,而后者对不同的语料进行不等比例抽取。 4)语料库语料以电子文本形式储存并且是通过计算机自动处理的。巨量语料以纯文本形式存储在磁盘上,以便语料库索引软件检索和处理。也可以通过转换软件把其它格式的文件如超文本(htm 或html)格式转换为纯文本。另外,语料库具有一定的容量。语料库的大小取决于语料库的设计原则和研究需求,以及建库过程中语料资源的获取难度及其它因素。计算机语料库实际上提供了一种人机交互,这种交互方式随着语料库工具的发展而逐步加强其自动化特性。Leech认为这种人机交互有以下四种渐进的模式:(1)‘数据检索模式’。计算机以便利的形式提供数据,人进行分析。(2)‘共生模式’。计算机提供部分经过分析的数据,人不断改善其分析系统。(3)‘自我组织模式’。计算机分析数据并不断改善其分析系统,人提供分析系统参数及软件。(4)‘发现程序模式’。计算机基于数据自动划分数据范畴并进行分析,人提供软件(Leech,1991:19)。 计算机自动处理包括自动词性附码(tagging)、自动句法分析(parsing)等。其基本处理和分析过程包括以下几个步骤: 语音分析(phonetic analysis)指音段分析,主要用于语音识别和语音合成。 正字分析(orthographic analysis)指对文本中各种非文字符号、标点、大小写问题等进行处理和歧义消除。 形态分析(morphological analysis)即词性指定和附码。语料库自动附码软件通过概率统计和分析,对所给句子每一个词指定一个或多个词性码。结果显示分列显示和行显示两种。目前语料库自动词性附码准确率一般在97%以上。 句法分析(syntactic analysis)是指句子成分切分、句法关系识别、以及句法分析。语义分析(semantic analysis)和语用分析对语篇进行语义指定和意义解释。 5)基于语料库的研究以量化研究为基石,以概率统计为基本手段,以“数据驱动”为基本理念。其基本方法是通过对实际语言运用的抽样,确定其对语言整体的代表性,通过对样本特征的描述概括整体特征。在量化分析中,首先对特征进行分类,并统计各个特征的频率,通过建立复杂的统计模型对观测到的数据进行解释。分析结果可对研究对象总体进行概括。量化分析能够使我们发现在某一种语言或语言变体中哪些现象反映了语言的真实特征,那些现象仅属于偶然的个例。针对某一语言变体而言,我们还可以确切地知道某一语言现象的显著性,从而确认该现象是规范的还是异常的(McEnery,1997:3)。 6)语料库既是一种研究方法,又代表着一种新的研究思维,并以当代先进的计算机技术为技术手段。 7)语料文本是一连续的文本或话语片断(running text or continuous stretches of discourse),而不是孤立的句子和词汇。在语料库研究中,对某一搜索词的语法关系、用法、以及搭配的观察是通过分析提供的语境(context)进行的。语料库索引提供的语境可分为以下几种:(1)指定跨距,即使用者指定以搜索词为中心左右相邻的词数;(2)意元语境,即以某一意义单元结束为一微型语境,在语料库索引中意元的确定是以意义结束符号如“,;”等为标识的;(3)句子语境,即以句子终结符号如“. !”等为标识;(4)可扩展语境,即对搜索词所在语境可无限扩展。这对研究词汇的语法关系、词汇用法、词汇搭配、词丛(word cluster)、词汇在连续语篇中呈现的范型(pattern)、以及主题词汇之间的意义关系提供了可靠而方便的途径。如“necessarily”一词在《新英汉词典》中作为“necessary”词条下该词的副词形式,定义为“必定,必然”;Oxford Advanced Learner’s Dictionary of Current English把它列为一个单独的词条,给出的定义为“adv as a necessary result; inevitably”;各种英语教科书中对该词的定义和解释也大同小异。在上海交大科技英语语料库(以下简称JDEST)中搜索“necessarily”这个词,发现该词在全库中出现264次,频率最大的搭配词“not”出现在该词左边第一个位置,观察搭配频数为136。全库中出现5次以上的三词词丛有20组,同时含有“not”和“necessarily”的词丛有18组。通过索引行统计和词丛统计可以看出(见图2.4示例),“necessarily”一词最典型的用法是与“not”

相关主题
文本预览
相关文档 最新文档