当前位置:文档之家› 基于语料库的体育新闻报道中战争隐喻研究_粟进英

基于语料库的体育新闻报道中战争隐喻研究_粟进英

基于语料库的体育新闻报道中战争隐喻研究_粟进英
基于语料库的体育新闻报道中战争隐喻研究_粟进英

认知语言学先驱人物Lakoff&Johnson经典之

作《我们赖以生存的隐喻》[1]

的问世标志着隐喻研究进入了一个新时代。隐喻不再只是语言范畴,也不只是修辞的专利,隐喻存在于我们的思维里,是我们概念系统不可或缺的部分。继Lakoff&Johnson划时代的著作之后,国内外隐喻研究硕果累累,拓展了隐喻研究的深度和广度。许多认知语言学家,包括

Lakoff&Johnson[2]、Lakoff[3,4]

、Johnson[5]等继续把隐喻

看作是人类认知的具体体现,Ko vecses[6]也同样认为,隐喻不只是具备表达功能和互动功能,隐喻具有概念构建功能。Quinn[7,8]、Steen[9]、Shore[10]、Gibbs[11]等主张从社会文化的视角研究隐喻的功能。

然而,继Lakoff&Johnson以来的认知隐喻研究

基本上都是基于内省法(introspection),这种研究方法“依赖于理想化的例子,脱离了自然话语里语言实

际使用的语境”[8]91,缺乏具有代表性的、自然产生的实证材料。于是,国外已有学者尝试着以语料库为工具研究自然话语里具体语境中的隐喻,与孤立的例子或者说内省式的隐喻研究相比,基于语料库的隐喻研究结果更具有代表性,如Deignan[12]从句法和

语义切入研究隐喻的句法模式和语义模式,Hey-wood、Semino&Short[13]从文体学的角度考察了小说文本中的隐喻,Cameron&Deignan

[14]

从语用的视角

研究了口头话语中的隐喻,Deignan[15]从文化的视角、Charteris-Black[16]和Musolff[17]从意识形态视角分别研究了隐喻的文化语境和隐喻的意识形态功能。

国外的隐喻研究热潮波及到了国内,研究成果颇为丰硕,但借助于语料库对汉语言中隐喻进行的研究却不多见,借用语料库对汉语言中战争隐喻的研究更是少见,且研究方法基本上都是内省法。向音、李进学认为诸如体育、企业、医学等领域里的战争语言是一种军事语言泛化现象[18],刘芳从认知的角度探讨了体育新闻报道中隐喻的用法[19],王红、葛云锋研究了英语中体育语言中的隐喻[20],程浩从汉英对比的角度主要研究了体育语言中的隐喻[21]。

战争语言在体育媒体话语中大量运用,有些甚至已成为约定俗成的体育媒体术语。与战争一样,体育比赛具有激烈的对抗性,通常有敌我双方、备战、挑战、应战、战略、战术、赢家和输家、战胜的荣耀以及战败的耻辱。赛场上,比赛双方激烈角逐,鏖战赛

基于语料库的体育新闻报道中战争隐喻研究

粟进英,焦新平

(国防科学技术大学人文与社会科学学院,湖南长沙410074)

摘要:基于语料库的研究方法、以概念隐喻理论为指导来探讨普遍存在于体育新闻报道中的战争隐喻。研究发现,

战争隐喻贯穿体育比赛全过程;已分类的战争隐喻中有些类别出现频率明显高于其它类别,有些子隐喻在其所属类别中也占绝对优势;核心主题词搭配语言特征明显。概念隐喻理论从认知的角度为体育新闻报道中大量使用战争隐喻提供了理论上的解释:人们通常用战争概念来认知、理解和建构体育比赛概念。

关键词:语料库;概念隐喻理论;战争隐喻;体育比赛;战争中图分类号:H31

文献标识码:A

文章编号:1674-9014(2012)05-0113-06

收稿日期:2012-03-19

基金项目:国防科学技术大学校级科研计划重点项目“新时期中国军队国际形象的塑造与管理”(JS09-08-01)。

作者简介:粟进英,女,湖南邵阳人,国防科学技术大学人文与社会科学学院教授,解放军外国语学院博士研究生,研究方向为社会语言学

和认知语言学;

焦新平,男,湖南茶陵人,国防科学技术大学人文与社会科学学院副教授,解放军外国语学院博士研究生,研究方向为社会语言学和大学英语。

..

2012年9月第37卷第5期

武陵学刊JournalofWulingSep.2012Vol.37No.5

场;赛场外,双方球迷暴力相对。赛场内外,刀光剑影,这种体育竞技活动绝不亚于现实意义上真实的战争。本文的研究在自建语料库的基础上,聚焦于体育新闻报道中战争隐喻研究,旨在揭示战争隐喻在体育新闻话语中的真实使用状况及其认知理据。

一理论框架

概念隐喻理论,又称认知隐喻理论由Lakoff&Johnson[1]首次提出。该理论认为,“隐喻普遍存在于我们的日常生活中,不仅仅在语言中,而且在我们的思维和行动中。从根本上来看,我们赖以思维和行动的日常概念系统,其本质是隐喻性的。”[1]3隐喻不是简单的语言(修辞)现象,而是人类心智发展的结果,是人类用某一领域的经验来理解或说明另一领域的经验的一种认知活动,隐喻过程是人们“根据一种事物或经历来理解另一种事物或经历”[1]5。隐喻与人们的概念系统直接相关,“人类思维过程总体上是隐喻性的……人类概念系统是隐喻式构建的,也是隐喻式界定的。作为语言表达的隐喻之所以成为可能,正是因为隐喻存在于每个人的概念系统里,因此……所谓隐喻,即为隐喻概念。”[1]6我们每天所思所想、所行所为都与隐喻有关,对我们赖以生存的隐喻的选择蕴涵了对现实的选择和对现实的构建。

Lackoff&Johnson在概念隐喻理论里提出了双域模式。概念隐喻涉及到两个概念领域,当我们把一个概念域投射或映射到另一概念域的时候,便产生隐喻。前一个概念域称为源域(sourcedomain),后一个概念域称为目标域(targetdomain)。在我们的体验中,源域和目标域密切相关,或者,我们基于体验在源域和目标域之间感知到抽象的结构相似性。通常,我们将结构相对容易理解的源域映射到结构较难理解的目标域之上,是从源域到目标域的结构映射。映射具有系统性,即源域的结构系统地映射到目标域中,Lakoff对此提出了著名的“不变原则”(InvariancePrinciple):“隐喻映射以与目标域内在结构保持一致的方式保留了源域的认知布局(cognitivetopology)(即意象图式结构)。”[4]215目标域可以按照源域的结构系统来理解。“不变原则”确保在跨域映射时源域意象图式结构不变,但这并不意味着源域的所有结构特征都映射到目标域上,只有部分概念特征映射到目标域上。当目标域由源域来构建时,我们根据源域概念的某些特征来理解目标域概念。映射过程中,在凸显目标域概念某些特征的同时,遮蔽了该概念的其他特征。通常凸显的是目标域与源域相似的特征,遮蔽的是目标域与源域不一致的特征。一个概念由隐喻构建时,只是部分构建[1]13。

Lakoff&Johnson首先突破把隐喻看作是一种语言(修辞)现象的传统,认为隐喻是一种认知现象。源域和目标域是两个不同的概念系统,人们用一个概念系统来认知和理解另一概念系统时,这种认知方式便在构建现实,尤其是社会现实。此外,Lakoff&Johnson还首次从动态的视角解释了隐喻意义的产生,尽管这种动态还只是体现为“源域→目标域”这一单向性。虽然概念隐喻理论尚且有不完善的地方,但该理论为体育新闻报道中战争隐喻的使用提供了合适的理论解释。

二研究方法

本研究采用语料库研究方法,将定性研究和定量研究相结合。我们通过随机取样的方式抽取了2011年1月17日《体坛周报》第2293期全部内容作为语料①,《体坛周报》自1988年创刊以来已经发展为中国体育平面媒体集团的先锋。本期《体坛周报》原来是157个文本,共计153874个中文汉字;根据本研究的需要,删去了其中不直接涉及体育比赛的6个文本,余下的151个文本共计151651个中文汉字。

我们采用了中国科学院计算技术研究所开发的汉语词法分析系统ICTCLAS以及英国利物浦大学MikeScott开发研制的WordSmithTools5.0语料库检索工具。由于汉语原始语料是以字为基本的书写单位,字与字之间没有明显的区分标记,我们在采集到原始语料后首先对原始语料进行分词处理,使得分词后每个最小的分析单位具有相对完整的意义。汉语分词处理后的语料库形符88766个,类符10227个。研究过程中频数以及频率的统计是基于语料库汉语分词后的结果。

主题词的提取则是借助于WordSmithTools5.0语料库检索工具。首先根据WordSmithTools5.0工具中的WordList功能来创建语料库中主题词使用频率列表,以确定哪些是常用词,然后根据该列表,以源域为依据提取候选战争隐喻主题词,最后利用WordSmithTools5.0工具中的Concordance功能,把提取出来的每一个候选战争隐喻主题词置于语料库语境中加以确认,根据语料库语境来判断每个候选战争隐喻主题词的用法是隐喻性的还是本义。如果候选战争隐喻主题词的用法是隐喻性的,即可用

第37卷

武陵学刊114

2012年第5期粟进英焦新平基于语料库的体育新闻报道中战争隐喻研究

于进一步分析,剔除非战争隐喻用法的主题词。

三研究结果分析

(一)战争隐喻类型分析

通过WordSmithTools5.0检索工具Wordlist功能以及Concordance功能,我们首先确定了45个战争隐喻核心主题词,然后以此为依据,确定了含核心主题词的搭配词共计416个,并根据战争本身的特点从宏观上将这些核心主题词分为七大类:战争与局势、战争布局、军队编制、参战人员、战略战术、武器及使用、战争结果。最终战争隐喻频数和频率的统计是按照核心主题词搭配词来计算的,见表1。

在体育新闻报道战争隐喻七大类中,按照出现

频率高低依次为:战争布局>军队编制>战争结果>武器及使用>战争与局势>战略战术>参战人员。其中“战争布局”和“军队编制”类隐喻出现频率相当(分别为12.6‰和12.1‰),两者在语料库中占绝对优势;“战争结果”和“武器及使用”类隐喻出现频率不相上下(分别为6.8‰和6.7‰),两者在语料库中位居中等;其次是“战争与局势”和“战略战术”类隐喻(分别为4.6‰和4.5‰),出现频率基本相同,出现频率最低的是“参战人员”类隐喻(3.1‰)。

体育新闻报道中战争隐喻总表(战争隐喻子隐喻按其频数从高到低排列,见表2)显示,有些子隐喻在其所属类别中占绝对优势,如“战争布局”类隐喻在语料库中总频数是1119次,其中含核心主题词“场”的隐喻出现880次;“军队编制”类隐喻在语料库中总频数是1075次,其中含核心主题词“队”的隐喻出现845次,“场”隐喻和“队”隐喻分别高达78.6%;“战争与局势”类隐喻在语料库中总频数是410次,其中含核心主题词“战”的隐喻出现304次,也高达74.1%。“武器及使用”类隐喻在语料库中总频数是600次,其中含核心主题词“打”的隐喻占54.7%,出现328次。其他隐喻大类中,“参战人员”类隐喻在语料库中总频数是270次,其中含核心主题词“帅”的隐喻出现110次;“战略战术”类隐喻在语料库中总频数是408次,其中含核心主题词“攻”的隐喻出现164次,“帅”和“攻”隐喻在其所属大类中都占40%余。“战争结果”类隐喻在语料库中总频数是608次,其中含核心主题词“胜”的隐喻出现193次,也超过了30%。从表2可以看出,已经归类的战争隐喻在此次语料库中总频数是4490次,在语料库中约占5.1%(按照汉语分词后统计)。

(二)战争隐喻核心主题词搭配词特点分析

从战争隐喻核心主题词搭配词特点来看,语料库显示,总体上,战争隐喻的语言表达主要是名词性搭配以及动词性搭配。其中又以名词为中心词的偏正结构战争隐喻占绝大多数,偏正结构战争隐喻又分为形容词修饰名词、名词修饰名词、动词修饰名词;动宾结构的战争隐喻也大量存在,动词性搭配还有动补结构战争隐喻和动词并置结构战争隐喻,此外还出现了承载中国传统文化的成语结构战争隐喻。

1.名词性结构的战争隐喻。僵局、恶战、苦战、强势、主队、绿军、老帅、新帅等;战袍、战友、营地、中国队、队友、高家军、军营、军心等;防卫战、防线、罚

115

球线、预备队、运动战等。由于体育新闻报道中谈论的是体育战争这一抽象概念,战争概念以及战争子概念必然大量出现,这些概念都需要用名词短语来表达,因此,以名词为中心词的偏正结构战争隐喻占绝对优势。

2.动词结构战争隐喻。动宾结构战争隐喻:迎战、休战、退役、退居二线、归队、扩军、进军、会师等。动补结构战争隐喻:战胜、攻陷、击败、攻下、输光、击中、打入、战平等。并列结构战争隐喻:冲击、打击、扫射、射击、撤回、撤退、防守、攻击等。如同战争一样,体育比赛涉及到对抗性活动,自敌对双方参战那一刻起,相关人员就不可能保持静止状态,他们势必要参与与战争有关的各种各样的活动,从战斗开始到战斗结束,他们都在“动”,都在“作”。

3.成语结构。如一兵一卒、单兵防守、排兵布阵、兵败如山倒、过关斩将、寡不敌众、虎狼之师、剑指土伦、连战连败等。中国传统文化深刻地影响着人们的思维意识和言语表达,其中所沉淀下来的对战争的思维方式形成了中国特有的战争文化。这种战争文化位移到体育比赛上,人们便以战争方式解读体育竞技活动。

四战争隐喻认知分析

人类历史充满了战争,频繁的战争使人们很容易认知和理解战争概念。体育竞技,原本是人类强身健体的一项活动,因其体现了人与人之间的身体对抗性而与战争有着不可分割的联系,被打上了战争的烙印,成为战争的游戏翻版。于是,人们常常用战争语言来认知、理解和建构体育竞技活动。

在体育比赛中,人们用战争隐喻来谈论体育比赛,更是用战争隐喻来构建体育比赛这一概念系统。体育赛场充满了战争硝烟:参赛人员是“战士”,队友

之间是“战友”,乘坐的车辆是“战车”,提出比赛是“挑战”,迎接比赛是“迎战”、“应战”,准备比赛是“备战”,首场比赛是“首战”,大规模比赛是“大战”,比赛进行得很激烈是“鏖战”、“生死战”,不想比赛是“休战”、“免战”。参赛人员配备是“阵容”,比赛队伍是“某军”、“某师”、“某团”、“某营”、“某队”,教练是(某)“帅”,选拔教练是“选帅”,更换教练是“换帅”,教练上阵叫“挂帅”。运动员则被称作“将”、“兵”,因其资历和能力有“老将”、“小将”、“名将”、“主将”、“副将”之别。比赛用的方法是“战略”、“战术”,比赛过程中“攻”、“防”“守”、“撤”、“占据”,比赛中技术动作是“打”、“杀”、“砍”、“射”、“击”。比赛结果是“战绩”、“胜负”、“输赢”、“成败”,赢得比赛是“获胜”、“击败”,输掉比赛是“落败”、“败北”等等。

“体育比赛即战争”隐喻不仅仅是语言问题,更是一种思维方式。人们用战争隐喻来谈论体育比赛,是因为人们以战争隐喻概念的方式来构建体育比赛,战争隐喻就存在于人们的概念系统里。尽管在现实中参加体育比赛的选手并不荷枪实弹,也不挥刀舞剑,比赛的目的也不是置对手于死地,然而,在人们的思维系统里,体育比赛就是:全副武装的将士拼杀赛场,比赛的目的就是打败对方,比赛结果就是赢荣输辱。

战争与体育比赛属于两个不同概念领域。“体育比赛即战争”之所以是隐喻,首先,是因为体育比赛和战争是两种不同领域的活动,分属不同的概念范畴。其次,“体育比赛”概念在结构上由“战争”概念构建,并且是部分构建,即人们用战争概念的部分特征来理解和建构体育比赛,源域“战争”概念的结构被映射到目标域“体育比赛”上,前者的部分特征被映射到后者上,见表3。

在“体育比赛即战争”隐喻中,隐喻的凸显性

第37卷

武陵学刊

116

粟进英焦新平基于语料库的体育新闻报道中战争隐喻研究

和遮蔽性特征明显。源域战争和目标域体育比赛分属两个不同范畴,但两者之间存在强相似性。战争的强对抗性和竞争性、功利性、唯一赢家的排他性与体育比赛如出一辙,两个领域便存在相对应的特征,于是体育比赛与战争共有的特征得到凸显,而目标域体育运动之强身健体、体育比赛中队友之间的团队精神以及比赛双方通过比赛加深了解、增进友谊等特征被遮蔽。被凸显的强相似性特征使得“体育比赛即战争”隐喻成为可能,这一相似性贯穿体育比赛始终:比赛即战争、比赛开始即战争开始、比赛过程即战争过程、参赛者即参战者、比赛设备和人员配备即战争武器装备和人员配备、比赛技术方法即战略战术、比赛结果即战争结果。体育比赛与战争的相似性构成了战争隐喻认知的重要依据。

由于认知隐喻理论的哲学基础是“经验主义哲学或者非客观主义的经验现实主义哲学”[22],“体育比赛即战争”隐喻也是来自人们日常生活的经验,来自于人们对动物世界和人类社会的体验或感知。动物在自然界为了生存而搏杀,人类为了自身利益而武力相见。战争现象普遍存在于自然界,存在于各国家和民族,人们或亲身体验之,或间接感知之。人们平时在参与或观看体育竞技活动时,其切身体验或间接感知与战争惊人相似,于是便使用战争语言来认知和理解体育比赛。

结语

认知隐喻理论的提出为体育新闻报道中战争隐喻的大量运用提供了充分的、全新的理论解释。人们对战争隐喻的认识从语言(修辞)现象发展到认知、思维和概念化,从静态发展到动态,体育新闻报道中普遍存在的战争隐喻让人们从一个新视角来认知、理解和谈论体育竞技活动。

由于主客观原因,本研究尚且存在以下不足:利用语料库来研究中文语料,在中文分词问题上存在一定的欠缺,如“射”和“扫射”、“败”和“击败”在中文分词后成为两个不同的词,加上战争隐喻核心主题词搭配词多达400余个,这给分类和统计带来了很大的麻烦。战争隐喻核心词的确定也存在一定程度的主观性。此外,在确定的战争隐喻中,不是所有的战争隐喻都可以归为大类,不便分类的战争隐喻在语料分析时予以忽略,导致归类不全。

然而,本次研究以全新的视角从宏观上较客观、较系统地反映了战争隐喻在体育新闻报道中的运用概貌,以真实语料为研究对象,客观再现了战争隐喻在体育新闻报道中的使用,对商业、医学、自然灾害等领域的战争隐喻研究起到了抛砖引玉的作用。

注释:

①参见《体坛周报》第2293期,刊发日期为2010年2月18日,网址为http://e.titan24.com/ttzb/1004.html。

参考文献:

[1]Lakoff,G.&M.Johnson.Metaphors We Live By[M].Chicago:Uni-versityofChicagoPress,1980.

[2]Lakoff,G.&M.Johnson.Philosophy in the Flesh—The Embodied Mind and its Challenge to Western Thought[M].NewYork:BasicBooks,1999.

[3]Lakoff,G..Women,Fire,and Dangerous Things[M].Chicago:Univer-sityofChicagoPress,1987.

[4]Lakoff,G..The Contemporary Theory of Metaphor[M]//AndrewOrtony(ed.).Metaphor and Thought.Cambridge:CambridgeUniversityPress,1993:202-251.

[5]Johnson,M.The Body in the Mind:The Bodily Basis of Meaning,Imagi-nation,and Reason[M].Chicago:UniversityofChicagoPress,1987.

2012年第5期

117

[6]Kovecses,Z.Metaphor.Does it Constitute or Reflect Cultural Mod -

els?[M]//Gibbs,RaymondW.,Jr.,&GerardSteen(eds.).Metaphor in Cognitive Linguistics .Amsterdam:Benjamins,1999:167-188.[7]Quinn,N.Convergent Evidence for a Cultural Model of American Marriage [M]//Holland,DorothyandNaomiQuinn(eds.).Cultural Mod -els in Language and Thought .Cambridge:CambridgeUniversityPress,1987:173-192.

[8]Quinn,N.The Cultural Basis of Metaphor [M]//JamesW.Fernandez(ed.).Beyond Metaphor:The Theory of Tropes in Anthropology .Stanford:StanfordUniversityPress,1991:56-93.

[9]Steen,G.Understanding Metaphor in Literature [M].NewYork/Lon-don:Longman,1994.

[10]Shore,B.Culture in Mind:Cognition,Culture,and the Problem of

Meaning [M].NewYork/Oxford:OxfordUniversityPress,1996.[11]Gibbs,R.W.,Jr.Taking Metaphor out of our Heads and Putting it

into the Cultural World [M]//Gibbs,RaymondW.,Jr.&GerardSteen(eds.).Metaphor in Cognitive Linguistics .Amsterdam:Benjamins,1999:45-166.

[12]Deignan,A.Corpus -based Research into Metaphor [M]//Lynne

Cameron&GrahamLow(eds.).Researching and Applying Metaphor .Cambridge:CambridgeUniversityPress,1999:177-199.

[13]Heywood,J.,E.Semino&M.Short.Linguistic Metaphor Identifica -

tion in Two Extracts from Novels [J].Language and Literature,2002(1):35-54.

[14]Cameron,L.&A.Deignan.Combining Large and Small Corpora to

Investigate Tuning Devices around Metaphor in Spoken Discourse [J].Metaphor and Symbol.2003,18:149-160.

[15]Deignan,A.Metaphorical Expressions and Culture:An Indirect Link [J].Special issue of Metaphor and Symbo .2003(18):255-271.[16]Charteris-Black,J.Corpus Approaches to Critical Metaphor Analy -

sis [M].Basingstoke:PalgraveMacmillan,2004.

[17]Musolff,A.Ideological Functions of Metaphor:The Conceptual

Metaphors of Health and Illness in Public Discourse [M]//RenéDirven,RoslynFrank&MartinPütz(eds.).Cognitive Models in Language and Thought:Ideology,Metaphor and Meanings .Berlin/NewYork:MoutondeGruyter,2003:327-352.

[18]向音,李进学.军事语言的泛化现象分析[J].现代语文,2008(11):65-66.

[19]刘芳.战争隐喻与转喻在体育报道语篇中的运用[J].现代语文,

2010(3):83-84.

[20]王红,葛云锋.体育用语中的隐喻现象研究[J].山东外语教学,

2007(3):30-32.

[21]程浩.汉英体育语言中隐喻认知的对比研究[J].外语研究,2005(6):29-34.

[22]陈治安,文旭.导读[M]//E.Ungerer&H.J.Schmid.AnIntroduction

toCognitiveLinguistics.北京:

外语教育与研究出版社,2001:23.(责任编辑:刘英玲)

..

Corpus-basedApproachtoWarMetaphorsinSportsNewsReporting

SU Jin-ying ,JIAO Xin-ping

(SchoolofHumanitiesandSocialSciences,NationalUniversityofDefenseTechnology,Changsha410074,China)

Abstract:Thearticlestudieswarmetaphorsinsportsnewsreportingwithcorpus-basedapproachandconcep-tualmetaphortheory.Thefindingsshowthatwarmetaphorsrunthroughthesportscontests,thatamongtheclassifiedwarmetaphorssometypesofthemoutnumbertheothersandsomesub-categoriesoutdotheothersinnumberintheirrespectivetypes,andthatcollocationofthekeywordsconcerningwarmetaphorscarrieswiththemobviouslinguisticfeatures.Conceptualmetaphortheoryoffersasoundtheoreticalexplanationofwarmetaphorsfromcognitiveperspec-tive:Peopleusuallyperceive,understand,andconstructsportscontestconceptsintermsofwarconcepts.

KeyWords:corpus;conceptualmetaphortheory;warmetaphor;sportscontest;war

第37卷

武陵学刊118

语料库研究的优势及问题的理论解析

语料库语言学的理论解析 摘要:本文试图剖析有关语料库语言学的几个理论问题,以期揭示语料库语言学的本质。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 关键词:语料库语言学;基于语料库的研究方法;理论架构;语料库数据;发展前景 Abstract: This paper attempts to answer some theoretical questions of corpus-based language studies. Three theoretical considerations are addressed to capture the nature of corpus linguistics. 1) Is Corpus Linguistics an independent branch under the umbrella of linguistics? 2) What can corpus data offer to linguists? and 3) What kind of research that Corpus Linguistics should be? Answers to the three theoretical questions will conduce to a fuller understanding of the nature of corpus-based language studies and their development. Key words: Corpus linguistics; corpus-based approach; theoretical construct; corpus data; future directions 1.0 导言 目前利用语料库从事研究的学者主要有两类。一类是计算语言学家。他们主要从事自然语言处理(NLP)的研究,诸如语音合成、语音识别和机器翻译等等。他们的终极目标并非要揭示语言的本质,而是注重技术层面的研究,比方如何改进算法,如何完善词库的建设以实现技术上的突破。另一类就是语言学家,他们则希望借助这一强大的工具去揭示语言的本质这一学科目标,这正是本文所要关注的。 本文缘起于语言研究者中的一种争论,即“语料库语言学”是否配得上这个名称,它是一种新兴的理论视角还是“暴发户造谱牒”?而本文要探讨的正是有关于语料库语言学研究的理论意义。或者说,语言学家从语料库所提供的信息中到底可以获得什么?这是本文试图解决的核心问题。语料库建设、开发和利用在国内外语言学界日渐兴起,在国内也有相当数量介绍性和综述性文献涌现,为语料库语言学在我国的发展奠定了一定的理论基础。此外,一些语言学者和语言教师(包括外语教师和对外汉语教师)也设计、建立了一些自己的语料库以服务于教学科研。 然而真正对语料库的理论问题进行深入探讨的著述却为数不多。本文将试图剖析语料库语言学的几个理论问题,以期对语料库语言学的优势和不足有进一步的认识。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 2.0 语料库语言学是不是独立的新兴学科? 2.1 语料库语言学是一种理论架构 完全赞成语料库语言学是一种理论架构的几乎没有。只是某些学者比较强调语料库语言学的理论意义。比如,Halliday(1991;1992;1993)指出,语料库语言学作为一种理论架构(theoretical construct),将语料收集和理论概括统一了起来,从而使我们对语言的理解产生一种质变。这种新的理论架构有助于考察同时作为系统和实例(instance)的语言的本质。因为在Halliday的语言学思想当中,实际话语是语言系统的实例再现(instantiation)。而语言系统,或者说是语法体系是一种统计概率上(probabilistic)的自然结果。这一思想与所谓

语料库研究与综述.

语料库研究与应用综述 一概述 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。 语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。 语料库建设中涉及的主要问题包括: (1)设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。 (2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。 (3)语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。 (4)语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)。 (5)语料库的应用:针对语言学理论和应用领域中的各种问题,研究和开发处理语料的算法和软件工具。 我国语料库的建设始于80年代,当时的主要目标是汉语词汇统计研究。进入90年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研究的内容涉及语料库建设中的各个问题。90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。 语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候,在自然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的(Rule-based)。对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的(Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。从字符

机器翻译研究综述

机器翻译综述 1.引言 1.1机器翻译的历史 现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。 在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。他提出了两个主要观点: 第一,他认为翻译类似于解读密码的过程。 第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中 间语言”,可以假定是全人类共同的。 在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。 1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期 1.2机器翻译的主要内容 经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法 ●句法转换方法 ●中间语言方法 ●基于规则的方法 ●基于语料库的方法 基于实例的方法(含模板、翻译记忆方法) 基于统计的方法 在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。 下面对各个方法逐一的进行介绍。

语料库语言学的发展及研究现状

当代语言学(试刊)1998年第1期4-12页,北京 语料库语言学的发展及研究现状 丁信善 1.0引言 语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。 这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。 2.0语料库语言学的定义 关于语料库语言学的定义,现引述三例: a. 根据篇章材料对语言的研究称为语料库语言学。 (K.Aijmer&B.Aitenberg,1991,p.1) b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。 (T.M c Enery&A. Wilson,1996,p.1) c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。 (D. Crystal,1991,p.86) 由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。 3.0语料库语言学的历史发展 语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段: 3.1语料库语言学的早期发展 早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。此类研究主要集中在以下几个方面: (1)语言习得是应用语料研究方法较早且较普遍的领域。19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。据悉,这些日记作为原始材料,不仅是当时W.Preyer和W.Stern等人的理论假说的依据,而且时至今日仍是许多学者的研究语料之一。自本世纪30年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言发展模式。这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。 (2)利用自然语料开展音系研究,在西方当首推美国早期的结构主义语言学家,如F.Boas和 E.Sapir等人。他们注重 野外工作 ,强调语料获取的自然性和语料分析的客观性。这些都为后来的语料语言学所继承和发展。 本文承蒙哥本哈根大学翻译与词典学研究中心主任C.Dollerup博士提供有关欧洲语料库网络的材料,特此致谢。

语料库和知识库的研究现状

语料库和知识库研究现状 2015-12-9

摘要:语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,它与自然语言处理有着相辅相成的关系,是用统计语言模型的方法处理自然语言的基础资源。知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域,为进行大规模的真实性文本的语义分析提供了有利的支持,它也成为自然语言处理不可或缺的基础资源。由于语料库和知识库的广泛应用,如今国内外对语料库和知识库的研究给与高度的重视,经过过去几十年的发展,各国在语料库和知识库的建设和应用方面都取得了不少成果。本文通过对语料库与知识库相关文献资料的搜索整理,重点介绍目前国内外在语料库和知识库方面的研究现状。 关键词:语料库;知识库;研究现状 1前言 语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。而知识库是知识工程中结构化、易操作使用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用,所以自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(Brown Corpus)诞生开始,大批国内外的专家学者致力于语料库和知识库的研究,近年来国内外对于语料库知识库的研究取得了重大的突破,形成了规模不一的各种语料库和知识库,并且涌现了众多有关语料库和知识库的专着、论文等。对于语料库和知识库发展现状的总结研究,不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势,对今后语料库知识库的发展具有一定的指导作用,而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。

机器翻译研究现状与展望

机器翻译是建立在语言学、数学、信息学、计算机科学等学科基础上的多边缘学科。现代理论语言学的发展、计算机科学的进步以及概率统计学的引入, 对机器翻译的理论和方法都产生了深刻的影响。 Weaver机器翻译思想的提出, 开始了机器翻译的研究热潮。Chomsky在50年代后期提出的短语结构语法, 给出了“从规则生成句子”的原则。由于短语结构语法采用单一标记的短语结构来描述句子的构成, 描述粒度过粗, 因此存在约束能力弱、生成能力过强问题, 人们逐渐意识到仅依靠单一的短语结构信息, 不能充分判别短语类型和确认短语边界, 于是, 复杂特征集和词汇主义被引入自然语言语法系统, 广义短语结构语法、词汇功能语法、中心语驱动的短语结构语法等语言学理论也相应地产生。在这个发展过程中, 基于规则方法一直是机器翻译研究的主流。 在基于规则的方法中, 语言规则的产生需要大量的人力,而且大量的语言规则之间往往存在着不可避免的冲突。另外,规则方法在保证规则的完备性和适应性方面也存在着不足。而此时, 统计学方法在自然语言处理的语音识别领域取得了比较好的效果, 于是, 基于统计的机器翻译应运而生。随着双语语料的大量增加、计算机性能的提高, 基于实例的机器翻译方法被提出,并由此泛化产生了基于模板的机器翻译方法。 下面我们分别介绍几种典型的机器翻译方法: (1)基于规则的机器翻译方法

从Chomsky提出转换生成文法后,基于规则的方法一直是机器翻译研究的主流,Chomsky认为一种语言无限的句子可以由有限的规则推导出来。 早期的机器翻译系统, 从体系结构上可以分为直译式、转换式和中间语言式, 它们的不同之处在于对源语言分析的深度, 它们的相同点是都需要大规模的双语词典、大量的源语言推导规则、语言转换规则和目标语言生成规则。其中, 转换式的基于规则方法对源语言分析得比较深, 它涉及到词汇结构分析、语法分析、语义分析, 并完成词汇、语法、语义三层结构从源语言到目标语言的转换, 而且转换式的方法又充分考虑了源语言和目标语言之间的特征联系, 它比中间语言方法更容易获得高质量的翻译结果。因此, 转换式的方法更多地被应用在早期的机器翻译系统中, 整个翻译过程被分为, 源语言分析部分, 转换部分和目标语生成部分。而早期的系统, 如德国西门子的METAL系统、美国的SYSTRAN系统、日本日立公司的ATHENE系统以及中国中软公司的HY-1汉英系统, 都是基于转换的机器翻译系统。 基于规则的机器翻译的优点在于, 规则可以很准确地描述出一种语言的语法构成, 并且可以很直观地表示出来。机器可以按照一组规则来理解它面对的自然语言, 这组规则包含了不同语言层次的规则, 包括用以对源语言进行描述的源语言分析规则、用以对源语言/目标语言之间的转换规则以及用于生成目标语的生成规则。

语料库整理要求及方法

一、需整理的多是ppt语料,也有些word文档的语料(见Boston Consulting-需做库-12.10文件夹)。整理要求如下: 1、利用Align Assist工具将ppt中原文译文提取出来,并根据中英文内容一句句对齐。如图: 2、利用Align Assist工具对ppt中的内容进行提取时,软件会遗漏部分内容。因此需要在对齐之后将软件自动提取后遗漏的句对逐句复制补充进去。 3、对齐完成后,将对齐结果分别保存为tmx格式及aares格式,tmx为最终需要的语料格式,但无法修改且预览不便。aares为临时语料文件,可修改,可即时预览。因此,请大家对齐时两种格式都保存下来。保存方法见第二部分。 二、整理方法: 1、安装Align Assist语料对齐工具(安装程序见AlignAssist_Setup_1.5.1文件夹)。双击AlignAssist_Setup_1.5.1.exe的程序进行安装。语言选择为english。

2、双击运行。将要对齐的原文文件和译文文件分别添加进去。

注意原文和译文语言方向。根据文件夹要求确定英文、中文何为原文,何为译文。 例:project1-中到英,则中文文件为source file,英文文件为target file。 源文本和译文本添加完成后,点击Align。进入如下界面。 3、注意split、merge、delete、swap的用法。 (1)split:将一句话断开为两句

随意举例:将第六句原文“当前全球经济正经历深度调整,各国需联手培育新的经济增长点和竞争优势。”断为:“当前全球经济正经历深度调整,”及“各国需联手培育新的经济增长点和竞争优势。”选中第六句原文,边框变黑。 单击上方菜单split。 进入下图界面。将第二小句内容剪切粘贴到cell 2部分,然后单击ok。 即分句完成。

国家标准《建立术语研究用语料库的一般原则与方法》.

国家标准《建立术语研究用语料库的一般原则与方法》 (征求意见稿)编制说明 一、任务来源 随着科学技术的发展,新术语、新概念层出不穷,为了更好的管理、规范日益增多的新术语,需要借助更先进的工具及方法。目前国内外已经建立了大量的术语数据库,为了更好的对大量术语资源进行研究就需要建立术语语料库,大规模真实语料库是术语研究的可靠基础和最主要的来源,建设与术语库相配合的、统一规范的精加工术语语料库,可以使我们对中文术语构成、术语专业分布、术语地域分布、术语来源以及术语发展等各种复杂现象获得更为直观、深刻的全面认识,进而为推动中文术语规范化和标准化的进程、促进语言信息处理技术的总体发展起到关键的作用。因此制定建立术语语料库的标准已经十分必要。 GB/T XXXX-XXXX《建立术语研究用语料库的一般原则与方法》项目由中国标准研究中心提出,于2002年列入国家质量监督检验检疫总局制、修订国家标准项目计划,项目编号:20020411-T-424。该标准由中国标准研究中心归口,计划于2002年底完成。 二、工作情况: 1、标准起草小组的同志积极参与对《建立术语研究用语料库的一般原则与方 法》国家标准的制定工作,在工作中深入的研究了术语语料库的功能,吸取国内外先进经验,制定出一套实用的术语语料库建立标准。 2、进行了广泛的调研工作,搜集了使用者的一些建议,同时争求了一部分专 家的意见,作为本项目的重要参考。 3、在制定标准过程中,标准起草工作组根据实际情况制定工作计划,保证工 作顺利进行。 4、标准起草工作组多次召开会议,反复研究了《建立术语研究用语料库的一 般原则与方法》讨论稿,广泛征求了该专业领域的专家及用户的意见,对

中国语料库研究的历史与现状(一)

中国语料库研究的历史与现状(一) 语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpuslinguistics),并成为了自然语言处理的一个分支学科。 语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。多年来,机器翻译和自然语言理解的研究中,分析语言的主要方法是句法语义分析。因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub-language)中获得一定的成功。为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从

而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。 本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。 一、国外语料库概况 现在,美国Brown大学建立了BROWN语料库(布朗语料库),英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB语料库。欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。他们设计了基于规则的自动标注系统TAGGIT来给布朗语料库的100万词的语料作自动标注,正确率为77%.他们还设计了CLAWS系统来给LOB语料库的100万词的语料作自动标注,根据统计信息来建立算法,自动标注正确率达96%,比基于规则的TAGGIT系统提高了将近20%.最近他们同时考察三个相邻标记的同现频率,使自动语法标注的正确率达到99.5%。这个指标已经超过了人工标注所能达到的最高正确率。 现在,国外的主要语料库还有: London-Lund口语语料库:收篇目87篇,每篇5000词,共为43.4万词,有详细的韵律标注(prosodicmarking)。 AHI语料库:美国Heritage出版社为编纂Heritage词典而建立,有400万词。 OTA牛津文本档案库(OxfordTextArchive):英国牛津大学计算中心建立,

第二语言词汇习得的语料库研究方法

第二语言词汇习得的语料库研究方法 ①邢红兵 (北京语言大学汉语水平考试中心,北京100083) [摘要]本文首先分析了目前词汇习得研究中存在的对频率、偏误、习得过程、句法语义关 系、目的语和母语的关系等方面认识的局限,提出建立用于二语词汇习得研究的词汇知识库,并在 此基础上进行词汇知识习得研究。我们建议第二语言词汇习得应该围绕词汇知识系统性、发展性 的原则,采用因素分析思路进行对比分析。 [关键词]第二语言;词汇知识;词汇习得;语料库 [中图分类号]H195.1[文献标识码]A [文章编号] 1003-7365(2012)02-0077-09零、引言 随着第二语言习得研究的逐步深入,语料库资源在第二语言习得研究中占据越来越重要的地位。究其原因,可以概括如下:(1)语料库资源建设的逐步丰富和发展。由于语料库技术的发展,用于语言习得研究的目的语和中介语语料库资源也越来越丰富,使用也越来越容易,相关的研究成果也越来越丰富。根据顾晓波(2010)对2009年以前的9年间国内研究者研究方法所做的统计,基于语料库的中介语研究成果大幅度上升,但是受语料库的限制,历时研究较少,共时研 究比较多;从研究方法上看, 实证研究占绝对优势;从发展趋势上看,国内基于语料库的中介语研究已经由理论方法引介及单纯的错误分析转向中介语对比分析的研究。(2)语言学习理论的发展。比如联结主义理论的建立,对语言习得研究产生了重要的影响。作为联结主义的核心的浮现特征揭示了语言知识的获得和语言材料之间的本质联系,浮现特征的核心原则是语言规则不是先天固有的,而是在语言获得过程中表现出自然浮现特征,这种浮现过程可以基于对大量输入语料的统计学习而获得。(Rumelhart &McClelland 1986;Bates et al 1998;MacWhinney 1999)联结主义理论认为语言习得的过程实际上是学习者通过真实语言材料获取语言知识并储存于心理词典中的过程。(3)语言对比在外语教学研究中的作用。随着语料库资源的进一步丰富,语言对 比研究也逐渐深入。从上个世纪九十年代开始, 随着中介语语料库的建设及其加工过程的深入,中介语对比方法使二语习得的对比研究能够深入到中介语系统中。(4)词汇习得研究越来越受到重视。文秋芳、王立非(2004)认为上个世纪80年代末90年代初,人们开始重视词汇的习得,成果逐渐增多,主要的研究领域包括二语作文中词汇知识的变化、词汇丰富性的研究、被动词汇和积极词汇之间的关系、阅读中词汇知识的广度与深度的关系的研究等。这些研究在方法上深受认知心理学的影响,大多数研究采用量化法。 · 77·2012年04月 第2期汉语学习Chinese Language Learning Apr.,2012No.2 ①[ 基金项目]本研究得到教育部人文社会科学重点研究基地重大项目“留学生汉语词汇习得的计算机模拟研究”(项目编号:08JJD740063)和教育部人文社会科学研究一般项目“面向对外汉语教学的语言知识表达系统研究”(项目编号:09YJAZH013)的资助。

语料库的分类

III.Existing corpora 20.Well-known and in luential corpora 1.Introduction 2.National corpora 3.Monitor corpora 4.Corpora of the Brown family 5.Synchronic corpora 6.Diachronic corpora 7.Spoken corpora 8.Academic and professional English corpora 9.Parsed corpora 10.Developmental and learner corpora 11.Multilingual corpora 12.Non-English monolingual corpora 13.Well-known distributors of corpus resources 14.Conclusion 15.Appendix:URLs 16.Literature 1.Introduction As corpus building is an activity that takes times and costs money,readers may wish to use ready-made corpora to carry out their work.However,as a corpus is always designed for a particular purpose,the usefulness of a ready-made corpus must be judged with regard to the purpose to which a user intends to put it.There are thousands of corpora in the world,but most of them are created for specific research projects and are not publicly available.This article introduces well-known and influential corpora,which are grouped in terms of their primary uses so that readers will find it easier to choose corpus resources suitable for their particular research questions.Note,however,that overlaps are inevitable in our classification.It is used in this article simply to give a better account of the primary uses of the relevant corpora.The higher number of English corpora covered here might reflect the fact that English was the forerunner in corpus research,though as we will see shortly,many other languages are catching https://www.doczj.com/doc/1a3762841.html,rmation on the web site addresses for the corpora discussed in this article are given in the appendix. 2.National corpora National corpora are normally general reference corpora which are supposed to repre-sent the national language of a country.They are balanced with regard to genres and domains that typically represent the language under consideration.While an ideal na-tional corpus should cover proportionally both written and spoken language,most exist-

相关主题
相关文档 最新文档