语料库语言学与中国外语教学_桂诗春
- 格式:pdf
- 大小:361.39 KB
- 文档页数:8
语料库相关资源David Lee语料库研究书签Bookmarks for Corpus-based Linguists (David Lee).au/~dlee/CBLLinks.htm (/corpora)常用语料库资源链接汇集(语料天涯)/corpus/互动平台/forum/入门读物专著梁茂成、李文中、许家金,2010,《语料库应用教程》。
北京:外语教学与研究出版社。
Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进)Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进)期刊论文中国期刊网EBSCO英文期刊数据库书店可以买到的语料库相关书籍Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进)Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St.Jerome Publishing. (外研社引进)Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999.Longman Grammar of Spoken and Written English. Longman Publications Group.(外研社引进)Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进)Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)Granger, S. & S. Petch-Tyson (Eds.). 2003. Extending the Scope of Corpus-based Research: New Applications, New Challenges. Amsterdam: Rodopi. (世界图书出版社引进)Granger, S. et al. (Eds.). 2003. Corpus-based Approaches to Contrastive Linguistics and Translation Studies《基于语料库的语言对比和翻译研究》. Amsterdam: Rodopi. (外研社引进)Gries, Stefan Thomas. 2004. Multifactorial Analysis in Corpus Linguistics: A Study of Particle Placement. Beijing: Peking University Press. (北大出版社引进)Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进)Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进)Kettemann, B. & G. Marko. 2002. Teaching and Learning by Doing Corpus Analysis.Amsterdam: Rodopi. (世界图书出版社引进)Meyer, Charles. 2002. English Corpus Linguistics: An Introduction. Cambridge: Cambridge University Press. (外教社引进)Mukherjee, J. 2001. Form and Function of Parasyntactic Presentation Structures. A Corpus-based Study of Talk Units in Spoken English. Amsterdam: Rodopi. (世界图书出版社引进)Nattinger, James R. & Jeanette S. DeCarrico. 1992. Lexical Phrases and Language Teaching. Oxford: Oxford University Press. (外教社引进)Sinclair, John. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press.(外教社引进)Thomas, Jenny & Mick Short. 1996. Using Corpora for Language Education. London: Pearson Education. (外研社引进)Zanettin, F., et al. (eds.). 2003. Corpora in Translator Education《语料库与译者培养》.Manchester: St. Jerome Publishing. (外研社引进)蔡金亭,2003,《语言因素对英语过渡中使用——一般过去时的影响》。
语料库和语料库建设一、什么叫语料库1、定义语料库,通俗意义上指的是语言材料库。
严格意义上的语料库(corpus)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。
目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。
阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。
赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。
我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。
语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。
而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。
语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。
2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。
语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。
浅谈外语教学中的语料库应用贾一丹【摘要】随着计算机辅助语言教学的深入发展,“基于语料库教学”(corpus- based language teaching)在国内已经不再是一个陌生的话题,近年来越来越多的学者已经开始重视语料库在教学中的应用.但对于普通初、高中教师而言,没有时间和机会学习语料库知识并将其应用于实践之中,因此他们对语料库的了解还不够普及.而他们却恰恰是战斗在教学一线的精英,是将语料库应用于外语教学设计的最佳人选.因此普及语料库的基本知识重点推介其在外语教学中的应用,可以帮助有意了解语料库的老师和同学对其加以更好的理解和应用.【期刊名称】《黑龙江教育学院学报》【年(卷),期】2011(030)008【总页数】3页(P159-161)【关键词】语言教学;基于语料库教学;基本知识;应用【作者】贾一丹【作者单位】哈尔滨师范大学,哈尔滨150025【正文语种】中文【中图分类】H319;G40-05一、语料库简介(一)语料库的含义及特点某种语言中自然出现的、书面或口头的语言材料经过收集并科学地组织起来就构成了语料库(corpus)。
利用语料库对语言进行研究的成果不断出现,其应用范围也越来越广,正在逐渐引发应用语言学特别是外语教学的一场革命。
通过对大量的语料即语言事实进行提取和分析,利用检索工具找出语言现象出现的频率并借此发现语言使用的规律等,这为语言和教学研究提供了事实基础和新的思路。
“作为一种新的教学研究资源,我们发现语料库可为外语教学提供丰富的教学材料、教学方法、教学技术甚至是教学理念。
”[1]2这是因为,首先,语料具有真实性,这是语料库最根本的属性。
当下最倡导任务型教学,纽南(Nunan)总结的任务型教学的原则中就包括语言材料的真实性原则。
真实文本使学习者直接接触目的语文化,有助于获得对目的语的真实体验,能够促进学习者以接近母语者的方式使用新习得的语言,参与有意义的交际。
语料库恰恰能为任务的设置提供真实的语料,从而创设出真实、复杂的任务情景,使学习者在掌握语言知识的同时提高语言应用能力。
语料库、学习者语料库与外语教学①□李文中0.概述语料库(corpora )是应用计算机技术对海量自然语言材料进行处理(包括预处理、语法自动附码、自动句法分析、语义分析等)、存储,以供自动检索(retrieval )、索引(concordance )以及统计分析的大型资料库。
它是按照明确的设计标准为某一具体目标而建立的语言资料库(Atkins and Clear 1992:5,引自G ranger 1996)。
如果作进一步区分,还可以把语料库与大型文档资源库(text archives )区别开来。
前者具有明确语料选择比例和设计标准,而后者更注重语料容量和语料来源的多样性(Edwards 1993)。
所谓自然语言是指任何人类在童年习得的语言(Leech 1987:1)。
使用这一概念的意义在于,把人类自然语言同人工编制的人工语言(artificial languag 2es )(如C 语言、BASIC 、JAVA 、FORTRAN 等)区别开来;在对语言描述和研究中,自然出现的语料不同于研究者为某一目的而引出的材料(elicited data )。
语料库的研究对象是人类语言自然运用(performance ),而不是内在语言能力(com petence )。
语料库的应用主要在于以下几个方面:1)自然语言处理(包括自动语言识别、自动语法附码、句法分析、语义分析、知识表达、机器翻译等)。
基于语料库方法可以提供有关语言结构和特征的可靠信息,而这些信息是内省法研究或心理测验获取的信息所不能比拟的。
语料库是人们广泛深入理解语言所必需的工具(Edwards 1993,Leech 1991,1992,Svartvik 1992)。
2)词典编纂。
语料库能够提供更为完备和详尽的关于词义和词汇搭配信息(K jellmer 1984,Sinclair 1982,引自Edwards 1993)。
3)语言学习与语言教学。
早在本世纪60年代,美国Brown 大学创建了最早的语料库BROW N C ORPUS ,容量为100万词,广泛搜集了当时美国英语各种文体的语言材料。
2010年11月November2010第33卷第4期Vol.33No.4
现代外语(季刊)
ModernForeignLanguages(Quarterly)
语料库语言学与中国外语教学桂诗春冯志伟杨惠中何安平卫乃兴李文中梁茂成[编者按]为推动我国应用语言学研究的新发展,教育部人文社科重点研究基地———广东外语外贸大学外国语言学及应用语言学研究中心于2010年9月24-25日成功举办了“首届广外应用语言学论坛”,庆贺我国著名语言学家、应用语言学学科的开拓者桂诗春教授八十华诞。期间,举行了题为“语料库语言学与外语教学”的高层论坛,就语料库语言学的现状、发展前景及语料库的建设、共享、应用等展开了互动讨论。以下是根据专家发言,整理后的主要内容。
[中图分类号]H319[文献标识码]A[文章编号]1003-6105(2010)04-0419-08
语料库语言学的发展前景与资源共享广东外语外贸大学桂诗春
1.语料库语言学的发展前景语料库语言学在外国和国内都发展很快,有的人选择了它作为发展方向,因为它的入门比较容易,上手较快;有的人把语料库语言学作为收集数据的重要手段。但是总的来说,我们的语料库研究还处在比较初级阶段,需要提高。究其原因是很多人把它看成是一种工具或手段,可以运用现有的一些现成的程序和公开的语料库,如Brown,LOB,Frown.Flob,BNC,CLEC,只要选题得当,就能获得很多量化的数据,从而写出洋洋洒洒的文章来。在计算机和扫描仪的支持下,自行收集一些语言素材,建立一个特定的语料库,也不是什么难事。我觉得,语料库语言学既是一种工具,但更是一门学科;它是对语言行为进行概率性归纳和概括的一门学科,它本身是跨学科性的,要做语料库语言学研究必须许多方面要有比较雄厚的基础。首先是数学和统计学。Herdan(1960)的一本早期著作,叫做《词次/词型数学》(Type/tokenMathematics),其副标题就是《数理语言学教科书》(ATextbookofMathematicalLinguistics),当时还是前计算机时代,但Herdan觉得有两件语言事实值得我们注意:一是大量语言资料(languagein
mass),二是语言排列(languageinline),
它们
是任何语言运作都不能离开的两个方面。某些语言学研究分支如果考虑到这两个方面,将会从中获益。当时还没有真正的机读语料库,
Brown的语料库在1967年才面世,美国心理学家JohnCarroll根据该语料库以及他后来参与制作500万词的AHI语料库,所提出的词汇频数对数正态模型(lognormalmodel)均源于Herdan所奠定的基础。一直到最近美国Barber利用计算机对英语语体的各种研究,更是利用了因子分析的统计方法。其次是计算机科学。语料库的发展离不开现代科学技术,其主要表现是个人电脑、扫描仪和大容量硬盘的普及,当初Brown语料库要动用到大型电脑,
而到如今,只需一万元左右就能在家里拥有这些设备,制作出甚至比Brown还要大的语料库。但是我们往往只注意到硬件部分,而不认识到软件的建设。从事语料库语言学研究的人而不掌握一到两种编成语言,也不可能拓展他们的研究领域,因为他不能根据个人的研究需语料库语言学与中国外语教学1.双语料库的建设我很赞同桂诗春教授的意见,积极推进语言资源的共享,语料库只有共享才能变成财富,如果把语料库的研究成果“藏诸名山,束之高阁”,只是一堆数据垃圾,必将自毁前程。桂诗春教授刚才提到宾西法尼亚大学的LinguisticDataConsortium(我建议最好翻译为“语言数据联盟”,简称LDC),是一个很好的供语料库语言学研究者进行交流互动的平台。在语言数据联盟和其他相关机构的帮助下,研究者们可以获得口语和书面语的大规模的语料。重要的是,在这些语料中还包括一些标注过的语料,如宾州树库(PennTreebank),布拉格依存树库(PragueDependencyTreeBank),
命题库(PropBank),宾州话语树库(Penn
DiscourseTreebank),修辞结构库(RSTBank)
和TimeBank(我不知道TimeBank这个名称如何翻译为中文)。这些语料库是带有句法、语义和语用等不同层次的标记的标准文本语言资源。这些语言资源的存在大大地推动了人们使用“有监督的机器学习方法”(supervised
machinelearning)
来处理那些在传统上非常复
杂的自动句法剖析(automaticsyntactic
parsing)和自动语义分析(automaticsemantic
双语语料库的建设与用途国家教育部语言文字应用研究所冯志伟
要,通过计算机自行编程来检验假设。此外,要做语料库语言学研究,文本分类(又叫文本分析或内容分析)也必须具备雄厚的基础。它的研究范围也很广,从信息的提取、组织、储存,文本(包括语体)的分析,社会舆论调查,著作归属到文本格式。这也牵涉到许多统计学知识和计算机知识。数理语言学和计算机语言学的研究对象是文本和语篇。有志于研究这门科学的必需具有这些基础训练,否则不会走得很远的。我觉得,当务之急是让我国语料库语言学的先行者们聚在一起,研究语料库语言学作为一门科学应该在什么层次上开设?它有什么基本内容?由哪些核心课程组成?只有规范语料库语言学专业的课程,按照这些课程设置来培养我国语料库语言学的学生,他们才能高瞻远瞩,取得真正的进展。2.资源共享问题语料库语言学对资源有很大的依赖性,为了促进语料库语言学在我国的发展,应该提倡资源共享。回顾语料库语言学在国外的迅猛发展,和资源共享有密切的关系。共享的方法有多种:一是免费提供,最典型的例子是George
Miller领衔制作的英语大型词汇数据库Wordnet受到各方面资助,前后参与制作的不下一千人,而且还在不断完善。他们认为这不是一个商品,应该为公众所有。二是提供网上服务,整个语料库不提供,但是在网上可以自由检索获得数据,像美国BrighamYoung大学的MarkDavies在他的网页上检索美国现代英语语料库、美国历史英语语料库、英国国家语料库、《时代》杂志语料库、西班牙语语料库、
葡萄牙语语料库以供检索。三是成立语料库分配中心,收少量成本费提供语料库,像挪威的ICAME(InternationalComputerArchiveofModernandMedievalEnglish),美国的LDC(TheLinguisticDataConsortium),等等。一些语料库工具,如TACT、LEXA,Wordcruncher
,
Wordsmith、Antconc也都很容易在网上获取。
资源共享的理念是,只要有更多的人使用,我们所开发的资源、工具才能完善,学科才能发展。只有互通有无,才能共同协作,才能减少重复劳动,制作出更成熟的成品。
4201.语料库语言学的应用研究这次专题讨论的题目“语料库语言学与外语教学”我觉得很好,很及时。语料库语言学本来就是实践性、应用性很强的一门学科,
语料库语言学的应用研究与贡献上海交通大学杨惠中
analysis)等问题。
这些语言资源也推动了有竞
争性的评测机制的建立,评测的范围涉及到自动剖析(parsing)、信息抽取(informationextraction)、词义排歧(wordsensedisambiguation)、问答系统(question-answersystem)、自动文摘(automaticsummarization)等领域。几年前由中国中文信息学会发起,在北京创建了“中文语言数据联盟”(ChineseLinguisticDataConsortium,缩写为CLDC),是一个自愿组成的学术性社会团体,其宗旨是团结中文语言资源建设领域的广大科技工作者,建成代表中文信息处理国际水平的、通用的中文语言和语音的资源库。欢迎语言学界的同仁积极参与CLDC的工作,促进语料库资源的共享。目前单语语料库很多,已取得煌煌的成绩,但双语并行语料库(parallelcorpus)不容易获得,它的构建和加工是很困难的工作。我国还没有高质量的、大规模真实文本的英汉双语语料库,更没有成熟的、可共享的加工工具,最近公布的2010年国家社会科学基金重大项目中有一项就是“大规模英汉平行语料库的构建与加工研究”,资助强度大约是50万元左右,可见国家对于双语语料库建设的重视。这个项目是我和王克非教授在今年的社科基金评审会议上建议提出的,已开始招标,希望大家积极投标,积极推进我国的双语语料库建设。2.如何将语料库语言学运用到外语教学,如何从语料库中挖掘知识?我认为英汉双语语料库的最大用途就是推进英语教学,我们可以从双语语料库中抽取教材的原材料,帮助语言学习者提高对于真实语言材料的语感,从而编写出高质量的外语教材。有的外语老师冥思苦想地根据自己的语感来编写教材,费时费力,其实,如果依靠英汉双语平行语料库,就可以减轻搜集素材之困难,
大大提高编写教材的工作效率。
另外,语料库中蕴藏着无比丰富的知识等待我们去挖掘,如果我们使用“文本数据挖掘”(textdatamining)的技术,从语料库中挖掘知识,既可以挖掘语言学的知识,也可以挖掘非语言学的知识,就像从矿石中挖掘出黄金一样,这些知识可以弥补传统语言学的不足,克服研究者的主观性和片面性。我们在textdatamining这个术语中使用mining(
挖
掘)这个单词,而没有使用extraction(抽取)这个单词,正是为了强调在从语料库中获取知识的时候,要开动脑筋,要经过一番“去粗取精,去伪存真,由此及彼,由表及里”的深思熟
虑的功夫来加工数据,而不要被海量的数据所迷惑。数据就像矿石,我们的任务是从海量的数据中挖掘出隐藏在其中的有规律性的东西,把海量的、离散的“数据”(data)变为精炼的、系统化的“知识”(knowledge),从而把经验主义方法和理性主义方法紧密地结合起来。这种知识获取方法上的巨大变化,有可能引起整个语言学研究的“战略转移”(strategy
transit);
我们中国的语言学家应当敏锐地关
注“战略转移”问题,做出我们的应有的贡献,
千万不要错过这个在语言学历史上千载难逢的良机。
桂诗春冯志伟杨惠中何安平卫乃兴李文中梁茂成421