语料库语言学与中国外语教学_桂诗春
- 格式:pdf
- 大小:361.39 KB
- 文档页数:8
语料库相关资源David Lee语料库研究书签Bookmarks for Corpus-based Linguists (David Lee).au/~dlee/CBLLinks.htm (/corpora)常用语料库资源链接汇集(语料天涯)/corpus/互动平台/forum/入门读物专著梁茂成、李文中、许家金,2010,《语料库应用教程》。
北京:外语教学与研究出版社。
Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进)Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进)期刊论文中国期刊网EBSCO英文期刊数据库书店可以买到的语料库相关书籍Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进)Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St.Jerome Publishing. (外研社引进)Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999.Longman Grammar of Spoken and Written English. Longman Publications Group.(外研社引进)Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进)Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)Granger, S. & S. Petch-Tyson (Eds.). 2003. Extending the Scope of Corpus-based Research: New Applications, New Challenges. Amsterdam: Rodopi. (世界图书出版社引进)Granger, S. et al. (Eds.). 2003. Corpus-based Approaches to Contrastive Linguistics and Translation Studies《基于语料库的语言对比和翻译研究》. Amsterdam: Rodopi. (外研社引进)Gries, Stefan Thomas. 2004. Multifactorial Analysis in Corpus Linguistics: A Study of Particle Placement. Beijing: Peking University Press. (北大出版社引进)Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进)Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进)Kettemann, B. & G. Marko. 2002. Teaching and Learning by Doing Corpus Analysis.Amsterdam: Rodopi. (世界图书出版社引进)Meyer, Charles. 2002. English Corpus Linguistics: An Introduction. Cambridge: Cambridge University Press. (外教社引进)Mukherjee, J. 2001. Form and Function of Parasyntactic Presentation Structures. A Corpus-based Study of Talk Units in Spoken English. Amsterdam: Rodopi. (世界图书出版社引进)Nattinger, James R. & Jeanette S. DeCarrico. 1992. Lexical Phrases and Language Teaching. Oxford: Oxford University Press. (外教社引进)Sinclair, John. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press.(外教社引进)Thomas, Jenny & Mick Short. 1996. Using Corpora for Language Education. London: Pearson Education. (外研社引进)Zanettin, F., et al. (eds.). 2003. Corpora in Translator Education《语料库与译者培养》.Manchester: St. Jerome Publishing. (外研社引进)蔡金亭,2003,《语言因素对英语过渡中使用——一般过去时的影响》。
语料库和语料库建设一、什么叫语料库1、定义语料库,通俗意义上指的是语言材料库。
严格意义上的语料库(corpus)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。
目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。
阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。
赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。
我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。
语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。
而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。
语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。
2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。
语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。
浅谈外语教学中的语料库应用贾一丹【摘要】随着计算机辅助语言教学的深入发展,“基于语料库教学”(corpus- based language teaching)在国内已经不再是一个陌生的话题,近年来越来越多的学者已经开始重视语料库在教学中的应用.但对于普通初、高中教师而言,没有时间和机会学习语料库知识并将其应用于实践之中,因此他们对语料库的了解还不够普及.而他们却恰恰是战斗在教学一线的精英,是将语料库应用于外语教学设计的最佳人选.因此普及语料库的基本知识重点推介其在外语教学中的应用,可以帮助有意了解语料库的老师和同学对其加以更好的理解和应用.【期刊名称】《黑龙江教育学院学报》【年(卷),期】2011(030)008【总页数】3页(P159-161)【关键词】语言教学;基于语料库教学;基本知识;应用【作者】贾一丹【作者单位】哈尔滨师范大学,哈尔滨150025【正文语种】中文【中图分类】H319;G40-05一、语料库简介(一)语料库的含义及特点某种语言中自然出现的、书面或口头的语言材料经过收集并科学地组织起来就构成了语料库(corpus)。
利用语料库对语言进行研究的成果不断出现,其应用范围也越来越广,正在逐渐引发应用语言学特别是外语教学的一场革命。
通过对大量的语料即语言事实进行提取和分析,利用检索工具找出语言现象出现的频率并借此发现语言使用的规律等,这为语言和教学研究提供了事实基础和新的思路。
“作为一种新的教学研究资源,我们发现语料库可为外语教学提供丰富的教学材料、教学方法、教学技术甚至是教学理念。
”[1]2这是因为,首先,语料具有真实性,这是语料库最根本的属性。
当下最倡导任务型教学,纽南(Nunan)总结的任务型教学的原则中就包括语言材料的真实性原则。
真实文本使学习者直接接触目的语文化,有助于获得对目的语的真实体验,能够促进学习者以接近母语者的方式使用新习得的语言,参与有意义的交际。
语料库恰恰能为任务的设置提供真实的语料,从而创设出真实、复杂的任务情景,使学习者在掌握语言知识的同时提高语言应用能力。
语料库、学习者语料库与外语教学①□李文中0.概述语料库(corpora )是应用计算机技术对海量自然语言材料进行处理(包括预处理、语法自动附码、自动句法分析、语义分析等)、存储,以供自动检索(retrieval )、索引(concordance )以及统计分析的大型资料库。
它是按照明确的设计标准为某一具体目标而建立的语言资料库(Atkins and Clear 1992:5,引自G ranger 1996)。
如果作进一步区分,还可以把语料库与大型文档资源库(text archives )区别开来。
前者具有明确语料选择比例和设计标准,而后者更注重语料容量和语料来源的多样性(Edwards 1993)。
所谓自然语言是指任何人类在童年习得的语言(Leech 1987:1)。
使用这一概念的意义在于,把人类自然语言同人工编制的人工语言(artificial languag 2es )(如C 语言、BASIC 、JAVA 、FORTRAN 等)区别开来;在对语言描述和研究中,自然出现的语料不同于研究者为某一目的而引出的材料(elicited data )。
语料库的研究对象是人类语言自然运用(performance ),而不是内在语言能力(com petence )。
语料库的应用主要在于以下几个方面:1)自然语言处理(包括自动语言识别、自动语法附码、句法分析、语义分析、知识表达、机器翻译等)。
基于语料库方法可以提供有关语言结构和特征的可靠信息,而这些信息是内省法研究或心理测验获取的信息所不能比拟的。
语料库是人们广泛深入理解语言所必需的工具(Edwards 1993,Leech 1991,1992,Svartvik 1992)。
2)词典编纂。
语料库能够提供更为完备和详尽的关于词义和词汇搭配信息(K jellmer 1984,Sinclair 1982,引自Edwards 1993)。
3)语言学习与语言教学。
早在本世纪60年代,美国Brown 大学创建了最早的语料库BROW N C ORPUS ,容量为100万词,广泛搜集了当时美国英语各种文体的语言材料。
语料库研究初探作者:齐芷玥来源:《文存阅刊》2018年第11期摘要:本文将从语料库的定义、类型、内容、规模设计、标注原则、建库方法等角度对语料库进行分析,目的是通过展现语料库相关基础知识,向语料库初学者提供帮助。
关键词:语料库;建库一、语料库定义语料库就是大量语言材料的集合。
语料库(Corpus)是指一个由大量的语言实际使用的信息组成的,专供语言研究、分析和描述的语言资料库。
在计算机网络技术和信息技术快速发展的现代社会,语料库主要指经科学取样和加工的大规模电子文本库。
[3]二、语料库类型语料库有多种类型,确定类型的主要依据是它的研究目的和用途。
有学者曾经把语料库分成四种类型:(1)异质的(Heterogeneous);(2)同质的(Homogeneous);(3)系统的(Systematic);(4)专用的(Specialized)。
[4]参考此种分类方法,可进一步将国内语料库进行分类,种类包括以下五种:1.通用语料库(general):主要用于一般性的语料库研究;2.专用语料库(specialized):是为了对某个特定领域语言变体进行研究而建立的语料库;3.平行语料库(parallel corpus):为对比某种语言的原文文本和其对应的译文文本之间的差异、研究翻译行为而建的语料库;4.可比语料库(comparable corpus):是由具有某些相同或相似属性的文本构成的语料库;5.学习者语料库(learner corpus):如中国英语学习者语料库(CLEC)、中国英语学生口笔语语料库 1.0 版(SWECCL1)等。
三、语料库的内容及建库用途。
如果说规模是针对量的问题,那么,内容就是要解决质的问题。
对于内容,最根本的是要真实,它包括:1.要收集实际使用中的文本,而不能是研究者杜撰的;2.要收集符合条件的文本。
如要建立的是学习者语料库,要分析的是学生的真实语言能力,就不能把学生抄袭书本的东西收进来。
语料库与英语教学摘要:语料库是由大量收集的书面语或口语构成,并通过计算机储存和处理,用于语言学研究的文本库。
它为英语教学和研究提供了自然出现的真实语料和科学的研究方法,在这些领域正发挥越来越大的作用。
本文讨论了国外将语料库应用于语言教学领域的研完成果和具体做法以及它对于英语教学所起的独到作用,并介绍了我国语料库发展的现状,探讨了在我国利用语料库进行英语教学的可行性。
关键词:语料库;学习;英语教学一、前言语料库语言学是20世纪中后期兴起的一门语言研究科学,它是出现在语言学、计算机语言学认知、语言学和应用语言学边缘上的一门新的交叉科学,它基于大量真实的语言资料,从调查语言信息的呈现频率入手来研究语言在现实使用中的规律和模式。
语料库是指按照一定的语言学原则,收集自然出现的连续的语言应用文本或话语片断而建成的具有一定容量的电子文库[1]。
随着信息技术的发展和普及,借助电脑技术建立起来的语料库以其容量大、语料真实、检索快捷准确等独特的优势在现代语言学研究和语言教育中发挥着越来越重要的作用[2]。
同时,经过对语料库的研究及实践可以了解到一些有关语料库在英语教学中的应用。
二、语料库的分类和作用按语言种类,语料库可以分为单语语料库,双语语料库和多语语料库。
按语料来源,语料库可分为口语语料库和书面语语料库。
按语言题材,分为普通语料库和专门用途语料库。
按语料库是否被标注,又分为生语料库或称原始语料库和熟语料库或称标注语料库。
熟语料库指在建立语料库时,对语料进行了语音、词性、句法、语义等标注的语料库,标注后的语料库可以方便检索。
[3]语料库为外语教学和研究提供了重要资源。
如何有效利用语料库资源,拓展教和学的空间,培养学生自主学习的意识,是外语教师应思考的问题。
语料库在外语教学中的作用:(一)可以帮助缩小课堂教学的语言与目标语言之间的差距。
(二)可以帮助更加清晰地认知不同语域变体的特点。
因为在不同语域中的语言所表现出来的特性是有差异的。
对外汉语专业生主要参考书目、相关工具书、语料库和重要期刊主要参考书目:1.赵金铭:《对外汉语教学概论》,商务印书馆,20042.吕必松:《对外汉语教学概论(讲义)》,国家汉办编印,19963.刘珣:《对外汉语教育学引论》,北京语言大学出版社,20004.刘珣《对外汉语教学概论》,北京语言大学出版社,20045.周小兵等:《对外汉语教学入门》,中山大学出版社,20046.盛炎:《语言教学原理》,重庆出版社,19907.李晓琪、李泉等主编:《对外汉语教学专题研究书系》(22种),商务印书馆,20068.赵贤洲《对外汉语教学通论》,外语教学与研究出版社,19969.吕文华《对外汉语教学语法探索》,语文出版社,199910.崔永华《汉语课堂教学技巧》,北京语言大学出版社,200411.周健《汉语课堂教学技巧与游戏》,北京语言大学出版社200512.杨德峰《汉语与文化交际》,北京大学出版社,200113.世界汉语教学学会、周健《商务馆实用汉语师资培训教材•汉语课堂教学技巧325例》,商务印书馆,200114.陈枫《对外汉语教学法》,中华书局,200815.陆俭明:《作为第二语言的汉语本体研究》,外语教学与研究出版社,2005 16.王魁京:《第二语言学习理论研究》,北京师范大学出版社,199817.Rod Ellis:《第二语言习得概论》,上海外语教育出版社,200018.崔永华:《词汇、文字研究与对外汉语教学》,北京语言文化大学出版社,199719.吕叔湘:《现代汉语八百词》,商务印书馆,198020.刘月华:《实用现代汉语语法》(增订本),商务印书馆,200221.邵敬敏《现代汉语通论》,上海教育出版社,200522.葛兆光:《古代中国社会与文化十讲》,清华大学出版社,200223.程棠:《对外汉语教学目的原则方法(第2版)》,北京语言文化大学出版社,200824.齐沪扬:《对外汉语教学语法》,复旦大学出版社,200525.史根东:《教师创新行为案例与与评议》,中国科技出版社,200426.徐子亮、吴仁甫:《实用对外汉语教学法》,北京大学出版社,200627.陈宏吴勇毅:《对外汉语教学课堂教案设计》,华语教学出版社,2003 28.张普:《Learning 与对外汉语教学》,清华大学出版社,200229.张凯:《语言测验理论与实践》,北京语言大学出版社,200630.郑金洲:《案例教学指南》,华东师范大学出版社,200031.赵元任:《汉语口语语法》,商务印书馆,199732.朱川:《汉语语音学习对策》,语文出版社,199733.袁振国主编:《教育原理》,华东师范大学出版社,200134.申克著:《学习理论:教育的视角》,江苏教育出版社,200335.施良方、崔允漷主编:《教学理论:课堂教学的原理、策略与研究》,华东师范大学出版社,199936.张祖忻、朱纯等:《教学设计-基本原理与方法》,上海外语教育出版社,199237.林崇德:《教育心理学》,人民教育出版社,200038.黄昌宁等《语料库语言学》,商务印书馆,200239.傅承德《自然语言理解的方法与策略》,河南人民出版社,200040.罗常培《语言与文化》,语文出版社,198941.桂诗春《实验心理语言学纲要》,湖南教育出版社,200142.王力《中国语言学史》,山西人民出版社,198143.罗常培《普通语音学纲要》,商务印书馆,200244.陆俭明《八十年代中国语法研究》,商务印书馆,199345.冯胜利《汉语韵律句法学》,上海教育出版社,200046.裘锡圭《文字学概要》,商务印书馆,198847.刘叔新《汉语描写词汇学》,商务印书馆,200048.葛本仪《现代汉语词汇学》,山东人民出版社,200149.朱德熙《语法讲义》,商务印书馆,198250.陈保亚《论语言接触与语言联盟》,语文出版社,199651.陈保亚《20世纪中国语言学方法论》,山东教育出版社,199952.程裕祯《中国文化要略》,外语教学与研究出版社,200953.符淮青:《现代汉语词汇》,北京大学出版社,200454.孔汝煌:《中华诗教与人文素养》,浙江大学出版社,200455.叶蜚声:《语言学纲要》,北京大学出版社,198156.吕叔湘:《汉语语法论文集》,商务印书馆,198457.黄伯荣:《现代汉语》(增订四版),高等教育出版社,200758.王力主编:《古代汉语》(校订重排本),中华书局,199959.于根元:《应用语言学概论》,商务印书馆,200360.[美] 拉里A 萨默瓦等,闵惠泉等译:《跨文化传播》,中国人民大学出版社,200461.索绪尔《普通语言学教程》(高名凯译,英文版可参见外语教学与研究出版社,2001),商务印书馆,198062.冯志伟《现代语言学流派》,陕西人民出版社,199463.利奇《语义学》(李瑞华等译),上海外语教育出版社,198764.冯志伟《计算语言学基础》,商务印书馆,200165.张公瑾、丁石庆主编《文化语言学教程》,教育科学出版社,200466.袁家骅《汉语方言概要》(第二版),语文出版社,200167.江新《对外汉语教学的心理学探索》,教育科学出版社,200768. 丁迪蒙《对外汉语的课堂教学技巧》,学林出版社,200669.卢华岩《对外汉语课堂教学行为的理论与实践》,北京大学出版社,201170.张和生《对外汉语课堂教学技巧研究》,商务印书馆,2006相关工具书:中国大百科全书编委会《中国大百科全书语言文字》,中国大百科全书出版社,1988孟琮等《动词用法词典》,上海辞书出版社,1987郑怀德等《汉语形容词用法词典》,商务印书馆,2003俞士汶等《现代汉语语法信息词典详解》,清华大学出版社,1998王寅《简明语义学词典》,山东人民出版社,1993陆谷孙主编《英汉大词典》,上海译文出版社,1993理查兹等《朗曼语言学词典》(刘润清等译),山西教育出版社,1992克里斯特尔《现代语言学词典》(沈家煊译),商务印书馆,2000戚雨村等《语言学百科词典》,上海辞书出版社,1993重要期刊:1.《中国语文》(社科院语言所)2.《语言文字应用》(语用所)3.《世界汉语教学》(世界汉语教学学会)4.《语言研究》(华中科技大学)5.《语文建设》(国家语委)6.《汉语学习》(延边大学)7.《语言教学与研究》(北京语言大学)8.《语言科学》(徐州师范大学)9.《当代语言学》(社科院语言所)10.《古汉语研究》(湖南师范大学)11.《汉语学报》(华中师范大学)12.《中国社会语言学》(中国社会语言学学会,澳门)13.《语言文字学》(人大复印资料)14.LANGUAGE(美国)15.《修辞学习》(复旦大学语言文学研究所)16.《云南师范大学学报》(对外汉语教学版)17.《语文学习》(上海教育出版社)18.《香港语文建设通讯》另有《中国语言学报》(中国语言学会)、《中国方言学报》(中国方言学会)、《语言学论丛》(北京大学)、《南开语言学刊》(南开大学)、《南大语言学》(南京大学)等学术辑刊。
2010年11月November2010第33卷第4期Vol.33No.4
现代外语(季刊)
ModernForeignLanguages(Quarterly)
语料库语言学与中国外语教学桂诗春冯志伟杨惠中何安平卫乃兴李文中梁茂成[编者按]为推动我国应用语言学研究的新发展,教育部人文社科重点研究基地———广东外语外贸大学外国语言学及应用语言学研究中心于2010年9月24-25日成功举办了“首届广外应用语言学论坛”,庆贺我国著名语言学家、应用语言学学科的开拓者桂诗春教授八十华诞。期间,举行了题为“语料库语言学与外语教学”的高层论坛,就语料库语言学的现状、发展前景及语料库的建设、共享、应用等展开了互动讨论。以下是根据专家发言,整理后的主要内容。
[中图分类号]H319[文献标识码]A[文章编号]1003-6105(2010)04-0419-08
语料库语言学的发展前景与资源共享广东外语外贸大学桂诗春
1.语料库语言学的发展前景语料库语言学在外国和国内都发展很快,有的人选择了它作为发展方向,因为它的入门比较容易,上手较快;有的人把语料库语言学作为收集数据的重要手段。但是总的来说,我们的语料库研究还处在比较初级阶段,需要提高。究其原因是很多人把它看成是一种工具或手段,可以运用现有的一些现成的程序和公开的语料库,如Brown,LOB,Frown.Flob,BNC,CLEC,只要选题得当,就能获得很多量化的数据,从而写出洋洋洒洒的文章来。在计算机和扫描仪的支持下,自行收集一些语言素材,建立一个特定的语料库,也不是什么难事。我觉得,语料库语言学既是一种工具,但更是一门学科;它是对语言行为进行概率性归纳和概括的一门学科,它本身是跨学科性的,要做语料库语言学研究必须许多方面要有比较雄厚的基础。首先是数学和统计学。Herdan(1960)的一本早期著作,叫做《词次/词型数学》(Type/tokenMathematics),其副标题就是《数理语言学教科书》(ATextbookofMathematicalLinguistics),当时还是前计算机时代,但Herdan觉得有两件语言事实值得我们注意:一是大量语言资料(languagein
mass),二是语言排列(languageinline),
它们
是任何语言运作都不能离开的两个方面。某些语言学研究分支如果考虑到这两个方面,将会从中获益。当时还没有真正的机读语料库,
Brown的语料库在1967年才面世,美国心理学家JohnCarroll根据该语料库以及他后来参与制作500万词的AHI语料库,所提出的词汇频数对数正态模型(lognormalmodel)均源于Herdan所奠定的基础。一直到最近美国Barber利用计算机对英语语体的各种研究,更是利用了因子分析的统计方法。其次是计算机科学。语料库的发展离不开现代科学技术,其主要表现是个人电脑、扫描仪和大容量硬盘的普及,当初Brown语料库要动用到大型电脑,
而到如今,只需一万元左右就能在家里拥有这些设备,制作出甚至比Brown还要大的语料库。但是我们往往只注意到硬件部分,而不认识到软件的建设。从事语料库语言学研究的人而不掌握一到两种编成语言,也不可能拓展他们的研究领域,因为他不能根据个人的研究需语料库语言学与中国外语教学1.双语料库的建设我很赞同桂诗春教授的意见,积极推进语言资源的共享,语料库只有共享才能变成财富,如果把语料库的研究成果“藏诸名山,束之高阁”,只是一堆数据垃圾,必将自毁前程。桂诗春教授刚才提到宾西法尼亚大学的LinguisticDataConsortium(我建议最好翻译为“语言数据联盟”,简称LDC),是一个很好的供语料库语言学研究者进行交流互动的平台。在语言数据联盟和其他相关机构的帮助下,研究者们可以获得口语和书面语的大规模的语料。重要的是,在这些语料中还包括一些标注过的语料,如宾州树库(PennTreebank),布拉格依存树库(PragueDependencyTreeBank),
命题库(PropBank),宾州话语树库(Penn
DiscourseTreebank),修辞结构库(RSTBank)
和TimeBank(我不知道TimeBank这个名称如何翻译为中文)。这些语料库是带有句法、语义和语用等不同层次的标记的标准文本语言资源。这些语言资源的存在大大地推动了人们使用“有监督的机器学习方法”(supervised
machinelearning)
来处理那些在传统上非常复
杂的自动句法剖析(automaticsyntactic
parsing)和自动语义分析(automaticsemantic
双语语料库的建设与用途国家教育部语言文字应用研究所冯志伟
要,通过计算机自行编程来检验假设。此外,要做语料库语言学研究,文本分类(又叫文本分析或内容分析)也必须具备雄厚的基础。它的研究范围也很广,从信息的提取、组织、储存,文本(包括语体)的分析,社会舆论调查,著作归属到文本格式。这也牵涉到许多统计学知识和计算机知识。数理语言学和计算机语言学的研究对象是文本和语篇。有志于研究这门科学的必需具有这些基础训练,否则不会走得很远的。我觉得,当务之急是让我国语料库语言学的先行者们聚在一起,研究语料库语言学作为一门科学应该在什么层次上开设?它有什么基本内容?由哪些核心课程组成?只有规范语料库语言学专业的课程,按照这些课程设置来培养我国语料库语言学的学生,他们才能高瞻远瞩,取得真正的进展。2.资源共享问题语料库语言学对资源有很大的依赖性,为了促进语料库语言学在我国的发展,应该提倡资源共享。回顾语料库语言学在国外的迅猛发展,和资源共享有密切的关系。共享的方法有多种:一是免费提供,最典型的例子是George
Miller领衔制作的英语大型词汇数据库Wordnet受到各方面资助,前后参与制作的不下一千人,而且还在不断完善。他们认为这不是一个商品,应该为公众所有。二是提供网上服务,整个语料库不提供,但是在网上可以自由检索获得数据,像美国BrighamYoung大学的MarkDavies在他的网页上检索美国现代英语语料库、美国历史英语语料库、英国国家语料库、《时代》杂志语料库、西班牙语语料库、
葡萄牙语语料库以供检索。三是成立语料库分配中心,收少量成本费提供语料库,像挪威的ICAME(InternationalComputerArchiveofModernandMedievalEnglish),美国的LDC(TheLinguisticDataConsortium),等等。一些语料库工具,如TACT、LEXA,Wordcruncher
,
Wordsmith、Antconc也都很容易在网上获取。
资源共享的理念是,只要有更多的人使用,我们所开发的资源、工具才能完善,学科才能发展。只有互通有无,才能共同协作,才能减少重复劳动,制作出更成熟的成品。
4201.语料库语言学的应用研究这次专题讨论的题目“语料库语言学与外语教学”我觉得很好,很及时。语料库语言学本来就是实践性、应用性很强的一门学科,
语料库语言学的应用研究与贡献上海交通大学杨惠中
analysis)等问题。
这些语言资源也推动了有竞
争性的评测机制的建立,评测的范围涉及到自动剖析(parsing)、信息抽取(informationextraction)、词义排歧(wordsensedisambiguation)、问答系统(question-answersystem)、自动文摘(automaticsummarization)等领域。几年前由中国中文信息学会发起,在北京创建了“中文语言数据联盟”(ChineseLinguisticDataConsortium,缩写为CLDC),是一个自愿组成的学术性社会团体,其宗旨是团结中文语言资源建设领域的广大科技工作者,建成代表中文信息处理国际水平的、通用的中文语言和语音的资源库。欢迎语言学界的同仁积极参与CLDC的工作,促进语料库资源的共享。目前单语语料库很多,已取得煌煌的成绩,但双语并行语料库(parallelcorpus)不容易获得,它的构建和加工是很困难的工作。我国还没有高质量的、大规模真实文本的英汉双语语料库,更没有成熟的、可共享的加工工具,最近公布的2010年国家社会科学基金重大项目中有一项就是“大规模英汉平行语料库的构建与加工研究”,资助强度大约是50万元左右,可见国家对于双语语料库建设的重视。这个项目是我和王克非教授在今年的社科基金评审会议上建议提出的,已开始招标,希望大家积极投标,积极推进我国的双语语料库建设。2.如何将语料库语言学运用到外语教学,如何从语料库中挖掘知识?我认为英汉双语语料库的最大用途就是推进英语教学,我们可以从双语语料库中抽取教材的原材料,帮助语言学习者提高对于真实语言材料的语感,从而编写出高质量的外语教材。有的外语老师冥思苦想地根据自己的语感来编写教材,费时费力,其实,如果依靠英汉双语平行语料库,就可以减轻搜集素材之困难,
大大提高编写教材的工作效率。
另外,语料库中蕴藏着无比丰富的知识等待我们去挖掘,如果我们使用“文本数据挖掘”(textdatamining)的技术,从语料库中挖掘知识,既可以挖掘语言学的知识,也可以挖掘非语言学的知识,就像从矿石中挖掘出黄金一样,这些知识可以弥补传统语言学的不足,克服研究者的主观性和片面性。我们在textdatamining这个术语中使用mining(
挖
掘)这个单词,而没有使用extraction(抽取)这个单词,正是为了强调在从语料库中获取知识的时候,要开动脑筋,要经过一番“去粗取精,去伪存真,由此及彼,由表及里”的深思熟
虑的功夫来加工数据,而不要被海量的数据所迷惑。数据就像矿石,我们的任务是从海量的数据中挖掘出隐藏在其中的有规律性的东西,把海量的、离散的“数据”(data)变为精炼的、系统化的“知识”(knowledge),从而把经验主义方法和理性主义方法紧密地结合起来。这种知识获取方法上的巨大变化,有可能引起整个语言学研究的“战略转移”(strategy
transit);
我们中国的语言学家应当敏锐地关
注“战略转移”问题,做出我们的应有的贡献,
千万不要错过这个在语言学历史上千载难逢的良机。
桂诗春冯志伟杨惠中何安平卫乃兴李文中梁茂成421