当前位置:文档之家› 近十年汉语中介语语料库建设介绍

近十年汉语中介语语料库建设介绍

近十年汉语中介语语料库建设介绍
近十年汉语中介语语料库建设介绍

龙源期刊网 https://www.doczj.com/doc/8113302430.html,

近十年汉语中介语语料库建设介绍

作者:王丽会

来源:《读与写·上旬刊》2015年第06期

摘要:语料库是指一个由大量的语言实际使用的信息组成,可供语言研究的资料库。目前为止,各国制作了许多语料库,除了文本语料外,还有语音语料,语料库的规模越来越大。对语料库的研究也是涉及到方方面面,本文主要对近十年汉语中介语语料库的设想和建设情况作简单介绍。

关键词:汉语中介语语料库;建设;简介

中图分类号:G648 文献标识码:B文章编号:1672-1578(2015)06-0001-01

"语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。"这种观点不仅仅是语料库语言学家们的自誉,也正在成为整个语言学界的共识(丁信善,1998)。

语料库作为一种研究方法正在不断得到推进和改善,在某些方面发挥着传统研究方法无法比拟的作用。随着语料库语言学的迅速发展和母语语料库的广泛建设,从上世纪90年代开始,中国大陆开始建设外国人学习汉语的中介语语料库。经过20多年的发展,语料库建设已初具规模,语料库被广泛运用于二语习得,语言教学,对比语言学,词典编辑,句法学和语义学等各方面研究,并在对外汉语教学及相关研究领域发挥了重要的推动作用。

以往语料库的研究主要从建设和应用两大角度出发,而语料库的设想和建设是基于语料库的一系列研究的前提和基础,本文通过列举的方式主要对近十年汉语中介语语料库的设想和建设情况作简单介绍。

王韫佳,李吉梅(2001),该文拟建立的汉语中介语语音语料库以文本、语音和声学参数三种形式和用户见面,其中后两种形式是用户比较关心的,也会给研究带来很多方便。该语料库的建立包括发音人和发音素材的确立、录音、数据库系统和数据库管理系统的建立、原始资料的登录、对部分录音的声学分析和声学参数的登录五部分,然后对汉字文本进行标音转写,并对声母和韵母,音节,节奏单元等进行标注。总之,这篇文章设想构建一个大型的,可以提供较全面的中介语语音信息的语料库。目前,语音语料库的建设还比较少,因为语音的收录需要考虑很多专业的因素,整个收集过程,以及后期的文本转写难度都较大。

武金峰(2005)介绍了建立"哈萨克族学生汉语中介语语料库系统"的基本思路和方法。该语料库可以为研究哈萨克族学生习得汉语的规律提供大量的资料,从而为进一步建立,发

展,完善作为第二语言的汉语学习理论,以及针对少数民族的汉语教学理论作一些参考。目

现代汉语常用词表

现代汉语常用词表(草案) 1.范围 本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008 个,形成《现代汉语常用词表》,给出了词语的词形。 本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。 2.术语和定义 2.1 常用词 现代汉语普通话范畴中使用频率高、适用范围广的词语。 2.2 词形 本规范(草案)指词语的书写形式。 2.3 词频 在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。本规范(草案)指词语的出现次数。 2.4 频级 同一语料调查范围中词频数相同的为一个频级。本词表频级统计分两步:第步形成不同类型语料库的频级,即原始频级。第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。 3.研制原则 3.1 词和语兼顾原则 本规范(草案)的词语收录,以单音节词和双音节词为主。同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。 3.2 系统性和实用性兼顾原则 本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初

秋”“初夏”,但对于“‘晚'+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残'+季节”的词语,只收录“残冬”未收录“残春”“残 秋”“残夏”。 4.《现代汉语常用词表》(草案)说明 4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及 Google 网简体中文网页、百度网等常用网页上的使用情况。 4.2 本表用来检测词频的语料库有:国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年?2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约 7 000 万字的语料。总共 2.5 亿字。 4.3 本表共收录常用词语56 008个,包括单音节词3 181 个,双音节词语40 351 个,三音节词语 6 459个,四音节词语 5 855个,五音节和五音节以上词语 162个。表内条目按频级升序排列,频级相同的按汉语拼音音序排列。 4.4 本规范(草案)提供了《现代汉语常用词表》的音序索引,按汉语拼音音序排列,同音的条目按笔画数由少到多排列。其中,词语的读音只供检索使用,不代表词语的读音规范。

现代汉语“他”(CCL语料库)

现代汉语“他”(CCL语料库) 13、14世纪、、、轻一代的健康发展,教育必须从年轻一代身心发展的实际出发,符合他们身心发展的规律。有生产性的。教育还通过培养一定社会政治、经济所需要的人才,使他人具有当时社会要求的思想品德、知识技能,用以巩固和发展一定社会、、、进行政治理论、思想品德等的教育;人们无论进行何种生产劳动或其他种种活动,都需要强健的体力,这就要求增强学生的体质。处理好教育、、、无论是在中国还是在外国,古代思想家、教育家的教育思想,只是他们的哲学思想或政治思想的组成部分,没有形成一门独立的学科。纪捷克教育家夸美纽斯的《大教学论》(1632年)问世为标志。他号召把一切事物教给一切人,提出统一学校制度,主张采用班级授课制、、、主张采用班级授课制,扩大学科的门类和内容,普及初等教育。他从适应自然秩序的原则和感觉论出发,提出一系列教学原则,如直观性、、、、、、、自觉性积极性原则、系统性原则、循序渐进原则、量力性原则等。他认为人总是首先通过观察事物本身、从事物来源去获得知识,所以教学、、、、、、儿》、裴斯泰洛齐的《林哈德与葛笃德》、斯宾塞的《教育论》等。他们对教育学的发展都作出了重大的贡献。而教育学成为一门学科在大学、、、9、2、、、献。而教育学成为一门学科在大学里讲授,则始于德国哲学家康德。他于1776年在德国柯尼斯堡大学哲学讲座中开讲

教育学。最早以教育、、、、、、06年)。赫尔巴特以伦理学和心理学为基础建立了教育学的体系。他提出教育的目的在于培养"完美德性",强调运用严厉的方法管理儿童、、、、、、严厉的方法管理儿童,以建立秩序和纪律,保证教育过程顺利进行。他提出教学的教育性原则,认为教学是教育的主要手段,教育是教学目的、、、、、、教学是教育的主要手段,教育是教学目的。根据统觉主理学的原理,他将教学过程分为明了、联想、系统和方法四个阶段,后来被他的学生发、、、、、、原理,他将教学过程分为明了、联想、系统和方法四个阶段,后来被他的学生发展为"五段教学法"。赫尔巴特的《普通教育学》被西方教育、、、、、、校旧教育,明确提出在社会主义社会,教育要为无产阶级政治服务。他提出,要用共产主义精神教育青年一长,使他们成为真正的共产主义者、、、、、、为无产阶级政治服务。他提出,要用共产主义精神教育青年一长,使他们成为真正的共产主义者;青年要成为真正共产主义者,必须要用人类、、、、、、点阐述这教育基本理论问题的教育家。其代表作是《新教育大纲》。他认为:教育是上层建筑,同经济基础有依存关系;教育既受生产方式也、、、、、、师。这是因为教育对象是活生生的人,每个人都有自己的个性特点,他们的志趣、爱好、性格、才能千差万别。教师在进行教育工作时,既要、、、教育现象分复杂,与其他社会现象、自然现象有着密切的联系。同时,教育学又是在不断地综合、、、、、、现象、自然现象有

关于汉语中介语语料库建设研究报告

汉语中介语语料库建设研究 沈锐1,黄薇2 (1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100) 【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。 【关键词】语料库;中介语;汉语教学 语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中

小规模的语料库。 一、需求分析和框架设计 语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。依照软件工程的方法,建立数据库首先需要进行需求分析,在需求分析过程中要注意汉语中介语语料库主要是服务于对外汉语教学的一线教师,以及辅助母语非汉语学生自学,因此主要注重以上二类服务对象的应用需求,确保建成的语料库能够对第二语言教学、研究以及教材的编写提供持续支持。基于以上要求,在对中介语语料库的建设思路及框架做了总体考虑,基本归纳为以下三个方面: 1、中介语语料库为专门用途语料库,主要目的为研究母语非汉语的学生在学习汉语过程中的中介语现象而设计制作的。 2、中介语现象存在于母语非汉语的学生在学习汉语过程中的书面语料及口语语料中,由于口语语料的收集、分析和标注都较为困难,因此在建库的第一阶段只考虑收录书面语料,这有利于语料库的快速建设与使用。 3、语料标注的加工标准使用中科院计算所汉语词性标记集V3.0。 二、语料收集与加工

哪里有可以免费使用的大型英语语料库资源-外语教学与研究出版社

语料库相关资源 David Lee语料库研究书签 Bookmarks for Corpus-based Linguists (David Lee) https://www.doczj.com/doc/8113302430.html,.au/~dlee/CBLLinks.htm (https://www.doczj.com/doc/8113302430.html,/corpora) 常用语料库资源链接汇集(语料天涯) https://www.doczj.com/doc/8113302430.html,/corpus/ 互动平台 https://www.doczj.com/doc/8113302430.html,/forum/ 入门读物 专著 梁茂成、李文中、许家金,2010,《语料库应用教程》。北京:外语教学与研究出版社。Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进) 期刊论文 中国期刊网 EBSCO英文期刊数据库 书店可以买到的语料库相关书籍 Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进) Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St. Jerome Publishing. (外研社引进) Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999. Longman Grammar of Spoken and Written English. Longman Publications Group. (外研社引进) Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进) Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)

中介语演讲稿

3.1中介语理论产生的历史背景 60年代是对比分析的兴盛时期。70年代初开始衰落,反映了一种历史的必然,因为这种理论方法无论在理论上还是实践上都面临着严重的危机。 因此,语言学家们为语言教师勾画了这样一幅图景:首先,语言学家们通过两种语言系统(L1和L2)的对比,为语言教师提供一个详细的菜单。这个菜单包括两种语言的相同点与不同点。然后,语言教师便依据这些不同点来预测学习者的难点,并据此来编写教学大纲和教材。但是后来的教学研究和实践证明,语言学家的许诺仅仅是一幅理想的图画而已。70年代初,对比分析遭到激烈的批评。如果第二语言学习者产生的错误完全可以通过两种语言的对比来预测。由此推论,语言的差异等于学习的难点,学习的难点必然导致语言表达的错误。问题是,语言差异是语言学上的概念,学习的难点则是心理学上的概念。学习的难点无法直接从两种语言差异的程度来推测。教学实践也证明,依据对比分析确认的难点事实上并不完全导致错误的产生。对比分析的理论方法存在的致命弱点,如果归结为一句话,那就是,人们试图用简单的语言学的方法去解决复杂的心理学的问题。语言习得涉及到学习的主体和客体的方方面面,对比分析却仅仅局限于语言系统的对比,忽略了学习者这一主体以及作为学习客体的学习过程。由于对比分析在理论与实践上的危机,人们呼吁一种新的理论的诞生,并要求这种新的理论把目光投向学习的主体和客体。早期的中介语理论正是在这种历史背景下产生的。 3.2中介语的概念 于根元、鲁健骥等是在中国应用语言学领域,最早进行了介绍、评述和研究中介语的意义、特点和研究方法。我们来看他们是怎么界定中介语的。于根元认为,所谓中介语就是介于习得语和目的语之间的独立的语言系统,他是第二语言习得者创造的语言系统。鲁健骥认为,中介语指的是由于学习外语的人在学习过程中对于目的语的规律所做的不正确的归纳与推论而产生的一个语言系统,这个语言系统既不同于学习者的母语,又区别于他所学的目的语。 3.3中介语出现的根源 我们着重重复一下鲁健骥对中介语的定义:中介语指的是由于学习外语的人在学习过程中对于目的语的规律所做的不正确的归纳与推论而产生的一个语言

基于语料库的中国大学生英语口语表达中的“中式 英 语” 探究

基于语料库的中国大学生英语口语表达中 的“中式英语” 探究 摘要:本文利用大学学习者英语口语语料库,选取全国大学英语考试口语考试部分27名考生的口语语料库作为研究对象,对其中出现的中式英语进行标注和分类。作者根据统计结果,从词法和句法两个层面分析我国大学生英语口语中出现的中式英语现象,探讨汉语母语作为中式英语出现的主要原因及对英语口语的影响,最后对中国大学生的英语日常学习及口语水平的提高提出相关建议,为广大高校师生提供借鉴意义。 关键词:中式英语中国大学生口语语料库 1.引言 中国大学生在他们的年纪已经获得用汉语思考和表达的能力,形成用汉语思考和表达的习惯。绝大部分中国人都是在掌握了母语之后才开始学习英语的,所以在学英语的过程中,总是从中国人的思维角度思考,不顾西方的语言习惯,这就造成中式英语的大量存在。由于不符合英语的表达习惯,中式英语在人际交流中有时会引起误解和困惑。因此,它作为一种特殊的语言现象,应该引起人们的注意。在中国,高校在校学生占英语学习者的很大一部分,他们毕业之后就

由英语学习者转变为英语使用者,所以他们在学校学得如何,直接影响他们在工作岗位上用得如何。 从现状看,我国大学毕业生的平均英语水平不能满足各行各业越来越高的需求,尤其是在口语表达和人际交流方面。在现行教育体制下,高校英语教学过于强调语法和词汇的讲解,而对学生语言能力的培养和英语文化的教授则有所忽略。其结果就是许多中国大学生在学了十多年英语之后,只是善于记忆单词和语法规则;他们能在笔试中得高分,但是一张嘴就是中式英语。 《牛津英语词典》对中式英语作了如下定义:中式英语是一种汉语和英语的混合体;尤其是汉语使用者使用的或中英双语语境中的一种英语变体,典型地夹杂一些汉语的词汇和结构,或是汉语语境中特有的英语术语。 总的说来,中式英语是指一种不符合英语文化习惯的畸形英语,由某些受汉语思维方式和文化背景影响而将母语的语言规则运用到英语中的中国人说出或写出。 2.研究方法 2.1研究对象和数据收集 “大学学习者口语语料库”由上海交通大学的杨惠中教授主持完成。该语料库容量达70万字,来源是全国大学英语考试口语考试部分的真实音视频材料。它按照考试来源地、专业、考试成绩和对话题目,采取随机抽样的方法组

语料库

Background Information 语料库的概念 语料库是指按照一定的语言学规则,利用随机抽样的方法收集的有代表性的语言材料的总汇,它是语言材料的样本。 语料库通常指为语言研究机构收集的,具有一定容量的大型电子文本语料库。它是由口语语料和书面语的样本汇集而成,用来代表特定的语言或语言变体,或经过加工后带有语言学信息标注的文本的集合。 语料库的分类 按照语料库所涉及的语言种类,语料库课分为单语语料库,双语平行语料库(parallel corpus)和多语语料库(multilingual corpus); 按照语言涉及的题材,语料库可分为普通语料库(general corpus)和专门用途语料库(specialized corpus); 按语料的来源,又可分为口语语料库和书面语语料库; 按语料库是否被标注,语料库可分为生语料库或原始语料库(raw corpus)和熟语料库或标注语料库(annotated corpus) In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is

中介语

中介语简介中介语理论是二语习得中的一个重要理论,它产生于20世纪70年代初并于80年代初被介绍到我国,对我国的外语教学产生了巨大的推动作用,人们也逐步认识到中介语在外语教学中的积极作用。Selinker在其论文Language Transfer (1969)中首次使用了“interlanguage”一词,并于1972发表了题为Interlanguage的研究论文。Selinker认为,中介语是第二语言学习者独立的语言系统,在结构上处于母语和目的语的中间状态(1972)。 中介语在英语学习中的干扰作用 一、中介语定义及特点 中介语(Interlanguage, 简称IL)一词是英国语言学家Selinker 1969 年首次提出. 现在又被译为过渡语、中间语、中继语、语际语等。它是指学习者在某一段时间内所创建的内在语言体系或学习者在整个学习过程中所构建的相互关联的语言体系。学习者在学习和使用第二语言时,不断接受和理解新的语音、语法知识,在此基础上逐渐形成自己的语言结构。并不断对其进行系统的预测调整,通过归纳和推论产生中介语。中介语的语言系统在结构上处于母语(Native Language)和目的语(Target Language)之间,具有独立性,并兼有两者的特点。综合国内外近来的研究,中介语有如下一些特征: 1.独立性 中介语是一个独立的语言系统,它既不同于母语, 又区别于外语, 也不能单纯的把它地看作外语学习过程中由于受母语的干扰而形成的混合体。中介语有其独特的语言规则,这些规则常常被学习者用来解释外语中固有而不规则的语言现象。 2.阶段性 中介语在逐渐进化的过程中,具有一定的阶段性。它是一个开放的体系,不是固定的一成不变的。这个体系在不断被新知识渗透的同时,修正原有知识,逐渐接近目的语。 3.动态性 在外语学习过程中,学习者的中介语在不断的发展变化。虽然它充满了错误,但由于新的语言规则有及强的扩展能力,它们处于不断的组合和变化中,因此中介语随着学习者的努力和交际需要而不断变化,由简而繁,由低而高,逐渐离开母语而接近目的语。如果我们设在母语与目的语之间的中介语为一个连续体,那么,在某一特定阶段,学习者的中介语可以用连续体上的某一点。中介语越接近目的语,说明学习者的外语水平越高。 4.系统性 中介语在每个阶段都表现出较强的系统性和内部一致性。它也是一个由内部要素构成的系统,就是说它有语音的、词汇的、语法的规则系统,而且自成体系。学习者对中介语的使

可以免费使用的大型英语语料库资源

可以免费使用的大型英语语料库资源 https://www.doczj.com/doc/8113302430.html,/time/ http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集(语料天涯) http://202.204.128.82/sweccl/Corpus/ https://www.doczj.com/doc/8113302430.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.doczj.com/doc/8113302430.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.doczj.com/doc/8113302430.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.doczj.com/doc/8113302430.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.doczj.com/doc/8113302430.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.doczj.com/doc/8113302430.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.doczj.com/doc/8113302430.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.doczj.com/doc/8113302430.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.doczj.com/doc/8113302430.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

国家语委十五科研重大项目-现代汉语语料库的建设及深加

国家语委十五科研重大项目-现代汉语语料库的建设及深加工 国家语委语料库科研成果简介 教育部语言文字应用研究所计算语言学研究室 一、国家语委现代汉语语料库介绍 语料库是存储于计算机中并可利用计算机进行检索、查询、分析的语言素材的总体。基于语料库的分析方法是对传统的基于规则的分析语言的方法的一个重要补充。语料库具有“大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字信息处理等领域的基础工程。近十几年来,美、英、法、德、日等国家都投入巨资,相继建立了大规模的语料库,如英国国家语料库BNC等。我国从1990年开始由国家语言文字工作委员会主持,组织了语言学界和计算机界的专家学者共同建立了大型的国家级语料库,即国家语委现代汉语语料库。 国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目标。国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领先水平,在语料可靠、标注准确等方面具有权威性。国家语委现代汉语语料库面向国内外的长远需要,选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。 国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约40个小类组成。具体类别如下: 1.人文与社会科学类划分为8个大类和30个小类:(1)政法:哲学、政治、宗教、法律;(2)历史:历史、考古、民族;(3)社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗;(4)经济:工业经济、农业经济、政治经济、财贸经济;(5)艺术:音乐、美术、舞蹈、戏剧;(6)文学:小说、散文、传记、报告文学、科幻、口语;(7)军体:军事、体育;(8)生活。

当汉语语料库文本分词规范草案

973当代汉语文本语料库分词、词性标注加工规范 (草案) 山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。这次承担973任务后制定出本规范。本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。 《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。 1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年 2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布 3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年 北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年 北京大学计算语言学研究所 5.《信息处理用现代汉语词类标记规范》,2002年, 教育部语言文字应用研究所计算语言学研究室 6.《现代汉语语料库文本分词规范说明》,2000年 山西大学计算机科学系山西大学计算机应用研究所 7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会 一、分词总则 1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。追求分词后语料的一致性(consistency)是本规范的目标之一。 2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。本文中仍用“词”来称谓“分词单位”。 3.分词中充分考虑形式与意义的统一。形式上要看一个结构体的组成成分能否单用,结构体能否扩展,组成成分的结构关系,以及结构体的音节结构;意义上要看结构体的整体意义是否具有组合性。 4. 本规范规定的分词原则及规则,既要适应语言信息处理与语料库语言学研究的需要,又力求与传统的语言学研究成果保持一致;既要适合计算机自动处理,又要便于人工校对。 5.分词时遵循从大到小的原则逐层顺序切分。一时难以判定是否切分的结构体,暂不切分。 二、词性标注总则 信息处理用现代汉语词性标注主要原则有三个: (1)语法功能原则。语法功能是词类划分的主要依据。词的意义不作为划分词类的主要依据,

国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探* 王立非1,刘斌2 (1.南京大学, 江苏南京 210093; 2.解放军国际关系学院,江苏南京 210039) 摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一, 对开展口语语料库研究和语言习得研究具有重要价值,本文探讨该语料库 的录写系统的赋码原则与具体操作问题,对促进我国英语口语语料库的建 立和研究具有借鉴作用和启示意义。 关键词:国际儿童口语语料库;英语口语语料;语料库语言学 中图分类号:文献标识码:文章编号:The CHILDES Corpus: Coding and Operation of the CHAT Tool WANG Lifei1, LIU Bin2 (1. Nanjing University Nanjing, Jiangsu Prov., 210093; 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China) Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China. Key words: CHILDES;English spoken corpus;corpus linguistics 1.引言 新世纪的语言学研究已进入计算机时代,基于语料库的研究成果不断涌现,国际儿童口语语料库CHILDES(Child Language Data Exchange System)就是众多语料库中的一员,已有一千项基于这个语料库的研究成果发表。该语料库由美国麦克阿瑟基金会资助,于1984年开始筹建,经过近20年的建设,已成为目前世界上最大的儿童口语语料库。到目前为止,该语料库已收集了包括英语、汉语在内的25种语言。用户可直接从网上免费登录、使用或下载(https://www.doczj.com/doc/8113302430.html,/CHA T.html)语料。CHILDES语料库由三部分组成,第一部分是儿童英语口语语料库(DATA-BASE),第二部分为文本赋码系统(CHAT),第三部分为语料分析程序(CLAN),均可在网上免费下载。本文探讨该语料库的录写系统的文本赋码原则和操作,目的是对我国建设英语口语语料库提供借鉴与启示。 2.录写赋码系统的途径与原则

中介语语料库与汉语教学研究

中介语语料库与汉语教学研究 什么是汉语中介语 早期的和后期的(早期受行为主义影响,语言学家通过对比发现差异,预测可能有的错误,从而指定大纲) 早期对比分析的理论方法存在致命弱点,如果归结为一句话,那就是,人们试图用简单的语言学的方法取解决复杂的心理学的问题。语言习得涉及学习的主体和客体的方方面面,对比分析却仅仅局限于语言系统的对比,忽略了学习者这一主体以及作为学习客体的过程。 早期的中介语理论,首先在理论导向上实现了所谓“教学中心”的观点向“学习中心”的观点的根本转变。 中介语理论把目光转向学习者特有的语言系统,并将其作为一个独立的、与学习者的母语和目的语系统并列的系统来考察。也就是说,中介语研究不仅要考察学习者的母语和目的语系统,还要考察学习者的中介语系统,考察学习者自身及习得过程,这标志着第二语言习得研究方向的根本转变。 目前中介语研究在方法上存在的问题: (1)在研究方法上一个最严重的问题是不能进行重复性的研究;(2)在对第二语言学习者的言语行为进行解释时,没有考虑到足够的相关材料;(3)只在单一的情景运用单一的方法收集中介语语料;(4)收集数据的方法不恰当;(5)在假设检验的研究中满足于对逸闻趣事的材料进行分析,缺乏定量分析;(6)在实验研究中或获得基线数据时,收集数据的手段可靠。 有关中介语的研究 王建勤《历史回眸:早期的中介语理论研究》,《语言教学与研究》2000年第2期。 王建勤《关于中介语研究方法的思考》,《汉语学习》2000年第3期。(中介语研究的理论和方法进行了探讨) 彭利贞《论中介语的语篇层次》,《第五届国际汉语教学讨论会论文选》北京大学出版社1997年。 ----------------------------------- 中介语研究的现状与发展 自上世纪80年代算起,对外汉语教学领域的中介语研究已经有20多年的历史了。20多年来,这一领域的研究发生了很大的变化。 1984年鲁健冀《中介语理论与外国人学习汉语的语音偏误分析》 中介语研究引起了普遍的关注 由于中介语理论的引进不够系统,对外汉语教学界的中介语研究基本上停留在偏误分析的基础上。 近年来中介语研究的进展表现之一是研究的范围进一步扩大。从语篇的角度研究学习者的中介语系统,早在上世纪80年代初就引起了国外学者的关注。在汉语习得研究领域,中介语

可以免费使用的英语语料库资源

可以免费使用的大型英语语料库资源 常用语料库资源链接汇集(语料天涯) http://202.204.128.82/sweccl/Corpus/ https://www.doczj.com/doc/8113302430.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.doczj.com/doc/8113302430.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.doczj.com/doc/8113302430.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.doczj.com/doc/8113302430.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.doczj.com/doc/8113302430.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.doczj.com/doc/8113302430.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.doczj.com/doc/8113302430.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.doczj.com/doc/8113302430.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.doczj.com/doc/8113302430.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

英汉语料库汇总

1.英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外、上海交大 2.大学英语学习者口语语料库 COLSEC (5万) 上海交大 3.香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学 4.中国英语专业语料库 CEME (148万) 南京大学 5.中国英语学习者口语语料库 SECCL (100万) 南京大学 6.国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) 华南师大 7.硕士写作语料库 MWC (12万) 华中科技大学 9.平行语料库汉英平行语料库 PCCE 北外 10.南大-国关平行语料库南京大学 11.英汉文学作品语料库;外研社 12.冯友兰《中国哲学史》汉英对照语料库 13.李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库 14.计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所 15.柏拉图(Plato)哲学名著《理想国》的双语语料库 16.英汉双语语料库(15万对) 中科院软件所 17.英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所 18.英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学 19.英汉双语语料库(40-50万句子对) 哈尔滨工业大学 20.双语语料库(5万多对) 北京大学计算语言学研究所 21.对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学 22.平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾 23.特殊英语语料库中国英语(China English)语料库河南师范大学 24.军事英语语料库(Corpus of Military Texts) 解放军外语学院 25.新视野大学英语教材语料库上海交通大学 26.汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学 27.现代汉语语料库(1983年,2000万字) 北京航空航天大学 28.中学语文教材语料库(1983年,106万8000字) 北京师范大学 29.现代汉语词频统计语料库(1983年,182万字) 北京语言学院 30.国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会 31.《人民日报》语料库(2700万字) 北京大学计算机语言学研究所 32.大型中文语料库(5亿字,10分库) 北京语言文化大学 33.现代汉语语料库(1亿字) 清华大学 34.汉语新闻语料库;(1988年,250万字) 山西大学 35.标准语料库(2000年,70万字) 36.生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学 37.现代自然口语语料库中国社会科学院语言所 38.旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所 39.北京大学汉语语言学研究中心的三个语料库

现代汉语常用词表

现代汉语常用词表(草案) 现代汉语常用词表(草案) 1.范围 本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008个,形成《现代汉语常用词表》,给出了词语的词形。 本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。 2.术语和定义 2.1 常用词 现代汉语普通话范畴中使用频率高、适用范围广的词语。 2.2 词形 本规范(草案)指词语的书写形式。 2.3 词频 在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。本规范(草案)指词语的出现次数。 2.4 频级 同一语料调查范围中词频数相同的为一个频级。本词表频级统计分两步:第一步形成不同类型语料库的频级,即原始频级。第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。 3.研制原则 3.1 词和语兼顾原则

本规范(草案)的词语收录,以单音节词和双音节词为主。同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。 3.2 系统性和实用性兼顾原则 本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“‘晚’+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残’+季节”的词语,只收录“残冬”未收录“残春”“残秋”“残夏”。 4.《现代汉语常用词表》(草案)说明 4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及Google网简体中文网页、百度网等常用网页上的使用情况。 4.2本表用来检测词频的语料库有:国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年~2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约7 000万字的语料。总共2.5亿字。 4.3 本表共收录常用词语56 008个,包括单音节词3 181个,双音节词语40 351个,三音节词语6 459个,四音节词语5 855个,五音节和五音节以上词语162个。表内条目按频级升序排列,频级相同的按汉语拼音音序排列。 4.4 本规范(草案)提供了《现代汉语常用词表》的音序索引,按汉语拼音音序排列,同音的条目按笔画数由少到多排列。其中,词语的读音只供检索使用,不代表词语的读音规范。

相关主题
文本预览
相关文档 最新文档