汉语中介语语料库介绍
- 格式:ppt
- 大小:554.50 KB
- 文档页数:16
2012年5月第2期语言文字应用Applied Linguistics May ,2012No.2[收稿日期]2011-12-01[作者简介]张瑞朋,中山大学国际汉语学院讲师,博士,主要研究语言学及应用语言学。
*本文得到国家社会科学基金青年项目(10cyy020)资助。
留学生汉语中介语语料库建设若干问题探讨*———以中山大学汉字偏误中介语语料库为例张瑞朋(中山大学国际汉语学院广东广州510275)[摘要]文章以中山大学汉字偏误中介语语料库为例,着重讨论建设相关中介语语料库时应注意的四个问题:语料真实性和连续性问题;语料的科学标注,尤其是汉字偏误标注问题;检索工具的简易使用问题;附属系统问题。
文中还结合建设实践提出了一些可资借鉴的方法和建议。
[关键词]汉字偏误标注;中介语语料库;标注[中图分类号]H195[文献标识码]A [文章编号]1003-5397(2012)02-0131-06Building Chinese Interlanguage Corpus :The Case ofCharacter Error-tagged Chinese InterlanguageCorpus of Sun Yat-Sen UniversityZHANG RuipengAbstract :The paper reports the preliminary findings of character error-coded ChineseInterlanguage Corpus of Sun Yat-Sen University.The corpus is used as an illustration on some theoretical issues in interlanguage corpus building.The first one is the authenticity and continuity of the corpus.The second one is the principled tagging ,especially the tagging for the characters errors.The wrong characters are created by Truetype Character Editor in Windows ,and stored and displayed as images.The characters can be edited.The third issue is that the retrieval tool should be multifunctional and user-friendly to guarantee the efficient use of corpus data.The last issue is the development of the sub-system of corpora.Keywords :tagging of character errors ;interlanguage corpus ;annotation·132·语言文字应用2012年第2期一前言随着语料库语言学在国内外的迅猛发展,语料库建设与研究正在成为语言研究的重要领域。
中介语理论与对外汉语教学中介语理论最早出现于20世纪70年代,一般认为,1972年塞林格的《中介语》一文标志着该理论的诞生。
它与以往的语言学理论不同,是一门以学习者自身及习得过程为研究重点的新理论。
因此,一经出现,就引起了各国语言学家的关注,近年来,我国的中介语理论研究也开展得十分迅速。
本文在总结以往研究情况的基础上,探讨中介语理论在对外汉语教学中的应用,希望对实际教学能有所裨益。
一、中介语理论的研究状况(一)国外的中介语理论研究一般认为,国外的中介语理论研究分为早期和后期两个阶段。
从时间上界定,早期的中介语理论研究自20世纪60年代末到20世纪70年代,后期的中介语理论研究则从20世纪80年代开始。
1.早期的中介语理论研究20世纪70年代初,对比分析因无法有效指导实际教学与学习,受到了众多语言学家的批判。
在这个背景下,以学习的主体和客体作为研究重点的中介语理论出现了,为第二语言习得研究带来了新的曙光。
代表学者及贡献如下:(1)Corder的贡献。
1967年,Corder发表了颇具影响的论文《学习者言语错误的重要意义》,提出了许多新观点:首先,Corder区分了“失误”与“偏误”。
“失误”是非系统性的,是学习者在偶然情况下产生的错误;而“偏误”具有系统性,它反映了学习者现时的语言知识或过渡能力,因此进行偏误分析是探索第二语言习得规律的一个好方法。
其次,Corder提出了“内在大纲”的概念。
所谓内在大纲是指“学习者拥有的一种控制学习目的语规则的程序化序列,这个序列并不因为外界因素(如教学序列)的影响而改变。
”[1](P72)学习者在进行第二语言学习时,所接触到的语言材料很多,但并不能够全部吸收,Corder认为这就是“输入”(所接触的语言材料)与“内化”(将语言材料吸收)之间的矛盾,同时也说明学习者的语言系统是由学习者的内在大纲决定的。
最后,Corder阐明了学习者语言系统的动态特征。
当学习者接触到外在言语输入时,其内在的习得机制就建立起所谓“过渡的规则系统”,当新的信息规则与目前的过渡系统不一致时,学习者的内在习得机制便会对过渡系统规则进行检验和更新,使学习者的语言系统总是处在一个不断变化的动态过程中。
文_读天下学术探讨322I N S I G H T摘要:本文对国内近5年研究者发表在中国知网的基于语料库的中介语研究进行了系统的统计和研究,从研究概况、研究成果等方面展现了中介语的研究现状,总结出中介语近五年的研究趋势,为学习者和研究者提供参考,为进一步研究中介语指明方向。
关键词:语料库;中介语;CEA;CIA一、前言中介语这一概念是由Selinker 于1969年首次提出并在“Interlanguage”论文中正式使用:即学习者在某一阶段所建立起来的目标语知识系统和由此相互连接而引起的一种连续体(Selinker,1972)。
中介语是既不同于学习者母语也不同于目的语的独立语言系统。
但这并不意味着它和母语和目的语没有任何关系,中介语既有学习者母语又有目的语的特征。
“语际语”和“过渡语”等译名在其他文献里也有出现。
术语命名的不同展现了研究者不同观察角度。
中介语研究标志着二语习得研究作为独立研究领域的开始(文秋芳、王立非,2004)。
本文对国内近5年研究者发表在中国知网的基于语料库的中介语研究进行了系统的统计和研究,总结了中介语研究状况及研究趋势。
二、基于语料库中介语整体研究概况本文以语料库及中介语为主题,通过对近5年发表在中国知网上的文献进行检索,得文献355篇。
通过人工删除非相关文献158篇,所研究文献共197篇。
2010-2014年基于语料库的中介语研究的期刊分别为39,50,43,35,30;其中核心期刊分别为5,2,4,2,3,可见核心期刊发表的研究成果一直保持平稳趋势,变化不大。
2010-2014年基于语料库的理论研究分别为12,10,7,13,5;实证研究分别为27,40,36,22,25。
可以看出国内基于语料库的中介语研究处于以实证研究为主的局。
最后对所研究的文献中使用的语料库分布做了统计(见图1),共30个不同的语料库出现在所研究的论文中。
使用频率最高的3个语料库分别是CLEC (57.28%)、自建语料库(24.12%)与WECCL(21.1%)。
新疆少数民族预科生汉语口语中介语语料库建设的构想本文主要阐述了当前国内外中介语语料库建设的基本状况,建立新疆少数民族汉语口语中介语语料库的意义,以及建设的目标、内容、思路等。
建设本语料库的意义主要在于:填补新疆地区中介语语料库建设的不足,为少数民族汉语口语教学研究提供详实的研究材料和科学定量研究的方法;为口语的教学、教材、测试等提供科学的参考依据。
通过本语料库的建设,汉语口语教学与研究将走上更加严谨和科学化的道路。
标签:新疆少数民族汉语口语中介语语料库一、中介语语料库建设的相关概念及状况综述(一)中介语、语料库及语料库语言学美国著名语言学家赛林克在1969年首次提出了“中介语”这一概念。
“所谓中介语是指在第二语言习得过程中,学习者通过一定的学习策略,在目的语输入的基础上所形成的一种既不同于第一语言,也不同于目的语,随着学习的进展向目的语逐渐过渡的动态的语言系统。
中介语的研究能帮助我们发现第二语言习得的不同发展阶段,探索学习者语言系统的本质,揭示第二语言的习得过程,以及第一语言对二语习得的影响。
”①可以说对中介语的研究是第二语言习得理论研究的重要突破。
“语料库是指一个按照一定的采样标准采集而来的,能够代表一种语言或者一种语言的变体或文类的电子文本集。
而语料库语言学则是以语料库为基础的语言研究方法。
”②语料库按照应用的方向可分为“通用型语料库”和“专用型语料库”;按用途,可分为“笔语语料库”和“口语语料库”;按语言属性,可分为“单语”“双语”“多语语料库”;按语言变体,可分为“本族语”“译语”“学习者中介语语料库”;按时间,可分为“共时”和“历时”语料库;按照语料状态,可分为“静态语料库”和“监控语料库”。
本研究将要建设的语料库属于学习者的口语中介语语料库,是为汉语的第二语言口语教学服务的专用型语料库,所收集的语料属于单语共时语料。
(二)国内外研究现状述评1.国外研究中介语的研究离不开语料。
最初中介语研究的语料大多数是研究者个人收集和统计的,很难对中介语进行科学的统计分析及定量研究。
“HSK动态作文语料库”语料标注及代码说明“HSK动态作文语料库”从字、词、句、篇、标点符号等角度,对所收入的作文语料中存在的外国人使用汉语的中介语偏误进行全面标注。
1 、字处理(包括标点符号)[C]:错字标记,用于标示考生写的不成字的字。
用[C]代表错字,在[C]前填写正确的字。
例如:地球[C](“球”是错字)、这[C]。
[B]:别字标记,用于标示把甲字写成乙字的情况。
别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。
把别字移至[B]中B的后面,并在[B]前填写正确的字。
例如:提[B题]高、考虑[B虎]。
[L]:漏字标记,用于标示作文中应有而没有的字。
用[L]表示漏掉的字,并在[L]前填写所漏掉的字。
例如:后悔[L],表示“悔”在原文中是漏掉的字。
农[L]药,表示“农”在原文中是漏掉的字。
[D]:多字标记,用于标示作文中不应出现而出现的字。
把多余的字移至[D]中D的后面。
例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。
[F]:繁体字标记,用于标示繁体字。
把繁体字移至[F]中F的后面,并在[F]前填写简体字。
例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。
注意:1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。
例如:俭朴[F樸[B僕]]。
2)繁体字写错了,标为:后[F後[C]]。
[Y]:异体字标记,用于标示异体字。
把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。
例如:偏[Y徧]、沉[Y沈]。
[P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。
把拼音字移至[P]中P的后面,并在[P]前填写简体字。
例如:缘[Pyúan]分、保护[Phù]。
[#]:无法识别的字的标记,用于标示无法识别的字。
每个不可识别的字用一个[#]表示。
例如:更[#][#]保存自己的生命,……[BC]:错误标点标记,用于标示使用错误的标点符号。
基于中介语语料库的汉语意义被动句偏误分析本文基于HSK动态作文语料库,通过数据统计、偏误分析、对比分析等方法,考察留学生意义被动句使用的偏误现象及成因,并提出相应的教学对策。
标签:中介语语料库意义被动句偏误分析一、引言意义被动句又称无标记被动句或受事主语句,它是汉语中一类较特殊的句式,这类句子的主语是受事,表示被动意义,但却不用被动标记。
意义被动句因没有特殊的语法形式标记,而语义上又可能存在多重含义,所以一向是外国留学生的学习难点,同时也是对外汉语中的教学难点。
意义被动句的研究多集中在本体研究中,如:李珠(1989)、王灿龙(1998)、邵桂珍(2001)、赵焕改(2007)等。
应用研究方面,吴门吉、周小兵(2005)和吕文华(2013)比较了意义被动句和“被”字句的习得难度,提出教学构想。
戴雨萍(2013)则考察了留学生意义被动句的习得情况。
本文主要采用北京语言大学研制的“HSK动态作文语料库”作为研究语料,对来自印尼、马来西亚、新加坡等15个国家的留学生的意义被动句的偏误进行考察。
笔者通过对语料库中的错篇进行抽样检索,检索A类文章25篇,B类文章50篇,C类文章50篇,共检索到意义被动句句例110条,其中偏误例句共有43条,偏误率达39.1%。
二、留学生意义被动句的使用偏误(一)不同等级留学生意义被动句的使用偏误根据HSK动态作文语料库留学生汉语水平的证书等级,笔者将语料进行分类,考察不同等级的汉语学习者意义被动句的使用偏误,详见表1:由上表可以看出,不同水平的留学生意义被动句使用的偏误情况很不一样。
A等级的学生偏误率是30.0%,而B等级、C等级的学生的偏误率均在40%以上,差距非常大。
可见,汉语水平越低,留学生意义被动句使用的偏误率就越高,并且在学习过程中可能还存在着倒退的现象。
(二)不同作文分数留学生意义被动句的使用偏误证书等级反映的是留学生汉语的综合水平,而作文分数反映的是留学生对书面语的组织能力。
我国汉语中介语语料库研究现状与热点透视——基于CiteSpace的可视化分析蔡武;郑通涛【摘要】运用可视化分析软件CiteSpace5.0及文献计量方法,以1993年至2016年中国知网期刊全文数据库中汉语中介语语料库建设与应用研究的相关论文作为数据来源,对其进行统计分析;全面地梳理和考察了这些论文的发表年代、发文期刊、发文机构、核心作者及关键词聚类形成的研究热点,并绘制可视化知识图谱.这有助于理清当前我国汉语中介语语料库研究的知识结构和发展脉络,以期为未来该领域研究的深入与推进提供参考.【期刊名称】《华文教学与研究》【年(卷),期】2017(000)003【总页数】9页(P79-87)【关键词】汉语中介语语料库;CiteSpace;研究现状与热点;可视化分析【作者】蔡武;郑通涛【作者单位】厦门大学海外教育学院,福建,厦门361102;厦门大学海外教育学院,福建,厦门361102【正文语种】中文【中图分类】G250.74;H1951995年,北京语言学院建成了中国第一个汉语中介语语料库。
进入21世纪以来,随着汉语国际教育事业的不断深化,南京师范大学、中山大学、暨南大学等高校的汉语中介语语料库相继建成,汉语中介语语料库建设跨入了繁荣发展的重要时期。
与此同时,口语语料库、多模态语料库、单国别及单母语背景学习者的中介语语料库、国内少数民族的汉语中介语语料库等不同形式的语料库也逐渐进入人们的视野(张宝林、崔希亮,2013);而与汉语中介语语料库建设热潮及形式多样化相对应的是,汉语中介语语料库的建设与应用给学界带来诸多新的课题。
可以说,汉语中介语语料库不但为研究者探索汉语的语言现象提供了更多的语料资源,也极大地提高了汉语作为第二语言教学研究的水平(崔希亮、张宝林,2011)。
20多年来,汉语中介语语料库相关的研究及学术成果不断增加。
在这样的背景下,深入探究和挖掘当前该领域的研究现状与研究热点,是非常有必要的。
中医汉语中介语语料库与中医汉语教学研究中医汉语教学属于专门用途汉语教学,中医院校的对外汉语教学尽管历史相对短暂,却有着很大的发展空间。
本文论证了语料库研究法与中医汉语教学的内在联系,拟运用语料库研究法,从中介语和本族人的专用语料库出发,在实际语料中对比分析,所得统计数据将直接指向中医汉语教学。
标签:专门用途汉语中医汉语教学语料库研究中介语一、引言中医建设语料库是存储大规模真实文本的数据库系统,中医汉语语料库的建设,属于专用语料库建设。
本文设置假说,希望通过建立中医汉语中介语语料库,指导中医汉语教学模式的改革。
我们拟通过采集中医学专业各个层级的留学生在学习中医课程时的书面文本,进行规范的标注,从而建立中医汉语的中介语语料库。
通过对中介语语料库的观察,指向教学及科研,期望在现阶段既有教学模式的基础上探讨中医院校的留学生汉语教学的改革。
(一)中医汉语教学的特点专门用途汉语,是指用于某种专业领域、特定范围和固定场合的汉语,并不限于跟学科密切相关的专业汉语,还包括特定业务、特定场合、特定环境中使用的汉语(李泉,2011)。
对外汉语学界参照专门用途英语,把专门用途汉语英译为“Chinese for Specific Purposes”(简称CSP)。
“中医汉语”是中医药领域专用汉语。
“中医汉语教学”是以留学生为受众,以中医中药领域的专用汉语为教学内容的一门学科,它与商务汉语、科技汉语、旅游汉语等同属专门用途汉语教学。
在“汉语作为第二语言教学”的对外汉语领域,中医汉语教学拥有专门的教学目标(即让留学生成功习得中医药专用语)和特定的教学内容(如中医药专用词汇及固定结构、开处方、中医经典、撰写实习报告等),以培养学生在特定领域的技能或能力为目标(即掌握听说读写等多个方面的技能,能够在既定情景中进行成功交际)。
(二)中医汉语教学研究现状中医药院校留学生汉语教学是对外汉语的一个特定方向,但是长期以来并未得到学界的重视。