基于语料库的对外汉语习得研究
- 格式:doc
- 大小:31.00 KB
- 文档页数:3
基于语料库的翻译教学研究
随着全球化的加速以及中外交往的不断增强,中文翻译已成为最为重
要的跨文化交流方式之一。
然而,在中文翻译教学中,传统的课堂教学方
法难以满足日益增长的翻译需求。
随着互联网和计算机技术的飞速发展,
语料库翻译成为一种新的翻译教学方式,为学生提供了更为实用和高效的
翻译实践经验。
语料库翻译是指利用大规模的平行语料库来进行翻译学习,通过分析
语料库中的句子构造、单词搭配、语法结构等,让学生了解不同语言之间
的差异和奥秘,从而提高其翻译技能。
与传统的翻译方法相比,语料库翻
译具有以下几个优点:
1.实用性强。
语料库翻译能够迅速提供学生所需的大量平行语料库,
使学生能够更好地了解翻译的实际应用情况,提高其翻译水平和适应能力。
2.掌握语言的特点和规律。
通过对语料库的分析,学生可以更好地掌
握词语的搭配和使用规则,从而更准确地把握翻译的精度和流畅度。
3.提高效率。
语料库翻译可以快速地进行批量翻译,并且能够自动检
测翻译的准确性和合理性,同时还能提供更详细的反馈和纠错建议,以帮
助学生快速修正错误。
由此可见,语料库翻译教学不仅可以提高学生的实际翻译技能,还可
以更好地帮助学生了解语言的规律和特点,从而更好地应对复杂多变的翻
译任务。
因此,未来中文翻译教学应该更多地融合语料库翻译的方法和技术,以更好地培养具有实际应用能力和创新潜力的翻译人才。
外国学习者汉语作为第二语言语用习得研究综述语用习得研究是二语习得研究中的重要课题。
本文梳理了第二语言习得研究领域中关于第二语言语用能力的构成、汉语第二语言语用习得、二语语用能力的测试与评估等三方面重要研究成果,以期为今后的汉语作为二语的语用习得研究服务。
标签:第二语言语用习得综述一、引言语用习得及语用能力发展问题一直是第二语言习得研究中的重要问题。
自Hymes(1972)提出交际能力以来,语用能力作为其重要的组成部分得到二语习得研究的极大关注。
关于二语语用习得的研究经历了一系列发展变化:从关注汉语学习者的言语行为、礼貌问题到发现会话含义、预设、话语标记语等语用特征对学习者语用发展的重要意义;从重视学习者单一的言语行为实施到综合分析其语用意识、语用理解、话语产出的整体语用能力;从静态地分析学习者的语用知识到动态地考察学习者在会话中的互动语言行为、关注学习者在会话中的互动语用能力。
这些在不同研究理念、研究方法下取得的研究成果为我们今后开展汉语二语语用习得研究提供了很好的借鉴。
下文具体梳理和总结关于第二语言语用能力的构成、汉语第二语言语用习得研究、语用能力的测试与评估、第二语言语用能力发展等方面的重要研究成果。
二、第二语言语用能力的的界定及构成要素Thomas(1983)将语用能力分为语用语言能力、社会语用能力,前者指理解和运用具体语言形式对应的话语功能以达成施为用意的能力;后者指根据交际的身份、地位权势、社会距离等社交因素而在具体场景理解和产出得体话语的能力。
Bachman(1990:84-98)同样对语用能力进行了界定与分类,他将语用能力分为施为能力和社交语言能力。
施为能力指“交际者在话语表达过程中结合特定语境传递和理解施为用意的能力”,社交语言能力指“交际者对具体语言使用语境特征所决定的语用规范的敏感程度或控制能力”。
李民、肖雁(2012)认为,通过比较,Bachman(1990)讨论的施为能力和社交语言能力分别对应Thomas (1983)提出的语用语言能力和社会语用能力。
基于语料库的现代汉语研究方法综述一、绪论正如Sinclair所言:语料库所提供的海量语料使研究者系统地对大量文本语料进行审视,使我们有可能发现一些新的未发现的语言事实。
语料库在语言研究中能提供空前广泛的语言资料,使得对语言多方面、多层次的研究成为可能。
本文以2000年以来基于语料库的现代汉语研究的文献为依托,深入分析文献中基于语料库的研究方法,并从借助的语料库类型进行具体综述,据此对研究中存在的问题进行了分析。
二、借助的语料库类型语料库为语言描述提供了丰富的数据资源,在基于语料库的语言研究中,语言学家利用机储数据库去描写语言的词汇和语法。
基于语料库的研究方法,方便研究者统计数据,并在已有成果基础上,深化对某一类词群的研究。
然而,语料库种类众多,现代汉语研究方向也是多方面的,选择与研究内容相适应的语料库类型才能更好地提高研究效率,取得更佳的研究成果。
笔者通过归纳2000年以来基于语料库的现代汉语研究的文献,总结以下几种常用的语料库类型。
(一)基于标注语料库的研究标注就是使语料的某些单位(词、句、段等)和表示对这些单位的某种层次的理解的知识信息(标记符)相关联。
标记语料库即含有这些加工者添加其对语料的理解信息的语料库。
这样的语料库可以作为句法规律研究的重要参考。
孙建功等,基于标记语料库对单句句型句模对应关系进行研究,归纳总结出现代汉语单句句型和句模对应关系的主要特点。
杜婷借助《国家语委现代汉语通用平衡语料库》的标注语料库(在线提供免费检索的语料约2000万字),对现代汉语中小类词口部动词的频度进行了统计,进而发现其语法语用规律。
对语料库的标注工作,既是语料库建设中的一个重要环节,也丰富了语料库的利用价值,使其在句型、词汇等方面的研究中可以发挥出更大的作用。
(二)基于静态语料库的研究静态语料库是收集某一固定时期的共时语言使用样本构成的语料库,属于共时语料库的一种。
现有的许多类型的词典,被众多语言研究者运用到语言学研究中,形成基于静态语料库的现代汉语研究范式。
基于语料库的对外汉语教学领域术语提取卢一鑫(河南财经政法大学外语学院,河南郑州㊀450046)摘㊀要:文章介绍了自动提取对外汉语教学领域术语的方法㊂以对外汉语教学领域文本为目标文本,遵循主题取向㊁语料科学性㊁样本代表性㊁规模有限性等原则,建立专用语料库,并对其进行分词标注等加工;将统计学和语言学规则相结合,引用C -value 方法计算术语度值,探索该领域内不同长度术语的发现㊁辨识及提取的 混合方法 (hybrid solution),最终建立对外汉语教学术语集,其中包含单词型术语238个,两词术语375个,三词术语121个和50个由4~6个单词组成的长术语㊂关键词:专用语料库;术语提取;对外汉语教学;对外汉语教学术语集;C -value 算法中图分类号:H083;TP391㊀㊀文献标识码:A㊀㊀DOI :10.12339/j.issn.1673-8578.2024.01.002Corpus-Based Term Extraction in Field of Chinese Teaching as a Foreign Language //LU YixinAbstract :This paper introduces a method to extract terms of Chinese teaching as a foreign language.We take the text in the field of Chinese teaching as a foreign language as the target text,follow the principles of subject orientation,scientific corpus,and limited sample representation to establish a specialized corpus,and process it such as word segmentation and POS tagging.We combine sta-tistical and linguistic rules,use the C -value method to calculate the term degree value,and explore the hybrid solution to find,de-fine and extract terms of different lengths in this field.Finally a terminology base for Chinese teaching as a foreign language is estab-lished,including 238single word terms,375two word terms,121three word terms,and 50long terms (consisting of 4-6words).Keywords :specialized corpus;term extraction;Chinese teaching as foreign language;terminology base for Chinese teaching;C -value algorithm收稿日期:2023-07-09㊀㊀修回日期:2023-08-25㊀㊀网络出版日期:2023-11-16基金项目: 中国外语教育基金 项目 基于语料库的汉俄对外语言教学术语词典编纂方式探究 (ZGWYJYJJ11A102)阶段性成果0㊀引言术语作为描述和传播科学概念㊁定义和规律的基本要素,集中体现和负载了一个学科领域的核心知识,是人类科学知识在语言中的结晶,也是促进学科建设的有力工具㊂一种学问要成为一门独立的学科,必须有一整套术语来描述其研究对象㊁目的㊁方法㊁规律和定理的基本概念㊂科学㊁规范㊁系统的术语体系能促进一门学科的健康发展,相反,不科学㊁混乱的术语体系常常会阻碍一门学科的发展㊂随着对外汉语教学在全球的推广,有关对外汉语教学法㊁教学理论的研究越来越多㊂为促进对外汉语教学在全球的进一步发展,建立一个科学㊁规范的术语集具有重要意义㊂它不仅可以辅助编纂专业词典,同时也可在知识传播㊁机器翻译㊁科技写作等方面发挥重要作用㊂术语来源于文献资料,其中包括标准㊁词表㊁辞书㊁数据库㊁专著及论文等[1]277㊂语料库是由大量在真实情况下使用的语言信息经过科学地收集和组织而集成的专供研究使用的资料库,其主要应用领域为词典编纂㊁语义学研究㊁语言教学㊁信息获取㊁未登录词(out of vocabulary)获取以及基于实例的机器翻译等[2]5㊂对于自然语言处理而言,术语通常都是未登录词[3]㊂为此,建设用于提取对外汉语教学领域术语的专用语料库(specialized cor-pus),并对其进行加工,使其信息更加丰富,可以大大提高术语的辨识和提取效率㊂1㊀语料库的设计与建立语料库并非语篇的简单堆砌或集合,它应具有样本代表性㊁规模有限性㊁机读形式化等特征[2]2㊂本研究中创建语料库的目的是提取对外汉语教学术语,同时形成一个术语数据库,因此在创建该专用语料库时,遵循以下语料选取原则㊂1.1㊀主题取向性对外汉语教学是指对外国人的汉语教学㊂作为应用语言学下的一个分支学科,其理论基础是语言学理论(包括心理语言学㊁社会语言学㊁人类语言学)㊁心理学理论和教育学理论㊂它的研究对象就是对外汉语教学中的一般原则㊁方法和规律,以及与此相关的各种内部联系和外部联系㊂对外汉语教学研究围绕 怎样教 教什么 如何学 三方面展开,其实质就是作为第二语言或外语的汉语本体研究及其教学规律与习得过程研究㊂在目标领域文本中,术语具有较高的出现频率,而在其他领域文本中出现的频率则较低[3]㊂为保证该领域术语的识别和提取效率,减少噪声和漏提现象,在建库过程中,应选择专门研究以上对外汉语教学理论和方法论的书面文献,同时作者应是以中文为母语的对外汉语教学领域的学者㊂1.2㊀语料科学性术语作为专业领域中用来表示特定理论体系中普遍概念的专用词汇单位[4]60,具有专业性㊁科学性㊁理据性㊁确切性㊁系统性等特点㊂科技语体通常用来准确表述科学原理和科学规律,或系统地表述研究成果,因术语的含义固定㊁概念明确而大量运用术语,术语性就成为科技语体的首要和显著特点㊂因此,研究中仅选择符合上述主题取向的科技语体文献作为目标文本纳入语料库㊂1.3㊀样本代表性所选择的文献资料是否具有科学性和权威性,能否从总体上体现学科整体框架,直接影响术语抽取的精确率㊂1983年 中国教育学会对外汉语教学研究会 的成立标志着对外汉语教学作为一门学科正式诞生㊂之后,随着我国经济的发展和综合国力的提升,世界范围内学习汉语的人数逐年增长,对外汉语教学的理论和方法也在不断完善㊂2000年后,对外汉语教学事业飞速发展,学科内多个领域和方向的研究著作层出不穷,卷帙浩繁㊂为此,本研究选择出版于2000年后能够较为全面地涵盖该学科理论与实践研究成果并切实反映该学科发展水平的科学著作作为目标文本纳入语料库㊂1.4㊀规模有限性根据上文,所建的专用语料库应覆盖目标领域内所有术语,并且每个术语应出现一定次数以上,才可能获得有关其使用信息的可靠统计结果㊂因此,语料库需要达到相应的文本量㊂统计研究显示,汉语每个词平均有2个义项,要求每个义项出现5次,那么,为编制10000词的词典而创建的语料库应该包括10000ˑ2ˑ5=100000个句子㊂若句子的平均长度是40个字,那么语料库要达到400万字[2]6㊂在术语词典编纂中,影响其篇幅的主要因素是词典的学科取向㊁用途和功能㊂术语词典的基本功能之一是清点功能,即最大限度地反映某一学科领域的专业词汇㊂根据国际标准化组织的建议,规范术语词典的篇幅一般不宜超过1000个概念㊂而某一题材术语教学词典的最佳篇幅也应该在1000个词汇单位左右[1]148-149㊂因此,可以假设对外汉语教学领域的术语数量大约为1000个词汇单位,根据以上公式,旨在提取1000个术语的语料库规模应为40万字㊂根据上述标准,选择了以下两部学术著作,以扫描识别加人工校对的方式录入文本,创建语料库:1)商务印书馆于2014年出版的‘对外汉语教学概论“,陈章太㊁于根元主编,全书共计304 756字[5];2)商务印书馆于2016年出版的‘汉语可以这样教 语言技能篇“,赵金铭主编,全书共计95479字[6]㊂以上两部著作系统全面地阐述了对外汉语教学的基本理论㊁教学法㊁教材基本理论研究㊁汉语作为第二语言的习得与测试㊁汉语综合技能训练等各方面的内容,理论基础扎实,实践性强,作为对外汉语教师的培训教材,具有较高的权威性和代表性㊂2㊀语料库加工语料库加工分为不同层次㊂本研究的建库目的是提取对外汉语教学领域的术语,为此对语料库进行下列多层次加工㊂2.1㊀预处理将目标领域文本数字化是为随后的计算机自动处理文本所做的初步准备㊂为避免出现后续的标注和检索错误,以获得可靠统计结果,需要对文本进行预处理(语料清理),从而获取一个整洁的文本㊂在坚持原创原则的基础上,认真校对电子语料文本,删除乱码和嘈杂信息,检查错字漏字情况,然后借助软件 文本整理器 整理文本中空格㊁段落及标点符号方面的格式问题㊂2.2㊀切词(segmentation )与词性标注(POS tag-ging )汉语的最小书写单位是汉字,书面语句是连续字符串,除了标点符号之外,字与字之间没有空白㊂切词就是按照特定规范,对汉语按切词单位进行切分㊂经过切分,词与词之间的界限才会显现出来㊂词性标注是对已经过切词的语料中的每一个词赋予一个词性标记[2]8㊂按照国家标准‘信息处理用现代汉语分词规范“(GB /T 13719 1992)和‘信息处理用现代汉语词类标记规范“(GB /T 205322006),通过教育部语言文字应用研究所计算语言学研究室开发的 语料库在线 [7]中的汉语分词和词性自动标注系统,对语料进行自动切词与词性标注,如图1所示㊂图1㊀分词和词性标注示例2.3㊀词频分析在目标领域文本中,术语与其他词语相比,出现频率较高㊂因此可以提出假设,一个词语的出现次数越多,它作为术语的可能性也越大㊂在对语料库文本进行切词与词性标注之后,使用 语料库在线 的词频统计功能确定词频㊂该程序允许每次输入和处理的最大文本量为10万字,因此,所建规模为400235字的语料库按前后顺序被分为4部分,最终得出4个词频表,其中不仅包括候选术语,还存在一些广为使用的不具备区分性的高频常用词汇㊂为提高术语抽取的效率和准确率,去除词频表中的那些明确不是该领域内术语的词语是非常有必要的㊂2.4㊀停用词处理停用词是那些执行句法功能但不具有领域区分度的词㊂在文本处理过程中,停用词具有很大的干扰性,因其严重影响文本处理效率和准确性而被视为噪声㊂汉语常用停用词主要包括:数词㊁连词㊁代词㊁拟声词㊁感叹词㊁副词㊁成语㊁语气词㊁介词㊁处所词㊁助动词㊁时间词和状态词㊂目前应用范围较广的停用词表有百度停用词表(baidu stopwords)㊁哈尔滨工业大学停用词表(hit_stopwords)㊁四川大学人工智能实验室编制的停用词表(scu _stop-words)㊂百度停用词表中,除包含英文停用词外,两字词占比较大;四川大学停用词表则侧重三字词㊁四字词及常见俗语;哈尔滨工业大学停用词表囊括了大量的标点符号和特殊字符㊂将这三个停用词表合并,构成一个新的停用词表,命名为‘中文停用词全表“㊂利用软件AntConc 的自动删除停用词功能,过滤掉四个词频表中的停用词,然后将剩余部分词表合并(如表1所示),获取每个词的词频总数,之后进行下一步计算,抽取出单词候选术语㊂表1㊀各词频表中部分术语的词频统计词词频表1词频表2词频表3词频表4总计语言8877992922532231汉语3955399722732179文化2502117972612语法19611325348610汉字624541451572词汇1216217853414习得35337193394表达774246180345词语113589190325句子162685186313母语391687316296语音385614736277教学法147172734225课文6508132196音节0138423120 3㊀术语抽取不同语言中,术语的构词方式有着本质的不同,特殊的语法结构在一定程度上也是术语特征㊂因此,汉语术语的构词规则可以成为识别术语的语言学标准㊂冯志伟[8]㊁韩红旗[9]㊁Sui Zhifang等[10]众多学者对中文术语的长度㊁词性㊁构词规则等方面进行了研究㊂对以上学者的相关研究进行分析,可得出如下结论:(1)包含在术语中的单词数,被称作术语的长度㊂术语通常由一个或多个单词组成㊂由一个单词构成的术语为单词型术语(simple-word term),其长度为1;由多个单词组成的术语称作词组型术语或多词术语(multi-word term),其长度大于1㊂单词型术语不仅能单独用作术语,还可以用作词组型术语的组成成分㊂(2)术语的主要功能是称名概念㊂在各个词类中,名词最常执行称名功能㊂因此,名词有很大的机会充当术语㊂与此同时,用于描述特定情况下的过程或现象的动词也可以是独立的术语㊂单词型术语更多地是由单个名词或动词构成的㊂除此之外,名词和动词也可以作为词组型术语的组成部分,而形容词㊁副词等其他词类在大多数情况下作为一个组成部分出现在词组型术语中,很少单独用作术语㊂(3)词组型术语在数量上远超单词型术语㊂词组型术语的主要特点是具有稳定性和再现性,比单词型术语更能反映其命名概念的区分特征及种属关系,可以使术语更好地满足 系统性 有序性 准确性 等要求㊂词组型术语的这些属性在形式上具有语法标志,这就意味着,确定词组型术语的基本构词模式,并借此对它们进行自动识别的客观前提是存在的[4]184㊂基于上述研究,确定了由2~3个单词组成的词组型术语的构词规则,如表2所示㊂(4)汉语词组型术语通常由2~3个单词组成,在某些领域存在少量由4~6个单词组成的多词术语,但由于其使用不便,它们往往被缩减成缩略语(单词型术语)进行使用㊂随着术语长度的增加,长术语的构词模式也不断增加,但其覆盖率却急剧下降,大部分长术语构词模式的覆盖率不足1%,可见长度超过3的术语已不适合采用构词规则作为识别手段㊂因此,在上述研究的对比分析过程中,可以总结出识别由4~6个单词构成的多词术语的如下一般特征:①4~6词候选术语中不包括:代词,习用语,状态词,处所词,拟声词,感叹词,标点符号和成语;②4~6词候选术语不以连词或助词开头;③4~6词候选术语不以连词㊁方位词作词尾㊂3.1㊀单词型术语的抽取单词型术语更多地由单个名词或动词构成㊂因此,从经过停用词处理后的词频汇总表中抽取所有名词和动词,并对它们进行术语度值(Termhood)的计算㊂术语度用来计算候选术语与特定领域的关联程度,术语度值越高,候选术语成为术语的可能性就越大㊂表2㊀由2~3词组成的词组型术语的构词规则术语类别构词规则示例构词规则示例2词术语n +n 语言/n 行为/n a +n 基本/a 能力/n v +n 表达/v 能力/n f +n对外/f 汉语/nn +v 笔头/n 练习/v a +v 完全/a 掌握/v v +v阅读/v 理解/vm +n第二/m 语言/n3词术语n +n +n 中介/n 语/n 理论/n d +n +n 对外/d 汉语/n 教材/n n +v +n 汉字/n 输入/v 法/na +n +n 多/a 语言/n 背景/n v +v +n教学/v 辅助/v 手段/n v +n +v 跨/v 文化/n 交际/vv +n +n 产出/v 性/n 技能/n n +v +v汉语/n 写作/v 教学/vn +n +v汉语/n 水平/n 考试/v m +n +v 第二/m 语言/n 教学/v m +n +n第二/m 语言/n 习得/nd +n +v对外/d 汉语/n 教学/v备注:n 代表名词,v 代表动词,a 代表形容词,d 代表副词,f 代表方位词,m 代表数词㊂㊀㊀C -value 作为自动术语提取研究中常见的术语度计算方法,在计算时不仅考虑了候选术语的长度及其在目标领域文本中出现的频率,同时也考虑了它作为组成部分嵌套在其他词组型术语中的频率㊂一个词若能被嵌套在更多词组中,它成为术语的可能性就越大㊂一般情况下,C -value 计算公式只能计算词组型候选术语的术语度值,因其公式中的log 2|t |恒为0,使得所有计算结果均为0,为此Barron-Cedeno 等[11]提出了适用于计算单词型术语的术语度值的C -value 计算公式,将公式中的系数log 2|t |改为C (t ),并设置C (t )=1+log 2|t |:C -Value(t )=c (t )㊃TF (t )c (t )㊃(TF (t )-ðs TF (s )|{s ʒt ⊂s }|)ìîíïïïï其中:t 表示候选术语,TF 表示嵌套术语的频率,s 表示包含t 的候选术语的数量㊂通过上述公式计算出所有单词型候选术语的术语度值,并据此对它们进行排序㊂与此同时,将计算出的平均值作为阈值,之后提取出术语度值高于阈值的候选术语,构建最终的单词型术语列表㊂3.2㊀词组型术语抽取如上所述,词组型术语结构稳定,并形成特有的固定搭配㊂从统计学角度看,词组型术语各组成部分的共现频率通常较高[3],由高频词汇组成且高频率出现的字符串更有可能成为词组型术语,由此提出假设,该领域词组型术语嵌套已提取的单词型术语㊂通过日本早稻田大学Laurence Anthony 设计的语料库分析工具AntConc 的索引(Concordance)功能对词组型术语进行处理㊂索引又被称为 语境中关键词 (key word in context,KWIC),是指运用索引功能在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单形式列出并可对其进行排序,使用者可以设定不同的排序方法对检索词的前后语境进行排序,以便从索引行中寻找规律㊂需要特别指出的是,中文语料只有经过分词和标注后才能使用AntConc 索引功能,西文语料可以直接使用该功能㊂词组型术语最常由2或3个单词组成,而中文单词多由1~3个汉字组成,因此可将三词术语的最大长度设定为9,即最多包含9个汉字㊂以抽取出的单词型术语为关键词,为了避免漏提可能成为候选术语的字符串,需将关键词的上下文视界宽度在其左侧和右侧均设定为9,即只呈现关键词在上下文中直接相连的9个汉字㊂图2所示为从语料库中检索 语音 一词所得索引结果的一部分㊂在这些索引行中,每一行中检索词 语音 都位于中间,前后各有若干词及其词性标注㊂一共检索到以 语音 为关键词的322条字符串,并统计了其出现频率㊂图2㊀索引示例㊀㊀将符合表2中2~3词词组型术语构词规则的字符串抽取出来,分别构成两个候选术语列表:由双词构成的候选术语列表和由三词组成的候选术语列表㊂需要注意的是,这些列表中不仅包含了术语,还可能存在常用词组及无意义字符串㊂确认最终的2~3词词组型术语,需要通过以下公式,计算抽取出的候选词组型术语的术语度值㊂C -Value(t )=log 2|t |㊃f (t )㊀㊀㊀㊀㊀㊀㊀㊀t 未被嵌套log 2|t |㊃(f (t )-ðs f (t )|{s ʒt ⊂s }|)㊀其他ìîíïïïï其中:t 表示候选术语,|t |是候选术语t 的长度(以汉字字数为单位),f (t )是t 在语料库中出现的频率,s 是包含候选术语t 的候选词组型术语(即候选术语t 嵌套在候选术语s 中)㊂计算候选术语列表中的平均值作为阈值,提取高于阈值的候选术语组成该领域术语表㊂使用Concordance 索引功能的优势在于可以直接观察到核心词汇的前后搭配规律,并对其上下文的自动分词标注结果进行人工校对,避免因分词或标注错误产生漏提或错提㊂与此同时,可以在检索到符合2~3词词组型术语构词规则的字符串时,拓宽其上下文视界宽度,使其呈现出与关键词相连的更多汉字,挑选出符合上文所提到的由4~6个单词构成的词组型术语一般特征的字符串,然后人工判断这些术语的真假㊂最后,将所有提取出的由2词㊁3词㊁4~6词组成的词组型术语进行列表归纳,组成对外汉语教学领域的词组型术语表,如表3所示㊂4㊀结语为构建对外汉语教学术语集,本文以对外汉语教学领域的文本为目标文本,遵循主题取向性㊁语料科学性㊁样本代表性㊁规模有限性原则,选择出版表3㊀词组型术语表示例2词术语3词术语㊀㊀㊀㊀㊀由4~6词组成的词组型术语㊀㊀㊀对外/d汉语/n 对外/d汉语/n教学/v对外/d汉语/n教学/v大纲/n 对外/d汉语/n教学法/n对外/d汉语/n教学/v理论/n 对外/d汉语/n教材/n对外/d汉语/n教材/n编写/v第二/m语言/n 第二/m语言/n教学/v第二/m语言/n习得/n第二/m语言/n教材/n第二/m语言/n学习者/n第二/m语言/n教学/v实践/v第二/m语言/n教学/v领域/n第二/m语言/n习得/n研究/v第二/m语言/n习得/n理论/n第二/m语言/n教材/n编写/v第二/m语言/n教材/n评估/v第二/m语言/n学习/v过程/n交际/v能力/n 跨/v文化/n交际/v跨/v文化/n交际/v能力/n 汉语/n交际/v能力/n无口语/n交际/v能力/n无㊀㊀㊀㊀㊀㊀备注:n代表名词,v代表动词,a代表形容词,d代表副词,f代表方位词,m代表数词㊂于2000年后且能够较为全面地涵盖该学科理论与实践研究成果并切实反映该学科发展水平的科学著作作为语料纳入语料库,规模约为40万字㊂㊀㊀提取术语主要分为两个阶段:第一阶段提取候选术语;第二阶段利用C-value方法对候选术语进行术语度值的计算和评估㊂在此过程中,为提高效率,避免漏提或者错提术语,引用了停用词表,删去了不可能成为术语的词,并引用了语言学知识,用预设的汉语术语构词规则对候选术语进行筛选㊂最终共提取对外汉语教学术语784个,其中包括单词型术语238个,两词术语375个,三词术语121个和长术语(由4~6个单词组成)50个㊂实验研究发现,本文使用的基于语料库的将统计学和语言学规则相结合的方法,在提高术语提取效率的同时,可有效避免漏提或错提,特别是用于提取由2~3词组成的高频术语,效果十分明显㊂与此同时,因为语言学规则的引用,自动分词标注程序不完善,会出现标注错误的情况进而影响候选术语的产生,因此需要对语料库文本进行词类标注处理㊂为此,如何减少术语自动提取过程中的人工核校工作,减少噪声,提高低频术语的识别效率,仍是今后术语提取研究中需要进一步解决的重要问题㊂参考文献[1]刘青.中国术语学概论[M].北京:商务印书馆,2015.[2]郭曙纶.汉语语料库的建设及应用[M].上海:上海外语教育出版社,2011.[3]常宝宝.科技术语自动提取技术:现状与思考[J].中国科技术语,2022,24(1):3-13.[4]吴丽坤.俄罗斯术语学探究[M].北京:商务印书馆, 2009:278.[5]陈章太,于根元.对外汉语教学概论[M].北京:商务印书馆,2014:516.[6]赵金铭.汉语可以这样教:语言技能篇[M].北京:商务印书馆,2016:191.[7]语料库在线[CP/OL].[2023-05-30].http://corpus. .[8]冯志伟.现代术语学引论[M].增订本.北京:商务印书馆,2011:599.[9]韩红旗,安小米.C-value值和unithood指标结合的中文科技术语抽取[J].图书情报工作,2012:85-89.[10]SUI Z F,CHEN Y R,HU J F,et al.The research on theautomatic term extraction in the domain of information sci-ence and technology[C]//Proceedings of the5th EastAsia Forum of the Terminology.Haikou.2002:444-451.[11]BARRON-CEDENOА,SIERRA G,DROUIN P,et al.An improved automatic term recognition method for Span-ish[M]//Computational Linguistics and Intelligent Text Processing.Springer.2009:125-136.作者简介:卢一鑫(1989 ),女,博士,河南财经政法大学讲师㊂主要研究领域为应用语言学,汉俄对比语言学㊂先后参与 外汉多语言词典数据库建设 中国传统哲学在俄罗斯的译介与传播历史研究 等科研项目㊂在国内外学术会议及期刊发表论文近10篇㊂通信方式:yixinhn@mail.ru㊂‘中国科技术语“开展科学数据出版为顺应大数据时代的发展,‘中国科技术语“开展科学数据出版服务,为作者和读者提供集文献和数据于一体的信息化服务㊂本刊的数据出版分为2种模式:(1)科技论文附加数据:本刊鼓励作者在提交科技论文时,附加支撑数据集,在文中对相关数据集进行描述和管理,为使用者在阅读论文的同时提供科学数据的访问㊁引用㊁分析等㊂作者按照本刊投稿流程将附加数据集上传到本刊投审稿系统()或科学数据银行(),如果是已发表的数据集,添加已注册的DOI到论文中即可㊂(2)数据论文:如果作者认为阶段性数据处理工作具有发表和共享意义,可直接发表数据论文㊂数据论文须详细描述所对应的数据集,包括数据采集和处理方法㊁样本描述㊁质量控制方法以及数据价值㊁使用方法和建议等相关信息㊂请作者将拟发表的数据集存储到科学数据银行(),在数据论文中添加已注册的DOI即可㊂请务必确保数据论文信息与保存到数据存储库的元数据信息一致㊂作者提交的数据包括但不限于:原始数据㊁处理后的数据㊁软件㊁算法㊁协议㊁方法㊁材料㊁数据文件或电子表格㊁术语数据库㊁语料库㊁术语集以及其他多种形式,如视频㊁问卷或幻灯片等㊂作者所存储的数据将永远存在并且开放访问㊂本刊对两种模式的数据出版论文投稿均按流程进行审稿㊂本刊‘中国高铁 出海 术语库建设与应用“为数据出版论文,扫描右侧二维码可查看相关数据㊂更多信息,请联系本刊编辑部:010-********,84010681㊂。
汉语中介语语料库在对外汉语研究中的应用的论文汉语中介语语料库在对外汉语研究中的应用语料库是一个由大量在真实情况下使用的语言信息集成的专供研究使用的资料库。
语料库语言学则是以语料库为研究目的和手段的语言学方法,包括语料库的建立、数据的处理、统计分析和研究、数据资源的检索和应用等诸多方面的内容。
随着计算机应用于语言研究,建立语料库所需的技术设备日益完善,语料库的建设规模不断扩大,利用语料库进行语言研究的手段也相应得以改善。
一、语料库应用为语言学研究带来的影响语料库既已成为语言学实证研究的一个重要手段,基于语料库的实证研究也随之逐年增加,成为语言学研究的热点之一。
按研究目的来分,基于语料库的研究主要分为三类——二语习得、母语习得和自然语言处理,二语习得研究所占比例最大。
二语习得重视对学生在学习过程中所犯的语言错误进行对比分析,特别是对“中介语”进行偏误分析。
与人工收集的有限的学生病句卡片资料相比,“中介语”语料库能够更加真实、详尽地反映二语学习者的汉语中介语原貌,帮助我们更加全面系统地观察他们学习和习得汉语的过程,了解影响学习和习得的各种因素,所发现的规律也可以为第二语言教学的总体设计、教材编写、课堂教学、测试等各个环节的研究提供依据。
二、汉语中介语语料库在对外汉语研究中的应用情况汉语中介语语料库为对外汉语的教学和研究提供了更为客观和翔实的数据以及经验性的研究方法。
(一)汉字习得研究《外国留学生规则字偏误分析——基于中介语语料库的研究》从北京语言大学的中介语语料库中分别选取了日本、韩国和欧美留学生使用过的汉字,并在此基础上进一步筛选了日、韩、欧美学生共同使用的形声字,对比分析了留学生在读音规则形声字和不规则形声字的错误类型。
结果显示,国籍(母语)和hsk等级和留学生对形声字的掌握有密切的关系;留学生对规则字和不规则字的学习掌握没有明显差别;欧美和韩国留学生在不成字部件构成的汉字上的错误率高于成字部件构成的汉字,表明留学生在形声字的认知加工中一定程度上还是会主要依赖字形信息。
对外汉语词汇语义网络研究综述对外汉语词汇的语义网络研究是语言学领域的重要课题之一,它涉及到词汇的语义关系、搭配特征以及语义网络的结构和模式等问题。
随着计算机技术的发展和语言学研究的深入,对外汉语词汇语义网络研究也逐渐成为热门领域,相关的研究成果不断涌现。
本文将对对外汉语词汇语义网络研究的相关成果进行综述,希望能够为该领域的研究提供一定的参考和借鉴。
1. 意义对外汉语词汇语义网络研究的意义主要有两方面:一是对于对外汉语教学的改进和提高具有积极的促进作用;二是对于中文语言学习者的学习和理解提供了重要的帮助。
通过构建和分析对外汉语词汇的语义网络,可以更好地揭示词汇之间的语义关系,帮助学习者更好地理解和记忆词汇,提高对外汉语的语言水平和应用能力。
2. 现状目前,对外汉语词汇语义网络研究的现状主要表现在以下几个方面:一是基于大型语料库的对外汉语词汇语义网络构建;二是基于计算机技术的对外汉语词汇语义关系分析方法的创新;三是相关研究成果在对外汉语教学实践中的应用。
二、对外汉语词汇语义网络的构建方法随着大数据时代的到来,语言学界开始将大型语料库引入到对外汉语词汇语义网络的构建中。
利用大型语料库可以更加全面和系统地收集和整理词汇的用法和语义特征,构建更为精确和完整的语义网络模型。
可以通过收集中文语料库中的各种语言数据,提取词汇的语义特征,建立词汇的语义关系,构建起对外汉语词汇的语义网络。
2. 基于计算机技术的对外汉语词汇语义关系分析方法的创新对外汉语词汇语义关系分析是对外汉语词汇语义网络研究的重要内容之一,其研究方法主要依赖于计算机技术。
目前,对外汉语词汇语义关系分析方法主要有基于关联分析的方法、基于语义向量空间模型的方法、基于语义标注的方法等。
这些方法的创新和应用为对外汉语词汇语义关系的分析提供了更为有效和精准的手段。
1. 多义性和歧义性对外汉语词汇的语义网络中存在着很多的多义性和歧义性,这是由于词汇的语义在不同的语境中具有不同的解释和用法。
研讨五语料库翻译学1. 什么是语料库翻译学?2. 语料库翻译学的理论基础?3. 语料库翻译学的研究内容?4. 什么是翻译共性?根据研究课题的来源,语料库翻译学的研究领域分为三类。
第一类源自传统译学研究,包括基于语料库的文学翻译、翻译史、翻译教学、翻译实践、机器翻译和口译等领域的研究。
基于语料库的文学翻译研究以文学翻译作品的文本分析为基础,研究文学翻译理论与实践的相关课题。
这些课题具体为: 1) 意象和人物形象的再现与变形,2) 文学风格的再现与重构,3) 文学翻译的创造性,4) 译者风格,5) 文学作品空白和未定性的翻译,6) 文化负载词的翻译,7) 误译和漏译研究。
基于语料库的翻译史研究利用历时性平行语料库对名家译作进行文本分析,揭示翻译家在翻译策略应用、翻译风格和翻译语言等方面所表现出的个性特征及其所遵循的翻译规范。
目前,翻译史研究大多将翻译家的观点或言论视为客观现实,满足于翻译事实的罗列,对于翻译规范和历史语境关注不够。
事实上,翻译家的所做与所言往往不一致,翻译家所言并不能反映其翻译作品的特征。
此外,翻译是一种特殊的社会文化行为,受特定规范的制约。
这些规范因时代或文化的差异而不同。
利用语料库分析翻译文本的具体特征,归纳不同历史时期的翻译规范,可以阐明翻译家的所作所为,还原历史的真实面貌。
另外,该领域的研究还通过提取语料库的篇头信息,对于具体某一历史时期的翻译活动进行客观描述。
这些信息包括出版商、出版时间、作品主题、译者姓名和性别等内容。
应当指出,语料库翻译学与翻译史均强调对研究对象进行客观描写,重视还原语境方法( contextualization) 的应用。
这些共性为语料库在翻译史研究中的应用提供了作为空间。
以上研究均属语料库翻译学理论层面的研究,而基于语料库的翻译教学、翻译实践和机器翻译研究都是应用层面的研究。
前者侧重于探讨语料库在翻译评估、翻译教材编写和翻译教学模式中的应用,后者主要关注双语词汇和句式之间的对应关系、翻译策略和方法的应用等问题。
基于语料库的汉语语法分析技术研究随着社会变革和信息技术的日渐成熟,计算机语言处理技术成为了越来越受到广泛关注的一个领域。
其中,基于语料库的汉语语法分析技术凭借其准确性与可扩展性,成为了现代汉语语言处理的重要手段之一。
本文旨在对基于语料库的汉语语法分析技术进行研究与探讨。
一、语料库的概念语料库是指已经规范化并存放在计算机中,以便进行语言学分析、语言教学及自然语言处理等领域研究所用的文本库。
语料库可以包括广泛的文本材料,例如图书、报刊、百科全书、广告等等。
在汉语语料库中,大部分都是由现代成语汇编、三字经、百家姓等作品组成的。
二、基于语料库的汉语语法分析技术的原理及方法语法分析是指通过对句子或段落的结构进行分析,以确定其中的语法成分、句子结构等元素,并进行语义解释。
基于语料库的汉语语法分析技术是指通过建立汉语语料库,以在语料库中的情况来分析句子,以辅助段落的分析和其他自然语言处理操作,如机器翻译等。
在进行基于语料库的汉语语法分析技术的研究时,需要首先处理语料库。
语料库处理包括文本精简与规范化、分词与词性标注、句法结构分析等步骤,以便建立一个准确可靠的语料库。
接下来将建立各种查询方法,并将这些方法作为分析的辅助手段。
目前,常用的语法分析方法有基于规则的语法模型、基于统计的语法模型以及基于深度学习的语法模型等。
三、基于语料库的汉语语法分析技术的应用与发展基于语料库的汉语语法分析技术在自然语言处理、文本挖掘、信息检索等领域都具有重要价值。
例如,在信息检索领域,基于语料库的汉语语法分析技术可以用于制定搜索引擎,从而更准确地搜索合适的信息;在自然语言处理领域,基于语料库的汉语语法分析技术能够辅助机器翻译过程,从而提高翻译质量。
值得注意的是,随着深度学习技术的不断发展,基于语料库的汉语语法分析技术正向着更准确、更智能方向发展。
人们希望基于语料库的汉语语法分析技术在未来能够进一步完善,以提供更高效、更准确的自然语言处理解决方案。
汉语语料库对对外汉语教学中语法研究的作用汉语语料库对对外汉语教学中语法研究的作用语料库是存放语言素材或语料文本的仓库,是按照语域分类收集并经过特殊编码的自然语篇总集,编码即对词语进行类别和功能的定义以及对以小句为单位的文法结构进行分析。
这些由大量实际使用的语言信息组成的真实材料,是语言统计的基础,是分析和研究语言规律和特征,开发软件,编纂辞书的可靠依据,更是语言教学中绝好的第一手资料。
对外汉语教学是将汉语作为外语或第二语言的教学,是一门新兴的边缘交叉学科,需要不断地从相关学科中汲取研究方法和应用成果以丰富自身的学科理论,促进学科发展。
由于计算机技术的飞速发展,其存储容量越来越大,速度也越来越快。
在这种条件下,以计算机存储的语料为基础的语言研究方法,便成为当今语言学任何分支学科研究的一种自然的、现代化的、甚至是不可或缺的辅助方法。
语法教学是对外汉语教学中的重点和难点,也是留学生如何把已知的词、词组组成句子、篇章的关键。
本文着重探讨这种将语料库作为主要信息来源,用统计来获取语言中的规律的方法对对外汉语教学中语法研究的作用和意义。
一、为对外汉语语法教材的编写提供真实的语言素材和科学的参考依据教材是教学过程中的重要依据,是教学和学习的资源,教材的内容要符合学习者的认知规律和学习需要。
20世纪80年代中期以前,现代汉语语法研究基本上或主要是对汉语语法现象、语法规则的描写说明,为了说明规则是什么而编写例句,甚至有些例子是编者依靠经验,按照语法规则演绎编造出来的。
英国语言学家Quirk曾说:从这些自己编写的例证出发,把材料仅仅当作例证来使用,用来证明先验的,或者是语法学传统规定的、甚至是凭直觉认定的某些语法上的区别和结构,而不是从大量自然语言材料中归纳的这些语法上的差别,这只能是一种很不令人满意的权宜之计。
基于语料库中大量口头和书面语的真实语言素材,要求语法研究更注重对语法现象、语法规则的解释,说明例句为什么这么说。
基于语料库的商务汉语学习词典的编写设想一、本文概述本文主要探讨了基于语料库的商务汉语学习词典的编写设想。
随着中国社会经济的快速发展,商务汉语教学日益受到关注,目前市场上缺乏专门为来华留学生编写的商务汉语学习词典。
本文旨在填补这一空白,利用语料库理论和信息处理技术,确立了一份分等级的商务汉语词语表,并建立了“商务汉语教材语料库”。
在此基础上,文章试图突破以往对外汉语学习词典的编纂方法,提出了编写基于语料库的商务汉语学习词典的理论依据和具体操作的设想。
通过这种方式,旨在为商务汉语学习者提供一本实用、易懂的学习词典,以满足他们在商务汉语学习过程中的需求。
二、商务汉语的特点与需求分析商务汉语,作为专门用途汉语的一个重要分支,具有其独特的特点与需求。
本节将从商务汉语的语言特点、学习者需求以及教学需求三个方面进行分析。
(1)专业性强:商务汉语涉及大量商务领域的专业词汇和表达,如合同、谈判、市场营销等。
这些词汇和表达在商务活动中具有特定的含义和用法。
(2)实用性强:商务汉语强调实际应用,学习者需要掌握如何在商务场景中进行有效沟通,包括商务写作、商务谈判等。
(3)文化内涵丰富:商务活动不仅仅是经济交流,更是文化交流。
商务汉语中包含许多与中国商务文化相关的表达和习俗。
(1)提高商务沟通能力:学习者希望通过学习商务汉语,能够在中国或与中国的商务活动中进行有效沟通。
(2)掌握商务知识和术语:学习者需要了解商务领域的知识和术语,以便在商务场合中准确表达。
(3)适应商务文化:学习者需要了解中国的商务文化,以便在商务活动中遵循相应的礼仪和习俗。
(1)实用性教学材料:需要提供实用的商务汉语教学材料,包括真实的商务场景对话、案例等。
(2)专业教师:商务汉语教学需要具备商务知识和教学经验的教师,以指导学生正确理解和运用商务汉语。
(3)文化教学:商务汉语教学应包含对中国商务文化的介绍,帮助学生理解和适应商务环境。
商务汉语的特点与需求表明,编写一本基于语料库的商务汉语学习词典具有重要的实际意义。
基于语料库的词语搭配研究与对外汉语词汇教学中高级阶段的对外汉语词汇教学中,留学生在词语搭配方面所犯的错误比较突出。
出现词语搭配偏误的原因在于汉语缺乏形态变化、教师教学的疏漏和学生的个体差异三个方面。
本文基于语料库的对外汉语词汇教学,采用定量和定性相结合的方法,概括出词语的搭配特征和范围,帮助学生构建词语的搭配模式,并加以训练,以便形成学生的词汇网络。
标签:语料库词语搭配对外汉语词汇教学一、问题的提出词语搭配是指词的横向组合关系或共现关系,即哪些词可以与另一些词搭配使用或共现在一个句子中。
英国语言学家Firth是最早注意到语言中的搭配现象并提出“搭配”这一概念的专家之一。
他曾说:“You shall know a word by the company it keeps.”(1957)。
张志公先生也曾指出:“在任何语言里,词语搭配都是一个重要问题,在汉语里,尤其突出。
”(张寿康、林杏光主编《现代汉语实词搭配词典》)。
从客观角度讲,汉语缺乏形态变化,词与词搭配起来无语法形式的约束,只要意义上、逻辑上说得过去就可以搭配,很自由、很灵活,所以搭配的结果也就异常丰富,因此,无论是在汉语作为母语还是作为第二语言的习得中,关于词语搭配的教学都显得非常重要。
我们知道,语言由大量的板块构成,汉语的语言板块尤其丰富,以虚词为出发点,可以组成大量的语言板块。
但以往的研究和教学,对由虚词构成的语言板块尤为重视,教学中也常常以此作为重点;另外,汉语的固定短语也异常丰富。
如成语、俗语、惯用语,都是作为一个词块进行教学的。
汉语中还有另外一块,即实词与实词的搭配,这是一个很大的类,包括形名、数量名、动名、形动、副动、副形等许多子类,并且每一类涉及的词语非常丰富,尤其是动名、形名的搭配。
在实词的搭配方面,以往的研究缺乏可操作性。
教师大多数时候都是在不自觉地培养学生的语感,在词汇教学中没有将其作为一个语言训练项目。
对外汉语教学的教学对象是来自海外的留学生,他们缺乏汉语语感。
语料库语言学在外语教学与研究中的应用语料库语言学是指基于大规模语言样本的语言研究方法。
它通过对现实语料库进行分析和处理,旨在揭示语言的内在规律、认知机制和社会功能。
在外语教学与研究中,语料库语言学的应用主要体现为以下几个方面:一、词汇教学。
语料库可以用来提取常用词汇、搭配、习惯用语等,帮助学习者更好地掌握词汇使用方法以及了解实际语言使用情况。
二、语法研究。
语料库可以用来研究语法结构的频率、变异和演化情况,为外语教学提供科学依据。
三、语用研究。
语料库可以用来分析语境下的语言使用情况,研究语用规律以及对话交际策略,有利于外语学习者更好地理解和运用语言。
四、语音研究。
语音是语言的重要组成部分,语料库可以用来研究语音特征的变化、声调模式的差异等,帮助外语学习者更好地掌握发音技巧。
总之,语料库语言学在外语教学与研究中的应用十分广泛,为提高外语学习效果和推进语言研究提供了有力的工具和方法。
五、语料库语言学的意义语料库语言学是一门基于大规模语言样本(即语料库)的研究方法,旨在揭示语言的真实使用情况。
语料库语言学研究的意义可以从以下三个方面来考虑:一是对语言本身的认识有所助益,二是对外语学习与教学有所帮助,三是对跨学科领域的研究有所启示。
(一)对语言本身的认识有所助益语料库语言学研究可以帮助人们更加客观地认识语言本身。
语言是人类思维和文化的产物,它不仅具有表达和交流的功能,同时也代表了人类文化的精华。
然而,传统的语言研究方法往往只是通过少量的语言样本来推断语言规律,这种方法存在着很多局限性,比如受到研究者主观意识的影响,无法代表语言的全貌等等。
而语料库语言学方法则采用海量的语料库数据来研究语言现象,使得研究结果更加客观、真实、可靠。
通过语料库语言学研究,可以更好地了解语言的本质及其演变规律,从而更加准确地描述和解释语言现象。
(二)对外语学习与教学有所帮助语料库语言学研究还可以为外语学习和教学提供帮助。
语言学习者在学习一门外语时,需要掌握大量的词汇、语法和句型等知识,同时也需要了解这些知识在语境中的运用情况。
语料库对对外汉语教学的作用作者:吕昕颖来源:《青年生活》2019年第11期语料库的发展和出现是与语料库语言学密切相关的,其诞生是语言学和计算语言学发展的结果,也是当前外国学生学习汉语所需要的。
语料库是为学习第二语言的学生提供语言研究而收集的语言材料,语料库中的内容是由各种材料中出现的书面语和口语的样本汇聚而成,其中的内容材料资料真实,对于信息的提取有效准确,因此学习汉语的学生可以借助语料库进行学习,从多方面多层次理解汉语,帮助学生构建新的语言观和语言模式。
语料库并不是词和句子简单的集合和堆叠,而是具有样本代表性、有限性、机读形式化,语料库结合了当前汉语国际教育的趋势,有效地提高了学习汉语的学生们学习汉语。
任何一门语言教学的最终目的都是为了运用,我们说语言是一门工具,汉语同样是如此。
随着时代的发展,语言也有了更新的表现形式,同样的,我们的教学方法,教学工具也应该与时代相适应,语料库便很好的结合了时代的背景应运而生。
第一,语料库为对外汉语教学提供了真实有效而又丰富的语料。
语料库中的丰富语料是人们实际运用的语言,其材料的摘取均取自真实的口语文本和日常所用的书面语,为学生提供的是日常学习和生活中所需要的语句,对于语料库中材料的分析,教师也可在语料库中发现现有的语言教学中存在的问题,所以汉语语料库在对外汉语教学中可以为学习者提供丰富的汉语学习材料,也可以在汉语中介语语料库中发现当前学习中存在的问题。
语料库依托了强大的计算机技术,根据目前教育教学的发展趋势,大数据技术以及人工智能技术越来越成为人们日常生活的一部分,而这些技术同时也相对应地促进了语料库的发展。
目前的社会发展日益复杂,各方各面变得纵横交错,这在一方面上为我们的教学带来了挑战,同时也给我们提供了机遇。
回顾语料库的发展,可以看出,它离不开两个方面,硬件设备和语言资源,复杂的环境为我们提供了大量的真实语料,这极大地丰富了我们的教学内容,而大数据技术以及相应的计算机运算设备的发展,语料库也因此得到了极大的补充。
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的飞速发展,海量的中文信息不断涌现,如何快速、准确地从这些信息中检索出用户所需的词句,成为了当前研究的热点问题。
基于汉语语料库的中文词句快速检索算法研究,旨在提高中文信息检索的效率和准确性,满足用户对信息的需求。
本文将介绍基于汉语语料库的中文词句快速检索算法的研究背景、研究意义、研究内容及方法,以及研究成果和结论。
二、研究背景与意义随着互联网的普及和信息技术的发展,海量的中文信息不断涌现,如何快速、准确地从这些信息中检索出用户所需的词句,成为了亟待解决的问题。
基于汉语语料库的中文词句快速检索算法研究,能够有效地解决这一问题。
该研究不仅有助于提高中文信息检索的效率和准确性,还能够满足用户对信息的需求,促进中文信息处理技术的发展。
三、研究内容与方法1. 研究内容本研究主要针对中文词句快速检索算法进行研究,包括以下几个方面:(1)汉语语料库的构建:建立大规模的汉语语料库,为中文词句检索提供数据支持。
(2)中文分词技术:采用合适的分词技术,将连续的中文文本切分成单个的词语,便于后续的检索处理。
(3)词句检索算法:研究基于汉语语料库的中文词句快速检索算法,包括关键词提取、索引构建、检索匹配等关键技术。
(4)算法性能评估:对所提出的算法进行性能评估,包括准确率、召回率、F1值等指标。
2. 研究方法(1)文献综述:通过查阅相关文献,了解国内外中文词句检索算法的研究现状和发展趋势。
(2)实验分析:采用实验方法,对所提出的算法进行性能评估和验证。
(3)对比分析:将所提出的算法与现有算法进行对比分析,评估其优劣和适用范围。
四、研究成果1. 汉语语料库的构建本研究建立了大规模的汉语语料库,包括新闻、博客、论坛、微博等各类文本数据,为中文词句检索提供了数据支持。
2. 中文分词技术本研究采用了基于深度学习的分词技术,对连续的中文文本进行切分,取得了较好的分词效果。
关于建立汉语学习者语料库的思考骆琳(华中科技大学中文系)=摘要>在当前的语言学和应用语言学研究中,基于语料库的研究已深入到了各个领域。
语料库方法不仅代表着一种新的研究方法,同时也代表着一种新的思维方式。
基于语料库思想的研究已逐步成为对外汉语教学研究中的必备手段,大纲设计、课程设置、教材开发、词典编纂以及课堂教学等诸多教学环节都将依赖于汉语学习者语料库数据的支撑。
=关键词>汉语学习者语料库汉语教学(一)语言学习者语料库是指通过收集语言学习者各种书面和口头的自然语料,建立的一种语言数据库。
其目的在于对语言学习者的语言特征和语言发展进行全面而系统的对比分析,提供有关学习者语言发展的全面信息,尤其是有关学习者的典型困难及在某一具体方面主要障碍的反馈信息,并通过不同类型语言学习者的语言对比,发现语言学习者在某一发展阶段的共同特征和个体特征,从而将这些信息反馈到教学大纲的制定、教材的编写以及课堂教学实践等环节中,使语言教学更有针对性,更有效。
现代语言学习者语料库研究主要包括中介语对比分析和计算机辅助错误分析。
当学习者语料库与学习者中介语分析联系在一起时,学习者语言不再被简单看成是一种/错0,而成为一种普遍存在于学习者的规则系统,通过对以目的语为母语的人与以非目的语为母语的人的语言特点比较,可以发现学习者中介语中非本族语的特点。
而不同学习者群体的输出对比,则可发现和区别一些非母语的特点。
对不同学习者群体所共有的非母语特点,和只存在于某一母语背景的学习者群体的特点,有必要在教学中区别对待。
计算机辅助错误分析不同于以往的错误分析,其标准化程度更高,且错误与其上下文一起出现。
其分析方法,一种是首先选定容易出错的项目,然后使用检索软件在学习者语料库中查找所有有关的错误实例进行分析研究,其优点是速度快,缺点是研究者需要预先确定错误,且检索的错误也仅限于被认为有问题的项目。
另一种是先设计一套错误代码系统,然后给语料库中所有的错误加注代码。
对外汉语词汇语义网络研究综述对外汉语词汇语义网络是词汇语义学与计算机科学相结合的研究领域,它将各种汉语词汇之间的关联关系概括成一个网络结构,为对外汉语教学、机器翻译等领域提供了有力的支持。
本文将就对外汉语词汇语义网络的相关研究做一综述。
构建对外汉语词汇语义网络需要解决两个问题:一是如何确定词汇之间的关系;二是如何将词汇关系映射到计算机能够处理的结构中。
在确定词汇之间的关系方面,目前的主流方法是基于语料库的统计分析,利用语料库中的词频、共现等信息计算词汇之间的相关性。
在映射到计算机结构方面,主要采用的是图论中图(Graph)结构,并采用矩阵算法等方法进行计算。
二、词汇语义网络的应用对外汉语教学:词汇语义网络可以为学习者提供多种信息,例如词汇的词义、近义词、反义词等,帮助学习者系统化地学习词汇。
机器翻译:词汇语义网络可以帮助机器翻译系统准确理解汉语句子中的词汇,提高翻译准确率。
文本分类:词汇语义网络可以用于对文本进行分类,例如将新闻文本分为政治新闻、经济新闻、文化新闻等类别。
自然语言处理:同时也可以协助自然语言处理的相关工作,例如命名实体识别、文本摘要、信息抽取等。
三、发展趋势随着技术的不断进步,对外汉语词汇语义网络的研究也在不断深入和扩展。
未来,对外汉语词汇语义网络将呈现以下发展趋势:多元化:随着语言学、计算机科学、心理学等多学科的交叉与整合,将有更多的方法和技术用于词汇语义网络的构建和应用。
个性化:针对不同学习者的需求和背景,对外汉语词汇语义网络将趋向个性化和定制化。
应用价值:对外汉语词汇语义网络的应用价值将会得到更加广泛的肯定与应用。
综上所述,对外汉语词汇语义网络是一个较为重要的研究领域,在对外汉语教育、机器翻译等领域具有广泛的应用前景,也有着较大的发展空间和潜力。
《基于语料库的对外汉语习得研究》招聘工作者
关于项目:
我校与兰卡斯特大学联手成功申报国际科研项目
近日,我校科研工作传来喜讯,英国兰卡斯特大学语言学及英语语言系Richard Xiao教授带领的团队与我校外国语言学及应用语言学研究中心、留学生教育学院联合申报的课题“The Corpus-based Approach to the Acquisition of Mandarin Chinese as a Foreign Language”(《基于语料库的对外汉语习得研究》)获英国科学院(the British Academy)2013年度IPM项目资助。
英国科学院项目为英国政府资助的、享有很高声誉的高级别项目。
该课题的成功立项,是我校国际合作研究的又一突破,为我校实现高水平国际化大学的建设目标作出了贡献。
我校副校长兼外国语言学及应用语言学研究中心主任刘建达教授积极促成这一项目的联合申报,该项目我校主要成员有刘建达、徐海、梁学宏、王凤兰、郝红艳、范香娟等。
关于具体工作:
第一阶段是留学生书面语和口语的转写工作,整个语料库是100万字,口语占30万字,书面语70万字,这些模板会正式启动后通知,书面语转写报酬是10000字转写是100元人民币,其中口语转写的报酬相对高些。
这个阶段从今年1月-10月。
书面语转写不难,基本是属于打字,把每篇小作文打到记事本中,txt格式,因为OCR光学识别软件的对手写体的识别率为0。
第二阶段是系统错误标注阶段,到时候应该会有一个完整的标注集和每个错误标注的操作定义,或许采用在线标注的方式,这个可能得看英国那边的意思--英国那边会在今年3月份(下学期初)派人过来进行培训(大致形式是几个工作坊)。
关于要求:
转写没有字数要求,会更具每个组员的时间,由你们自己觉得自己能做多少,不过要求责任心和细心。
很欢迎语言学方向的童鞋参加参加项目可以丰富你们的简历(不过参加1天就不做的可能要考虑一下)-任务会根据你们个人的时间来定。
中国还没有留学生的汉语作文语料库,桂老师的CLEC是中国英语学习者的语料库,所以我们是这样的汉语习得库的第一人。
更多信息:
/gwkyc/onews.asp?id=609
/?p=757
/news/articles/2013/british-acade my-grant-to-further-mandarin-learning-and-teaching/
Acquisition of Mandarin Chinese as a foreign language
The British Academy has awarded Lancaster University a
three-year grant under its International Partnership and Mobility Scheme (IPM 2013). The research partner in the joint project is Guangdong University of Foreign Studies (GDUFS) in China. The project i s entitled “The corpus-based approach to the acquisition of Mandarin Chinese as a foreign language”,
which aims to develop a one-million-word balanced corpus of spoken and written Chinese interlanguage, and on the basis of this corpus, to explore various theoretical and practical issues pertaining to the acquisition of Chinese as a foreign language. The research team includes six staff members from the Linguistics department and the Confucius Institute at Lancaster, as well as six staff members from the Centre for Linguistics and Applied Linguistics (the only national key research centre of its kind approved by the Ministry of Education) and the Institute for International Education at GDUFS.。