“从来”语法化的语料库驱动研究
- 格式:doc
- 大小:49.50 KB
- 文档页数:9
浅谈在翻译教学中发展语料驱动的教学方法一、引言近年来,计算机辅助翻译技术越来越普遍地得到应用。
作为一种新兴技术,翻译语料库不光在计算机辅助翻译应用上具有广泛的前景,甚至对语言学、文体分析、翻译教学等领域都可产生新的发现与应用。
试想,在一个语料收录量广阔而对应翻译精确的语料库中,对某一专业领域运用文本数据挖掘技术,我们将得到与该行业对应的特殊性词语关联规则,甚至此语料库中一些独特的语法搭配方式或书写习惯。
在学生实践语料库中进行数据分析,可以建设一套数据驱动式的新型翻译教学方法。
二、外语教学语料库的建设如今,很多公司、研究机构甚至高校都已经建设出了具有一定规模的语料库,大部分基础单词和例句已经分行业收录在这些语料库中。
由于开发翻译语料库可以提高职业翻译的工作效率和翻译质量为公司创造经济利益,所以目前语料库技术已经在很多翻译公司中得到了应用和发展。
几十万条到上百万条不等的各语种语料库已经在各大翻译公司中建立了起来。
这些语料除了从权威机构购买的基础词汇以外,一部分是公司内部员工翻译工作记录的积累,还有一部分来自inter网。
这种语料来源致使语料库中存在一些不精确的翻译甚至少量翻译错误。
目前,我国网络上还没有一个公开的、权威的中英翻译语料库,网上流传的资源大部分是一些词典类的网站自己搜索来的词法和例句,或者是一些外语爱好者上传的私人语料库。
所以网络资源也并不可靠。
语料库中的错误很容易诱导译员翻译错误,一个存在错误的语料库不适合用于高标准的翻译项目上。
高校教学中对语料库精确度的需要比其广度更高。
一个精确的语料库才可以保证学生学习知识的权威性。
所以教学用标准语料库中可以有些语料收录不全但是不能出现翻译错误,宁缺毋滥。
平时学生作业可以用网络翻译语料库做为辅助,但是不能在文章中直接引用或作为权威翻译依据写入参考文献目录。
教师进行笔译教学时更不可以直接引用网络语料库。
三、学生实践语料的应用――建设数据驱动的教学方法高校学生在翻译学习和实践过程中,会产生大量的翻译语料。
语料库驱动的对外汉语教学及应用研究语料库驱动学习模式是近年来新兴的一种语言学习模式。
但包含丰富数据却没有进行标注和分类的语料库对学习者的帮助是有限的。
目前有一些经过标注及处理的基于语料库的应用平台及学习系统,对教师及学习者进行语言研究与学习有很大帮助。
例如:与十四亿字的LDC Chinese Gigaword语料库结合的“中文词汇特性速描系统”,汉语中介语语料库及多媒体语料库。
因此,建设并开发基于语料库的、简单易用并具有针对性的面向汉语教学与学习的教学资源平台及应用系统是十分必要的。
标签:对外汉语教学语料库语料库驱动一、引言语料库是以计算机为载体,以真实出现过的语言材料为基础资源,经过加工(分析和处理)而成的资源库。
语料库中的语言材料的运用近似于运用语言本身,具有代表性和真实性。
将语料库引入二语教学与学习中,为二语教学及学习提供了新的可能。
语料库驱动的学习模式是近年来新兴的一种语言学习模式,自20世纪90年代初Tim Johns提出基于语料库数据的外语学习方法——数据驱动学习模式(Data-Driven Learning,简称DDL)以来,语料库就与语言教学有了千丝万缕的联系。
这种语言教学方法引导学生自己用索引软件去查询语料库中的语料,这些语料均来自本族语者口语或书面语,通过查询语言使用中的真实语料,而不是课本中教材编写者设计出的例子,学习者可以更真实地体会到目的语在实际运用时的用法。
同时,数据驱动学习是一种发现式、探索式学习模式,它以大量真实的语料库数据为基础,要求语言学习者带着问题,运用检索软件,在对大量真实语料观察和分析的基础上,由学生从真实的语言使用实例中发现自己在语言学习中所遇到的问题,最终解决问题。
由语料库驱动的外语在线自主学习模式在外语教学领域已经取得了良好的效果。
该模式通过词汇或语法结构、语料库和语料库索引工具提供的语境共现、语料库的文本展现(部分有音频或同时有音、视频)、网络互动的有机结合为外语学习者提供自下而上的语言学习环境,从而促进学习者对外语的自主和互动学习。
《语料库数据驱动的专业文本语义韵研究》评介摘要:语义韵是语料库语言学开辟的一个新研究方向,成为语言学领域一个重要的研究对象。
它正在得到西方语言学家越来越多的重视。
然而在中国,这还不为大多数语言研究者所熟悉。
本文以上海交通大学卫乃兴教授于2002年发表于《当代语言学》刊物第2期中的一篇名为《语料库数据驱动的专业文本语义韵研究》的文章为例进行分析总结,以期对语义韵研究的范围,方法及其研究意义有初步的了解。
关键词:语义韵研究方法意义评介1 文章的研究内容、方法及语料来源总结研究对象:专业文本中的语义韵研究方法:计算搭配词和随机提取词语索引两种方法。
(1)提取节点词在跨距内的搭配词并确定显著搭配词(significant collocates)概括语义韵。
节点词即笔者欲研究其搭配行为的关键词。
文中取词形(word form)为基本研究单位,包括“cause,incurred,utterly probability,career” 等。
搭配跨距将界定为-5/+5,即在节点词左右各取5个词为其语境;所有落入跨距内的词形将被视为节点词的搭配词(collocates)。
统计测量采用Z值,凡是与节点词共现之Z值达2.0者将确定为显著搭配词。
使用的主要工具有Wordsmith等检索软件。
(2)随机提取一定数量的词语索引(concordances),参照类联接,描述语义韵。
文中提到的类联接即词语搭配出现于其中的句法结构(Mitchell1975)。
语料来源:拥有400万词容量的上海交通大学JDEST语料库。
并参照COBUILD语料库数据,进行对比研究。
2 文章具体研究过程概述作者明确了各操作定义。
如语义韵(semantic prosody),即关键词项的典型搭配词在其语境中营造起的语义氛围(Sinclair 1988,1991;Louw 1993;Stubbs 1996)。
以及语义韵大体可分为积极语义韵(positive prosody),中性语义韵(neutral prosody)或错综语义韵(mixed prosody)等类别(Stubbs 1996:176)。
评《基于语料库和语料库驱动的词语搭配研究》语料库驱动的词语搭配研究是一个越来越受到关注的新兴语言科学领域。
它的主要目的是利用先进的数据挖掘技术,通过语料库分析多个语言环境中词语搭配的情况,最终确定词语搭配的规律性,以及词语搭配的语义,据此设计有效的自然语言处理系统。
首先,对于语料库驱动的词语搭配研究,需要一个可用于大规模语料库分析的技术。
它需要从大量文本中自动抽取出语料库进行分析,并且能够自动生成语料库的模型。
Zhang等提出了一种基于语料库的分析方法,即语料库驱动的词语搭配研究(ComputationalCorpus-driven Word Pair Mining, CCWPM),它主要利用语料库中的词语搭配,对不同语料库进行分析,以发现词语搭配的规律性、探索词语搭配的语义,以及用于设计有效的自然语言处理系统。
其次,也就是基于语料库和语料库驱动的词语搭配研究势在必行。
语料库驱动的词语搭配研究能够进一步推动自然语言处理、机器翻译和搜索引擎等方面的发展,从而提高系统的准确性和效率。
以及语料库的分析,能够广泛的运用在各类社会科学领域,如文化研究、历史研究、社会心理学研究等,以更加精准的方式深入理解社会现象的发展趋势。
最后,语料库驱动的词语搭配研究的研究对象也值得重视。
通常,它们归纳出来的词语搭配模式是基于某一类语料库,因此,要研究语料库驱动的词语搭配,首先要准确定位语料库的类别和特征,并根据语料库的类别和特征,来分析其中的词语搭配。
以上是关于语料库驱动的词语搭配研究的简介,文中介绍了语料库驱动的词语搭配研究的主要内容,包括研究的技术和势在必行的原因以及研究对象的重要性。
语料库驱动的词语搭配研究的发展将开创新的研究方向,为人们分析社会现象的发展提供更为精准的工具,也将推动自然语言处理、机器翻译和搜索引擎等方面的发展。
语料库驱动下的搭配错误研究的开题报告标题:语料库驱动下的搭配错误研究研究背景和意义:自然语言处理中,搭配是指具有一定语义的固定搭配词组。
搭配是自然语言中常见的语言现象,是语言行为的重要组成部分,具有重要的语义和语用价值。
而搭配错误是指在特定场合或语境下使用不恰当或不正确的搭配。
搭配错误会影响语言的准确性和语法流畅性,严重影响沟通效果和语言交际的质量。
现有的自然语言处理模型采用规则、统计模型等方法识别和纠正搭配错误,但这些方法对于长尾现象的处理效果较差。
而基于语料库的方法可以更准确地识别搭配错误,通过分析自然语言文本的轨迹和频率以及上下文,可以更好地识别和纠正搭配错误。
本研究旨在基于语料库的方法,研究和识别搭配错误,提高自然语言处理模型的表现,提高自然语言的语言准确性和流畅性。
本研究的成果可以应用于自然语言处理模型的优化,提高模型的整体表现,更好地支持语言交际的质量。
研究内容:1. 系统梳理现有的搭配错误类型和纠错方法,总结基于语料库的方法识别和纠正搭配错误的优势。
2. 构建搭配错误语料库作为研究样本,快速搜集并清理语料库数据。
3. 通过机器学习和深度学习等相关算法,训练模型以识别和纠正搭配错误。
4. 在测试集上验证模型的效果,比较模型和其他经典模型的表现。
5. 分析模型的效果和不足之处,提出改进建议和优化方案。
研究方法和技术路线:1. 首先,搜集研究对象所涉及的语言学知识和自然语言处理技术,对相关技术进行深入研究和探讨。
2. 其次,基于语料库构建搭配错误样本库,对样本库进行数据清理和数据预处理。
3. 然后,选定适合本研究的机器学习和深度学习算法,对搭配错误识别和纠正模型进行建模和训练。
4. 在测试数据集上进行模型测试和验收,评估模型的效果和性能。
5. 通过数据和实验结果的分析,总结研究发现和优化建议,提高模型表现和应用价值。
预期研究成果和贡献:本研究将基于语料库的方法,针对自然语言中的搭配错误进行研究和分析,提出搭配错误的类型和纠正方法,建立搭配错误样本库,在样本库上进行有效的分析和建模,提高自然语言处理模型的效果和表现。
基于语料库和语料库驱动的研究方法基于语料库和语料库驱动的研究方法,在语言学、计算语言学以及其他相关领域中被广泛应用。
语料库是一种包含大量文本材料的电子数据库,可以支持研究者对文本进行各种分析和研究。
语料库驱动的研究方法是通过利用语料库中的数据来驱动研究的过程。
语料库驱动的研究方法有多种应用,包括语言描述、语言学理论验证、语言变体研究、语言教学和自然语言处理等。
下面将详细介绍几个常见的应用领域。
首先,语言描述是语料库驱动研究方法的重要应用之一、通过分析语料库中的大量文本数据,研究者可以获得有关特定语言的详细描述。
例如,研究者可以通过语料库研究其中一种语言的词汇、语法结构、语用规则等方面的特征,从而对这种语言进行全面且准确的描述。
其次,语言学理论验证也是语料库驱动研究方法的重要应用之一、通过对语料库中的数据进行统计分析,研究者可以验证其中一语言学理论是否符合实际语言使用的情况。
以句法理论为例,研究者可以利用语料库中的数据来验证句法规则的适用性和普遍性,从而对该句法理论进行评估和验证。
此外,语料库驱动的研究方法也被广泛应用于语言变体研究。
通过对不同语言变体的语料库进行比较和分析,研究者可以揭示不同语言变体之间的差异和变化规律。
例如,在英语研究中,研究者可以通过对美式英语和英式英语语料库的比较,来探讨这两种语言变体之间的差异和变化。
此外,语料库驱动的研究方法在语言教学中也具有重要意义。
通过对语料库中的实际语言使用数据进行分析,研究者可以更好地了解学习者在语言使用上的困难和需求,从而指导语言教学中的教学内容和方法。
例如,在英语教学中,研究者可以通过对学习者使用英语时的常见错误进行分析,来改进教学材料和教学策略,提高学习者的语言能力。
最后,语料库驱动的研究方法在自然语言处理领域也得到了广泛应用。
通过对大规模语料库中的数据进行分析和建模,研究者可以开发各种自然语言处理技术和工具,例如文本分类、信息检索、机器翻译等。
基于语料库和语料库驱动的词语搭配研究一、本文概述随着语言学研究的深入发展,语料库语言学逐渐成为语言学研究的重要分支。
语料库作为一种大规模、系统化的语言数据集合,为语言研究提供了丰富、真实的语言材料。
基于语料库和语料库驱动的词语搭配研究,正是利用语料库的优势,对词语搭配进行深入挖掘和分析的一种研究方法。
本文旨在探讨基于语料库和语料库驱动的词语搭配研究的重要性、方法、应用及其未来发展趋势,以期为语言学研究提供新的视角和思路。
本文将简要介绍语料库语言学的基本概念、发展历程及其在语言学研究中的应用。
重点阐述基于语料库和语料库驱动的词语搭配研究的基本理论和方法,包括词语搭配的定义、分类、提取和分析等。
接着,通过具体实例,展示该方法在实际研究中的应用效果,如揭示词语搭配的规律、揭示语言使用者的习惯用法等。
本文将展望基于语料库和语料库驱动的词语搭配研究的未来发展趋势,探讨其在自然语言处理、机器翻译、语言教学等领域的应用前景。
通过本文的阐述,希望能够使读者对基于语料库和语料库驱动的词语搭配研究有更深入的了解,为推动语言学研究的发展贡献一份力量。
二、语料库简介语料库,又称为文本数据库,是一个包含大量真实文本的电子数据库,用于存储、检索和分析自然语言数据。
语料库语言学是语言学的一个分支,它利用计算机技术对大规模语料进行量化分析,以揭示语言的实际使用情况。
近年来,随着计算机技术的飞速发展和自然语言处理技术的日益成熟,语料库在语言学研究中的应用越来越广泛。
在词语搭配研究中,语料库发挥着至关重要的作用。
一个高质量的语料库不仅提供了丰富的语言数据,还为研究者提供了客观、准确的搭配信息。
语料库中的文本数据往往来源于真实的语言环境,因此其反映的语言现象具有很高的可信度和代表性。
通过语料库,研究者可以系统地考察词语在不同语境中的搭配情况,进而揭示词语搭配的规律和特点。
本研究所使用的语料库是一个大型、多领域的综合性语料库,包含了各个领域、各个时代的文本数据。
语料库辅助的高中英语语法教学研究----以过去分词教学为例摘要:英语语法教学是语言教学不可缺少的局部,学习者掌握和运用语法知识对获得言语能力有着积极而重要的作用。
然而传统语法教学只重视演绎推理,无视归纳总结;重视规那么讲解,无视实际运用,这使学习者在枯燥乏味的学习中丧失了语法学习兴趣,进而无法让他们实现课程标准所要求的语法学习目标,最终影响语言实际运用能力。
因此,探索语法教学的改革与创新,帮助学生掌握有效的语法学习策略势在必行。
本文以过去分词教学为例阐述如何利用语料库数据驱动模式进展高中英语语法教学,对其在语法教学实践中的有效性和可行性进展了研究。
实践证明这一方法能够促进学生的语法学习,增强语法教学效益;语料库驱动的学习方式能够激发学生学习兴趣和主动学习潜能,提高学生的语法归纳能力。
关键词:语料库;数据驱动;语法教学一、引言语法教学在外语教学中占有举足轻重的地位,这已成为不争的事实。
然而,综观目前国的语法教学,在传统语法观的影响下,出现了“三重视三无视〞现象:重视演绎推理,无视归纳总结;重视规那么讲解,无视实际运用;重视书面练习,无视口语交际。
这种教学模式直接导致了学习者在枯燥乏味的学习中丧失语法学习兴趣,进而无法让他们实现课程标准所要求的语法学习目标,最终影响语言实际运用能力。
因此,教师努力去探索新的语法教学方法进展改革与创新势在必行。
语料库作为一种先进的教学与学习资源工具,对于促进语言教与学的巨大潜力已经得到了证实和肯定。
这种教学方法实质上是一种“数据驱动〞式的教学模式。
它的首创者Tim Johns〔1991〕认为,语言学习者从根本上说也是研究者,是“语言侦探〞,语言学习者的学习需要在研究中得以表达并被对语言资料的获取而驱动,因此用“数据驱动学习〞〔Data-driven Learning,〕来描述这一方法[1]。
利用计算机语料库辅助英语语法学习这一模式可以让学生在教师指导下,结合自己的语法学习目标,在语料库中利用语境共现进展观察分析、归纳总结语言规律;教师进展相应的教学设计让学生利用语料库文本结合传统语法教学方法组织学生进展基于目标语法的小组讨论练习。
程式语研究方法概述
6.1 引言
第5章构拟了程式语实现三种意义的系统,即程式语通过一定的结构和非结构系统实现表征意义、协商意义和语篇意义。
换言之,这些结构和非结构系统通过一定的语言表述构型实现不同的意义。
那么,在具体分析时,采用哪些方法获取并分析语料呢?本章将进行具体、深入的讨论。
6.2 研究方法
6.2.1 研究方法回顾
如何研究程式化的固定说法(包括习语)一直是程式语研究者关注的重要话题。
在该语言现象研究的历史长河中,不少研究者提出的研究方法主要针对的是习语。
但正如前文所说的,本研究所用的术语“程式语”涵盖了习语、固定说法等,因此,本章所论述的研究方法也包括了针对习语的一些重要的研究方法。
下面,本章将按照时间和研究视角对现在已有的研究方法进行分类和论说。
首先是20世纪60年代后期至70年代初期以Weinreich(1972),Fraser(1970)和Makkai(1972)为代表的语义学、转换语法学及层次语法学的研究方法。
Weinreich在其《语义理论探索》(Explorations in Semantic Theory)一书中将习语界定为“一个复杂的表达式,其意义不能从其构成成分的意义。
语料库驱动的英语词汇学习模式研究(一)摘要:语料库驱动是近年来代写论文新兴的一种语言学习模式,其最大特点是调动了学习者主动学习的积极性。
这种新型学习模式将对我国英语词汇自主学习和语言错误分析等方面产生较大的推动作用。
关键词:语料库;词汇;学习模式一、语料库与语料库驱动语料库是按照一定的语言原则,运用随机抽样的方法,收集自然出现的连续的语言,运用文本或话语片段而建成的具有一定容量的大型电子文本库。
从其本质上来说,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用总体的语料存诸系统。
它以其容量大、语料真实、检索快捷准确等独特的优势在语言教育中正发挥着越来越重要的作用。
语料库驱动下的外语自主学习模式是指通过语料库和语料库索引工具提供的语境共现、语料库的文本展现和网络互动的有机结合,而为外语学习者提供的自下而上(bottomup)的语言学习环境,从而促进学习者对外语的自主和互动学习。
适合学习者多样化的语料库的建立和其结合的网络互动技术的应用,能改变单纯依靠教材进行外语学习的被动局面,解决了语言学习材料的真实性和多元化问题,适应立体化、网络化、个性化外语教学和学习的实际需要,使外语教学朝着个性化学习、不受时间和地点限制的学习、主动式学习的方向发展。
二、语料库驱动学习的主要特征第一,以学生的自主学习为主要的过程特征。
目前,在位于主流地位的外语教学模式中,教师依然是整个教学过程的主角,具有不容置疑的权威性;教师控制着教学安排、课堂组织、教学内容以及有关活动。
语料库驱动学习与这种教学模式则不同,它强调学生的自主学习,完全以学生为中心,发挥其个性特点。
它要求学生在学习过程中“自我管理”、“自我监察”和“自我评估”,将对学生的其他因素,如学习目的、动力、方式、需求、情感等等,产生积极的影响,这些因素共同作用,最终达到促进学习的目的。
语料库驱动学习环境下,教师的作用也极为重要:他们是过程的“组织者、协商者和引导者”,帮助学生加深对所学知识的印象,培养其自主学习的能力。
语料库驱动的意义单位研究及教学应用近年来,语料库驱动的意义单位研究及教学应用受到了越来越多的关注。
语料库驱动的意义单位(MMU)概念是基于语料库的研究中提出的,它是可以从语料库中提取的可重用的意义单位的统称。
从更广泛的角度来看,它们就是语言解析系统中可检索和复用的意义单位,它们可以被应用于语言研究、自然语言处理、情感分析、自然语言理解等多种语言应用中。
首先,MMU可以用来研究语言习得。
在最佳模型语言学习框架中,学习者可以根据MMU中的可检索意义单位,从语料库中学习语言习得规律,从而形成具有结构性的语言表示。
例如,在最佳模型语言学习框架中,可以使用MMU来阐释结构性语言表示的特征,从而改善学习者的语言习得能力。
其次,MMU可以用来语言理解。
它可以作为检索和表示语言的框架,帮助机器理解语言,使机器能够分析出句子的语义表述。
例如,当一句话的意义不清楚时,MMU中的重用意义单位可以帮助机器理解句子的涵义。
此外,MMU还可以用来自然语言处理,比如语音识别、机器翻译等。
自然语言处理在信息处理中发挥着重要作用,而MMU可以作为一种便利的机器处理模型,帮助机器实现从语音到文字的转换,提高自然语言处理的准确度。
最后,MMU可以被广泛应用于自然语言处理和机器学习,特别是在教育领域。
当前,MMU可以被用于教师开发自然语言处理应用程序,提供更准确更有效的语言知识库,为学生提供全面和清晰的语言指导,以更有效地支持学生的语言学习。
综上所述,MMU在整个语料库驱动的语言研究领域发挥着重要的作用,它是一种在自然语言处理、文字识别、机器学习、教育等领域可以被广泛应用的可重用的单位。
未来,MMU将继续发挥重要作用,为语言研究者和教师提供更多的帮助。
总之,语料库驱动的意义单位研究及教学应用一直受到广泛的关注,它可以帮助我们更好地理解语言,发现语言学习规律和实现自然语言处理,进而推动自然语言应用的发展。
只有进一步深入研究MMU,才能更有效地利用其强大的功能,推动各种自然语言应用的发展。
语料库驱动研究范式特点
语料库驱动研究范式是一种研究方法,其特点如下:
1. 基于大规模语料库:语料库驱动研究范式基于大规模的语料库数据,通过对语料库进行分析和挖掘,来获取研究所需的信息。
这些语料库可以是已有的公开语料库,也可以是自己构建的专门用于研究的语料库。
2. 数据驱动:语料库驱动研究范式以数据为驱动,通过对语料库中的数据进行统计和分析,来得出研究结论。
这种方法强调实证研究,通过大量的数据支持来验证研究假设,而不是仅仅依靠理论推理。
3. 统计分析:语料库驱动研究范式采用统计分析方法来处理语料库中的数据。
通过统计分析,可以得出数据的分布、相关性等信息,从而帮助研究者发现规律和趋势。
4. 实用性:语料库驱动研究范式注重实际应用和实用性。
通过对语料库的分析,可以得出实际问题的解决方案,帮助改进产品、提升服务质量等。
5. 多学科交叉:语料库驱动研究范式涉及多个学科领域,如语言学、计算机科学、统计学等。
通过多学科的交叉合作,可以更全面地理解语料库数据,并开展相关的研究。
总的来说,语料库驱动研究范式通过对大规模语料库数据的统计分
析,实证验证研究假设,以解决实际问题为目标,涉及多学科交叉,具有实用性。
语料库驱动的意义单位研究及教学应用首先,语料库驱动的研究方法可以帮助单位研究者更全面地了解和掌握所研究领域的语言使用情况。
语料库中保存了大量真实的语言数据,包含了不同语言形式、不同语境下的语言表达。
研究者可以通过对语料库的分析,了解一些特定的语言表达在实际中的频率和使用情况,从而更准确地描述和解释这个语言现象。
例如,在翻译单位的语料库中分析不同句型的翻译结果,可以推断出最常用的翻译方式和策略,为翻译工作提供指导和参考。
此外,语料库驱动的研究方法还可以用于教学中。
语料库中的数据具有真实性和典型性,能够直接反映出语言使用者的实际需求和实际运用情况。
因此,教师可以利用语料库来设计教材和教学活动,使学生在真实的语言环境中学习和运用语言。
通过参考语料库中的例句和语言表达,学生可以更灵活地掌握和运用语言。
在翻译教学中,教师可以利用语料库来让学生了解不同翻译策略和表达方式,在模拟真实语言使用环境下进行翻译训练。
最后,语料库驱动的研究方法也可以促进不同学科之间的交叉合作。
语料库是一个跨学科的研究工具,可以为不同学科的研究者提供数据和方法支持。
语料库驱动的研究方法可以帮助不同学科之间的研究者开展合作研究,共同解决一些复杂的问题。
比如,在语言与文学研究中,语料库可以提供大量的文本数据用于分析和阐释文学作品的语言特点和风格。
总之,语料库驱动的研究方法在单位研究和教学中具有重要的意义。
它可以帮助单位研究者更全面地了解和掌握所研究领域的语言使用情况,揭示语言中的隐藏规律和趋势,同时也可以在教学中提供真实和典型的语言材料,促进不同学科之间的交叉合作。
汉语语法化词库编撰及语法化模式研究一、引言语法化是语言学中一个重要的概念,指的是语言中词汇或短语经过演变后成为与原词汇意思不同的语法成分。
语法化词是指在语法化的过程中形成的新词汇。
如今,随着社会的发展和科技的进步,汉语语法化词越来越多,这也给语法化词库编撰及语法化模式研究提出了新的挑战。
二、语法化词库编撰1.语法化词的分类在编撰语法化词库之前,首先需要对语法化词进行分类。
根据语法化的方式,语法化词可以分为词类语法化和词组语法化两大类。
词类语法化是指一个独立的词汇在语法化过程中成为了一个新的语法成分,如“着”、“得”等;而词组语法化是指一个短语或者成语在语法化过程中成为了一个新的语法成分,如“对…来说”、“一下子”等。
2.语法化词的提取在进行语法化词库编撰的过程中,需要对语料进行筛选和提取。
首先需要建立一个庞大的语料库,然后通过语料库对语法化词进行提取和归纳,最终形成一个完整的语法化词库。
三、语法化模式研究1.语法化模式的定义语法化模式是指在语法化过程中形成的一种特定的句法结构。
通过对语法化模式的研究,可以更好地了解语法化词的使用规律和语法化的特点。
2.语法化模式的研究方法语法化模式的研究需要结合实际语料进行分析。
可以通过语法化词库中提取到的语料进行统计和比较,找出不同语法化词之间的共同模式和特点,从而揭示语法化模式的一般规律。
3.语法化模式的应用语法化模式的研究不仅可以帮助我们更好地了解语法化词的使用规律,还可以为语言教学和语言研究提供重要的参考。
通过对语法化模式的研究,可以更好地指导语言学习者正确地使用语法化词,提高语言表达的准确性和规范性。
四、结论语法化词库编撰及语法化模式研究是语言学研究中一个重要的课题,它不仅关乎着语言的演变和发展,还关系到语言的规范和标准。
通过对语法化词库的编撰和对语法化模式的研究,可以更好地促进语言教学和语言研究的发展,为汉语语法化的研究提供重要的理论和实践支持。
希望通过本文的介绍,可以引起更多人对语法化词库编撰及语法化模式研究的关注和重视,共同推动汉语语法化研究的发展。
语料库数据驱动技术在科技翻译教学中的应用一、概述随着科技的迅猛发展和全球化的加速推进,科技翻译在跨文化交流中的地位日益凸显。
传统的科技翻译教学方法往往侧重于语言层面的转换,忽视了语料库数据驱动技术在提升翻译质量和效率方面的巨大潜力。
本文旨在探讨语料库数据驱动技术在科技翻译教学中的应用,以期为翻译教学改革提供新的思路和方法。
语料库数据驱动技术以大规模真实语料为基础,通过对语料进行深度挖掘和分析,揭示语言使用的规律和特点。
在科技翻译中,该技术能够帮助译者快速准确地把握专业术语、固定搭配和句式结构,提高翻译的准确性和流畅性。
语料库数据驱动技术还能够提供丰富的语境信息,有助于译者更好地理解原文的深层含义和风格特点,从而实现更高质量的翻译。
将语料库数据驱动技术应用于科技翻译教学,不仅可以提升学生的翻译实践能力,还能够培养他们的数据驱动思维和创新能力。
通过引导学生运用语料库工具进行自主学习和探究,可以激发他们对科技翻译的兴趣和热情,提高他们的综合素质和竞争力。
本文将从语料库数据驱动技术的概念、特点及其在科技翻译中的应用等方面入手,分析该技术在科技翻译教学中的优势与不足,并探讨如何有效地将该技术融入科技翻译教学实践中。
1. 科技翻译的重要性及挑战科技翻译在当今全球化背景下具有举足轻重的地位,它不仅是各国科技交流与合作的桥梁,更是推动科技进步与创新的重要力量。
随着科技的迅猛发展,科技文献的数量和种类不断增加,涉及领域广泛,对翻译的质量和效率提出了更高的要求。
科技翻译面临着诸多挑战。
科技词汇的不断更新和专业化给翻译人员带来了极大的困扰。
翻译人员需要不断更新自己的知识储备,掌握最新的科技词汇和术语,以确保翻译的准确性和专业性。
科技文献通常包含大量的专业术语、复杂句式和长句,这些都需要翻译人员具备扎实的语言基础和深厚的专业知识。
不同语言之间的文化差异和表达习惯也给科技翻译带来了一定的难度。
如何提高科技翻译的质量和效率,成为了翻译界和教育界共同关注的焦点。
共选理论与语料库驱动的短语单位研究一、概述随着自然语言处理技术的不断发展,短语单位的研究逐渐成为语言学和计算语言学领域的热点之一。
短语单位是构成句子和篇章的基本元素,对于理解语言的深层结构和语义信息具有重要意义。
共选理论与语料库驱动的方法为短语单位的研究提供了新的视角和工具。
共选理论强调语言成分之间的相互选择和依赖关系,认为短语单位的选择受到其所在语境、语法规则和语义信息等多重因素的制约。
该理论不仅有助于揭示短语单位在语言系统中的分布规律,还可以为短语单位的自动识别和提取提供理论依据。
语料库驱动的方法则注重从大规模真实语料中挖掘短语单位的使用情况和特点。
通过对语料库的统计和分析,可以获取短语单位的频率、搭配、语义等信息,进而揭示短语单位的实际使用情况和语言规律。
这种方法具有客观性和可验证性,为短语单位的研究提供了有力的数据支持。
本文将结合共选理论和语料库驱动的方法,对短语单位进行深入的研究。
我们将介绍共选理论的基本框架和核心观点,并分析其在短语单位研究中的应用价值。
我们将介绍语料库驱动的方法在短语单位识别和提取中的具体应用,并探讨如何结合共选理论进行进一步的分析和解释。
我们将总结本文的研究成果,并展望未来的研究方向和应用前景。
1. 研究背景:介绍短语单位在语言研究中的重要性,以及共选理论和语料库驱动方法在短语单位研究中的应用现状。
短语单位作为语言研究的重要组成部分,一直受到语言学界的广泛关注。
短语单位不仅是语言表达的基本单元,还是承载语义、语法和语用功能的重要载体。
在语言交际中,短语单位的恰当使用对于实现有效沟通至关重要。
深入研究短语单位的性质、特点及其在语言中的作用,对于揭示语言的本质规律、推动语言学理论的发展具有重要意义。
随着计算语言学和语料库技术的快速发展,共选理论和语料库驱动方法逐渐成为短语单位研究的新趋势。
共选理论强调语言成分之间的相互作用和相互依赖,认为短语单位的形成和使用受到多种因素的共同影响。
语料库数据驱动下的语用教学研究本文利用WordSmith Tools Version5.0的语境共现、词频列表、关键词等检索工具,对收集到的非英语专业学生作文中各种语言错误现象进行统计分析,提出语料库数据驱动方法在语用教学中的优势。
标签:语料库语用失误语用能力语用教学一、引言语用失误自上世纪80年代提出以来,一直是语用学、二语/外语教学与研究的主要议题之一。
曹春春(1998)、孙亚和戴凌(2002)等分别对语用失误进行了界定和分类,并探讨了语用失误对外语教学的启示;研究二语学习者语用失误的学者有Blum-Kulka和Olshtain(1986),Ellis(1992),Trosgorg(1995),何自然和阎庄(1986),李民和陈新仁(2007)等;对语用失误的成因进行分析的有张辉(1994),张新红(2000),孙亚和戴凌(2002)。
作为一种新的外语教学方法与研究范式,语料库具有强大的功能。
然而,经检索,迄今尚无研究者全面系统地从语料库角度探讨语用教学问题,因而这是本文关注探讨的问题。
二、理论基础(一)语用失误及其分类语用失误(Pragmatic failure)的内涵是不能理解所说(词语)的含义;何自然认为:“语用失误不是指一般遣词造句中出现的语言运用错误,而是说话不合时宜的失误,或者说话方式不妥,表达不合习惯等导致交际不能取得预期效果的失误”(何自然,1997)。
在ELF背景下,可以将语用失误重新定义为跨文化交际者由于对当前语境下的显性或隐性社交语用因素的感知或表达不当而带来的交际问题或障碍,如交际目标或意愿的受挫、面子的伤害等。
(陈新仁,2015)托马斯将语用失误分为语用语言失误和社会语用失误(Thomas,1983)。
陈新仁(2015)基于社交语用维度,将语用失误分为4类:1.对交际场合正式程度、行事程序的感知失误;2.对彼此情感距离的感知与表达失误;3.对自己或对方交际目标、行事意愿等的感知失误;4.对对方认同的价值观念、习俗等的冒犯。
“从来”语法化的语料库驱动研究“从来”在现代汉语里作为一个表加强否定的语气副词使用。
我国当前从汉语词典编纂到汉英词典编纂再到对外汉语词汇制定及其英文翻译,对“从来”一词的解释及应用存在一些弊端。
本文对汉外词典编纂和对外汉语词汇教学提出了建议,并从汉语史的角度,应用语法化理论探讨了“从来”由名词向语气副词的演变历程,提出了“从来”的语法化斜坡(cline):动词>地点名词>时间名词>时间副词>语气副词>零(zero)。
标签:语料库从来语法化词汇化演变一、介绍梁银峰(2009)指出,“从来”由“所从来”演变而来,此过程大约自南北朝时期开始。
我们的分析与该结论基本一致,但观察到演变始于东汉。
为了本文的完整性,我们约略保存这部分论述。
然而,其“语言经济性原则”难以清楚地解释“所”脱落的原因。
因此本文历时部分的一个新问题是:“所”为什么脱落?另外一个问题是:“从来”为什么多与否定词搭配?二、“从来”的语法化共时研究(一)现代汉语中“从来”的语义和语法特征《现代汉语词典》(2005)对“从来”的注释是:“从过去到现在(多用于否定句)”。
我们发现:第一,多数“从来”句与否定结构搭配,往往只加强了否定意味,不重在表时间,因此语义上不符合时间副词的定义。
第二,“从来”在语法上也不符合时间副词的定义。
“从来”与否定副词连用时,二者并不是平行关系,“从来”修饰否定副词,然后再与否定副词共同修饰谓词性结构,如“他的一号工作服[[[从来]不]系扣]”。
既然单纯修饰否定形式的“决”可以划入语气副词,那么也应该把一部分“从来”划入语气副词。
这样分类有利于认识副词的个性,有利于把握词汇系统的不同时间层次。
第三,作为时间副词的“从来”主要出现在近代汉语中,它与现代汉语中的“从来”相比语法位置灵活得多,其主要结构有三种:a.从来+NP+(Neg.)+VP;b.NP+从来+(Neg.)+VP;c.NP+从来+VP1+Neg.+VP2 (1)从来幽并客,皆向沙场老。
(唐·王昌龄《塞下曲》)(2)侍者回举似师。
师云。
我从来疑着这汉。
(唐·慧然《镇州临济慧照禅师语录》)(3)后主谓曰:“我从来待卿不先余人,今日见卿,可谓岁寒知松柏后凋也。
”(唐·李延寿《南史·卷二十六》)唐为群(2007)指出,“从来”有表“时态”的作用,并分五点论述。
其中第三点,“从来”有时也指向“将来”,第五点,“‘从来’能加强说话人或叙事者的主观性”,一并在表“时态”的框架下探讨不合适。
其实,这两点所描述的“从来”是语法化为表强调尤其表加强否定的语气副词的典型例子,第五点更是主观化的表现。
即便是第二条,作者分为隐含的和明确的时间起点或终点也甚牵强。
(4)他从来没有对任何人讲过他的隐私。
(5)四十岁以后,他遇到事情就从来没有惊慌失措过。
(张炜《秋天的愤怒》)对于上面两个例句,问题不在于第一句“从来”所指的时间起点是隐含的,第二句所指的时间起点是明确的,关键在于“从来”已虚化为表加强语气的副词。
为了进一步证明该判断,我们利用北大现代汉语语料库(网络版)①:兰卡斯特汉语语料库(The Lancaster Corpus of Mandarin Chinese,下文称LCMC)②:进行调查统计。
北大现代汉语语料库汉字总字数③是264444436,汉字字种数是9552。
在此语料库检索系统中输入“从来”,共出现15073条结果。
通过仔细观察发现,“从来”后面常跟“没”“没有”“不”“也不”“不曾”“未”“就不”“就没有”“都不”“都没”“都是不”等这类表否定的词或短语,即它们的共现频率很高。
表1:否定式“从来”词组的频次表短语频次从来不 3537从来没 7264从来未 163从来只 62从来也只0从来也没646从来也未15从来就不271从来就没425从来就是不8从来就是没 2从来都不171从来都没164从来都只13从来都是只 2从来都是没 3从不7583从没3119从未7618“从来”否定结构频次之和除以“从来”的频次便可得出一个百分比P,从这个百分比的大小可以看出“从来”与加强否定意味功能的密切程度有多大。
P=(3537+7264+163+62+0+646+15+271+425+8+2+171+164+13+2+3)/15073=0.84561799≈85%。
显然,85%这个百分比是很大的。
而我们所调查的也只是部分否定短语,肯定有疏漏,因此这个数字是相当保守的。
唐为群(2007:83)通过200万字的语料调查发现:否定句占“从来”句总数的92%。
两则数据相近,也就共同证明了我们一开始的判断:“从来”在现代汉语中主要并不表示“从过去到现在”,而早已被语法化为这样一个起加强否定意味的副词。
作为语法化的特征之一,“一个实词的语法化过程往往会导致其语音形式的弱化”(石毓智、李讷,2001:3)。
由于“从来不”和“从来没”的使用频率很高,因此它们很容易进一步语音弱化,漏掉中间的“来”而词汇化为“从不”“从没”。
“从来未”的使用频率虽然相对较低,但也可能受到前两个结构词汇化的影响,在类推机制下变为“从未”。
现在,两种形式并存,但新起的形式有很大的优越性,符合汉语双音节的特点,因而在使用频率上后来居上。
下面来探讨一下不同题材范畴中的“从来”的语法化程度问题。
“LCMC语料库是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库”(许家金,2007)。
该语料库可按题材范畴的不同来检索,非常方便统计。
下面是LCMC分别对“从来”“从来不”的自动统计结果,为保持原貌,我们根据许家金(2007)LCMC的取样范畴表做了必要的翻译。
表2:LCMC里“从来”的分类词频统计表④File name Raw frequency Frequency per 10K words新闻报道 5 0.595238095238095社论0 0新闻评论0 0宗教0 0技术、贸易0 0通俗社会生活 1 0.4传记和杂文15 2.11267605633803报告和公文0 0学术、科技 1 0.357142857142857一般小说 6 1.46341463414634侦探小说 6 0.705882352941177科幻小说8 1.33333333333333武侠小说 1 0.181818181818182爱情小说10 1.49253731343284幽默故事 1 0.303030303030303Total 54 0.786026200873362表2显示,“从来”在传记和杂文中词频最高,接下来从高到低排列分别是爱情小说、一般小说、科幻小说、侦探小说、新闻报道、通俗社会生活、学术科技、幽默故事、武侠小说(武侠小说虽是小说,但有些地方喜用浅近文言,故口语程度不及其他小说),在其余的取样类型中没有出现,如社论、新闻评论、宗教、技术商贸、报告和公文等,它们口语化程度都不高。
由此,可以看出,“从来”是口语词,在愈是口语程度高的文献里,它的词频就越高。
在表3中,口语化的“从来不”的词频分布大致和表2相同:如“从来不”的最高词频还是在爱情小说、一般小说、传记杂文、幽默故事、侦探小说里,只是次序稍有不同。
我们推测类似“从来不”的表达是“从来”进一步语法化的新兴结构,它们还没有全面反映在我们语言中,或者该语料库由于规模较小、各类型文本比例不够合理而使其代表性欠佳。
要证实这个推测,需要系统地进行溯源,对“从来”的语法化历程进行研究。
表3:LCMC里“从来不”的分类词频统计表⑤File name Raw frequency Frequency per 10K words新闻报道0 0社论0 0新闻评论0 0宗教0 0技术、贸易0 0通俗社会生活0 0传记和杂文 3 0.422535211267606报告和公文0 0学术、科技0 0一般小说 4 0.975609756097561侦探小说 2 0.235294117647059科幻小说 1 0.166666666666667武侠小说0 0爱情小说7 1.04477611940299幽默故事 1 0.303030303030303Total 18 0.262008733624454(二)对外汉语词汇的个案分析——以“从来”为例近年来国内存在一种错误的主流模式,即由汉语词典编纂到汉英词典编纂,再到对外汉语词汇制定及其翻译的直线模式。
不少对外汉语教科书,如黄政澄(1998:169),刘珣(2002:280),潘忆影(2002:77),李德钧、成文(2006:2),施向东(2008:221)都把“从来”译为“always,all along”。
我们推测这是受汉英词典的影响,而汉英词典又受汉语词典的影响。
翻开近些年的汉英词典,果然都是这样的翻译。
国内汉英词典颇多因袭,限于篇幅,不再举例。
国外汉英词典也受到了影响,如John DeFrancis(1999:96)。
又如Wang Fred Fangyu(1967:78;1971:23)的翻译“always(in the past),from the beginning”对应《辞源》(1983:1081)的释义“历来,向来”,“in the past,since some remote point of time”对应《现代汉语词典》的“从过去到现在”。
事实上,从时间上看,以《现代汉语词典》为代表的新汉语词典与以《辞源》为代表的老汉语词典也有着继承关系。
《辞源》的释义是正确的,因为其例句是文言文;而后来的汉语词典、汉英词典乃至对外汉语教材沿袭此解释,置现代汉语里“从来”的主要用法于不顾,专找听话的例句,对否定句式熟视无睹,则大为不妥。
该模式尤使对外汉语词汇教学深受其害,根据这样抓小放大的翻译,学生很难掌握“从来”的主要用法。
在调查中,我们也发现了一些例外。
任长慧、朱敏琪(2008:287)把“从来不”“从来没”列为单独的词条,并翻译为“never”。
Peter Terrell(2005:91)对二者有所区分:“从来不”是“never”,“从来没”是“(has)never”,并收录了“从不”。
Lin Yutang(1972)列了“从来”,但并没给出翻译。
严格来讲,单个“从来”不可译,故而这是明智的做法。
梁实秋(1977:303)收录了“从不”和“从未”,把“从来”译为“from the beginning(used only in the negative expression)”。
结合以上经验教训,我们认为:汉语词典编纂、汉外词典编纂、对外汉语词汇制定及其翻译相互联系,又各有特点。
汉语词典直接植根于本民族言语实践和汉语本体研究,历史性和民族性强。