当前位置:文档之家› 中国英汉平行语料库的设计与研制

中国英汉平行语料库的设计与研制

中国英汉平行语料库的设计与研制
中国英汉平行语料库的设计与研制

中国英汉平行语料库的设计与研制

王克非北京外国语大学中国外语教育研究中心提要:本文论述超大型双语平行语料库的设计与研制问题。在综合述介国内外双语语料库建设情况之后,作者着重论述了中国英汉平行语料库这一超大型双语平行语料库的设计特点(主要有分类架构、历时处理、语料平衡以及通用的和各种专门语料的采集)和研制方法(主要讲述语料的加工标注、检索平台以及各个专门语料库、历时语料库和口译语料库的构建)。其设计与研制对于其他大型语料库的建设具有借鉴意义。

关键词:中国英汉平行语料库;设计;研制

Abstract:The paper deals with the design and construction of asuper-large-scale bilingual parallel corpus.After an overview of parallelcorpora constructions and applications both in China and abroad, the designfeatures(including classification and composition,diachronical arrangement,balance of textual materials,and collection of texts for general or specificpurposes)and the construction methods (including tagging,concordanceplatform,and the construction of specialized corpora,diachronical corpora andinterpreting corpora)of the super-large-scale China English-Chinese ParallelCorpus(CECPC)are focused on.The design and construction discussed areapplicable to the compiling of other large-scale corpora.

Keywords:China English-Chinese Parallel Corpus (CECPC);design;construction

1、中国英汉平行语料库的研制意义

在全球化、信息化的当今世界,翻译已成为了解全球信息、扩大对外宣传、获取国际资源的重要手段。同计算机技术结合而兴起的双语平行语料库建设,则为语言研究、翻译研究、外语教学、词典编纂和跨语言信息检索等提供了最好的平台,同时还可用来考察和验证基于单语语料库或者基于直觉提出的假设,具有广阔的应用前景。

平行语料库承载着相互对应的两种语言,与语言对比研究有着天然的联系,成为语言对比研究中的默认数据源;平行语料库中的两种语言互为对应,记载着两种语言中的对应词和对应单位,成为词典编纂者最可靠的数据来源;平行语料库中的源语言和目标语言互为对应,在翻译教学和外语学习中的用途更是不言而喻。

除此之外,平行语料库对机器翻译和自然语言处理也极为重要。对齐的平行语料能为基于例句和统计的机器翻译系统提供实证模型,同时也可以为基于规则的机器翻译提供验证规则,为机助翻译提供大量翻译记忆。正如欧赫(Och2002)所言,“只要给我足够的双语对应数据,几个小时内我可以给你一个机器翻译系统”。然而现有的英汉平行语料库规模有限,且大多是利用现有同质翻译资源建立的,并非平衡语料库,常常不能较好地代表广泛含义上的源语—译语关系,依此生成的语言模型常常不能够有效地解释翻译语言,这极大地阻碍了翻译和词典编纂等学科研究的深入,已成为提高机器翻译译文质量的瓶颈。

鉴于此,我们提出设计和研制更大规模、更多功能的超大型平行语料库,即一亿词以上的“中国英汉平行语料库”,以满足各方面研究的需求和语料库事业的发展。

中国英汉平行语料库的研制意义可从以下两方面体现出来。

第一,理论价值:

1)由于大型双语平行语料库规模超大、采样严格,能够较好地代表源语—译语关系,因此能为翻译研究、语言对比研究、语言演化研究、口笔译比较研究等提供可靠的翻译实例和量化数据,从而提高上述研究的可信度。

2)在超大型双语平行语料库建设的基础上,我们还将展开多项具有理论意义的语言和翻译研究。这些研究主要包括历时研究、类比动态描写。研究分析时间跨度大,涉及层面多。

第二,应用价值:

1)在研究方法上,我们将据此探索基于语料库的翻译语言动态类比和描述,为语言的共时与历时比较研究提供有效的、可操作性强的分析模式和研究平台。

2)在大型双语平行语料库的采样和加工方面,将提出更有借鉴价值的模板和方法。

总之,“中国英汉平行语料库”这一超大规模的英汉/汉英平衡语料库,为今后其他语对的双语平行语料库或多语平行语料库的研制、双语对比与研究、英汉语言接触与现代汉语历时变化研究等,提供共同的大型的实证研究基础,为中国的语料库研究走向世界前沿作出贡献。

2、国内外双语平行语料库研制现状

平行语料库的研制历史并不长,从世界上第一个初步的平行语料库TheCanadian Hansard Corpus(包括英法语版本的加拿大议会辩论语料)到目前仅二十年左右。但由于平行语料库对于语言对比研究、翻译研究、翻译教学、翻译技术开发(如机器翻译系统、机辅翻译工具)、双语词典编纂等语言学和自然语言处理研究具有巨大的潜在应用价值,平行语料库的建设在世界上得到迅速发展(参见王克非等2004,McEnery&Xiao2007)。目前,平行语料库研究大多集中在欧洲,涉及语言也主要与欧洲语言有关,特别是欧共体/欧盟等机构的文件。

如兰卡斯特大学早期创建的ITU/Crater平行库包含欧洲委员会有关电信的英法双语文件各一百万词,在句级对齐。

欧洲委员会联合研究中心的JRC-ACQUIS多语种平行语料库包括成员国的22种欧洲语言,目前的3.0版包括五十年代至2006年的欧洲法律文件463,792个,共计十亿词。

欧洲人类语言技术研究网络(ELSNET)1994年发布的欧洲语料库规范多语种语料库1期(ECI/MCI)包括27种语言(主要是欧洲语言,也包括汉语、日语和马来语),以官方文件为主,但也包括少量的报纸、小说、技术报告、词典和词表;该库共48部分,共计9,800万词,其中12个部分包含有平行语料。

MULTEXT语料库是由欧洲语言资源协会资助的项目,其目的是开发多语种工具和语料库;该语料库包括采样于欧洲委员会官方杂志(JOC)的五种语言各40个文档,句级对齐,其中10个文档还作了词性标注。

PAROLE语料库包括欧洲14种语言,采样年代为1997-1998,文本来源包括书籍(20%),报纸(65%),杂志(5%),以及杂类文本(10%),共计2,000万词,每个子库中25万词按照统一标准作了词性标注。

多语种语料库合作(MLCC)项目建立了一个多语种平行语料库,包括九种欧洲语言,语料来源为上述提到的欧洲委员会官方杂志1992-1994年的文本。

爱丁堡大学的EuroparlParallel Corpus收集了1996-2009年间欧洲议会会议记录,涉及11种语言,以双语平行的形式发布,句级对齐,丹麦语、德语、希腊语、西班牙语、芬兰语、法语、意大利语、荷兰语、葡萄牙语、瑞典语分别与英语对应,共约5千万词(以英语计)(Koehn2005)。

上述这些语料库基本上都是文本来源单一、标注也简单的欧洲语言专用语料库,主要用于语言识别、文档级对齐、术语提取等自然语言处理研究,而非从语言学角度研究语言(参见Xiao2008)。

除此之外,也有少数几个精心设计的平行语料库,如由挪威奥斯陆大学研制的最早的英语—挪威语平行语料库,包含英语和挪威语各100个1-1.5万词的英-挪对应母语文本及其挪-英翻译文本,共260万词,语料采样考虑到平衡性而非局限于少数几个语域或语体,涉及小说(儿童小说、侦探小说、一般小说)和非小说(宗教、社会科学、法律、自然科学、医学、艺术、历史地理)。该语料库不仅在句子层面对齐,而且对英挪语料均作了词性标注和词形还原(lemmatisation)处理。

英语—瑞典语平行语料库则是采用英语-挪威语平行语料库的建库标准、由隆德大学(LundUniversity)和哥特堡大学联合研制的平衡语料库,包括64个英语原文文本及其瑞典语译文和72个瑞典语原文文本及其英语译文,共计280万词。

在这两个语料库的基础上,近年来奥斯陆大学又以同样标准开发了奥斯陆多语种语料库(OMC),除了英语、挪威语、瑞典语外还涉及到了德语、法语、荷兰语、芬兰语、和葡萄牙语。这些精心设计的平行语料库适合于翻译与跨语言对比等研究,但局限于欧洲语言。

欧洲语言之外的平行语料库,包括汉语在内,还不多见,精心设计的大型平衡语料库则更少。主要有兰卡斯特大学研制的英国少数民族语料库EMILLE,包含了十五种南亚语言口语及书面语料近一亿词,其中平行语料库部分包含20万词的英语文本及印地语、孟加拉语、旁遮普语、古吉拉特语及乌尔都语平行对应文本。语言数据联盟(LDC)于2004年发行了香港平行文本库(Hong KongParallel Text),包括590

万词的英语文本和980万字的汉语文本,英汉文本句级对齐;该库由2000年所发行的三个英汉平行语料库组成:香港法律辩论语料库、香港法律语料库、香港新闻语料库。英国兰卡斯特大学创建的Babel英汉平行语料库由从《英语世界》等刊物采样的327篇英汉双语时文构成,采样年代为2000-2001年,共计54万词;该库实现句级对齐,并对英汉语文本都进行了分词和词性标注。台湾辅仁大学初步建立了范本财经英日汉平行语料库,收集语料约10万句对。最近,香港理工大学和北京外国语大学的学者联合研制了英汉旅游文本语料库,约100万字词(参见李德超、王克非2010)。

在我国内地,双语平行语料库的建设近十年来也取得了重大进展,已有多个英汉及日汉等双语平行语料库建成。如北京大学计算语言学研究所的汉英平行语料库(5万多句对)及其所承担的863项目所建的英汉平行语料库(20万句对),哈尔滨工业大学的英汉双语语料库(40-50万句对)。不过这些语料库有一个共同之处,即建库目的主要是自然语言处理而非语言学研究,因此所谓的句对通常是脱离上下文、打乱次序的孤立的句子,英译汉与汉译英语料夹杂,用户不易识别翻译方向。另外,国内近年来也建成了一些专门用途语料库,如上海交通大学的莎士比亚戏剧英汉平行语料库,燕山大学的红楼梦译本平行语料库,绍兴学院的鲁迅小说汉英平行语料库等。这些语料库因为是专门性的,语料来源单一,规模比较小,适合专门研究而不适合通用语言研究。

国内学界平行语料库研制方面最值得一提的是,2002年以来,北京外国语大学中国外语教育研究中心先后在教育部人文社科重点研究基地重大项目基金和国家社科基金的支持下,建成了规模约三千万字词的大型通用汉英平行语料库,是目前最大规模的平衡语料库,包括英译汉和汉译英双向翻译语料,而且采样均衡,语体、语域及采样年代覆盖面广,全库实现句级对齐及词性标注。其中部分语料(200余万字词)已提供在线检索,为全社会服务。在该语料库基础上开展了一系列课题研究,如语料库研制方面的研究(王克非等2004,常宝宝2004,等)、基于语料库的翻译学研究(秦洪武、王克非2004,王克非、黄立波2006,2008,王克非、胡显耀2008,2010等)、基于语料库的对比语言研究(秦洪武2009,王克非、秦洪武2009,何文忠、王克非2009,秦洪武、王克非2010)等。总之,该语料库为超大型

的中国英汉平行语料库的建设提供了重要的语料库基础和相关研究基础,积累了研制大型平行语料库的经验。

上面对国内外研究现状的简述表明,平行语料库研究目前主要涉及欧洲语言,而且欧盟机构和欧洲国家的研究基金愿意在该领域投入大量研究经费。现有涉及英语和汉语的双语语料资源现状与这一“大语种”语对的地位还不相称,与研究的需要也不相适应,亟需一个大型、平衡的英汉双向平行语料库,使之成为既适用于自然语言处理与语言工程,又能应用于英汉语言对比研究(包括共时与历时对比)和翻译研究、翻译教学与实践、双语词典编纂的共同研究平台,以便从不同角度展开的研究能真正揭示语言的本质,避免由于不同研究使用不同数据而造成的差异。我们希望通过研制这个中国英汉平行语料库,并在此基础上开展上述各项研究,使中国的双语平行语料库研制与加工走在世界前列。

3、中国英汉平行语料库设计架构

我们在十年前创建汉英对应语料库的基础上(参见王克非2004),开始研制超大型英汉平行语料库——“中国英汉平行语料库”,包括历时性的平衡语料库和若干专门语料库以及口译语料库。在此基础上我们将进一步开展1)平行语料库深加工与标注研究、对齐检索等工具研究,2)英汉语言对比、英汉互译、语言接触与汉语历时发展等方面的研究,3)专门语料库和口译语料库的建库类型与特点研究,4)建库过程中的语料采样标准,数据源标示等标准类研究。

3.1总体框架

本项目设计的超大型英汉平行语料库,是研制与加工并重、语言研究与翻译研究并重的语料库,是兼顾笔译和口译文本、兼顾文本共时和历时研究的语料库,力求设计科学,分类合理,加工到位。注重以下特点和要点:超大规模、深度加工、多项检索、软件兼容、语料平衡、双语双向、共时历时、通用专门、笔译口译。

3.2主要内容

1)提出科学的语料采集方法,使双语语料的采集既符合随机、真实的原则,又比较对应、完整和具有一定代表性,便于今后语言、翻译、教学等研究工作的开展。

2)进一步优化双语语料的对齐、标注问题,研制过程中开发和改进相关软件,探讨适合汉语词语切分和标注的理论与方法,尝试英汉专门语料和英汉口译语料等特殊语料的标注和检索,为有深度的语料检索打好基础。

3)探讨优化双语平行语料库的分类和架构,拟分文学、新闻、政论、科技、应用文等五大类和若干子类,使之更适合建成后的语言与翻译研究。

4)研制适用基于语料库的语言与翻译历时研究的检索平台,充分发掘双语语料库的研究潜力。

5)合理架构英汉/汉英双向语料,大致按英汉2/3、汉英1/3的原则收集。

6)注意语料的时代标志,拟将整个20世纪的对应语料的一部分做历时处理,在收集整理和标注加工方面,注意每20年为一阶段,重点收集各阶段后五年或某五年的相关语料,以便开展历时的语言变化研究及语言与翻译的关系研究。

就待建语料库的构架设计而言,为了兼顾语言研究和自然语言处理等语言工程的不同需要,并考虑到对一般语言和专门用途语言的研究需要,该库将由通用型的平衡语料库和专用型的特定语域的专门语料库构成,两者大致各占一半。其中通用平衡库约5000万字词,兼顾共时与历时及翻译方向的平衡性。

语料的共时平衡是指从语言实际应用的角度,按一定比例包括尽可能多的语体和语域。“中国英汉平行语料库”拟采用国际语料库语言学界研制Lancaster-Olso-Bergen(LOB)等经典语料库的方法,按文本类别采样后整合。但考虑到那些经典英语语料库在实际应用过程中常常将建库时分类过细的语体按大类合并检索分析,我们将直接按五大类体裁采样:文学、新闻、政论、科技、应用文。各大类采样时再兼顾小类的均衡性,如文学类中的小说、戏曲等;新闻中的报道、综述等,科技类的书籍与期刊等介质、以及文理工农医等特定语域,等等。

语料的历时平衡是指从现代汉语发展的实际情况出发,分段采样以便所建语料库能反映出现代汉语的发展轨迹,并在英汉平行语料库的基础上探究英汉语语言接触及英语通过翻译对汉语发展产生的影响。我们将克服英国国家语料库(BNC)由于历时连续采样而造成的各阶段差异模糊的缺陷,拟将二十世纪的平衡语料的一部分,大致分五个阶段,重点收集各阶段某五年的语料,各100-300百万字词,计1000万字词以上,总的平衡语料库为5000万字词以上。

就翻译方向而言,考虑到我国翻译界的实际情况是英译汉多于汉译英,并且前者质量高于后者,“中国英汉平行语

料库”将包括三分之二的英译汉语料和三分之一的汉译英语料。英汉对比部分主要指在所建平衡语料库的基础上研究英语和汉语这两个不同语系的国际大语种之间在总体上的相同和相异之处,同时考虑两种语言在不同语体之间的异同;语言对比的另一个方面是比较对应的汉(英)语母语文本和汉(英)语译文文本,以检验目前国际上翻译共性研究领域基于小型对应语料库所做出的假设,在理论上做出新的探索。

4、中国英汉平行语料库的研制

研制工作主要涉及语料库设计、语料收集、语料加工、语料库检索工具的设计、基于语料库的研究、语料库在线检索六个部分。

4.1研制上的简要描述

语料库设计

语库规模:1亿字/词以上

语库架构:1)通用英汉平行语料库5000万字词;2)专门英汉平行语料库5000多万字词,分交通英汉平行语料库,时政新闻英汉平行语料库,财经英汉平行语料库和口译语料库)

语库性质:双语库,平行库;通用和专门,共时和历时,笔译和口译

语料类型:书面语料为主,口译语料为辅

语料分类:分文学、新闻、政论、科技、应用文等五大类体裁

翻译语向:英汉(2/3)和汉英(1/3)双语双向

语料收集

语料收集的原则:按照年代收集,跨度为一个世纪的英汉双语语料,并注意各阶段语料在数量和质量上的大体均等。

语料的体裁:通用语料库考虑平衡性,借鉴国外平衡语料库的建构方法,按照五大体裁分类收集语料。

语料加工

元信息的设计:按照语料的来源、年代、语域、题材等设计多维元信息标签,包括语料库中英文名称、所采集样本的发生年代、语体、翻译方向、原始数据篇名、作者、译者、责任方(数据采样人等信息)

对齐方式:句对齐

标注:实施词性标注,根据研究需要尝试对部分语料实施中英文句法标注;视研究条件尝试翻译技巧信息的人工识别和标注;人工识别翻译对等语块。

存贮方式:采用tmx格式的xml标记语言,统一码UTF-8编码,以便于存储与交换;便于读入数据库,也便于检索和机器翻译系统的直接利用。

语料库检索工具的设计

检索工具拟综合利用Perl和C等语言的优势,充分利用元信息,针对不同用户,提供简单检索、复杂检索和有条件检索,包括实施较精确的词汇、语块检索,实现搭配信息的呈现。

基于语料库的研究:

主要包括:a)基于语料库的英汉语对比研究;b)基于语料库的历时翻译研究;c)基于语料库的翻译共性研究;d)基于语料库的汉语历时变化研究;e)基于平行语料库的词典研编问题。

语料库在线检索:

在线平台实现单机平台相似的功能,同时实现语料库的翻译辅助功能:系统可将析出语料保存为tmx等格式,为现有的翻译辅助软件如Trados、Dejavu或者雅信等软件所用。

4.2具体研制思路

4.2.1关于语料库的加工标注和语料检索

1)对语料库中的各类文本进行合理的元信息标注,以便按照用户设定的条件,从语料库中抽取不同类型的双语对齐文本。拟将元信息与文本分别独立保存,即元信息脱离文本本身,便于对文本内语言信息的快速检索。

2)对语料库中的语言信息进行标注,以方便从语料库中抽取用户所需的多种语言信息。语言信息的标注主要包括词性标注和部分文本的句法标注。

3)建立大规模机器翻译记忆库。研究中拟采用兼容性较好的通用标记语言存储文本,建立大规模机器翻译记忆库(translationmemory),使语料库可以为机器翻译系统所直接使用。

4)研制功能强大的配套软件系统。软件系统主要包括:a)元信息检索系统,用于根据用户设定从语料库中抽取文本;b)标注文本还原系统,用于析出便于用户阅读的检索词及语境;c)翻译记忆交换文件(tmx)生成和解析系统,用于自动生成和解析翻译记忆交换文件;d)单机和基于网

络的平行语料库检索系统,用于准确、高效地对语料库进行检索。

4.2.2专门英汉平行语料库的研制

根据经济社会发展的现实需求,研制多个专门用途平行语料库。

1)专门英汉平行语料库的研制:分别建立时政新闻英汉平行语料库(2000万字/词),交通英汉平行语料库(1500万字/词),财经英汉平行语料库(1500万字/词),英汉口译语料库(>100万字/词)。分别收集处理各专门语料库,制定此类语料库文本的选取和抽样细则,并设计和研制适合此类文本标注和检索的应用平台。

2)专门英汉平行语料库的应用研究。课题组拟应用专门英汉平行语料库,深入分析汉英语言词汇之间的对应关系和转换规律,研究当代英汉翻译规范、汉语文本英译语言特征和英语文本汉译语言特征,克服目前语料库翻译学研究过多依赖于文学语料的缺陷,从而提高语料库翻译学研究的可信度和说服力。

3)基于语料库的汉英口译研究。课题组拟应用汉英口译语料库,分析汉英口译语言的具体特征、口译过程中的语言转换规律以及口译策略和方法等,研究口译认知过程的本质及口译活动的制衡因素,为构建实证、科学的口译理论框架提供重要的物质基础。

4.2.3平衡语料的收集整理与历时语言/翻译研究

在语料库创建阶段,按照子课题1制定的平衡语料收集和抽样原则将选取的语料处理成机读语料,完成语料处理的前期工作,主要包括双语语料的校对、段对齐和片头元数据标注,为后期的语料处理打好基础。

除了前面说过的历时语料处理外,在语料库建设后期,我们将使用该语料库开展汉语的历时语言演化研究,重点研究翻译在现代汉语发展过程中的作用;开展基于大型语料库的语言与翻译研究,探讨翻译共性、翻译技巧的历时变化、汉语翻译语言的特性、不同语域翻译文本的特征等。

在处理历时研究和共时研究的关系时,我们采用历时研究方法对翻译规范和目的语语言规范的发展变化进行类比研究,将共时研究渗透于各微观研究层面,将静态的整体性描述和动态的连续性分析有机结合起来。

在处理定性研究和定量研究的关系时,拟将定性分析与定量分析相结合。定量分析描述语言成分的使用频率、语言

特征的相关性和语言变化的趋势;定性分析用于归纳、推理和解释,即运用合适的理论来阐释语言变异。

参考文献

1.Anderman,G.and M.Rogers(eds.)Incorporating Corpora:Thelinguist and the Translator[C].Clevedon: Multilingual Matters Ltd.2007.

2.Koehn,P.Europarl:A Parallel Corpus for Statistical MachineTranslation[A].MT Summit2005.

3.Lüdeling, A.and M.Kyt?(eds.)Corpus Linguistics:AnInternational Handbook[C].New York: Walter de Gruyter,2008.

4.McEnery,T.&Xiao,Z.Parallel and comparable corpora:What is happening[A]?In M.Rogers and G.Anderman(eds)Incorporating Corpora.The Linguist and the Translator[C].Clevedon:Multilingual Matters, 2007:18-31.

5.Xiao,Z.Well-known and influential corpora[A]. In A.Lüdeling&M.Kyto(eds)Corpus Linguistics:An International Handbook[Volume1][C].Berlin:Mouton de Gruyter,2008:383-457.

6.常宝宝,2004,英汉对应词的自动提取[A]。载王克非等《双语对应语料库:研制与应用》。北京:外语教学与研究出版社,80-96。

7.冯志伟,2012,《统计机器翻译》序[A]。载《统计机器翻译》(StatisticalMachine Translation)[M]。北京:电子工业出版社。

8.何文忠、王克非,2009,英语中动结构修饰语的语料库研究[J],《外语教学与研究》(4):250-257。

9.李德超、王克非,2010,新型双语旅游语料库的研制和运用[J],《现代外语》(1):46-54。

10.秦洪武、王克非,2004,基于语料的翻译语言考察[J],《现代外语》(1):44-52

11.秦洪武、王克非,2009,基于对应语料库的英译汉语言特征分析[J],《外语教学与研究》(2):131-136。

12.秦洪武、王克非,2010,论元实现的词汇化解释:英汉语中的位移动词[J],《当代语言学》(2):115-125。

13.王克非,2004,新型双语语料库的设计与构建[J],《中国翻译》(6):73-75。

14.王克非、胡显耀,2008,基于语料库的翻译汉语词汇特征研究[J],《中国翻译》(6):16-21。

15.王克非、胡显耀,2010,汉译文学作品中人称代词的显化和变异[J],《中国外语》(4):16-21。

16.王克非、黄立波,2006,关于翻译共性研究[J],《外语教学与研究》(5):36-40。

17.王克非、秦洪武,2009,英译汉语言特征探讨——基于对应语料库的宏观分析[J],《外语学刊》(1):102-105。

18.王克非等,2004,《双语对应语料库:研制与应用》

[C]。北京:外语教学与研究出版社。

双语对应语料库翻译教学平台的应用初探_王克非

语言技术与外语教学研究 *版权所有 文责自负* 双语对应语料库翻译教学平台的应用初探 王克非1 ,秦洪武2 ,王海霞 2 (1.北京外国语大学中国外语教育研究中心,北京 100089;2.曲阜师范大学外语学院,山东曲阜 273165) 摘 要:本文通过语料呈现实验探讨双语对应语料库翻译教学平台的应用效果。实验显示,学生在观察语料后能够归纳和总结出有意义的翻译技巧,并能据此评估或反思自己的翻译行为。实验表明,在翻译课堂教学中使用语料资源有助于自主学习和发现式翻译教学环境的创建,也有助于学习者形成 稳定的翻译技巧。 关键词:对应语料库;翻译教学;发现式学习;语料呈现中图分类号:H 319.3 文献标识码:A 文章编号:1001-5795(2007)12-0003-0006 近20年来,语料库的创建和应用取得了长足发展。对应语料库大都在上世纪九十年代开始创建,起步较晚,但已展现出广阔的应用前景。在欧美,这类语料库有十多个,涉及近20个语种,如H ansard(法-英对应语料库)和ENPC (英语-挪威语对应语料库)(V ron is 2000:14-15);在中国,有中科院计算所的大规模汉英对应语料库、北京大学的/B ABLE 汉英平行语料库0,以及北京外国语大学的/通用汉英对应语料库0(该库现有可检索语料2千万字/词以上,见王克非2004a),后者是本项研究使用的主要工具。对应语料库的创建有两个主要目的:一是用于语言与翻译研究,二是用于外语教学。用于前者的研究成果丰富,涉及语言对比、双语词典编纂和翻译研究(Lav i o sa 1997;Baker 1999;Serpellet 2000;H unston 2002)。用于后者尤其是用于翻译教学的研究也已取得不少成果,如Zanetti n 1998、Pearson (2003:15-24)和Bernardini (2004b :97-111),但大都研究平行语料为翻译训练提供的可能的资源和手段,还没有研究探讨大型对应语料库在课堂教学中的实际应用问题。 1 研究内容 有关运用语料库提高翻译效率和质量的研究还没有全面展开,而将对应语料库应用于翻译教学的研究则是刚刚开始(Bo w ker 2003;Ber nardi n i 2004b)。从理 论上看,语料库用于教学有利于自主学习环境的创建(Bernardini 2004a :22;秦洪武、王克非2007)。自主性学习主要表现在两个方面:研究性学习和发现式学习(learning as discovery)。前者假定学习者和教师研究兴趣相投、研究能力相当;后者则鼓励学习者自行调节兴趣点,并给他们提供机会来提高自己观察和处理问题的能力,使他们对两种语言的特征和差异有敏锐的觉识。本文认为,研究和发现虽不矛盾,但在以技能培养为核心的翻译教学中,不宜过分强调学生的研究能力,发现式学习这一提法更合适一些。 近年来,国内也有研究关注语料库在翻译教学中的应用问题。有些研究探讨了语料库在翻译教学中的用途(郭红2004;于连江2004;王克非2004b),但还没有研究系统地探讨对应语料在课堂教学中的应用方式和应用效果,也没有研究关注学生对于语料使用的态度。鉴于此,我们以/通用汉英对应语料库0为翻译教学平台,探讨在现有技术条件下翻译语料用于翻译教 作者简介:王克非:男,教授,博士生导师。研究方向:语言学、翻译学。 秦洪武:男,教授,博士。研究方向:语言学、翻译学。王海霞:女,讲师,硕士。研究方向:翻译学。 收稿日期:2007-03-18 基金项目:本文是国家社科基金课题/基于大型英汉对应语料库的翻译研究与翻译教学平台0的阶段性成果(编号05BYY 013),并获得曲阜师范大学科研启动基金资助(编号Bsqd2007022)。 # 3#第118期2007年12月 外语电化教学 C AFLE N o .118D ec . 2007

语料库术语中英对照

Aboutness 所言之事 Absolute frequency 绝对频数 Alignment (of parallel texts) (平行或对应)语料的对齐 Alphanumeric 字母数字类的 Annotate 标注(动词) Annotation 标注(名词) Annotation scheme 标注方案 ANSI/American National Standards Institute 美国国家标准学会 ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词 AWL/Academic word list 学术词表 Balanced corpus 平衡语料库 Base list 底表、基础词表 Bigram 二元组、二元序列、二元结构 Bi-hapax 两次词 Bilingual corpus 双语语料库 CA/Contrastive Analysis 对比分析 Case-sensitive 大小写敏感、区分大小写 Chi-square (χ2) test 卡方检验 Chunk 词块 CIA/Contrastive Interlanguage Analysis 中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则 Cluster 词簇、词丛 Colligation 类联接、类连接、类联结 Collocate n./v. 搭配词;搭配 Collocability 搭配强度、搭配力 Collocation 搭配、词语搭配 Collocational strength 搭配强度 Collocational framework/frame 搭配框架 Comparable corpora 类比语料库、可比语料库 ConcGram 同现词列、框合结构 Concordance (line) 索引(行) Concordance plot (索引)词图 Concordancer 索引工具 Concordancing 索引生成、索引分析 Context 语境、上下文 Context word 语境词 Contingency table 连列表、联列表、列连表、列联表 Co-occurrence/Co-occurring 共现 Corpora 语料库(复数) Corpus Linguistics 语料库语言学 Corpus 语料库 Corpus-based 基于语料库的

哪里有可以免费使用的大型英语语料库资源-外语教学与研究出版社

语料库相关资源 David Lee语料库研究书签 Bookmarks for Corpus-based Linguists (David Lee) https://www.doczj.com/doc/9510227913.html,.au/~dlee/CBLLinks.htm (https://www.doczj.com/doc/9510227913.html,/corpora) 常用语料库资源链接汇集(语料天涯) https://www.doczj.com/doc/9510227913.html,/corpus/ 互动平台 https://www.doczj.com/doc/9510227913.html,/forum/ 入门读物 专著 梁茂成、李文中、许家金,2010,《语料库应用教程》。北京:外语教学与研究出版社。Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进) 期刊论文 中国期刊网 EBSCO英文期刊数据库 书店可以买到的语料库相关书籍 Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进) Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St. Jerome Publishing. (外研社引进) Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999. Longman Grammar of Spoken and Written English. Longman Publications Group. (外研社引进) Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进) Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)

基于双语平行语料库的翻译教学

基于双语平行语料库的翻译教学 翻译是英语专业高年级学生一门非常重要的课程。传统的翻译教学以教师讲解为中心,以翻译教材为学习载体,学生在上完课之后很难具备一定水平的翻译能力。针对于此,我们把双语平行语料库及相应的检索功能引入到翻译教学当中,以提高翻译教学质量,提升学生的翻译能力。 标签:双语平行语料库;翻译;教学 双语平行语料库是指使用两种语言撰写相互间具有翻译关系的文本的集合平台,与普通的词典相比,这种翻译方法更加准确、便利、快捷,更新速度快,可以提供大量真实的双语对译语料以供学习者查询。 何安平指出,将语料库引入翻译教学,会改变传统的翻译教学模式,使学生可以开展各种学习活动,比如互动式学习、开放式学习和分析归类型学习,这一系列学习可以激发学生的好奇心、求知欲,帮助学生塑造的批判精神和反思精神,为培养学生的创新思维提供了条件。 本文例句所使用的双语平行语料库是指北京外国语大学通用双语平行语料库。 1.基于双语平行语料库的词汇翻译 曾有人提出,平行语料库最典型的应用范围之一是双语词汇教学。无论是英译汉还是汉译英,在很多时候英汉两种语言不存在一一对应的词汇,一词多义的现象很普遍,这就意味着这个词有多种译文;而且,在某些特定的语境中,有的词被赋予固定的意思,这又是新的译文。北京外国语大学王克非教授以汉语“克服”一词为例,在北京外国语大学通用汉语双语平行语料库中检索,发现24处“克服”一词中,有15处翻译为overcome。在学生学习完这24个例子后,他们就会明白,在以后的翻译中,不是所有的“克服”都用overcome翻译,在其他情况下使用cope with,fight down,get rid of 等会更加贴切。 学习者可以借助双语平行语料库的真实语境平台,找到单词在不同语境下的地道翻译,既丰富了词汇量,快速准确地译出对应语,同时可增强语感,提升双语翻译能力。 2.基于双语平行语料库的句式翻译 有时候,学生会感觉无论是英语还是汉语,其中一些句式很难理解,至于翻译更是无从下手。在这种情况下,双语平行语料库为学生们提供了大量的特殊句式翻译例句。我们以英文中“it is said that”为例。这是英语中常用的句式,很多学生张口就翻译为“据说”,好像也没有人怀疑过;包括我本人在接触双语平行语料库之前,见到it is said that也随口就翻译为“据说”。但是,笔者通过双语平行语

双语平行语料库对齐技术述评

双语平行语料库对齐技术述评 对齐的双语语料库在机器翻译、词义消歧和双语词典编撰等领域都非常有用。语料对齐的单位由大到小,有篇章、段落、句子、短语、词等不同的层次。粒度越小,提供的语言信息就越多,应用的价值也就越大。然而平行语料库的自动对齐并非是一件容易的事情。由于语料大都来自人工翻译,句子之间并不都是一对一的翻译模式,还有一对多、多对多的翻译模式。这种复杂性加大了对齐的难度,特别是对更细粒度级别的对齐。由于语言之间存在着差异,找到固定的对应翻译很难,再加上文本预处理工具难以保证处理效果,以及一些电子文本的噪声纷繁复杂,这都增加了对齐的难度。而对于英汉两种差别很大的语言来说,目前的语料库对齐算法并不一定完全适用于汉英语料库的对齐。本文首先回顾了当前国外平行语料库的对齐技术,然后分析了国内在对齐中所使用的技术,旨在为本研究所今后构建小型汉英平行语料库提供一个技术支持。 1 目前平行语料库对齐技术的现状 1.1 句子级对齐技术 在各级对齐研究中,其中最为重要且较为成熟的自动对齐技术是句子一级的对齐。句子级对齐的方法主要有三种:①基于长度的方法(length-based)(Brown et al,1991; Gale & Church, 1991a);②基于词汇的方法(lexical-based)(Kay & Roscheisen, 1993);③混合法(combination)(Tan & Nagao, 1995; Wu,1994)。 基于长度的方法最早是由Brown和Gale提出,虽然他们的算法都是由源文本中句子长度和译文本中的句子长度有很大的正相关这一观察得出,但其侧重点却不同。Brown的算法以词为单位计算句子的长度,而Gale和Church则是以字符为单位计算句子的长度。他们分别用各自的算法对加拿大议会会议所录英法双语语料库进行了对齐实验,准确率达96~97%。然而该方法在处理复杂句子的对齐(如2∶1或2∶2的句子对齐,或非直译和省略的句子)以及不同语系的句子对齐时,准确率却并不高,而且此算法一旦出错,便不可能自动纠正。 基于词汇的方法是由Kay和Rosheisen提出的。他们认为最佳的句子对是那些使系统词汇对齐数量最大化的句子。基于词汇的算法虽然可以提高对齐的准确性,但却费时;而且目前还没有充分证明这一方法适合于大型语料库。Chen(1993)对Kay 和 Rosheisen的算法进行了改进,这一算法运用词汇信息构建了一对一词汇统计翻译模型,用这样的翻译模型找到语料库生成的最大可能性。他用此算法对旧的Hansard语料库进行双语对齐。与Brown和Gale的对齐算法相比,这一算法不仅正确率高,而且在处理大量省略的对齐中能轻易确定省略的位置,且鲁棒性(robust)较好。基于词汇方法的另一种做法是利用同源词(cognate)(Church,1993)。此方法在处理英法和英德语言中的诸如名字、日期、数字、术语等可辨认单位出现比率高的情况下效果更好。 如前所述,基于词汇的方法相对可靠精确,但计算起来相当复杂且速度较慢;而基于长度的算法模型虽然简单,独立于语言知识和外部资源,但鲁棒性不好,极易造成错误蔓延。由于每种方法都有自己的优缺点,人们试图将各种方法混合起来找到问题的解决途径(Tan & Nagao, 1995; Wu,1994; ;Collier,1998; Vronis,1999;Melamed,2000)。试验结果表明,混合的方法优于单纯使用其中的任何一种方法。

旅游汉英双语平行语料库的建设与应用

第33卷第10期湖南科技学院学报 V ol.33 No.10 2012年10月 Journal of Hunan University of Science and Engineering Oct.2012 旅游汉英双语平行语料库的建设与应用 肖庚生 陈欣 (南华大学 外国语学院,湖南 衡阳 421001) 摘 要:文章在综述现有旅游语料库的基础上,介绍了自建的衡阳旅游汉英平行语料库的建库步骤,即语料的取样、英译、标注与对齐,并阐述了该库在旅游文本语言特征、旅游翻译、旅游英语及旅游翻译教学研究中的应用价值。该库的建设与应用既能充分满足研究需要,亦能促进导游、翻译等英语人才的培养,进而推动当地旅游产业的发展及跨文化传播。 关键词:旅游语料库;双语平行语料库;旅游英语 中图分类号:H030文献标识码:A 文章编号:1673-2219(2012)10-0163-03 近30年来,语料库及语料库语言学从无到有、蓬勃发展。基于语料库的语言学及应用语言学研究应运而生,语料库这一研究工具与方法业已广泛应用于词汇、句法、语义、语言对比、词典编撰、二语习得、翻译等领域的研究之中, 并取得了累累硕果。[1]为了研究或应用的需要,国内外先后创建了跨学科、多语言、内容迥异、库容不一的众多语料库。近年来,双语平行语料库由于其独特的优势备受关注,其建设与应用正如火如荼地进行。不过,迄今为止,国内外高校与研究机构所研制的平行语料库主要是通用型的双语平行语料库以及文学翻译类型的平行语料库,以某一专门用途为导向的平行语料库仍较为鲜见。此外,基于平行语料库的相关研究主要侧重于对个别语言或翻译现象的探讨。鉴于这一研究现状,我们拟以课题研究为契机,建设衡阳旅游汉英双语平行语料库,在此基础上,力图摸索其在汉语与英语的旅游文本语言特征、旅游汉英翻译、旅游英语与旅游翻译教学研究中的应用。 一双语语料库与旅游语料库综述 双语语料库最早创建于上世纪90年代中后期,迄今为 收稿日期:2012-08-26 基金项目:衡阳市社科基金项目“顺应论视阈下衡阳旅游汉英双语平行语料库的建设与应用研究”(项目编号2011C011);全国教育科学规划课题“基于语料库的大学英语教学平台建设与研究”(项目编号GPA105029)阶段性成果。 作者简介:肖庚生(1980-),男,湖南衡阳人,讲师,应用语言学博士生,主要研究方向为语料库语言学。陈欣(1983-),女,湖南郴州人,讲师,语言学硕士,主要研究方向为翻译理论与实践。止国内外业已建立多种类型的双语平行语料库。早在1995年,曼彻斯特大学研制了世界上首个翻译语料库,主要收集从各国语言翻译成为英文的文本,如今库容已达千万词。但是它并非严格意义上的双语平行语料库,因为它并没有实现双语对齐,只能称其为对比语料库。目前国际上比较知名的平行语料库有挪威的“英语-挪威语平行语料库”、英国的“德语-英语文学文本平行语料库”等等。而由北京外国语大学中国外语教育研究中心于2004年启动创建的“新型双语对应语料库”(含汉英、汉日两个双语平行语料库),库容为3000万词次。其中,汉英双语平行语料库的文本类型主要涵盖人文类、社科类和科技类。该语料库的建设得到了国家社科基金重大规划课题的资助,目前正为1亿词次的超大库容做进一步的扩容努力。此外,国内比较知名的双语平行语料库还包括:李德俊以汉英词典研编为主要目的,主持建设2000万词次的英汉平行语料库;卫乃兴以研究探讨英汉对等表达为目的,主持建设900万词次的英汉平行语料库;哈尔滨工业大学所创建的库容为40万对的英汉双语平行语料库;绍兴文理学院创建的中国古典文学英译双语平行语料库等等。上述双语平行语料库多数以文学文本为主,抑或以收集百科文本(含文学与非文学作品)为特色,而针对某一特定文类或某一地域特色而专门建构的专门用途双语平行语料库仍较为鲜见。 近年来,随着交通与通讯技术的日新月异,世界各地人们之间的科技、文化、商务交流、合作与往来日益频繁。更为重要的是,各国人们纷纷走出国门,畅游世界,体验世界各地的异域风情,许多国家的旅游产业获得了飞速发展。为更好地发展旅游产业、传播旅游资讯、吸引外国游客,同时亦为了满足语言学及应用语言学研究需要,旅游专门语料库应运而生。 163

《双语平行语料库在翻译教学上的用途》评述

攻读博士、硕士学位研究生试卷(作业)封面(2016 至2017 学年度第一学期) 学号 姓名 题目《双语平行语料库在翻译教学上的用途》评述 课程名称语料库语言学 专业英语语言文学 入学年月2016年9月 培养方式 全日制□非全日制

题目:双语平行语料库在翻译教学上的用途。 作者:王克非,曾任北京外国语大学外国语言研究所副所长、中国外语教育研究中心常务副主任,现任《外语教学与研究》杂志主编,博士生导师,研究方向为语言学和翻译研究。 研究问题:本文以北京外国语大学建成的通用汉英平行语料库为例,探讨如何在翻译教学中运用双语平行语料库、如何处理翻译教学与双语平行语料库的关系、双语平行语料库对译者有何帮助、以及译者如何在翻译教学中运用双语对译检索(词语的对译检索、结构的对译检索和语句语篇的对译检索)时找到合适的对译,提高他们的英语语感,掌握正确的翻译方法。 研究方法: 本文根据北京外国语大学中国外语教育研究中心建成的通用汉英平行语料库(3000万字词)为例,探讨它在翻译教学上的用途。首先,本文作者采用了随机抽取的方法对克服(overcome)和找(find)进行了检索,找到了他们不同的翻译方法和用法;然后作者通过举例说明汉语中把字句结构的三种形式如何在英语中翻译;最后作者从台湾大学高建明所建的英汉平行语料库中,以“他心情很低落”为例,从语料库中找到相近的中英文短句、句子,找到了表示“心情低落”的各种不同词汇和方法。 结论:在翻译的教学和实践中,双语平行语料库和检索工具的运用不仅给译者提供了方便,而且使他们掌握了一种科学、多样的翻译方法。同时也能激发学生的兴趣,让学生在不同版本的对译中互相学习。这表明双语平行语料库是翻译教学中的一种重要的学习资源,应当引起

《英语语言学》术语(英汉对照)表

语言学术语(英-汉对照)表 Glossary and Index (备注:因教材改版,部分章节标注等内容有出入。) A abbreviation 缩写词,略语3.3.1 Abercrombie 10.3.2 ablative 夺格,离格4.1.1 abstractness 抽象性1.3.2 accent 重音(符)2.4.4;2.4.5 accuracy 正确性11.6.4 accusative 宾格4.1.1 achievement test 成绩测试11.6.3 acoustic phonetics 声学语音学1.7.1;2.1 acquisition 习得6.1.2 acronym 缩略语3.3.1 action process 动作过程12.2.3 actor 动作者4.4.2;12.2.3 addition 添加3.3.2 address form 称呼形式7.2.3 addressee 受话人1.4;9.4.1 addresser 发话人1.4;9.4.1 adjective 形容词3.1.2;4.1.1;5.5.2 adjunct 修饰成分;附加语12.2.3 adverb 副词3.1.2 affix 词缀3.2.1 affix hopping 词缀跳跃4.3.1 affixation词缀附加法7.1.4 affricate 塞擦音2.4.3;2.4.5;2.9.1 agreement 一致关系4.1.3 airstream 气流2 alliteration 头韵9.3.2;9.3.6 allomorph 词/语素变体3.2.4;4.3.1 allophone 音位变体2.8 allophonic variation 音位变体2.8.3

最常用的英语动词(根据美国语料库整理 word 可打印)

be turn walk wear lie have start win support occur do might offer end accept say show remember hit identify go hear love base determine can play consider produce prepare get run appear eat argue would move buy teach recognize make like wait face indicate know live serve cover wonder will believe die describe lay think hold send catch fail take bring expect draw arrive see happen build choose name come must stay cause present could write fall point answer want provide cut listen compare look sit reach realize miss use stand kill place act find lose remain close state give pay suggest involve discuss tell meet raise increase force work include pass seek check may continue sell deal laugh should set require fight guess call learn report throw study try change decide fill prove ask lead pull represent hang need understand return focus design feel watch explain drop forget become follow hope plan claim leave stop develop push remove put create carry reduce sound mean speak drive note enjoy keep read break enter form let allow thank share establish begin add receive rise visit seem spend join shoot care help grow agree save avoid talk open pick protect imagine

中国英汉平行语料库的设计与研制

中国英汉平行语料库的设计与研制 王克非北京外国语大学中国外语教育研究中心提要:本文论述超大型双语平行语料库的设计与研制问题。在综合述介国内外双语语料库建设情况之后,作者着重论述了中国英汉平行语料库这一超大型双语平行语料库的设计特点(主要有分类架构、历时处理、语料平衡以及通用的和各种专门语料的采集)和研制方法(主要讲述语料的加工标注、检索平台以及各个专门语料库、历时语料库和口译语料库的构建)。其设计与研制对于其他大型语料库的建设具有借鉴意义。 关键词:中国英汉平行语料库;设计;研制 Abstract:The paper deals with the design and construction of asuper-large-scale bilingual parallel corpus.After an overview of parallelcorpora constructions and applications both in China and abroad, the designfeatures(including classification and composition,diachronical arrangement,balance of textual materials,and collection of texts for general or specificpurposes)and the construction methods (including tagging,concordanceplatform,and the construction of specialized corpora,diachronical corpora andinterpreting corpora)of the super-large-scale China English-Chinese ParallelCorpus(CECPC)are focused on.The design and construction discussed areapplicable to the compiling of other large-scale corpora. Keywords:China English-Chinese Parallel Corpus (CECPC);design;construction 1、中国英汉平行语料库的研制意义 在全球化、信息化的当今世界,翻译已成为了解全球信息、扩大对外宣传、获取国际资源的重要手段。同计算机技术结合而兴起的双语平行语料库建设,则为语言研究、翻译研究、外语教学、词典编纂和跨语言信息检索等提供了最好的平台,同时还可用来考察和验证基于单语语料库或者基于直觉提出的假设,具有广阔的应用前景。

一对四_英汉双语对应语料库的建设及应用_任小华

2013年9月第3期外语艺术教育研究 Educational Research on Foreign Languages &Arts Sep.2013No.3 收稿日期:2013-04-10 基金项目:2012年洛阳市社会科学规划项目“英汉双语对应语料库的建设及应用”(2012B233)。 作者简介:任小华(1978-),男,陕西汉中人,洛阳师范学院公共外语教研部讲师、硕士,主要研究方向为应用语言学、语料库语言学、对比语言学。 “一对四”英汉双语对应语料库的建设及应用 任小华 (洛阳师范学院 公共外语教研部,河南 洛阳471022) 摘要:双语对应语料库对对比语言学和翻译研究的重要性不言而喻,国内外大多双语对应语语料库不 对外公开或提供的检索数据很有限,而已建成或在建的“一对多”双语对应语料库并不多见。以美国总统就职演说词及四个汉语译文为语料开发的“一对四”型的英汉双语对应语料库,库容为76万词/字。其对整理后的语料进行分词、词性标注,也对未分词标注的语料进行了句子对齐,并实现了“一对四”双语语料的检索。 关键词:双语语料库;美国总统就职演说词;分词;标注;对齐;检索 中图分类号:H 319 文献标识码:A 文章编号:粤内登字O -10339(2013)03-0020-07 一、引言 由于现代计算机和网络技术的有力支持,语料库语言学得到了飞速的发展,现已成为语言学的一个重要分支。随着语料库语言学的发展,语料库的研制类型也呈现多样化,双语甚至多语的平行对应语料库成为语料库语言学的一个亮点。平行语料库开发具有较高的理论及应用价值。Ai-jmer 和Altenberg 指出,平行语料库对翻译和语言对比研究特别有用,并扩展了研究问题的范围。 [10]12 它有助于通过对比深入了解所对比的语 言,而这往往在研究单语种语料库时被忽略,通过比较,它能揭示语言的共性以及某语种所特有的、语言类型与文化上的差异,还可以揭示原文与译文、母语与非母语之间的差异等。 双语对应语料库最初侧重于英语与其亲属语言之间,上世纪90年代中期才逐渐扩展到英语与欧洲之外的一些语言之间,现在已几乎覆盖世界上所有主要的语言之间。在国外,挪威、荷兰、英国、美国、加拿大等国家都建立了涉及不同语种、不同规模的平行语料库。 [1]18-19 比较著名 的平行语料库有:Hansard 对应语料库 [11]169-176 ,英语-挪威语双语对应语料库(ENPC ) [12]87-112 ,ITU 英语-法语-西班牙语三语对应语料库 [13]219-226 ,英语-法语-丹麦语-芬兰语-希 腊语-拉丁语-瑞典语-西班牙语-越南语等九种语言的Bible 对应语料库 [14]129-153 。 近年来港台学者和海外华人学者也建立了一些双语对应语料库,主要是和汉语对应的平行语料库,如吴德凯等人在香港科技大学建立的HKUST 中英对应语料库[15]80-87,台湾的中英对应 语料库(Sinica Corpus ) [1]18 ,Bermingham 中英对应语料库[1]18 ,英国兰卡斯特大学的中英对应语 料库 [1]19 ,以及巴比伦英汉平行语料库[1]19,等 等。大陆学者也建了一些英汉平行语料库,包括:北京大学计算语言学研究所的新闻机助类平行语料库Babel ,北京外国语大学中国外语教育研究中心的通用汉英平行语料库(PCCE ),南京国际关系学院的英汉平行语料库(PECC ),上海交通大学外国语学院的英汉平行语料库、莎士比亚戏剧英汉平行语料库和汉英会议口译平行语料库,绍兴文理学院的毛泽东选集汉英平行语料库、鲁迅小说汉英平行语料库、邓小平文选汉英平行语料库和中国法律法规汉英平行语料库,燕

英汉双语平行语料库人工对齐方法说明

英汉双语平行语料库人工对齐方法说明 1.概述 半自动英汉双语平行语料库的对齐分为两个过程: 第一个过程是先将两种语言的文本分成句子,每个句子占一行。句子定义为:以句号、问号、感叹号、分号结尾的一串字符,或以句号+引号、问号+引号、感叹号+引号等结尾的一串字符。“行”的概念是一串以回车换行符结尾的字符。这个过程可以采用任何一种具有“查找”和“替换”功能的文字处理软件来完成,也可以编程由计算机自动完成。 第二个过程是在第一个过程产生的结果的基础上以手工方式将两种语言的文本在句子水平上对齐。这一过程要采用UltraEdit软件来辅助完成。 在句子水平上对齐两种语言的文本,除了要注意以上对“句子”和“行”的定义以外,还应遵循一个重要的原则,即:如果两种语言的文本在句子的切分上有差异,应尽量保持原文句子不动,调整译文以适应原文。 为了能从双语平行语料库中获取更多的信息,还需要在对齐过程中插入少量的标记,例如:分译标记、合译标记、混译标记和移动标记等。此外,为了便于以后的检索,对于过长的句子还要在适当的地方将长句截短成两个或更多的小句。 2.人工对齐的方法 2.1打开文件 先用UltraEdit软件将两个已经分为句子的文本文件打开,在该软件的工具栏的“窗口”下拉菜单中点“水平平铺”选项,使两个打开的文本同时显示在屏幕上。为了操作方便,一般把原文放在上半屏,把译文放在下半屏。(见图1) 2.2 上下移动文本 为了能够对齐两种语言的文本,在操作过程中需要不断地上下移动文本。移动文本可以用鼠标移动窗口右边的滑块来完成。也可以将光标放在某一行,然后用鼠标的中间滚轮来上下移动。 2.3 同步移动上下两个窗口中的文本 在“窗口”下拉菜单中选“同步”选项,就可以同步移动上下两个窗口中文本,极大地方便人工对齐的操作。

一带一路视角下中英语料库建设项目报告

一带一路视角下的中英语料库建设项目报告 随着“一带一路”战略的提出,中外文化交流日益频繁,这种现象对翻译行业提出了更高的要求。因此,采取有效措施培养优秀翻译人才、提高译员翻译质量刻不容缓。基于此,本项目决定建设一带一路视角下中英语料库以提高翻译质量。本文将着重报告本项目中英语料库建设的背景目的、过程及其作用。 一、一带一路视角下的中英语料库建设背景及目的 “一带一路”战略的提出为本项目的开展提供了时代背景。“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称。从古至今,“一带一路”一直是连接东西方文化的重要纽带,尤其是在新的历史时期,“一带一路”战略促进了区域间的人际交往和文化交流。全国政协委员、中国翻译协会常务副会长黄友义在接受专访时曾表示,经济和文化的走出去导致了中译外工作量的增加,但目前中译外人才十分紧缺。而作为覆盖范围及应用领域日益广泛的语料库在提高翻译教学质量、培养优秀译员及促进计算机辅助翻译中发挥着日益重要的作用。目前国内外都已有大量已建成的语料库,如BNC英国国家语料库、美国当代英语语料库、中国学习者英语语料库及中国英语学习者口语语料库等,但针对于“一带一路”战略的语料库较为稀少。本项目的开展旨在抓住“一带一路”战略所带来的发展契机,建设“一带一路视角下的中英语料库”,为“一带一路”战略中相关政策的英译提供便利,从而加强中外交流。 青岛农业大学翻译中心的成立及其已承接的翻译活动为本项目的开展提供了专业背景。近年来,翻译中心承接了大量专利翻译、影视字幕翻译等翻译活动,在此过程中,翻译人员遇到了一些问题:如对专利特有名词和英美俗语不够熟悉等。本项目的旨在将翻译学理论、语言学理论及现代计算机技术相结合,通过对大量真实语言数据的研究,将众多科技名词、英语俗语和习语及与英美文化相关的词语收录进语料库当中,将中英双语语料库作为教学手段,方便译者查询、理解及使用相关名词,切实提高其翻译质量。另外,该项目的开展由具有多年翻译经验和教学经验的纪卫宁老师亲自指导,这为本项目的顺利开展提供了重要保障。 二、一带一路视角下中英语料库建设过程 (1)语料库建设前期准备

托福口语语料库整理Fancy

Task 1\2 独立题戏精上身语音语调 Task1 多选一、三选一、建议类、优缺点 Task2 A or B, agree or disagree, good or not I’m a university student who has endless tasks to deal with. For example, i need to take classes, write papers, prepare for the TOEFL test and so on. Usually, i feel so tired and busy, so i need to find a way to let off my steam. Like last weekend, i ...,and i felt so relaxed. I could totally get away from the daily grind. What’s more, while doing sth, i can meet a bunch of people who share the common interests and hobbies. I mean, it’s easier for us to get along with each other. It can help me to expend my social network. 大城市、出国 Living in a big city can provide people with a lot of benefits. I’m a university student who studies in shanghai, i enjoy my life here in this big and modern city, because i can receive better education, experience new things, get more job opportunities and so on. All these can lead to a better life, right?Besides, the basic infrastructure in big city is perfect, because there are some museums, hospitals, schools,libraries and so on. 榜样力量 Yi Fan is a famous actor in my country, and i admire him a lot because he sets a good example to me. Once, i watched an interview about him on TV. In the interview, he told us that at the beginning of his career, he was little-known. However, he kept trying harder and harder and never give up. Now, he is a household star and everyone knows his name. His story motivates and inspires me all the time. 大学教育、商业 I’m studying in a top university, which provides me a platform to gain and enrich knowledge for my major. My major is business administration. In university, i have learned some related academic subjects, such as economics, management, e-commerce and so on. At the same time, i can do some internships in some business companies. All these can lay a solid foundation for my future career. What’s more, in university, i can make friends with some talented people who can give me a lot of inspiration. 三选一结尾套话 To tell you the truth, when talking about the other two things, i have absolutely no interest in them.

英汉语料库汇总

1.英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外、上海交大 2.大学英语学习者口语语料库 COLSEC (5万) 上海交大 3.香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学 4.中国英语专业语料库 CEME (148万) 南京大学 5.中国英语学习者口语语料库 SECCL (100万) 南京大学 6.国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) 华南师大 7.硕士写作语料库 MWC (12万) 华中科技大学 9.平行语料库汉英平行语料库 PCCE 北外 10.南大-国关平行语料库南京大学 11.英汉文学作品语料库;外研社 12.冯友兰《中国哲学史》汉英对照语料库 13.李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库 14.计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所 15.柏拉图(Plato)哲学名著《理想国》的双语语料库 16.英汉双语语料库(15万对) 中科院软件所 17.英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所 18.英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学 19.英汉双语语料库(40-50万句子对) 哈尔滨工业大学 20.双语语料库(5万多对) 北京大学计算语言学研究所 21.对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学 22.平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾 23.特殊英语语料库中国英语(China English)语料库河南师范大学 24.军事英语语料库(Corpus of Military Texts) 解放军外语学院 25.新视野大学英语教材语料库上海交通大学 26.汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学 27.现代汉语语料库(1983年,2000万字) 北京航空航天大学 28.中学语文教材语料库(1983年,106万8000字) 北京师范大学 29.现代汉语词频统计语料库(1983年,182万字) 北京语言学院 30.国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会 31.《人民日报》语料库(2700万字) 北京大学计算机语言学研究所 32.大型中文语料库(5亿字,10分库) 北京语言文化大学 33.现代汉语语料库(1亿字) 清华大学 34.汉语新闻语料库;(1988年,250万字) 山西大学 35.标准语料库(2000年,70万字) 36.生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学 37.现代自然口语语料库中国社会科学院语言所 38.旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所 39.北京大学汉语语言学研究中心的三个语料库

相关主题
文本预览
相关文档 最新文档