当前位置：文档之家› 关于语料库软件使用问题

关于语料库软件使用问题

一、首先自己得有一个语料库（语料库的准备阶段）

1、大部分语料库都必须采取txt保存。

2、一个语料库一般要有多大？你得认真思考

生语料库熟语料库，这其中必须得对生语料库进行词性标注才可能成为熟语料库。可采用这款软件

点击“打开文件”

（需要说明的是，自己找到的语料库必

须是已经集中放好到“语料库”这样的

文件夹中）

比如说选择“痴人”这个语料

然后点击“切分标注”就可以了

然后进行点击全选复制到“记事本”（也就是txt类型文档）这样就形成了一个熟语料，然后在保存到一个新建的“熟语料库”文件夹中。依据此法，逐一对生语料库中的单个语料进行“词性标注”，然后逐一保存到“熟语料库”中。

哈哈！！！这时你就完成了熟语料库的建立。

二、语料库的检索阶段

1、软件的需要是AntConc

2、点击该软件

3、接下来要设置语言（因为这本来是分析英语的语

料库软件）点击“Global Settings”菜单，找到

“Language Encodings”点击该菜单，再点击右手边的“Edit”，这时会弹出一些选项，选择“Chinese Encodings”在选择该项目右边的“Chinese（euc-cn）,最后点击右下方的“Apply”

完成这些步骤，就是完成语言的选择。

4、

这时，会自动回到这个界面，于是我们点击“File”选项，在选择“open files”,你得找到“熟语料库”这个文件夹，点击它

全部选中各个语料，然后点击“打开”

所有“熟语料库”中的单个语料都出现在了Antconc 软件的左侧栏中，接下来，我们就可以进行检索了。你研究的是“很+X”那么由于转成了熟语料库，表达式应为“很/d */a”（很接形容词）、“很/d */v”（很接动词）等等，于是我们就得把这些表达式逐一进行检索。比如说，我们检索“很/d */a”

!!!需要说明的是“很/d */a”词与词之间得空一格，就像英语中“I have ”得空一格。

我们在检索栏中写上“很/d */a”点击start 就出现了

Concordance Hits 代表的是出现“很/d */a”也就是（很+形容词）出现的次数，我们可知出现了“46”，那么这就意味着，很接形容词在我的这个语料中出现了46次。依据此法可检索“很/d */v”的次数。

*代表任意字符，也就意味着在这个语料库中任意的词是不是，但是“/v”这种形式，又限定了*只能是语料库的动词，于是在“很/d */v”共现平面中，也就是意味着，“很”后面的“动词”。

语料库研究的优势及问题的理论解析

语料库语言学的理论解析摘要：本文试图剖析有关语料库语言学的几个理论问题，以期揭示语料库语言学的本质。第一：语料库语言学是不是独立的新兴学科？第二：语料库提供的数据到底可以给语言学家带来什么？第三：语料库语言学的真正任务是什么，它应该成为怎样一项研究？回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位，以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。关键词：语料库语言学；基于语料库的研究方法；理论架构；语料库数据；发展前景 Abstract: This paper attempts to answer some theoretical questions of corpus-based language studies. Three theoretical considerations are addressed to capture the nature of corpus linguistics. 1) Is Corpus Linguistics an independent branch under the umbrella of linguistics? 2) What can corpus data offer to linguists? and 3) What kind of research that Corpus Linguistics should be? Answers to the three theoretical questions will conduce to a fuller understanding of the nature of corpus-based language studies and their development. Key words: Corpus linguistics; corpus-based approach; theoretical construct; corpus data; future directions 1.0 导言目前利用语料库从事研究的学者主要有两类。一类是计算语言学家。他们主要从事自然语言处理（NLP）的研究，诸如语音合成、语音识别和机器翻译等等。他们的终极目标并非要揭示语言的本质，而是注重技术层面的研究，比方如何改进算法，如何完善词库的建设以实现技术上的突破。另一类就是语言学家，他们则希望借助这一强大的工具去揭示语言的本质这一学科目标，这正是本文所要关注的。本文缘起于语言研究者中的一种争论，即“语料库语言学”是否配得上这个名称，它是一种新兴的理论视角还是“暴发户造谱牒”？而本文要探讨的正是有关于语料库语言学研究的理论意义。或者说，语言学家从语料库所提供的信息中到底可以获得什么？这是本文试图解决的核心问题。语料库建设、开发和利用在国内外语言学界日渐兴起，在国内也有相当数量介绍性和综述性文献涌现，为语料库语言学在我国的发展奠定了一定的理论基础。此外，一些语言学者和语言教师（包括外语教师和对外汉语教师）也设计、建立了一些自己的语料库以服务于教学科研。然而真正对语料库的理论问题进行深入探讨的著述却为数不多。本文将试图剖析语料库语言学的几个理论问题，以期对语料库语言学的优势和不足有进一步的认识。第一：语料库语言学是不是独立的新兴学科？第二：语料库提供的数据到底可以给语言学家带来什么？第三：语料库语言学的真正任务是什么，它应该成为怎样一项研究？回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位，以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 2.0 语料库语言学是不是独立的新兴学科？ 2.1 语料库语言学是一种理论架构完全赞成语料库语言学是一种理论架构的几乎没有。只是某些学者比较强调语料库语言学的理论意义。比如，Halliday（1991；1992；1993）指出，语料库语言学作为一种理论架构（theoretical construct），将语料收集和理论概括统一了起来，从而使我们对语言的理解产生一种质变。这种新的理论架构有助于考察同时作为系统和实例（instance）的语言的本质。因为在Halliday的语言学思想当中，实际话语是语言系统的实例再现（instantiation）。而语言系统，或者说是语法体系是一种统计概率上（probabilistic）的自然结果。这一思想与所谓

语料库翻译学_问题与展望_龙绍赟

江西社会科学2012．12 244 语料库翻译学：问题与展望 ■龙绍眖语料库翻译学在汲取语料库语言学、描写性译学及其他相关学科营养的同时，不断丰富和发展自己的研究内容和研究方法，颠覆了传统译学的研究方法，形成了自己独特的研究对象，拓展和深化了翻译学研究的外延和内涵。然而，语料库翻译学研究也存在内容上的缺陷。因此，未来的语料库翻译学研究应紧密结合翻译学的跨学科属性，构建并完善语料库翻译学的理论体系，发挥其方法优势，突破自身的缺陷，实现其发展预期。 [关键词]语料库翻译学；跨学科属性；代表性；应用文体；深度与广度 [中图分类号]H0[文献标识码]A[文章编号]1004－518X（2012）12－0244－05 龙绍眖（1969—），男，江西师范大学外国语学院副教授，硕士生导师，主要研究方向为语料库语言学。（江西南昌330022） 20世纪以来，描写性译学悄然兴起，语料库语言学蓬勃发展。20世纪90年代，以英国曼彻斯特大学翻译与跨文化研究中心Mona Baker为代表的一批学者相继将语料库应用于翻译学研究，开启了全新的译学研究范式—— —语料库翻译学。语料库翻译学注重实证研究，强调数据统计与理论分析的有机结合，主张从大量翻译事实或现象出发，在对获取数据进行统计分析的基础上来阐明翻译本质、翻译过程、翻译策略及翻译活动的制衡因素，有效地弥补了定性研究的缺陷与不足。短短十几年的发展，语料库翻译学已逐渐形成自己独特的研究领域，并发展为翻译研究领域不可或缺的学科。但语料库翻译学研究在技术层面、研究方法、研究广度和深度等层面还有很多不足，本文就此提出一些建议与策略。一、语料库翻译学的发展概况语料库翻译学，指以语料库为基础，以真实的双语语料或翻译语料为研究对象，以数据统计和理论分析为研究方法，依据语言学、文学和文化理论及翻译学理论，系统分析翻译本质、翻译过程和翻译现象等内容的研究。[1]语料库翻译学最早由Mona Baker于1996年正式提出[2]，Tymoczko将该领域的研究命名为“Corpus Trans-lation Studies”(语料库翻译学研究)。[3]语料库翻译学是语料库语言学和描写性译学相互影响、相互结合的产物。Sara Laviosa认为：语料库语言学和翻译研究的结合形成了“一种连贯的、全面而丰富的研究范式。该范式涉及翻译理论、描写和实践等方面的问题，业已成为当代描写性译学研究的新范式”。[4]相应的，语料库翻译学具有这两个研究领域的特征，即语料库方法的运用与注重描写与实证。[1] 语料库翻译学已成为语料库翻译学区别于传统译学研究不可或缺的研究领域。译学研究语料库的建设应属语料库翻译学的研究内容之一。不同于以学者直觉和

语料库与语料库建设

语料库和语料库建设一、什么叫语料库 1、定义语料库，通俗意义上指的是语言材料库。严格意义上的语料库（corpus）是指按照一定的语言学原则，运用随机抽样方法，收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。目前，语言学家对于语料库的定义不尽相同，如辛克莱（Sinclair）认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集，旨在用作语言的样本”。阿特金斯等（Atkins & Clear）认为语料库是“按照明确的设计标准，为某一具体目的而集成的大型文本库”。赫努（Renouf）认为语料库是“由大量收集的书面语或口头语构成，并通过计算机储存和处理，用于语言学研究的文本库”。我们看到，以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集；不同之处在于前两个定义指出语料库的设计是有明确的设计标准的，赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档，语料库的建设有特定的研究目的和具体用途，因此在语料抽样范围和文类覆盖方面都力求取得平衡，在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料，其语言材料之间的关系较为松散。语料库具有以下特征：1、语料库的设计与建设有系统的语言学理论指导，语料库的开发具有明确而又具体的目的；如，布朗语料库用于对20世纪60年代的美国英语的研究，LOB是与布朗语料库对齐的同时期的英国英语语料库，可用以对英国英语进行研究，也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料，不是随意的语言材料的堆积，更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性，由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断，而不是孤立的句子或词汇，可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段，语料库语料通过电子文本形式储存并且是通过计算机处理的，具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石，以概率统计为手段，以数据驱动为基本理念。6、语料库既是一种研究方法，又代表着一种新的研究思维。二、语料库产生的背景及发展历史对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期，在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克（R.Quirk）等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库，在此基础上完成的《现代英语语法》（ A Grammar of Contemporary English）和《英语语法大全》（A Comprehensive Grammar of the English Language）对现代英语进行了系统全面的描写，在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

Corpus Linguistics and Translation Studies Mona Baker 1993 语料库翻译学文献

Corpus Linguistics and Translation Studies Implications and Applications Mona Baker Cobuild, Birmingham Abstract The rise of corpus linguistics has serious implications for any discipline in which language plays a major role. This paper explores the impact that the availability of corpora is likely to have on the study of translation as an empirical phenomenon. It argues that the techniques and methodology developed in the field of corpus linguistics will have a direct impact on the emerging discipline of translation studies, particularly with respect to its theoretical and descriptive branches. The nature of this impact is discussed in some detail and brief reference is made to some of the applications of corpus techniques in the applied branch of the discipline. 0.Introduction A great deal of our experience of and knowledge about other cultures is mediated through various forms of translation, including written translations, sub-titling, dubbing, and various types of interpreting activities. The most obvious case in point is perhaps literature. Most of us know writers such as Ibsen, Dostoyevsky and Borges only through translated versions of their works. But our reliance on translation does not stop here. Our understanding of political issues, of art, and of various other areas which are central to our lives is no less dependent on translation than our understanding of world literature. Given that translated texts play such an important role in shaping our experience of life and our view of the world, it is difficult to understand why translation has traditionally been viewed as a second-rate activity, not worthy of serious academic enquiry, and why translated texts have been regarded as no more than second-hand and distorted versions of …real? text s. If they are to be studied at all, these second-hand texts are traditionally analysed with the (233) sole purpose of proving that they inevitably fall short of reproducing all the glory of the original. A striking proof of the low status accorded to translated texts comes from the young but by now well-established field of corpus linguistics. A recent survey commissioned by the Network of European Reference Corpora, an EEC-funded project, shows that many corpus builders in Europe specifically exclude translated text from their corpora.1 This

双语平行语料库对齐技术述评

双语平行语料库对齐技术述评对齐的双语语料库在机器翻译、词义消歧和双语词典编撰等领域都非常有用。语料对齐的单位由大到小，有篇章、段落、句子、短语、词等不同的层次。粒度越小，提供的语言信息就越多，应用的价值也就越大。然而平行语料库的自动对齐并非是一件容易的事情。由于语料大都来自人工翻译，句子之间并不都是一对一的翻译模式，还有一对多、多对多的翻译模式。这种复杂性加大了对齐的难度，特别是对更细粒度级别的对齐。由于语言之间存在着差异，找到固定的对应翻译很难，再加上文本预处理工具难以保证处理效果，以及一些电子文本的噪声纷繁复杂，这都增加了对齐的难度。而对于英汉两种差别很大的语言来说，目前的语料库对齐算法并不一定完全适用于汉英语料库的对齐。本文首先回顾了当前国外平行语料库的对齐技术，然后分析了国内在对齐中所使用的技术，旨在为本研究所今后构建小型汉英平行语料库提供一个技术支持。 1 目前平行语料库对齐技术的现状 1.1 句子级对齐技术在各级对齐研究中，其中最为重要且较为成熟的自动对齐技术是句子一级的对齐。句子级对齐的方法主要有三种：①基于长度的方法(length-based)(Brown et al,1991; Gale & Church, 1991a)；②基于词汇的方法(lexical-based)(Kay & Roscheisen, 1993)；③混合法(combination)(Tan & Nagao, 1995; Wu,1994)。基于长度的方法最早是由Brown和Gale提出，虽然他们的算法都是由源文本中句子长度和译文本中的句子长度有很大的正相关这一观察得出，但其侧重点却不同。Brown的算法以词为单位计算句子的长度，而Gale和Church则是以字符为单位计算句子的长度。他们分别用各自的算法对加拿大议会会议所录英法双语语料库进行了对齐实验，准确率达96~97%。然而该方法在处理复杂句子的对齐(如2∶1或2∶2的句子对齐,或非直译和省略的句子)以及不同语系的句子对齐时，准确率却并不高，而且此算法一旦出错，便不可能自动纠正。基于词汇的方法是由Kay和Rosheisen提出的。他们认为最佳的句子对是那些使系统词汇对齐数量最大化的句子。基于词汇的算法虽然可以提高对齐的准确性，但却费时；而且目前还没有充分证明这一方法适合于大型语料库。Chen(1993)对Kay 和 Rosheisen的算法进行了改进，这一算法运用词汇信息构建了一对一词汇统计翻译模型,用这样的翻译模型找到语料库生成的最大可能性。他用此算法对旧的Hansard语料库进行双语对齐。与Brown和Gale的对齐算法相比，这一算法不仅正确率高，而且在处理大量省略的对齐中能轻易确定省略的位置，且鲁棒性(robust)较好。基于词汇方法的另一种做法是利用同源词(cognate)(Church,1993)。此方法在处理英法和英德语言中的诸如名字、日期、数字、术语等可辨认单位出现比率高的情况下效果更好。如前所述，基于词汇的方法相对可靠精确，但计算起来相当复杂且速度较慢；而基于长度的算法模型虽然简单，独立于语言知识和外部资源，但鲁棒性不好，极易造成错误蔓延。由于每种方法都有自己的优缺点，人们试图将各种方法混合起来找到问题的解决途径(Tan & Nagao, 1995; Wu,1994; ;Collier,1998; Vronis，1999；Melamed，2000)。试验结果表明，混合的方法优于单纯使用其中的任何一种方法。

语料库语言学的发展及研究现状

当代语言学(试刊)1998年第1期4-12页,北京语料库语言学的发展及研究现状丁信善 1.0引言语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。 2.0语料库语言学的定义关于语料库语言学的定义,现引述三例: a. 根据篇章材料对语言的研究称为语料库语言学。 (K.Aijmer&B.Aitenberg,1991,p.1) b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。 (T.M c Enery&A. Wilson,1996,p.1) c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。 (D. Crystal,1991,p.86) 由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。 3.0语料库语言学的历史发展语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段: 3.1语料库语言学的早期发展早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。此类研究主要集中在以下几个方面: (1)语言习得是应用语料研究方法较早且较普遍的领域。19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。据悉,这些日记作为原始材料,不仅是当时W.Preyer和W.Stern等人的理论假说的依据,而且时至今日仍是许多学者的研究语料之一。自本世纪30年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言发展模式。这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。 (2)利用自然语料开展音系研究,在西方当首推美国早期的结构主义语言学家,如F.Boas和 E.Sapir等人。他们注重野外工作 ,强调语料获取的自然性和语料分析的客观性。这些都为后来的语料语言学所继承和发展。本文承蒙哥本哈根大学翻译与词典学研究中心主任C.Dollerup博士提供有关欧洲语料库网络的材料,特此致谢。

语料库翻译学研究内容

研讨五语料库翻译学 1. 什么是语料库翻译学？ 2. 语料库翻译学的理论基础？ 3. 语料库翻译学的研究内容？ 4. 什么是翻译共性？根据研究课题的来源，语料库翻译学的研究领域分为三类。第一类源自传统译学研究，包括基于语料库的文学翻译、翻译史、翻译教学、翻译实践、机器翻译和口译等领域的研究。基于语料库的文学翻译研究以文学翻译作品的文本分析为基础，研究文学翻译理论与实践的相关课题。这些课题具体为: 1) 意象和人物形象的再现与变形，2) 文学风格的再现与重构，3) 文学翻译的创造性，4) 译者风格，5) 文学作品空白和未定性的翻译，6) 文化负载词的翻译，7) 误译和漏译研究。基于语料库的翻译史研究利用历时性平行语料库对名家译作进行文本分析，揭示翻译家在翻译策略应用、翻译风格和翻译语言等方面所表现出的个性特征及其所遵循的翻译规范。目前，翻译史研究大多将翻译家的观点或言论视为客观现实，满足于翻译事实的罗列，对于翻译规范和历史语境关注不够。事实上，翻译家的所做与所言往往不一致，翻译家所言并不能反映其翻译作品的特征。此外，翻译是一种特殊的社会文化行为，受特定规范的制约。这些规范因时代或文化的差异而不同。利用语料库分析翻译文本的具体特征，归纳不同历史时期的翻译规范，可以阐明翻译家的所作所为，还原历史的真实面貌。另外，该领域的研究还通过提取语料库的篇头信息，对于具体某一历史时期的翻译活动进行客观描述。这些信息包括出版商、出版时间、作品主题、译者姓名和性别等内容。应当指出，语料库翻译学与翻译史均强调对研究对象进行客观描写，重视还原语境方法( contextualization) 的应用。这些共性为语料库在翻译史研究中的应用提供了作为空间。以上研究均属语料库翻译学理论层面的研究，而基于语料库的翻译教学、翻译实践和机器翻译研究都是应用层面的研究。前者侧重于探讨语料库在翻译评估、翻译教材编写和翻译教学模式中的应用，后者主要关注双语词汇和句式之间的对应关系、翻译策略和方法的应用等问题。基于语料库的机器翻译研究是指利用语料库的核心技术，建设具有海量信息的知识库，以满足机助翻译或自动翻译的需求。基于语料库的口译研究侧重于分析口译语料词汇、句法和语篇等层面的特征，研究口译语言特征、口译规范、口译策略和方法等。该领域的研究是综合性研究，既有理论层面的探讨，也有实践层面的分析。第二类研究领域源自描写性译学研究，涵盖翻译共性、翻译规范和批评译学等领域的研究。翻译共性是指由于翻译过程而形成的翻译文本所具有的区别于原创文本的特征，与源语和目的语之间差异无关，具体表现为显化、隐化、简化和范化等。翻译规范是“译者在具体时间或社会文化环境中所做出的规律性或习惯性选择”。“翻译规范是关于翻译作品和翻译过程正确性的规范，体现了具体某一社会或历史时期关于翻译的价值观和行为原则”。翻译规

《双语平行语料库在翻译教学上的用途》评述

攻读博士、硕士学位研究生试卷（作业）封面（2016 至2017 学年度第一学期）学号姓名题目《双语平行语料库在翻译教学上的用途》评述课程名称语料库语言学专业英语语言文学入学年月2016年9月培养方式全日制□非全日制

题目:双语平行语料库在翻译教学上的用途。作者:王克非，曾任北京外国语大学外国语言研究所副所长、中国外语教育研究中心常务副主任，现任《外语教学与研究》杂志主编，博士生导师，研究方向为语言学和翻译研究。研究问题:本文以北京外国语大学建成的通用汉英平行语料库为例，探讨如何在翻译教学中运用双语平行语料库、如何处理翻译教学与双语平行语料库的关系、双语平行语料库对译者有何帮助、以及译者如何在翻译教学中运用双语对译检索（词语的对译检索、结构的对译检索和语句语篇的对译检索）时找到合适的对译，提高他们的英语语感，掌握正确的翻译方法。研究方法: 本文根据北京外国语大学中国外语教育研究中心建成的通用汉英平行语料库（3000万字词）为例，探讨它在翻译教学上的用途。首先，本文作者采用了随机抽取的方法对克服（overcome）和找（find）进行了检索，找到了他们不同的翻译方法和用法；然后作者通过举例说明汉语中把字句结构的三种形式如何在英语中翻译；最后作者从台湾大学高建明所建的英汉平行语料库中，以“他心情很低落”为例,从语料库中找到相近的中英文短句、句子,找到了表示“心情低落”的各种不同词汇和方法。结论：在翻译的教学和实践中，双语平行语料库和检索工具的运用不仅给译者提供了方便，而且使他们掌握了一种科学、多样的翻译方法。同时也能激发学生的兴趣，让学生在不同版本的对译中互相学习。这表明双语平行语料库是翻译教学中的一种重要的学习资源，应当引起

旅游汉英双语平行语料库的建设与应用

第33卷第10期湖南科技学院学报 V ol.33 No.10 2012年10月 Journal of Hunan University of Science and Engineering Oct.2012 旅游汉英双语平行语料库的建设与应用肖庚生陈欣（南华大学外国语学院，湖南衡阳 421001）摘要：文章在综述现有旅游语料库的基础上，介绍了自建的衡阳旅游汉英平行语料库的建库步骤，即语料的取样、英译、标注与对齐，并阐述了该库在旅游文本语言特征、旅游翻译、旅游英语及旅游翻译教学研究中的应用价值。该库的建设与应用既能充分满足研究需要，亦能促进导游、翻译等英语人才的培养，进而推动当地旅游产业的发展及跨文化传播。关键词：旅游语料库；双语平行语料库；旅游英语中图分类号：H030文献标识码：A 文章编号：1673-2219（2012）10-0163-03 近30年来，语料库及语料库语言学从无到有、蓬勃发展。基于语料库的语言学及应用语言学研究应运而生，语料库这一研究工具与方法业已广泛应用于词汇、句法、语义、语言对比、词典编撰、二语习得、翻译等领域的研究之中，并取得了累累硕果。[1]为了研究或应用的需要，国内外先后创建了跨学科、多语言、内容迥异、库容不一的众多语料库。近年来，双语平行语料库由于其独特的优势备受关注，其建设与应用正如火如荼地进行。不过，迄今为止，国内外高校与研究机构所研制的平行语料库主要是通用型的双语平行语料库以及文学翻译类型的平行语料库，以某一专门用途为导向的平行语料库仍较为鲜见。此外，基于平行语料库的相关研究主要侧重于对个别语言或翻译现象的探讨。鉴于这一研究现状，我们拟以课题研究为契机，建设衡阳旅游汉英双语平行语料库，在此基础上，力图摸索其在汉语与英语的旅游文本语言特征、旅游汉英翻译、旅游英语与旅游翻译教学研究中的应用。一双语语料库与旅游语料库综述双语语料库最早创建于上世纪90年代中后期，迄今为收稿日期：2012－08－26 基金项目：衡阳市社科基金项目“顺应论视阈下衡阳旅游汉英双语平行语料库的建设与应用研究”（项目编号2011C011）；全国教育科学规划课题“基于语料库的大学英语教学平台建设与研究”（项目编号GPA105029）阶段性成果。作者简介：肖庚生（1980－），男，湖南衡阳人，讲师，应用语言学博士生，主要研究方向为语料库语言学。陈欣（1983－），女，湖南郴州人，讲师，语言学硕士，主要研究方向为翻译理论与实践。止国内外业已建立多种类型的双语平行语料库。早在1995年，曼彻斯特大学研制了世界上首个翻译语料库，主要收集从各国语言翻译成为英文的文本，如今库容已达千万词。但是它并非严格意义上的双语平行语料库，因为它并没有实现双语对齐，只能称其为对比语料库。目前国际上比较知名的平行语料库有挪威的“英语-挪威语平行语料库”、英国的“德语-英语文学文本平行语料库”等等。而由北京外国语大学中国外语教育研究中心于2004年启动创建的“新型双语对应语料库”（含汉英、汉日两个双语平行语料库），库容为3000万词次。其中，汉英双语平行语料库的文本类型主要涵盖人文类、社科类和科技类。该语料库的建设得到了国家社科基金重大规划课题的资助，目前正为1亿词次的超大库容做进一步的扩容努力。此外，国内比较知名的双语平行语料库还包括：李德俊以汉英词典研编为主要目的，主持建设2000万词次的英汉平行语料库；卫乃兴以研究探讨英汉对等表达为目的，主持建设900万词次的英汉平行语料库；哈尔滨工业大学所创建的库容为40万对的英汉双语平行语料库；绍兴文理学院创建的中国古典文学英译双语平行语料库等等。上述双语平行语料库多数以文学文本为主，抑或以收集百科文本（含文学与非文学作品）为特色，而针对某一特定文类或某一地域特色而专门建构的专门用途双语平行语料库仍较为鲜见。近年来，随着交通与通讯技术的日新月异，世界各地人们之间的科技、文化、商务交流、合作与往来日益频繁。更为重要的是，各国人们纷纷走出国门，畅游世界，体验世界各地的异域风情，许多国家的旅游产业获得了飞速发展。为更好地发展旅游产业、传播旅游资讯、吸引外国游客，同时亦为了满足语言学及应用语言学研究需要，旅游专门语料库应运而生。 163

语料库与语料库建设

语料库与语料库建设语料库和语料库建设一、什么叫语料库 1、定义语料库，通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的语言学原则，运用随机抽样方法，收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。口前，语言学家对于语料库的定义不尽相同，如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集，旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准，为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成，并通过计算机储存和处理，用于语言学研究的文本库”。我们看到，以上关于语料库的儿种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设讣是有明确的设计标准的，赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档，语料库的建设有特定的研究LI 的和具体用途，因此在语料抽样范围和文类覆盖方面都力求取得平衡，在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档U标在于搜集任何可获得的语言材料或所限定的数种文类语料，其语言材料之间的关系较为松散。语料库具有以下特征：1、语料库的设讣与建设有系统的语言学理论指导，语料库的开发具有明确而乂具体的U的；如，布朗语料库用于对20世纪60年代的美国英语的研究，LOB是与布朗语料库对齐的同时期的英国英语语料库，可用以对英国英语进行

研究，也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。 2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料，不是随意的语言材料的堆积，更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性，山此保证基于语料库的语言研究的科学性、客观性。 3、语料文本是连续的文本或话语片断，而不是孤立的句子或词汇，可以借以获得语法关系、用法、词语搭配以及语篇信息。 4、语料库以当代先进的计算机技术为技术手段，语料库语料通过电子文本形式储存并且是通过讣算机处理的，具有资源优势和处理速度优势。5＞基于语料库的研究以量化研究为基石，以概率统汁为手段，以数据驱动为基本理念。6、语料库既是一种研究方法，乂代表着一种新的研究思维。二、语料库产生的背景及发展历史对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪 50年代中期，在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛圉无疑促进了对语料的重视。1939年夸克(R. Quirk)等人着手进行的“英语用法调查” (Survey of English Usage)通过系统的调查建立了笫一个现代英语语料库，在此基础上完成的《现代英语语法》(A Grammar of Contemporary English )和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写，在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。 20世纪六十年代后，语言学研究主流从经验主义转向理性主义，乔姆斯基的语言能力说被广泛接受，转换生成语法学派批评语料库研究方法，认为，1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象，语料库收集的只是人们的语言运用，语言运用会因超语言因素的影响而发生变化，它并

双语对应语料库翻译教学平台的应用初探_王克非

语言技术与外语教学研究 *版权所有文责自负* 双语对应语料库翻译教学平台的应用初探王克非1 ,秦洪武2 ,王海霞 2 (1.北京外国语大学中国外语教育研究中心,北京 100089;2.曲阜师范大学外语学院,山东曲阜 273165) 摘要:本文通过语料呈现实验探讨双语对应语料库翻译教学平台的应用效果。实验显示,学生在观察语料后能够归纳和总结出有意义的翻译技巧,并能据此评估或反思自己的翻译行为。实验表明,在翻译课堂教学中使用语料资源有助于自主学习和发现式翻译教学环境的创建,也有助于学习者形成稳定的翻译技巧。关键词:对应语料库;翻译教学;发现式学习;语料呈现中图分类号:H 319.3 文献标识码:A 文章编号:1001-5795(2007)12-0003-0006 近20年来,语料库的创建和应用取得了长足发展。对应语料库大都在上世纪九十年代开始创建,起步较晚,但已展现出广阔的应用前景。在欧美,这类语料库有十多个,涉及近20个语种,如H ansard(法-英对应语料库)和ENPC (英语-挪威语对应语料库)(V ron is 2000:14-15);在中国,有中科院计算所的大规模汉英对应语料库、北京大学的/B ABLE 汉英平行语料库0,以及北京外国语大学的/通用汉英对应语料库0(该库现有可检索语料2千万字/词以上,见王克非2004a),后者是本项研究使用的主要工具。对应语料库的创建有两个主要目的:一是用于语言与翻译研究,二是用于外语教学。用于前者的研究成果丰富,涉及语言对比、双语词典编纂和翻译研究(Lav i o sa 1997;Baker 1999;Serpellet 2000;H unston 2002)。用于后者尤其是用于翻译教学的研究也已取得不少成果,如Zanetti n 1998、Pearson (2003:15-24)和Bernardini (2004b :97-111),但大都研究平行语料为翻译训练提供的可能的资源和手段,还没有研究探讨大型对应语料库在课堂教学中的实际应用问题。 1 研究内容有关运用语料库提高翻译效率和质量的研究还没有全面展开,而将对应语料库应用于翻译教学的研究则是刚刚开始(Bo w ker 2003;Ber nardi n i 2004b)。从理论上看,语料库用于教学有利于自主学习环境的创建(Bernardini 2004a :22;秦洪武、王克非2007)。自主性学习主要表现在两个方面:研究性学习和发现式学习(learning as discovery)。前者假定学习者和教师研究兴趣相投、研究能力相当;后者则鼓励学习者自行调节兴趣点,并给他们提供机会来提高自己观察和处理问题的能力,使他们对两种语言的特征和差异有敏锐的觉识。本文认为,研究和发现虽不矛盾,但在以技能培养为核心的翻译教学中,不宜过分强调学生的研究能力,发现式学习这一提法更合适一些。近年来,国内也有研究关注语料库在翻译教学中的应用问题。有些研究探讨了语料库在翻译教学中的用途(郭红2004;于连江2004;王克非2004b),但还没有研究系统地探讨对应语料在课堂教学中的应用方式和应用效果,也没有研究关注学生对于语料使用的态度。鉴于此,我们以/通用汉英对应语料库0为翻译教学平台,探讨在现有技术条件下翻译语料用于翻译教作者简介:王克非:男,教授,博士生导师。研究方向:语言学、翻译学。秦洪武:男,教授,博士。研究方向:语言学、翻译学。王海霞:女,讲师,硕士。研究方向:翻译学。收稿日期:2007-03-18 基金项目:本文是国家社科基金课题/基于大型英汉对应语料库的翻译研究与翻译教学平台0的阶段性成果(编号05BYY 013),并获得曲阜师范大学科研启动基金资助(编号Bsqd2007022)。 # 3#第118期2007年12月外语电化教学 C AFLE N o .118D ec . 2007

英汉双语平行语料库人工对齐方法说明

英汉双语平行语料库人工对齐方法说明 1．概述半自动英汉双语平行语料库的对齐分为两个过程：第一个过程是先将两种语言的文本分成句子，每个句子占一行。句子定义为：以句号、问号、感叹号、分号结尾的一串字符，或以句号+引号、问号+引号、感叹号+引号等结尾的一串字符。“行”的概念是一串以回车换行符结尾的字符。这个过程可以采用任何一种具有“查找”和“替换”功能的文字处理软件来完成，也可以编程由计算机自动完成。第二个过程是在第一个过程产生的结果的基础上以手工方式将两种语言的文本在句子水平上对齐。这一过程要采用UltraEdit软件来辅助完成。在句子水平上对齐两种语言的文本，除了要注意以上对“句子”和“行”的定义以外，还应遵循一个重要的原则，即：如果两种语言的文本在句子的切分上有差异，应尽量保持原文句子不动，调整译文以适应原文。为了能从双语平行语料库中获取更多的信息，还需要在对齐过程中插入少量的标记，例如：分译标记、合译标记、混译标记和移动标记等。此外，为了便于以后的检索，对于过长的句子还要在适当的地方将长句截短成两个或更多的小句。 2．人工对齐的方法 2.1打开文件先用UltraEdit软件将两个已经分为句子的文本文件打开，在该软件的工具栏的“窗口”下拉菜单中点“水平平铺”选项，使两个打开的文本同时显示在屏幕上。为了操作方便，一般把原文放在上半屏，把译文放在下半屏。（见图1） 2.2 上下移动文本为了能够对齐两种语言的文本，在操作过程中需要不断地上下移动文本。移动文本可以用鼠标移动窗口右边的滑块来完成。也可以将光标放在某一行，然后用鼠标的中间滚轮来上下移动。 2.3 同步移动上下两个窗口中的文本在“窗口”下拉菜单中选“同步”选项，就可以同步移动上下两个窗口中文本，极大地方便人工对齐的操作。

语料库整理要求及方法

一、需整理的多是ppt语料，也有些word文档的语料（见Boston Consulting-需做库-12.10文件夹）。整理要求如下： 1、利用Align Assist工具将ppt中原文译文提取出来，并根据中英文内容一句句对齐。如图： 2、利用Align Assist工具对ppt中的内容进行提取时，软件会遗漏部分内容。因此需要在对齐之后将软件自动提取后遗漏的句对逐句复制补充进去。 3、对齐完成后，将对齐结果分别保存为tmx格式及aares格式，tmx为最终需要的语料格式，但无法修改且预览不便。aares为临时语料文件，可修改，可即时预览。因此，请大家对齐时两种格式都保存下来。保存方法见第二部分。二、整理方法： 1、安装Align Assist语料对齐工具（安装程序见AlignAssist_Setup_1.5.1文件夹）。双击AlignAssist_Setup_1.5.1.exe的程序进行安装。语言选择为english。

2、双击运行。将要对齐的原文文件和译文文件分别添加进去。

注意原文和译文语言方向。根据文件夹要求确定英文、中文何为原文，何为译文。例：project1-中到英，则中文文件为source file，英文文件为target file。源文本和译文本添加完成后，点击Align。进入如下界面。 3、注意split、merge、delete、swap的用法。（1）split：将一句话断开为两句

随意举例：将第六句原文“当前全球经济正经历深度调整，各国需联手培育新的经济增长点和竞争优势。”断为：“当前全球经济正经历深度调整，”及“各国需联手培育新的经济增长点和竞争优势。”选中第六句原文，边框变黑。单击上方菜单split。进入下图界面。将第二小句内容剪切粘贴到cell 2部分，然后单击ok。即分句完成。

中文平行语料库

中文平行语料库机器翻译需要的平行语料库一库难求，笔者列举了一些免费的中文数据集，可用于中文和其他语言之间的机器翻译。 1.汉英10000平行语料库https://www.doczj.com/doc/d513252961.html,/data/14779 10000句对规模的英汉双语句对齐语料库，已经做了分词和句子对齐。 2.汉英22万句对法律类句子对齐语料https://www.doczj.com/doc/d513252961.html,/data/14261 22万句对规模的英汉法律类双语句对齐语料。缺点是没有做分词和语言对的对齐，还得做预处理 3.汉英双语句对齐语料库（1500句对）https://www.doczj.com/doc/d513252961.html,/data/13290 1500句对规模的英汉双语句对齐语料库。缺点是没有做分词和语言对的对齐，还得做预处理 4.最大开放字幕库OpenSubtitles的多语言平行语料数据 https://www.doczj.com/doc/d513252961.html,/data/14469 https://www.doczj.com/doc/d513252961.html,是全球最大的开放字幕库，提供了中文、英文、日文、德文、法文等30多种语言的上亿条电影和电视剧字幕。本数据集是根据该网站数据制作的多语言字幕平行语料库，包含30种语言中任意两种语言之间的字幕互译语料。是用于机器翻译研究的绝佳素材。数据量也足够大，压缩后还有2.38G 5.PHP手册的多语言平行语料库 https://www.doczj.com/doc/d513252961.html,/data/15045 将PHP手册内容制作了一个包含21国语言的平行语料库。语料库已经被分词，每个语言对都被对齐。数据量压缩后有278M 6.KDE手册的多语言平行语料库https://www.doczj.com/doc/d513252961.html,/data/15025 将KDE手册内容制作成一个包含24国语言的平行语料库。语料库已经被分词，每个语言对都被对齐。数据量压缩后有88M