当前位置：文档之家› 基于Web的双语平行语料库自动获取系统

基于Web的双语平行语料库自动获取系统

基于Web的双语平行语料库自动获取系统1

叶莎妮吕雅娟刘群

中国科学院计算技术研究所智能信息重点实验室

{yeshani,lvyajuan,liuqun,}https://www.doczj.com/doc/d54374693.html,

摘要：利用互联网上存在的海量多语言文本资源，通过网页的内容分析和链接分析，实现了一个双语语料挖掘的自动获取系统。首先，介绍了系统框架和主要模块；其次，详细描述了各个模块的实现与创新技术；最后，给出下一步工作的展望。本系统为获取真实的中英平行语料库提供了有效的途经。

关键词：双语语料;网页挖掘;平行网页

A Bilingual Corpus Automatic Acquisition

System Based on Web

Abstract:Implemented a bilingual corpus automatic acquisition system by taking advantage of an abundance of multilingual corpus in the World Wide Web,and analyzing their content and links. First,introduced system framework and main modules;second,described every module and technology innovations in detail.A prospect for the next step was given at last.This system provided an effective way for achieving Chinese-English parallel corpus.

Keywords:Bilingual Text;Parallel Corpora;Web Mining;

1.引言

语料库的建设是统计学习方法的重要基础，近年来，语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。特别是双语语料库（Bilingual Corpus），已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。一方面，双语语料库的出现直接推动了机器翻译新技术的发展，像平行语料库为统计机器翻译的模型构建提供了必不可少的训练数据（e.g.,Brown et al.1990;Melamed2000;Och and Ney2002），基于统计（Statistic-Based）和基于实例（Example-Based）等基于语料库的翻译方法为机器翻译研究提供了新的思路，有效改善了翻译质量，在机器翻译研究领域掀起了新的高潮。另一方面，双语语料库又是获取翻译知识的重要来源，从中可以挖掘学习各种细粒度的翻译知识，如翻译词典（e.g.,Gale and Church1991;Melamed1997）和翻译模板，从而改进传统的机器翻译技术。此外，双语语料库也是跨语言信息检索（e.g.,Davis and Dunning1995;Jian-Yun Nie, TREC8;），翻译词典编撰、双语术语自动提取以及多语言对比研究等的重要基础资源。

双语平行语料库建设与获取存在着很大的困难，各国都投入了大量的人力、物力和财力，但是双语平行语料库的来源主要集中在政府报告、新闻法律等特定领域，不适合真实文本应用。同时，互联网上的大规模双语文本并且具有很好的时效性和覆盖性，这为双语平行语料库的获取提供了潜在的解决途径。

研究基于Web的大规模双语平行语料库获取技术对于解决双语语料库获取难题，推动相关技术发展和实用化具有重要的意义。本文的目标就是建设一个语料库自动获取系统。

收稿日期：2007-06-30返稿日期：2007-XX-XX基金项目：国家自然科学基金（60603095），国家自然科学基金（60573188）作者简介：叶莎妮，硕士研究生，主要研究方向为自然语言处理技术（yeshani@https://www.doczj.com/doc/d54374693.html,）；吕雅娟，工学博士，主要研究方向为计算语言学与机器翻译；刘群，工学博士，主要研究方向为计算语言学与机器翻译

2.背景介绍

加拿大蒙特利尔大学的研究者聂建云开发的系统PT Miner（Parallel Text Miner，1999）：通过搜索引擎查找含有特定锚文本的网站构成双语候选网站，再依赖预先定义的语言的前后缀表，抽取出具有URL命名相似性的候选网页即如果某一URL含有一种语言的前后缀，则将这些前后缀替换为另一种语言的，构建出一个URL，如果这样构建出来的URL存在。则找到了一对候选网页对，最后再根据文本长度，网页的HTML标记结构，网页的语言等特征过滤掉候选网页中不平行的网页对。PT Miner系统在中英平行网页文本挑出几百对的中英平行网页对，经过人工的评价，有将近90%的准确率。获取到的英文文本有137M，中文文本有117M。

美国马里兰大学的研究者Resnik开发的系统STRAND（Structural Translation Recognition, Acquiring Natural Data，2003）也是利用搜索引擎和定义的挑选候选网站的规则来得到双语候选网站。同PT Miner相比，STRAND再利用URL命名相似性来查找一个网站内的候选网页对时，采取在中、英URL中删去预先定义与语言相关的字符串的方式，如果去除语言相关的字串后，中、英URL相等，则说明当前的中英URL是一对候选双语平行网页。此外，STRAND更加细致深入的研究了平行网页在结构上具有的相似性，采用了更多的基于网页结构的特征来过滤掉候选平行网页中不是互为翻译的网页对。人工评估了大约400对的中英平行网页对，取得了98%的准确率和61%的召回率。STRAND系统获取到大约3，500对中英平行网页对。

BITS（Bilingual Internet Text Search,Ma and Liberman1999），下载指定域名下的所有网站作为候选网站，定义了一种计算中英网页内容之间相似度的计算方式即互翻译词占文本总词数的比例，来进行中英平行网页对的确定。

澳大利亚莫纳什大学陈纪淞等人开发的PTI（The Parallel Text Identification System，2004）通过网页采集器下载了大量的双语网页之后，首先通过了文件名比较模型即根据URL 命名的相似性来得到双语平行网页对，原理同PT Miner，在这一过程没有相应对齐链接的网页再通过一个文件内容分析模型，定义了计算网页文本内容之间的相似度计算方式，从而得到双语平行的网页对。PTI系统总共获取到193对的中英平行文本，其中180对是正确的，正确率为93%，召回率为96%。

亚洲微软研究院的吴克等人开发的WPDE（Web Parallel Data Extraction，2006）在利用搜索引擎获取候选网站时，不仅利用了锚文本还采用了图片的ALT信息。在根据URL命名相似性获取候选双语平行网页对时，采用将URL分成pathname和basename，pathname的配对查找上也利用预先定义的启发式字符串，在具体的查找时定义了一些匹配规则；basename的查找配对不用于前面系统采用的基于预先定义的字符串形式，而是基于改进的最小编辑距离算法，这样的方式经过试验证明取得了更好的效果。候选双语平行网页对的过滤时除采用了文本长度，网页html结构等特征，还引入了一个基于网页内容的特征即候选双语平行网页文本句子对齐的好坏。在同PTI同样的测试集合上，WPDE系统取得了97%的正确率与94%的召回率。

3.系统框架

本系统建立了一个基于Web的双语语料自动获取平台，能够自动获取文本级双语平行语料库和句子级的双语平行语料库。本系统主要获取中英平行网页文本，但是除了一些与具体语言相关的配置文件以外，采用的方法是不依赖具体语言的，可以很轻松的一致到其他的

语言对上。整个系统如下图所示，由四个关键部分组成。

图表1系统结构图

3.1候选网站的获取

候选网站为可能含有中英平行网页的网站，如果一个中文网页中含有以“English”、“English version”等为锚文本或图片ALT信息的链接，或者一个英文网页中含有相应的以“中文”、“中文版”为锚文本或图片ATL信息的链接，则可以认为含有该网页的网站是一个候选网站。可以通过搜索引擎或指定特定的域来获取候选网站。识别候选网站的目的是要进一步将双语文本的获取限制在可能的网站上。在得到候选网站之后，利用已有的网页采集器Wget，下载了大量的双语网页

3.2采集网页与预处理

利用现有的网页采集器Wget下载候选网站内部的所有网页，再一系列的预处理操作，例如：进行统一中文网页编码，都转化为GB格式；网页语言识别，分为中文网页与英文网页；统一转化为小写格式等。

3.3基于URL命名相似性获取候选中英网页

通过观察可以发现相当一部分网站作者在URL命名时有一特点：会引入一些与特定语言相关的字符串，双语平行网页的URL只有语言相关的部分字符串不同，例如：“https://www.doczj.com/doc/d54374693.html,/newsroom/zh/index.html”与“https://www.doczj.com/doc/d54374693.html,/newsroom/en/index.html”，并且语言相关的部分其中大部分是常见的，可以通过预先定义的，所以已有的系统都通过预先定义与特定语言相关的字符串集合或正则表达式。但是，同时存在着大量的双语网站，其URL 命名虽然具有语言相似性，但不是通过预先定义可以发现这种规律。此外，也存在一些网站的在命名时，中文一侧的URL用的是完整的单词，而英文一侧对应的网页URL用的则是该单词的简写。可见，只要URL命名的相似性不涵盖在预先定义的集合中，那么已有的系统就无法处理。下面提出一种能够自动发现当前网站在双语网页命名时具有的特点，再进行候选双语平行网页对的获取，完全不需要预先定义语言相关的字符串集合。

3.3.1根据URL命名相似性获取候选中英网页

我们通过观察统计发现在那些具有URL命名相似性的双语网站中，URL的pathname 与basename的相似性是不同的，应该将一个URL分为pathname和basename两部分，分别寻找当前网站中URL这两部分命名时的相似性，再进行查找候选平行网页对。

例如：https://www.doczj.com/doc/d54374693.html,/newsroom/zh/field/2005/index.html

其中：“https://www.doczj.com/doc/d54374693.html,/newsroom/zh/field/2005/”为pathname，“index.html”为basename 分别找出pathname和basename中语言相关的部分，分别生成pathname部分和basename 部分的两组替换规则，依靠生成的pathname产生式与basename产生式来将中英URL配对，得到候选双语平行网页对。具体思想描述如下：

1.pathname替换规则的生成

a)基本思想

将pathname看作由/str/组成字符串，每一个/str/是处理单元（字段），假设一个pathname 中不存在重复的处理单元。获取pathname中符合以下规则的不同部分(可能是我们要的语言相关的部分）

简记为：cpath:f/lang_c/l/,epath:f/lang_e/l

f表示两个URL相同的前端部分

l表示两个URL相同的后端部分

lang_e，lang_c表示两个pathname中不同部分，为中间部分，可能含有多个字段。

两个pathname可能存在多个这样的中间部分。

b)替换规则定义

符合上述规则的两部分字段（lang_c,lang_e）表示一处替换,两个pathname中的所有的替换组成一个产生式，多处替换以分号分隔。

c)Pathname产生式的应用

cpart非空，epart非空：替换操作

cpart非空，epart为空：在中文URL中删除对应的cpart

cpart为空，epart非空：在英文URL中删除对应的epart

cpart为空，epart为空：则说明要查找相同的中文URL，英文URL

d)生成替换规则与相应权重的计算（算法描述）

从中英文的URL列表得到相应的pathname列表，从中文pathname列表方向开始与英文pathname列表中的pathname比较，应用已有的替换规则与当前中文的pathname，构造一个英文的pathname，如果构造出来的英文pathname在英文的pathname列表中存在，则说明当前的替换规则有效，增大其权重，否则当前的中文pathname与英文列表中的每一个pathname进行比较寻找符合上述定义的新的替换规则。当当前生成的替换规则中cpart1，epart1；cpart2，epart2；任意一个部分是一个数字串时，当前的替换规则无效。

2.Basename产生式的生成

首先应用pathname产生式，找到具有相应的pathname的两个basename集合，在这两个集合中找替换的部分。例如：

根据pathname的替换规则（zh en），中文pathname：https://www.doczj.com/doc/d54374693.html,/newsroom/zh/，对应的英文pathname：https://www.doczj.com/doc/d54374693.html,/newsroom/en/，分别得到具有该中文pathname的URL集合，再得到相应的中文basename集合（index.html，rss.xml），同样的可以得到英文的baseneme 集合（index.html）。

a)basename字段划分

pathname具有很规整的格式可以由／来分成各个字段，而basename则根据”_.-“等分隔符

分成各个字段。

b)替换规则定义

寻找两个basename中替换的部分生成潜在的产生式思想同生成pathname产生式。当找到符合规则的lang_c，lang_e后，当lang_c或lang_e中存在数字串，并且在lang_c与lang_e 中同等位置的数字串不相等时，我们认为当前找到的替换规则不是语言相关的，是无效的

c)Basename产生式的应用

不采用替换的方式，采用删除当前产生式中出现的所有字符串的方式（因为pathname 中字段不会重复，basename中字段(即字符)会重复）

例如，index_e.html,index_c.html

当前产生式：c,e；则delset{e,c},删除出现在delset中的字符串，

变成：indx_.html,indx_.html

相等则认为当前的cbasename，ebasename符合当前产生式的要求

采取本算法的明显优点在于可以根据每个网站自身的特点来找出URL pairs，不受限制，基本上不会遗漏正确的候选双语平行网页对。

3.4双语平行网页的确认

获得的候选中英网页中，存在着一些实际上不平行的网页，我们需要根据一些特征或判定准则过滤掉不平行的网页，得到真正平行的中英网页。本系统中采用文本长度、网页HTML 结构、一对网页文本中的互翻译词比例以及词语对齐等特征，训练了一个最大熵分类器来进行候选双语平行网页对的验证，过滤掉实际上不平行的网页对。

3.4.1文本长度特征

双语平行网页在文本长度是具有规律的，去除网页中的HTML标记、空白、空行等噪声得到文本，在进行切词的基础上定义文本长度为词数。基于文本长度的特征定义为F=length （ctext）／length（etext）。

3.4.2网页结构特征

抽取出网页的HTML标记，组成一个标记序列，然后再利用UNIX工具sdiff将中英网页对应的两个标记序列进行对齐，基于网页HTML结构的特征定义为：F=N（diff）／N（all）。如下图所示：

图表2对齐HTML标记示例

3.4.3内容互翻译词特征

双语平行网页在内容上应该是相关的，互为翻译的。我们首先在560万句中英平行语料中训练了两部带翻译概率的词典，中英词典与英中词典。然后我们统计中文网页文本中的有多少词在对应的英文网页文本中存在对应着翻译词，定义一个衡量内容互翻译性的特征：F_c2e=N(c2e)／N(call)即在英文网页中存在相应翻译词的词数与中文网页文本总词数的比值。相应的可以统计英文网页文本中那些词在中文网页文本中存在着翻译词，相应的特征表示为：F_e2c=N(e2c)/N(eall)。如果F_c2e，F_e2c都大于2，说明中英网页中都至少存在一般的词在另一侧网页中存着相应的翻译词。

3.4.4词语对齐特征

假如某一对中英网页描述的是同一新闻事件，但不是一一对应互为翻译的，虽然它们在文本长度，结构，内容互翻译词上都有很大的相似性，这一类网页我们称之为双语可比网页。我们引入词语对齐特征就是为了区分双语平行网页与双语可比网页。我们需要一个高效快速的词语对齐算法，因而我们采用基于词典的方式，经过两边的添加链接来完成。

a)将每个中文词c j链接到具有最大中译英或英译中翻译概率的英文词e i上，即选择

max i{p(e i/c c),p(c j/e i)}的英文词e i,如果e在英文句子中只存在一个，就直接添加链接，否则在记录下所有e i的位置，在第二遍添加链接时在决定c j具体链接到哪一个e i

b)对于对应的英文词e i在英文句子中存在多个的中文词c j，不采取任意选择一个e i的方式，

我们在添加一条c，e链接时，使得当前存在的交叉连接最少。

经过上述两遍添加链接以后，仍然没有相应链接的中文词与英文词都当链接到两个空节点上，即添加空链接，这样就得到了一个词语对齐，例如（图片）

图表3词语对齐示例

定义词典对齐特征为：F=N(bilink)／N(alllink)，即两个词的链接数与总链接数的比值。对于例子给出的词语对齐，相应的词语对齐特征值为：8/（8+5）。

3.4.5最大熵分类器

最大熵模型是最大熵分类器的理论基础，其基本思想是为所有已知的因素建立模型，而把所有未知的因素排除在外。也就是说，要找到这样一个概率分布，它满足所有已知的事实，且不受任何未知因素的影响。

最大熵模型的一个最显著的特点是其不要求具有条件独立的特征，因此，人们可以相对任意地加入对最终分类有用的特征，而不用顾及它们之间的相互影响。另外，相对SVM等基于空间距离的分类方法，最大熵模型能够较为容易地对多类分类问题进行建模，并且给各个类别输出一个相对客观的概率值结果，便于后续推理步骤使用。同时，最大熵的训练效率相对较高。上述优点使其成功应用于信息抽取、句法分析等多个自然语言处理领域。

手工选择训练语料，采取上述的特征，训练了一个最大熵分类器。

4.实验结果与分析

1.候选网站数量

我们定义中英锚文本列表，例如“Chinese”，“chinese version”，“简体”，“English”等等，然后通过搜索引擎Google检索含有以这些关键字为锚文本的链接的网页，经过候选网站的定义规则过滤后就得到了候选网站。

在我们实验过程，由于空间的限制，仅选用了以“简体”，“简体中文”，“简体版”，“中文”，“chinese_simplify”，“Chinese”，“chinese version”，“in Chinese”，“chinese_tradition”等作为锚文本。通过检索引擎获得的候选网站数量为975。

2.Wget下载网页

用网页采集器Wget下载上一步得到的所有候选网站中的可用的文件，不下载“.gif”、“.jpeg”等类型的文件。

3.自动获取具有URL命名相似性的候选双语平行网页

我们随机选出具有URL命名相似性的18个网站进行测试，比较我们的方法与WPDE 系统中采用的方法。其中采用WPDE系统中的方法可以抽取出2110对候选中英平行网页，而我们的方法可以找出3013对候选中英平行网页，多找出903对中英候选平行网页，经过过滤掉不平行的网页，发现这903对中英网页确实为平行网页。这是因为采用自动发现网站

内部URL命名的特点，不仅可以避免预先人为定义带来的缺失，还可以避免网站建设者采用大小写，省略词等问题造成的缺失。

5.下一步工作

目前从网页这种类型的语料获取句子级对齐的语料，难点在于，网页本身的噪声，网页之间即使表述的是同一件事情，作者不同，文章内容就不同，无法做到真正意义上的平行，那么直观上理解：先做到文本块对齐（例如

…

可以看做一个文本块，带有开始标记

,结束标记

），块内再进行句子对齐。

在解析网页结构之后，我们可以得到所有带首尾HTML标记的文本块序列，如下图所示，

图表4带首尾HTML标记的文本块序列

在这基础上进行文本块的对齐。换一个角度思考：文本块对齐可以看做一个分类问题，将候选的中英文本块也即可能是对齐一对的文本块，抽取一些特征，送入分类器进行分类，得到当前的候选文本块对是否是平行的文本块。我们同样可以采取文本块长度，互翻译词个数等互为翻译的文本块所具有的特征。

参考文献

[1]Chen,J.,R.Chau,and C.-H.Yeh.1991.Discovering Parallel Text from the World Wide Web. In Proceedings of the second workshop on Australasian Information Security,Data Mining and Web Intelligence,and Software Internationalization.

[2]Nie,J.Y.,M.S.P.Isabelle,and R.Durand.1999.Cross-language Information Retrieval based on Parallel Texts and Automatic Mining of Parallel Texts from the Web.In Proceedings of the22nd Annual International ACM SIGIR Conference on Research and Development.

[3]Resnik,P.and N.A.Smith.2003.The Web as a Parallel https://www.doczj.com/doc/d54374693.html,putational Linguistics, 29(3)

[4]Zhang,Y.,K.Wu,J.Gao,and Phil Vines.2006.Automatic Acquisition of Chinese-English Parallel Corpus from the Web.In Proceedings of28th European Conference on Information Retrieval.

[5]Melamed,I.Dan.1997.Automatic discovery of non-compositional compounds in parallel data.In Proceedings of the2nd Conference on Empirical Methods in Natural Language Processing (EMNLP-97),pages97–108,Providence,RI,August

[6]FUNG,PASCALE~KENNETH W.CHURCH.1994.K-vec:A new approach for aligning parallel texts.In Proceedings of the Fifteenth International Conference on Computational Linguistics,Kyoto.To appear.

语料库术语中英对照

Aboutness 所言之事 Absolute frequency 绝对频数 Alignment (of parallel texts) （平行或对应）语料的对齐 Alphanumeric 字母数字类的 Annotate 标注（动词） Annotation 标注（名词） Annotation scheme 标注方案 ANSI/American National Standards Institute 美国国家标准学会 ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) （主题词的）联想词 AWL/Academic word list 学术词表 Balanced corpus 平衡语料库 Base list 底表、基础词表 Bigram 二元组、二元序列、二元结构 Bi-hapax 两次词 Bilingual corpus 双语语料库 CA/Contrastive Analysis 对比分析 Case-sensitive 大小写敏感、区分大小写 Chi-square (χ2) test 卡方检验 Chunk 词块 CIA/Contrastive Interlanguage Analysis 中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则 Cluster 词簇、词丛 Colligation 类联接、类连接、类联结 Collocate n./v. 搭配词；搭配 Collocability 搭配强度、搭配力 Collocation 搭配、词语搭配 Collocational strength 搭配强度 Collocational framework/frame 搭配框架 Comparable corpora 类比语料库、可比语料库 ConcGram 同现词列、框合结构 Concordance (line) 索引（行） Concordance plot （索引）词图 Concordancer 索引工具 Concordancing 索引生成、索引分析 Context 语境、上下文 Context word 语境词 Contingency table 连列表、联列表、列连表、列联表 Co-occurrence/Co-occurring 共现 Corpora 语料库（复数） Corpus Linguistics 语料库语言学 Corpus 语料库 Corpus-based 基于语料库的

双语对应语料库翻译教学平台的应用初探_王克非

语言技术与外语教学研究 *版权所有文责自负* 双语对应语料库翻译教学平台的应用初探王克非1 ,秦洪武2 ,王海霞 2 (1.北京外国语大学中国外语教育研究中心,北京 100089;2.曲阜师范大学外语学院,山东曲阜 273165) 摘要:本文通过语料呈现实验探讨双语对应语料库翻译教学平台的应用效果。实验显示,学生在观察语料后能够归纳和总结出有意义的翻译技巧,并能据此评估或反思自己的翻译行为。实验表明,在翻译课堂教学中使用语料资源有助于自主学习和发现式翻译教学环境的创建,也有助于学习者形成稳定的翻译技巧。关键词:对应语料库;翻译教学;发现式学习;语料呈现中图分类号:H 319.3 文献标识码:A 文章编号:1001-5795(2007)12-0003-0006 近20年来,语料库的创建和应用取得了长足发展。对应语料库大都在上世纪九十年代开始创建,起步较晚,但已展现出广阔的应用前景。在欧美,这类语料库有十多个,涉及近20个语种,如H ansard(法-英对应语料库)和ENPC (英语-挪威语对应语料库)(V ron is 2000:14-15);在中国,有中科院计算所的大规模汉英对应语料库、北京大学的/B ABLE 汉英平行语料库0,以及北京外国语大学的/通用汉英对应语料库0(该库现有可检索语料2千万字/词以上,见王克非2004a),后者是本项研究使用的主要工具。对应语料库的创建有两个主要目的:一是用于语言与翻译研究,二是用于外语教学。用于前者的研究成果丰富,涉及语言对比、双语词典编纂和翻译研究(Lav i o sa 1997;Baker 1999;Serpellet 2000;H unston 2002)。用于后者尤其是用于翻译教学的研究也已取得不少成果,如Zanetti n 1998、Pearson (2003:15-24)和Bernardini (2004b :97-111),但大都研究平行语料为翻译训练提供的可能的资源和手段,还没有研究探讨大型对应语料库在课堂教学中的实际应用问题。 1 研究内容有关运用语料库提高翻译效率和质量的研究还没有全面展开,而将对应语料库应用于翻译教学的研究则是刚刚开始(Bo w ker 2003;Ber nardi n i 2004b)。从理论上看,语料库用于教学有利于自主学习环境的创建(Bernardini 2004a :22;秦洪武、王克非2007)。自主性学习主要表现在两个方面:研究性学习和发现式学习(learning as discovery)。前者假定学习者和教师研究兴趣相投、研究能力相当;后者则鼓励学习者自行调节兴趣点,并给他们提供机会来提高自己观察和处理问题的能力,使他们对两种语言的特征和差异有敏锐的觉识。本文认为,研究和发现虽不矛盾,但在以技能培养为核心的翻译教学中,不宜过分强调学生的研究能力,发现式学习这一提法更合适一些。近年来,国内也有研究关注语料库在翻译教学中的应用问题。有些研究探讨了语料库在翻译教学中的用途(郭红2004;于连江2004;王克非2004b),但还没有研究系统地探讨对应语料在课堂教学中的应用方式和应用效果,也没有研究关注学生对于语料使用的态度。鉴于此,我们以/通用汉英对应语料库0为翻译教学平台,探讨在现有技术条件下翻译语料用于翻译教作者简介:王克非:男,教授,博士生导师。研究方向:语言学、翻译学。秦洪武:男,教授,博士。研究方向:语言学、翻译学。王海霞:女,讲师,硕士。研究方向:翻译学。收稿日期:2007-03-18 基金项目:本文是国家社科基金课题/基于大型英汉对应语料库的翻译研究与翻译教学平台0的阶段性成果(编号05BYY 013),并获得曲阜师范大学科研启动基金资助(编号Bsqd2007022)。 # 3#第118期2007年12月外语电化教学 C AFLE N o .118D ec . 2007

语料库与语料库建设

语料库和语料库建设一、什么叫语料库 1、定义语料库，通俗意义上指的是语言材料库。严格意义上的语料库（corpus）是指按照一定的语言学原则，运用随机抽样方法，收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。目前，语言学家对于语料库的定义不尽相同，如辛克莱（Sinclair）认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集，旨在用作语言的样本”。阿特金斯等（Atkins & Clear）认为语料库是“按照明确的设计标准，为某一具体目的而集成的大型文本库”。赫努（Renouf）认为语料库是“由大量收集的书面语或口头语构成，并通过计算机储存和处理，用于语言学研究的文本库”。我们看到，以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集；不同之处在于前两个定义指出语料库的设计是有明确的设计标准的，赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档，语料库的建设有特定的研究目的和具体用途，因此在语料抽样范围和文类覆盖方面都力求取得平衡，在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料，其语言材料之间的关系较为松散。语料库具有以下特征：1、语料库的设计与建设有系统的语言学理论指导，语料库的开发具有明确而又具体的目的；如，布朗语料库用于对20世纪60年代的美国英语的研究，LOB是与布朗语料库对齐的同时期的英国英语语料库，可用以对英国英语进行研究，也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料，不是随意的语言材料的堆积，更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性，由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断，而不是孤立的句子或词汇，可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段，语料库语料通过电子文本形式储存并且是通过计算机处理的，具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石，以概率统计为手段，以数据驱动为基本理念。6、语料库既是一种研究方法，又代表着一种新的研究思维。二、语料库产生的背景及发展历史对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期，在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克（R.Quirk）等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库，在此基础上完成的《现代英语语法》（ A Grammar of Contemporary English）和《英语语法大全》（A Comprehensive Grammar of the English Language）对现代英语进行了系统全面的描写，在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

基于双语平行语料库的翻译教学

基于双语平行语料库的翻译教学翻译是英语专业高年级学生一门非常重要的课程。传统的翻译教学以教师讲解为中心，以翻译教材为学习载体，学生在上完课之后很难具备一定水平的翻译能力。针对于此，我们把双语平行语料库及相应的检索功能引入到翻译教学当中，以提高翻译教学质量，提升学生的翻译能力。标签：双语平行语料库；翻译；教学双语平行语料库是指使用两种语言撰写相互间具有翻译关系的文本的集合平台，与普通的词典相比，这种翻译方法更加准确、便利、快捷，更新速度快，可以提供大量真实的双语对译语料以供学习者查询。何安平指出，将语料库引入翻译教学，会改变传统的翻译教学模式，使学生可以开展各种学习活动，比如互动式学习、开放式学习和分析归类型学习，这一系列学习可以激发学生的好奇心、求知欲，帮助学生塑造的批判精神和反思精神，为培养学生的创新思维提供了条件。本文例句所使用的双语平行语料库是指北京外国语大学通用双语平行语料库。 1.基于双语平行语料库的词汇翻译曾有人提出，平行语料库最典型的应用范围之一是双语词汇教学。无论是英译汉还是汉译英，在很多时候英汉两种语言不存在一一对应的词汇，一词多义的现象很普遍，这就意味着这个词有多种译文；而且，在某些特定的语境中，有的词被赋予固定的意思，这又是新的译文。北京外国语大学王克非教授以汉语“克服”一词为例，在北京外国语大学通用汉语双语平行语料库中检索，发现24处“克服”一词中，有15处翻译为overcome。在学生学习完这24个例子后，他们就会明白，在以后的翻译中，不是所有的“克服”都用overcome翻译，在其他情况下使用cope with，fight down，get rid of 等会更加贴切。学习者可以借助双语平行语料库的真实语境平台，找到单词在不同语境下的地道翻译，既丰富了词汇量，快速准确地译出对应语，同时可增强语感，提升双语翻译能力。 2.基于双语平行语料库的句式翻译有时候，学生会感觉无论是英语还是汉语，其中一些句式很难理解，至于翻译更是无从下手。在这种情况下，双语平行语料库为学生们提供了大量的特殊句式翻译例句。我们以英文中“it is said that”为例。这是英语中常用的句式，很多学生张口就翻译为“据说”，好像也没有人怀疑过；包括我本人在接触双语平行语料库之前，见到it is said that也随口就翻译为“据说”。但是，笔者通过双语平行语

关于汉语中介语语料库建设研究报告

汉语中介语语料库建设研究沈锐1，黄薇2 (1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100) 【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法，重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路，并阐明了该语料库在对外汉语教学和研究中的应用价值。【关键词】语料库;中介语;汉语教学语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。中介语是心理语言学中第二语言习得的一种研究模式，其将语言学习者置于观察中心，去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。中介语理论自20世纪60年代末出现并发展至今，虽然时间并不长，但越来越受到语言学家以及一线教师的关注。无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料，因而通过信息化手段收集和整理语料变得十分迫切。在对外汉语教学中，通过建设和使用母语非汉语学习者的汉语中介语语料数据库，可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料，并对语料属性、词汇、语法等单位进行计算机处理，以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取，可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。因此，我们提出了建设汉语中介语语料库的课题，由于语料库建设是一项浩大的工程，限于人力物力条件，本文讨论的是中

小规模的语料库。一、需求分析和框架设计语料库建设不能盲目进行，首先要进行调研，对语料库的应用需求进行分析。半自动化的语料库构建是目前语料库建设的主流技术，目的是在确保语料库质量的前提下，减少人工参与的比例，增加自动化程度，目标是在较短时间内建设一个有一定规模，质量可靠、可扩充、成本低，能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。依照软件工程的方法，建立数据库首先需要进行需求分析，在需求分析过程中要注意汉语中介语语料库主要是服务于对外汉语教学的一线教师，以及辅助母语非汉语学生自学，因此主要注重以上二类服务对象的应用需求，确保建成的语料库能够对第二语言教学、研究以及教材的编写提供持续支持。基于以上要求，在对中介语语料库的建设思路及框架做了总体考虑，基本归纳为以下三个方面： 1、中介语语料库为专门用途语料库，主要目的为研究母语非汉语的学生在学习汉语过程中的中介语现象而设计制作的。 2、中介语现象存在于母语非汉语的学生在学习汉语过程中的书面语料及口语语料中，由于口语语料的收集、分析和标注都较为困难，因此在建库的第一阶段只考虑收录书面语料，这有利于语料库的快速建设与使用。 3、语料标注的加工标准使用中科院计算所汉语词性标记集V3.0。二、语料收集与加工

双语平行语料库对齐技术述评

双语平行语料库对齐技术述评对齐的双语语料库在机器翻译、词义消歧和双语词典编撰等领域都非常有用。语料对齐的单位由大到小，有篇章、段落、句子、短语、词等不同的层次。粒度越小，提供的语言信息就越多，应用的价值也就越大。然而平行语料库的自动对齐并非是一件容易的事情。由于语料大都来自人工翻译，句子之间并不都是一对一的翻译模式，还有一对多、多对多的翻译模式。这种复杂性加大了对齐的难度，特别是对更细粒度级别的对齐。由于语言之间存在着差异，找到固定的对应翻译很难，再加上文本预处理工具难以保证处理效果，以及一些电子文本的噪声纷繁复杂，这都增加了对齐的难度。而对于英汉两种差别很大的语言来说，目前的语料库对齐算法并不一定完全适用于汉英语料库的对齐。本文首先回顾了当前国外平行语料库的对齐技术，然后分析了国内在对齐中所使用的技术，旨在为本研究所今后构建小型汉英平行语料库提供一个技术支持。 1 目前平行语料库对齐技术的现状 1.1 句子级对齐技术在各级对齐研究中，其中最为重要且较为成熟的自动对齐技术是句子一级的对齐。句子级对齐的方法主要有三种：①基于长度的方法(length-based)(Brown et al,1991; Gale & Church, 1991a)；②基于词汇的方法(lexical-based)(Kay & Roscheisen, 1993)；③混合法(combination)(Tan & Nagao, 1995; Wu,1994)。基于长度的方法最早是由Brown和Gale提出，虽然他们的算法都是由源文本中句子长度和译文本中的句子长度有很大的正相关这一观察得出，但其侧重点却不同。Brown的算法以词为单位计算句子的长度，而Gale和Church则是以字符为单位计算句子的长度。他们分别用各自的算法对加拿大议会会议所录英法双语语料库进行了对齐实验，准确率达96~97%。然而该方法在处理复杂句子的对齐(如2∶1或2∶2的句子对齐,或非直译和省略的句子)以及不同语系的句子对齐时，准确率却并不高，而且此算法一旦出错，便不可能自动纠正。基于词汇的方法是由Kay和Rosheisen提出的。他们认为最佳的句子对是那些使系统词汇对齐数量最大化的句子。基于词汇的算法虽然可以提高对齐的准确性，但却费时；而且目前还没有充分证明这一方法适合于大型语料库。Chen(1993)对Kay 和 Rosheisen的算法进行了改进，这一算法运用词汇信息构建了一对一词汇统计翻译模型,用这样的翻译模型找到语料库生成的最大可能性。他用此算法对旧的Hansard语料库进行双语对齐。与Brown和Gale的对齐算法相比，这一算法不仅正确率高，而且在处理大量省略的对齐中能轻易确定省略的位置，且鲁棒性(robust)较好。基于词汇方法的另一种做法是利用同源词(cognate)(Church,1993)。此方法在处理英法和英德语言中的诸如名字、日期、数字、术语等可辨认单位出现比率高的情况下效果更好。如前所述，基于词汇的方法相对可靠精确，但计算起来相当复杂且速度较慢；而基于长度的算法模型虽然简单，独立于语言知识和外部资源，但鲁棒性不好，极易造成错误蔓延。由于每种方法都有自己的优缺点，人们试图将各种方法混合起来找到问题的解决途径(Tan & Nagao, 1995; Wu,1994; ;Collier,1998; Vronis，1999；Melamed，2000)。试验结果表明，混合的方法优于单纯使用其中的任何一种方法。

《双语平行语料库在翻译教学上的用途》评述

攻读博士、硕士学位研究生试卷（作业）封面（2016 至2017 学年度第一学期）学号姓名题目《双语平行语料库在翻译教学上的用途》评述课程名称语料库语言学专业英语语言文学入学年月2016年9月培养方式全日制□非全日制

题目:双语平行语料库在翻译教学上的用途。作者:王克非，曾任北京外国语大学外国语言研究所副所长、中国外语教育研究中心常务副主任，现任《外语教学与研究》杂志主编，博士生导师，研究方向为语言学和翻译研究。研究问题:本文以北京外国语大学建成的通用汉英平行语料库为例，探讨如何在翻译教学中运用双语平行语料库、如何处理翻译教学与双语平行语料库的关系、双语平行语料库对译者有何帮助、以及译者如何在翻译教学中运用双语对译检索（词语的对译检索、结构的对译检索和语句语篇的对译检索）时找到合适的对译，提高他们的英语语感，掌握正确的翻译方法。研究方法: 本文根据北京外国语大学中国外语教育研究中心建成的通用汉英平行语料库（3000万字词）为例，探讨它在翻译教学上的用途。首先，本文作者采用了随机抽取的方法对克服（overcome）和找（find）进行了检索，找到了他们不同的翻译方法和用法；然后作者通过举例说明汉语中把字句结构的三种形式如何在英语中翻译；最后作者从台湾大学高建明所建的英汉平行语料库中，以“他心情很低落”为例,从语料库中找到相近的中英文短句、句子,找到了表示“心情低落”的各种不同词汇和方法。结论：在翻译的教学和实践中，双语平行语料库和检索工具的运用不仅给译者提供了方便，而且使他们掌握了一种科学、多样的翻译方法。同时也能激发学生的兴趣，让学生在不同版本的对译中互相学习。这表明双语平行语料库是翻译教学中的一种重要的学习资源，应当引起

语料库翻译学研究内容

研讨五语料库翻译学 1. 什么是语料库翻译学？ 2. 语料库翻译学的理论基础？ 3. 语料库翻译学的研究内容？ 4. 什么是翻译共性？根据研究课题的来源，语料库翻译学的研究领域分为三类。第一类源自传统译学研究，包括基于语料库的文学翻译、翻译史、翻译教学、翻译实践、机器翻译和口译等领域的研究。基于语料库的文学翻译研究以文学翻译作品的文本分析为基础，研究文学翻译理论与实践的相关课题。这些课题具体为: 1) 意象和人物形象的再现与变形，2) 文学风格的再现与重构，3) 文学翻译的创造性，4) 译者风格，5) 文学作品空白和未定性的翻译，6) 文化负载词的翻译，7) 误译和漏译研究。基于语料库的翻译史研究利用历时性平行语料库对名家译作进行文本分析，揭示翻译家在翻译策略应用、翻译风格和翻译语言等方面所表现出的个性特征及其所遵循的翻译规范。目前，翻译史研究大多将翻译家的观点或言论视为客观现实，满足于翻译事实的罗列，对于翻译规范和历史语境关注不够。事实上，翻译家的所做与所言往往不一致，翻译家所言并不能反映其翻译作品的特征。此外，翻译是一种特殊的社会文化行为，受特定规范的制约。这些规范因时代或文化的差异而不同。利用语料库分析翻译文本的具体特征，归纳不同历史时期的翻译规范，可以阐明翻译家的所作所为，还原历史的真实面貌。另外，该领域的研究还通过提取语料库的篇头信息，对于具体某一历史时期的翻译活动进行客观描述。这些信息包括出版商、出版时间、作品主题、译者姓名和性别等内容。应当指出，语料库翻译学与翻译史均强调对研究对象进行客观描写，重视还原语境方法( contextualization) 的应用。这些共性为语料库在翻译史研究中的应用提供了作为空间。以上研究均属语料库翻译学理论层面的研究，而基于语料库的翻译教学、翻译实践和机器翻译研究都是应用层面的研究。前者侧重于探讨语料库在翻译评估、翻译教材编写和翻译教学模式中的应用，后者主要关注双语词汇和句式之间的对应关系、翻译策略和方法的应用等问题。基于语料库的机器翻译研究是指利用语料库的核心技术，建设具有海量信息的知识库，以满足机助翻译或自动翻译的需求。基于语料库的口译研究侧重于分析口译语料词汇、句法和语篇等层面的特征，研究口译语言特征、口译规范、口译策略和方法等。该领域的研究是综合性研究，既有理论层面的探讨，也有实践层面的分析。第二类研究领域源自描写性译学研究，涵盖翻译共性、翻译规范和批评译学等领域的研究。翻译共性是指由于翻译过程而形成的翻译文本所具有的区别于原创文本的特征，与源语和目的语之间差异无关，具体表现为显化、隐化、简化和范化等。翻译规范是“译者在具体时间或社会文化环境中所做出的规律性或习惯性选择”。“翻译规范是关于翻译作品和翻译过程正确性的规范，体现了具体某一社会或历史时期关于翻译的价值观和行为原则”。翻译规

一带一路视角下中英语料库建设项目报告

一带一路视角下的中英语料库建设项目报告随着“一带一路”战略的提出，中外文化交流日益频繁，这种现象对翻译行业提出了更高的要求。因此，采取有效措施培养优秀翻译人才、提高译员翻译质量刻不容缓。基于此，本项目决定建设一带一路视角下中英语料库以提高翻译质量。本文将着重报告本项目中英语料库建设的背景目的、过程及其作用。一、一带一路视角下的中英语料库建设背景及目的 “一带一路”战略的提出为本项目的开展提供了时代背景。“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称。从古至今，“一带一路”一直是连接东西方文化的重要纽带，尤其是在新的历史时期，“一带一路”战略促进了区域间的人际交往和文化交流。全国政协委员、中国翻译协会常务副会长黄友义在接受专访时曾表示，经济和文化的走出去导致了中译外工作量的增加，但目前中译外人才十分紧缺。而作为覆盖范围及应用领域日益广泛的语料库在提高翻译教学质量、培养优秀译员及促进计算机辅助翻译中发挥着日益重要的作用。目前国内外都已有大量已建成的语料库，如BNC英国国家语料库、美国当代英语语料库、中国学习者英语语料库及中国英语学习者口语语料库等，但针对于“一带一路”战略的语料库较为稀少。本项目的开展旨在抓住“一带一路”战略所带来的发展契机，建设“一带一路视角下的中英语料库”，为“一带一路”战略中相关政策的英译提供便利，从而加强中外交流。青岛农业大学翻译中心的成立及其已承接的翻译活动为本项目的开展提供了专业背景。近年来，翻译中心承接了大量专利翻译、影视字幕翻译等翻译活动，在此过程中，翻译人员遇到了一些问题：如对专利特有名词和英美俗语不够熟悉等。本项目的旨在将翻译学理论、语言学理论及现代计算机技术相结合，通过对大量真实语言数据的研究，将众多科技名词、英语俗语和习语及与英美文化相关的词语收录进语料库当中，将中英双语语料库作为教学手段，方便译者查询、理解及使用相关名词，切实提高其翻译质量。另外，该项目的开展由具有多年翻译经验和教学经验的纪卫宁老师亲自指导，这为本项目的顺利开展提供了重要保障。二、一带一路视角下中英语料库建设过程 (1)语料库建设前期准备

旅游汉英双语平行语料库的建设与应用

第33卷第10期湖南科技学院学报 V ol.33 No.10 2012年10月 Journal of Hunan University of Science and Engineering Oct.2012 旅游汉英双语平行语料库的建设与应用肖庚生陈欣（南华大学外国语学院，湖南衡阳 421001）摘要：文章在综述现有旅游语料库的基础上，介绍了自建的衡阳旅游汉英平行语料库的建库步骤，即语料的取样、英译、标注与对齐，并阐述了该库在旅游文本语言特征、旅游翻译、旅游英语及旅游翻译教学研究中的应用价值。该库的建设与应用既能充分满足研究需要，亦能促进导游、翻译等英语人才的培养，进而推动当地旅游产业的发展及跨文化传播。关键词：旅游语料库；双语平行语料库；旅游英语中图分类号：H030文献标识码：A 文章编号：1673-2219（2012）10-0163-03 近30年来，语料库及语料库语言学从无到有、蓬勃发展。基于语料库的语言学及应用语言学研究应运而生，语料库这一研究工具与方法业已广泛应用于词汇、句法、语义、语言对比、词典编撰、二语习得、翻译等领域的研究之中，并取得了累累硕果。[1]为了研究或应用的需要，国内外先后创建了跨学科、多语言、内容迥异、库容不一的众多语料库。近年来，双语平行语料库由于其独特的优势备受关注，其建设与应用正如火如荼地进行。不过，迄今为止，国内外高校与研究机构所研制的平行语料库主要是通用型的双语平行语料库以及文学翻译类型的平行语料库，以某一专门用途为导向的平行语料库仍较为鲜见。此外，基于平行语料库的相关研究主要侧重于对个别语言或翻译现象的探讨。鉴于这一研究现状，我们拟以课题研究为契机，建设衡阳旅游汉英双语平行语料库，在此基础上，力图摸索其在汉语与英语的旅游文本语言特征、旅游汉英翻译、旅游英语与旅游翻译教学研究中的应用。一双语语料库与旅游语料库综述双语语料库最早创建于上世纪90年代中后期，迄今为收稿日期：2012－08－26 基金项目：衡阳市社科基金项目“顺应论视阈下衡阳旅游汉英双语平行语料库的建设与应用研究”（项目编号2011C011）；全国教育科学规划课题“基于语料库的大学英语教学平台建设与研究”（项目编号GPA105029）阶段性成果。作者简介：肖庚生（1980－），男，湖南衡阳人，讲师，应用语言学博士生，主要研究方向为语料库语言学。陈欣（1983－），女，湖南郴州人，讲师，语言学硕士，主要研究方向为翻译理论与实践。止国内外业已建立多种类型的双语平行语料库。早在1995年，曼彻斯特大学研制了世界上首个翻译语料库，主要收集从各国语言翻译成为英文的文本，如今库容已达千万词。但是它并非严格意义上的双语平行语料库，因为它并没有实现双语对齐，只能称其为对比语料库。目前国际上比较知名的平行语料库有挪威的“英语-挪威语平行语料库”、英国的“德语-英语文学文本平行语料库”等等。而由北京外国语大学中国外语教育研究中心于2004年启动创建的“新型双语对应语料库”（含汉英、汉日两个双语平行语料库），库容为3000万词次。其中，汉英双语平行语料库的文本类型主要涵盖人文类、社科类和科技类。该语料库的建设得到了国家社科基金重大规划课题的资助，目前正为1亿词次的超大库容做进一步的扩容努力。此外，国内比较知名的双语平行语料库还包括：李德俊以汉英词典研编为主要目的，主持建设2000万词次的英汉平行语料库；卫乃兴以研究探讨英汉对等表达为目的，主持建设900万词次的英汉平行语料库；哈尔滨工业大学所创建的库容为40万对的英汉双语平行语料库；绍兴文理学院创建的中国古典文学英译双语平行语料库等等。上述双语平行语料库多数以文学文本为主，抑或以收集百科文本（含文学与非文学作品）为特色，而针对某一特定文类或某一地域特色而专门建构的专门用途双语平行语料库仍较为鲜见。近年来，随着交通与通讯技术的日新月异，世界各地人们之间的科技、文化、商务交流、合作与往来日益频繁。更为重要的是，各国人们纷纷走出国门，畅游世界，体验世界各地的异域风情，许多国家的旅游产业获得了飞速发展。为更好地发展旅游产业、传播旅游资讯、吸引外国游客，同时亦为了满足语言学及应用语言学研究需要，旅游专门语料库应运而生。 163

英汉双语平行语料库人工对齐方法说明

英汉双语平行语料库人工对齐方法说明 1．概述半自动英汉双语平行语料库的对齐分为两个过程：第一个过程是先将两种语言的文本分成句子，每个句子占一行。句子定义为：以句号、问号、感叹号、分号结尾的一串字符，或以句号+引号、问号+引号、感叹号+引号等结尾的一串字符。“行”的概念是一串以回车换行符结尾的字符。这个过程可以采用任何一种具有“查找”和“替换”功能的文字处理软件来完成，也可以编程由计算机自动完成。第二个过程是在第一个过程产生的结果的基础上以手工方式将两种语言的文本在句子水平上对齐。这一过程要采用UltraEdit软件来辅助完成。在句子水平上对齐两种语言的文本，除了要注意以上对“句子”和“行”的定义以外，还应遵循一个重要的原则，即：如果两种语言的文本在句子的切分上有差异，应尽量保持原文句子不动，调整译文以适应原文。为了能从双语平行语料库中获取更多的信息，还需要在对齐过程中插入少量的标记，例如：分译标记、合译标记、混译标记和移动标记等。此外，为了便于以后的检索，对于过长的句子还要在适当的地方将长句截短成两个或更多的小句。 2．人工对齐的方法 2.1打开文件先用UltraEdit软件将两个已经分为句子的文本文件打开，在该软件的工具栏的“窗口”下拉菜单中点“水平平铺”选项，使两个打开的文本同时显示在屏幕上。为了操作方便，一般把原文放在上半屏，把译文放在下半屏。（见图1） 2.2 上下移动文本为了能够对齐两种语言的文本，在操作过程中需要不断地上下移动文本。移动文本可以用鼠标移动窗口右边的滑块来完成。也可以将光标放在某一行，然后用鼠标的中间滚轮来上下移动。 2.3 同步移动上下两个窗口中的文本在“窗口”下拉菜单中选“同步”选项，就可以同步移动上下两个窗口中文本，极大地方便人工对齐的操作。

语料库与语料库建设

语料库与语料库建设语料库和语料库建设一、什么叫语料库 1、定义语料库，通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的语言学原则，运用随机抽样方法，收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。口前，语言学家对于语料库的定义不尽相同，如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集，旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准，为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成，并通过计算机储存和处理，用于语言学研究的文本库”。我们看到，以上关于语料库的儿种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设讣是有明确的设计标准的，赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档，语料库的建设有特定的研究LI 的和具体用途，因此在语料抽样范围和文类覆盖方面都力求取得平衡，在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档U标在于搜集任何可获得的语言材料或所限定的数种文类语料，其语言材料之间的关系较为松散。语料库具有以下特征：1、语料库的设讣与建设有系统的语言学理论指导，语料库的开发具有明确而乂具体的U的；如，布朗语料库用于对20世纪60年代的美国英语的研究，LOB是与布朗语料库对齐的同时期的英国英语语料库，可用以对英国英语进行

研究，也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。 2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料，不是随意的语言材料的堆积，更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性，山此保证基于语料库的语言研究的科学性、客观性。 3、语料文本是连续的文本或话语片断，而不是孤立的句子或词汇，可以借以获得语法关系、用法、词语搭配以及语篇信息。 4、语料库以当代先进的计算机技术为技术手段，语料库语料通过电子文本形式储存并且是通过讣算机处理的，具有资源优势和处理速度优势。5＞基于语料库的研究以量化研究为基石，以概率统汁为手段，以数据驱动为基本理念。6、语料库既是一种研究方法，乂代表着一种新的研究思维。二、语料库产生的背景及发展历史对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪 50年代中期，在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛圉无疑促进了对语料的重视。1939年夸克(R. Quirk)等人着手进行的“英语用法调查” (Survey of English Usage)通过系统的调查建立了笫一个现代英语语料库，在此基础上完成的《现代英语语法》(A Grammar of Contemporary English )和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写，在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。 20世纪六十年代后，语言学研究主流从经验主义转向理性主义，乔姆斯基的语言能力说被广泛接受，转换生成语法学派批评语料库研究方法，认为，1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象，语料库收集的只是人们的语言运用，语言运用会因超语言因素的影响而发生变化，它并

商务英语语料库的建设及应用初探

商务英语语料库的建设及应用初探【摘要】语料库语言学作为一门新兴的语言学分支，其影响已遍及语言学研究的各领域。将语料库的方法应用于商务英语词汇教学中，发挥其语料真实丰富、计算机程序强大的重新组织语言数据的能力，既能提高学生商务词汇学习的效率和积极性，也能提高商务英语教学质量。本文从商务英语语料库的建设及其应用价值入手，以期语料库语言学为商务英语教学带来更多成果。【关键词】商务英语语料库地方课程商务英语（Business English）是指商务场景下所应用到的英语，作为特殊目的英语（English for Specific Purpose）具有很强的专业性。商务英语跟普通英语（English for General Purpose）最大区别之一就是专业词汇的大量使用，因此，词汇教学在商务英语教学中的作用不容忽视。语料库（Corpus）是语言素材的集合体，能快速准确地提供诸如构词、搭配、语境等多方面的语料及信息。在外语学习中，语料库能够缩小课堂语言与真实语言的差距、培养学习者的语感和学习能力及研究能力，所以用语料库的方法来学习商务英语词汇既可以刺激学生的学习积极性，也可以更加准确、更加有效地掌握商务英语中专业特点较强的词汇。 1 语料库及其发展语料库可以概述为运用随机抽样的方法，收集自然出现的连续的语言，运用文本或话语片断，并按照一定的语言学原则建成的具有一定容量的语料体系。语料库的发展大致经历了三个阶段：第一代语料库以20世纪60年代的Brown Corpus以及LOB Corpus为代表，由于是语料库发展的最初时期，所以规模都比较小，这个时期的语料库只能用来考查常用语言现象的频率，无法展现语言的全貌。第二阶段以20世纪80年代的Birmingham Collection of English Language Text以及Longman/Lancaster English为代表，这一时期的语料库建设以电子语料库的兴起为主要特征，语料库的容量不断扩大，种类不断增多。第三阶段从20世纪90年代至今，是语料库建设、研究与应用的迅猛发展阶段，功能更为强大的计算机系统软件的开发与应用致使第二代超大型计算机语料库开始出现，语料库进入了发展的黄金年代。 2 商务英语词汇及其特征商务英语源于普通英语，并基于普通英语的基本语法、句法结构和词汇语，有普通英语的一些语言学特征。与此同时，作为应用在商务场合的英语，商务英语又是英语语言知识和商务专业知识的综合，因而又具有独有的专业特征。 2.1 在文体风格上，商务英语词汇属于庄重文体（frozen style）。庄重文体，即各体英语中正式程度最高的一种。这种“正式”一是为了在表达上追求准确、专业、标准化的效果，二是为了在思维上追求清晰和条理。许多商务词汇都表现出这一特性。 2.2 商务英语大量使用表意清楚的专业词汇和专业术语。专业词汇和专业术语是在专业领域用以代表部分专业知识的词汇，商务英语是英语在商务场合中的应用，内容的高度专业化势必导致专业词汇的大量使用。 2.3 商务英语具有古体特点，这种古体特点的一个主要标志是古体词语的使用。古体词是一种具有鲜明文体色彩的词汇成分，尽管古体词在现代英语口语和一般书面语中极少使用，但在商务英语文本中，古体词却大量出现，充分体现出其庄重严肃的文体风格。

语料库建设及使用专题研修班

语料库建设及使用专题研修班时间：2014年11月8-9日地点：上海海事大学2C305（计算机实验室）主讲人：北京外国语大学中国外语教育中心梁茂成李文中许家金一、基本概念 1.为什么欧洲对语料库语言学会有如此大的兴趣呢？在美国占统治地位的 Chomsky语言学的研究焦点是句法，它感兴趣的是哪些句子是可能的（What is possible?），追求的是语言理论的“解释力”，例如Colorless green ideas sleep furiously、The rat the cat the dog chased ate died都是可能的，但语料库语言学对此却没有兴趣。因为实际上没有人会这样说。语料库语言学感兴趣的是哪些语言现象在实际使用上是很有可能的（What is probable?），这和统计学中的概率有关，不是可否的问题，而是多少的问题，也就是语言的使用问题。 2.一个小型文本集并不是真正意义上的语料库。真正意义上的语料库是一个按照一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集。可以说，一个语料库由若干个电子文本构成，而这些电子文本作为一个整体可以代表某语言或者某语言的某种变体或文类。语料库语言学以大量精心采集而来的真实文本（authentic texts）为研究素材，主要通过概率统计的方法得出结论，因此语料库语言学从本质上讲是实证性的（empirical）。 3.文本：文本可以保存生（raw）语料，即未经任何标注的语料，称为生文本（raw text）。文本中也可以保存经过人工或自动标注的语料，这种文本称为标注文本（annotated text）。文本中的标注信息可以标示语料的来源、文本的内部结构、文本中的语言单位等多种语言信息和非语言信息。 4.经人工或自动处理后，原来的生文本获得了“增值”（Leech 1991），文本中所包

中文平行语料库

中文平行语料库机器翻译需要的平行语料库一库难求，笔者列举了一些免费的中文数据集，可用于中文和其他语言之间的机器翻译。 1.汉英10000平行语料库https://www.doczj.com/doc/d54374693.html,/data/14779 10000句对规模的英汉双语句对齐语料库，已经做了分词和句子对齐。 2.汉英22万句对法律类句子对齐语料https://www.doczj.com/doc/d54374693.html,/data/14261 22万句对规模的英汉法律类双语句对齐语料。缺点是没有做分词和语言对的对齐，还得做预处理 3.汉英双语句对齐语料库（1500句对）https://www.doczj.com/doc/d54374693.html,/data/13290 1500句对规模的英汉双语句对齐语料库。缺点是没有做分词和语言对的对齐，还得做预处理 4.最大开放字幕库OpenSubtitles的多语言平行语料数据 https://www.doczj.com/doc/d54374693.html,/data/14469 https://www.doczj.com/doc/d54374693.html,是全球最大的开放字幕库，提供了中文、英文、日文、德文、法文等30多种语言的上亿条电影和电视剧字幕。本数据集是根据该网站数据制作的多语言字幕平行语料库，包含30种语言中任意两种语言之间的字幕互译语料。是用于机器翻译研究的绝佳素材。数据量也足够大，压缩后还有2.38G 5.PHP手册的多语言平行语料库 https://www.doczj.com/doc/d54374693.html,/data/15045 将PHP手册内容制作了一个包含21国语言的平行语料库。语料库已经被分词，每个语言对都被对齐。数据量压缩后有278M 6.KDE手册的多语言平行语料库https://www.doczj.com/doc/d54374693.html,/data/15025 将KDE手册内容制作成一个包含24国语言的平行语料库。语料库已经被分词，每个语言对都被对齐。数据量压缩后有88M

基于Web的双语平行语料库自动获取系统

基于Web的双语平行语料库自动获取系统1 叶莎妮吕雅娟刘群中国科学院计算技术研究所智能信息重点实验室 {yeshani,lvyajuan,liuqun,}https://www.doczj.com/doc/d54374693.html, 摘要：利用互联网上存在的海量多语言文本资源，通过网页的内容分析和链接分析，实现了一个双语语料挖掘的自动获取系统。首先，介绍了系统框架和主要模块；其次，详细描述了各个模块的实现与创新技术；最后，给出下一步工作的展望。本系统为获取真实的中英平行语料库提供了有效的途经。关键词：双语语料;网页挖掘;平行网页 A Bilingual Corpus Automatic Acquisition System Based on Web Abstract:Implemented a bilingual corpus automatic acquisition system by taking advantage of an abundance of multilingual corpus in the World Wide Web,and analyzing their content and links. First,introduced system framework and main modules;second,described every module and technology innovations in detail.A prospect for the next step was given at last.This system provided an effective way for achieving Chinese-English parallel corpus. Keywords:Bilingual Text;Parallel Corpora;Web Mining; 1.引言语料库的建设是统计学习方法的重要基础，近年来，语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。特别是双语语料库（Bilingual Corpus），已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。一方面，双语语料库的出现直接推动了机器翻译新技术的发展，像平行语料库为统计机器翻译的模型构建提供了必不可少的训练数据（e.g.,Brown et al.1990;Melamed2000;Och and Ney2002），基于统计（Statistic-Based）和基于实例（Example-Based）等基于语料库的翻译方法为机器翻译研究提供了新的思路，有效改善了翻译质量，在机器翻译研究领域掀起了新的高潮。另一方面，双语语料库又是获取翻译知识的重要来源，从中可以挖掘学习各种细粒度的翻译知识，如翻译词典（e.g.,Gale and Church1991;Melamed1997）和翻译模板，从而改进传统的机器翻译技术。此外，双语语料库也是跨语言信息检索（e.g.,Davis and Dunning1995;Jian-Yun Nie, TREC8;），翻译词典编撰、双语术语自动提取以及多语言对比研究等的重要基础资源。双语平行语料库建设与获取存在着很大的困难，各国都投入了大量的人力、物力和财力，但是双语平行语料库的来源主要集中在政府报告、新闻法律等特定领域，不适合真实文本应用。同时，互联网上的大规模双语文本并且具有很好的时效性和覆盖性，这为双语平行语料库的获取提供了潜在的解决途径。研究基于Web的大规模双语平行语料库获取技术对于解决双语语料库获取难题，推动相关技术发展和实用化具有重要的意义。本文的目标就是建设一个语料库自动获取系统。收稿日期：2007-06-30返稿日期：2007-XX-XX基金项目：国家自然科学基金（60603095），国家自然科学基金（60573188）作者简介：叶莎妮，硕士研究生，主要研究方向为自然语言处理技术（yeshani@https://www.doczj.com/doc/d54374693.html,）；吕雅娟，工学博士，主要研究方向为计算语言学与机器翻译；刘群，工学博士，主要研究方向为计算语言学与机器翻译