基于实例的机器翻译

  • 格式:pdf
  • 大小:82.41 KB
  • 文档页数:6

下载文档原格式

  / 6
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于实例的机器翻译

——方法和问题

王厚峰(北京大学)

关键字:基于实例的机器翻译,双语对齐,相似度计算,模板获取

摘要:本文介绍了基于实例的机器翻译方法,并对基于实例的机器翻译的若干问题,如双语实例的加工对齐、实例的相似度计算和实例模板提取等问题作了说明。

Method and Issues of Example-Based Machine Translation

Wang Houfeng

Keywords: EBMT, Bilingual Alignment, Similarity Measure, Template Acquisition.

Abstract: The basic frame of Example based machine translation is concerned in this paper. Some key issues, such as bilingual alignment, similarity measure between input sentence and example, and template acquisition, are introduced.

引言

早期的机器翻译本质上都是基于语言规则或语言知识RBMT(Rule Based Machine Translation)的。如,词法规则,句法分析规则,转换规则,目标语生成规则等。这些规则都是根据语言专家的经验总结归纳出来的。直译法、转换生成方法、中间语言方法等都可以归为这一类。在上一世纪80年代中后期,这种纯粹基于语言知识的状况渐渐被基于语料库的机器翻译CBMT( Corpus-Based Machine Translation) 方法打破。

语料库方法中最有影响的是IBM公司的P.Brown 提出的基于统计的机器翻译SBMT (Statistics Based Machine Translation)。受语音处理的启发,P.Brown在1988年第二届TMI会议上提出了用隐马尔科夫模型HMM(Hidden Markov Model)进行机器翻译的想法,这一想法震惊了当时的与会者,并直接导致了语料库方法在自然语言处理上的迅速发展。

另一个影响更为广泛的机器翻译方法是日本的长尾真(Makoto Nagao)1981年提出的基于实例的机器翻译EBMT ( Example based Machine Translation),并于1984年发表[6]。基本思想是在已经收集的双语实例库中找出与待翻译部分最相似的翻译实例(通常是句子),再对实例的译文通过串替换,串删除以及串增加等一系列变形操作,实现翻译。

基于实例的翻译方法受到广泛关注是在进入90年代之后。其中,Sato[7,8]等人起到了很好的推动作用。

EBMT的基本思想

长尾真认为,人们在翻译简单句子时并没有做语言的深层分析,而是先将句子分解为几个片断(短语),然后,借助于已有片断的翻译,将分解的每个片断翻译成目标短语,最后在将这些短语组合起来形成一个长的句子。

基于上述思想,长尾真提出了基于实例的机器翻译EBMT的思想。对应地,EBMT也分为三大部分:将实例划分为片断,确定各个片断的翻译以及重组片断。

例2.1. (a) 她买了一本计算语言学入门书

假定计算机内已经存储了如下的实例对:

(b) 她买了一件时髦的夹克衫.

She bought a sharp jacket.

(c) 他正在读一本计算语言学入门书

a book on introduction to Computational Linguistics.

reading

He

has

been

例2.1(a) 可以通过 (b)中“他买了”对应的 She bought 和 (c) 中“一本计算语言学入门书”对应的 a book on introduction to Computational Linguistics 重组产生:She bought a book on introduction to Computational Linguistics.

一般来说,EBMT主要有如下部分构成:

图2.1 EBMT基本结构图

在EBMT 中,对齐的双语语料库是最重要的知识库之一。

实例的粒度越大,当翻译用到时,其效果则越理想;但另一方面,粒度越大,能够直接使用的可能性又越小。因此,在实例的粒度选择上,应该考虑到一定程度的平衡。

一般认为,实例的粒度定位在句子一级比较合适;也有大量的实验表明,其粒度要么定位在子句一级,要么以结构形式表示,这样才能使实例的引用达到更好的效果。

由上图可知,语义词典也是不可或缺的重要知识源。根据Somer[9]引入的长尾真的例子:例2.2 (a) He eats potatoes

是待翻译的句子,同时,假定实例库中有如下的实例:

(b) A man eats vegetables

Hito-wa yasai-o taberu

(c)Acid eats Metal.

San-wa kinzoku-O ocasu.

这两个实例从形式上看都可以和 (a)匹配,但是结果只能选择(b),而不是 (c)。这一选择有赖于语义词典。通过语义词典可以判断He 能取代“ A man ”,不能取代“Acid”,同样,“potato”和“vegetable”间的语义比“potato”与“metal”间的语义更相似。

在确定了相似的句子之后,紧接着的调整处理必须借助于双语词典。如 He—Kare替换man—Hito以及 potato——poteto替换 vegetable—yasai 都需要双语词典的支撑。

翻译实例的重组和调整一般包括替换、插入和删除等操作,上面的两个例子主要涉及到替换操作。最简单的插入操作如例2.3,反过来则为删除操作:

例2.3 (a) 她游览过北京的许多景点。

(b) 她随旅游团游览过北京的许多景点。

在EBMT 中,最为重要的操作是相似实例的检索,主要是相似性的量度标准。后面将详细讨论。