当前位置:文档之家› 常用统计翻译模型在口语汉英翻译中的比较研究

常用统计翻译模型在口语汉英翻译中的比较研究

常用统计翻译模型在口语汉英翻译中的比较研究
常用统计翻译模型在口语汉英翻译中的比较研究

收稿日期:2006-02-11;修返日期:2006-06-30 基金项目:国家“863”计划资助项目(2004AA117010-08)

作者简介:李俊(1979-),男,湖北襄樊人,硕士研究生,主要研究方向为统计机器翻译(junli@mtla https://www.doczj.com/doc/d72661351.html,);薛永增(1977-),男,博士研究生,主要研究方向为机器翻译;赵铁军(1962-),男,博导,主要研究方向为自然语言处理、人工智能等.

常用统计翻译模型在口语汉英翻译中的比较研究

*

李 俊,薛永增,赵铁军

(哈尔滨工业大学计算机科学与技术学院语音语言教育部微软重点实验室,黑龙江哈尔滨150001)

摘 要:通过汉语到英语的翻译实验以及对结果译文的分析,对基于词的模型、基于短语的模型和基于句法的模型的翻译性能进行了比较。结果表明基于短语的模型性能优于其他两个模型,但是使用的参数较多;基于句法的模型虽然翻译性能不理想,但可以用较少的参数表达更丰富的信息,值得深入研究。关键词:自然语言处理;统计机器翻译;翻译模型;句法分析器

中图分类号:TP 391.2 文献标志码: A 文章编号:1001-3695(2007)06-0069-03

Com pa rat ive St udy of St at istical Tra nslat ion Models on

Chinese-English Speech T ran slat ion

LI J un,XU E Yong-z eng,ZHAO Tie-jun

(M OE-MS Key Laboratory of Natural L anguage Proces sing &Speech,S chool of C omputer Science &Technology,H ar bin Institute of Technology,H ar bin H eilongjiang 150001,China)

Abst ract :According t o the linguis tics inform a tion,t here are prim ary w ord-bas d,phras ed-ba sed and sy nta x-ba sed tra ns la tion m odels:B y analyz ing and com pa ring the tra ns la tion res ult s,it ’s found that t he perform ance of the phras e-ba sed tra ns la tion m odel is t he best.The sy nt ax -ba sed m odel is t he w orst,but it us es less para m et ers t han t he ot her t wo.It encodes rich inform a-t ion w it h a few param eters,so it ’s deserved furt her research.

Key wo rds:nat ura l la nguag e processing ;st at is tica l m achine trans lat ion;tra ns la tion m odel;parser 机器翻译的目标就是将给定的一个源语言文本翻译成目标语言文本。对汉英翻译来说,输入一个汉语句子c(c m

1,m 为

句子长度),可能会有很多英语译文e(e n

1,n 为句子长度),统计

机器翻译的任务是在所有可能的译文中,找到最佳译文。根据B ayes 公式可得到

e *=arg m ax e

P(e |c)=ar g max e

P(c |e)P(e)

(1)

式(1)包含了两方面的问题,即建模和解码。其中,P(e)是语言模型(La ngua ge Model,LM);P (c |e)表示翻译模型(Translat ion Model,TM);这里的arg m a x 表示解码问题。

早在1949年,Wea ver 就提出利用统计方法研究机器翻译问题。其基本思想是把外语看成是对本地语言的一种编码,而翻译过程就是对外语文章进行解码,用本地语言表达同样的意思。20世纪90年代初,IB M T.J.Wat son 研究中心的Brown 等人开创性地提出了词对词的统计翻译模型,并以此为基础构建了C andide 系统

[1]

。此后对IBM 模型比较重要的改进包括在

IB M 模型2的基础上提出基于隐马尔可夫模型的对齐模型(HMM-ba sed Alignm ent M odel),以及基于IBM 模型4和基于HM M 词对齐模型的对数线性模型。在基于词的统计翻译模型基础上,又相继提出了基于短语和基于句法的统计翻译模型。基于短语的统计翻译模型是目前研究的一个热点,主要包括基于浅层短语结构的翻译模型、对齐模板(Alignm ent Tem pla te)模型、Koehn 的短语翻译模型、基于双语语块(Co-Chunk)的翻译模型等。基于句法的统计翻译模型由于引入了层次结构信

息,有望处理长距离依赖和调序问题,正逐渐成为新的研究热点。这类模型大致可以分为语言学驱动(Ling uist ically-m ot iv a-ted)的模型和非语言学驱动的模型。前者依赖于句法分析树的指导,如Yam a da 的树—串统计翻译模型、概率树替换文法(Probabilistic Tree S ubst it ution Gra m m ar)模型以及多文本文法模型(Mult i-Text Gra m ar,M TG);后者是无指导的,在翻译过程中建立层次结构,主要包括反向转换文法(Inversion Transduc-tion Gram m a r,ITG)模型、中心词转录机(Hea d Transducer)模型、层次化短语翻译模型(Hiera rchical Phra se-based Model)等。此外还有一类模型,利用句法信息来抽取非层次化的短语翻译等价对,可以看做是介于短语和句法翻译模型之间的一类统计翻译模型。

1 翻译模型概述

1.1 基于词的翻译模型

IBM 翻译模型是目前统计翻译模型研究的基础,包括模型1~5。其中模型1、2是基于对齐的模型;模型3~5是基于繁殖数的模型。

模型1、2是假设英语句子中的每个单词都与汉语句子中的一个或多个词存在着对应关系,具体描述为[2,3]

P(c |e)=

∑a ∈Λ(e,c )

P(c,a |e)(2)

其中,Λ(e,c)代表汉语句子c =c m

1=c 1,c 2,…,c m 与英语句子

第24卷第6期2007年6月计算机应用研究

Applicat ion Research of Com puters Vol.24No.6J une 2007

e =e n 1=e 1,e 2,…,e n 所有可能的对齐关系的集合(m 和n 分别

为汉语和英语句子的长度);a 为对齐序列,a m 1=a 1a 2…a m ,a i

的取值范围是0~n 。当汉语句子中第i 个位置的词c i 不与任何一个英语句子中的单词对应时,a i =0。

在翻译时,先在给定英语句子的前提下确定对应汉语句子c 的长度,再确定英语句子e 中哪个位置对应到汉语句子中c 1的位置,并且进一步确定对应的汉语词;接着确定英语句子e 哪个位置与c 2相对应,依此类推。为了不失一般性,P(c,α|e)可精确地表示为

P(c,α|e)=P(m |e)∏m

j =1P(

a j |a j -1

1,

c j -1

1,

m,e)P(

c j |a j 1,c j -1

1,

m,e)(3)

其中,P(m |e)是句长概率,表示英语句子长度对汉语句子长度的影响;P(a j |a

j -1

1

,c

j -11

,m,e)是对齐概率,表示英语句子中对

应的单词在句子中可能的位置对汉语句子的影响;P(c j |a j 1,c j -1

1,m ,e)是词汇翻译概率,表示英语单词本身对汉语句子的影响。

模型3~5中引入了如下几个概念

[1]

:

(1)繁殖(Fertilit y)Φ。它是英语句子e 中单词e i 所对应

的汉语词的个数。Φ={i |i =1,…,l}。其中,i 表示第i 个英语单词的繁殖(包括对空的情况,即i =0)。

(2)语言片(Tablet)。它是每个英语单词所对应的汉语词串(包括空集合)。

(3)语言片的集合(Tablea u)T 。它是英语句子对应的中文语言集合。T ={τi |i =1,…,n}。τi 表示第i 个英语单词对应的汉语语言片,第i 个语言片中的第k 个汉语词可记为τik 。

(4)位置集(Perm uta tion)∏。它是语言片集合中的单词在英语句子中位置的集合。∏={πik |i =1,…,n;k =1,…,n i }。πik 表示第i 个语言片中的第k 个单词在英语句子中的位置;n i 为第i 个语言片的长度。

基于上述假设,式(3)可重写为如下的形式:

P(c,α|e)=

∑(τ,π)∈〈c,e 〉

P (τ,π|e)

(4)

其中,语言片和位置的联合概率为

P(τ,π|e)=∏n

i =1P (

i |i -1

i

,e)P (0|11,e)×∏n

i =0∏i

k =1

P (τik |τk -1i 1,

τi -1

,n 0,e)×∏n

i =1∏i

k =1

P (πik |πk -1i 1,πi -11,πn 0,n 0,e)×∏0

k =1

P (π0k |πk -101,

πn 1,τn 0,n

0,e)

其中,τk -1i 1=τi 1,…,τik -1,πk -1

i 1

=πi 1,…,πik -1。确定了参数τ

和π,就基本确定了词串与它们的对应关系。

模型4不仅考虑了繁殖概率,还将语言片作为一个整体进行考虑。模型5在模型4基础上进一步扩展,不仅考虑了当前对位状况,还考虑了对位历史情况,因此是一个无缺陷的模型;但模型过于复杂,对齐的效果与模型4相差不多。在实际的翻译应用中采用模型4就可以了。1.2 基于短语的翻译模型

基于短语的模型在基于词的模型的基础上引入了上下文信息,基核心是短语的抽取与评分。通常情况下,短语的抽取是基于词对齐的结果;而在IBM 的模型中,对于每一个汉语词,只允许最多一个英语单词与之相对应。但是在实际翻译中存在多对多的情况,需要进行一些转换。短语抽取的启发式处理过程如下

[4,5]

:

(1)从中英文的平行语料中获得两种词对齐表,即汉语到英语的对齐表和英语到汉语的对齐表:

(2)从两个对齐表交集中的词对齐开始。选择一个对齐(e,c),从中英文词的邻节点(e -new,c -new)开始扩展。如果这两个词都没有对齐的目标,并且(e -new,c -new)出现在并集中,就扩展到短语中;接着第二个,依此类推,直到没有可以扩展的词为止。由此可以获得短语的翻译概率。

对于抽取的短语片断,要满足以下原则:

(1)汉语短语片段中的每一个词对应的英语词都应该不能出现在与汉语短语对应的英语短语片段之外,反之亦然;

(2)对于汉语短语片段中的每个词,对应的英语短语中不能没有英语词与之相对应,反之亦然。

获得短语片断后,可以用概率分布

(c i |e i )进行建模。为

了简化,可以用如下的公式来计算短语的翻译概率:

(c i |e i )=count(c i ,e i )/∑c i count(c i ,e i )

对输出的英语短语需要进行调序,可以使用相对位置概率分布d(a i -b i -1)进行建模。其中a i 代表被翻译成英语短语的汉语短语的开始位置;b i -1表示被翻译成第i -1个英语短语的外文短语的结束位置。在应用中可以使用一个简化的扭曲模

型d(a i -b i -1)=α

|a i -b i -1

-1|

。这里要选择一个合适的参数来

进行简化。为了校正输出句子的长度,除了Trigra m 的语言模型P LM 外,还引入了一个参数ω,这个参数是大于1的。这样做是为了优化性能。

在解码时,输入的汉语句子c 被分割成I 个短语的序列

c I 1,对于c I

1中的每个短语c i 都被翻译成英语的短语e i ,这些对

应的英语短语的顺序再使用扭曲模型进行调整。这样模型可以描述如下:

e *=arg max e

P(e |e)=ar g max e

P(c |e)P LM (e)ω

len(e)

(5)

其中,P(c |e)被分解成

P(c 1I |e 1I )=∏

I i =1

(c i |e i )d(a i -b i -1)

1.3 基于句法的解释模型

基于句法的翻译模型有很多种。在实验中采用的模型是由Melam ed 提出并在2005年由J ohns Hopkins U niversit y 的Work-shop 实现的基于泛化的句法分析方法的统计机器翻译系统。

在自然语言处理中,句法分析是一个推导语言学结构的算法。它可以分为几个部分:文法、逻辑、搜索策略、终止条件等。对于输入的字符串集合,句法分析器使用文法在字符串上进行句法分析的处理,得到树型句法机构。各种句法分析器都有自己不同的方式和侧重点。Mela med 采用了语法来递增的推倒结构方法[6,7]。Melam ed 在他提出的泛化的句法分析中,引入了多维文法的概念D-GMTG(Genera lized Mult it ex t Gra m m ar,D >0)。它是对C FG 的一种泛化,其文法为

G =(V N ,V T ,P,S)

其中,V N 和V T 分别是不相交的终结符和非终结符的集合;S ∈V N 是开始符;P 是产生式的有限集合。每一个产生式都具有这样的形式:α→β。其中α和β都是D 维的。

为了简化,可以将GM TG 限制成C NF 的形式,被称为GC-NF(Generalized Chom sky N orm a l Form)。在GCN F 下,每一个GMTG 的产生式或者是终结产生式或者是非终结产生式。其

?

07?计算机应用研究2007年

终结产生式和非终结产生式可分别表示如下:

… …

X t … …

X 1…X D π1

…πD Y 1Z 1

……Y D Z D

其中,每一维中的产生式都满足C NF;表示一个占位符;πi

是一个优先数组,表示其后的Y i Z i 间的优先关系。二维文法

的获取可描述如下:

(1)对中英文的平行语料分别进行句法分析,获取相应的句法分析树结构(也可以仅对英语(即目标)进行句法分析)。

(2)对中英文的平行语料进行词的对齐。

(3)用词对齐的结果,利用句法分析后的树型结构进行层次化对齐,进而可以抽取出二维文法结构。

泛化的句法分析就可以同时处理多个句对。输入多种语言的句对,用维度d 来表示。当d =1时就是一般的句法分析器;当d >1时,被称为多维句法分析器,可以对输入句对中每一维的句子同时进行句法分析,推导出树型结构(即句法分析树)。泛化的句法分析器不仅是一个多维的句法分析器,而且当输入多维语句对的维数少于其文法的维数时,对输入进行解码翻译;反之则进行层次化的对齐,训练获取多维文法,为提取多维语法规则作准备。可以看出,一般的句法分析只对一种语言的字符串序列进行处理,是泛化句法分析的一个特例

[8,9]

2 对比实验及分析

2.1 对比实验

本文对基于词、基于短语和基于句法三类统计翻译模型的统计机器翻译系统的翻译性能进行比较,通过实验来对比其翻译效果的差异。其中基于词的模型采用了ISI 的Rewrite-De-coder,使用IBM 模型4作为翻译模型;基于短语的模型选用的是Philipp Koehn 的Phara oh,是在词对齐的基础上进行短语的抽取;基于句法的模型采用的GenPa r 是由Mela m ed 提出并在2005年由J ohns Hopkins U niv ersity 的夏季Workshop 中实现的泛化句法分析方法器。

语料选用了IWS LT 2004的训练语料和测试语料。其中,训练语料为20000个中英双语句对;测试语料为500句。英文语料共出现185713个字,平均字长为9.3个,如表1所示。

评分方法采用了BLE U 和NIS T 。它们都是基于n 元语法的机器翻译自动评测方法。其基本思想是,将机器翻译产生的候选译文与人类翻译者提供的多个参考译文相比较,越接近,则候选译文的正确率越高。实验的目的是为了比较研究,未进行最小误差率训练,采用了系统的默认进行实验。通过实验,评分结果如表2所示。

表1 训练语料和测试语料

的统计数据

语料

中文英文训练语料

句子数20K 20K 词数176195185713

测试预料

句子数

500词数

3515

表2 三种统计模型的评分结果

模型

BLEU

NIST

基于词的模型0.2221 5.7345基于短语的模型

0.2555 6.1005

基于句法的模型

0.0852 3.5798

从表2中的数据可以得到:基于短语的模型BLE U 的分值为0.2555,明显高于基于词模型的0.2221和基于句法模型的0.0852。NIS T 的评分结果也显示出相似的结果。

2.2 实验结果分析

通过对三种模型翻译结果的分析,整体来看可以发现以下一些特点:

(1)对于在训练语料的词表中未出现的词,基于词模型和短语的模型都采用了输出源语言词(汉语词)的方法;而基于句法的模型则是将这些词全部丢弃。这种现象导致了评分下降,其原因是训练语料的规模较小所致。

(2)基于词的模型和基于句法的模型都存在较多句子结构不完整的情况,在基于句法的模型中表现更为明显。基于词的模型是逐词翻译,不能发现句子的省略情况,如对“可以试穿吗?”等句子的翻译就不能加上主语之类的成分;基于句法的模型对于未出现的词,无法用文法进行推导,所以出现句子不完整的情况。

对于译文的质量,通过对三种模型翻译结果的分析可以发现,相对于基于词的模型,基于短语的模型由于包含了词的上下文信息,而不只是单个词,有以下几个方面的优势:

(1)词在短语中进行翻译时,可以较好地处理词形态变化、词义等情况,使翻译结果的正确性更高。例如:“两个晚上”在词模型中会被逐词翻译,结果成了“t wo a nig ht ”;而基于短语的模型由于带有上下文信息就可以发现这种单复数的信息,翻译结果为“t wo nights ”。“看看”在句子“请给我看看那个”的翻译时,在词模型中翻译成概率较高的“s ee ”;基于短语的模型就能提取出短语“给我看看那个”,将之翻译成“show ”,最终翻译成“please show m e that ”。基于短语的模型的这种特点可以使译文更加准确。

(2)短语能够固定词序,得到正确的词序。例如“给父亲的礼物”,基于短语的模型可以抽取出短语“a g ift for m y fa-ther ”;而基于词的模型就出现了“t ake fat her gift ”这样的翻译结果。当训练数据较多时,能获得的短语长度越长,就更有助于解码。

与基于词的模型和基于短语的模型不同的是,基于句法的模型能够包含更多的语言学信息;在训练时获取句式特点,如疑问句、被动句、“把”字句等,能更好地处理句子的结构问题。例如“我觉得冷”,在短语的模型中,在进行短语抽取时将“我觉得”翻译为“I feel ”、“I t hink ”等,相应的“冷”的译文为“it ’s cold ”的概率较高,翻译结果就成了“I t hink it ’s cold ”;而基于句法的模型能在文法中体现句子的结构信息,从而避免产生这种情况,翻译结果为“I feel chilly ”。再如“有会讲日语的医生吗?”和“给您安排座位”在基于句法的模型中进行翻译时,由于文法中能体现句式特点,可以正确地翻译成“do y ou ha ve a J apa nese spea king doct or?”和“arrang e a sea t for you ”;而基于短语的模型却不能解决这种句子结构问题,其结果为“I ’ll have a J apanes e spea king doct or?”和“g iv e you a rra ng e a seat ”。

相对于基于词的模型和基于短语的模型,基于句法的模型由于翻译时对出现的未登录词都采取了丢弃的方式,造成翻译结果句子的长度过短,在评分时受到的惩罚较大,所以分值较低。在翻译较短的句子时,基于句法的模型体现不出其优势。

3 结束语

通过对三类统计翻译模型在口语汉英翻译领域的对比实验可以得到:基于短语的模型翻译性能最好,基于(下转第74页)

?1

7?第6期李 俊等:常用统计翻译模型在口语汉英翻译中的比较研究

(

(

交叉率=0.6,变异率=0.15。图5给出了算法运行得到的最优结果,运行时间39.7s,目标函数值=24974.4。实验结果表明,本文所提出的模型及算法是有效的。

表1 n =30问题的几何数据

单ID 元面积纵横比下限上限单ID 元

面积纵横比下限上限110 1.0 1.43162 1.0 1.528 1.0 1.0174 1.0 2.535 1.0 1.43182 1.0 1.946 1.0 2.0198 1.0 1.0512 1.0 1.12010 1.0 1.1564 1.0 1.67214 1.0 2.072 1.0 1.43225 1.0 1.184 1.0 1.0238 1.0 1.67915 1.0 1.25241 1.0 1.11012 1.0 2.0254 1.0 1.25115 1.0 1.43261 1.0 2.0121 1.0 1.25274 1.0 1.25132 1.0 1.5281 1.0 2.0143 1.0 1.33298 1.0 1.05155 1.0 1.1304 1.0 1.11

10

1.0

1.43

16

2

1.0

1.5

地板尺寸:(47,

36)

图5 n =30问题布局结果

4 结束语

与以往文献相比,本文编码方案易于设计遗传算子,并保证遗传操作不产生非法子串,且使进化搜索可以覆盖整个解空间。实验结果表明,该模型及算法是有效的。参考文献:

[1]

ASS AN M M https://www.doczj.com/doc/d72661351.html,yout design in group technology manufacturing [J ].In terna tional Jou rnal of Pro duction E cono mics ,1995,38(2):173-188.[2]

J AJ ODIA S,M INIS I,H ARHALAKIS G,et al .CLAS S:compute-rized layout solution using simulated annealing [J].International Journ al of P rodu ction Resea rch ,1992,30(1):95-108.[3]

TAM K Y.Genetic alg orithm s,function optimization,and facility layout design [J].E urope an Journal of O perational Re search ,1992,63(2):322-346.[4]

TAM K Y,CHAN S K.Solv ing facility layout pr oblems w ith geomet-ric constraints using parallel genetic algor ithms:exper imenta tion and findings [J].

International Jo urna l of P rod uction Re search ,

1998,36(12):3253-3272.[5]

S HAYAN E,CHITTILAPPILLY A.Genetic algor ithm for facilities layout problems based on slicing tree str ucture [J].International Journ al of P rodu ction Resea rch,2004,42(19):4055-4067.[6]

AZADIVIR F,WANG J.Facility layout design using simulation and genetic algor ithms [J].Internationa l Journal of P rodu ction Re-se arch,2000,38(17):4369-4383.[7]

NUGENT C E,VOLLMAN T E,RUML J.An experimental compar i-son of techniques for the assig nment of facilities to loca tions [J].

O peration s Research,1968,16(1):150-173.

(上接第71页)词的模型次之,基于句法模型最差。相对于基于

词的模型,基于短语的模型由于带有词的上下文信息,使单个词的翻译正确率更高;短语结构由于可以固定词的顺序,使译文的正确性提高。基于句法的模型相比其他两个模型来说虽然性能较差,但是能很好地处理句子的结构问题。

基于句法的模型时间空间开销较大,因为树型结构信息比较复杂;而基于词和基于短语的模型相对较简单。可能在语料较小的情况下,基于句法的模型训练获得的信息较少从而影响了翻译性能。从模型使用的参数个数来看,基于词的模型和基于短语的模型使用的参数较多,两者的模型都较复杂。实际应用中能够被可靠估计的参数个数要么受限于可用于训练的数据大小;要么受限于可利用的计算资源。对全世界所有的语言来说,适当的训练数据都是有限的,即使对可利用的训练数据是无限的资源丰富的语言来说,能够适合计算机内存的模型参数的个数也是有限的。相比之下,基于句法的模型使用的参数最少,能够用较少的参数表达丰富的句子信息,值得进一步深入研究。参考文献:

[1]刘群.统计机器翻译综述[J].中文信息学报,2003,17(4):1-12.[2]

B ROWN P,PIETRA S D,PIETRA V D,et al .The mathematics of statistical machine translation:parameter estimation[J].Computa-

tional Linguistics ,1993,19(2):263-311.[3]

程葳.限定领域内汉英口语的统计翻译方法研究[D].北京:中国科学院研究生院,2003:20-27.[4]

PHILIPP K,OCH F J,MARCU D.S ta tistica l phrase-based transla-tion:proc.of the Human La nguage Technology C onfer ence and the Nor th America n Association for Computationa l Ling uistics (HLT-NAACL)[C].Edmonton:[s.n.],2003:127-133.[5]

KNIGHT K,PHILIPP K.What ’s new in statistical machine transla-tion:proc.of the Human Language Technology Conference (HLT)[C].[S.l.]:[s.n.],2003:1-89.[6]

M ELAM ED I D.Multitext gr ammars and synchronous par sers:proc.of the Hum an Language Technology Conference and the North Amer i-can Association for Computational Linguistics (HLT-NAACL)[C].E dmonton:[s.n.],2003:158-165.[7]

ME LAME D I D.S tatistica l machine tra nslation by parsing:proc.of the 42nd Annual M eeting of the Association for Computational Lin-g uistics (ACL)[C].Bar celona:[s.n.],2004.[8]

YAM ADA K,KNIGHT K.A syntax-based statistical translation mo-del:proc.of the 39th Annua l Conference of the Association for C om-

putational Linguistics[C].Toulouse:[s.n.],2001.[9]

YAMADA K,KNIGHT K.A decoder for syntax-based statistical M T:proc.of the 40th Annual Conference of the Association for C omputa-tional Linguistics[C].Philadelphia:[s.n.],2003:303-310.

?

47?计算机应用研究2007年

机器翻译技术介绍

机器翻译技术介绍
常宝宝 北京大学计算语言学研究所 chbb@https://www.doczj.com/doc/d72661351.html,

什么是机器翻译
研究目标:研制出能把一种自然语言(源语言)的文 本翻译为另外一种自然语言(目标语言)的文本的计 算机软件系统。 制造一种机器,让使用不同语言的人无障碍地自由交 流,一直是人类的一个梦想。 随着国际互联网络的日益普及,网上出现了以各种语 言为载体的大量信息,语言障碍问题在新的时代又一 次凸显出来,人们比以往任何时候都更迫切需要语言 的自动翻译系统。 但机器翻译是一个极为困难的研究课题,无论目前对 它的需求多么迫切,全自动高质量的机器翻译系统 (FAHQMT)仍将是人类一个遥远的梦。

机器翻译的基本方法
机器翻译的基本方法 ? 基于规则的机器翻译方法 ? 直接翻译法 ? 转换法 ? 中间语言法 ? 基于语料库的机器翻译方法 ? 基于统计的方法 ? 基于实例的方法 ? 混合式机器翻译方法
目前没有任何 一种方法能实现机 器翻译的完美理 想,但在方法论方 面的探索已经使得 人们对机器翻译问 题的认识更加深 刻,而且也确实带 动了不少不那么完 美但尚可使用的产 品问世。
20世纪90年代以前,机器翻译方法的主流一直是基于规则的方 法,不过,统计方法后来居上,目前似乎已成主流方法,从学术 研究的角度看,更是如此。(Google translate)

机器翻译的基本方法
20世纪90年代以前,机器翻译方法的主流一直是基于 规则的方法,因此基于规则的方法也称为传统的机器 翻译方法。 直接翻译法 ? 逐词进行翻译,又称逐词翻译法(word for word translation) ? 无需对源语言文本进行分析 ? 对翻译过程的认识过渡简化,忽视了不同语言之间 在词序、词汇、结构等方面的差异。 ? 翻译效果差,属于早期过时认识,现已无人采用 How are you ? 怎么 是 你 ? How old are you ? 怎么 老 是 你 ?

Z值模型(翻译版)

公司财务分布预测: 修订 Z-S· SCORE 和 ZETA?模型 edward i. altman * 2000年7月 * 纽约大学斯特恩商学院 max l. heine 金融教授。本文改编自 e. altman, "财务比率、判别分析和公司破产预测"。金融杂志, 1968年9月;ad. e. altman、r. haldeman 和 p. narayanan, "zeta 分析: 识别公司破产风险的新模式",银行与金融杂志, 1977年1月1日。

预测公司的财务困境: 重温 z 分和 zeta?模型 背景 本文讨论了两种评估工业危难的令人尊敬的模型。 公司。这些是所谓的 z-分数模型 (1968) 和 zeta?1977) 信用风险模型。这两种型号仍在被从业者使用全世界都是后者是 zeta services inc. (nj, hoboken) 订户的专有模式。 本摘要的目的有两个方面。首先, 研究了业务失败的这些独特特征, 以便具体说明和量化作为公司困境的有效指标和预测指标的变量。通过这样做, 我希望强调使用财务比率所固有的分析价值和实际价值。具体而言, 一套金融和经济比率将在企业危难预测的上下文中使用多重判别统计方法进行分析。通过这项工作, 我将不仅探讨潜在破产的可量化特征, 而且还探讨一个非常恶意的人的效用d 财务分析技术: 比率分析。尽管我们将要讨论的模型是在1960年代末和70年代中期开发的, 但我将把我们的测试和发现扩大到包括适用于未公开交易的公司, 并将其应用于非制造业还提到了一种新的新兴市场企业债券债券评级等价模型。后者使用的是一个名为 z "的 z-分数模型的版本。本文还更新了1999年对违约和破产的预测测试。 正如我在1968年首次写的那样, 在 20世纪90年代末, 学者们似乎正在朝着消除比率分析作为评估企业绩效的一种分析技术的方向发展。理论家降级套利y 经验法则 (如

英汉短语翻译

be cut and dry 事先准备好的,索然无味的French leave 不辞而别 Italian football 炸弹 castle in Spain 空中楼阁,白日梦Greek gift 害人的礼物 Turkish towel 粗面毛巾 a bad sailor 会晕船的人 under the weather 身体不适 be green-eyed 红眼病 get off to a good start 开门红 skin and bones 皮包骨头 in deep water 水深火热 at one''s fingertips 了如指掌 talk black into white 颠倒黑白 go through fire and flood 赴汤蹈火 search one’s heart 扪心自问 on the down grade每况愈下 roses and thorns 有甜有苦 fusion and fission 聚变和裂变 mistakes of succumbing to individualism 犯个人主义的错误 to bore a hole 镗孔 to improve the surface finishes 提高表面光洁度 dry cow 不产奶的母牛 dry fire 空弹射击 dry facts 不加渲染的事实 dry book 枯燥无味的书 dry shampoo 干洗的洗发剂 dry party 无酒的聚会 dry wine 无甜味的葡萄酒 dry farming 旱作农业 dry law 禁酒令 dry nurse 保姆electromagnetic waves 电磁波 oil baron 石油大王 slow-witted 头脑迟钝 tongue-tied 张口结舌,哑口无言。to wait for gains without pains 守株待兔 wall of bronze 铜墙铁壁 catch at shadows 捕风捉影 Whoever plays with fire perishes 玩火自焚 running dog 走狗 downy lips make,thoughtless slips 嘴上没毛,说话不牢castle in the air 空中楼阁

英语翻译必备词组

Give the floor to 请…发言 It is a great pleasure for me to我很荣幸… Relevant issues 相关问题 Updated research research result 最新的调查结果 Attach the importance to 对…给予重视 Lead-edge technologies领先技术 Minister Counselor公使 Natural heritage自然遗产 Shared concern 共同关心的问题 Well-deserved reputation良好的信誉 对…表示衷心的感谢express sincere gratitude to 请…讲话Let’ s welcome to give a speech 双边会议bilateral conference 以掌声对…表示的最热烈的欢迎propose the warmest applause to 主办单位sponsor 颁奖仪式the Award Ceremony 贺词greeting speech 隆重举行observe the grand opening of 请…颁奖Let’s invite to present the award 取得圆满成功achieve complete ceremony 全球庆典global celebration ceremony 宣布…结束 declare the closing of 请全体起立,奏国歌 Please rise for the national anthem. Collective stewardship集体管理 Competitive job market充满竞争的就业市场 Financial institutions金融机构 Forward-looking进取 Gross National Product国民生产总值 Meet the challenges 迎接挑战 Public authorities公共机构 Regulatory mechanism 法规机制 The threshold of our transition into the new millenmum跨越新千年的门槛 UNCHS (United Nations Centre for Human Settlements)联合国人居中心Urban residents 城市居民 Well-serviced formal city服务齐全的高尚城市 把…列为重要内容place as the priority 不放松工作never neglect the work 节约用水 water conservation 对…表示衷心祝贺extend our sincere congratulations on 节约用水先进城市model city of water conservation 使…取得预期效果attain the results expected 授予…光荣称号 confer honorable awards on 为…而奋斗strive for

500个常用词组翻译

500个常用词组翻译 1. a big headache 令人头痛的事情 2. a fraction of 一部分 3. a matter of concern 焦点 4. a series of 一系列,一连串above all 首先,尤其是 5. absent from不在,缺席 6. abundant in富于 7. account for 解释 8. accuse sb. of sth.控告 9. add to增加(add up to) 10. after all 毕竟,究竟 11. agree with同意 12. ahead of time / schedule提前 13. ahead of 在...之前(ahead of time 提前) 14. alien to与...相反 15. all at once 突然,同时 16. all but 几乎;除了...都 17. all of a sudden 突然 18. all over again 再一次,重新 19. all over 遍及 20. all right 令人满意的;可以 21. all the same 仍然,照样的 22. all the time 一直,始终 23. angry with sb. at/about sth.生气,愤怒 24. anxious about/for忧虑,担心 25. anything but 根本不 26. apart from 除...外(有/无) 27. appeal to 吸引,申诉,请求 28. applicable to适用于 29. apply to适用 30. appropriate for/to适当,合适 31. approximate to近似,接近 32. apt at聪明,善于 33. apt to易于 34. around the clock夜以继日 35. as a matter of fact 实际上 36. as a result(of) 因此,由于 37. as a rule 通常,照例 38. as far as ...be concerned 就...而言 39. as far as 远至,到...程度40. as follows 如下 41. as for 至于,关于 42. as good as 和...几乎一样 43. as if 好像,防腐(感谢关注英语口语精华) 44. as regards 关于,至于 45. as to 至于,关于 46. as usual 像平常一样,照例 47. as well as 除...外(也),即...又 48. as well 同样,也,还 49. ashamed of羞愧,害臊 50. aside from 除...外(还有) 51. ask for the moon异想天开 52. at a loss 茫然,不知所措 53. at a time 一次,每次 54. at all costs 不惜一切代价 55. at all events 不管怎样,无论如何 56. at all times 随时,总是 57. at all 丝毫(不),一点也不 58. at any rate 无论如何,至少 59. at best 充其量,至多 60. at first sight 乍一看,初看起来 61. at first 最初,起先 62. at hand 在手边,在附近 63. at heart 内心里,本质上 64. at home 在家,在国内 65. at intervals 不时,每隔... 66. at large 大多数,未被捕获的 67. at last 终于 68. at least 至少 69. at length 最终,终于 70. at most 至多,不超过 71. at no time 从不,决不 72. at one time 曾经,一度;同时 73. at present 目前,现在 74. at someone‘s disposal 任...处理 75. at the cost of 以...为代价 76. at the mercy of 任凭...摆布 77. at the moment 此刻,目前 78. at this rate 照此速度

翻译常用短语

被誉为be praised as 不仅仅……也不只neither……nor 表现精神express spirits 承载着carry 继续/参与carry on 被认为/被视为be considered as/be regarded as 充当serve as 馈赠佳品great presents 彼此了解understand each other 既活动肌肉又活动大脑strengthen both muscle and brain 用来治病和自卫be used to cure illness and for self-defense 综合性的integrated , comprehensive 历史悠久enjoy a long history/with a long history of 肢体动作physical movement/body movement/ body action 充分发挥full display/give full play to/allow full play to 起源于originate from/stem from/begin from 传统的东方文化traditional oriental culture 吸引……关注captivate attention of 特点feature/uniqueness/specialty 魅力charm/charisma 闻名于世be well-known throughout worldwide 被吸引be absorbed in/by 受人们的欢迎enjoy popularity among people 东方艺术明珠 A Pearl of Oriental Art 被烫着get burned 从小干某事do something as children 餐具/炊具tableware/cooker 由……制造 be made of/from 效率很高,用起来很简单find it efficient and easy to use 巨大的不可替代的important and irreplaceable 象征着灿烂的中国文化symbolize the brilliant culture of China 对……做出巨大贡献make great contribution to 对外贸易foreign trade 提到……就不能不提到It’s impossible to mention……without mention……例:提到中国文化就不得不提到中国饮食。 译:It’s impossible to mention Chinese culture without mentioning Chinese diet. 种类繁多be varied in kind 面食习惯wheat-based diet 米食习惯rice-based diet 面食flour food/wheat-based food 面食文化flour food culture 饮食文化food culture/cuisine culture/cooking culture 文化载体carrier of culture 融古今风格于一体combine traditional and modern style

机器翻译系统中间件模型_肖明

福建电脑2006年第3期 机器翻译系统中间件模型 肖明 (西南民族大学计算机科学与技术学院四川成都610041) 【摘要】本文简单介绍了机器翻译的现状,提出利用中间件技术的来设计机器翻译系统,并给出了一个机器翻 译系统中间件的详细模型,使得用户能在其上灵活、高效地开发和集成复杂的专用领域的机器翻译软件,并对该模型的 优势进行了分析。 【关键字】机器翻译中间件 1引言 随着全球化经济和Internet的迅速发展,国际间交流、合作日益密切,同时语言文字障碍也变得尤为突出。因此,机器翻译以其速度快、一致性强、操作简单而成为当今国际上竞相研究的热门课题。 从1954年公开演示的第一个机器翻译系统Georgetown-IBM起,现今已开发出大量的机器翻译系统[1],如,加拿大的TAUM-METEO系统、美国Texas大学的METAL系统、日本富士通公司的ATLAS系统等。经过多年的努力,我国在翻译机器的研究开发上也取得一些瞩目的成果。最具代表性的是由董振东设计的“科技1号英汉机译系统”,该系统已由中国计算机软件与技术服务总公司实现商品化,并命名为“译星”系列,现已推出2002版。该系统可高达每小时100万单词的翻译速度和85%的可读性,具有完美的OFFICE和IE中的嵌入式翻译功能和丰富的专业词典。但总体来说,目前机器翻译的译文质量尚不够理想,多只适用于翻译专业科技文献资料,或产品的市场宣传广告和技术资料,而对文学作品的翻译效果不太好。 机器翻译的核心技术归根结底是一个语言处理问题,需要强大的语言知识的支持。另一方面,软件技术的支持是机器翻译实用化的根本保障,庞大而复杂的自然语言研究必须依赖于系列化工具软件的支持,靠几个语言专家单枪匹马地开发研究是难以胜任的,必须依托网络集成化的开发环境,汇集众多语言专家的语言知识,才能丰富完善语言支持系统。同时,高度专业化的开发策略必须建立广泛的行业用户合作群体。因此,采用机器翻译系统中间件,利用成熟而周密的技术措施,实现与用户或行业的广泛合作,是机器翻译开发的必由之路。 我们这里所定义的机器翻译系统中间件,是指基于各种网络平台(包括Internet,Intranet、无线网络等),结合可视化技术和机器翻译的支撑技术,如:词典维护、语料库统计、实例管理、消歧处理、规则管理、句法分析等。该模型的核心部分是提供机器翻译功能的应用程序接口(API),用户可以很方便地将这些API集成到各类专用机器翻译系统(如外贸行业、科技文档翻译)中,从而在应用系统中实现基于机器翻译的各种单词查询、文档翻译、在线翻译等;当用户因特殊应用需求,而现有功能API接口不能完全满足应用需求时,该模型提供扩展功能开发包,用户可以结合自己的需求自行开发新的功能API,从而方便自如地扩充系统功能。另外,该模型提供外部数据的导入接口、界面开发工具、整个系统的管理维护工具和系统开发手册,从而构成了一个完整的增值开发平台。二次开发用户无须对平台的工作原理和Web编程技术有深入的了解,而能够快速地开发出功能丰富且易于扩展的跨平台的机器翻译应用系统。 2器翻译系统中间件的模型 2.1知识表示 机器翻译的过程可以看成是一个运用知识进行推理的过程。知识表示是这一过程的基础。我们把机器翻译中用到的知识表示形式分为内部知识和外部知识两类。其中外部知识是存放于知识库之中,由语言工作者进行管理的知识,如词典和各类规则库等,内部知识是翻译过程中临时生成的,用于描述所翻译的句子的语法语义特征的知识,如树形图、特征结构和语义网络等。 本系统的外部知识表示由知识库子系统进行处理。知识库包括语言模型、词典、规则库和实例库。语言模型是本系统的统帅,它规定了源语言和目标语言所使用的词法模型、句法模型和语义模型,即词法、句法和语义的分类和各种属性描述。知识库中所用到的各种语言知识描述用的符号格式都必须符合语言模型中的规定。词典是整个翻译系统的基础,存储着系统的静态知识,词典[2]包括了每个词汇的句法、语义、译文等各种知识。规则库对应于翻译的各个步骤,每个步骤使用相应的规则库。每个规则库的具体格式各不相同,但基本上都采用“树结构+约束”的形式。在知识库的格式定义上,我们特别强调不仅要能描述全局性知识,也要能描述一些局部性的知识。因此我们特别强调词典的描述能力。例如,词典中的局部规则与全局规则具有完全相同的格式,在使用上局部规则优先于全局规则,这样特别有利处理一些与具体词汇相关的特殊用法。实例库存储系统收集到的翻译实例及相关信息,其主要作用在于结合使用基于实例的翻译方法,能快速地对一些常用语句做出准确的翻译。 本系统的内部知识表示形式包括线图(Chart)[3]、树结构和特征网络三种形式。线图源于ChartParsing算法,是一种比较通用的语言内部结构表示方法,可以同时表示翻译过程中产生的大量词结点和短语结点,也可以适应多种不同的分析算法。树结构是短语结构分析中最常用的一种表示方法,用于描述句法成分(包括词结点和短语结点)之间的组合关系。每个树结点对应于线图中的一个词结点或短语结点。我们所使用的树结构表示法中要求标出每个句法成分的中心子结点,用于处理属性值在句法成分之间的传播。特征网络是一种特殊的知识表示方法。这种表示法融合了特征结构表示法和语义网络表示法的一些特点并加以改进,以适合汉英机器翻译的需要。一个特征网络由许多个互相关联的特征结点所组成,每个特征结点又是若干个特征的集合。一个特征结点对应着句法分析中已经出现或可能出现的一个句法成分,而每一个句法成分(即句法树中的结点)一定有唯一的一个特征结点与之对应。 2.2翻译算法: 机器翻译的方法有基于转换的方法[4],和基本实例[5]或统计的方法[6]。本模型以基于转换的方法为基础,同时,担供基于实例翻译方法和统计方法的接口,用户可在其上进行扩充。基于转换的翻译过程通常分为分析阶段、转换阶段和生成阶段。分析阶段是对输入的源语言进行多层分析,并将分析的结果用一种中间描述结构来表达。转换阶段涉及两种语言,它把源语言的分析结果转换成相应的目标语言的中间描述。这种转换涉及到词汇的转换和语言表达结构上的转换。生成阶段则是转换结果(它是目标语言的中间描述结构)生成出目标语言的表层结构,最终产生目标语言。 一个完整的机器翻译过程可以分为如下六个步骤: (1)源语言词法分析,(2)源语言句法分析,(3)源语言目标语 122

统计机器翻译

统计机器翻译 来自维基百科,免费的百科全书 统计机器翻译(SMT)是一种机器翻译的模型,译文在统计模式的基础上生成,而统计模式所需的参数来自于对双语文本语料库的分析。 机器翻译中基于统计的方法与基于规则的方法和基于实例的方法相对。 统计机器翻译的最初想法由Warren Weaver在1949年〔1〕提出,其中包括对Claude Shannon 的信息理论。 统计机器翻译在1991年时由IBM公司的托马斯?J?沃森研究中心的研究者们再次提出,并且对近些年来重新唤起人们对机器翻译的兴趣作出重大贡献。到2006年为止,它已经是研究最广泛的机器翻译模型。 优势 统计机器翻译相对于最常被人们谈论的传统模型的优势如下: ?更好地利用资源 o存在着大量可被机器读取的格式的自然语言。 o通常,统计机器翻译系统不是针对于任何具体的语言配对。 o基于规则的翻译系统需要对语言规则的手动开发,这样不仅成本很高,而且通常对其它语言不适用。 ?更多的自然语言翻译资料 统计机器翻译的想法来自于信息理论。本质上来说,文档的翻译在基于可能性的p(e | f),其中的本国语言(例如英语)字符“e”就是对外国语言(例如法语)中字符“f”的翻译。一般来说,这些可能性都是利用参数估算的技术实现。 将贝叶斯法则应用于p(e | f)这个外语字符译成母语字符的可能性,会得到这一可能性,其中的翻译模型p(f | e)表示母语字符是对外语字符的翻译的可能性,而语言模型p(e)表示那个母语字符出现的可能性。从算术上来说,发现最佳译文也就是选取出现概率最高的那个。 要严格执行这一过程就必须对母语中所有字符e *进行穷举搜索。有效搜索就是机器解码器要做的工作,利用外语字符、启发式的或其它方法来限制搜索范围,同时保证合意的译文质量。质量和所耗时间之间的这种交换在语音识别方面也可以看到。 翻译系统不能将所有的母语字符串和它们的译文都存储起来,所以只能对文档进行逐句翻译,但即使这样也还是不够的。语言模型是典型的可被稳定的n-gram模型模拟的,并且同样的方法已经应用于翻译模型,但是语言中不同的句子长度和词汇顺序造成了更多的复杂问题。 统计机器翻译模型最初是基于词汇的(来自IBM的模型1-5),但是在引入了基于短语的模型之后有了重大的发展。近期已经引入了句法或类似语法的结构。 基于词汇的的翻译 在基于词汇的翻译中,待译的元素是所有的词汇。实际上,由于复合的词汇、词法和习惯用

翻译必背短语

高翻必备词组 Give the floor to 请…发言 It is a great pleasure for me to我很荣幸… Relevant issues 相关问题 Updated research result 最新的调查结果 Attach the importance to 对…给予重视 Lead-edge technologies领先技术 Minister Counselor公使 Natural heritage自然遗产 Shared concern 共同关心的问题 Well-deserved reputation良好的信誉 对…表示衷心的感谢express sincere gratitude to 请…讲话Let’s welcome to give a speech 双边会议bilateral conference 以掌声对…表示的最热烈的欢迎propose the warmest applause to 主办单位sponsor 颁奖仪式the Award Ceremony 贺词greeting speech 隆重举行observe the grand opening of 请…颁奖Let’s invite to present the award 取得圆满成功achieve complete ceremony 全球庆典global celebration ceremony 宣布…结束 declare the closing of 请全体起立,奏国歌 Please rise for the national anthem. Collective stewardship集体管理 Competitive job market充满竞争的就业市场 Financial institutions金融机构 Forward-looking进取 Gross National Product国民生产总值 Meet the challenges 迎接挑战 Public authorities公共机构 Regulatory mechanism 法规机制 Urban residents 城市居民 Well-serviced formal city服务齐全的高尚城市 把…列为重要内容place as the priority 不放松工作never neglect the work 节约用水 water conservation 对…表示衷心祝贺extend our sincere congratulations on 节约用水先进城市model city of water conservation 使…取得预期效果attain the results expected 授予…光荣称号 confer honorable awards on 为…而奋斗strive for 严重缺水城市a city of severe water shortage

英汉短语互译

1.plain prose 2.seckill 秒杀 3.chinadonisia 中国、印度、印度尼西亚 4.broken society 道德沦丧的社会 5. PIIGS 欧猪五国(欧洲主权债务危机最严重的葡萄牙,意大利,爱尔兰,希腊,西班牙五个国家的首字母合成词。Portugal,Italy,Ireland,Greece,Spain) 6.game theory 博弈论(博弈论又被称为对策论(Games Theory),是研究具有斗争或竞争性质现象的理论和方法,它既是现代数学的一个新分支,也是运筹学的一个重要学科。博弈论已经成为经济学的标准分析工具之一。) 7.ghost estate 三无房产、废弃房产(无人居住,无人修缮,或尚未完工的废弃房产) 8.defriend:解除好友关系 9.cultural pluralism 10.Obama-mess:奥巴马乱/困境 11. Localization本土化 12. 敲门砖:a stepping stone (to) 13. 蜗居: humble abode 14.富二代:affluent second generation 15.房奴:home mortgage slave 16汉化英语:Chinglish 17. 典故:allusion/ literary quotation 18. 典籍英译:old scripture 19. 模拟国际会议口译:stimulated international conference interpreting 20. 陪同口译: escort interpreting 21.翻译专业硕士:Master of translating and interpreting

翻译常用词组

1. at the thought of一想到…- 2. as a whole (=in general) 就整体而论- 3. at will 随心所欲- 4. (be) abundant in(be rich in; be well supplied with) 富于,富有- 5. access(to) (不可数名词) 能接近,进入,了解- 6. by accident(=by chance, accidentally)偶然地,意外. Without accident(=safely) 安全地, 7. of one’s own accord(=without being asked; willingly; freely)自愿地,主动地- 8. in accord with 与…一致 . out of one’s accord with 同…。不一致- 9. with one accord (=with everybody agreeing)一致地- 10. in accordance with (=in agreement with) 依照,根据- 11. on one’s own account- 1) 为了某人的缘故,为了某人自己的利益- 2) (=at one’s own risk) 自行负责- 3) (=by oneself)依靠自己- 12. take…into account(=consider)把..。考虑进去- 13. give sb. an account of 说明,解释(理由)- 14. account for (=give an explanation or reason for) 解释,说明。- 15. on account of (=because of) 由于,因为。- 16. on no account(=in no case, for no reason)绝不要,无论如何不要(放句首时句子要倒装)- 17. accuse…of…(=charge…with; blame sb. for sth. ; blame sth. on sb. ; complain about) 指控,控告- 18. be accustomed to (=be in the habit of, be used to)习惯于。- 19. be acquainted with(=to have knowledge of) 了解; (=to have met socially) 熟悉- 20. act on 奉行,按照…行动; act as 扮演; act for 代理- 21. adapt oneself to(=adjust oneself to) 使自己适应于- 22. adapt…(for) (=make sth. Suitable for a new need) 改编,改写(以适应新的需要)- 23. in addition (=besides) 此外,又,加之- 24. in addition to(=as well as, besides, other than)除…外- 25. adhere to (=abide by, conform to, comply with, cling to, insist on, persist in, observe, opinion, belief ) 粘附; 坚持,遵循-

机器翻译研究现状与展望1 Machine TranslationPast,Present,future

机器翻译研究现状与展望1 戴新宇,尹存燕,陈家骏,郑国梁 (南京大学计算机软件新技术国家重点实验室,南京 210093) (南京大学计算机科学与技术系,南京 210093) 摘要:本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,包括:基于规则、基于统计以及基于实例的机器翻译方法;针对机器翻译的研究现状,详细介绍和分析了基于混合策略的机器翻译方法,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。 关键字:机器翻译,基于规则,基于统计,基于实例,混合策略,机器学习 Machine Translation:Past,Present,future Dai Xinyu, Yin Cunyan, Chen Jiajun and Zheng Guoliang (State Key Laboratory for Novel Software Technology, Department of Computer Science & Technology Nanjing University, Nanjing 210093) Abstract:This paper firstly presents the history of machine translation, and introduces some classical paradigms of machine translation: RBMT, SBMT and EBMT. Secondly, we introduce the recent research on machine translation, and describe the hybrid strategies on machine translation in detail, and discuss the applications of machine learning for machine translation. We also analyze the current techniques about evaluation on machine translation. Finally, we draw a conclusion and prospect on the research of machine translation. Keywords:Machine Translation, RBMT, SBMT,EBMT, HSBMT, Machine Learning. 1本论文工作得到863课题资助(编号:2001AA114102, 2002AA117010-04) 戴新宇博士生,主要研究自然语言处理;尹存燕助教,主要研究自然语言处理;陈家骏教授,博士生导师,主要研究自然语言处理、软件工程;郑国梁教授,博士生导师,主要研究软件工程。

基于非连续短语的统计翻译模型研究

第21卷 第1期2007年1月 中文信息学报 JOU RNAL OF CH INESE INFORM AT ION PROCESSIN G V ol.21,No.1Jan.,2007 文章编号:1003-0077(2007)01-00101-08 基于非连续短语的统计翻译模型研究 张大鲲,张玮,冯元勇,孙乐 (中国科学院软件研究所中文信息处理中心,北京100080) 摘 要:目前统计机器翻译的主流方法仍然是基于短语的翻译模型。然而,该模型并没有考虑对非连续短语的处理。本文提出了一种基于非连续短语的统计翻译模型,利用该模型可以使翻译的基本单元从连续短语扩展到带有间隔的非连续短语,以更好地解决词语翻译时的上下文依赖问题。同时,由于该方法抽取的短语数量较少,也使得解码的效率得到了提高。实验表明,在效率提高的情况下,非连续短语模型可以取得与层次型短语模型相当的翻译结果。 关键词:人工智能;机器翻译;非连续短语;统计机器翻译;短语模型中图分类号:T P391 文献标识码:A Research on Non -contiguous Phrase -based Model for S tatistical Machine Translation ZH AN G Da -kun,ZH AN G Wei,FENG Yuan -yong,SU N Le (Chinese Infor matio n P ro cessing Center,Institute o f Softw are,Chinese Academ y of Sciences,Beijing 100080,China)Abstract:T he phr ase -based stat istical machine translat ion mo del is still the most popular model nowadays.Ho wever ,non -contig uo us phrases are not taken int o acco unt in t his model.A st at istical machine tr anslatio n mo del based o n non -contig uous phrases is proposed in this paper.T he units of translation ar e ex tended fro m co ntiguous phrases to phrases with interv als in o rder to take adv ant age of the context dependence.With the less numbers o f phrases,the efficiency o f the deco der in o ur model is also impr oved.Ex per iment s show t hat w ith a better eff iciency the t ranslatio n r esults of our non -contig uous phrase -based model and hier archical mo del are comparable. Key words:artificial intellig ence;machine tr anslat ion;no n -contig uous phr ase;statistical machine tr anslatio n;phrase -based model 收稿日期:2006-07-28 定稿日期:2006-10-20基金项目:国家自然科学基金资助项目(60203007) 作者简介:张大鲲(1980)),男,博士生,主要研究方向为统计机器翻译。 1 引言 基于短语的统计翻译模型[1~4]近年来逐渐取代了基于词的模型[5] ,成为统计机器翻译方法的主流。翻译的基本单元从词过渡到短语,可以更好地解决词在翻译时对上下文的依赖问题。基于短语模型的方法在翻译时将邻近的词串作为一个整体进行处理,因此词之间的重排序问题变成了短语内部的问题,降低了翻译模型的复杂程度,翻译质量有所提高。尽管这里的短语可以是任意词串,不要求必须是符合语法习惯的短语,但是却要求是连续的词串, 因此,具体地这种方法也可以称为/基于连续短语0 的翻译模型。 以非连续短语作为处理单元的方法在信息检索[6] 中取得了比较好的效果。Simard 等人首先将非连续短语方法用于统计机器翻译模型[7],翻译质量得到了一定程度的改善。然而Sim ard 所使用的非连续短语模型,要求短语内部的间隔(g ap)部分,必须是严格的词,因此在他们的模型中非连续短语的长度是固定的。比如:短语turn the light o n 和turn the left light on 在利用Sim ar d 的模型表示时,得到turn r r on 和turn r r r on(r 表示任意1个词)两个不同的短语。这样的短语形式不够灵活,

实用汉英翻译教程 参考答案

Beidaihe Seaside Resort The Beidaihe Seaside Resort, a famous summer resort in China, lies 15 kilometers southwest of Qinghuangdao. With the Bohai Sea to its south and the Lianfeng Mountains to its north, the resort enjoys a long coastline, fine beaches and a calm sea, ideal for bathing. Moreover, the weather at the seaside is mild all the year round with the temperature in the hottest month averaging only 23°C. The sea wind by day and the land breeze by night make the place a best summer vacationland. The natural charm of Beidaihe is breathtaking. The East and West Lianfeng Mountains with their luxurious pines and cypresses and grotesque rocks extend far into the distance. In front of the mountains lies a vast expense of ocean stretching to the horizon while beautiful villas and buildings dot the green landscape. On the East Lianfeng Mountain, a rock looks just like a lotus flower, and two other rocks on the West Lianfeng Mountain, standing face to face, resemble two persons having a conversation. Meng Jiangnu Temple Meng Jiangnu Temple, 6.5 kilometers to the east of Shanhaiguan Pass, was first built in 1594, the 22nd year of the reign of Emperor Wanli of the Ming Dynasty. Legend has it that the husband of a women named Meng Jiangnu was sent to work on the Great Wall. To bring him winter clothes, Meng Jiangnu came to Shanghaiguan Pass from thousands of miles away. When she was told that her husband had died at work, she cried her heart out. Her tears of anguish bust the Great Wall and she jumped into the sea and died. Later, a temple was built in memory of her. It stands on the top of a hill, with stone steps leading to it. There are two halls in the temple. In the front hall stands the clay statue of Meng Jiangnu in plain white clothes, facing the sea with a sorrow look. In the rear hall is the statue of the Goddess of Mercy. Behind the hall is the “Rock of Waiting for the Husband”, the marks on which are said to be Meng Jiangnu’s footp rints. Nearby stands her Dressing Pavilion. Beijing-Toronto Hotel/Jinglun Hotel Beijing-Toronto is located on Jiangguomenwai Avenue, downtown Beijing, in the vicinity of the embassy quarters, Friendship Store and a number of major commercial buildings, with the world-famous Tian An Men Square only ten minutes away. Beijing-Toronto has 659 spacious rooms and suites, with wide comfortable beds. They are all equipped with modern facilities such as central air-conditioning, color TV with satellite transmitted programs, IDD and DDD calls and mini-bars, meeting international standards. In our room, one cannot help but feel cozy, comfortable and satisfied.

相关主题
文本预览
相关文档 最新文档