统计机器翻译--基于噪声信道模型--IBM的5个翻译模型74页PPT
- 格式:ppt
- 大小:5.86 MB
- 文档页数:74
基于噪声信道模型的SMT学习笔记理论翻译系统源语言:e(英语) 目标语言:f(法语) 从f翻译到e本来人们想说e结果在说的过程中受到类似噪声的干扰,结果说出了f。
所以我们必须得将f还原成与e最相似的语句。
这个过程就是噪声信道的模型。
统计机器翻译就是对于给定的f,找到相应的e,使P(e|f)最大,为argmax P(e|f) 。
e通过贝叶斯公式得:P(e|f) =P(e)*P(f|e)/P(f);则argmax P(e|f) = argmax P(e) * P(f|e)。
e eP(f)与e无关,所以P(f)可以忽略。
这样P(e|f)就有两个因素决定(1) P(e),(2) P(f|e);其中P(e)表示e在该语言中的流利度,也就是是否符合该语言的语法规则;P(f|e)表示e翻译成f的概率。
之所以不直接估计P(e|f),主要有两个原因:(1) 可以将e和f分别看作是疾病和症状,那么从e推出f(P(f|e))比较可行,而很难从f推出e(P(e|f))。
(2) 引入P(e),这样翻译出来的语句更像人话。
这样一个SMT系统的任务就分成了三部分:(1) 估计P(e),即语言模型(2) 估计P(f|e),即翻译模型(3) 用一个合适的算法找到一个e使得P(e) * P(f|e)最大(至少是尽可能大)。
翻译模型提供的是一些语言单词,而忽略这些单词之间的相对顺序;语言模型的作用就是找出符合该语言语法规则的顺序。
语言模型估记P(e)的值一般是基于现有的语言“数据库”,该数据库存储的是日常生活中人们所说的一些语句,这些语句通常都符合语法规则。
num(k) = k在该数据库中出现的次数。
(1)P(e)=num(e) / 数据库中语句的总数。
但是会出现一个不好的现象就是:e是一条好的语句,但是没在该数据库中出现过,所以其次数为0,从而P(e)也为0。
这样e就会被认为是差语句而被抛弃。
为了解决这个问题将引入一个平滑系数。
统计机器翻译来自维基百科,免费的百科全书统计机器翻译(SMT)是一种机器翻译的模型,译文在统计模式的基础上生成,而统计模式所需的参数来自于对双语文本语料库的分析。
机器翻译中基于统计的方法与基于规则的方法和基于实例的方法相对。
统计机器翻译的最初想法由Warren Weaver在1949年〔1〕提出,其中包括对Claude Shannon 的信息理论。
统计机器翻译在1991年时由IBM公司的托马斯•J•沃森研究中心的研究者们再次提出,并且对近些年来重新唤起人们对机器翻译的兴趣作出重大贡献。
到2006年为止,它已经是研究最广泛的机器翻译模型。
优势统计机器翻译相对于最常被人们谈论的传统模型的优势如下:•更好地利用资源o存在着大量可被机器读取的格式的自然语言。
o通常,统计机器翻译系统不是针对于任何具体的语言配对。
o基于规则的翻译系统需要对语言规则的手动开发,这样不仅成本很高,而且通常对其它语言不适用。
•更多的自然语言翻译资料统计机器翻译的想法来自于信息理论。
本质上来说,文档的翻译在基于可能性的p(e | f),其中的本国语言(例如英语)字符“e”就是对外国语言(例如法语)中字符“f”的翻译。
一般来说,这些可能性都是利用参数估算的技术实现。
将贝叶斯法则应用于p(e | f)这个外语字符译成母语字符的可能性,会得到这一可能性,其中的翻译模型p(f | e)表示母语字符是对外语字符的翻译的可能性,而语言模型p(e)表示那个母语字符出现的可能性。
从算术上来说,发现最佳译文也就是选取出现概率最高的那个。
要严格执行这一过程就必须对母语中所有字符e *进行穷举搜索。
有效搜索就是机器解码器要做的工作,利用外语字符、启发式的或其它方法来限制搜索范围,同时保证合意的译文质量。
质量和所耗时间之间的这种交换在语音识别方面也可以看到。
翻译系统不能将所有的母语字符串和它们的译文都存储起来,所以只能对文档进行逐句翻译,但即使这样也还是不够的。
统计机器翻译熊德意,何中军,刘群1.概述统计机器翻译,又称为数据驱动(data-driven)的机器翻译。
其思想其实并不新鲜。
早在1949年,Weaver发表的以《翻译》为题的备忘录中就提出:“当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。
”这实际上就是基于信源信道思想的统计机器翻译方法的萌芽。
早期的机器翻译系统通常都建立在对词类和词序分析的基础之上,分析中经常使用统计方法,只是后来以Chomsky转换生成语法为代表的理性主义方法兴起后,统计机器翻译方法几乎不再被人使用。
上世纪90年代初期,IBM的Brown等人提出了基于信源信道思想的统计机器翻译模型,并且在实验中获得了初步的成功,引起了研究者广泛的关注和争议。
不过由于当时计算能力等多方面限制,真正开展统计机器翻译方法研究的人并不多,统计机器翻译方法是否真正有效还受到人们普遍的怀疑。
基于句法的方法词源语言目标语言图1统计机器翻译金字塔但是,进入21世纪以来,在学习、生活和工作中,人们日益发现,不同语言之间的交流越来越频繁。
无论是口语还是书面形式的交流,无不对机器翻译提出了更加严峻迫切的要求。
而另一方面,计算能力也获得了突飞猛进,互联网的发展和普及,以及双语国家、联合国的多语存档,为我们提供了数以千万句的双语平行语料,这些为统计机器翻译方法奠定了必要的基础。
于是,越来越多的研究人员开始投入到统计机器翻译的研究中,并取得了成功(在美国国家标准和技术研究所(NIST)信息部语音组主持的机器翻译国际评测1中,从2002年到2005年,统计机器翻译连续四年取得好成绩[1]),统计方法也逐渐成为国际上机器翻译研究的主流方法之一。
目前统计机器翻译方法主要分为三类:第一类是基于词的(word-based ),以单词作为翻译的基本单位,不考虑上下文信息和人类语言学知识;第二类是基于短语的(phrase-based),它将翻译的粒度从单词扩展到短语,能够较好的解决局部上下文依赖问题,提高了翻译的流利度和准确率;第三类是基于句法的(syntax-based ),将句法结构信息引入翻译过程,这种方法是当前研究的一个热点。