当前位置:文档之家› 机器翻译:现状与展望概述

机器翻译:现状与展望概述

机器翻译:现状与展望概述
机器翻译:现状与展望概述

机器翻译:现状与展望

中国专利信息中心王丹李进

机器翻译(Machine Translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics)、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。

步入21世纪以来,随着国际互联网(Internet)的迅猛发展和世界经济一体化的加速,网络信息急剧膨胀,国际交流日益频繁,如何克服语言障碍已经成为国际社会共同面对的问题。由于人工翻译的方式远远不能满足需求,利用机器翻译技术协助人们快速获取信息,已经成为必然的趋势。

一、机器翻译简史

机器翻译的研究历史可以追溯到20世纪四五十年代。1946年,第一台现代电子计算机ENIAC诞生,随后不久,信息论的先驱、美国科学家W. Weaver和英国工程师A. D. Booth 在讨论电子计算机的应用范围时,提出了利用计算机进行语言自动翻译的想法。1949年,W. Weaver发表《翻译备忘录》,正式提出机器翻译的思想。走过六十年的风风雨雨,机器翻译经历了一条曲折而漫长的发展道路,学术界一般将其划分为如下四个阶段:1.开创期(1946-1964)

1954年,美国乔治敦大学(Georgetown University)在IBM公司协同下,用IBM-701计算机首次完成了英俄机器翻译试验,向公众和科学界展示了机器翻译的可行性,从而拉开了机器翻译研究的序幕。

中国开始这项研究也并不晚,早在1956年,国家就把这项研究列入了全国科学工作发展规划,课题名称是“机器翻译、自然语言翻译规则的建设和自然语言的数学理论”。1957年,中国科学院语言研究所与计算技术研究所合作开展俄汉机器翻译试验,翻译了9种不同类型的较为复杂的句子。

从20世纪50年代开始到20世纪60年代前半期,机器翻译研究呈不断上升的趋势。美国和前苏联两个超级大国出于军事、政治、经济目的,均对机器翻译项目提供了大量的资金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视,机器翻译一时出现热潮。这个时期机器翻译虽然刚刚处于开创阶段,但已经进入了乐观的繁荣期。

2.受挫期(1964-1975)

1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,简称ALPAC委员会),开始了为期

两年的综合调查分析和测试。1966年11月,该委员会公布了一个题为《语言与机器》的报告(简称ALPAC报告),该报告全面否定了机器翻译的可行性,并建议停止对机器翻译项目的资金支持。这一报告的发表给了正在蓬勃发展的机器翻译当头一棒,机器翻译研究陷入了近乎停滞的僵局。无独有偶,在此期间,中国爆发了“十年文革”,基本上这些研究也停滞了。机器翻译步入萧条期。

3.恢复期(1975-1989)

进入70年代后,随着科学技术的发展和各国科技情报交流的日趋频繁,国与国之间的语言障碍显得更为严重,传统的人工作业方式已经远远不能满足需求,迫切地需要计算机来从事翻译工作。同时,计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,从技术层面推动了机器翻译研究的复苏,机器翻译项目又开始发展起来,各种实用的以及实验的系统被先后推出,例如Weinder系统、EURPOTRA多国语翻译系统、TAUM-METEO系统等。

而我国在“十年浩劫”结束后也重新振作起来,机器翻译研究被再次提上日程。“748”工程给予了机器翻译研究足够的重视,80年代中期以后,我国的机器翻译研究发展进一步加快,首先研制成功了KY-1和MT/EC863两个英汉机译系统,表明我国在机器翻译技术方面取得了长足的进步。

4.新时期:(1990~现在)

随着Internet的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星”、“雅信”、“通译”、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。

二、主要的机器翻译方法评述

机器翻译的过程一般可简化为三个阶段:原文分析、原文译文转化和译文生成。表象上,机器翻译的核心问题是翻译的准确性;实质上,体现在技术层面则是机器翻译系统采用的方法论问题。

在方法论层面,机器翻译系统可分为基于规则(Rule-Based)和基于语料库(Corpus-Based)两大类。前者是由词典和语法规则库构成翻译知识库,后者则是以语料的应用为核心,由经过划分并具有标注的语料库构成知识库。其中,基于语料库的方法又可以分为基于统计(Statistics-based)的方法和基于实例(Example-based)的方法。

换个角度说,基于规则的方法属于理性主义范畴,基于语料库的方法则属于经验范畴。回顾近六十年的机器翻译发展史,翻译方法论的演变实际上就是“经验”与“理性”的相互

“交流”。

1.主导地位的基于规则的方法

(1)基于规则方法的发展历程

早期的机器翻译系统基本上都采用基于规则的方法。1954年,世界上第一台机器翻译系统IBM701诞生,它只有250条俄语词汇、6条基本语法规则以及49个俄语翻译例句,通过直译法完成了世界上第一次机器翻译实验。所谓直译法,即把源语言中的单词或句子直接替换成相应目标语的单词或句子,必要时对词序进行适当的调整。直译法一般是针对特殊的语言对来设计,系统移植比较困难,缺乏通用性。

典型的直译法翻译系统是Systran系统,它是美国在乔治敦大学机器翻译系统的基础上进一步开发的,设计之初只能完成从俄文到英文的翻译,后来改进为可实现多语种之间的互译。这个系统对机器翻译的后续发展有着很大的影响,目前仍有不少翻译系统采用直译法。

在直译法逐步改进的同时,基于转换的方法也相伴而生。所谓基于转换,就是对句子结构进行层次分析,在词对词翻译的基础上,根据不同语言的不同规则生成相应的译文。这种方法需要三部字典:源语字典、源语—目标语双语字典和目标语字典。

最直观的例子就是中英文互译,中国人的名字是先姓后名,美国人的名字是先名后姓;中文句子是主谓宾加名词短语,英文句子是主谓宾加从句。诸如此类的不同规则,在转换法的翻译过程中,都需要通过三部字典中的特定描述才能顺利转化。

伴随着直译法和转换法的发展,另外一种基于规则的方法—中间语法应运而生。它先把源语言分析转换成对所有语言都适合的一种句法—语义表示,再由此转换为目标语言。也就是说,基于该方法的翻译过程包括两个阶段:从源语言到中间语言,再从中间语言到目标语言。

这种方法有一个典型的好处:节省开发费用。当需要多种语言翻译的时候,可以直接通过中间语言翻译到目标语言,而不需要每一种语言都设立一套规则程序。假如有6种语言需要彼此相互翻译,采用基于转换的方法需要30个语言转换模块(每对语言都需要一个模块),而采用中间语法的系统只需要12个模块。

虽然提出了三种方法,但显然当时的研究者还没有意识到机器翻译的难度,这些简单的方法对于稍复杂的句子就已经无能为力了。随着研究的深入,人们逐渐认识到:要完成机器翻译,计算机必须能够在一定程度上理解源语言的句子。与此同时,人工智能这门学科在20世纪70年代有了很大的发展,各种知识表示和知识推理的理论和算法纷纷被研究者提出。人们对自然语言的理解和机器翻译的认识有了质的飞跃。

这一阶段研究人员对基于规则的方法进行了创新性的改进,其主要特点是对语言进行了深层次的分析、转换和生成,也就是说,翻译不再是只在句子的表层(词序列)上进行,而是在句子的某种更深层结构(例如句法结构、语义结构或知识表示)的层面上进行。要实现这一点,系统就需要大量的语言知识和翻译知识,为此,机器翻译程序采用了数据与程序

相分离的存储形式,语言知识和翻译知识以数据形式存在,而翻译程序利用这些数据进行翻译。这种数据最常见的表现形式就是规则和词典。

基于规则的机器翻译系统在1980年代达到一个高峰期,市场上涌现出很多基于规则的机器翻译系统,其中一些已经步入实用化阶段。国际上也出现了一些大规模的研究计划,例如欧盟的Eurotran项目和日本的亚洲五国语言机器翻译项目。即使到目前,大多数实用型机器翻译系统也都是以基于规则为主。整体而言,基于规则方法的翻译系统覆盖面宽,但译文质量的一致性有待提高。

(2)基于规则方法的现状

纵观机器翻译发展的历程,可以看出,机器翻译的主流方法一直是基于规则的方法。国际上有影响的机器翻译系统基本上都需要规则的贡献,即使在多种技术并存的系统中也要包含规则,基于规则的机器翻译技术思想是被普遍接受的、成熟的,也是到目前为止应用最广的方法。基于规则的机器翻译系统就是对语言语句的词法、语义进行分析、判断和取舍,然后重新排列组合,最后生成等价的目标语言。

基于规则的机器翻译方法导致了程序工作者和语言工作者的一种合作范式:程序工作者和语言工作者先共同制定数据规范,确定翻译算法、语言知识和翻译知识的表示形式,然后程序工作者编写程序实现翻译算法,语言工作者编写语言知识和翻译知识驱动翻译算法的运行,两者分工合作,缺一不可。

在这种工作范式下,系统翻译性能通常受到两方面因素的制约:一是算法的设计是否合理,另一个是语言知识是否足够丰富,其中最主要的瓶颈还在于后者。一旦翻译程序编程结束,并经过调试稳定以后,基本上就不需要再做修改,改进翻译性能的任务完全落在了语言工作者的身上。对于基于规则的机器翻译系统而言,知识获取实际上是最大的瓶颈。通常,经过一个人一年左右的调试就能得到一个可以翻译简单句子的演示系统,但要真正得到一个初步实用的机器翻译系统,非得要通过一批人经年累月的调试和积累不可。

在上述背景下,一方面,研究者们已经建立了一定规模的规则库,覆盖了相当多的语言现象。另一方面,基于规则的机器翻译技术不断借鉴和融合其他方法的优点,这些变化主要体现在:

在规则的获取方面,传统的规则方法主要依靠语言学家的总结进行调试,而现在更加重视从大规模语料库中自动获取规则。

传统的规则方法往往偏重描述粗粒度、全局化的大范围语言学规则知识,而现在则更加重视描述细粒度、局部的小范围的语言学知识,呈现出“小规则库、大词典”的趋势。

在知识表示方面,为了以更小的粒度、更加准确地对翻译知识进行描述,一般要对单纯的与上下文无关的规则作一些改进。改进的方法有以下两种:一种是采用特征结构与合一算法,例如LFG、GPSG 等等,这种方法一般要求具有较好的语言学背景;另外一种是采用词汇化的方法对规则加以细化。

传统的规则方法采用的往往是非此即彼的确定性原则,系统的鲁棒性较差,而现在的规则系统中一般都引入各种形式的概率或者评分函数,系统的鲁棒性有所提高。概率与评分函数方法的区别在于:前者一般有比较严格的数学模型做基础,概率值的计算要以对大规模语料库的统计为依据;后者的主观性较强,评分规则的确定以及具体规则的分值都是人为的,人们可以根据经验进行调整。

随着机器翻译研究的不断深入,规则方法存在的问题逐渐暴露出来。该方法最大的问题在其知识获取方面,单纯依靠语言工作者人工编写规则似乎永远也不能满足实际应用的需要。一个在市场上销售的机器翻译系统通常都要经过数十人乃至数百人的调试,但翻译效果还是远远不能达到令人满意的程度。

更为糟糕的是,人工添加规则的做法导致规则库的规模更大,而系统性能的改进则更为困难。因为一方面规则库越大,规则之间的冲突就越多,出现了所谓的“跷跷板现象”,系统虽然对某些句子翻译效果好了,但对另外一些句子的翻译效果反而差了,系统的整体性能并没有提高;另一方面,在后面加入的规则通常都是一些粒度非常小的规则,只能处理非常个别的语言现象,对系统整体性能的改进很小,整个系统的性能提升极为缓慢,而这个时期一些大型的机器翻译研究项目也都以失败而告终。基于规则的机器翻译方法似乎走到了尽头。

2.异军突起的基于统计的方法

基于统计的机器翻译方法把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。这种思想认为,源语言句子到目标语言句子的翻译是一个概率问题,任何一个目标语言句子都有可能是任何一个源语言句子的译文,只是概率不同,机器翻译的任务就是找到概率最大的句子。因此统计机器翻译又可以分为以下几个问题:模型问题、训练问题、解码问题。所谓模型问题,就是为机器翻译建立概率模型,也就是要定义源语言句子到目标语言句子的翻译概率的计算方法。而训练问题,是要利用语料库来得到这个模型的所有参数。所谓解码问题,则是在已知模型和参数的基础上,对于任何一个输入的源语言句子,去查找概率最大的译文。

实际上,用统计学方法解决机器翻译问题的想法并非是20 世纪90年代的全新思想,1949年W. Weaver就已经提出使用这种方法,只是由于乔姆斯基(Chomsky)等人的批判,这种方法很快就被放弃了。批判的理由主要是一点:语言是无限的,基于经验主义的统计描述无法满足语言的实际要求。另外,限于当时的计算机速度,统计的价值也无从谈起。而现在,计算机不论从速度还是从容量方面都有了大幅度的提高,昔日大型计算机才能完成的工作,今日小型工作站或个人计算机就可以完成了。此外,统计方法在语音识别、文字识别、词典编纂等领域的成功应用也表明这一方法在语言自动处理领域还是很有成效的。

统计机器翻译方法的数学模型是由国际商业机器公司(IBM)的研究人员提出的。统计机器翻译的基本思想是:从理论上说,这种模型只考虑了词与词之间的线性关系,没有考虑句子的结构。这在两种语言的语序相差较大时效果可能不会太好。如果在考虑语言模型和翻

译模型时将句法结构或语义结构考虑进来,应该会得到更好的结果。

统计方法的兴起缘于上世纪九十年代以来互联网的广泛应用,整个社会的信息呈现爆炸趋势,机器翻译的需求凸显。与此同时,人们对于提高机器翻译的质量和速度有了新的想法,基于“统计”的方法备受关注。参与这个领域研究的人数和发表论文的数量都呈指数型增长。统计机器翻译技术本身也经过了一个不断发展的过程,统计集群翻译的模型框架从早期的噪声信道模型发展到目前普遍采用的对数线性模型,其中最主要的统计翻译模型也从早期的基于词的模型发展到了目前主流的基于短语的模型,以及目前很多人都在进行的基于句法的统计翻译模型研究。

目前,Google的在线翻译已为人熟知,其背后的技术即为基于统计的机器翻译方法,基本运行原理是通过搜索大量的双语网页内容,将其作为语料库,然后由计算机自动选取最为常见的词与词的对应关系,最后给出翻译结果。不可否认,Google采用的技术是先进的,但它还是经常闹出各种“翻译笑话”。其原因在于:基于统计的方法需要大规模双语语料,翻译模型、语言模型参数的准确性直接依赖于语料的多少,而翻译质量的高低主要取决于概率模型的好坏和语料库的覆盖能力。基于统计的方法虽然不需要依赖大量知识,直接靠统计结果进行歧义消解处理和译文选择,避开了语言理解的诸多难题,但语料的选择和处理工程量巨大。因此目前通用领域的机器翻译系统很少以统计方法为主。

3.另辟蹊径的基于实例的方法

与统计方法相同,基于实例的机器翻译方法也是一种基于语料库的方法,其基本思想由日本著名的机器翻译专家长尾真提出,他研究了外语初学者的基本模式,发现初学外语的人总是先记住最基本的英语句子和对应的日语句子,而后做替换练习。参照这个学习过程,他提出了基于实例的机器翻译思想,即不经过深层分析,仅仅通过已有的经验知识,通过类比原理进行翻译。其翻译过程是首先将源语言正确分解为句子,再分解为短语碎片,接着通过类比的方法把这些短语碎片译成目标语言短语,最后把这些短语合并成长句。对于实例方法的系统而言,其主要知识源就是双语对照的实例库,不需要什么字典、语法规则库之类的东西,核心的问题就是通过最大限度的统计,得出双语对照实例库。

基于实例的机器翻译对于相同或相似文本的翻译有非常显著的效果,随着例句库规模的增加,其作用也越来越显著。对于实例库中的已有文本,可以直接获得高质量的翻译结果。对与实例库中存在的实例十分相似的文本,可以通过类比推理,并对翻译结果进行少量的修改,构造出近似的翻译结果。

这种方法在初推之时,得到了很多人的推崇。但一段时期后,问题出现了。由于该方法需要一个很大的语料库作为支撑,语言的实际需求量非常庞大。但受限于语料库规模,基于实例的机器翻译很难达到较高的匹配率,往往只有限定在比较窄的或者专业的领域时,翻译效果才能达到使用要求。因而到目前为止,还很少有机器翻译系统采用纯粹的基于实例的方法,一般都是把基于实例的机器翻译方法作为多翻译引擎中的一个,以提高翻译的正确率。

4.各有长短融合使用

应该说,无论是直译法、转换法、中间语法,还是实例法和统计法,都是各有长短。作为理性主义范畴,前面三者属于基于规则的方法。它的典型缺点是技术粒度太大,即计算机语言无法完全描述实际语言组合中无限丰富的规则。

而作为经验主义范畴,后面两者属于基于语料库的方法,其典型缺点是数据稀疏。也就是说,由于语言的无限性,任何高性能的计算机都无法统计出所有短语的使用情况,总是会存在疏漏。

随着这些方法的各自缺陷逐步为人们所认知,自上世纪90年代以来,机器翻译系统的实现越来越多地集成了不同的方法和策略,基于单一方法的产品越来越少。其中最具有代表性的无疑是尼伦伯格提出的多引擎机器翻译系统,即系统中集成多种机器翻译的实现方法,每种方法构成的翻译模块作为一个引擎,多个引擎协同配合,共同完成翻译工作。

我们判断:在今后的机器翻译研究中,多种方法互相借鉴,互相融合的趋势会越来越明显。基于规则的方法与基于语料库的方法相结合,机器翻译与翻译记忆相结合,很可能是今后研究发展的主流方向。

三、汉英机译系统的开发瓶颈

经过认真的文献调研并结合我们的开发经验,机器翻译的开发瓶颈可归结为以下几个方面:

1.汉语言中存在一些不利于机器翻译的特点

将表达灵活多变的汉语通过机器自动翻译的方式转化为语法逻辑严谨的英语,在词法、句法和语义三个层面上都存在诸多不利因素。

词法层面上,汉语中存在很多兼类词、离合词、组合词和多义词,要实现它们的正确翻译,仅仅根据词性、词义执行词的转换是远远不够的,还需要从语义方面加以理解,大大增加了系统的开发难度。同时,汉语言中词与词之间没有词界,这给机器进行词语切分造成了很大的麻烦,极大地影响了翻译效果。

句法层面上,连动句式、兼语句式、无主句、形容词谓语句及名词谓语句等的大量应用妨碍了机器正确判断句子的结构、成分,影响了翻译结果的准确性和可读率。

语义层面上,汉语言中很多表达没有明显的时态标志、名词也没有明显的单复数标志,需要机器根据语境、语义判定,但这是绝大多数汉英机译系统难以实现的。除此之外,省略结构、意译表达方式的存在也给机器翻译带来了新的难度。

2.知识抽取不易

一般的机器翻译系统至少要有一、二十万条的词汇,一、两千条分析规则,以及一、两千组转换规则才足敷使用。在这些繁琐知识的抽取过程中,如何使其达到相当的涵盖面,并且在不断更新的过程中仍然保持这些知识的一致性;如何把这些词典资料加以完善,且使里面的规则保持一致,不互相冲突,是个非常耗时耗力、高成本、高难度的工程问题。在后续

的系统维护和完善中,这个问题也同样存在。

3.单向式的系统设计

汉英机器翻译中存在的另一个问题,在于传统的机器翻译系统是一个单向式的设计。由于传统的转换式机器翻译是遵循“分析”、“转换”、“生成”这三个步骤一路走下来的,这就使得“转换”和“生成”带有了浓厚的原始语言色彩。因此,汉英翻译系统的输出结果通常都是汉语式的英语,换言之,英文的生成语法变成了汉语式的语法。而汉语言的表达非常灵活,语法规则也比较宽松,按照这样的语法转化出来的英文需要经过相当的改善,才能达到使用者的期望。

4.使用者的期望太高

虽然经过几十年的发展,汉英机器翻译有了很大的进步。但就现在的水平而言,仍然与全自动高质量的标准有着不小的差距。目前,汉英机器翻译系统的现实定位应该是:不需要非常精准的翻译,只要译文能够忠实的表达原文意思,让阅读者基本可读即可,过分的追求“信、达、雅”,反而会事倍功半。

四、对构建我局专利文献汉英机器翻译系统的启示

基于以上内容,并结合对局内从事专利文献机器翻译研究单位开发经验的总结,现提出对构建我局专利文献汉英机器翻译系统的几点建议:

1.注重机器翻译中多种方法的融合

如前述,单一采用规则方法或者实例方法很难得到令人满意的翻译效果。而统计机器翻译,虽然近年来取得了较大进展,但短期内以此方法为核心构建出面向真实专利文献的实用系统未免过于乐观。这是因为统计方法关注语言中的共性现象,却忽略了个性现象,对语言的灵活性把握不够,而其它方法,例如基于规则的方法对语言现象的处理则要好很多。由此,我们得出如下结论:单一方法很难达到预期效果,采用多策略机器翻译方法,融合规则、语料库和语义方法来完成系统构建,是获得专利文献高质量译文的有效途径。

2.引入语言知识

目前在学术研究界,基于句法的统计方法已经迈出了引入语言学知识的第一步,随着研究的不断深入,在统计机器翻译中继续引入各种语言学知识(例如句法知识、语义知识等)已是大势所趋。如果学术界设计出新的翻译模型,具备了付诸专利文献领域实际应用的前提条件,提高机器翻译质量的可行途径之一有可能在于引入符合专利文献特点的语言知识。

3.强化语义分析在翻译中的作用

由于汉语言在词法、句法、语义层面上

均存在一些不利于机器翻译的特点,难于用基于规则、基于统计或基于实例的方法加以解决。为获得高质量的专利文献翻译结果,一个非常有效的方法就是引入并强化语义分析手段,以意义表达和语言理解为主线,深入分析语句的深层结构及元素间的深层关系,使计算机在准

确理解的基础上进行翻译。建议局相关部门对该技术领域的发展动态进行跟踪研究,并对其应用前景加以仔细评估。

4.重视语言资源的建设

统计方法(和其它机器翻译方法)要有效地应用于专利文献翻译,有赖于获得海量的语料库,但其中往往含有很多噪声,对模型影响很大。可行的解决途径是在研究自动处理方法的同时,加强对语料库的人工加工和处理。虽然这一工作极其费时费力,却可以一劳永逸,所以局相关部门有必要给予足够的重视和投入。

5.把握机译系统的定位

目前局内外从事机器翻译的单位众多,且不少都定位于解决专利文献的机器翻译,但实现具有自适应能力、高度智能化的自动机器翻译是非常困难的,而提供机器辅助人工翻译的接口和工具,实现具有一定环境适应性的翻译系统也将是实用翻译系统的发展方向之一。建议局相关部门合理组织开发资源,指导各单位机译系统的具体定位。

6.关注评测方法的研究

从鼓励竞争、促进良性发展考虑,找到一个公正合理的机器翻译评测方法已成为一项重要课题,评测可以为各家提供一个比较平台,是机器翻译发展的推动力和领航员,评测方法会影响到机器翻译的研究方法,目前很多系统专门针对评测的指标进行改进,有时候偏离了对技术本身的研究。因此,设计合理、实用有效、面向专利特定领域的机器翻译评测方法也是一个重要的研究方向。

参考文献

[1]《机器翻译研究》,冯志伟,中国对外翻译出版公司,2005年1月版

[2]“统计机器翻译综述”,刘群,《中文信息学报》,2003,17(4):1-12[3]“机器翻译的一些处理方法探讨”,杨宪泽,西南民族大学学报(自然科学版) 2004,01

(信息化办公室张东亮审校)

机器翻译技术的现状及发展

机器翻译技术的现状及发展 篇一:翻译技术领域的现状与展望 翻译技术领域的现状与展望 作者/王华伟闫栗丽 翻译技术在中国的发展起步相对较晚,但近年来随着中国在全球化进程中扮演着越来越重要的角色,催生了对翻译技术发展的强烈需求。中国翻译行业在借鉴国外同行经验的基础上,于2007~2008年间在翻译技术领域取得了一系列成就,也还存在一些亟需改进的方面,而这也势必对我国的翻译行业产生深远的影响。 1. 国家政策的扶持和行业协会的推动 翻译技术的发展直接关乎整个翻译行业的翻译质量及效率,具备巨大的行业经济效益。对此,科技部、财政部都给与了足够的重视并拨出专项资金进行扶持。在 2008年的科技型中小企业技术创新基金扶持计划中,中文及多语种处理软件及基于先进语言学理论的中文翻译软件等赫然在列。而中国译协也在 2008年的第 18届世界翻译大会上专门辟出了翻译工具、术语管理和翻译标准等分论坛,着力推动翻译技术的探讨与发展。 2. 词典型翻译软件百花齐放 词典是使用范围最广的工具,它以使用便利的优势,几乎占据了每个计算机的桌面,无论语言学习者还是专业翻译人员,几乎都是必备工具。词典的发展从最早的单机版本发展至今,已经有很多种产品

类型,我们可以见到的有:电子词典、在线词典、手机词典等。“金山词霸”的网络版本“爱词霸”在这两年获得了长足的发展,如爱词霸网络释义、谷歌金山词霸等一系列特色功能的相继推出,将词典型翻译软件的应用领域从传统的桌面计算机拓展到网络、手机等,并取得了显著的成功。另外,类似Google这样的搜索引擎,因为信息量大,检索便利而成为很多专业翻译人员查词的重要辅助工具。 值得一提的是,最新推出的基于用户发布词汇的词典编撰系统之前的词典都是以各大出版社公开发行的词典中的词条作为主要数据库来源,为用户提供查询上的便利。但是传统出版词典的方式存在发布周期长、词汇更新慢的缺陷。互联网的出现,加快了信息传播的速度,也提高了用户对新词更新的速度要求,为了方便新词汇的发布,词典编纂系统也就应运而生了。这是一种基于用户的词典发布系统,用户可自由发起词典编纂项目,自发组织人员参与项目,发起人可以按照需要给小组成员分配不同的权限,将词汇添加等基本工作和审核人员明确区分,既确保了词典的专业性,也实现了专业语料的适时更新和发布。 3. 机器翻译应用软件融入普通网民生活 谷歌语言工具的推出打破了互联网语言的藩篱,用户可以方便简捷地将目标语言的网页转化成自己的母语进行浏览。事实上,这也是机器翻译软件的一个应用领域,而国内的相关软件如金山快译等,专注于为普通网民提供更为友好的英中日网站浏览体验,并在亚洲语言的机器翻译应用方面积累了大量的经验。其他如华建等长期从事机器

机器翻译技术介绍

机器翻译技术介绍
常宝宝 北京大学计算语言学研究所 chbb@https://www.doczj.com/doc/c2348180.html,

什么是机器翻译
研究目标:研制出能把一种自然语言(源语言)的文 本翻译为另外一种自然语言(目标语言)的文本的计 算机软件系统。 制造一种机器,让使用不同语言的人无障碍地自由交 流,一直是人类的一个梦想。 随着国际互联网络的日益普及,网上出现了以各种语 言为载体的大量信息,语言障碍问题在新的时代又一 次凸显出来,人们比以往任何时候都更迫切需要语言 的自动翻译系统。 但机器翻译是一个极为困难的研究课题,无论目前对 它的需求多么迫切,全自动高质量的机器翻译系统 (FAHQMT)仍将是人类一个遥远的梦。

机器翻译的基本方法
机器翻译的基本方法 ? 基于规则的机器翻译方法 ? 直接翻译法 ? 转换法 ? 中间语言法 ? 基于语料库的机器翻译方法 ? 基于统计的方法 ? 基于实例的方法 ? 混合式机器翻译方法
目前没有任何 一种方法能实现机 器翻译的完美理 想,但在方法论方 面的探索已经使得 人们对机器翻译问 题的认识更加深 刻,而且也确实带 动了不少不那么完 美但尚可使用的产 品问世。
20世纪90年代以前,机器翻译方法的主流一直是基于规则的方 法,不过,统计方法后来居上,目前似乎已成主流方法,从学术 研究的角度看,更是如此。(Google translate)

机器翻译的基本方法
20世纪90年代以前,机器翻译方法的主流一直是基于 规则的方法,因此基于规则的方法也称为传统的机器 翻译方法。 直接翻译法 ? 逐词进行翻译,又称逐词翻译法(word for word translation) ? 无需对源语言文本进行分析 ? 对翻译过程的认识过渡简化,忽视了不同语言之间 在词序、词汇、结构等方面的差异。 ? 翻译效果差,属于早期过时认识,现已无人采用 How are you ? 怎么 是 你 ? How old are you ? 怎么 老 是 你 ?

机器翻译

机器翻译 1 概述 机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解( Natural Language Understanding)之间存在着密不可分的关系。 2 国内外现状 机器翻译思想的萌芽关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。笛卡(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。在17世纪中叶,贝克(Cave Beck)、基尔施(Athanasius Kircher)和贝希尔(Johann JoachimBecher)等人都出版过这类的词典。由此开展了关于“普遍语言”的运动。维尔金斯(JohnWilkins)在《关于真实符号和哲学语言的论文》(An Essay towards a Real Character andPhilosophical Language, 1668)中提出的中介语(Interlingua)是这方面最著名的成果,这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。本世纪三十年代之初,亚美尼亚裔的法国工程师阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做“机械脑”(mechanical brain)。这种机械脑的存储装置可以容纳数千个字元,通过键盘后面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户,尤其适合于作机器词典。在宽纸带上面,每一行记录了源语言的一个词项以及这个词项在多种目标语言中的对应词项,在另外一条纸带上对应的每个词项处,记录着相应的代码,这些代码以打孔来表示。机械脑于1937年正式展出,引起了法国邮政、电信部门的兴趣。但是,由于不久爆发了第二次世界大战,阿尔楚尼的机械脑无法安装使用。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W. Rieger) 曾经提出过一种数字语(Zifferngrammatik),这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译” (德文是ein mechanisches Uebersetzen)这个术语。 真正对机器翻译进行研究应该说是从布恩和韦弗开始的。他们研究的是自动词典万, 从1954年1月7日公开展示的IBM701型计算机开始, 机器翻译进人一个繁荣发展的时期。从那时起, 很多国家都投人了大量的人力、物力从事这方面的研究和开发。随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星” 、“雅信” 、“通译” 、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。 中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都

机器翻译质量的研究与探讨

机器翻译质量的研究与探讨 何站涛韩兆强闫栗丽 交大铭泰软件有限公司北京100081 E—mail:hezt@sunv.com <摘要:本文简介了机器翻译的发展历史和常用方法,重点阐述了提高机器翻译质量的新思路,最后进行了展望. 关键词:机器翻译N元文法语义网语料库计算机辅助翻译 一、引言 计算机对自然语言的研究和处理,一般应经过如下三个方面的过程: I.把问题在语言学上加以形式化.使之能用数学形式严密而规整地表示出来 2.把这种数学形式表示为算法,使之在计算上形式化; 3.根据算法编写计算机程序,使之在计算机上加以实现。 因此.自然语言处理就成了语言学、数学和计算机科学之间的边缘学科。 二、机器翻译概述 面向计算机的语言的机器翻译研究是二十世纪五十年代才开始的: 从五十年代初期到六十年代中期,机器翻译一直是自然语言处理系统研究的中心课题,当时采用的主要是“词对词”翻译方式,这种不是建立在对自然语言理解的基础上的简单技术,没有得到预期的翻译效果,如,威沃(Weaver)设计实现的机器翻译原型系统,该系统采取查找双语词典,句子译文只是单词译文的简单罗列。 六十年代初,自然语言处理使用了简单的语料库统计方法,不仅依据词的意义.而且依据词与其他词的共现情况对词进行分类。但经验主义遭到了理性主义的批评,如乔姆斯基(Chomsky)对N元语法(N.Gram)的批评、闵斯基(Minsky)等对神经网络的批评。 六十年代中期,人们开始转入对自然语言的语法、语义和语用等基本问题的研究,并尝试着让计算机来理解自然语言。乔姆斯基的转换语法和形式化理论为下一代的自然语言处理提供了一种新的解决方案。 七十年代初,美国哈佛大学人工智能专家伍兹(Woods)提出了扩充转移网络(AugmentedTransitionNetWork,ATN),通过使用成份寄存器和功能约束对有限状态机进行了扩充,ATN考察了更多的上下文信息,保持了有限状态计算的简单性。 从八十年代初期开始,国际计算语言学界出现了一批新的语法理论。比较著名的有广义短语结构语法(GeneralizedPhraseStructureGrammar,GPSG)、中心语驱动的短语结构语法(Head-drivenPhraseStructureGrammar,HPSG)、词汇功能语法(LexicalFunctionalGrammar,LFG)、功能合一语法(FunctionUnificationGrammar,FUG)等确定子句语法。 ?218?

机器翻译评测大纲

机器翻译评测大纲 一、评测对象 本次评测的对象包括:汉-英、英-汉、汉-日、日-汉机器翻译系统中的核心技术。 二、评测内容 本次评测组织两种语料的评测,一种是篇章语料,一种是对话语料。领域是面向奥运的相关领域,包括体育赛事、天气预报、交通住宿、旅游餐饮等。 本次评测的评测指标包括译文质量和翻译速度。 三、评测方法 1. 评测方式 本次评测为现场评测。采用的是以人工评测为主,人工评测和自动评测相结合的方式。 人工评测方式是:由评测组织单位将各个评测单位提交的评测结果汇总在一起,然后用计算机随机打乱译文句子的排列顺序。再将所有译文句子提交给多位专家进行人工评测。将专家评测的结果汇总,用计算机还原成原来的排列顺序,分别计算出各个评测单位的总得分。 2.评测步骤 ?在评测单位统一提供的评测环境上安装被测系统 ?评测单位给出评测数据 ?被测单位运行系统,提交评测结果 ?评测单位运行自动评测程序,得出自动评测结果 ?评测单位事后进行人工评测 ?公布评测结果 3.评测标准 (1)自动评测标准

机器翻译的自动评测目前比较成熟的标准有BLEU标准、NIST标准等。本次评测采用NIST标准。具体评测标准见附件。 (2)人工评测标准 本次评测按0 - 6个等级层次打分,最后采用百分制换算评测结果。 总的可理解率=(T1*20%+T2*40%+T3*60%+T4*80%+T5*90%+T6*100%)/ 总句数 其中:Ti为被评为第i等级的句数。

(3)翻译速度评测标准 由主持评测的工作人员现场记录翻译时间,各系统自动显示从第一个句子翻译开始到所有句子翻译完毕所用的时间(不计系统初始化所用时间,只记开始翻译到所有句子翻译完毕所用时间)。 4. 输入输出文件格式 下面以汉英机器翻译为例,说明输入输出文件格式。其中p标签为段落标记,s标签为句子标记。输入文件中每个s标签内部为一个句子。输出文件中每个s 标签与输入文件中的s标签一一对应。由于一个源语言句子可能翻译成一个或多个目标语言句子,所以输出文件中每个s标签内部可以有不只一个句子。Lang 为语言代码,汉语用“zh”表示,英语用“en”表示,日语用“ja”表示。汉语、英语、日语的输入和输出文件统一采用GBK编码。 (1)输入文件格式: 玻利维亚举行总统与国会选举 (法新社玻利维亚拉巴斯电)玻利维亚今天举行总统与国会选举,投票率 比预期更高,选民希望选出的新领导阶层能够振兴经济,改善人民的生活水准,抑制这个南美洲最贫穷国家的劳工骚动。 投票所于下午四时(台北时间七月一日清晨四时)关闭,选务人员说,选 举结果将于两小时之后开始发布。 稍早,玻利维亚总统与参与选举的候选人援引巴西赢得世足赛冠军为 例,鼓励民众踊跃投票,虽然联邦法律规定,凡达投票年龄的玻利维亚人都必须 投票。

机器翻译研究现状与展望1 Machine TranslationPast,Present,future

机器翻译研究现状与展望1 戴新宇,尹存燕,陈家骏,郑国梁 (南京大学计算机软件新技术国家重点实验室,南京 210093) (南京大学计算机科学与技术系,南京 210093) 摘要:本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,包括:基于规则、基于统计以及基于实例的机器翻译方法;针对机器翻译的研究现状,详细介绍和分析了基于混合策略的机器翻译方法,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。 关键字:机器翻译,基于规则,基于统计,基于实例,混合策略,机器学习 Machine Translation:Past,Present,future Dai Xinyu, Yin Cunyan, Chen Jiajun and Zheng Guoliang (State Key Laboratory for Novel Software Technology, Department of Computer Science & Technology Nanjing University, Nanjing 210093) Abstract:This paper firstly presents the history of machine translation, and introduces some classical paradigms of machine translation: RBMT, SBMT and EBMT. Secondly, we introduce the recent research on machine translation, and describe the hybrid strategies on machine translation in detail, and discuss the applications of machine learning for machine translation. We also analyze the current techniques about evaluation on machine translation. Finally, we draw a conclusion and prospect on the research of machine translation. Keywords:Machine Translation, RBMT, SBMT,EBMT, HSBMT, Machine Learning. 1本论文工作得到863课题资助(编号:2001AA114102, 2002AA117010-04) 戴新宇博士生,主要研究自然语言处理;尹存燕助教,主要研究自然语言处理;陈家骏教授,博士生导师,主要研究自然语言处理、软件工程;郑国梁教授,博士生导师,主要研究软件工程。

机器翻译研究综述

机器翻译综述 1.引言 1.1机器翻译的历史 现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。 在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。他提出了两个主要观点: 第一,他认为翻译类似于解读密码的过程。 第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中 间语言”,可以假定是全人类共同的。 在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。 1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期 1.2机器翻译的主要内容 经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法 ●句法转换方法 ●中间语言方法 ●基于规则的方法 ●基于语料库的方法 基于实例的方法(含模板、翻译记忆方法) 基于统计的方法 在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。 下面对各个方法逐一的进行介绍。

一个汉英机器翻译系统的设计与实现

一个汉英机器翻译系统的 计算模型与语言模型* 刘群+詹卫东++常宝宝++刘颖+ (+中国科学院计算技术研究所二室北京100080) (++北京大学计算语言学研究所北京100871) 摘要:本文介绍我们所设计并实现的一个汉英机器翻译系统。在概要介绍本系统的主要目标和设计原则的基础上,着重说明系统的计算模型和语言模型,最后给出实验结果和进一步的打算。 关键词:自然语言处理机器翻译中文信息处理 一、引言 我国的机器翻译研究近年来取得了很大的发展。特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的阶段。相对而言,汉英机器翻译的研究却进展比较缓慢,离实用化还有相当的距离[1]。我们的目的是利用目前最新的计算机软件技术、相对成熟的机器翻译方法和先进的汉语语法理论,构造一个初步实用的汉英机器翻译系统。本文将对我们所开发的系统所采用的计算模型和语言模型作一个总体性的介绍,而不涉及过多的细节。 下面我们简要介绍一下本系统的几个主要设计原则: ⑴采用成熟的技术 我们的目的是构造一个真正实用的汉英机器翻译系统,因而在可供选择的若干技术路线面前,我们将尽量选用比较成熟的技术,而在现有技术难以解决问题时再尝试一些新技术。 ⑵开放的体系结构 开放的体系结构主要体现在系统的实现上所采用的软件构件技术[8]。整个系统采用一些相对独立的软件构件组成,因而可以方便地对系统进行修改、维护和扩充。翻译的过程严格按照独立分析、独立生成的原则进行组织,每一阶段的算法相互独立,对其中一个阶段算法的修改不会对其他算法造成影响。 ⑶方便的调试环境 本系统强调为语言工作者提供一个方便的调试环境。系统提供多窗口图形界面的知识库调试工具,支持课题组中多人同时通过网络对一个知识库进行操作。提供对翻译过程直观显示,用户可以清晰地看到翻译过程的每一步操作。提供翻译出错原因查找机制,用户 *本项目的研究受到863-306资助,合同号为863-306-03-06-2

机器翻译技术的探讨

机器翻译技术的探讨 六院五队-徐允鹏-12060143 摘要随着国际交流的日益增多,在计算机、互联网等相关技术日新月异的基础上,机器翻译的技术与应用得到了蓬勃发展。本文详细探讨了基于规则的机器翻译方法、基于语料库的机器翻译方法和混合式机器翻译方法,并讲述了机器翻译的评估方法,最后介绍了机器翻译技术的最新进展。 关键词:机器翻译;基于规则;语料库;评估方法 1.机器翻译概述 随着国际化交流的普遍性,信息通信的日益膨胀,高效的处理不同领域各种语言之间的互译已成为当代人们的普遍需求。翻译是解决自然语言之间通信障碍最直接最有效的方法。传统的翻译工作都是通过专业翻译人员完成,利用语言学知识进行自然语言之间的互译,帮助人们实现信息通信。伴随着计算机技术的成熟与自然语言处理技术的不断进步,利用机器翻译系统帮助人们快速获取外文信息代替人工翻译已成为一种必然的趋势。 机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language

Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系[1]。 机器翻译是21世纪要解决的科技难题之一,主要困难是自然语言在各个层次上的歧义性。研究机器翻译具有重要的实践意义和理论意义。国际间的合作与交流,语言的差异是一个非常重要的障碍,各行各业的人们面对大量他们不熟悉的语言的文档资料,如果单纯的依靠人工翻译,这些日益的待翻译材料将是一种非常沉重的负担,而机器翻译可大幅度减轻这种负担。同时,机器翻译对于了解人类语言和思维的基本机制,探讨人工智能技术有着重要的意义。 2.机器翻译方法 人们一直在寻求更好的解决机器翻译问题的方法,目前机器翻译方法主要有基于规则的机器翻译,基于语料库的机器翻译和混合式机器翻译方法。 2.1基于规则的机器翻译方法 2.1.1基于分析和转换的机器翻译方法 人作翻译时,把一个源语言句子译成目标语言句子,设计到四个基本操作:目标语言单词的检索、调序、删词、增词;机器翻译系统的过程包括检索、分析、转换和生成主要四个阶段,这被称为基于分析和转换的机器翻译系统,也被认为是模拟人类翻译活动最恰当的机

浅谈机器翻译存在的问题

机器翻译及其问题浅析 摘要:由于信息技术高速发展,国际交流日益频繁,如何克服语言障碍已经成为国际社会共同面对的问题,而人工翻译的方式已经远远不能满足需求。利用机器翻译协助人们快速获取信息已成为必然趋势,但机器翻译仍存在一些影响译文可读性和准确性的问题。本文将简单介绍机器翻译并对常见问题进行浅析。 关键词:机器翻译问题语法应用 一、引言 机器翻译(Machine Tanslation,简称MT),又称自动翻译,是利用计算机来进行不用的自然语言之间的翻译,它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。它是横跨语言学、数学、计算机科学、翻译学及人工智能等的综合学科,也是信息时代语言应用的一个重要领域。 二、机器翻译的简介 (一)机器翻译简史 人类在近代就萌发了机器翻译的梦想,但是真正把设想付诸现实还是因为计算机的诞生和计算机技术的发展。机器翻译的研究历史课追溯到20世纪四五十年代。1946年第一台现代电子计算机ENIAC诞生,同一年,美国科学家韦弗(W. Weaver)和英国工程师布斯(A. D. Booth)在讨论电子计算机的应用范围时,提出了利用计算机进行语言自动翻译的想法。1949年,韦弗(W. Weaver)发表《翻译备忘录》,正式提出机器翻译的思想。经过六十年的曲折发展,到目前互联网的普遍应用,以及人们对翻译需求的迅猛增长,给机器翻译带来新的发展机遇。我国相继推出了一系列的机器翻译软件如“译星”、“雅信”、“通译”、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。 (二)机器翻译的主要方法 机器翻译的过程一般可简化为三个阶段:原文分析、原文译文转化和译文生成。表象上,机器翻译的核心问题是翻译的准确性;实质上,体现在技术层面则是机器翻译系统采用的方法论问题。在方法论层面,机器翻译系统可分为基于规则(Rule-Based )和基于语料库(Corpus-Based)两大类。 基于规则(Rule-Based )就是由词典和语法规则库构成翻译知识库。尽管语言学家经过长期努力创建了含有成千上万条规则的规则库,覆盖了相当大范围的语言现象,但却难以

机器翻译技术的现状及发展

机器翻译技术的现状及发展 摘要:本文在分析机器翻译内涵的基础上,阐述了机器翻译的历史和现状,探讨了机器翻译所面临的问题及机器翻译的发展趋势。 关键词:机器翻译;自然语言;发展趋势 1.引言 《圣经.创世纪》中第十一章巴别塔:“耶和华说:看哪,他们成为一样的人民,都是一样的言语,如今既作起这事来,以后他们所要作的事就没有不成就的了。我们下去,在那里变乱他们的口音,使他们的言语彼此不通。于是耶和华使他们从那里分散在全地上;他们就停工,不造那城了。因为耶和华在那里变乱天下人的言语,使众人分散在全地上,所以那城名叫巴别(就是变乱的意思)[1]。”这只是圣经故事,但告诉我们语言的不同确实是人们交流的极大障碍,因此人们一直在寻找打破语言障碍的途径和办法。翻译则能克服语言障碍,使得不同语言人们之间能相互交流。谭载喜在他的《西方翻译简史》一书中提到我国的翻译史时说:孔子周游列国,在各地言语发音不尽相同,彼此交流甚少的当时,也不得不通过象寄之才(即翻译人员)以“达其意,通其欲”。随着互联网的日益发展,网络信息的激增,国际社会交流愈加频繁,机器翻译已成为克服交流时所产生的语言障碍的重要手段之一。

2.机器翻译的定义 计算机翻译通常叫机器翻译(Machine Translation或MT),即全自动高质量机器翻译(Fully Automatic High Quality Machine Translation,简称FAHQMT或MT),就是人类利用计算机进行自然语言间的相互翻译,利用软件实现从一种自然语言文本到另一种自然语言文本的翻译[2]。 3.机器翻译的历史与现状 在古希腊时代就有人提出利用机械装置来进行语言翻译的想法,其中之一是如何用机械手段来分析自然语言。17世纪,人们首次提出使用机械字典克服语言障碍的设想。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W.Rieger)首次使用了“机器翻译”(Machine Translation)这个术语。1952年在美国麻省理工学院(MIT)召开了第一届国际机器翻译会议,标志着机器翻译正式迈出了第一步。1978年在中科院计算机所的一台64K容量的计算机上成功地进行了20个标题的机器翻译测试。1987年在日本箱根举行了第一届机器翻译峰会(MT Summit),并决定以后每两年轮流在亚、欧、美定期举行。20世纪90年代后,随着微机的普及,相继出现了多种翻译软件,例如金山公司的词霸系列,实达铭泰的东方快车系列,Trados 翻译软件等。到目前为止,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译已经取得了相当大的进步,不过,机器翻译的水平距理想的“全自动高质量(FAHQ)”的目标还有很远的距离[3]。4.机器翻译面临的问题 4.1影响机器翻译质量的核心是歧义的处理。在词汇的层面上,词汇的歧义主要是一词多义,如英语单词“note”可以指“笔记”、“短信”、“注释”、“纸币”等。以下是词汇歧义的例子: 原文:Thank-you notes are heart-warming. 机器译文:感谢笔记温暖人心。人工译文:感谢信温暖人心。 在结构层面上,常见的结构歧义有and(和)结构,如nice girls and boys, 它既可表示“好女孩和男孩”,也可表示“好女孩和好男孩”,这种歧义只有人工翻译才能消除,计算机无法识别此歧义,可见歧义的处理是影响机器翻译质量的关键。 4.2人类翻译目标集中于目标语言,如果有必要的话,译者会采用灵活的方式以使翻译传情达意,有的时候会使用意译的方法,这是机器翻译所无法达到的。 以文学翻译为例,文学翻译是“传达作者的全部意图,即作者对在读者思想感情上产生艺术作用的全部意图……”。即使对于专业翻译工作者来说,文学翻译也不是件容易的事,更何况是对于没有任何认知能力的机器。笔者曾让机器翻译了下面几句:以下是美国19世纪著名作家爱默森长篇散文Beauty中的原句。 原文:"But this beauty of Nature which is seen and felt as beauty, is the least part." —Beauty Ralph Waldo Emerson 机器译文:但是这哪个看见并且作为美丽感到的自然的美丽,是最小部分。 夏济安译文:可是凡是耳目所能辨认出来的美,只是自然之美的最低部分。 以下是美国著名作家马克.吐温早期创作的一则优秀短篇小说《竞选州长》中的原句。原文:"I hauled down my colors and surrendered." —Running For Governor Mark Twain 机器译文:我沿着我的颜色拖并且投降。 张有松译文:我偃旗息鼓,甘拜下风。 以上机器译文荒唐可笑。由于机器没有思维、推理、判断能力,缺乏人工译者的综合知识和长期积淀下来的文化知识等,无法对原文产生全面的了解,做的只是机械转码,无法突破思维障碍。要获得地道完整的译文,必须对机器译文进行人工

机器翻译的自动评测技术 机器翻译技术

机器翻译的自动评测技术机器翻译技术 本文介绍了机器翻译评测的基本原理以及常用评测标准,包括人工评测方法、基于n元匹配的BLEU和NIST自动评测方法。机器翻译领域最困难的任务之一就是对给定的翻译系统或者翻译算法 进行评价,我们称其为机器翻译评测。由于机器翻译所处理的对象――语言本身存在某种程度的歧义,无法像数学公式或者物理模型那样简单客观地描述出来,这使得为机器翻译结果进行客观的打分变得非常困难。最早的方法是人工评测,这种方法得到的结果一般是十分准确的,但评测的成本太高,周期过长(评测过程可能长达几周甚至数月),评价结果也会随着评价人的变化和时间的推移而不同,这使得评价结果不可重复,缺乏客观性,因此,机器翻译的自动评测应运而生。实践证明,机器翻译的评测尤其是自动评测对机器翻译研究的影响十分巨大,对研究发展和技术进步起着非常重要的引导作用。 基于n元匹配的自动评测方法 如果一个机器翻译评测系统只根据源语言文本就能自动地为若干译文打分并选择出其中最好的结果,那么这个评测系统本身就是一

个质量更好的机器翻译系统了。因此,自动评测最初的出发点就是给出一些标准的翻译结果,然后比较机器生成的译文与这些翻译之间的相似程度。我们称这些标准的翻译为参考译文(或者参考答案)。同一个句子可以有多个不同的参考译文,这些参考译文都表达同一个含义,但可能使用了不同的词汇,或者虽然使用了相同的词汇但在句中的词序不同。这样一来,机器翻译自动评测的问题转换为比较机器翻译系统输出的一个翻译结果和多个通过人工产生的正确的参考译文之间 的相似度的问题,使用不同的相似度计算方法即可得到不同的自动评测方法。 例如,考虑如下两个机器翻译系统生成的翻译结果: 源语言文本: 今年前两月广东高新技术产品出口37.6亿美元 系统译文1: The new high-tech products in Guangdong exported 3.76 billion dollars in the first two months this year

机器翻译技术的研究和应用综述

机器翻译技术的研究和应用综述 ACM Matrix_68 摘要:随着互联网的日益发展,网络信息的激增,国际社会交流愈加频繁,机器翻译已成为克服交流时所产生的语言障碍的重要手段之一。本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,在分析机器翻译内涵的基础上,阐述了机器翻译的现状,探讨了机器翻译所面临的问题及机器翻译的发展趋势,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。 关键字:机器翻译;自然语言;基于规则;基于统计;基于实例;混合策略;机器学习 1引言 近年来,自然语言处理的研究已经成为热点,而机器翻译作为自然语言研究领域的一个重要分支,同时也是人工智能领域的一个课题,同样为大家所关注。当电子计算机1946年问世的时候,人们就提出了机器翻译的想法,并且在1954年进行了第一次机器翻译试验。然而与后来的各种语言信息处理研究和应用(语言信息检索、文本自动分类、自动文摘、信息提取等等)相比,机器翻译却是进展最慢的。 从上个世纪40年代英国工程师Booth 和美国工程师Weaver提出利用计算机进行翻译的想法,到50年代欧美国家投入大量的人力、物力致力于机器翻译的研究,再到60年代ALPAC置疑报告的提出,机器翻译走向沉寂。 学者们倾其大半生精力、商家投入为数可观的资金,经历五十多年不懈的研究和开发,得到的成果或者产品却常常不能令人满意。最近的二十年,随着语言学理论的发展、计算机技术的进步以及统计学和机器学习 方法在自然语言处理领域中的广泛应用,人们对机器翻译本身的应用背景、目标等也有了更加准确的认识,机器翻译在此背景下取得了长足的发展,基于统计、基于实例等新的机器翻译方法也都是在这一时期出现,一些机器翻译系统也从实验室走向了市场。 本文第二节介绍了机器翻译的历史现状;第三节介绍了机器翻译面临的问题;第四节介绍几种经典的机器翻译方法;第五节给出近期机器翻译的发展趋势,介绍基于混合策略的机器翻译方法,对统计机器学习在机器翻译中的应用进行总结;第六节讨论当前机器翻译的评测系统;最后,对机器翻译研究进行总结和展望。 2机器翻译的历史现状 机器翻译的研究历史可以追溯到20世纪三四十年代。20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。1933年,苏联发明家П.П.特罗扬斯基设计了把一种语言翻译成另一种语 言的机器,并在同年9月5日登记了他的发明;但是,由于30年代技术水平还很低,他的翻译机没有制成。1946年,第一台现代电子计算机ENIAC诞生,随后不久,信息论的先驱、美国科学家W.Weaver和英国工程师A.D.Booth在讨论电子计算机的应用范围时,于1947年提出了利用计算机进行语言自动翻译的想法。1949年,W.Weaver发表《翻译备忘录》,正式提出机器翻译的思想。走过六十年的风风雨雨,机器翻译经历了一条曲折而漫长的发展道路,学术界一般将其划分为如下四个阶段: 2.1机器翻译的开创期(1947-1964) 1954年,美国乔治敦大学(GeorgetownUniversity)在IBM公司协同下,用IBM-701计算机首次完成了英俄机器

机器翻译的现状和发展趋势_岳涛

72 计算机教育 2005.4 人/才/培/养/与/就/业机器翻译(Machine Trans-lation)是通过计算机来实现不同自然语言之间的翻译。机器翻译是自然语言处理(Natural LanguageProcessing)的一个分支,机器翻译与计算语言学(ComputationalLinguistics)、自然语言理解(Natural Language Understanding)存在着密不可分的关系。机器翻译的研究与发展取决于计算机科学、数学、语言学、人工智能等多学科的发展,因此机器翻译可以说是一个跨学科的综合性系统工程。人类步入21世纪以来,随着国际互联网(Internet)的迅猛发展,网络信息急剧膨胀,国际交流日益频繁以及地球村的形成,机器翻译正在逐渐成为克服人们之间进行交流时所面临的语言障碍的重要手段,同时也面临着很大的市场机遇和挑战。 历史的回顾 从美国人维弗(Warren?Weaver)于1949年发表《翻译》备忘录并正式提出机器翻译的思想以来,机器翻译已经走过了50多个风风雨雨的春秋。在这期间,机器翻译可以说经历了一条曲折而漫长的 发展道路。 1954年,在美国乔治敦大学(Georgetown University)进行了 人类历史上的第一次机器翻译的公开演示。尽管演示尚不算很成功,但是它却具有划时代的意义,因为它拉开了人们研究机器翻译 的序幕。 从20世纪50年代开始到20世纪60年代的前半期,机器翻译的研 究呈不断上升的趋势。美国和前苏联两个超级大国出于军事和政治经济目的,纷纷对机器翻译项目提供了大量的资金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视。 1966年,美国科学院发表的ALPAC报告使当时正在蓬勃发展的机器翻译陷入了停滞的状态。现在来看,该报告是非常片面、狭隘和短视的。 从20世纪60年代中后期到整个70年代,整个机器翻译领域处于一个相对平稳发展的时期,而在某些国家,特别是加拿大和欧盟,机器翻译的研究却取得了比较显著的进步。尤其是在加拿大,由于双语文 化的影响,政府积极支持机器翻译的研发工作,1976年,加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发了提供天气预报服务的实用性机器翻译系统TAUM-METEO,该系统的成功开发标志着 机器翻译已经在某些领域达到了实用化的程度。 进入20世纪80年代以来,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译在全世界范围内开始复苏,并在随后的90年代取得了长足的进步。 20世纪90年代以来的机器翻译技术的新进展 1.机器翻译的分类 进入20世纪90年代,机器翻译领域的的研究方法基本上可以分为两大类,即基于规则(Rule-Based)和基于语料库(Corpus-Based)的方法。基于规则的方法又可以分为基于转换的方法和基于中间语言的方法,基于语料库的方法又可以分为基于统计的方法和基于实例的方法。传统的基于规则的方法又可以 机器翻译的现状和发展趋势 中国软件与技术服务股份有限公司 岳涛/文 ◆ 课外新知 ◆

机器翻译现状

机器翻译的现状与发展 摘要:随着经济全球化的飞速发展以及人类命运共同体的提出,各国之间人民之间的交流必将日益频繁,各个国家语言之间转换需求也必定与日俱增,人为地学习千百种语言实在不易,机器翻译的作用也就越来越受到重视。它涉及计算机语言学、数学和语言学等各个学科,其中语言学为其提供了机译数据库和技术支撑。然而,目前机器翻译还存在许多不足,需要多方面深入研究。本文对机器翻译发展历程、研究方法、存在问题及其应对方法进行了综述,以期机器翻译更进一步发展。 关键词:机器翻译;发展历程;研究方法;语言学理论;问题;应对方法 机器翻译是通过计算机来实现不同自然语言之间的转换,也称为自动翻译,一般是指自然语言之间的部分句子或全文的翻译。它作为应用语言学的一个分支,是建立在语言学、数学和计算机科学基础上的跨学科研究。由于需要通过电脑数据库和翻译软件来完成操作,因此,机器翻译的发展与计算机科学、数学、人工智能、语言学等各学科的发展密不可分,可以说,机器翻译的推进需要这些学科的技术支撑和理论支持。人类进入21世纪以来,随着经济的发展,国际交流合作日益频繁,对机器翻译的需求日益增大。机器翻译是规避国家间交流障碍的有效手段,但作为综合性的学科,它的发展受到多方面牵制,因此需要相关研究人员和学者对其相关学科进行更深入的研究。 1机器翻译发展历史 机器翻译的历史最早可以追溯到20世纪30年代相关学者提出其雏形,如今处于高速发展的阶段。然而在初期机器翻译受到过阻碍,一度陷入低潮期。直到移动互联网时代的到来,一方面,随着计算机网络技术快速发展,人们要求用计算机实现语言翻译的愿望越来越强烈。另一方面自1990年统计机器翻译模型提出以来,基于大规模语料库的统计翻译翻译方法迅速发展,机器翻译再次成为人们关注的热门研究课题,取得了一些令人瞩目的成果。但是,在机器翻译飞速发展的同时,也遇到了很多难题,在目前的技术条件下翻译的质量还不能够达到人们的期望的程度,想让机器让人类一样去理解和分析语言还远不能行。在当今信息大数据时代,机器翻译正发挥越来越重要的作用。 机器翻译的发展可以归结为以下几个发展阶段: 1.1机器翻译人员的独立工作阶段 20世纪50年代初期,随着第一台计算机的问世,美国的科学家W.Weaver和英国工程师A.D. Booth就发表了翻译备忘录,提出了利用计算机进行翻译的设想。随后,通过不懈的努力和试验,美国的乔治伦敦大学和IBM公司合力推出了首个MT系统,为各国的机器翻译奠定了坚实的实践基础。但是由于受到计算机硬件局限性的限制,尤其是内存不足和存储速度慢,以及缺乏高级编程语言,研究人员无法完全依赖机器来完成大规模、高质量的翻译任务。同时,由于研究是在没有句法学家和语义学家的协助下独立进行的,翻译的质量难以保证。 在这样的背景下,早期研究者意识到,无论开发出什么样的系统都只能产生出低质量的输出,因此专家建议,先发展对有控制的语言进行翻译,并限定于某些特定领域。 1.2进入高质量的翻译输出 20世纪60年代,受到改进了的计算机硬件和编程语言的鼓舞,研究人员对机器翻译产生了盲目的乐观。编程语言在句法分析上取得的长足进步让翻译人员感受到了技术革新的成果,他们相信机器翻译有巨大的前景,几年之内就可以达到高质量的输出,这一乐观论调很快传遍了全世界。研究人员还提出假设:机器翻译的目标是产出高质量翻译的全自动系统。研究的重点在于寻求完善的翻译理论和方法。 1.3翻译软件和工具的发展 20世纪70年代以来,随着科技发展和各国间频繁交流,大规模翻译需求日益增加,对计算机翻译的依赖更加突出,机器翻译进入了新的发展阶段。实用性翻译和软件系统如雨后春笋频频出现,如Weinder系统、EURPOTRA多国种翻译系统、TAUM-METEO系统等。80年代产生了大量连接网络和大容量存储的微型计算机,各种翻译工具也应运而生,如词典和术语资料库、多语文字处理、词汇和术语资源的管理、信息传递的

相关主题
文本预览
相关文档 最新文档