当前位置:文档之家› 统计机器翻译中命名实体处理研究

统计机器翻译中命名实体处理研究

统计机器翻译中命名实体处理研究

NO.*

随着信息技术的发展,不同语言之间的沟通和交流变得越来越重要,在此背景下机器翻译等自然语言处理技术得到长足发展。作为当前研究热点之一,命名实体识别及翻译技术正广泛应用于诸多自然语言处理任务中,如机器翻译、信息检索、文本分类以及自动文摘等。在机器翻译中命名实体的识别和翻译也成为影响机器翻译性能的重要因素之一。本文主要针对统计机器翻译中的命名实体识别和翻译进行了研究,针对层次短语统计机器翻译模型中结合语言知识的规则抽取改进方法进行了探讨,然后提出了结合命名实体识别和翻译的规则抽取改进方法。具体研究内容主要包括以下几个方面: 1.研究并实现了基于条件随机域的实体类命名实体识别方法,该方法将命名实体识别看作一个序列标注问题,利用条件随机域算法分别训练出英语和汉语命名实体识别模型,然后使用该模型进行命名实体识别。实验表明,这种方法取得了较好的识别准确率。2.提出了命名实体翻译的总体框架,将实体类命名实体识别和

1N0.*

机器翻译技术的现状及发展

机器翻译技术的现状及发展 篇一:翻译技术领域的现状与展望 翻译技术领域的现状与展望 作者/王华伟闫栗丽 翻译技术在中国的发展起步相对较晚,但近年来随着中国在全球化进程中扮演着越来越重要的角色,催生了对翻译技术发展的强烈需求。中国翻译行业在借鉴国外同行经验的基础上,于2007~2008年间在翻译技术领域取得了一系列成就,也还存在一些亟需改进的方面,而这也势必对我国的翻译行业产生深远的影响。 1. 国家政策的扶持和行业协会的推动 翻译技术的发展直接关乎整个翻译行业的翻译质量及效率,具备巨大的行业经济效益。对此,科技部、财政部都给与了足够的重视并拨出专项资金进行扶持。在 2008年的科技型中小企业技术创新基金扶持计划中,中文及多语种处理软件及基于先进语言学理论的中文翻译软件等赫然在列。而中国译协也在 2008年的第 18届世界翻译大会上专门辟出了翻译工具、术语管理和翻译标准等分论坛,着力推动翻译技术的探讨与发展。 2. 词典型翻译软件百花齐放 词典是使用范围最广的工具,它以使用便利的优势,几乎占据了每个计算机的桌面,无论语言学习者还是专业翻译人员,几乎都是必备工具。词典的发展从最早的单机版本发展至今,已经有很多种产品

类型,我们可以见到的有:电子词典、在线词典、手机词典等。“金山词霸”的网络版本“爱词霸”在这两年获得了长足的发展,如爱词霸网络释义、谷歌金山词霸等一系列特色功能的相继推出,将词典型翻译软件的应用领域从传统的桌面计算机拓展到网络、手机等,并取得了显著的成功。另外,类似Google这样的搜索引擎,因为信息量大,检索便利而成为很多专业翻译人员查词的重要辅助工具。 值得一提的是,最新推出的基于用户发布词汇的词典编撰系统之前的词典都是以各大出版社公开发行的词典中的词条作为主要数据库来源,为用户提供查询上的便利。但是传统出版词典的方式存在发布周期长、词汇更新慢的缺陷。互联网的出现,加快了信息传播的速度,也提高了用户对新词更新的速度要求,为了方便新词汇的发布,词典编纂系统也就应运而生了。这是一种基于用户的词典发布系统,用户可自由发起词典编纂项目,自发组织人员参与项目,发起人可以按照需要给小组成员分配不同的权限,将词汇添加等基本工作和审核人员明确区分,既确保了词典的专业性,也实现了专业语料的适时更新和发布。 3. 机器翻译应用软件融入普通网民生活 谷歌语言工具的推出打破了互联网语言的藩篱,用户可以方便简捷地将目标语言的网页转化成自己的母语进行浏览。事实上,这也是机器翻译软件的一个应用领域,而国内的相关软件如金山快译等,专注于为普通网民提供更为友好的英中日网站浏览体验,并在亚洲语言的机器翻译应用方面积累了大量的经验。其他如华建等长期从事机器

搭建属于自己的机器翻译系统

搭建属于自己的机器翻译系统——MTI专业“技术小白”走进小牛翻译开源社区的心得 搭建属于自己的机器翻译系统 ——MTI专业“技术小白”走进小牛翻译开源社区的心得首先,自我介绍一下。我是一个MTI(翻译硕士)专业、没有计算机编程背景、没有机器翻译理论基础的菜鸟,任职于一家网络科技公司的市场部门,之前的工作中需要做些翻译工作,有时候求助百度翻译、有道翻译等免费的机器翻译系统来解决问题,但是对于一些涉及我们商业机密的数据,由于担心泄密,只能借助于有道词典查查词,然后再自己形成翻译结果。很早之前我就想,要是能有自己的机器翻译系统就好了。 我心目中的翻译技术大牛、对外经贸大学的崔启亮老师曾在微博中给MTI的学生提建议,“学好翻译技术,有前途。对于仍在迷茫MTI的同学,我建议学机器翻译设计与开发,走出迷茫。”非常非常幸运的是,我一个东大毕业的同学告诉我,东北大学自然语言处理实验室(国内搞机器翻译最好的团队之一)联合沈阳雅译网络技术有限公司推出了“小牛翻译开源社区”,社区中有一项内容,就是教不懂机器翻译的人学习“快速搭建自己的机器翻译系统”。于是,我走进社区,按照社区里的相关说明,亲身体验了搭建过程。下面,我想谈谈这个被誉为“目前国内首个以机器翻译为核心的交流平台”的菜鸟级用户体验。 小牛翻译开源社区里提供了统计机器翻译开源系统的全部代码。我了解了一下,NiuTrans开源系统在国际上比较有名,据说是目前国际上能够支持统计机器翻译模型最全的两套统计机器翻译系统之一(另一套是爱丁堡大学的Moses)。这些内容对MT(机器翻译)的专业学者应该很有用吧,但是对于我这个非科班出身的人来说,其实会完全忽略这部分内容。我还是讲讲我在社区里的真正收获——快速搭建实用的机器翻译系统。 一、搭建过程详细说明 需要说明的是,我是在在网页指导与人工指导下才在自己的电脑(Windows7 64位系统,硬盘500G,内存8G)上成功搭建机器翻译系统的。解释一下为什么我不仅看了网页上操作指导,还需要人工指导。身为“技术小白”的我,虽然网页上的操作指导写的很规范,但是第一次接触这么“高大上”的东西,还是有点小紧张的。于是,我加入了小牛翻

机器翻译质量的研究与探讨

机器翻译质量的研究与探讨 何站涛韩兆强闫栗丽 交大铭泰软件有限公司北京100081 E—mail:hezt@sunv.com <摘要:本文简介了机器翻译的发展历史和常用方法,重点阐述了提高机器翻译质量的新思路,最后进行了展望. 关键词:机器翻译N元文法语义网语料库计算机辅助翻译 一、引言 计算机对自然语言的研究和处理,一般应经过如下三个方面的过程: I.把问题在语言学上加以形式化.使之能用数学形式严密而规整地表示出来 2.把这种数学形式表示为算法,使之在计算上形式化; 3.根据算法编写计算机程序,使之在计算机上加以实现。 因此.自然语言处理就成了语言学、数学和计算机科学之间的边缘学科。 二、机器翻译概述 面向计算机的语言的机器翻译研究是二十世纪五十年代才开始的: 从五十年代初期到六十年代中期,机器翻译一直是自然语言处理系统研究的中心课题,当时采用的主要是“词对词”翻译方式,这种不是建立在对自然语言理解的基础上的简单技术,没有得到预期的翻译效果,如,威沃(Weaver)设计实现的机器翻译原型系统,该系统采取查找双语词典,句子译文只是单词译文的简单罗列。 六十年代初,自然语言处理使用了简单的语料库统计方法,不仅依据词的意义.而且依据词与其他词的共现情况对词进行分类。但经验主义遭到了理性主义的批评,如乔姆斯基(Chomsky)对N元语法(N.Gram)的批评、闵斯基(Minsky)等对神经网络的批评。 六十年代中期,人们开始转入对自然语言的语法、语义和语用等基本问题的研究,并尝试着让计算机来理解自然语言。乔姆斯基的转换语法和形式化理论为下一代的自然语言处理提供了一种新的解决方案。 七十年代初,美国哈佛大学人工智能专家伍兹(Woods)提出了扩充转移网络(AugmentedTransitionNetWork,ATN),通过使用成份寄存器和功能约束对有限状态机进行了扩充,ATN考察了更多的上下文信息,保持了有限状态计算的简单性。 从八十年代初期开始,国际计算语言学界出现了一批新的语法理论。比较著名的有广义短语结构语法(GeneralizedPhraseStructureGrammar,GPSG)、中心语驱动的短语结构语法(Head-drivenPhraseStructureGrammar,HPSG)、词汇功能语法(LexicalFunctionalGrammar,LFG)、功能合一语法(FunctionUnificationGrammar,FUG)等确定子句语法。 ?218?

统计机器翻译

统计机器翻译 来自维基百科,免费的百科全书 统计机器翻译(SMT)是一种机器翻译的模型,译文在统计模式的基础上生成,而统计模式所需的参数来自于对双语文本语料库的分析。 机器翻译中基于统计的方法与基于规则的方法和基于实例的方法相对。 统计机器翻译的最初想法由Warren Weaver在1949年〔1〕提出,其中包括对Claude Shannon 的信息理论。 统计机器翻译在1991年时由IBM公司的托马斯?J?沃森研究中心的研究者们再次提出,并且对近些年来重新唤起人们对机器翻译的兴趣作出重大贡献。到2006年为止,它已经是研究最广泛的机器翻译模型。 优势 统计机器翻译相对于最常被人们谈论的传统模型的优势如下: ?更好地利用资源 o存在着大量可被机器读取的格式的自然语言。 o通常,统计机器翻译系统不是针对于任何具体的语言配对。 o基于规则的翻译系统需要对语言规则的手动开发,这样不仅成本很高,而且通常对其它语言不适用。 ?更多的自然语言翻译资料 统计机器翻译的想法来自于信息理论。本质上来说,文档的翻译在基于可能性的p(e | f),其中的本国语言(例如英语)字符“e”就是对外国语言(例如法语)中字符“f”的翻译。一般来说,这些可能性都是利用参数估算的技术实现。 将贝叶斯法则应用于p(e | f)这个外语字符译成母语字符的可能性,会得到这一可能性,其中的翻译模型p(f | e)表示母语字符是对外语字符的翻译的可能性,而语言模型p(e)表示那个母语字符出现的可能性。从算术上来说,发现最佳译文也就是选取出现概率最高的那个。 要严格执行这一过程就必须对母语中所有字符e *进行穷举搜索。有效搜索就是机器解码器要做的工作,利用外语字符、启发式的或其它方法来限制搜索范围,同时保证合意的译文质量。质量和所耗时间之间的这种交换在语音识别方面也可以看到。 翻译系统不能将所有的母语字符串和它们的译文都存储起来,所以只能对文档进行逐句翻译,但即使这样也还是不够的。语言模型是典型的可被稳定的n-gram模型模拟的,并且同样的方法已经应用于翻译模型,但是语言中不同的句子长度和词汇顺序造成了更多的复杂问题。 统计机器翻译模型最初是基于词汇的(来自IBM的模型1-5),但是在引入了基于短语的模型之后有了重大的发展。近期已经引入了句法或类似语法的结构。 基于词汇的的翻译 在基于词汇的翻译中,待译的元素是所有的词汇。实际上,由于复合的词汇、词法和习惯用

一个汉英机器翻译系统的设计与实现

一个汉英机器翻译系统的 计算模型与语言模型* 刘群+詹卫东++常宝宝++刘颖+ (+中国科学院计算技术研究所二室北京100080) (++北京大学计算语言学研究所北京100871) 摘要:本文介绍我们所设计并实现的一个汉英机器翻译系统。在概要介绍本系统的主要目标和设计原则的基础上,着重说明系统的计算模型和语言模型,最后给出实验结果和进一步的打算。 关键词:自然语言处理机器翻译中文信息处理 一、引言 我国的机器翻译研究近年来取得了很大的发展。特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的阶段。相对而言,汉英机器翻译的研究却进展比较缓慢,离实用化还有相当的距离[1]。我们的目的是利用目前最新的计算机软件技术、相对成熟的机器翻译方法和先进的汉语语法理论,构造一个初步实用的汉英机器翻译系统。本文将对我们所开发的系统所采用的计算模型和语言模型作一个总体性的介绍,而不涉及过多的细节。 下面我们简要介绍一下本系统的几个主要设计原则: ⑴采用成熟的技术 我们的目的是构造一个真正实用的汉英机器翻译系统,因而在可供选择的若干技术路线面前,我们将尽量选用比较成熟的技术,而在现有技术难以解决问题时再尝试一些新技术。 ⑵开放的体系结构 开放的体系结构主要体现在系统的实现上所采用的软件构件技术[8]。整个系统采用一些相对独立的软件构件组成,因而可以方便地对系统进行修改、维护和扩充。翻译的过程严格按照独立分析、独立生成的原则进行组织,每一阶段的算法相互独立,对其中一个阶段算法的修改不会对其他算法造成影响。 ⑶方便的调试环境 本系统强调为语言工作者提供一个方便的调试环境。系统提供多窗口图形界面的知识库调试工具,支持课题组中多人同时通过网络对一个知识库进行操作。提供对翻译过程直观显示,用户可以清晰地看到翻译过程的每一步操作。提供翻译出错原因查找机制,用户 *本项目的研究受到863-306资助,合同号为863-306-03-06-2

机器翻译研究现状与展望1 Machine TranslationPast,Present,future

机器翻译研究现状与展望1 戴新宇,尹存燕,陈家骏,郑国梁 (南京大学计算机软件新技术国家重点实验室,南京 210093) (南京大学计算机科学与技术系,南京 210093) 摘要:本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,包括:基于规则、基于统计以及基于实例的机器翻译方法;针对机器翻译的研究现状,详细介绍和分析了基于混合策略的机器翻译方法,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。 关键字:机器翻译,基于规则,基于统计,基于实例,混合策略,机器学习 Machine Translation:Past,Present,future Dai Xinyu, Yin Cunyan, Chen Jiajun and Zheng Guoliang (State Key Laboratory for Novel Software Technology, Department of Computer Science & Technology Nanjing University, Nanjing 210093) Abstract:This paper firstly presents the history of machine translation, and introduces some classical paradigms of machine translation: RBMT, SBMT and EBMT. Secondly, we introduce the recent research on machine translation, and describe the hybrid strategies on machine translation in detail, and discuss the applications of machine learning for machine translation. We also analyze the current techniques about evaluation on machine translation. Finally, we draw a conclusion and prospect on the research of machine translation. Keywords:Machine Translation, RBMT, SBMT,EBMT, HSBMT, Machine Learning. 1本论文工作得到863课题资助(编号:2001AA114102, 2002AA117010-04) 戴新宇博士生,主要研究自然语言处理;尹存燕助教,主要研究自然语言处理;陈家骏教授,博士生导师,主要研究自然语言处理、软件工程;郑国梁教授,博士生导师,主要研究软件工程。

机器翻译

机器翻译 1 概述 机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解( Natural Language Understanding)之间存在着密不可分的关系。 2 国内外现状 机器翻译思想的萌芽关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。笛卡(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。在17世纪中叶,贝克(Cave Beck)、基尔施(Athanasius Kircher)和贝希尔(Johann JoachimBecher)等人都出版过这类的词典。由此开展了关于“普遍语言”的运动。维尔金斯(JohnWilkins)在《关于真实符号和哲学语言的论文》(An Essay towards a Real Character andPhilosophical Language, 1668)中提出的中介语(Interlingua)是这方面最著名的成果,这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。本世纪三十年代之初,亚美尼亚裔的法国工程师阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做“机械脑”(mechanical brain)。这种机械脑的存储装置可以容纳数千个字元,通过键盘后面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户,尤其适合于作机器词典。在宽纸带上面,每一行记录了源语言的一个词项以及这个词项在多种目标语言中的对应词项,在另外一条纸带上对应的每个词项处,记录着相应的代码,这些代码以打孔来表示。机械脑于1937年正式展出,引起了法国邮政、电信部门的兴趣。但是,由于不久爆发了第二次世界大战,阿尔楚尼的机械脑无法安装使用。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W. Rieger) 曾经提出过一种数字语(Zifferngrammatik),这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译” (德文是ein mechanisches Uebersetzen)这个术语。 真正对机器翻译进行研究应该说是从布恩和韦弗开始的。他们研究的是自动词典万, 从1954年1月7日公开展示的IBM701型计算机开始, 机器翻译进人一个繁荣发展的时期。从那时起, 很多国家都投人了大量的人力、物力从事这方面的研究和开发。随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星” 、“雅信” 、“通译” 、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。 中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都

机器翻译技术的探讨

机器翻译技术的探讨 六院五队-徐允鹏-12060143 摘要随着国际交流的日益增多,在计算机、互联网等相关技术日新月异的基础上,机器翻译的技术与应用得到了蓬勃发展。本文详细探讨了基于规则的机器翻译方法、基于语料库的机器翻译方法和混合式机器翻译方法,并讲述了机器翻译的评估方法,最后介绍了机器翻译技术的最新进展。 关键词:机器翻译;基于规则;语料库;评估方法 1.机器翻译概述 随着国际化交流的普遍性,信息通信的日益膨胀,高效的处理不同领域各种语言之间的互译已成为当代人们的普遍需求。翻译是解决自然语言之间通信障碍最直接最有效的方法。传统的翻译工作都是通过专业翻译人员完成,利用语言学知识进行自然语言之间的互译,帮助人们实现信息通信。伴随着计算机技术的成熟与自然语言处理技术的不断进步,利用机器翻译系统帮助人们快速获取外文信息代替人工翻译已成为一种必然的趋势。 机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language

Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系[1]。 机器翻译是21世纪要解决的科技难题之一,主要困难是自然语言在各个层次上的歧义性。研究机器翻译具有重要的实践意义和理论意义。国际间的合作与交流,语言的差异是一个非常重要的障碍,各行各业的人们面对大量他们不熟悉的语言的文档资料,如果单纯的依靠人工翻译,这些日益的待翻译材料将是一种非常沉重的负担,而机器翻译可大幅度减轻这种负担。同时,机器翻译对于了解人类语言和思维的基本机制,探讨人工智能技术有着重要的意义。 2.机器翻译方法 人们一直在寻求更好的解决机器翻译问题的方法,目前机器翻译方法主要有基于规则的机器翻译,基于语料库的机器翻译和混合式机器翻译方法。 2.1基于规则的机器翻译方法 2.1.1基于分析和转换的机器翻译方法 人作翻译时,把一个源语言句子译成目标语言句子,设计到四个基本操作:目标语言单词的检索、调序、删词、增词;机器翻译系统的过程包括检索、分析、转换和生成主要四个阶段,这被称为基于分析和转换的机器翻译系统,也被认为是模拟人类翻译活动最恰当的机

机器翻译研究综述

机器翻译综述 1.引言 1.1机器翻译的历史 现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。 在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。他提出了两个主要观点: 第一,他认为翻译类似于解读密码的过程。 第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中 间语言”,可以假定是全人类共同的。 在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。 1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期 1.2机器翻译的主要内容 经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法 ●句法转换方法 ●中间语言方法 ●基于规则的方法 ●基于语料库的方法 基于实例的方法(含模板、翻译记忆方法) 基于统计的方法 在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。 下面对各个方法逐一的进行介绍。

机器翻译技术的研究和应用综述

机器翻译技术的研究和应用综述 ACM Matrix_68 摘要:随着互联网的日益发展,网络信息的激增,国际社会交流愈加频繁,机器翻译已成为克服交流时所产生的语言障碍的重要手段之一。本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,在分析机器翻译内涵的基础上,阐述了机器翻译的现状,探讨了机器翻译所面临的问题及机器翻译的发展趋势,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。 关键字:机器翻译;自然语言;基于规则;基于统计;基于实例;混合策略;机器学习 1引言 近年来,自然语言处理的研究已经成为热点,而机器翻译作为自然语言研究领域的一个重要分支,同时也是人工智能领域的一个课题,同样为大家所关注。当电子计算机1946年问世的时候,人们就提出了机器翻译的想法,并且在1954年进行了第一次机器翻译试验。然而与后来的各种语言信息处理研究和应用(语言信息检索、文本自动分类、自动文摘、信息提取等等)相比,机器翻译却是进展最慢的。 从上个世纪40年代英国工程师Booth 和美国工程师Weaver提出利用计算机进行翻译的想法,到50年代欧美国家投入大量的人力、物力致力于机器翻译的研究,再到60年代ALPAC置疑报告的提出,机器翻译走向沉寂。 学者们倾其大半生精力、商家投入为数可观的资金,经历五十多年不懈的研究和开发,得到的成果或者产品却常常不能令人满意。最近的二十年,随着语言学理论的发展、计算机技术的进步以及统计学和机器学习 方法在自然语言处理领域中的广泛应用,人们对机器翻译本身的应用背景、目标等也有了更加准确的认识,机器翻译在此背景下取得了长足的发展,基于统计、基于实例等新的机器翻译方法也都是在这一时期出现,一些机器翻译系统也从实验室走向了市场。 本文第二节介绍了机器翻译的历史现状;第三节介绍了机器翻译面临的问题;第四节介绍几种经典的机器翻译方法;第五节给出近期机器翻译的发展趋势,介绍基于混合策略的机器翻译方法,对统计机器学习在机器翻译中的应用进行总结;第六节讨论当前机器翻译的评测系统;最后,对机器翻译研究进行总结和展望。 2机器翻译的历史现状 机器翻译的研究历史可以追溯到20世纪三四十年代。20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。1933年,苏联发明家П.П.特罗扬斯基设计了把一种语言翻译成另一种语 言的机器,并在同年9月5日登记了他的发明;但是,由于30年代技术水平还很低,他的翻译机没有制成。1946年,第一台现代电子计算机ENIAC诞生,随后不久,信息论的先驱、美国科学家W.Weaver和英国工程师A.D.Booth在讨论电子计算机的应用范围时,于1947年提出了利用计算机进行语言自动翻译的想法。1949年,W.Weaver发表《翻译备忘录》,正式提出机器翻译的思想。走过六十年的风风雨雨,机器翻译经历了一条曲折而漫长的发展道路,学术界一般将其划分为如下四个阶段: 2.1机器翻译的开创期(1947-1964) 1954年,美国乔治敦大学(GeorgetownUniversity)在IBM公司协同下,用IBM-701计算机首次完成了英俄机器

人工智能与机器翻译期末复习题

一、名词解释(5X3‘)15’ 1.兼类(P121):一个单词既可以作名词动词又可以作其他词类 2.机器翻译:用计算机软件代替人做的书面翻译 3.组合型歧义:一个字与前面的字成词,与后面的字成词,合起来也成词。 4.交集型歧义(P117):一个字与前面的字成词,与后面的字也成词。 5.人工智能:用计算机硬件、软件模拟人的行为,解决人类目前尚未认识清楚的问题。 6.人工智能软件的三大技术:知识表示、知识推理、知识获取。 7.语料库:单词、短语和句子组成的数据库。 8.知识工程:包括人工智能软件技术的工程。(知识工程是以知识为基础的系统,就 是通过智能软件而建立的专家系统) 9.深度学习:一步一步在丰富起来的特征规律引导下,由浅入深完成推理的方法。 10.语用分析:分析成语和习惯用语的方法。 二、题解P36 例2.1 、2.2 例2.1 设有下列语句: (1)高山比他父亲出名。 (2)刘水是计算机系的一名学生,但他不喜欢编程序。 (3)人人爱劳动。 为了用谓词公式表示这些语句,应先定义谓词: BIGGER(x,y):x比y出名 COMPUTER(x):x是计算机系的学生 LIKE(x,y):x喜欢y LOVE(x,y):x爱y

M(x):x是人 定义函数father(x)表示从x到其父亲的映射此时可用谓词公式把上述三个语句表示为:(1)BIGGER(高山,father(x)) (2)COMPUTER(刘水)∧∽LIKE(刘水,程序) (3)(?x)(M(x) →LOVE(x,劳动)) 例2.2 设有下列语句: (1)自然数都是大于零的整数。 (2)所有整数不是偶数就是奇数。 (3)偶数除以2是整数。 定义谓词如下: N(x):x是自然数 I(x):x是整数 E(x):x是偶数 O(x):x是奇数 GZ(x):x大于零 另外,用函数S(x)表示x除以2。此时,上述三个句子可用谓词公式表示为: (?x)(N(x) →GZ(x)∧I(x)) (?x)(I(x) →E(x)∨O(x)) (?x)(E(x) →I(S(x))) 三、论述(4X5‘)20’ 1.阐述深度、广度、代价驱动搜索方法。(P68) 答:广度优先搜索法:对全部节点沿广度进行横向扫描,按各节点生成的先后次序,

基于实例的机器翻译

基于实例的机器翻译 ——方法和问题 王厚峰(北京大学) 关键字:基于实例的机器翻译,双语对齐,相似度计算,模板获取 摘要:本文介绍了基于实例的机器翻译方法,并对基于实例的机器翻译的若干问题,如双语实例的加工对齐、实例的相似度计算和实例模板提取等问题作了说明。 Method and Issues of Example-Based Machine Translation Wang Houfeng Keywords: EBMT, Bilingual Alignment, Similarity Measure, Template Acquisition. Abstract: The basic frame of Example based machine translation is concerned in this paper. Some key issues, such as bilingual alignment, similarity measure between input sentence and example, and template acquisition, are introduced. 引言 早期的机器翻译本质上都是基于语言规则或语言知识RBMT(Rule Based Machine Translation)的。如,词法规则,句法分析规则,转换规则,目标语生成规则等。这些规则都是根据语言专家的经验总结归纳出来的。直译法、转换生成方法、中间语言方法等都可以归为这一类。在上一世纪80年代中后期,这种纯粹基于语言知识的状况渐渐被基于语料库的机器翻译CBMT( Corpus-Based Machine Translation) 方法打破。 语料库方法中最有影响的是IBM公司的P.Brown 提出的基于统计的机器翻译SBMT (Statistics Based Machine Translation)。受语音处理的启发,P.Brown在1988年第二届TMI会议上提出了用隐马尔科夫模型HMM(Hidden Markov Model)进行机器翻译的想法,这一想法震惊了当时的与会者,并直接导致了语料库方法在自然语言处理上的迅速发展。 另一个影响更为广泛的机器翻译方法是日本的长尾真(Makoto Nagao)1981年提出的基于实例的机器翻译EBMT ( Example based Machine Translation),并于1984年发表[6]。基本思想是在已经收集的双语实例库中找出与待翻译部分最相似的翻译实例(通常是句子),再对实例的译文通过串替换,串删除以及串增加等一系列变形操作,实现翻译。 基于实例的翻译方法受到广泛关注是在进入90年代之后。其中,Sato[7,8]等人起到了很好的推动作用。 EBMT的基本思想 长尾真认为,人们在翻译简单句子时并没有做语言的深层分析,而是先将句子分解为几个片断(短语),然后,借助于已有片断的翻译,将分解的每个片断翻译成目标短语,最后在将这些短语组合起来形成一个长的句子。 基于上述思想,长尾真提出了基于实例的机器翻译EBMT的思想。对应地,EBMT也分为三大部分:将实例划分为片断,确定各个片断的翻译以及重组片断。 例2.1. (a) 她买了一本计算语言学入门书 假定计算机内已经存储了如下的实例对:

机器翻译的现状和发展趋势_岳涛

72 计算机教育 2005.4 人/才/培/养/与/就/业机器翻译(Machine Trans-lation)是通过计算机来实现不同自然语言之间的翻译。机器翻译是自然语言处理(Natural LanguageProcessing)的一个分支,机器翻译与计算语言学(ComputationalLinguistics)、自然语言理解(Natural Language Understanding)存在着密不可分的关系。机器翻译的研究与发展取决于计算机科学、数学、语言学、人工智能等多学科的发展,因此机器翻译可以说是一个跨学科的综合性系统工程。人类步入21世纪以来,随着国际互联网(Internet)的迅猛发展,网络信息急剧膨胀,国际交流日益频繁以及地球村的形成,机器翻译正在逐渐成为克服人们之间进行交流时所面临的语言障碍的重要手段,同时也面临着很大的市场机遇和挑战。 历史的回顾 从美国人维弗(Warren?Weaver)于1949年发表《翻译》备忘录并正式提出机器翻译的思想以来,机器翻译已经走过了50多个风风雨雨的春秋。在这期间,机器翻译可以说经历了一条曲折而漫长的 发展道路。 1954年,在美国乔治敦大学(Georgetown University)进行了 人类历史上的第一次机器翻译的公开演示。尽管演示尚不算很成功,但是它却具有划时代的意义,因为它拉开了人们研究机器翻译 的序幕。 从20世纪50年代开始到20世纪60年代的前半期,机器翻译的研 究呈不断上升的趋势。美国和前苏联两个超级大国出于军事和政治经济目的,纷纷对机器翻译项目提供了大量的资金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视。 1966年,美国科学院发表的ALPAC报告使当时正在蓬勃发展的机器翻译陷入了停滞的状态。现在来看,该报告是非常片面、狭隘和短视的。 从20世纪60年代中后期到整个70年代,整个机器翻译领域处于一个相对平稳发展的时期,而在某些国家,特别是加拿大和欧盟,机器翻译的研究却取得了比较显著的进步。尤其是在加拿大,由于双语文 化的影响,政府积极支持机器翻译的研发工作,1976年,加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发了提供天气预报服务的实用性机器翻译系统TAUM-METEO,该系统的成功开发标志着 机器翻译已经在某些领域达到了实用化的程度。 进入20世纪80年代以来,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译在全世界范围内开始复苏,并在随后的90年代取得了长足的进步。 20世纪90年代以来的机器翻译技术的新进展 1.机器翻译的分类 进入20世纪90年代,机器翻译领域的的研究方法基本上可以分为两大类,即基于规则(Rule-Based)和基于语料库(Corpus-Based)的方法。基于规则的方法又可以分为基于转换的方法和基于中间语言的方法,基于语料库的方法又可以分为基于统计的方法和基于实例的方法。传统的基于规则的方法又可以 机器翻译的现状和发展趋势 中国软件与技术服务股份有限公司 岳涛/文 ◆ 课外新知 ◆

机器翻译技术的现状及发展(一)

机器翻译技术的现状及发展(一) 摘要:本文在分析机器翻译内涵的基础上,阐述了机器翻译的历史和现状,探讨了机器翻译所面临的问题及机器翻译的发展趋势。 关键词:机器翻译;自然语言;发展趋势 1.引言 《圣经.创世纪》中第十一章巴别塔:“耶和华说:看哪,他们成为一样的人民,都是一样的言语,如今既作起这事来,以后他们所要作的事就没有不成就的了。我们下去,在那里变乱他们的口音,使他们的言语彼此不通。于是耶和华使他们从那里分散在全地上;他们就停工,不造那城了。因为耶和华在那里变乱天下人的言语,使众人分散在全地上,所以那城名叫巴别(就是变乱的意思)1]。”这只是圣经故事,但告诉我们语言的不同确实是人们交流的极大障碍,因此人们一直在寻找打破语言障碍的途径和办法。翻译则能克服语言障碍,使得不同语言人们之间能相互交流。谭载喜在他的《西方翻译简史》一书中提到我国的翻译史时说:孔子周游列国,在各地言语发音不尽相同,彼此交流甚少的当时,也不得不通过象寄之才(即翻译人员)以“达其意,通其欲”。随着互联网的日益发展,网络信息的激增,国际社会交流愈加频繁,机器翻译已成为克服交流时所产生的语言障碍的重要手段之一。 2.机器翻译的定义 计算机翻译通常叫机器翻译(MachineTranslation或MT),即全自动高质量机器翻译(FullyAutomaticHighQualityMachineTranslation,简称FAHQMT或MT),就是人类利用计算机进行自然语言间的相互翻译,利用软件实现从一种自然语言文本到另一种自然语言文本的翻译 2]。 3.机器翻译的历史与现状 在古希腊时代就有人提出利用机械装置来进行语言翻译的想法,其中之一是如何用机械手段来分析自然语言。17世纪,人们首次提出使用机械字典克服语言障碍的设想。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W.Rieger)首次使用了“机器翻译”(MachineTranslation)这个术语。1952年在美国麻省理工学院(MIT)召开了第一届国际机器翻译会议,标志着机器翻译正式迈出了第一步。1978年在中科院计算机所的一台64K容量的计算机上成功地进行了20个标题的机器翻译测试。1987年在日本箱根举行了第一届机器翻译峰会(MTSummit),并决定以后每两年轮流在亚、欧、美定期举行。20世纪90年代后,随着微机的普及,相继出现了多种翻译软件,例如金山公司的词霸系列,实达铭泰的东方快车系列,Trados翻译软件等。到目前为止,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译已经取得了相当大的进步,不过,机器翻译的水平距理想的“全自动高质量(FAHQ)”的目标还有很远的距离3]。

翻译技术领域的现状与展望

翻译技术领域的现状与展望 作者/王华伟闫栗丽 翻译技术在中国的发展起步相对较晚,但近年来随着中国在全球化进程中扮演着越来越重要的角色,催生了对翻译技术发展的强烈需求。中国翻译行业在借鉴国外同行经验的基础上,于2007~2008年间在翻译技术领域取得了一系列成就,也还存在一些亟需改进的方面,而这也势必对我国的翻译行业产生深远的影响。 1.国家政策的扶持和行业协会的推动 翻译技术的发展直接关乎整个翻译行业的翻译质量及效率,具备巨大的行业经济效益。对此,科技部、财政部都给与了足够的重视并拨出专项资金进行扶持。在 2008年的科技型中小企业技术创新基金扶持计划中,中文及多语种处理软件及基于先进语言学理论的中文翻译软件等赫然在列。而中国译协也在 2008年的第 18届世界翻译大会上专门辟出了翻译工具、术语管理和翻译标准等分论坛,着力推动翻译技术的探讨与发展。 2.词典型翻译软件百花齐放 词典是使用范围最广的工具,它以使用便利的优势,几乎占据了每个计算机的桌面,无论语言学习者还是专业翻译人员,几乎都是必备工具。词典的发展从最早的单机版本发展至今,已经有很多种产品类型,我们可以见到的有:电子词典、在线词典、手机词典等。“金山词霸”的网络版本“爱词霸https://www.doczj.com/doc/5b7427332.html,”在这两年获得了长足的发展,如爱词霸网络释义、谷歌金山词霸等一系列特色功能的相继推出,将词典型翻译软件的应用领域从传统的桌面计算机拓展到网络、手机等,并取得了显著的成功。另外,类似Google这样的搜索引擎,因为信息量大,检索便利而成为很多专业翻译人员查词的重要辅助工具。 值得一提的是,最新推出的基于用户发布词汇的词典编撰系统之前的词典都是以各大出版社公开发行的词典中的词条作为主要数据库来源,为用户提供查询上的便利。但是传统出版词典的方式存在发布周期长、词汇更新慢的缺陷。互联网的出现,加快了信息传播的速度,也提高了用户对新词更新的速度要求,为了方便新词汇的发布,词典编纂系统也就应运而生了。这是一种基于用户的词典发布系统,用户可自由发起词典编纂项目,自发组织人员参与项目,发起人可以按照需要给小组成员分配不同的权限,将词汇添加等基本工作和审核人员明确区分,既确保了词典的专业性,也实现了专业语料的适时更新和发布。 3.机器翻译应用软件融入普通网民生活 谷歌语言工具的推出打破了互联网语言的藩篱,用户可以方便简捷地将目标语言的网页转化成自己的母语进行浏览。事实上,这也是机器翻译软件的一个应用领域,而国内的相关软件如金山快译等,专注于为普通网民提供更为友好的英中日网站浏览体验,并在亚洲语言的机器翻译应用方面积累了大量的经验。其他如华建等长期从事机器翻译研究及应用的企业,也都推出了适用于普通网民的相关软件版本。机器翻译在互联网领域的应用获得了进一步的发展。 4.机器翻译技术研究获得显著突破 机器翻译按照引擎原理分为基于规则的和基于统计的两大类。基于规则多年来进展缓慢,鲜有重大突破,而基于统计的方法近年不断有新的突破,也来越来越收到关注。但是每种方法都有一定的局限性,因此未来的发展趋势,可能更倾向于多种方法的融合,应用多种策略综合提升机器翻译的智能化程度。 在沉寂了几年后,机器翻译领域在近两年又开始逐渐活跃起来,并且呈现了多元化发展的趋势。谷歌、百度、雅虎等各大搜索网站都推出了自己的在线翻译,Skype/MSN还推出了翻译机器人,日本NEC在2007年推出了具备语音自动翻译功能手机软件,2008年4月,一种

从机器翻译到计算机辅助翻译的发展现状研究

从机器翻译到计算机辅助翻译的发展现状研究 何兴建成都体育学院 摘要:机器翻译,又称自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理的一个分支,与计算语言学、自然语言理解之间存在着密不可分的关系。我们所熟知并广泛使用的互联网翻译,包括谷歌翻译、有道翻译、百度翻译等,都是机器翻译服务。本文从机器翻译的发展历程入手,分析它的优势和不足,并引入计算机辅助翻译进行对比研究。最后,本文通过引入语料库和大数据的概念,探讨了机器翻译技术后续的发展方向,以便更好地为译者服务。 关键词机器翻译;计算机辅助翻译;语料库;大数据 Abstract Machine translation, also known as automatic translation, is a process from a natural source language to another natural target language via computer. As a branch of natural language processing, machine translation has an inseparable relationship with computational linguistics and natural language understanding. Internet translation has widely been used by us. Such as Google Translation, Youdao Translation, Baidu Translation, etc., are all machine translation services. Starting from the development process of machine translation, this paper analyzes its advantages and disadvantages, and then introduces computer aided translation (CAT). Finally, through introducing the concept of corpus and big data, this paper discusses the follow-up development direction of CAT technology, in order that it can give better service for translators. Key words machine translation (MT); computer aided translation (CAD); corpus; big data 1. 研究背景:机器翻译简介和发展历程 随着国际贸易的发展和经济全球化的崛起,使得市场对专业翻译人才的需求不断增大。机器翻译技术在翻译行业中起着十分关键的辅助作用,可以大大减少翻译的工作量。所谓机器翻译,就是通过电子计算机程序,自动地把一种语言(源语言,source language)翻译成另一种语言(目标语言,target language)。从语言学的角度来讲,机器翻译就是自然语言处理技术的开发。机器翻译从总体模式上可分为三种类型:直接翻译法(Direct Translation)、中间语言法(Interlingual approach)以及转换法(Transfer approach)。 机器翻译的历史最早可追溯到20世纪三四十年代。20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。1933年,苏联发明家П.П.特罗扬斯基设计了把一种语言翻译成另一种语言的机器,并在同年9月5日登记了他的发明。早在1956年,我国就把这项研究列入了全国科学工作发展规划,课题名称是“机器翻译、自然语言翻译规则的建设和自然语言的数学理论”。机器翻译经历了一条曲折而漫长的发展道路,学术界一般将其划分为如下四个阶段:开创期(1947‐1964)、受挫期(1964‐1975)、恢复期(1975‐1989)和新时期(1990‐至今)[1]。 中国机器翻译研究起步于1957年,是世界上第4个开始研究机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都在进行机器翻译的研究。 在文献冯志伟著的《机器翻译研究》中,法国著名机器翻译专家沃古瓦(B.Vauquois)教授把基于语言规则的机器翻译方法总结为如下的图形(图1),我们可以把这个图形就做“机器翻译金字塔”(MT Pyramid):

相关主题
文本预览
相关文档 最新文档