一个汉英机器翻译系统的设计与实现.doc
- 格式:doc
- 大小:47.50 KB
- 文档页数:6
机器翻译系统设计与实现机器翻译系统是自然语言处理领域中的一项重要研究方向,它利用计算机技术对不同语言之间的文本进行自动翻译。
相较于传统的人工翻译方式,机器翻译系统可以大大提高翻译效率和准确性。
本文将介绍机器翻译系统的设计思路和实现过程。
一、机器翻译系统的设计思路机器翻译系统的设计思路主要包括以下几个方面:1. 语言处理技术语言处理技术是机器翻译系统设计的核心,它涵盖了文本分词、词性标注、相似度计算、句法分析等方面的技术。
其中,文本分词和词性标注是机器翻译系统处理文本的基本方法,相似度计算和句法分析是对文本进一步理解和处理的方法。
2. 数据集准备机器翻译系统的训练需要大量的语料库数据,这些数据应该具有足够的语言覆盖面和标准程度。
因此,在机器翻译系统的设计中,需要考虑如何选择、构建和标注这些语料库数据。
3. 模型选择和优化在机器翻译系统中,常用的模型包括基于统计模型和基于神经网络模型。
统计模型主要包括基于短语的翻译模型和基于句法的翻译模型,而神经网络模型则包括循环神经网络(RNN)和卷积神经网络(CNN)等。
在模型选择上,需要根据具体的应用场景和翻译需求进行选择。
此外,模型优化是机器翻译系统设计中非常重要的一环,它基于训练数据和验证数据的交叉验证,通过调整参数和结构来获得更好的结果。
4. 接口设计机器翻译系统的最终目的是将翻译结果输出给用户,因此,接口设计也是机器翻译系统设计中非常重要的一环。
这需要考虑如何设计清晰简洁并便于使用的接口,并结合实际需求来实现高效的翻译。
二、机器翻译系统的实现过程机器翻译系统的实现过程主要包括以下几个步骤:1. 数据清理和预处理对于机器翻译系统的训练数据和测试数据来说,数据质量的好坏对翻译效果的影响非常大。
因此,在实现机器翻译系统之前,需要对数据进行清理和预处理,去除重复项、标准化格式等,以提高机器翻译系统对数据的识别和处理能力。
2. 模型设计和训练模型的设计和训练是机器翻译系统的核心步骤。
英语智能翻译人机界面系统设计与研发杜卫卫【摘要】语言翻译智能化是行业科技创新内容,也是英语专业领域研究的重点技术之一。
人机界面系统是英语智能翻译器的核心构成,决定着英语语言翻译结构的准确性。
本文分析了传统翻译存在的不足,总结智能翻译系统的功能特点,提出翻译人机界面系统设计与研发措施。
%Language translation intelligent industry science and technology innovation content,one of the key technology and research in the field of English majors.The human-machine interface system is the core of smart English translator,determines the accuracy of the structure of the English language translation. This paper analyzes the shortage of traditional translation problems,summarizes the characteristics of the intelligent function of translation system,puts forward the design and R &D measures the man-machine interface system.【期刊名称】《电子测试》【年(卷),期】2015(000)002【总页数】3页(P19-20,18)【关键词】英语;智能翻译;人机界面;设计【作者】杜卫卫【作者单位】渤海大学大学外语教研部,辽宁锦州,121013【正文语种】中文基于信息科技普及应用背景下,智能翻译器在英语交流方面的应用更加广泛,采用高端信息技术辅助语言转换处理,实现了人类科技的又一次进步。
汉英机器翻译主语误译探究——以谷歌在线翻译为例近年来,随着人工智能技术的快速发展,机器翻译逐渐成为跨语言沟通的重要工具。
然而,尽管机器翻译在一些方面取得了较好的成果,但在翻译中仍然存在一些问题。
其中,机器翻译主语误译对翻译质量的影响尤为明显。
本文以谷歌在线翻译为例,探究汉英机器翻译中主语误译的原因和影响。
一、谷歌在线翻译简介谷歌在线翻译是谷歌公司开发的一款免费在线翻译工具。
它基于谷歌自家的机器学习技术,能够将文字从一种语言翻译成另一种语言。
谷歌在线翻译支持多种语言之间的互译,其中包括汉英翻译。
二、主语误译的表现形式在汉英机器翻译中,主语误译表现为翻译结果中主语的错误或不准确。
具体来说,主语误译可以分为以下几种情况:1.缺失主语:翻译结果中缺少了原文中的主语,导致句意不完整或不清晰。
2.错误主语:翻译结果中出现了与原文主语不一致的主语,导致句意错误或歧义。
3.不准确主语:翻译结果中的主语与原文语义不一致,导致句意扭曲或不完整。
三、主语误译的原因主语误译主要源于以下几个方面的原因:1.语言结构差异:汉语和英语在语法结构上存在较大不同。
例如,汉语中主语可以省略而在英语中主语必须出现。
这种语法差异容易导致机器翻译在处理主语时出现错误。
2.语义理解困难:机器翻译系统往往依靠大量的训练数据进行翻译,但对于一些语义复杂或难以准确表达的句子,机器翻译系统可能无法理解其准确含义,导致主语误译。
3.语言模型限制:机器翻译的技术原理中,语言模型起着重要作用。
然而,语言模型的训练数据有限,不能覆盖所有的语言表达方式。
这就限制了机器翻译系统在处理主语时的能力,容易导致主语误译。
四、主语误译的影响主语误译对汉英机器翻译的质量造成了一定的影响:1.句意不完整:主语误译会导致翻译结果中句意不完整或不清晰,给读者理解带来困扰。
2.歧义增多:错误主语或不准确主语可能导致翻译结果的歧义增加,使句子的意思不明确。
3.信息丢失:缺失主语则会导致翻译结果中丢失了原文的重要信息,使翻译结果丧失准确性。
英语翻译软件翻译准确性矫正算法设计黄登娴【摘要】传统机器翻译方法采用管道式逐次操作对原始语料实施词性标识以及句法分析,获取英语语言的句法结构,使得翻译任务间存在的错误迭代传递、结构化实例准确性降低,导致英语语言文学翻译准确性降低.因此,对英语语言文学中的机器翻译准确性方法进行校对研究.设计基于知网的词汇语义相似度以及对数线性模型,采用汉英依存树到串的方式保存对应的双语语料,对源语言端实施依存结构化处理,确保汉英双语的对应关系,通过知网运算输入需要翻译句子(依存树结构)同实例库内源语言(依存树结构)中词汇的语义相似度.描述了机器翻译中相似实例检索模块以及译文生成模块的实现过程,通过面向数据的翻译模型进一步校对英语语言的准确翻译.实验结果表明,所提方法可得到准确率高的译文,具有较高的准确性和稳定性.【期刊名称】《现代电子技术》【年(卷),期】2018(041)014【总页数】4页(P170-172,177)【关键词】英语翻译软件;机器翻译;翻译准确性;语义相似度;矫正算法;迭代传递;依存树结构【作者】黄登娴【作者单位】中国民用航空飞行学院,四川广汉 618300【正文语种】中文【中图分类】TN912.3-34;TP391.2机器翻译是自然语言操作范围中的关键,具有较高的应用价值。
依据实例的机器翻译是一种经验主义的英语语言文学翻译策略,其无需复杂的深层次语法以及语义的分析,提高了英语语言翻译的效率。
但是基于实例的机器翻译方法对实例库质量的要求较高[1]。
传统机器翻译方法采用管道式逐次操作对原始语料实施词性标识以及句法分析,获取英语语言的句法结构,使得翻译任务间存在的错误迭代传递、结构化实例准确性降低,导致英语语言文学翻译准确性降低。
针对该问题,本文研究了英语语言文学中的机器翻译准确性方法,塑造并实现基于汉英依存树串实例的机器翻译系统,提高了英语机器翻译的准确性。
1 基础算法与模型1.1 依存树到串模型依存树到串的模型为<D,S,A>,<D,S>是一个翻译对,D表示源语言的依存树,S表示源语言的目标词语串,A用于描述D与S间的词对齐关系[2-3],依据依存树到串双语对齐模型的实例如图1所示。
浅谈机器翻译实现的途径本文概述了机器翻译的基础理论,它是借助计算机把源语言文本转变成目标语言文本的过程。
从计算机语言学的角度阐述了实现机器翻译的技术原理主要有基于语法分析和基于语料库两大途径;分析了这两条途径翻译过程中的优势和缺陷,并提出解决的对策。
标签:机器翻译;语法分析;语料库随着网络信息时代的来临,信息爆炸成为信息处理领域的瓶颈问题,不同语种之间大量的信息交流更加大了问题的严重性;同时不同语言之间的翻译工作也越来越迫切,并且工作量也越来越大。
如何利用计算机高效率的信息处理能力突破不同语种之间的语言障碍,成为全人类面临的共同问题。
机器翻译便是解决这个问题的有力手段之一,这也是其长期成为自然语言处理研究中心的主要原因之一。
一、机器翻译的基础理论机器翻译的总任务可以描述为:将一种语言(源语言)的文本信息输送入计算机,通过计算机程序生成另一种语言(目标语言)的文本,且源语言文本与目标语言文本具有相同的含义。
机器翻译的第一步是在不同層次上分析源语言文本,而后是目标语言文本的生成。
所谓源语言分析,就是遵循一定的语言学基础,寻求源语言文本的表示形式与其对应内容之间所存在的映射关系的过程。
文本内容可以用句法结构表达式、文本命题含义表达式、综合的中间语言文本描述。
典型的源语言分析手段为:依据与源语言文本所表达含义相关的词汇、句法结构、单词和句子的顺序,灵活地找出目标语译文。
源语言分析涉及多个不同层次,分析过程按照复杂度递增顺序可划分为以下几个阶段:1、形态分析:用于获取源语言词汇原形。
在机译系统的研制中,两层分析法是普遍采用的形态分析理论,有时也采用不太通用但更适合于特定语言、特定任务的方法。
2、句法分析:用于摘取源语言文本短语结构、句法结构的依存性,即确定输入文本中词汇的词性、短语边界及短语的内部结构。
3、语义分析:利用文本含义描述语言建立知识结构,反映源语言文本的词汇、词义及相互之间所存在的语义依存关系,可消除词义歧义、介词短语修饰歧义、复合词分解歧义等等。
一个汉英机器翻译系统的计算模型与语言模型*刘群+詹卫东++常宝宝++刘颖+(+中国科学院计算技术研究所二室北京100080)(++北京大学计算语言学研究所北京100871)摘要:本文介绍我们所设计并实现的一个汉英机器翻译系统。
在概要介绍本系统的主要目标和设计原则的基础上,着重说明系统的计算模型和语言模型,最后给出实验结果和进一步的打算。
关键词:自然语言处理机器翻译中文信息处理一、引言我国的机器翻译研究近年来取得了很大的发展。
特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的阶段。
相对而言,汉英机器翻译的研究却进展比较缓慢,离实用化还有相当的距离[1]。
我们的目的是利用目前最新的计算机软件技术、相对成熟的机器翻译方法和先进的汉语语法理论,构造一个初步实用的汉英机器翻译系统。
本文将对我们所开发的系统所采用的计算模型和语言模型作一个总体性的介绍,而不涉及过多的细节。
下面我们简要介绍一下本系统的几个主要设计原则:⑴采用成熟的技术我们的目的是构造一个真正实用的汉英机器翻译系统,因而在可供选择的若干技术路线面前,我们将尽量选用比较成熟的技术,而在现有技术难以解决问题时再尝试一些新技术。
⑵开放的体系结构开放的体系结构主要体现在系统的实现上所采用的软件构件技术[8]。
整个系统采用一些相对独立的软件构件组成,因而可以方便地对系统进行修改、维护和扩充。
翻译的过程严格按照独立分析、独立生成的原则进行组织,每一阶段的算法相互独立,对其中一个阶段算法的修改不会对其他算法造成影响。
⑶方便的调试环境本系统强调为语言工作者提供一个方便的调试环境。
系统提供多窗口图形界面的知识库调试工具,支持课题组中多人同时通过网络对一个知识库进行操作。
提供对翻译过程直观显示,用户可以清晰地看到翻译过程的每一步操作。
提供翻译出错原因查找机制,用户*本项目的研究受到863-306资助,合同号为863-306-03-06-2可以轻松确定翻译出错的位置。
机器翻译系统可依据不同的标准进行分类,这些标准也刻划出本系统的一些基本特点:(1) 规则方法与语料库方法规则方法发展到今天,相对来说已比较成熟,但由于专家描述的规则知识通常颗粒度较大,不利于处理大量的细节,因而在处理大规模的开放语料时,遇到了难以克服的困难;而从预料库中获取的知识颗粒度较小,在自然语言处理的某些方面取得了成功,但纯粹基于语料库的的机器翻译系统,还没有比较成功的例子。
本系统目前采用的是基于规则的技术,我们计划将其扩展成为一个规则方法与语料库方法相结合的系统。
(2) 转换方法与中间语言方法从理论上说,在实现多种语言互译的机器翻译系统时,中间语言方法可以节省很多的工作量。
但从已实现的系统来看,使用转换方法较易取得成功。
本系统也采用转换方法。
(3) 确定性算法与不确定性算法确定性算法的优点是算法较为简单,翻译速度快,缺点是不能提供回溯的能力,翻译过程任何一步的错误将导致整个翻译的失败。
不确定算法刚好相反。
本系统采用不确定性算法,翻译过程的每一步骤都是不确定的,都可以回溯。
二、计算模型我们从系统结构、知识表示、翻译算法三方面来介绍我们所采用的计算模型。
1、系统结构图1 汉英机器翻译系统总体结构系统总体结构如图1所示。
2、知识表示机器翻译的过程可以看成是一个运用知识进行推理的过程。
知识表示是这一过程的基础。
我们把机器翻译中用到的知识表示形式分为内部知识和外部知识两类。
其中外部知识是存放于知识库之中,由语言工作者进行管理的知识,如词典和各类规则库等,内部知识是翻译过程中临时生成的,用于描述所翻译的句子的语法语义特征的知识,如树形图、特征结构和语义网络等。
本系统的外部知识表示由知识库子系统进行处理。
知识库包括一个语言模型、一部词典、多个规则库和一个实例库。
本系统设计的严格的语言模型起统帅作用,其中规定了本系统所使用的源语言和目标语言的词法模型、句法模型和语义模型,即词法、句法和语义的分类和各种属性描述。
所有知识库中所用到的各种语言知识描述用的符号格式都必须符合语言模型中的规定。
整个系统使用一部双语词典。
多个规则库对应于翻译的各个步骤,每个步骤使用相应的规则库。
每个规则库的具体格式各不相同,但基本上都采用“树结构+约束”的形式。
在知识库的格式定义上,我们特别强调不仅要能描述全局性知识,也要能描述一些局部性的知识。
因此我们特别强调词典的描述能力。
例如,词典中的局部规则与全局规则具有完全相同的格式,在使用上局部规则优先于全局规则,这样特别有利处理一些与具体词相关的特殊用法。
实例库用于存放系统翻译过的句子及其相关信息。
本系统的内部知识表示形式包括线图(Chart)、树结构和特征网络三种形式。
线图源于Chart Parsing算法,是一种比较通用的语言内部结构表示方法,可以同时表示翻译过程中产生的大量词结点和短语结点,也可以适应多种不同的分析算法。
树结构是短语结构分析中最常用的一种表示方法,用于描述句法成分(包括词结点和短语结点)之间的组合关系。
每个树结点对应于线图中的一个词结点或短语结点。
我们所使用的树结构表示法中要求标出每个句法成分的中心子结点,用于处理属性值在句法成分之间的传播。
特征网络是本系统所使用的一种特有的知识表示方法。
这种表示法融合了特征结构表示法[4]和语义网络表示法的一些特点并加以改进,以适合汉英机器翻译的需要。
具体来说,特征网络表达具有以下特点:1、一个特征网络由许多个互相关联的特征结点所组成;2、一个特征结点是若干个特征的集合,一个特征是一个“属性-值”对;3、属性分为简单、原子属性和关联属性两种,原子属性的值是一个原子,关联属性的值是另一个特征结点;4、原子分为层次型、符号型、数值型、布尔型等多种类型,原子之间可以通过与、或、非等逻辑操作构成复杂原子,每一种类型的原子有不同的合一算法;5、特征结点之间通过关联属性互相连接,这种连接可以构成回路,我们改进了合一算法,使得这种回路不至于在合一运算时造成死循环;6、一个特征结点对应着句法分析中已经出现或可能出现的一个句法成分,而每一个句法成分(即句法树中的结点)一定有唯一的一个特征结点与之对应;7、在一定的条件下,属性的值可以在特征结点之间进行传递;8、特征结点之间实行真正的合一运算,而不是伪合一运算。
特征网络表示法作为一种最基本的知识表示方法在本系统中发挥着重要的作用,它基本上满足了我们在汉英机器翻译中描述各种复杂的语言现象的需要。
3、翻译算法我们采用基于转换的翻译方法,遵循独立分析、独立生成的设计原则[3]。
具体的翻译流程下图2所示。
图2 翻译的流程其中,汉语的词形分析阶段分为重叠词处理和切分两个步骤,汉语的切分采用双向最大匹配算法。
出现切分歧义时,不做判断,保留到结构分析阶段进行处理。
结构分析阶段采用改进的Chart Parsing算法[6]。
转换阶段采用自顶向下与自底向上相结合的局部子树变换算法。
结构生成阶段采用自底向上的局部子树变换算法和自顶向下的全局子树位移算法。
4、用户界面用户界面包括使用界面和管理调试界面。
由于本系统还处于开发阶段,我们着重开发了管理调试界面。
对于一个实际的机器翻译系统来说,语言规则和词典的调试工作是非常重要的。
一个良好的机器翻译系统管理调试界面,可以使语言工作者直观方便地进行语言规则和词典的调试,大大提高调试的效率,进而有效地提高语言知识库的质量。
本系统的管理调试界面分为知识库管理界面和翻译调试界面两部分。
知识库管理界面帮助语言工作者对各知识库进行直观的创建、管理和查询等操作,翻译调试界面帮助语言工作者通过观察具体例句的翻译过程对语言知识库进行调试。
系统依次以可视的图形显示源文正文、分析产生的每一个源文词语结点、源文短语结点、源文句法树、转换生成产生的译文句法树、译文词结点和最后的译文正文。
语言工作者可以根据需要显示任何一个句法成分的产生过程及其对应的特征结点(属性和值)。
三、语言模型在一个机器翻译系统中,计算模型决定了该系统的能力的极限,即该系统最好能翻译到什么程度;而语言模型则决定了该决定了这种极限能在多大程度上实现。
没有好的语言模型,系统的计算模型再好,也不可能得到高质量的译文。
本系统采用以语法分析为主,以语义分析为辅的语言模型。
就汉英机器翻译系统而言,目前还没有专门适用于机器翻译的汉语语法模型。
本系统采用的语言模型主要来源于北京大学计算语言学研究所研制的《现代汉语语法信息词典》[2](以下简称《词典》),并在该词典所采用的语言模型基础上修改扩充而成。
1、汉语词语分类和属性[10]本系统所采用的汉语词语分类和属性取自于《词典》,并作了少量的改动。
《词典》中将现代汉语词语(包括标点符号、语素、成语等)分为26类,我们只采用了其中的20类,并将其余6类归并到这些类中。
《词典》中有大量的属性描述,我们根据机器翻译的需要对这些属性作了一定的取舍,并增加了少量新属性。
本系统所使用的机器翻译词典就是在《词典》的基础上修改扩充而成。
在使用中我们体会到,《词典》对现代汉语词语的分类合理,对词语语法功能的描述非常详尽,基本上能满足汉英机器翻译的需要。
2、汉语短语分类和属性[7,10]对汉语短语的分类,我们继承了《词典》中对汉语词语分类时采用的“功能分类”思想,将短语(包括句子)分成np,vp,ap,tp,sp,dp,pp,mp,mcp,dj,fj,zj等12类。
另外,我们还定义了内部结构、语气、被动、否定等短语属性。
我们认为,短语和汉语词语一样,采用按功能分类的思想,而不是按结构分类或按功能-结构混合分类,是符合机器翻译用汉语语法体系要求的。
这是因为,功能反映了一种短语与其它短语互相结合的能力,而语法规则所描述的就是短语之间如何互相组合构成新的短语,因而采用功能分类是非常自然而贴切的。
短语的结构从本质上说只是短语内部成分之间的组成关系,虽然结构对功能也有一定的影响,但它并不直接反映短语向外结合的能力。
因此我们只是把短语的内部结构作为一种属性来对规则进行约束,而不是作为分类的依据。
在实践中我们感觉到这种做法是恰当的,既不至于导致规则的描述能力不够,也不会产生大量的冗余规则。
总的来说,我们对汉语短语的认识要比我们对汉语词语的认识肤浅得多。
在很多情况下,我们没有足够准确的属性来描述规则的约束条件,尤其是一些很常用的歧义结构,如np+np,vp+vp,np+vp等等。
这尤其需要我们机器翻译研究工作者与语言学家共同努力,对汉语短语的语法功能进行更加深入的研究。
3、语义分类和属性[9]本系统是一个以语法分析为主,语义分析为辅的系统。
虽然如此,在本系统中,为消解句法分析和转换时的歧义,语义分析还是起着重要的作用。
本系统采用的语义模型主要包括语义分类和配价分析[5]两个方面。