当前位置:文档之家› 关于日中神经网络机器翻译中的词汇问题的探讨

关于日中神经网络机器翻译中的词汇问题的探讨

关于日中神经网络机器翻译中的词汇问题的探讨
关于日中神经网络机器翻译中的词汇问题的探讨

Computer Science and Application 计算机科学与应用, 2020, 10(3), 387-397

Published Online March 2020 in Hans. https://www.doczj.com/doc/f39179594.html,/journal/csa

https://https://www.doczj.com/doc/f39179594.html,/10.12677/csa.2020.103040

Analyzing the Problems of Vocabulary in

Japanese-Chinese Neural Network Machine Translation

Wentao Luo

Kodensha, Acronyms Acceptable, Osaka Japan

Received: Feb. 6th, 2020; accepted: Feb. 21st, 2020; published: Feb. 28th, 2020

Abstract

In recent years, Neural Network Machine Translation (NMT) has made great progress as a new translation technology. Its translation results are not only more accurate but also more fluid. But at the same time, NMT also has many problems that need to be solved. The purpose of this article is to explore problems of vocabulary and their causes, and propose solutions for tuning model of Japanese-Chinese NMT. The limitation of the size of vocabulary and the domain mismatch of cor-pus could lead some problems such as unknown words and mistranslated words. Therefore, this article proposes several solutions like using subword, replacing low-frequency words, using ex-ternal dictionaries, and using domain adaptation. Using subword or using external dictionary can overcome the problem caused by small size of vocabulary. Replacing low-frequency words can reduce the negative influence of low-frequency words. Domain adaptation can improve the per-formance on translating specific domain text. The experimental results showed that compared with the general NMT model, the approaches of tuning model proposed in this article can reduce the number of vocabulary translation problems and improve the translation quality.

Keywords

Neural Network Machine Translation, Vocabulary Problems, Tuning Model

关于日中神经网络机器翻译中的词汇问题的

探讨

罗雯涛

株式会社高电社,日本大阪

收稿日期:2020年2月6日;录用日期:2020年2月21日;发布日期:2020年2月28日

罗雯涛

摘 要

近年以来,神经网络机器翻译作为新兴的翻译技术,取得了极大的进步。翻译的译文不仅更加准确也更为流畅。但神经网络翻译同时还有许多问题需要改进。本文旨在以日中神经网络机器翻译为实例,探讨词汇层面的问题和成因,并提出相应的模型改进方法。受限于模型的词表大小和语料资源的领域不匹配等原因,译文中存在未知词和词语的错翻漏翻等问题。因此,本文根据这些原因提出了使用subword ,替换低频词,利用外部词典,采用领域自适应训练模型等多个改进方案。使用subword 或者利用外部词典,可以克服词表过小的问题。替换低频词可以降低低频词对模型的负影响。领域自适应可以提高模型对特定领域文本的表现。实验结果表明本文提出的模型改进方案相较于一般的神经网络翻译模型,能很好地减少词汇翻译问题的出现次数,从而提高译文的翻译质量。

关键词

神经网络机器翻译,词汇问题,模型改进

Copyright ? 2020 by author(s) and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY 4.0). https://www.doczj.com/doc/f39179594.html,/licenses/by/4.0/

1. 引言

机器翻译指的是通过计算机自动地将一种语言翻译成另一种语言的技术。它的作用是消除人们的沟通障碍,是人类长期以来的一个钻研方向。

本文的目的是通过探讨日中神经网络机器翻译存在的词汇问题,了解这些问题产生的原因,并实施若干的改进方法。最后通过分析实验的结果,验证这些方法是否能有效改进词汇问题。

2. 机器翻译的类型

在介绍神经网络机器翻译存在的词汇问题之前,本文先简要总结机器翻译的各种类型。根据出现时间的先后顺序,机器翻译主要可以分为以下几种类型:基于规则的机器翻译,基于实例的机器翻译,基于统计的机器翻译,基于神经网络的机器翻译。

2.1. 基于规则的机器翻译

基于规则的机器翻译主要是受到了乔姆斯基提出的转换生成语法的启发。乔姆斯基[1]认为对于一种语言,是可以利用有限的规则来推导出来无限的句子。

基于规则的机器翻译的优点在于他可以直观并精确地表达语言学家们所制定的各种知识规则。同时,其缺点也是非常明显的。比如规则需要动用大量的人力来进行编写;且规则具有极大的主观性,难以保障一致性;不规范的句子难以被归纳到有限的规则里。

2.2. 基于实例的机器翻译

基于实例的机器翻译的方法最早由日本京都大学的长尾真[2]提出。其思想是要给机器翻译系统提供已经存在的近似的例句,使其在翻译新输入的句子时可以忽略其中的相同部分,可以专注于处理例句和新输入的句子之间的不同的部分。

Open Access

罗雯涛

比如要翻译“我要去电影院”这样一句话时,若翻译系统知晓已知的例子里有“我要去剧院”,那么只需要考虑如何翻译和处理“电影院”即可。这种方法不要求花大量时间来定义规则,并在之后一定程度上促进了之后的统计机器翻译。

2.3. 基于统计的机器翻译

随着数学理论的介入,机器翻译开始以统计模型作为基础。统计机器翻译的基本思想是对大量的平行语料进行统计分析,以此来构建统计翻译模型,并在这模型的基础上定义要估计的模型参数,并设计参数估计算法。统计机器翻译中的一个代表是基于短语的机器翻译[3]。

2.4. 基于神经网络的机器翻译

近年来,随着深度学习的快速发展,神经网络的架构也被引入了机器翻译的研究中。基于神经网络的机器翻译(Neural Machine Translation, NMT) [4][5]也逐渐兴起。相较于统计机器翻译,NMT需要使用更大的语料,能够得到更精确的译文和更流畅的语句。

针对此,学术界和产业界也投入大量的人力物力开发各自的神经网络机器翻译系统,并取得了巨大的进步。在许多语种上,神经网络机器翻译的性能都得到了大幅提升,并远远超越了传统的统计机器翻译。

从使用的模型框架的角度来对NMT进行分类的话,目前的NMT模型主要包含三类:基于循环神经网络(Recurrent Neural Network, RNN)的NMT模型,基于卷积神经网络(Convolution Neural Network, Conv)的NMT模型,基于自注意力机制的NMT模型(Transformer)。

3. 神经网络机器翻译中存在的词汇问题

神经网络机器翻译的翻译质量比起传统的机器翻译方式在翻译质量上得到了明显提高,译文更加准确和流畅。但神经网络机器翻译的研究中仍存在许多问题需要解决。其中,一个最重要问题是词汇相关的问题。

可以想象到如下一个应用场景:专业文本中往往存在着大量的专业词汇,比如法律政令,科技论文等等。这些词汇具有一定的翻译难度。当用户需要对专业领域性质较强的文本时,由于神经网络机器翻译已经将句子翻译得很流畅,其往往也会更在意词汇有没有被正确翻译。

因此词汇问题是神经网络机器翻译急需解决的一个研究方向。

3.1. 词汇问题

从在译文所呈现的情形来看,词汇问题可以分为“未知词”和“翻译错误”这两种情况。本文以实际日中神经网络机器翻译的译文为例,描述这些问题。

3.1.1. 未知词

未知词是指在翻译过程中,原文部分的单词未经翻译,直接出现在了译文中的词。如下面这个例句:(例句1)原文:庶民寄りの政策趣旨がいくら好ましくても、国の財政を湯水のように使う「免罪符」となってはならない。

(例句1)译文:不管怎样出色的支持庶民政策,都不应将其用作使用政府资金如热水的“免罪符”。

当神经网络机器翻译系统不能判断该输出哪个译文时,系统会倾向于从原文中寻找一个概率最大的原文单词进行替代。例句1中,日文的“庶民”被直接输出到了中文译文里。这里的“庶民”应该被翻译为“老百姓”“大众”。

(例句2)原文:現在は一般的なノートパソコンのポインティングデバイスとして広く採用されている。

罗雯涛

(例句2)译文:如今,它被广泛用作普通笔记本计算机的ポインティングデバイス。

又如例句2中,日文的专业名词“ポインティングデバイス”没有被正确地翻译为中文。而“ポインティングデバイス”的正确译文应该是“定点设备”“指向设备”。

3.1.2. 错误翻译

错误翻译,即系统错误地翻译了该单词,甚至漏翻了该单词。

(例句3)原文:協会は、新たに八百長容疑が明らかになった14人の力士に対しても、独自調査を進めている。

(例句3)译文:该协会正在对800人的罪名的14名相扑选手进行独立调查。

在例句3中,日文单词“八百長”是一个特殊的词汇,其意思为“体育比赛当中的故意让赛的行为”。

译文错误地把“八百長”当作一个“数词+量词”的短语进行了翻译。于是译文变成了“800人”。

(例句4)原文:移動通信の重要な基盤技術の1つである狭帯域デジタル変調方式について概要を述べる。

(例句4)译文:本文概述了数字调制方案,这是移动通信的重要基础技术之一。

在例句4中,日文单词“狭帯域デジタル変調方式”中的“狭帯域”并没有被翻译出来,其对应的中文应当是“窄带(宽)”。本例中可以看到,在翻译一些复杂的复合词时,神经网络机器翻译有可能会出现错翻漏翻。

3.2. 问题产生的原因

从问题的原因入手,词汇问题又可以被划为如下两种情形。

3.2.1. 受词表限制

词表限制是指因为过大的词表会造成计算开销过大的问题,神经网络机器翻译的模型一般使用固定大小的词表。

于是在训练翻译模型的过程中,对于源语言,模型并未能很好地学习到词汇表以外的词汇的语义表示。对于目标语言,模型并不能选择词汇表以外的词汇作为译文。前者很可能会导致错误翻译,后者则很可能导致出现未知词。

因为词表大小的限制而排除在词表外的词又称作未登录词(out of vocabulary)。未登录词的存在将极大地影响翻译的质量。因此如何解决词表受限的问题成为改善词汇问题的一个重点。

根据Sennrich等人[6]的报告,不光是未登录词,系统在翻译这些存在于词表中的低频词的时候,其翻译质量也不尽如人意。所谓低频词指的是这些词存在于NMT的词表中,但由于在训练语料中出现的频次数过少。由于出现次数太少,使得这些词的语义表现也并没有被翻译模型充分吸收。

3.2.2. 受资源限制

神经网络机器翻译的模型的训练需要使用到大量的语料。语料的不足一般被认为会导致训练后的模型的翻译质量较差。这个情形在翻译特定领域的文本时,表现地尤为明显。这个结果在很大程度上归结于“领域不匹配”。由于收集特定领域的语料有一定难度,使得训练模型所使用的语料中该领域所占比可能过小,训练出的翻译模型对于特定测试集出现领域不匹配的问题。

Koehn的报告[7]阐明了领域不匹配时,翻译测试结果将会降低。如表1所示,该文给出了使用不同语料训练的翻译模型(纵轴)对不同领域的测试集(横轴)的翻译测试结果(表中的结果值为自动评价方法BLEU)。

罗雯涛Table 1. Performance of the NMT models trained from different corpora on different test sets

表1.不同语料训练得到的NMT模型在不同领域的测试集上的表现

Model LAW Medical IT Subtitles

All data 30.5 45.1 35.3 26.4

LAW 31.1 12.1 3.5 2.8

Medical 3.9 39.4 2.0 1.4 IT 1.9 6.5 42.1 3,9 Subtitles 7.0 9.3 9.2 25.9

可以发现,使用ALL data (包含LAW, Medical, IT, Subtitles)作为训练语料的翻译模型在各个测试集上的表现有着很大的波动。比如翻译Medical领域时有45.1的BLEU值,而翻译Subtitles领域时仅有26.4的BLEU值。这说明了一些特定的领域的文本,本来就有一定的翻译难度。若翻译模型的训练语料缺少该领域的语料时,翻译质量肯定会降低。

而通过考察训练语料没有相关的领域的语料时的情形,可以进一步看到其翻译表现的降低程度是不容忽视的。比如,使用ALL data训练的系统在翻译Medical领域时有45.1的BLEU值,但仅使用LAW 语料进行训练的模型在翻译Medical领域时只有12.1的BLEU值。

4. 模型改进方法

针对词汇问题的成因,本文提出以下几种改进模型翻译效果的方案。

4.1. 解决词表受限的方法

为了从词汇表受限的角度解决词汇问题,本文采用了以下三种方法。

4.1.1. 使用subword代替传统单词

Subword指代的是一种比单词颗粒度更小的语言单位。Sennrich等人[6]为了解决词汇表受限的问题,提出了切割出一种比单词更小的语言单位作为词表中的“单词”来使用的方法。从而使得这些“单词”可以被词表全数收录。本文在分割subword时,参考和利用了工具SentencePiece [8]。

由于中文或日文等亚洲语言没有天然的单词界限,因此往往需要先进行分词处理。Sentencepiece对此问题进行了改良,使得subword的分割可以不需要事先的分词处理。使用工具Sentencepiece实际分割后的例句如下:

(例句5)日文原文:スクリプトの開発に開発エンドポイントを使用する

(例句5)日文subword:_スクリプト_の_開発_に_開発_エンドポイント_を使用_する

(例句5)中文原文:使用开发终端节点来开发脚本

(例句5)中文subword:_使用_开发_终端节点_来开发_脚本

例句中的下划线表示了此处是实际单词的词头。一般而言,使用分词工具切分时,日文的“エンドポイント”是一个单词,中文的“终端节点”也是一个单词。分割subword会将语言切成了颗粒度更小的单位,在本例中,上述单词分别被切分为了2个和3个颗粒度更小的单位。

与此同时,对于训练翻译模型来说,使用分割成subword的语料进行训练,可以学习到更丰富的语言表现。

4.1.2. 替换低频词

替换低频词的思想是,因为低频词也并不能被模型很好地学习到,那么若能在训练模型之前,将训

罗雯涛

练语料中的低频词替换为意思相近的高频词,则可以改善最终的模型的翻译质量。本文认为,语料中出现频次低于3的单词,是会对翻译模型产生负影响的低频词。

关于词的替换,我们将以词的相似度为替换标准。具有较高相似度的两个词,可以被判断为可替换词。

本文使用Gensim工具库[9]来计算词向量和词的相似度。具体的步骤如下。

首先,需要获取单词的词向量。本文利用Gensim工具库,得到基于Word2Vec [10][11]的词向量空间模型。

本文选择使用维基百科的dump数据作为获取词向量模型的语料,维基百科的dump数据可从以下地址获取(https://https://www.doczj.com/doc/f39179594.html,/)。

第二步,得到词向量之后,通过工具库提供的similarity函数,可以计算两个词之间的相似度。相似度值的范围在0到1之间。

第三步,进行词的替换。对于语料中具体的句子,若其中的单词为低频词或者是未登陆词,将通过计算语义相似度的方式,从高频词中寻找最为匹配的可替代的词。若匹配成功,则进行替换。工具库提供的most_similar函数,可以有效的节省匹配时间。

最后还需要处理面对多个可替换候补如何进行选择的问题。在实际的替换过程中,本文参照以下原则进行依次优先选择。

a. 比较各个候补词在训练语料中的词频大小差异,若词频大小有明显差距,则选取词频更高的候补

词。根据实际语料分析,词频的明显差距定为10次。

b. 比较各个候补的相似度差异大小,若语义相似度差距明显,则选取相似度更高的候补词。根据实

际语料分析,相似度的明显差距定为0.2。

c.选择词频最高的候补词。

(例句6)替换前:此事需要考虑到当地的具体情况,不能中央凭空拍板,应责成当地地方领导亲自督办。

(例句6)替换后:此事需要考虑到当地的具体情况,不能中央凭空拍板,应安排当地地方领导亲自督办。

在例句6,通过词的替换,低频词“责成”被替换为更常见的高频词“安排”。

4.1.3. 外部词典

虽然翻译模型的词表大小是有限的,但独立于模型之外的外部词典则可以满足无限的词汇量需求。

翻译系统可以利用外部词典,把未知词处理成相应的译文。

而关于如何获取外部词典的资源的问题,有两种可以考虑的方法。

一种是通过维基百科获得词条及其对应的译文词条作为外部词典。这类数据以词对为单位。基于维基百科获取词条的具体步骤如图1所示:

该流程的一开始将选择维基数据的某个分类(category,对应于某个专业领域)的页面作为起始页面,递归地向下探索其子分类的页面。当探索达到足够探索深度时终止之。针对探索过的页面,获取页面对应的词条的同时,并查询页面对应译文页面。若存在译文页面,则获取译文页面的词条。最终将词条和译文词条成对地存储到词典里。

通过这样的方法,可以快速简单地集成一个具体领域的专业词典,作为翻译模型的外部词典使用。

这对于解决翻译专业领域文本时大量出现的未知词问题,很有帮助。

另一种获取词典的方法是通过基于统计的翻译方法,获得短语翻译表(phrase-table),然后从短语翻译表中抽取出适当的短语对存入词典。

罗雯涛

Figure 1. Flowchart: Extracting word pairs from Wikidata

图1. 流程图:从维基的数据中抽取词条

在基于统计的翻译方法中,短语翻译表的一条短语对的记录可以表示为如下例子。

(短语翻译表的例子)アンタゴニストの同定方法|||阻断剂的认定方法|||0.75 1.22362e ?07 1 0.0273384 ||| 0-0 1-1 2-2 3-3

上述记录中,原文单语,译文短语,翻译概率,词对齐信息等四项信息分别被“|||”符号分割开来。这里的第三项信息“翻译概率”中包含了基于统计的翻译过程中所感知到的四种翻译概率。

根据训练语料的规模不同,短语翻译表所记录的短语对的数量可以从数百万条到数千万条不等。但并不是每一条记录都是对于收集外部词典而言是有用的。因而,本文以翻译概率为依据,从短语翻译表中抽取出翻译概率较高的短语对,作为外部词典使用。

通过计算的各个翻译概率P 之间的Cross Entropy (式1),获得此词条的权重值W 。根据真实语料分析,当权重W 大于?0.5时,其记录作为词条的准确性是可以值得信赖。

1

log N W Pn N =∑ (1)

4.2. 解决资源受限的方法

资源受限的最大表现就是语料的领域不匹配。解决领域不匹配的最直接的方法就是追加相应领域的语料。

由于特定领域的语料获得难度很大,往往只能获得一个小规模的数据。在这样的背景下,仅仅简单地追加对应领域的训练语料,由于其在训练语料中的比重和规模都较小,并不能直接改善翻译表现。因此还需要利用领域自适应(Domain adaptation)的方法强化翻译模型在特定领域上的表现。

领域自适应的目标领域又可称为“内领域”,其语料获取困难,通常语料规模较小。于此相对的,广泛存在的,易于获取语料的部分则称为“外领域”。领域自适应的训练方法可以帮助模型尽可能有效地学习到内领域语料的知识表现。

罗雯涛

关于领域自适应的方法,本文参考了mixed fine tuning的方法[12][13],将翻译模型的训练分为三次进行。

如图2所示,在第一次的训练中,仅利用外领域的语料进行训练,获得了外领域模型。第二次训练以外领域模型为基础,将内外领域的语料进行混合训练,获得了交叉模型。第三次训练,以交叉模型为基础,通过训练内领域的语料,获得了最终的内领域模型。

Figure 2. Domain adaptation: the approach of mixed fine tuning

图2. 领域自适应:mixed fine tuning方法

特别需要注意的是在训练交叉模型时,要根据内外领域语料的数量差异,对数量较少的内领域语料做增量处理(oversampling),使之规模与外领域的语料持平。

5. 实验结果

5.1. 训练语料及测试集

本文采用OPUS [14]和ASPEC [15]的日中对齐语料作为训练语料,共计约160万句。测试集分为两个。一个为1000句不属于特定领域的句子集,即“普通测试集”。另一个为1000句的IT领域句子集,即“IT测试集”。测试集和训练用的语料之间不存在交集。

依照4.1节描述的方法,在采用低频词替换的方法时,本文总计从语料中替换了1万8千余处低频词。针对使用外部词典的方法,本文从wiki数据中抽取了1万3千余条词条作为外部词典。从单词翻译表中抽取了2万余条短语对作为外部词典。

根据4.2节描述的方法,另从OPUS的语料库中抽取了和IT领域句子相近的10万条句子,作为领域自适应中追加训练用的IT领域的语料。

5.2. 实验设置

本文训练神经网络翻译模型的工具为OpenNMT-py [16] (v0.8)。模型采用基于循环网络结构(RNN)的编码器-解码器架构。模型的词表大小设定为5万词。根据采用的改进方法的不同,本文将分别设置了多个评测任务。

Baseline:作为基本评测任务,代表了模型没有运用本文中提到的任何改进方法。

+Subword:表示此任务在训练模型时,对训练语料进行了subword分割。

+Replace:表示此任务对语料中的低频词进行了替换处理。

+Dic:表示此任务中会利用外部词典。

+Adaptation:表示此任务针对IT领域进行了领域自适应的模型训练。

罗雯涛5.3. 实验方法

关于结果的评测方法,本文采用了自动评价和人工评价两种方法。

自动评价采用了BLEU值[17]作为评价标准。自动评价的目的是比较经过方法改进后,译文整体质量的变化。而人工评价则主要是人工地统计译文中存在的词汇层面的翻译问题的数量。人工评价的目的是考察经过方法的改进,译文中的词汇问题的减少情况。

Table 2.The results of automatic evaluation (BLEU value)

表2.自动评测结果(BLEU值)

任务名普通测试集IT测试集

Baseline 30.28 22.16

+Subword 31.66 23.48

+Replace 30.45 23.03

+Dic 30.87 24.29

+Adaptation 29.95 24.10 +Subword+Adaptation 30.15 24.32

+Replace+Dic+Adaptation 30.42 24.46

表2记录了自动评测的结果。作为最基本的任务,Baseline在普通测试集的BLEU值为30.28,在IT 测试集上的BLEU值为22.16。Baseline在普通测试集上的表现要优于在IT测试集上的表现。这也证明了在模型的训练语料的领域不匹配时(对于IT领域的测试集),模型的翻译质量会下降。

对于普通测试集而言,以解决词汇表受限为目的的三个方法的相关任务相较于Baseline,BLEU值都获得了一定的提升。其中最为有效的任务+Subword的BLEU值为31.66。而在使用领域自适应的方法之后,+Adaptation的任务在普通测试集上的翻译效果反而会存在些许下降。+Adaptation的BLEU值为29.95。

另一方面,对于IT测试集而言,基于各种改进方法的任务在这个测试集上均相对于Baseline获得了提升。这证明了本文所提议的改进方法的有效性。其中以解决词汇表受限为目的的三个方法里,利用外部词典的+Dic带来的提升最大,其BLEU值为24.29。领域自适应(+Adaptation)的方法也同样获得了较大的提升,BLEU值为24.10。在混用多个方法的任务中,+Replace+Dic+Adaptation任务达成了所有模型中的最高BLEU值24.46。

Table 3.The results of human evaluation (Number and reduction rate of vocabulary problems)

表3.人工评测结果(词汇问题的数量/词汇问题的降低率)

任务名普通测试集IT测试集

Baseline 127 311

+Subword 5 (96%) 6 (98%)

+Replace 109 (15%) 237 (24%)

+Dic 76 (40%) 106 (66%)

+Adaptation 125 (1%) 151 (53%) +Subword+Adaptation 9 (93%) 5 (98%)

+Replace+Dic+Adaptation 82 (35%) 53 (83%)

罗雯涛

在人工评测中,当出现未知词或单词的错翻漏翻等现象时,其将被计为1处词汇问题。表3记录了人工评测的结果,括号外的数值为词汇问题的数量,括号内的数值为相较于Baseline,词汇问题减少的百分比。

Baseline在普通测试集上有127处词汇问题,在IT测试集上的词汇问题更多,为311处。Baseline 在普通测试集上的表现要优于在IT测试集上的表现。这种情形在前面的自动评价的结果中也得到了印证,说明了在训练语料的领域并不匹配时,模型的翻译质量会下降。

在于普通测试集而言,使用领域自适应(+Adaptation)的方法并未能有效减少词汇问题的数量,其减少率仅为1%。这也从侧面印证了为何自动评测中+Adaptation的BLEU值会比起Baseline还稍有降低。

而+Subword在减少词汇问题数量上的表现非常显著,达到了96%。译文中几乎不存在未知词,仅有个别词语被错翻漏翻。其次,+Dic的方法也极大地改善了词汇问题,其词汇问题减少率为40%。因此可以认为,+Subword,+Replace,+Dic所代表的改进方法对于改进普通测试集的译文是有效的。

另一方面,对于IT测试集而言,使用领域自适应(+Adaptation)的方法开始表现出作用,其词汇问题减少率达到了53%。根据结果,可以看到+Subword, +Dic, +Dic+Adaptation三种测试任务所代表的改进方法对于改进IT测试集的译文是有效的。同时,在这个测试集上,综合多种方法的+Replace+Dic+Adaptation 的任务也能够达成83%的词汇问题减少率。

6. 总结

本文以日中神经网络机器翻译为例,探讨了神经网络机器翻译中可能遇到的词汇方面的问题,分析了问题产生的原因,并提出了若干个改进问题的方法。最后通过进行实验并分析实验结果,确认了这些方法的有效性。

参考文献

[1]Noam, C. (1956) Three Models for the Description of Language. IRE Transactions on Information Theory, 2, 113-124.

https://https://www.doczj.com/doc/f39179594.html,/10.1109/TIT.1956.1056813

[2]Nagao, M. (1984) A Framework of a Mechanical Translation between Japanese and English by Analogy Principle. In:

Artificial and Human Intelligence, Elsevier Science Publishers, New York.

[3]Koehn, P., Och, F.J. and Marcu, D. (2003) Statistical Phrase-Based Translation. Proceedings of the 2003 Human Lan-

guage Technology Conference of the North American Chapter of the Association for Computational Linguistics,

127-133. https://https://www.doczj.com/doc/f39179594.html,/10.21236/ADA461156

[4]Bahdanau, D., Cho, K. and Bengio, Y. (2015) Neural Machine Translation by Jointly Learning to Align and Translate.

In: Proceedings of the 3rd International Conference on Learning Representations (ICLR 2015), International Confe-

rence on Learning Representations, San Diego, CA.

[5]Luong, T., Pham, H. and Manning, C.D. (2015) Effective Approaches to Attention-Based Neural Machine Translation.

In: Proceedings of the 2015Conference on Empirical Methods in Natural Language Processing(EMNLP), Lisbon,

Portugal, 1412-1421. https://https://www.doczj.com/doc/f39179594.html,/10.18653/v1/D15-1166

[6]Sennrich, R., Haddow, B. and Birch, A. (2016) Neural Machine Translation of Rare Words with Subword Units. In:

Proceedings of the54th Annual Meeting of the Association for Computational Linguistics, ACL, Berlin, Germany,

1715-1725. https://https://www.doczj.com/doc/f39179594.html,/10.18653/v1/P16-1162

[7]Koehn, P. and Knowles, R. (2017) Six Challenges for Neural Machine Translation. In: Proceedings of the First Work-

shop on Neural Machine Translation, Association for Computational Linguistics, Vancouver, 28-39.

https://https://www.doczj.com/doc/f39179594.html,/10.18653/v1/W17-3204

[8]Kudo, T. and Richardson, J. (2018) SentencePiece: A Simple and Language Independent Subword Tokenizer and

Detokenizer for Neural Text Processing. CoRR. https://https://www.doczj.com/doc/f39179594.html,/10.18653/v1/D18-2012

[9]Radim, ?. and Sojka, P. (2010) Software Framework for Topic Modelling with Large Corpora. In: Proceedings of

LREC 2010 Workshop New Challenges for NLP Frameworks, University of Malta, Valletta, Malta, 46-50.

[10]Mikolov, T., Chen, K., Corrado, G. and Dean, J. (2013) Efficient Estimation of Word Representations in Vector Space.

罗雯涛

ICLR.

[11]Mikolov, T., Sutskever, I., Chen, K., Corrado, G.S. and Dean, J. (2013) Distributed Representations of Words and

Phrases and Their Compositionality. NIPS.

[12]Chu, C.H., Dabre, R. and Kurohashi, S. (2017) An Empirical Comparison of Domain Adaptation Methods for Neural

Machine Translation. In: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics, Vancouver, Canada. https://https://www.doczj.com/doc/f39179594.html,/10.18653/v1/P17-2061

[13]Chu, C.H., Dabre, R. and Kurohashi, S. (2018) A Comprehensive Empirical Comparison of Domain Adaptation Me-

thods for Neural Machine Translation. Journal of Information Processing, 26, 1-10.

https://https://www.doczj.com/doc/f39179594.html,/10.2197/ipsjjip.26.529

[14]Tiedemann, J. (2016) OPUS-Parallel Corpora for Everyone. Baltic Journal of Modern Computing (BJMC), Special Is-

sue: Proceedings of the 19th Annual Conference of the European Association of Machine Translation (EAMT), 4. [15]Nakazawa, T., Yaguchi, M., Uchimoto, K., Utiyama, M., Sumita, E., Kurohashi, S. and Isahara, H. (2016) ASPEC:

Asian Scientific Paper Excerpt Corpus. Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC 2016).

[16]Klein, G., Kim, Y., Deng, Y., Senellart, J. and Rush, A.M. (2017) OpenNMT: Open-Source Toolkit for Neural Ma-

chine Translation. CoRR. https://https://www.doczj.com/doc/f39179594.html,/10.18653/v1/P17-4012

[17]Papineni, K., Roukos, S., Ward, T. and Zhu, W.-J. (2002) BLEU: A Method for Automatic Evaluation of Machine

Translation. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, Philadelphia, PA, July 2002, 311-318. https://https://www.doczj.com/doc/f39179594.html,/10.3115/1073083.1073135

机器翻译技术的现状及发展

机器翻译技术的现状及发展 篇一:翻译技术领域的现状与展望 翻译技术领域的现状与展望 作者/王华伟闫栗丽 翻译技术在中国的发展起步相对较晚,但近年来随着中国在全球化进程中扮演着越来越重要的角色,催生了对翻译技术发展的强烈需求。中国翻译行业在借鉴国外同行经验的基础上,于2007~2008年间在翻译技术领域取得了一系列成就,也还存在一些亟需改进的方面,而这也势必对我国的翻译行业产生深远的影响。 1. 国家政策的扶持和行业协会的推动 翻译技术的发展直接关乎整个翻译行业的翻译质量及效率,具备巨大的行业经济效益。对此,科技部、财政部都给与了足够的重视并拨出专项资金进行扶持。在 2008年的科技型中小企业技术创新基金扶持计划中,中文及多语种处理软件及基于先进语言学理论的中文翻译软件等赫然在列。而中国译协也在 2008年的第 18届世界翻译大会上专门辟出了翻译工具、术语管理和翻译标准等分论坛,着力推动翻译技术的探讨与发展。 2. 词典型翻译软件百花齐放 词典是使用范围最广的工具,它以使用便利的优势,几乎占据了每个计算机的桌面,无论语言学习者还是专业翻译人员,几乎都是必备工具。词典的发展从最早的单机版本发展至今,已经有很多种产品

类型,我们可以见到的有:电子词典、在线词典、手机词典等。“金山词霸”的网络版本“爱词霸”在这两年获得了长足的发展,如爱词霸网络释义、谷歌金山词霸等一系列特色功能的相继推出,将词典型翻译软件的应用领域从传统的桌面计算机拓展到网络、手机等,并取得了显著的成功。另外,类似Google这样的搜索引擎,因为信息量大,检索便利而成为很多专业翻译人员查词的重要辅助工具。 值得一提的是,最新推出的基于用户发布词汇的词典编撰系统之前的词典都是以各大出版社公开发行的词典中的词条作为主要数据库来源,为用户提供查询上的便利。但是传统出版词典的方式存在发布周期长、词汇更新慢的缺陷。互联网的出现,加快了信息传播的速度,也提高了用户对新词更新的速度要求,为了方便新词汇的发布,词典编纂系统也就应运而生了。这是一种基于用户的词典发布系统,用户可自由发起词典编纂项目,自发组织人员参与项目,发起人可以按照需要给小组成员分配不同的权限,将词汇添加等基本工作和审核人员明确区分,既确保了词典的专业性,也实现了专业语料的适时更新和发布。 3. 机器翻译应用软件融入普通网民生活 谷歌语言工具的推出打破了互联网语言的藩篱,用户可以方便简捷地将目标语言的网页转化成自己的母语进行浏览。事实上,这也是机器翻译软件的一个应用领域,而国内的相关软件如金山快译等,专注于为普通网民提供更为友好的英中日网站浏览体验,并在亚洲语言的机器翻译应用方面积累了大量的经验。其他如华建等长期从事机器

机器在线翻译与人工翻译的比较

现如今大家各个国家的人群交流的越来越多,以至于语言自然而然的要学习的更多,如果机器翻译也就是“一点翻译”与人工翻译摆在一起,大家都知道选择人工翻译,因为人工翻译准确性高并且是根据文章上下文进行翻译的,那机翻真的没有优点了么,错,机翻的优点有很多,比如单词准确性高,面对偏僻的词汇也是可以翻译的,翻译语句的时候虽然不是很精准,但是对于了解语言的我们来说也可以根据翻译进行大致的了解,话不多说,简单的来介绍一下如何在线翻译吧。 步骤一:我们要先在电脑上准备好需要进行翻译的文件,最好是将其添加至桌面上,或路径不复杂的文件框内,同时还需要借助电脑浏览器搜索一点翻译,进入相关的界面。 步骤二:通过搜索可以看到“一点翻译“在百度里面的页面,进入在线翻译的界面后,我们就可以在页面的中心位置通过上传文档按钮进入文档翻译的选项页面了。

步骤三:进入文档翻译的选项页面后,我们可以先对上传文档按钮上方的一些选项进行修改(也就是下图里面的选项)这样可以帮助我们更好的实现翻译。 步骤四:上面的选项修改好后,我们就可以开始将准备好的文件添加进来了,可通过点击上传文档按钮或者是拖拽的方式将文件添加进来。

步骤五:文件添加进来后,可再次去翻译的自定义选项是否修改好,若确定修改好后,就可以通过开始翻译按钮,对PDF文件进行翻译了。 步骤六:翻译的时间根据翻译的文件的大小来定制,耐心等待文件翻译结束后,我们可以通过预览按钮对翻译后的文件进行预览,也可以直接将翻译后的文件下载到电脑上进行保存。

在线翻译与人工翻译最大的优点是速度快,方便,准确性高,如果不是相对了解很透的语句的话建议在“一点翻译”内进行在线翻译,小编已经尝试过了,感觉蛮好的哦。

机器翻译

机器翻译 1 概述 机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解( Natural Language Understanding)之间存在着密不可分的关系。 2 国内外现状 机器翻译思想的萌芽关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。笛卡(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。在17世纪中叶,贝克(Cave Beck)、基尔施(Athanasius Kircher)和贝希尔(Johann JoachimBecher)等人都出版过这类的词典。由此开展了关于“普遍语言”的运动。维尔金斯(JohnWilkins)在《关于真实符号和哲学语言的论文》(An Essay towards a Real Character andPhilosophical Language, 1668)中提出的中介语(Interlingua)是这方面最著名的成果,这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。本世纪三十年代之初,亚美尼亚裔的法国工程师阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做“机械脑”(mechanical brain)。这种机械脑的存储装置可以容纳数千个字元,通过键盘后面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户,尤其适合于作机器词典。在宽纸带上面,每一行记录了源语言的一个词项以及这个词项在多种目标语言中的对应词项,在另外一条纸带上对应的每个词项处,记录着相应的代码,这些代码以打孔来表示。机械脑于1937年正式展出,引起了法国邮政、电信部门的兴趣。但是,由于不久爆发了第二次世界大战,阿尔楚尼的机械脑无法安装使用。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W. Rieger) 曾经提出过一种数字语(Zifferngrammatik),这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译” (德文是ein mechanisches Uebersetzen)这个术语。 真正对机器翻译进行研究应该说是从布恩和韦弗开始的。他们研究的是自动词典万, 从1954年1月7日公开展示的IBM701型计算机开始, 机器翻译进人一个繁荣发展的时期。从那时起, 很多国家都投人了大量的人力、物力从事这方面的研究和开发。随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星” 、“雅信” 、“通译” 、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。 中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都

机器翻译质量的研究与探讨

机器翻译质量的研究与探讨 何站涛韩兆强闫栗丽 交大铭泰软件有限公司北京100081 E—mail:hezt@sunv.com <摘要:本文简介了机器翻译的发展历史和常用方法,重点阐述了提高机器翻译质量的新思路,最后进行了展望. 关键词:机器翻译N元文法语义网语料库计算机辅助翻译 一、引言 计算机对自然语言的研究和处理,一般应经过如下三个方面的过程: I.把问题在语言学上加以形式化.使之能用数学形式严密而规整地表示出来 2.把这种数学形式表示为算法,使之在计算上形式化; 3.根据算法编写计算机程序,使之在计算机上加以实现。 因此.自然语言处理就成了语言学、数学和计算机科学之间的边缘学科。 二、机器翻译概述 面向计算机的语言的机器翻译研究是二十世纪五十年代才开始的: 从五十年代初期到六十年代中期,机器翻译一直是自然语言处理系统研究的中心课题,当时采用的主要是“词对词”翻译方式,这种不是建立在对自然语言理解的基础上的简单技术,没有得到预期的翻译效果,如,威沃(Weaver)设计实现的机器翻译原型系统,该系统采取查找双语词典,句子译文只是单词译文的简单罗列。 六十年代初,自然语言处理使用了简单的语料库统计方法,不仅依据词的意义.而且依据词与其他词的共现情况对词进行分类。但经验主义遭到了理性主义的批评,如乔姆斯基(Chomsky)对N元语法(N.Gram)的批评、闵斯基(Minsky)等对神经网络的批评。 六十年代中期,人们开始转入对自然语言的语法、语义和语用等基本问题的研究,并尝试着让计算机来理解自然语言。乔姆斯基的转换语法和形式化理论为下一代的自然语言处理提供了一种新的解决方案。 七十年代初,美国哈佛大学人工智能专家伍兹(Woods)提出了扩充转移网络(AugmentedTransitionNetWork,ATN),通过使用成份寄存器和功能约束对有限状态机进行了扩充,ATN考察了更多的上下文信息,保持了有限状态计算的简单性。 从八十年代初期开始,国际计算语言学界出现了一批新的语法理论。比较著名的有广义短语结构语法(GeneralizedPhraseStructureGrammar,GPSG)、中心语驱动的短语结构语法(Head-drivenPhraseStructureGrammar,HPSG)、词汇功能语法(LexicalFunctionalGrammar,LFG)、功能合一语法(FunctionUnificationGrammar,FUG)等确定子句语法。 ?218?

对机器翻译取代人工翻译的反驳

对机器翻译取代人工翻译的反驳 近日,一篇名为《翻译界的重大突破!作为一个翻译,此刻我理解了18 世纪纺织工人看到蒸汽机时的忧虑和恐惧!》传遍朋友圈,不少译员和外语系学生表现出了对于翻译前景的担忧,大有机器翻译取代人工翻译的意思。 这篇的文章标题的确相当耸人听闻,这是在号召丢饭碗的译员去砸谷歌总部么?毕竟翻译作为一种创造性的脑力劳动,跟纯粹地出卖体力还是不一样的 (没有任何贬低体力劳动的意思)。相反,个人觉得,作为译员或者外语系学生,应当对于新技术的到来表示欢迎,并主动适应新趋势,而不应该盲目表现出不必要的担忧。 当前笔译市场鱼龙混杂,不少人觉得拿个专八证书就可以做翻译,甚至报价五六十每千字都愿意做,已经严重扰乱了翻译市场秩序。个人觉得CATTI 二级作为敲门砖还是能起到筛选作用的,毕竟15% 左右的通过率摆在那里。机器翻译的发展对于淘汰低端译员可以起到积极作用,而机器翻译完全取代人工翻译的说法实在有夸大之嫌。 奠定了翻译学(Tran slation Studies )独立学科地位的詹姆斯?霍姆斯James Holmes,曾经提出过翻译学的“ Map”,确定学科研究的范围,首先从大方向上分为“纯理论” (Pure)和“应用” (Applied )两个部分,而“应用”层面又可以再分为三个分支“译员培训”( Translator Training )、“翻译辅助” ( Translation Aids )、“翻译批评”( Translation Criticism ),显然“机器翻译” (Machi ne Tran slation ,MT)和“计算机辅助翻译”(Computer Aided Tran slation,CAT)可以归在“翻译辅助”下面。1本人曾经用过大名鼎鼎的CAT 软件Trados (塔多思),功能十分强大,可以随时将翻译结果记录进术语库 ( MultiTerm )中,在该术语重复出现或者近似表达出现的时候进行提示,从而确保术语翻译在全文中的一致性,同时减少翻译术语的重复劳动时间。而诸如“谷歌翻译”之类的“机器翻译”,也代表着翻译研究的一个前沿领域——译后编辑 ( Post-editing ),即通过人工对机器翻译产生的译文进行修改和润色,使其达到可以使用的水平。综上,“翻译辅助”可以减少译员大量重复无意义的劳动,大大提高翻译效率,应该来说可以算是译员的福音。这也是为什么现在很多翻译公司招聘译员都需要熟练掌握翻译辅助工具的原因,当然这也代表着翻译行业的新趋势,对翻译辅助软件一窍不通必然会面临被淘汰的危险。 以下论述机器翻译不可能完全取代人工翻译的原因。第一,翻译辅助软件大多运用于具有大量术语的科技翻译等非文学题材,而对于文学翻译可以起到的作用相当有限。第二,机器翻译基于庞大的语料库,很难处理暂时没有固定翻译的术语,比如中国的外宣翻译是由专家集体讨论之后权威发布的。第三,从根本上讲,机器翻译是基于“对等”( equivalence ),或者类似于平行语料库 ( parallel corpora )

机器翻译研究现状与展望1 Machine TranslationPast,Present,future

机器翻译研究现状与展望1 戴新宇,尹存燕,陈家骏,郑国梁 (南京大学计算机软件新技术国家重点实验室,南京 210093) (南京大学计算机科学与技术系,南京 210093) 摘要:本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,包括:基于规则、基于统计以及基于实例的机器翻译方法;针对机器翻译的研究现状,详细介绍和分析了基于混合策略的机器翻译方法,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。 关键字:机器翻译,基于规则,基于统计,基于实例,混合策略,机器学习 Machine Translation:Past,Present,future Dai Xinyu, Yin Cunyan, Chen Jiajun and Zheng Guoliang (State Key Laboratory for Novel Software Technology, Department of Computer Science & Technology Nanjing University, Nanjing 210093) Abstract:This paper firstly presents the history of machine translation, and introduces some classical paradigms of machine translation: RBMT, SBMT and EBMT. Secondly, we introduce the recent research on machine translation, and describe the hybrid strategies on machine translation in detail, and discuss the applications of machine learning for machine translation. We also analyze the current techniques about evaluation on machine translation. Finally, we draw a conclusion and prospect on the research of machine translation. Keywords:Machine Translation, RBMT, SBMT,EBMT, HSBMT, Machine Learning. 1本论文工作得到863课题资助(编号:2001AA114102, 2002AA117010-04) 戴新宇博士生,主要研究自然语言处理;尹存燕助教,主要研究自然语言处理;陈家骏教授,博士生导师,主要研究自然语言处理、软件工程;郑国梁教授,博士生导师,主要研究软件工程。

编译:《机器翻译基本分类与基本工作原理》

机器翻译基本分类与基本工作原理 编译:洪洁传神语联网网络科技股份有限公司多语工程中心 编译:洪雷中国科学院大学外语系文章来源:多语工程技术研究中心《云翻译技术》第12期,转载请注明出处 摘要本篇综述对机器翻译基本工作原理和基本分类进行了归纳总结,并且对机器翻译的未来发展方向进行了初步探讨。 关键词机器翻译工作原理分类 机器翻译(Machine Translation,MT)是建立在多学科基础上的综合学科,现代理论语言学的发展,计算机科学的进步,信息学和概率统计学的应用,对机器翻译的发展和演变产生了重要影响。机器翻译的基本思想是利用计算机对自然语言进行翻译,而各种机器翻译系统采用的技术和理念不尽相同;面对各种各样的机器翻译系统,文献上有各种分类方式。本文根据所应用的基本工作原理对机器翻译系统分类作一综述。 1.基本类型的机器翻译系统:现有的机器翻译系统按照其基本工作原理,可以分为基于规则的(Rule-Based)机器翻译,基于实例的(Example-Based)机器翻译和统计型的(Statistical)机器翻译这三种基本类型。 1.1.基于规则的机器翻译系统(Rule-Based Machine Translation, RBMT):其基本工作原理基于一个假设,即语言无限的句子可以由有限的规则推导出来。基于这个假设的机器翻译方法又可以分为三类:直接翻译法(Direct Translation),中间语言法(Interlingual Approach),和转换法(Transfer Approach)。它们都需要用到大规模的双语词典,需要用到源语言推导规则,语言转换规则和目标语言生成规则;其不同点在于对语言进行的分析深度不同。如直译法几乎不需要进行语言分析,中间语言法和转换法需要对源语言和目标语言进行某种程度的语言分析。 1.1.1直接翻译法(Direct Translation):这种翻译方法直接对源文字中的字词进行逐个翻译,译后文字顺序按照原文顺序进行排列。这是基于规则的机器翻译的最早的工作方法。这种译法简单、直观,其弊端也是明显的:由这种方法得到的翻译结果质量很不令人满意。人们已经逐渐不再使用这种直接翻译法。

人工智能与机器翻译期末复习题

一、名词解释(5X3‘)15’ 1.兼类(P121):一个单词既可以作名词动词又可以作其他词类 2.机器翻译:用计算机软件代替人做的书面翻译 3.组合型歧义:一个字与前面的字成词,与后面的字成词,合起来也成词。 4.交集型歧义(P117):一个字与前面的字成词,与后面的字也成词。 5.人工智能:用计算机硬件、软件模拟人的行为,解决人类目前尚未认识清楚的问题。 6.人工智能软件的三大技术:知识表示、知识推理、知识获取。 7.语料库:单词、短语和句子组成的数据库。 8.知识工程:包括人工智能软件技术的工程。(知识工程是以知识为基础的系统,就 是通过智能软件而建立的专家系统) 9.深度学习:一步一步在丰富起来的特征规律引导下,由浅入深完成推理的方法。 10.语用分析:分析成语和习惯用语的方法。 二、题解P36 例2.1 、2.2 例2.1 设有下列语句: (1)高山比他父亲出名。 (2)刘水是计算机系的一名学生,但他不喜欢编程序。 (3)人人爱劳动。 为了用谓词公式表示这些语句,应先定义谓词: BIGGER(x,y):x比y出名 COMPUTER(x):x是计算机系的学生 LIKE(x,y):x喜欢y LOVE(x,y):x爱y

M(x):x是人 定义函数father(x)表示从x到其父亲的映射此时可用谓词公式把上述三个语句表示为:(1)BIGGER(高山,father(x)) (2)COMPUTER(刘水)∧∽LIKE(刘水,程序) (3)(?x)(M(x) →LOVE(x,劳动)) 例2.2 设有下列语句: (1)自然数都是大于零的整数。 (2)所有整数不是偶数就是奇数。 (3)偶数除以2是整数。 定义谓词如下: N(x):x是自然数 I(x):x是整数 E(x):x是偶数 O(x):x是奇数 GZ(x):x大于零 另外,用函数S(x)表示x除以2。此时,上述三个句子可用谓词公式表示为: (?x)(N(x) →GZ(x)∧I(x)) (?x)(I(x) →E(x)∨O(x)) (?x)(E(x) →I(S(x))) 三、论述(4X5‘)20’ 1.阐述深度、广度、代价驱动搜索方法。(P68) 答:广度优先搜索法:对全部节点沿广度进行横向扫描,按各节点生成的先后次序,

基于多编码器多解码器的大规模维汉神经网络机器翻译模型

第32卷第9期2018年9月 中文信息学报 JOU RNAL OF CHINESE INFORM A TION PROCESSING Vol.32,No.9 Sept.,2018 文章编号:1003-0077(2018)09-0020-08 基于多编码器多解码器的大规模维汉神经网络机器翻译模型 张金超1,2,3,艾山·吾买尔4,买合木提·买买提4,刘群1,5 (1.中国科学院计算技术研究所智能信息处理重点实验室,北京100190; 2.中国科学院大学,北京100049; 3.腾讯科技(北京)有限公司,北京100080; 4.新疆大学信息科学与工程学院,乌鲁木齐新疆830046; 5.都柏林城市大学,都柏林爱尔兰) 摘要:为提升维汉机器翻译模型的翻译能力,该文提出使用多编码器多解码器的结构,搭建大规模的维汉神经网络机器翻译模型。相比于单编码器单解码器的浅层的小模型,多编码器多解码器模型具有多个编码器,可以对源语言进行多层次、多视角的压缩表示;同时具有多个解码器,可以增强目标语言的生成能力。实验证明,在大规模的训练数据上,使用该方法搭建的大规模维汉神经网络机器翻译模型,译文质量可以大幅度地超过基于短语的统计机器翻译模型和基本的神经网络翻译模型。该文还针对维汉翻译源端语言和目标端语言的翻译单元粒度进行了实验,发现维吾尔语端使用字节对编码单元、汉语端使用字单元,可以消除对汉语分词器的依赖,做到和双端都使用字节对编码单元可比的效果。 关键词:维汉机器翻译;神经网络;多编码器多解码器 中图分类号:T P391文献标识码:A A Large-scale Uyghur-Chinese Neural Machine Translation Model Based on Multiple Encoders and Decoders ZHANG Jinchao1,2,3,Aishan Wumaier4,Maihemuti M aimaiti4,LIU Qun1,5 (1.Key Lboratory of Intelligent Information Processing,Institute of Computing Technology,Chinese Academy of Sciences,Beijing100190,China; 2.University of Chinese Academy of Sciences,Beijing100049,China; 3.Tencent Technology(Beijing)CO.,Ltd.,Beijing100080,China; 4.School of Information Science and Engineering,Xinjiang University,U rumqi,Xinjiang830046,China; 5.Dublin City University,Dublin,Ireland) Abstract:To enhance the translation ability of Uyghur-Chinese translation model,the paper proposes a large-scale Neural Machine T ranslation system based on multiple encoders and https://www.doczj.com/doc/f39179594.html,pared with the encoder-decoder based shallow model,the proposed model consists of multiple encoders to represent the source sentence in multiple p erspectives and has multiple decoders to extend the generation ability of the target sentence.The experiments on the big training corpus show that the translation quality of the proposed model surpasses phrase-based Statistical Machine T ranslation model and the basic Neural Machine T ranslation model.The paper also investigates the granu-larity of the translation unit and reveal that it is effective to employ the Byte Pair Encoding unit for Uyghur and char-acter unit for Chinese to avoid the Chinese word segmentor and achieve comparable performance with BPE-BPE sys-tems. Key words:Uyghur-Chinese machine translation;neural network;multiple encoders and decoders 收稿日期:2017-11-23定稿日期:2018-03-07 基金项目:国家自然科学基金(61331911,61262060);新疆多语种信息技术实验室开放课题(2016D03023);自治区青年科技创新人才培养工程青年博士项目(QN2015BS004) 万方数据

机器翻译和人工翻译-大学英语作文

学术英语作文 机器翻译是否会代替人工翻译 In the past decades, artificial intelligence has brought the light of reform to many areas, translation industry included. The new reform brought us machine translation. As an increasing popular topic, it has inspired people to think that maybe one day, they no longer need to learn foreign languages because machine translation will replace human translation. Though it is not 100% correct, there remains some reasonality within. Last year, A research team from Microsoft claimed that their machine translation (MT) system has achieved the level of professional human translators when it comes to general news report. Meanwhile, Google Translate tool has surpassed the proficiency of some advanced learners. And on Baidu World Conference, Yanhong Li showcased a real-time translation developed by his company. A trend revealed by all those tech giants’ news——an accurate and real-time translation by machine is promising in the future. Meanwhile, new techniques emerge constantly, accelerating the smartness and depth of machine learning. Taking neural network for example……(待补充70词) Thus, In the coming future, there’s no need for comm on people to learn foreign languages. Once the translation machines are smart and powerful enough to deal with academic environment and daily life while also portable to be carried with, people will use them to travel, study and live all around the world without language barriers. It will just look like the scenery in the movie The Wondering Earth -- Astronauts from various countries talk in their mother tongue. At the same time, a mini equipment installed in their suits translate their words. However, if you

面向神经机器翻译的集成学习方法分析

第33卷第3期2019年3月 Vol.33,No.3 Mar.,2019 中文信息学报 JOURNAL OF CHINESE INFORMATION PROCESSING 文章编号:1003-0077(2019)03-0042-10 面向神经机器翻译的集成学习方法分析 李北I,王强-肖桐I,姜雨帆J张哲场I,刘继强】,张俐I,于清2 (1.东北大学自然语言处理实验室,辽宁沈阳110819; 2.新疆大学信息科学与工程学院,新疆乌鲁木齐830046) 摘要:集成学习是一种联合多个学习器进行协同决策的机器学习方法,应用在机器翻译任务的推斷过程中可以有效整合多个模型预测的概率分布,达到提升翻译系统准确性的目的。虽然该方法的有效性已在机器翻译评测中得到了广泛验证,但关于子模型的选择与融合的策略仍鲜有研究。该文主要针对机器翻译任务中的参数平均与模型融合两种集成学习方法进行大量的实验,分别从模型与数据层面、多样性与模型数量层面对集成学习的策略进行了深入探索。实验结果表明在WMT中英新闻任务上,所提模型相比Transformer单模型有3.19个BLEU值的提升。 关键词:集成学习;参数平均;模型融合;多样性 中图分类号:TP391文献标识码:A On Ensemble Learning of Neural Machine Translation LI Bei1,WANG Qiang1,XIAO Tong1,JIANG Yufan1,ZHANG Zheyang1, LIU Jiqiang1,ZHANG Li1,YU Qing2 (1.NLP Laboratory,Northeastern University,Shenyang,Liaoning110819,China; 2.College of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang830046,China) Abstract:Ensemble learning has been extensively proved valid in machine translation evaluation campaigns,but the sub-model selection and integration strategies are not well addressed.This paper examines the two kinds of ensemble learning methods:parameter averaging and model fusion in machine translation tasks,and investigates the impact of diversity and model quantity on system performance from the perspectives of data and model.Experimental results show that the best result yields improvements of3.19BLEU points over the strong Transformer baseline on WMT Chinese-English MT tasks. Keywords:ensemble learning;parameter averaging;model fusion;diversity 0引言 集成学习(ensemble learning)是一种联合多个学习器进行协同决策的机器学习方法⑴。集成学习方法通过整合多个学习器的决策结果可以有效减小预测结果的方差与偏置,显著提升模型的泛化能力,达到比单学习器更好的效果。因此,集成学习方法得到了研究人员的广泛认可,被应用于各种实际任务,如规则提取灼、手写识别⑷等分类回归任务中。 近年来集成学习方法在机器翻译领域也取得了杰出的效果⑺。常见的手段包括平均单模型在训练过程中不同时刻保存的模型参数;在预测过程中整合不同模型的预测结果等。通过在大规模数据的机器翻译评测比赛中进行实验,使用集成学习的手段能大幅度提升翻译的性能,在CWMT、wmt〔u等评测比赛中得到了广泛的验证。影响集成学习效果的主要因素是模型之间的多样性,因此如何增大模型之间的多样性是提升翻译性能 收稿日期:2018-06-10定稿日期:2018-07-15 基金项目:国家自然科学基金(61876035,61732005,61562082);中央高校基本科研业务费;辽宁省高等学校创新人才支持计划

机器翻译研究综述

机器翻译综述 1.引言 1.1机器翻译的历史 现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。 在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。他提出了两个主要观点: 第一,他认为翻译类似于解读密码的过程。 第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中 间语言”,可以假定是全人类共同的。 在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。 1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期 1.2机器翻译的主要内容 经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法 ●句法转换方法 ●中间语言方法 ●基于规则的方法 ●基于语料库的方法 基于实例的方法(含模板、翻译记忆方法) 基于统计的方法 在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。 下面对各个方法逐一的进行介绍。

利用深层神经网络人工智能(AI)训练技术翻译文本

利用深层神经网络人工智能(AI)训练技术翻译文本 微软研究人员在3月14日发表博客文章称,在利用深层神经网络人工智能(AI)训练技术翻译文本方面取得了进展。他们发明了第一台机器翻译系统,可以将中文新闻的句子翻译成英文,准确率与人类不相上下。系统在一套常用的新闻报道测试集上实现了达到了人类水平,测试集名为newstest2017。 在前几期的文章里,我们介绍了神经网络和深度学习的相关内容,微软的这套翻译系统就是使用深层神经网络,帮助生成更真实、更准确的翻译。它还采用了多种不同的人工智能训练方法,包括双重学习、商议网络和联合训练,试图模仿人类的学习方式。 机器翻译 机器翻译系统是支持翻译大量文本的应用程序或在线服务,将文本从“源”语言译成另一种"目标"语言的过程。 自从2010年代早期,新的人工智能技术- 深度神经网络(又称深度学习),已经达到较高的精准度,微软翻译团队将语音识别结合其核心文本翻译技术,推出新的语音翻译技术。虽然机器翻译技术和接口技术的概念相对简单,但它背后的科技集成却是极其复杂的,集成了多项尖端技术,特别是深度学习(人工智能)、大数据、语言学、云计算和web API。 从历史上看,曾经主流的机器学习技术在行业中应用是统计机器翻译(SMT)。SMT 使用先进的统计分析,从一句话中上下文的几个词中来估计最佳可能的翻译。SMT自20 世纪中期以来的为所有主要翻译服务提供商所使用,其中包括微软。 基于深度神经网络(NN) 的翻译技术的出现,带动了机器翻译技术的突变,显著提高了翻译质量。这种新的翻译技术在2016年的下半年开始大规模部署使用。 这两种技术共同之处有两个方面︰ 两者都需要大量的人工翻译的数据(高达数百万的人工翻译过的句子)用于培训翻译系统。既不作为双语词典,也不是基于翻译列表,是根据词在句子中使用的上下文来翻译。

机器翻译技术的探讨

机器翻译技术的探讨 六院五队-徐允鹏-12060143 摘要随着国际交流的日益增多,在计算机、互联网等相关技术日新月异的基础上,机器翻译的技术与应用得到了蓬勃发展。本文详细探讨了基于规则的机器翻译方法、基于语料库的机器翻译方法和混合式机器翻译方法,并讲述了机器翻译的评估方法,最后介绍了机器翻译技术的最新进展。 关键词:机器翻译;基于规则;语料库;评估方法 1.机器翻译概述 随着国际化交流的普遍性,信息通信的日益膨胀,高效的处理不同领域各种语言之间的互译已成为当代人们的普遍需求。翻译是解决自然语言之间通信障碍最直接最有效的方法。传统的翻译工作都是通过专业翻译人员完成,利用语言学知识进行自然语言之间的互译,帮助人们实现信息通信。伴随着计算机技术的成熟与自然语言处理技术的不断进步,利用机器翻译系统帮助人们快速获取外文信息代替人工翻译已成为一种必然的趋势。 机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language

Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系[1]。 机器翻译是21世纪要解决的科技难题之一,主要困难是自然语言在各个层次上的歧义性。研究机器翻译具有重要的实践意义和理论意义。国际间的合作与交流,语言的差异是一个非常重要的障碍,各行各业的人们面对大量他们不熟悉的语言的文档资料,如果单纯的依靠人工翻译,这些日益的待翻译材料将是一种非常沉重的负担,而机器翻译可大幅度减轻这种负担。同时,机器翻译对于了解人类语言和思维的基本机制,探讨人工智能技术有着重要的意义。 2.机器翻译方法 人们一直在寻求更好的解决机器翻译问题的方法,目前机器翻译方法主要有基于规则的机器翻译,基于语料库的机器翻译和混合式机器翻译方法。 2.1基于规则的机器翻译方法 2.1.1基于分析和转换的机器翻译方法 人作翻译时,把一个源语言句子译成目标语言句子,设计到四个基本操作:目标语言单词的检索、调序、删词、增词;机器翻译系统的过程包括检索、分析、转换和生成主要四个阶段,这被称为基于分析和转换的机器翻译系统,也被认为是模拟人类翻译活动最恰当的机

浅谈机器翻译存在的问题

机器翻译及其问题浅析 摘要:由于信息技术高速发展,国际交流日益频繁,如何克服语言障碍已经成为国际社会共同面对的问题,而人工翻译的方式已经远远不能满足需求。利用机器翻译协助人们快速获取信息已成为必然趋势,但机器翻译仍存在一些影响译文可读性和准确性的问题。本文将简单介绍机器翻译并对常见问题进行浅析。 关键词:机器翻译问题语法应用 一、引言 机器翻译(Machine Tanslation,简称MT),又称自动翻译,是利用计算机来进行不用的自然语言之间的翻译,它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。它是横跨语言学、数学、计算机科学、翻译学及人工智能等的综合学科,也是信息时代语言应用的一个重要领域。 二、机器翻译的简介 (一)机器翻译简史 人类在近代就萌发了机器翻译的梦想,但是真正把设想付诸现实还是因为计算机的诞生和计算机技术的发展。机器翻译的研究历史课追溯到20世纪四五十年代。1946年第一台现代电子计算机ENIAC诞生,同一年,美国科学家韦弗(W. Weaver)和英国工程师布斯(A. D. Booth)在讨论电子计算机的应用范围时,提出了利用计算机进行语言自动翻译的想法。1949年,韦弗(W. Weaver)发表《翻译备忘录》,正式提出机器翻译的思想。经过六十年的曲折发展,到目前互联网的普遍应用,以及人们对翻译需求的迅猛增长,给机器翻译带来新的发展机遇。我国相继推出了一系列的机器翻译软件如“译星”、“雅信”、“通译”、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。 (二)机器翻译的主要方法 机器翻译的过程一般可简化为三个阶段:原文分析、原文译文转化和译文生成。表象上,机器翻译的核心问题是翻译的准确性;实质上,体现在技术层面则是机器翻译系统采用的方法论问题。在方法论层面,机器翻译系统可分为基于规则(Rule-Based )和基于语料库(Corpus-Based)两大类。 基于规则(Rule-Based )就是由词典和语法规则库构成翻译知识库。尽管语言学家经过长期努力创建了含有成千上万条规则的规则库,覆盖了相当大范围的语言现象,但却难以

相关主题
文本预览
相关文档 最新文档