基于实例的机器翻译

格式：pdf
大小：82.41 KB
文档页数：6

下载文档原格式

/ 6

easy_trans 使用实例 -回复

easy_trans 使用实例-回复什么是easy_trans?Easy_trans是一个在线翻译工具，提供中文和英文之间的即时翻译服务。

它基于先进的人工智能技术，包括机器学习和自然语言处理，以提供高质量且准确的翻译结果。

Easy_trans不仅可以帮助用户实现快速翻译，还可以提供词汇和例句的详细解释，以帮助用户更好地理解翻译的含义。

使用Easy_trans的优势Easy_trans作为一个在线翻译工具，有许多使用它的优势。

首先，Easy_trans提供了快速的翻译服务，用户只需输入文本，即可获得秒级的翻译结果。

其次，Easy_trans采用了先进的人工智能技术，因此翻译质量非常高，准确度较大。

此外，Easy_trans还提供了丰富的辅助功能，包括语音输入、文本翻译、图片翻译等，用户可以根据需要选择不同的方式来翻译。

Easy_trans的使用示例下面是一些使用Easy_trans的使用示例，以帮助进一步理解其功能和用途。

1. 文本翻译假设你想要将一篇中文短文翻译成英文，你可以将这篇短文复制到Easy_trans的输入框中，然后选择源语言为中文，目标语言为英文，点击翻译按钮即可得到英文翻译结果。

Easy_trans会自动进行句子和词汇级别的翻译，并提供相应的解释和例句，以帮助你更好地理解翻译的含义。

2. 语音翻译假设你需要实时将中文口语转换成英文，你可以使用Easy_trans的语音输入功能。

只需点击语音输入按钮，然后用中文朗读你想要翻译的内容，Easy_trans会自动将其翻译成英文，并将结果显示在屏幕上。

这对于需要与外国人交流或在国外旅行的人来说非常方便。

3. 图片翻译假设你在海外旅行时看到一张中文的餐厅菜单，你可以使用Easy_trans 的图片翻译功能。

只需打开Easy_trans的相机功能，然后对准菜单拍照，Easy_trans会自动识别图片中的中文内容，并将其翻译成英文。

这对于在陌生的国家中理解菜单或标牌非常有帮助。

机器翻译工具英译汉译文质量评估、对比和改进建议——以有道翻译和金山快译为例

机器翻译工具英译汉译文质量评估、对比和改进建议——以有道翻译和金山快译为例发布时间：2022-01-06T07:11:37.445Z 来源：《教学与研究》2021年第24期作者：苏怡然[导读] 近年来，机器翻译发展成为大势所趋，苏怡然吉首大学摘要：近年来，机器翻译发展成为大势所趋，尤其当深入学习在机器翻译中的广泛应用后，对机器翻译而言更是如虎添翼。

而机器翻译软件的译文质量究竟如何呢？本文选取了国内市场上两家机器翻译平台——金山快译和有道翻译，从译文的准确性、格式规范、语言风格角度，对其译文质量进行评价、打分、比较和改善。

本次译文比较主要是聚焦于英译汉。

研究发现：从译文质量角度来看，在英译汉方面，有道翻译以66分远优于金山快译的37分。

从错误类型角度来说，句意错误、转换痕迹重、词汇错译这三方面是最为常见的共性问题。

本文也就存在的问题，为机器翻译软件提出了进一步改善的建议。

关键词：机器翻译；译文对比；有道翻译；金山快译；质量评估有道翻译、百度翻译、搜狗翻译、小牛翻译、腾讯翻译君、新译翻译、谷歌翻译等翻译平台遍地开花，成为了人们工作办公、外出旅行的“发声器”。

但是译文质量到底如何呢？能否准确传达意图呢？为了解决这一疑惑，本文选取了国内市场上两家机器翻译平台——有道翻译和金山快译进行对比研究，主要对英译汉译文进行对比研究。

主要依据“中译国青杯”联合国文件翻译大赛对两个翻译平台的英译汉质量进行对比和质量点评。

从而，客观、直观的展现机器翻译译文的质量，指出待改进的方面，以及改进的方法，以期为机器翻译进一步优化提出合理建议，也就机器翻译是否会替代人工翻译的这一辩题，提供笔者的思考。

1.机器翻译发展现状新世纪以来，各个互联网公司基于大数据和强大的统计方法，纷纷涉足机器翻译领域，研发出了基于大数据的翻译数据库和翻译平台。

如今，受限于语料库规模，基于实例（Example-based）的机器翻译很难达到较高的匹配率，往往只在个别限定的专业或是领域时，翻译效果才能达到使用要求。

英语翻译软件翻译准确性矫正算法设计

英语翻译软件翻译准确性矫正算法设计黄登娴【摘要】传统机器翻译方法采用管道式逐次操作对原始语料实施词性标识以及句法分析,获取英语语言的句法结构,使得翻译任务间存在的错误迭代传递、结构化实例准确性降低,导致英语语言文学翻译准确性降低.因此,对英语语言文学中的机器翻译准确性方法进行校对研究.设计基于知网的词汇语义相似度以及对数线性模型,采用汉英依存树到串的方式保存对应的双语语料,对源语言端实施依存结构化处理,确保汉英双语的对应关系,通过知网运算输入需要翻译句子(依存树结构)同实例库内源语言(依存树结构)中词汇的语义相似度.描述了机器翻译中相似实例检索模块以及译文生成模块的实现过程,通过面向数据的翻译模型进一步校对英语语言的准确翻译.实验结果表明,所提方法可得到准确率高的译文,具有较高的准确性和稳定性.【期刊名称】《现代电子技术》【年(卷),期】2018(041)014【总页数】4页(P170-172,177)【关键词】英语翻译软件;机器翻译;翻译准确性;语义相似度;矫正算法;迭代传递;依存树结构【作者】黄登娴【作者单位】中国民用航空飞行学院,四川广汉 618300【正文语种】中文【中图分类】TN912.3-34;TP391.2机器翻译是自然语言操作范围中的关键，具有较高的应用价值。

依据实例的机器翻译是一种经验主义的英语语言文学翻译策略，其无需复杂的深层次语法以及语义的分析，提高了英语语言翻译的效率。

但是基于实例的机器翻译方法对实例库质量的要求较高[1]。

传统机器翻译方法采用管道式逐次操作对原始语料实施词性标识以及句法分析，获取英语语言的句法结构，使得翻译任务间存在的错误迭代传递、结构化实例准确性降低，导致英语语言文学翻译准确性降低。

针对该问题，本文研究了英语语言文学中的机器翻译准确性方法，塑造并实现基于汉英依存树串实例的机器翻译系统，提高了英语机器翻译的准确性。

1 基础算法与模型1.1 依存树到串模型依存树到串的模型为＜D，S，A＞，＜D，S＞是一个翻译对，D表示源语言的依存树，S表示源语言的目标词语串，A用于描述D与S间的词对齐关系[2-3]，依据依存树到串双语对齐模型的实例如图1所示。

自然语言处理应用实例

自然语言处理应用实例一、介绍自然语言处理（Natural Language Processing，NLP）是一种人工智能技术，它的目标是让计算机能够理解、分析、处理人类语言。

随着互联网和社交媒体的发展，NLP应用越来越广泛，包括机器翻译、情感分析、文本分类、信息抽取等。

本文将介绍几个常见的NLP应用实例，并详细说明其原理和实现方法。

二、机器翻译机器翻译（Machine Translation，MT）是NLP中最古老也是最重要的应用之一。

它的目标是将一种语言的文本自动转换为另一种语言的文本。

机器翻译有两种主要方法：基于规则和基于统计。

基于规则的机器翻译系统使用人工编写的规则来将源语言转换为目标语言。

这些规则通常由专家手动编写，并且需要耗费大量时间和精力。

这种方法通常适用于小规模的翻译任务，但对于复杂或大规模任务效果不佳。

基于统计的机器翻译系统则利用大量平行语料库进行训练，并使用概率模型来预测每个单词或短语的翻译。

这种方法不需要手动编写规则，但需要大量的训练数据和计算资源。

目前，基于神经网络的机器翻译系统已经成为主流，其效果比传统的基于统计方法更好。

三、情感分析情感分析（Sentiment Analysis）是一种NLP应用，它的目标是自动分析文本中包含的情感倾向，通常包括正面、负面和中性。

情感分析有很多实际应用场景，例如社交媒体监测、产品评论分析等。

情感分析主要有两种方法：基于规则和基于机器学习。

基于规则的情感分析系统使用人工编写的规则来判断文本中是否包含某种情感倾向。

这些规则通常由专家手动编写，并且需要不断更新以适应新的语言和文化背景。

这种方法具有较高的准确率，但对于复杂或不确定的情况效果不佳。

基于机器学习的情感分析系统则利用大量标注好的训练数据进行训练，并使用分类算法来预测文本中包含的情感倾向。

这种方法不需要手动编写规则，但需要大量标注好的训练数据和计算资源。

目前，基于深度学习的情感分析系统已经成为主流，其效果比传统的基于机器学习方法更好。

【国家社会科学基金】_机器翻译_基金支持热词逐年推荐_【万方软件创新助手】_20140807

1年科研热词推荐指数中文信息处理 3 语料库 2 规则 2 藏文分词 2 语义 1 自然语言处理 1 缩略语块 1 维吾尔语句子相似度计算 1 框架元素 1 框架 1 构件 1 机器翻译 1 提取方法 1 属性 1 字结构 1 商务信函 1 句子结构相似度 1 hmm 1 ebmt 1
2012年序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
科研热词推荐指数难点分析 1 隐喻 1 语篇行为 1 认知计算 1 认知属性 1 虚词 1 藏语 1 英汉双语短语级平行语料 1 自动分词 1 翻译系统 1 类别知识 1 篇章性句干 1 算法 1 知识库 1 测试评价 1 机器翻译 1 有主题网页 1 显著度 1 成语原则 1 彝语文 1 对等 1 学术语篇 1 噪音信息 1 俄汉/汉俄 1 主题信息 1 cssci 1 bisecting k-means clustering算法 1
2013年序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
科研热词推荐指数机器翻译 3 俄汉机器翻译 3 语义识别 2 句法语义 2 语义组合 1 语义 1 译后编辑 1 词法分析 1 规则与统计 1 自动评分 1 自动标注 1 自动分词 1 翻译策略 1 翻译 1 维汉机器翻译 1 第五格 1 汉语树库 1 汉维机器翻译 1 概念层次网络理论 1 格式判断 1 日中机器翻译 1 彝文信息处理 1 学生英译汉 1 多义动词 1 地点 1 句类依存树库 1 切れる 1 倒す 1 作文 1 主谓谓语句 1 э т а п -3机器翻译系统 1 э tah-3机器翻译系统 1 с +n5结构 1 c+n5结构 1

专利机器翻译的现状及展望

展望。
一
、
典型的机器翻译方法和技术
机器翻译是建立在语言学、数学、信息学、计算机科学等学科基础上的多边缘学科（它的发展是建立在语言学、数学、计算机科学的发展基础之上）。现代理论语言学的发展、计算机科学的进步以及概率统计学的引入，对机器翻译的理论和方法都产生了深刻的影响。Ｗｅａｖｅｒ机器翻译思想的提出，开始了机器翻译的研究热潮。Ｃｈｏｍｓｋｙ在５Ｏ年代后期
提出的短语结构语法，给出了 “ 从规则生成句子 ”的原则。
由于短语结构语法采用单一标记的短语结构来描述句子的构成，描述粒度过粗，因此存在约束能力弱、生成能力过强问题，人们逐渐意识到仅依靠单一的短语结构信息，不能充分判别短语类型和确认短语边界，于是，复杂特征集和词汇主
义被引入自然语言语法系统，广义短语结构语法、词汇功能
语法、中心语驱动的短语结构语法等语言学理论也相应的产生。在这个发展过程中，基于规中，语言规则的产生需要大量的人力，而且大量的语言规则之间往往存在着不可避免的冲突。另外，规则方法在保证规则的完备性和适应性方面也存在着不足。而此时，统计学方法在自然语言处理的语音识别领域
翻译方法；针对机器翻译的研究现状，详细介绍和分析了专利机器翻译发展现状，最后对专利机器翻译进行总结和展望。
【关键词】机器翻译；基于规则；基于统计；基于实例；专利机器翻译
近几年来，自然语言处理的研究已经成为热点，而机器翻译作为自然语言研究领域的一个重要分支，同时也是人工智能领域的一个课题，同样为大家所关注。纵观机器翻译的研究历史，从上个世纪４０年代英国工程师Ｂｏｏｔｈ和美国工程师Ｗｅａｖｅｒ提出利用计算机进行翻译的想法，到５Ｏ年代欧美国家投入大量的人力、物力致力于机器翻译的研究，再到６０年代ＡＬＰＡＣ置疑报告的提出，机器翻译走向沉寂。最近的二十年，随着语言学理论的发展、计算机技术的进步以及统计学和机器学习方法在自然语言处理领域中的广泛应用，人们对机器翻译本身的应用背景、目标等有了更加准确的认识，机器翻译在此背景下取得了长足的发展。基于统计、基于实例等新的机器翻译方法也都是在这一时期出现，一些机器翻译系统也从实验室走向了市场。在中国，机器翻译的研究从５Ｏ年代开始，多家大学和研究机构先后开发出俄汉、英汉、汉英、日汉、汉日、蒙汉、藏汉等机器翻译系统，同

【国家社会科学基金】_应用语言学_基金支持热词逐年推荐_【万方软件创新助手】_20140805

53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91
政治话语描述描写指称化拥有批评性话语分析批判性话语分析意识形态循环现象当代语言学应用语言学应用层次化自动分类小世界对外政策对/对于学科发展存在外语教材复杂网络复合空间在n的v下图式和谐取向后来句法古典诗歌历时分析动态建构切分人际冲突中国传统"小学"的语音理论《中国政府工作报告》 rfr_sum模型 nbayes决策 fisher线性判别 e研究 cfn "有"字句
知识抽取目的语理论语言学特征法律术语分类汉语复合名词短语汉语句子汉语民族品牌母语格局标注本土语言学本土化最简方案普希金无尺度方法论文献综述探针/目标一致关系探索范围指示性there-构式指南意义方法情境(网络) 思想基础心理现实性心理学形式特征形式模型应用局域非对称成分统制结构小世界客体语义实证调查实证研究定义完美结合学术英语学术创新学习者写作学习型词典字符数组天津话外语教学模式复杂网络声调理论四则运算可视化句法特征双宾属性连续统原型范畴勃洛克动因
推荐指数 3 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2011年序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52

什么是机器翻译

机器翻译的研究历史可以追溯到 20 世纪三四十年代。
发 20世纪30年代初，法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。1933年，苏联发明家П.П.特罗
展扬斯基设计了把一种语言翻译成另一种语言的机器，并
道路
在同年9月5日登记了他的发明；但是，由于30年代技术水平还很低，他的翻译机没有制成。1946 年，第一台现代电子计算机 ENIAC 诞生，随后不久，信息论的先
为基础的策略，一般分为语法型、语义
型、知识型和智能型。不同类型的机译
系统由不同的成分构成。抽象地说，所
有机译系统的处理过程都包括以下步骤：
对源语言的分析或理解，在语言的某一
平面进行转换，按目标语言结构规则生
成目标语言。技术差别主要体现在转换
平面上。
语法型
研究重点是词法和句法，以上下文无关文法为代表，早期系统大多数都属这一类型。语法型系统包括源文分析机构、源语言到目标语言的转换机构和目标语言生成机构3部分。
在线机译
目前网络上比较知名的几译。
机器翻译的现状
❖ 我们需要的是计算机帮助人类完成某些翻译工作，而不是完全替代人，人与机器翻译系统之间应该是互补的关系，而不是相互竞争。
❖ 机器翻译还不成熟，需要的是人与系统的配合，而不是有意为难，辅助机器翻译可以大大减轻人的负担。
基础
机器翻译的研究是建立在语言学、数学和计算机科学这3门学科的基础之上的。语言学家提供适合于计算机进行加工的词典和语法规则，数学家把语言学家提供的材料形式化和代码化，计算机科学家给机器翻译提供软件手段和硬件设备，并进行程序设计。缺少上述任何一方面, 机器翻译就不能实现,机器翻译效果的好坏，也完全取决于这3个方面的共同努力。

机器翻译原理

基于实例的方法
……
翻译知识获取知识获取过程：
数据预处理知识挖掘知识评价
双语语料库对齐加工
翻译知识自动获取
双语语料库及其对齐技术（1）
语料库
语料库(Corpora)是按照一定的原则组织在一起的真实的自然语言数据(包括书面语和口语)的集合，主要用于研究自然语言的规律，特别是统计语言学模型的训练以及相关系统的评价和评测
双语语料库(Bilingual Corpora，Parallel Corpora) 国外：
加拿大的议会会议录(Canadian Hansards)，（英法）英国Brighton大学语言中心双语语料库INTERSECT,（英法书面语) 英国Birmingham大学的LINGUA多语语料库项目，英、法、希腊语加拿大的BCD(Bilingual Canadian Dictionary)词典编纂项目瑞典Uppsala大学语言学系建立的Scania多语语料库 …… 国内：建立了一些单语语料，尚无大规模汉外双语库的报道目前国内基于汉外双语语料库的研究大都处于实验和摸索阶段香港科技大学的英汉双语语料库HKUST 哈工大-微软联合实验室：6万句对
The adoption of this new device…..
汉语的特点及英语和汉语间的固有差异汉语分词问题; 惯用搭配、成语、谚语
双语语料库的对齐技术：词汇对齐(3)
基于统计的词汇对齐方法
主要思想: 对大规模双语语料库进行统计，获得对译词的翻译概率
Brown(1,778,620),Gale(897,077),Dagan … 基于统计机器翻译模型的词汇对齐(Brown) 其中的翻译模型通过词汇对齐模型来实现；通过EM算法迭代训练词汇翻译概率；问题：参数空间巨大；局部最优基于同现的词汇对应抽取(Gale &Church) 同现测度函数：联列表, 互信息，Dice系数，对数似然比

机器翻译技术的发展概述

矿产资源开发利用方案编写内容要求及审查大纲
矿产资源开发利用方案编写内容要求及《矿产资源开发利用方案》审查大纲一、概述
㈠矿区位置、隶属关系和企业性质。

如为改扩建矿山, 应说明矿山现状、
特点及存在的主要问题。

㈡编制依据
(1简述项目前期工作进展情况及与有关方面对项目的意向性协议情况。

(2 列出开发利用方案编制所依据的主要基础性资料的名称。

如经储量管理部门认定的矿区地质勘探报告、选矿试验报告、加工利用试验报告、工程地质初评资料、矿区水文资料和供水资料等。

对改、扩建矿山应有生产实际资料, 如矿山总平面现状图、矿床开拓系统图、采场现状图和主要采选设备清单等。

二、矿产品需求现状和预测
㈠该矿产在国内需求情况和市场供应情况
1、矿产品现状及加工利用趋向。

2、国内近、远期的需求量及主要销向预测。

㈡产品价格分析
1、国内矿产品价格现状。

2、矿产品价格稳定性及变化趋势。

三、矿产资源概况
㈠矿区总体概况
1、矿区总体规划情况。

2、矿区矿产资源概况。

3、该设计与矿区总体开发的关系。

㈡该设计项目的资源概况
1、矿床地质及构造特征。

2、矿床开采技术条件及水文地质条件。

面向译者信息素养的教程《计算机辅助翻译》述评王少爽冯晓辉

面向译者信息素养的教程《计算机辅助翻译》述评王少爽冯晓辉面向译者信息素养的教程——《计算机辅助翻译》述评_王少爽冯晓辉第11期英语教师____年11月书评面向译者信息素养的教程———《计算机辅助翻译》述评1王少爽冯晓辉钱多秀.____.计算机辅助翻译［M］.北京：外语教学与研究出版社：vi+306pp. doi：10.3969/j.issn.1009-8852.____.11.012一、引言信息技术引发了翻译工作模式的变革，信息素养已成为现代译者的工作必备。

传统的作坊式翻译经营逐渐升级为基于信息技术的流程化现代企业经营模式。

机辅翻译工具的使用能力被视为翻译能力的一项不可或缺的子能力（PACTE____；Gpferich____；苗菊、王少爽____）。

可见，信息素养已成为现代译者所必备的职业品质。

翻译学习者信息素养的发展已成为当前翻译教育中的重要课题，亟须此方面相关教材的出版。

钱多秀主编的《计算机辅助翻译》作为全国翻译硕士专业学位（MTI）系列教材之一，于____年由外语教学与研究出版社出版，较为系统地介绍了当前翻译工作中所涉及的各种工具和软件，为翻译学习者提供了一本不可多得的信息素养教材。

本文首先简要介绍该书的主要内容，而后对其编写特点及不足予以评论，以飨读者。

教学互动，善于选择授课文本，鼓励学生之间合作，与校外教学和科研机构交流，保持与翻译软件供应商和翻译行业的联系。

第一章从机器翻译到计算机辅助翻译本章首先介绍了机器翻译技术研发的时代背景和需求，尤其是以欧盟对翻译的需求为例，突显了发展机译技术的必要性。

然后，叙述了机器翻译在西方和中文区的发展历程，介绍了基于规则的机器翻译、基于统计的机器翻译、基于实例的机器翻译、多引擎的机器翻译等四种类型机译原理的优点和不足。

机译技术研发进入瓶颈期后，计算机辅助翻译技术萌芽并蓬勃发展起来。

目前，翻译记忆是计算机辅助翻译工具的核心技术，与术语管理、语料对齐、翻译流程管理等工具结合使用。

词对齐

— 5—
严格的讲，这个公式存在一些问题，并不足严格意义上的T-score公式，而是根据 T-score的思路进行的变种。因为该尺度的目的是把结合比较频繁的词对抽取出来，即，
使用一个闽值进行裁减，因而，对于T-score的具体值也就没有太人的要求。
戴斯系数(Dice Coefficient)，是一个比较简单有效的衡晕桐似度的尺度。说它简单，是因为仅用一部双语词典，就可以达到较好的覆盖率，无需用双语语料库训练：说它有效，是因为它可以有效地把一些词典中没有登陆的翻译词条对应上。所谓戴斯系数，是用来衡量两个集合相似度的一个尺度，它是通过两个集合共有的元素的个数跟两个集合各自元素个数来计算的。设S1和S2分别是两个集合。则这两个集合的戴斯系数可以通过(2.2)计算
— 15 —
四、词对齐的模型
２、词对齐模型
— 16 —
四、词对齐的模型
２、词对齐模型
2.1 基于词典的词对齐
对于中文句中已选取的第r个中文词Cr，通过杳词典得到该中文词的日文译词，得到译词集合{JTransl，JTrans2，．．，JTransn}，并由有序相似最大子串公式(见公式(3．6))计算。并得到每个译词与第S个日文词js(原形)的相似度{LCSR1，LCSR2…LCSRn}，比较并选出最大的相似值作为中文词和日文词的对齐权重。
(1)非空性。
(2)互译性。CP与JP在S中互为译文。若CP的译文在JS中不存在，则JP=φ。若JP=φ，则称P为空对应，否则称非窄对应。若CP中含a个元素，JP中含b个元素，
则称P的匹配模式为a—b，记为match(P)=ICPI· IJPl=a-b。其中ICPI、IJPI表示CP、JP
中元素的个数，“－”是连字符。由计算机自动生成的对应不一定满足互译忭，称为候选对应，在不会发生混淆的情况卜也简称为对应．

基于规则的多种策略句法分析

第１３卷第１Ｏ期　２０１４年１Ｏ月　软件导刊　

Ｓｏｆｔｗａｒｅ　Ｇｕｉｄｅ　、，ｏ１．１３ＮＯ．１０　

基于规则的多种策略句法分析　杨海涛　（银川能源学院计算机学院，宁夏银川７５０１０５）　摘　要：以英汉机器翻译为研究背景，提出一种基于多种策略的句子结构分析方法。针对不同情况以谓语动词为中　心采取不同策略分析简单句的结构，从而得到整个句子的语法语义结构。　关键词：机器翻译；多策略分析；模板　ＤＯＩ：ｌＯ．１１９０７／ｒｊｄｋ．１４３３７５　中图分类号：ＴＰ３１２　文献标识码：Ａ　文章编号：１６７２—７８００（２０１４）０１０—００６３—０２　

０　引言　机器翻译指使用计算机将某种自然语言变成另一种　自然语言的过程　］。大多数机器翻译系统采用基于规则　的方式进行分析转换，但由于自然语言具有复杂、多变等　特性，因此随意性较大，导致此类机器翻译系统既要建立　大量规则体系以描述各类不同的语言现象，还要添加大量　特殊规则以增强翻译系统的适用性。当各类规则数量累　加到一定程度后，极易引起冗余、冲突等现象，导致机译质　量降低、搭建及更新数据库难度提高、工程量增大。无限　语言现象和规则枚举性质间的矛盾使基于规则的机器翻　译存在一定局限性。而基于实例和基于统计的翻译在建　立语料库与统计模型、实例库建设、实例语言模式表示等　方面都需要大量工作。但如果有机结合几种翻译方法的　优点，以规则分析为主，其它策略为补充，采用多种翻译策　略并行处理后再择优选择，则能大大提高翻译质量与效　率。　１　机器翻译方法简介　现有的机器翻译方法主要分为基于规则、基于实例、　基于统计３种。　（１）常见的基于规则翻译的主要功能是：协助用户提　供一定程度的翻译参考，以完成对译文的初步理解。但其　准确性非常低，翻译出来的结果往往令人啼笑皆非。基于　规则翻译的关键技术有４个：单词分析、语法分析、意义分　析和文理分析口］。其工作原理为：首先读取原自然语言语　句，将语句中的字（词）提取出来，对照存放于数据库中的　电子词典查找目标自然语言相对应的字义（词义），再根据　相应的词法规则、句法规则分析整理出语句的基本意思，　最后借助数据库中的语言模型生成目标语言。从其工作　原理来看，这一系列过程的实现并不太困难，可是由于各　种自然语言具有多样性及特殊性的存在（谚语、俗语、歇后　语等），以及人工智能技术水平发展的制约，想要做到自然　语言之间正确互译几乎是不可能的事情。　（２）基于实例的机器翻译，以翻译记忆为核心，能够帮　助翻译人员提高翻译效率，降低成本，减少重复劳动。其　基本思想是：在对简单句子进行分析时，人们首先会将句　子分解成若干个部分，然后借助已有翻译，将分解的每个　部分翻译成目标字、词或短语，然后再将其组合起来形成　句子。翻译时１００％匹配的句子进行自动替换，部分匹配　的句子则根据其匹配度，进行串替换、串删除或串增加等　操作实现翻译。　（３）基于统计的机器翻译把机器翻译看成一个信息传　递的过程，用一种信道模型对机器翻译进行解释口］。通过　对源语言的译码，再利用目标语言的编码，同时剔除噪声　干扰进行翻译。基于统计的机器翻译，直接依靠统计结果　消除歧义、选择译文，因此避开了语言理解中的许多难题。　基于统计和基于实例的机器翻译方法都使用语料库作为　翻译知识的来源。　

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于实例的机器翻译 ——方法和问题王厚峰（北京大学）关键字：基于实例的机器翻译，双语对齐，相似度计算，模板获取摘要：本文介绍了基于实例的机器翻译方法，并对基于实例的机器翻译的若干问题，如双语实例的加工对齐、实例的相似度计算和实例模板提取等问题作了说明。

Method and Issues of Example-Based Machine Translation

Wang Houfeng Keywords: EBMT, Bilingual Alignment, Similarity Measure, Template Acquisition. Abstract: The basic frame of Example based machine translation is concerned in this paper. Some key issues, such as bilingual alignment, similarity measure between input sentence and example, and template acquisition, are introduced.

󰒰󰉺 引言早期的机器翻译本质上都是基于语言规则或语言知识RBMT(Rule Based Machine Translation)的。如，词法规则，句法分析规则，转换规则，目标语生成规则等。这些规则都是根据语言专家的经验总结归纳出来的。直译法、转换生成方法、中间语言方法等都可以归为这一类。在上一世纪80年代中后期，这种纯粹基于语言知识的状况渐渐被基于语料库的机器翻译CBMT( Corpus-Based Machine Translation) 方法打破。语料库方法中最有影响的是IBM公司的P.Brown 提出的基于统计的机器翻译SBMT (Statistics Based Machine Translation)。受语音处理的启发，P.Brown在1988年第二届TMI会议上提出了用隐马尔科夫模型HMM(Hidden Markov Model)进行机器翻译的想法，这一想法震惊了当时的与会者，并直接导致了语料库方法在自然语言处理上的迅速发展。另一个影响更为广泛的机器翻译方法是日本的长尾真（Makoto Nagao）1981年提出的基于实例的机器翻译EBMT ( Example based Machine Translation)，并于1984年发表[6]。

基本思想是在已经收集的双语实例库中找出与待翻译部分最相似的翻译实例(通常是句子)，再对实例的译文通过串替换，串删除以及串增加等一系列变形操作，实现翻译。基于实例的翻译方法受到广泛关注是在进入90年代之后。其中，Sato[7,8] 等人起到了很

好的推动作用。

󰳋󰉺 EBMT的基本思想

长尾真认为，人们在翻译简单句子时并没有做语言的深层分析，而是先将句子分解为几个片断（短语），然后，借助于已有片断的翻译，将分解的每个片断翻译成目标短语，最后在将这些短语组合起来形成一个长的句子。基于上述思想，长尾真提出了基于实例的机器翻译EBMT的思想。对应地，EBMT也分为三大部分：将实例划分为片断，确定各个片断的翻译以及重组片断。例2.1. (a) 她买了一本计算语言学入门书假定计算机内已经存储了如下的实例对： (b) 她买了一件时髦的夹克衫. She bought a sharp jacket. (c) 他正在读一本计算语言学入门书 He has been reading a book on introduction to Computational Linguistics.例2.1(a) 可以通过 (b)中“他买了”对应的 She bought 和 (c) 中“一本计算语言学入门书”对应的 a book on introduction to Computational Linguistics 重组产生： She bought a book on introduction to Computational Linguistics. 一般来说，EBMT主要有如下部分构成：

双语语料库相似实例检索语义辞典重组与调整图2.1 EBMT基本结构图翻译结果双语辞典

待翻译句子在EBMT 中，对齐的双语语料库是最重要的知识库之一。实例的粒度越大，当翻译用到时，其效果则越理想；但另一方面，粒度越大，能够直接使用的可能性又越小。因此，在实例的粒度选择上，应该考虑到一定程度的平衡。一般认为，实例的粒度定位在句子一级比较合适；也有大量的实验表明，其粒度要么定位在子句一级，要么以结构形式表示，这样才能使实例的引用达到更好的效果。由上图可知，语义词典也是不可或缺的重要知识源。根据Somer[9]引入的长尾真的例子：

例2.2 (a) He eats potatoes 是待翻译的句子，同时，假定实例库中有如下的实例： (b) A man eats vegetables Hito-wa yasai-o taberu (c) Acid eats Metal. San-wa kinzoku-O ocasu. 这两个实例从形式上看都可以和 (a)匹配，但是结果只能选择(b)，而不是 (c)。这一选择有赖于语义词典。通过语义词典可以判断He 能取代 “ A man ”，不能取代“Acid”，同样，“potato”和“vegetable”间的语义比“potato”与“metal”间的语义更相似。在确定了相似的句子之后，紧接着的调整处理必须借助于双语词典。如 He—Kare替换man—Hito以及 potato——poteto替换 vegetable—yasai 都需要双语词典的支撑。翻译实例的重组和调整一般包括替换、插入和删除等操作，上面的两个例子主要涉及到替换操作。最简单的插入操作如例2.3，反过来则为删除操作：例2.3 (a) 她游览过北京的许多景点。 (b) 她随旅游团游览过北京的许多景点。在EBMT 中，最为重要的操作是相似实例的检索，主要是相似性的量度标准。后面将详细讨论。三、基于实例的机器翻译与翻译记忆的异同翻译记忆TM ( Translation Memory)与EBMT有着千丝万缕的联系，甚至在很多情况下，两个术语不加区别地使用。根据 Somers[9]，TM 的思想最初来自于 Martin Kay在1980年的著名文章“Proper Place”。Martin Kay对机器翻译始终是悲观的，但他认为，如果已经有相似的文档，则可以直接从中取出相似的部分来辅助翻译，这正是TM的核心。本质上讲，TM仅仅是辅助翻译，它从实例库中找出相似的例子（常常是多个例子），并提交给用户，让用户选择。TM所面对的用户通常是“专家”，既懂双语，又懂专业。但EBMT则属于机器翻译，翻译的结果由系统决定。用户可以只懂一种语言。 Eiichiro SUMITA 在2002年的TMI会上将机器翻译作了如下分类：

MT CBMTSBMT

EBMT

RBMTTM

图3.1 机器翻译分类显然，TM并不属于 MT。但TM 与 EBMT 也存在许多相似的地方，主要表现在，都是对已有翻译实例的重用，都需要存储翻译实例，都需要检索相似的翻译实例。

四、基于实例的机器翻译的相关问题

基于实例的机器翻译很重要的一项工作就是构建知识库，其中，包括构建对齐的实例库，双语词典和语义词典。 4.1 双语实例库的构建双语库的构建需要考虑三个问题： z 双语语料的加工双语语料的加工包括双语语料的收集，不同文件格式（如 Word的文件格式、文本文件格式、HTML 文件格式以及 PDF 等文件的格式）的统一，不同粒度的对齐处理（包括篇章对齐、段落对齐、句子对齐、子句对齐和多词Multiword 及词汇的对齐）及其标注集的制定和对齐单位的表示。其中，句子（子句）的对齐、多词及词汇的对齐对基于实例的机器翻译有着直接的影响。后两者的对齐加工在常宝宝的论文中有详细的讨论[3]；而句子的对齐主

要有如下的两种方法：方法一，基于长度（或统计）的对齐方法。由Gale和 Church[5] 等人提出的基于符号串

长度的对齐方法是目前使用最为广泛的方法，该方法开始主要用于相似语系（如印欧语系）的句子对齐，如英语、法语、德语、西班牙语等之间的对齐。其基本假设是，长的原文句子对应着长的译文句子，短的原文句子对应着短的译文句子。由于对齐几乎没有使用到任何语言知识（完全将句子看成符号串），该方法具有很强的适应性。该方法在英语—西班牙语双语对其中，成功率达到了93.2%，在英语—法语双语对齐中，成功率达到了98%；然而，当该方法用于差异较大的语系时，效果则不理想，Wu等人[10]曾经用相同的算法进行汉语—英语的句子对齐，对新闻语料集测试，成功率仅为54.5%，对香港科技大学的预料(HKUST corpus)测试，成功率为 86.4% 。方法二，基于锚点的对齐方法。其主要思想是寻找特殊标记进行对齐。如，双语中相同的数字（数值）、地名、人名、日期等。一旦原文有，译文也应该有。 z 双语的表示形式双语的表示有多种形式，最简单的形式是符号串，这对于中文来说，就是汉字串。显然，这过于简单；因此，通常情况下，用词串表示。也可以对语料进一步加工，如附带上词性，甚至可以对对齐的语料进行结构分析，使之在结构上也对齐。但结构分析需要有好的分析器，这本身又非常困难。 z 双语的存储形式为了覆盖更多的语言现象，就必需收集尽可能多的双语实例。但另一方面，当实例库足够大时，快速检索相似的例子就成为一个重要的问题。为了从大规模的实例库中检索到相似实例，大多采用倒排表技术。 4.2 相似实例的检索相似实例的检索主要是相似性的判断，而相似性的判断与实例的表示形式有着密切的关系。根据表示形式的不同，相似性的判断主要可以分为如下几种： z 基于字符 (Character-based) 的匹配基于字符的匹配纯粹是一种表层的匹配，即，判断两个串中公共子串的相对长度（中文中的一个字符由两个字节表示），相同串必须是有序的。先看如下例子：例 4.1 (a) 从上海到美国的西部城市洛杉矶。

(b) 从美国的西部城市洛杉矶到上海。尽管例子 (a)(b) 包含完全相同的词，但从字符串的角度看，则不是完全相同的——相同部分已经用下划线表示。其长度可以以字符（汉字）为单位计数，也可以以词为单位计数。从上面的例子来看，这种方法显然存在问题。匹配的部分本来应该是“ 从 …… 到 ”。基于字符匹配的相似性，主要通过编辑距离（edit distance）判断。这种方法最早是由 Wagner & Fisher 提出来的，它量度了一个字符串S=s1s2…sm变化为另一个字符串T=t1t2…tn所

机器翻译技术介绍

页数:42
机器翻译.语料库的翻译的例子

页数:6
机器翻译研究现状与展望1 Machine TranslationPast,Present,future

页数:7
机器翻译概述

页数:53
机器翻译研究现状与展望

页数:7
机器翻译研究综述

页数:12
英语翻译之机器翻译

页数:41
机器翻译实例分析

页数:23
基于统计的机器翻译

页数:11
人工智能与机器翻译习题

页数:21

基于实例的机器翻译

合集下载

easy_trans 使用实例 -回复

机器翻译工具英译汉译文质量评估、对比和改进建议——以有道翻译和金山快译为例

英语翻译软件翻译准确性矫正算法设计

自然语言处理应用实例

【国家社会科学基金】_机器翻译_基金支持热词逐年推荐_【万方软件创新助手】_20140807

专利机器翻译的现状及展望

【国家社会科学基金】_应用语言学_基金支持热词逐年推荐_【万方软件创新助手】_20140805

什么是机器翻译

机器翻译原理

机器翻译技术的发展概述

面向译者信息素养的教程《计算机辅助翻译》述评王少爽冯晓辉

词对齐

基于规则的多种策略句法分析

文档推荐

最新文档

基于实例的机器翻译

合集下载

easy_trans 使用实例 -回复

机器翻译工具英译汉译文质量评估、对比和改进建议——以有道翻译和金山快译为例

英语翻译软件翻译准确性矫正算法设计

自然语言处理应用实例

【国家社会科学基金】_机器翻译_基金支持热词逐年推荐_【万方软件创新助手】_20140807

专利机器翻译的现状及展望

【国家社会科学基金】_应用语言学_基金支持热词逐年推荐_【万方软件创新助手】_20140805

什么是机器翻译

机器翻译原理

机器翻译技术的发展概述

面向译者信息素养的教程《计算机辅助翻译》述评王少爽 冯晓辉

词对齐

基于规则的多种策略句法分析

文档推荐

最新文档

面向译者信息素养的教程《计算机辅助翻译》述评王少爽冯晓辉