当前位置:文档之家› 统计机器翻译译文错误检测与校正方法研究

统计机器翻译译文错误检测与校正方法研究

目录

目录

1绪论 (1)

1.1课题研究的背景及意义 (1)

1.2基于统计的机器翻译 (2)

1.3国内外研究现状 (5)

1.3.1译文错误检测方法 (5)

1.3.2译文错误校正方法 (7)

1.4论文的组织结构 (9)

2统计机器翻译译文错误检测与校正问题 (11)

2.1译文质量检测的描述 (11)

2.2译文错误检测的方法 (11)

2.2.1译文错误直接检测方法 (12)

2.2.2译文错误间接检测方法 (12)

2.3译文错误的描述 (13)

2.4译文错误校正的方法 (14)

2.5本章小结 (15)

3基于监督学习的译文错误检测方法研究 (17)

3.1基本方法描述 (17)

3.2特征描述及特征提取 (18)

3.2.1单词的后验概率特征 (18)

3.2.2语言学特征 (21)

3.2.3源语言端单词的特征 (25)

3.3最大熵分类器 (26)

3.4实验 (28)

3.4.1实验设置 (28)

3.4.2结果及分析 (31)

3.5本章小结 (35)

4基于复述抽取的译文校正方法研究 (37)

4.1基本思想描述 (37)

4.2复述抽取的方法研究 (37)

4.2.1基于单语语料的复述抽取 (38)

4.2.2基于双语平行语料的复述抽取 (43)

4.3利用复述改善翻译质量 (45)

4.3.1实验设置 (45)

4.3.2利用枢轴法所得复述用于译文校正 (45)

4.3.3基于句法知识约束的复述用于译文校正 (47)

4.3.4实验结果及分析 (48)

4.4本章小结 (50)

5结论与展望 (51)

5.1论文总结 (51)

5.2论文展望 (52)

致谢 (53)

参考文献 (55)

I

西安理工大学硕士学位论文II

绪论

1绪论

本章主要介绍了基于统计的机器翻译模型,以及提高机器翻译译文质量问题的研究背景及意义,针对机器翻译的译文错误检测与译文错误校正问题,分别从这两个方面对国内外的研究情况进行分析,提出本课题的主要研究内容,最后对本课题的组织结构进行了简单介绍。

1.1课题研究的背景及意义

随着信息时代的到来和互联网的迅速发展,国际交流日益频繁,不同母语的人渴望相互交流的愿望更加强烈,在这个信息爆炸的时代,每天都有大量的信息生成、存储和传播,因此打破不同语言之间的沟通障碍,实现不同语言之间的自动翻译,已经成为当前国际上最具挑战性的前言研究课题之一。

机器翻译(Machine Translation,MT)【1】就是用计算机来实现不同语言之间的翻译。被翻译的语言通常称作源语言(Source Language),翻译成的结果语言称作目标语言(Target Language)。机器翻译就是实现从源语言到目标语言转换的过程,它是自然语言处理(Natural Language Processing,NLP)的一个分支,与计算语言学(Computational Linguistics)、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。

步入21世纪以来,随着互联网的大量普及以及社会经济的快速发展,网络信息骤然加速与膨胀,国际交流日益频繁,关于如何克服各语言之间的障碍已经成为国际社会共同面对的问题。由于人工翻译的方式远远不能满足人们对交流的需求,利用机器翻译技术协助人们快速获取信息,已经成为必然的趋势【2-3】。

20世纪90年代初期,IBM的研究人员Peter Brown等人提出了基于信源信道思想的统计机器翻译(Statistical Machine Translation,SMT)模型【4-5】,并且在实验中获得了初步成功。近年来,越来越多的研究人员投入到统计的机器翻译的研究中并取得了一些积极进展,随之也涌现出多种类型的统计的机器翻译模型,如基于短语形式的翻译模型【6-7】,基于层次短语形式的翻译模型【8】,基于句法形式的翻译模型【9-10】等,并且翻译性能也得到显著性提高。统计方法在非限定领域内,是目前机器翻译领域性能较好的一种方法,快速发展成为当今国际上主流的机器翻译研究方法之一【11-12】。随着基于短语形式的翻译模型在机器翻译技术上的逐渐成熟,统计的机器翻译技术已迈向更高的实用化和商业化道路。

在统计的机器翻译研究中,随着翻译技术的不断成熟,翻译质量好坏的研究将是一个重要环节,对于机器翻译结果,质量较高的翻译对于社会进步与经济快速发展具有十分重要的意义。研究人员针对统计的机器翻译能在生活中得到更好的实际应用进行了大量的研究工作,然而到当前为止,所有面向实际生产与生活的统计的机器翻译系统也无法满足大家对机器翻译译文质量的要求,在统计的机器翻译结果中,翻译候选译文出现了各式各样的机器翻译错误,例如在输出的翻译译文中出现的语法翻译错误和集外词的翻译结果以及

1

相关主题
文本预览
相关文档 最新文档