当前位置:文档之家› 基于统计的翻译等价词对抽取研究

基于统计的翻译等价词对抽取研究

基于统计的翻译等价词对抽取研究
基于统计的翻译等价词对抽取研究

第26卷 第5期2003年5月

计 算 机 学 报

CHIN ESE J OU RNAL OF COMPU TERS

Vol.26No.5

May 2003

 

基于统计的翻译等价词对抽取研究

常宝宝

(北京大学计算语言学研究所 北京100871)

收稿日期:2001212225;修改稿收到日期:2002207223.本课题得到国家“九七三”重点基础研究发展规划项目(G 199803050724)资助.常宝宝,男,1971年生,博士,讲师,主要研究方向是计算语言学、机器翻译以及双语语料库构建.E 2mail :chbb @https://www.doczj.com/doc/c77510655.html,.

摘 要 对利用汉英双语语料进行翻译等价词对抽取进行了探索.对不同的词对关联度量方法进行了对比,考察了词性信息、多词翻译单元识别对翻译等价词对抽取结果所可能产生的改进以及负面影响.关键词 双语语料库;翻译等价词对;翻译等价词对自动抽取中图法分类号TP18

T ranslation Equivalent Pairs Extraction B ased on Statistical Measures

CHAN G Bao 2Bao

(Instit ute of Com putational L i nguistics ,Peki ng U niversity ,Beiji ng 100871)

Abstract This paper examines how the translation equivalent pairs could be extracted from parallel corpus.Four different word association measurements are compared with each other.And this paper also proposes to use part of speech information for performance improvement and integrate a multi 2word unit identification component to alleviate the problem of partial correct result.Some negative as 2pects of these proposals are also examined in this paper.

K eyw ords bilingual corpus ;translation equivalent pair ;automatic extraction of TEPs

1 引 言

双语语料库在机器翻译或机器辅助翻译研究中的重要作用已经越来越多地得到研究人员的认可,双语语料加工技术以及基于双语语料的知识获取技术近年来也取得了诸多的进步.有学者甚至认为句子一级的双语对齐技术是数十年机器翻译研究所取得的最重要成果[1].然而,这种句子对齐的成功在词汇一级却没有得到重复,事实证明,词汇一级的对齐技术远比句子对齐困难,原因在于,在词汇一级,源语言中的词序在目标语言中不再保留,两种语言文本在词汇一级的对应关系也比句子一级的对应关系更为复杂.

词汇一级对齐可以在两种语言的词形之间进行,也可以在两种语言的词型之间进行.而所谓的在

词型之间进行对齐也就是基于双语语料库产生一部

双语词表的过程.这个问题的解决对双语词典编纂以及机器翻译系统的开发都是十分有价值的.以机器翻译为例,目前大部分机器翻译系统用的词典的最初蓝本是面向人的双语词典.这给机器翻译的质量造成一定的影响,面向人的双语词典注重的是源语言单词在目标语言中的解释,而不是记录源语言单词在目标语言中的翻译等价单词.

目前提出的词型对齐方法,使用的都是统计技术,这些技术从总体上可以分成两类,一类是基于假设2检验的技术,代表性的有G ale 和Fung 的工作[2,3],另外一类是基于翻译模型的技术,代表性的是Brown 和Wu 的工作[4,5].基于翻译模型的技术虽然从理论上更完善,但从计算角度而言却极其昂贵.

本文基于假设2检验的技术,对基于汉英双语语料抽取翻译等价词对进行了探索.对不同的词对关

联度量进行了对比,并提出利用词性信息、多词单元识别改进抽取效果.

2 基于统计的翻译等价词对抽取

2.1 基于假设2检验的翻译等价词对抽取原理

基于假设2检验的词对抽取要求对语料库进行句子一级的对齐,其工作原理主要基于下面的事实:互为翻译的一对单词要比相互不为翻译的一对单词更有可能出现在同一个对齐的句子对中.工作过程主要由两个过程构成,假设阶段生成所有候选的翻译等价词对.检验阶段根据统计关联度量手段选择出统计意义上较为可靠的翻译等价词对.

令PC 为一个句子一级对齐的双语语料库,假设该语料库最终由n 个句子对组成,即

PC =S P 1S P 2…S P n .

每个句对S P i 由一个源语言片段S i 和目标语言片段T i 组成,源语言片段和目标语言片段互为译文.每个源语言或目标语言片段指一个或几个句子,其中一个片段可以没有,这可以发生在翻译过程中,某个源语言片段省略未译或增加了源语言中没有的内容.因而S P 可以写作:

S P i =(S i ,T i ).

不论源语言片段,还是目标语言片段,它们均由若干个单词组成.组成语言片段3的所有单词构成一个集合,可以写作TS (3).则组成源语言片段S i 的单词集合为

TS (S i )={st |st 是源语言片段S i 中的单词}.

假设组成一个句对的目标语言片段中的任何一个单词都有可能是源语言片段中某个单词的翻译,据此可以产生一个翻译等价词对的候选集合

T ECL S P i :

T ECL S P i ={〈st ,tt 〉|st ∈TS (S i )AND tt ∈TS (T i )}.

汇集所有句对产生的候选等价词对集合即可得到整个语料库PC 中所有候选翻译等价词对集合:

T ECL =∪n

i =1T ECL S P i .

通常这个集合的基数是很大的,集合中包含了许多相互之间并不具有翻译等价关系的词对,为了甄别真正具有翻译等价关系的词对,可以采用衡量词对之间统计关联度的办法,那些具有翻译等价关系的词对的统计关联度应该高于不具有翻译等价关系的词对.

2.2 候选翻译等价词对集合规模的缩小

利用2.1节中的办法所产生的候选翻译等价词对集合T ECL 的基数通常很大,在英文等有丰富形态的语言中,一个词往往拥有很多变体,这尤其加大了候选翻译等价词对集合的规模.庞大的候选翻译等价词对集合使得问题搜索空间巨大,抽取效率成为妨碍该技术应用于大规模双语语料库的一个瓶颈性问题.

然而容易注意到,在翻译过程中,下面的观察基本成立:在一种语言翻译成另外一种语言时,单词的词性通常会得到保持,例如一个名词一般在目标语言中也会对应一个名词.词性信息的利用显然可以有效缩减候选翻译等价词对集合的规模.具体而言,可以通过下面的办法产生候选翻译等价词对集合.

首先找出语言片段中所有某个词类(某几个词类)的单词组成的集合,语言片段3中所有词类为

POS k 的单词集合可以写作:TS POS k

(3),则

TS

POS k

(3)={t |t ∈TS (3)AND t 的词性是POS k }.

那么在句对S P i 中所有词类为POS k 的候选翻

译等价词对的集合可写作T ECL POS k

S P i ,即

T ECL POS k

S P i

={〈st ,tt 〉|st ∈TS POS k (S i )AND tt ∈TS POS k (T i )}.

整个语料库中所有词类为POS k 的翻译等价词对的集合可写作T ECL POS k ,则

T ECL

POS k

=∪n

i =1

T ECL POS

k S P i .

整个语料库中所有候选翻译等价词对集合可以借下述办法产生:

T ECL =∪m

k =1T ECL

POS k

.

值得指出的是,在翻译过程中,单词的词性并不完全会得到保留,例如中文中的动词经常会翻译为英语中的名词.利用上述办法会丢掉一些真正具有翻译等价关系的词对.

2.3 翻译等价词对间的关联度量

作为翻译等价词对之间的关联度量,文献[2]利用词对之间的<2统计值作为关联程度的衡量,只保留T ECL 中<2统计值高于某个阈值的词对.词对〈st ,tt 〉之间的<2统计值可以凭借下面的联立表进行计算

:

7

165期常宝宝:基于统计的翻译等价词对抽取研究

表中a ,b ,c ,d 的含义如下:

a 为语料库中同时出现st 以及tt 的句对总数,

b 为语料库中仅出现st 而不出现tt 的句对总

数,

c 为语料库中不出现st 但出现tt 的句对总数,

d 为语料库中即没有出现st 也没有出现tt 的

句对总数.

如果语料库PC 中共有n 个句对组成,那么有

n =a +b +c +d.据此,词对〈st ,tt 〉之间的<2

统计

值可以利用下面的公式进行计算:

<2

(st ,tt )=(a ×d -b ×c )2

(a +b )×(a +c )×(b +d )×(c +d )

.

基于联立表,目前存在各种各样的事件关联度度量办法,本文中的工作除使用了和<2

统计类似

的χ2

统计值外,还使用了点式互信息、DICE 系数以

及对数可能性分值.各种关联度量,可以分别按照下面的公式计算.

(1)点式互信息(point 2wise mutual information )M I (st ,tt )=log 2n ×a

(a +b )×(a +c )

.

(2)DICE 系数DICE (st ,tt )=2a

(a +b )×(a +c )

.

(3)χ2

统计值

χ2

(st ,tt )=n ×(a ×d -b ×c )

2

(a +b )×(a +c )×(b +d )×(c +d )

.

(4)对数可能性(log likelihood )分值

L L (st ,tt )=2×a ×log a ×n

(a +b )×(a +c )

+

b ×log b ×n

(a +b )×(b +d )+

c ×log c ×n

(c +d )×(a +c )+

d ×log

d ×n

(c +d )×(b +d )

.

2.4 多词单元自动识别

第2.1节中的抽取方法还存在另外一个缺陷,该方法总是假设源语言中的一个单词在翻译时也只对应目标语言中的一个单词,这经常并不正确,翻译并非总是逐词进行,很多时侯,多个单词作为一个翻译单位进行翻译,其中的单词之间并不存在明显的一一翻译关系.例如,源语言中的单词串st 1st 2可以翻译成目标语言中单词串tt 1tt 2tt 3,然而组成这两个词串的单个单词之间并没有完整的翻译关系.利

用上文的方法,在最终的结果中会得到诸如〈st 1,

tt 1〉,〈st 1,tt 2〉,〈st 2,tt 2〉等部分正确的结果.因此,

如果对这种多词单元预先进行捆绑和识别,将有利于提高抽取的准确率,减少部分正确的结果数量.

本文工作中针对这种情形设计了一个基于二元组合关系的多词单元识别器,其所依据的准则主要有下面两条:(1)多词单元的各个组成单词之间总是高频共现,因而它们之间存在有很强的统计关联度;

(2)多词单元的各个组成单词应当形成合理的语言

单位,在句法层面应有一定的规律性.换句话说,多词单元的各个组成单词的词性序列具有一定的模式.

多词单元识别器工作过程可以概述如下:首先根据文本中各个单词之间的统计关联度,标记出结合程度比较紧密的二元单词组合,然后逐步扩大识别长度,直到没有新的多词单元发现为止.至此,识别器仅仅考虑了单词之间的统计共现特性,识别出来的部分结果从语言学角度看并不构成一个合理语言单位.为了剔除这些结果,识别器调用一个过滤器,该过滤器使用一组预先定义的句法模式,对所有结果进行筛选,仅仅保留那些具有合理句法模式的多词单元.

3 试验及其结果分析

3.1 双语语料的预处理

本文工作使用了香港法律文献语料库①,该语料库收录了香港特别行政区出版和使用的法律条文以及修正条款,所有法律条文同时具有中英两个版本,并且中英文逐条对应,基本上不再需要进行句子一级的对齐工作.在此基础上,对双语语料库进行了下列预处理.对其中的中文部分进行了中文切词和词性标注工作,英文部分进行了断词(tokenization )、形态分析(lemmatization )和词性标注工作.中文切词和标注是按照北京大学计算语言学研究所有关规范进行的[6].英文词性标注使用了宾州树库的词性标注集②.图1给出了经过预处理加工后的语料的一个片段.

其中标记〈s i d =x x 〉标明了句子(法律条款)的编号,编号相同的两个句子组成一个对齐的句对.中

8

16计 算 机 学 报2003年

①②宾州树库词性标柱集及手册见http ://www.cis.upenn.

edu/~treebank/

有关该双语语料的情况见http ://https://www.doczj.com/doc/c77510655.html,.hk/In 2

dex.htm

文部分第一列是切词结果,第二列是词性信息.英文部分第一列是断词结果,第二列是词性信息,第三列是单词经过形态分析得到的单词的词典形式.

中文英文

〈s-i d=5〉本 r 条例n 可d …

通则n 条例n 》w .w 〈s i d=6〉附注n :w …

〈s-i d=5〉

This DT this Ordinance NN ordinance may MD may

G eneral JJ general Clauses NNS clause Ordinance NN ordinance ...

〈s-i d=6〉

Remarks NNS remark :::

图1 一个语料的结果

3.2 试验及其结果

本文的工作共进行了4组试验,这4组试验分别针对不同的目标.

试验1. 不同的词对关联度量对抽取结果的影响.

试验选择了500个句对(约40000汉字,25000英语单词)进行.对这500个句对进行预处理,分别采用点式互信息(M I)、DICE系数(DICE)、对数可能性(LL)以及χ2统计值(CHI)作为词对关联度量办法进行名词词对的抽取工作,选择抽取结果的前100个词对进行评价,计算正确或部分正确的词对,结果如表1所示.

表1 不同的词对关联度对抽取结果影响

完全正确部分正确准确率(%) MI39544

DICE516

LL571067

CHI651479

结果表明,对于汉英词对抽取工作,采用χ2统计值效果优于互信息、对数可能性和DICE系数.

试验2. 使用词性信息对抽取结果的影响.

正如前文指出的那样,翻译过程中,单词的词性未必全部得到保留,因而按照词性信息进行词对抽取工作对准确率会产生负面影响.试验2的目标是测试这种影响的程度.

试验2仍然采用上述500个句对进行,分别抽取名词词对(NOUN)和名词动词混合词对(NNVB),如果上述预想成立的话,那么按照名词动词混合方式抽取词对应该得到较高的准确率,试验中采用χ2统计值度量词对之间的关联度.仍然是选择结果词对中前100个词对进行评价,结果如表2所示.

表2 词性信息对抽取结果的影响

完全正确部分正确准确率(%) NOUN651479

NNVB731083

试验3. 多词单元识别对词对抽取的影响.

试验3仍然采用上述500个句对进行,首先在预处理的基础上对两种语言的文本进行了多词单元的自动识别工作,在此基础上利用χ2统计值进行名词动词混合词对的抽取工作,选择抽取结果的前100个词对进行评价,对比进行(NNVBMWU)和不进行多词单元识别(NNVB)对抽取词对的影响.结果如表3所示.

表3 多词单元识别对词对抽取的影响

完全正确部分正确准确率(%) NNVB731083 NNVBMWU75681

试验显示部分正确结果数量有了明显下降,然而由于多词单元识别中存在一定错误,词对准确率有了明显的下降.

试验4. 使用词性信息对抽取速度的影响.

试验4主要测试分词性抽取对抽取速度的影响,试验采用一台CPU为Pentium III800MHz,内存配置128M的机器进行.仍然采用上述500个句对进行抽取工作,结果如下:

对上述500个句对进行动词名词混合词对抽取工作,系统抽取时间为约90s,而对名词词对抽取仅耗时约4s,对动词词对抽取耗时2s,按照词性进行词对抽取带来的效率上的提高是相当显著的.

3.3 对翻译等价词对抽取结果的定性分析

为了对抽取结果有一个更为直观的认识,下面给出一个试验结果的片段.这个结果来自上述试验(NNVBMWU),也就是对500个句对进行名词动词混合词对的抽取,并对预处理结果进行过多词单元识别,在图2所示的结果中,第1列是词对序号,第2列是中文单词或多词单元,第3列是英文单词或多词单元,第4列是二者之间关联的χ2统计值.

916

5期常宝宝:基于统计的翻译等价词对抽取研究

1.见 see /3CHI2score=496.4713/

2.追溯力-的see/3CHI2score=496.4713/

4.款subsection/3CHI2score=496.2373/

5.废除repeal/3CHI2score=495.8143/

25.附属-法例subsidiary-legislation/3CHI2score=477.1733/

26.公共-机构public-body/3CHI2score=475.7113/ 28.财政司-司长Financial-Secretary/3CHI2score=475.7113/ 31.条例ordinance/3CHI2score=470.0813/ 34.基本-文书primary-instrument/3CHI2score=468.0683/

41.卫生-主任health-officer/3CHI2score=468.0683/

42.裁判官magistrate/3CHI2score=468.0683/

43.担当discharge/3CHI2score=468.0683/

45.合约contract/3CHI2score=468.0683/

46.终审-法院-首席-法官 Chief-J ustice-of-Final Appeal /3CHI2score=468.0683/ 53.香港-特别-行政区 Hong-K ong-Special-Administrative-region /3CHI2score=448.5763/…

图2 一个试验结果的片段

上述列出的结果中,第2个词对是错误的,其余均是正确的.

下面是对各个试验的抽取结果的一些定性分析:

(1)按照词性抽取对词对抽取结果的影响

如果仅仅按照名词抽取翻译等价词对,下面的正确词对将不会被抽取出来:

豁免exemption/3CHI2score=490.8293/

委任appointment/3CHI2score=24210233/

因为汉语单词及其等价的目标译词词性并不相同,上述情形均发生在汉语中动词译为名词的情形.

(2)多词单元的识别会有效降低部分正确结果的数量

下面的部分正确结果都是由多词单元造成的:财政司Financial/3CHI2score=475.7113/

香港K ong/3CHI2score=465.7793/

长官Executive/3CHI2score=458.7713/

行政区Administrative/3CHI2score=435.9463/经过多词单元识别后,上述错误不再出现,从而正确抽取出下列词对:

行政-长官 Chief-Executive /3CHI2score=484.3713/财政司-司长Financial-Secretary/3CHI2score=475.7113/香港H ong-K ong/3CHI2score=473.9113/香港-特别-行政区

H ong-K ong-S pecial-Administrative-region

/3CHI2score=448.5763/

(3)可以有效发现双语词典中不存在的翻译等价词对有些词对由于在通用领域出现较少,一般双语词典并不收录,例如:

文书 instrument /3CHI2score=419.6813/

有些尽管双语词典中录有相关义项,但该义项在翻译时并不翻译成词典中的译词,例如:人员 officer /3CHI2score=367.2623/

秘书 clerk /3CHI2score=362.0513/

(4)语料规模的影响

上文所述的试验均采用了500句对进行,语料规模很小,这必然导致一些问题,例如:在结果中同时出现了下面的词对:

中文-本Chinese-language-text/3CHI2score=362.0513/中文-本English-language-text/3CHI2score=362.0513/这是因为语料中“中文本”和“英文本”总是成对出现在同一个句对中,因而抽取程序无法剔除错误的词对.

4 结束语

本文探索了如何基于双语语料库进行汉英翻译等价词对的抽取,并尝试利用词性信息、识别多词单元等办法对抽取算法进行了改进,考察了不同的词对关联度量在汉英词对抽取工作中的表现.最后用几组试验进行了分析和解释.

这些试验充分说明了基于本文的方法提取翻译等价词对在很大程度上是可行的,这样的工作也会对机器翻译、跨语种信息检索以及双语词典编纂有很重要的影响.

致谢 本文的工作是作者在英国伯明翰大学语料库语言学中心访问时所完成的部分工作,作者感谢该中心的Wolfgang Teubert教授为作者提供的研究条件和各种帮助.作者也感谢罗马尼亚人工智能科学中心的Dan Tufis教授,本文的许多工作得益于作者和他进行的电子邮件讨论.最后感谢审稿人提出的改进意见,这些意见的确使文章有不少增色.

026计 算 机 学 报2003年

参考文献

1Simard M et al.Bilingual text alignment:Where do we draw the line?In:Botley S,McEnery A,Wilson A eds.Multilingual Corpo2 ra in Teaching and Research,Amsterdam,Atlanda:Rodopi pub2 lisher,2000.38~64

2G ale W.Identifying words correspondences in parallel texts.In: Proceedings of DARPA Speech and Natural Language Workshop, Asilomar,CA,1991.152~157

3Fung P.K2vec:A new approach for aligning parallel texts.In:Pro2 ceedings of the15th International Conference on Computational Lin2 guistics,Kyoto,1994.1096~1102

4Brown P.The mathematics of statistical machine translation:Pa2

rameter https://www.doczj.com/doc/c77510655.html,putational Linguistics,1993,19(2):263~311

5Wu D,Xia X.Leaning an English2Chinese lexicon from a parallel corpus.In:Proceedings of AMTA294,Columbia,MD:1994.206~213

6Yu Shi2Wen et al.Specification of Chinese text segmentation and POS tagging of Peking University.Journal of Chinese Information Processing,2002,(5,6)(in Chinese)

(俞士汶等.北京大学现代汉语语料库基本加工规范.中文信息学报,2002,(5,6))

7Chang Bao2Bao et al.Chinese2English translation database:Ex2 tracting units of translation from parallel texts.In:Barnbrook G, Danielsson P,Mablberg M eds.Meaningful texts:The Extraction of Semantic Information from Monolingual and Multilingual Corpo2 ra.Birmingham:Birmingham University Press,2002.127~

139

CHANG B ao2B ao,born in1971,

Ph.D.,lecturer at Institute of Com puta2

tional Linguistics,Peking University.

Major research interests include com puta2

tional linguistics,machine translation and

parallel corpus.

126

5期常宝宝:基于统计的翻译等价词对抽取研究

关于文化负载词的翻译研究

关于文化负载词的翻译研究 本文从网络收集而来,上传到平台为了帮到更多的人,如果您需要使用本文档,请点击下载按钮下载本文档(有偿下载),另外祝您生活愉快,工作顺利,万事如意! 作为我国儒家思想的经典作品,《易经》体现的价值是多方面,其对国人的思想与民族性思维都产生了十分深刻的影响。《易经》更加被称为是”群经之首,大道之源”。孔子曾经说过:”加我数年,五十以学易,可以无大过。”从这个角度看,孔子对自己没有能够在早年就学习易经感觉到懊悔,这说明了易经的重要性意义。同时,因为当今世界开始流行中国文化热的潮流,有关我国经典作品的翻译工作持续升温,探究《易经》文化负载词意义上的翻译因此具有十分重要的意义。 一、《易经》文化负载词翻译过程中存在的主要问题 1、对原文产生”误读” 《易经》使用语言十分简练与深刻,因此,也造成了在针对其进行研究的过程中,存在理解力上的错误。同时,需要注意的是如果并不能够对中国历史文化有较深的研究,很容易产生对文本的误解。这种误解的产生主要包括几个方面:首先是对文字的误解;

其次是对文化内涵上的误解。 举例说明,《易经》起手卦当中乾卦九二”利见大人”这一句当中的”见”字与《困卦九五》中”乃徐有说”当中的”说”字两者都属于”通假字”。在理本与卫本当中都并没有将这种现象进行说明,并在此基础上形成了错误的翻译。 《乾卦九三》当中则说”君子终日乾乾”,这一句当中的”君子”主要是针对当时时代背景下的贵族而言。但是到了后代在针对其进行理解的过程中,将君子主要建翻译成为拥有高尚品德的人。理本与汪本在进行翻译的过程中并不准确。 2、对原文理解的文化差异性 语言跟深层次体现的是一定区域范畴当中的社会意识形态、历史文化传承以及风俗特征等的人类文明特征。不同历史条件与文化背景基础上,中西方文化思维上的差异性则体现在生活行为方式以及价值观念等方面。语言属于是文化形式的重要载体,语言能够反映文化的历史变化,同时更加能够表现出文化所产生的差异性特征。如果在进行翻译的过程中并不尊重这种文化差异性,生搬硬套进行翻译,则并不能够对文化传播起到任何积极性作用。 《易经乾卦》当中的六爻所代表的文化意味就

机器翻译技术的现状及发展

机器翻译技术的现状及发展 篇一:翻译技术领域的现状与展望 翻译技术领域的现状与展望 作者/王华伟闫栗丽 翻译技术在中国的发展起步相对较晚,但近年来随着中国在全球化进程中扮演着越来越重要的角色,催生了对翻译技术发展的强烈需求。中国翻译行业在借鉴国外同行经验的基础上,于2007~2008年间在翻译技术领域取得了一系列成就,也还存在一些亟需改进的方面,而这也势必对我国的翻译行业产生深远的影响。 1. 国家政策的扶持和行业协会的推动 翻译技术的发展直接关乎整个翻译行业的翻译质量及效率,具备巨大的行业经济效益。对此,科技部、财政部都给与了足够的重视并拨出专项资金进行扶持。在 2008年的科技型中小企业技术创新基金扶持计划中,中文及多语种处理软件及基于先进语言学理论的中文翻译软件等赫然在列。而中国译协也在 2008年的第 18届世界翻译大会上专门辟出了翻译工具、术语管理和翻译标准等分论坛,着力推动翻译技术的探讨与发展。 2. 词典型翻译软件百花齐放 词典是使用范围最广的工具,它以使用便利的优势,几乎占据了每个计算机的桌面,无论语言学习者还是专业翻译人员,几乎都是必备工具。词典的发展从最早的单机版本发展至今,已经有很多种产品

类型,我们可以见到的有:电子词典、在线词典、手机词典等。“金山词霸”的网络版本“爱词霸”在这两年获得了长足的发展,如爱词霸网络释义、谷歌金山词霸等一系列特色功能的相继推出,将词典型翻译软件的应用领域从传统的桌面计算机拓展到网络、手机等,并取得了显著的成功。另外,类似Google这样的搜索引擎,因为信息量大,检索便利而成为很多专业翻译人员查词的重要辅助工具。 值得一提的是,最新推出的基于用户发布词汇的词典编撰系统之前的词典都是以各大出版社公开发行的词典中的词条作为主要数据库来源,为用户提供查询上的便利。但是传统出版词典的方式存在发布周期长、词汇更新慢的缺陷。互联网的出现,加快了信息传播的速度,也提高了用户对新词更新的速度要求,为了方便新词汇的发布,词典编纂系统也就应运而生了。这是一种基于用户的词典发布系统,用户可自由发起词典编纂项目,自发组织人员参与项目,发起人可以按照需要给小组成员分配不同的权限,将词汇添加等基本工作和审核人员明确区分,既确保了词典的专业性,也实现了专业语料的适时更新和发布。 3. 机器翻译应用软件融入普通网民生活 谷歌语言工具的推出打破了互联网语言的藩篱,用户可以方便简捷地将目标语言的网页转化成自己的母语进行浏览。事实上,这也是机器翻译软件的一个应用领域,而国内的相关软件如金山快译等,专注于为普通网民提供更为友好的英中日网站浏览体验,并在亚洲语言的机器翻译应用方面积累了大量的经验。其他如华建等长期从事机器

机器翻译质量的研究与探讨

机器翻译质量的研究与探讨 何站涛韩兆强闫栗丽 交大铭泰软件有限公司北京100081 E—mail:hezt@sunv.com <摘要:本文简介了机器翻译的发展历史和常用方法,重点阐述了提高机器翻译质量的新思路,最后进行了展望. 关键词:机器翻译N元文法语义网语料库计算机辅助翻译 一、引言 计算机对自然语言的研究和处理,一般应经过如下三个方面的过程: I.把问题在语言学上加以形式化.使之能用数学形式严密而规整地表示出来 2.把这种数学形式表示为算法,使之在计算上形式化; 3.根据算法编写计算机程序,使之在计算机上加以实现。 因此.自然语言处理就成了语言学、数学和计算机科学之间的边缘学科。 二、机器翻译概述 面向计算机的语言的机器翻译研究是二十世纪五十年代才开始的: 从五十年代初期到六十年代中期,机器翻译一直是自然语言处理系统研究的中心课题,当时采用的主要是“词对词”翻译方式,这种不是建立在对自然语言理解的基础上的简单技术,没有得到预期的翻译效果,如,威沃(Weaver)设计实现的机器翻译原型系统,该系统采取查找双语词典,句子译文只是单词译文的简单罗列。 六十年代初,自然语言处理使用了简单的语料库统计方法,不仅依据词的意义.而且依据词与其他词的共现情况对词进行分类。但经验主义遭到了理性主义的批评,如乔姆斯基(Chomsky)对N元语法(N.Gram)的批评、闵斯基(Minsky)等对神经网络的批评。 六十年代中期,人们开始转入对自然语言的语法、语义和语用等基本问题的研究,并尝试着让计算机来理解自然语言。乔姆斯基的转换语法和形式化理论为下一代的自然语言处理提供了一种新的解决方案。 七十年代初,美国哈佛大学人工智能专家伍兹(Woods)提出了扩充转移网络(AugmentedTransitionNetWork,ATN),通过使用成份寄存器和功能约束对有限状态机进行了扩充,ATN考察了更多的上下文信息,保持了有限状态计算的简单性。 从八十年代初期开始,国际计算语言学界出现了一批新的语法理论。比较著名的有广义短语结构语法(GeneralizedPhraseStructureGrammar,GPSG)、中心语驱动的短语结构语法(Head-drivenPhraseStructureGrammar,HPSG)、词汇功能语法(LexicalFunctionalGrammar,LFG)、功能合一语法(FunctionUnificationGrammar,FUG)等确定子句语法。 ?218?

机器翻译研究现状与展望1 Machine TranslationPast,Present,future

机器翻译研究现状与展望1 戴新宇,尹存燕,陈家骏,郑国梁 (南京大学计算机软件新技术国家重点实验室,南京 210093) (南京大学计算机科学与技术系,南京 210093) 摘要:本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,包括:基于规则、基于统计以及基于实例的机器翻译方法;针对机器翻译的研究现状,详细介绍和分析了基于混合策略的机器翻译方法,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。 关键字:机器翻译,基于规则,基于统计,基于实例,混合策略,机器学习 Machine Translation:Past,Present,future Dai Xinyu, Yin Cunyan, Chen Jiajun and Zheng Guoliang (State Key Laboratory for Novel Software Technology, Department of Computer Science & Technology Nanjing University, Nanjing 210093) Abstract:This paper firstly presents the history of machine translation, and introduces some classical paradigms of machine translation: RBMT, SBMT and EBMT. Secondly, we introduce the recent research on machine translation, and describe the hybrid strategies on machine translation in detail, and discuss the applications of machine learning for machine translation. We also analyze the current techniques about evaluation on machine translation. Finally, we draw a conclusion and prospect on the research of machine translation. Keywords:Machine Translation, RBMT, SBMT,EBMT, HSBMT, Machine Learning. 1本论文工作得到863课题资助(编号:2001AA114102, 2002AA117010-04) 戴新宇博士生,主要研究自然语言处理;尹存燕助教,主要研究自然语言处理;陈家骏教授,博士生导师,主要研究自然语言处理、软件工程;郑国梁教授,博士生导师,主要研究软件工程。

历年考研英语翻译题高频词汇整理

2014年 46) articulate 清晰的表达, 47) by all accounts根据、根据报道;byone’s own account 根据某人自己所说,letalone更别提, 48) intensity紧张,abruptly突然地,sudden突然,soft柔和的,passage段落,rarely很少、几乎不,composer作曲家,compose作曲、编写, 49) associate联系, 50) suffer遭受, inevitable不可避免, render转换、使变成; 2013年 46) strike打、震撼,for all尽管,style风格,urge需求、督促、鼓励,decoration装饰, 47)sacred神圣的,crude原始、粗糙,as opposed to与相反,shelter避难所, 48) ineffect实际上,urban城市,discernible容易看出的,discern看出、识别, 49)blame批评, 50)implicit隐含的,explicit明确的,reference谈到、提与、参考,synthetic人造的;

2012年 46) impulse冲动,unification统一、一致, generative生产的、生成的,generate产生, 47) constrain力劝、强迫、限制,constraint限制, 48) filter过滤, cognitive认知的, 49) empirical实证的、根据经验得到的,bias偏见, 50) track跟踪; 2011年 46) erroneous错误的,error错误, 47) sustain支持、维持,illusion幻觉,conscious有意识的, 48) justification合理,借口,justify证明是公正的,rationalization合理,exploitation剥削、开发, bottom底, 49) circumstance环境, 50) upside积极的、正面的,contain包含,be up to取决于,array展示、陈列、一系列; 2010年 46)rescue拯救,to the effect that大意是说,failed to不能,

安徽专升本英语高频词汇练习之名词部分汇编

名词练习 1. There is no ____to the street through that door. A) access B) avenue C) exposure D) edge (have) access to 1. enter 进入2. possess 拥有3.approach 接近 assess 评价评估,evaluate 评价评估,estimate 预计(at a rough estimate粗略估计) asset 资产(fixed asset 固定资产)property 财产 avenue 大路path 小径route 路线shortcut 捷径(cut across 超近道) edge 边缘margin 边毛利,利润verge 边(on the verge of ) exposure 暴露揭露be exposed to 暴露在……之下 2. Good students who need money can usually get money for education. There are special sources of money, special education ______ from their governments, other agencies, and organizations. A) cash B) finances C) funds D) income Cash现金finance 财政金融financial a.财政的funds 基金income 收入revenue 税收 Salary/wage 薪水pension 养老金allowance 津贴补贴tuition 学费fee 费用 Commission 佣金提成kickback 回扣fine 罚款bonus 奖金tip 小费capital 资本首都 3. Shelly had prepared carefully for her biology examination so that she could be sure of passing it on her first _________ . A) intention B) attempt C) purpose D) desire Intention 目的意图(intent to do)attempt 尝试 Purpose 目的结果on purpose=deliberately 故意地destination 目的地destiny=fate命运 Desire 渴望希望(desire to do ,desire of doing) Long for sth 渴望得到 4. The teacher wrote his comments in the ________ of the student’s paper. A) margin B) bulletin C) edition D) bargain margin 边毛利,利润bulletin 公告公示edition 版本editor 编辑 bargain v.讨价还价n 物美价廉的商品 5. Because there is great _______ in the quality of diamonds, stones of the same size may not cost the same price. A) similarity B) agreement C) change D) variation similarity n 相似be similar to 和……相似 familiar 熟悉的be familiar with 对……熟悉 agree with同意某人或某人的意见、想法、分析、解释等 agree to同意或接受某事,尤其指别人提出的某事,有时可能是自己不喜欢的事 agree on主要指双方通过协商而取得一致意见或达成协议 Variation 差异vary 变化(vary from a to b ) Variety n 多样性a variety of=various 多种多样的各种各样的 6. As a result of their _________the three small independent countries felt less afraid of their powerful neighbor . A) alliance B) combination C) partnership D) union Alliance n 联盟ally v 联盟combination n 组合combine v 组合

网络热词和新词的翻译方法浅析

网络热词和新词的翻译方法浅析 发表时间:2013-08-29T14:35:50.950Z 来源:《教育研究与实验》2013年第4期供稿作者:李自红[导读] 随着社会的快速发展和网络科技的深入渗透,语言作为一种社会发展的表现形态,也发生了很大的变化。 [摘要]随着社会的快速发展和网络科技的深入渗透,语言作为一种社会发展的表现形态,也发生了很大的变化。英语是世界上应用范围最广的语言,它在网络时代的发展环境下产生了大量的网络新词和热词,对这些新词和热词的翻译工作是语言学者目前急需解决和完成的主要任务。本文主要是从网络热词和新词的产生背景、原因及领域,网络热词和新词的构成和语义特征,以及深入分析网络热词和新词的翻译方法这三个方面入手,以便学习者掌握重要的翻译方法和策略,提高英语的翻译能力。[关键词]网络热词英语新词翻译方法翻译技巧 一、网络热词和新词的产生背景、原因及领域 (一)网络热词和新词的产生背景 20世纪中后期,人们开始逐渐进行网络时代,网络在人们日常的工作和生活中得到了大力推广和普及,改变了人们传统的工作方式和生活习惯。网络对于英语词汇具有相当大的冲击力,网络不仅是传播英语信息的媒体,还在一定程度上影响了英语词汇的构成,由此产生了大量的网络热词和新词。网络热词和新词一方面体现出语言自身较强的适应能力和顽强的生命力,同时也是社会生活和社会思想发生变化的一种表现形式。 (二)网络热词和新词产生的原因 网络热词和新词是一种语言的时尚先驱,引领语言的时尚潮流,它可能是由于一种观念或者生活态度的转变形成的。因此,粉衣网络热词和新词产生的原因,实质上就是分析一种社会流行态势的产生原因。下面,我们主要从以下两个方面进行分析:第一,网络的出现是网络热词和新词产生的重要前提。语言是人类社会进行交流沟通的重要工具,社会生活的发展变化一定程度上引起英语词汇的变化,互联网的大力推广和普及,进一步促使网络社会和网民的出现,在网络交流过程中网络词汇和新词的出现是社会文化和科学技术发展的产物。网络热词和新词也主要以网络作为交流的载体,形成一种新的语言词汇。总而言之,网络社会的形成是网络热词和新词产生的重要原因; 第二,便于人类网上交际是网络热词和新词产生的重要目的。网络热词和新词作为网民进行交流沟通的主要工具,产生于网民在网络环境中的日常交际生活,虽然继承了英语词汇的规范性,但是另一方面打破了英语交流的常规,使英语词汇的发展道路出现了畸形,出现了符号、数字等非汉语词汇,这给英语翻译工作者带来了严峻的挑战。在封闭的网络环境中,方便网民交流被放在第一位,符合语言常规处于次要地位,因此便于网络网上交流是网络热词和新词产生的重要目的。 (三)网络热词和新词的产生领域 网络热词和新词的产生涉及到很多方面,主要包括政治、经济、文化、科技、医疗等领域。下面我们进行详细介绍: 1、政治领域:第二次世界大战以后,世界的政治格局也发生了很大变化,英语新词和网络热词也产生了很多。如汉语中的冷战,在英语中用“cold war”表示; 2、经济领域:由于经济全球化的形成,也产生了很多英语新词。如汉语中的全球化经济,在英语中用“ Economic GIobalization”表示,汉语中的石油输出国组织,在英语中用“OPEC”表示,即“ Organization of the Petroleum Exporting Countries”; 3、科技领域:每一阶段科技的发展,都会产生很多的英语新词和热词,科技领域也是网络新词和热词产生的主要领域之一。如汉语中的宇宙飞船,在英语中用“spaceship”表示,汉语中的“克隆”,在英语中用“clone”表示; 4、文化领域:教育事业是促使社会不断进步的加速器,因此,也有很多网络热词和新词出现在文化领域。如汉语中的“远程教育”,在英语中用“distance education”表示,汉语中的“脱口秀”,在英语中“talk show”来表示; 5、医学领域:医疗水平的不断提高也给网络热词和新词做出了重大贡献。如汉语中的“整容”,在英语中用“perform face-lifting”表示,汉语中的“试管婴儿”,在英语中用“test-tube baby“表示。 二、网络热词和新词的构成类型和特点 (一)网络热词和新词的构成 随着网络科技的快速发展,越来越多的人开始利用网络进行交流,了解世界动态,随时进行网络购物(online shopping),进一步改变了人们的日常生活方式。网络热词和新词的构成方法主要有以下几种,下面我们进行详细介绍: 1、自创法,就是完全创造出一个崭新的英文词汇,这种方法所占的比例比较少。这类词汇比如easy meat(易辨的事),go for broke (尽最大的努力)等; 2、旧词新意法,就是对已有词汇增添新的解释意思,这类词汇大部分都来自于人们的日常生活,如LINK(链接),VISIT(访问网页)等; 3、结合法,就是在原有词汇的基础上加上与网络有关的前后缀或其他构词成分构成新词,或者两个旧词结合在一起组成新的词汇,这类词汇比较容易被人们理解和接受,所占的比例比较大。如E-LIFE(电子生活),E-BOOK(电子书),network(网络工作); 4、缩略简化法。缩略与简化在网络语言中经常见到,比如MS(信息管理系统),WTO(世界贸易组织)等; 5、引用法。引用法就是引用外来语言,英语词汇中有很多都来自外国语言,是构成英语词汇中不可缺少的部分。比如black humor (黑幽默)是由法语转化而来的。 (二)网络热词和新词的特点 由于网络热词和新词具有词义生动形象、简洁明了的特点,在网络交流中能更加形象的表达人们的思想或看法,比较容易被人们接受。下面我们进行具体分析: 第一,词义生动形象,更加生活化。网络热词和新词一般都来源于人们耳熟能详的词汇,它可以借助英语词汇来激发读者产生联想,通过赋予旧词新的意思,创造出词义生活形象、更加生活化的新词汇,如bug原来的词义是昆虫,现在用来指故障。在网络交流中人们主要依靠文字,不能依靠肢体语言来表达思想;

文化负载词和翻译

龙源期刊网 https://www.doczj.com/doc/c77510655.html, 文化负载词和翻译 作者:孟娜 来源:《青年文学家》2012年第04期 摘要:本文对文化负载词进行了讨论,从文化和语言的关系入手,说明文化和语言是紧密联系的两个方面。语言中含有大量的文化负载词,它们的形成原因。本文通过对《浮生六记》中部分文化负载词的分析说明文化负载词的重要性。 关键词:文化负载词;原因;《浮生六记》 [中图分类号]:H059[文献标识码]:A [文章编号]:1002-2139(2012)-04-0127-01 1、文化与语言 文化与语言是不可分割的两个名词,特别是在翻译的过程中,语言和文化更是两个至关重要的因素。有人说,语言是文化的一个组成部分;又有人说,文化是语言的一种展现。不管怎么说,大家都认为语言与文化是不可分割的两部分。文化的影响不可避免的显示在语言身上,而且对于一门外语的理解,不仅包括表面的意思,还有背后的深层含义。 那么什么是文化呢?对于文化的定义,可谓是“仁者见仁,智者见智”。英国人类学家Edward Tylor 曾指出,“文化是一个‘复合的整体,其中包括知识、信仰、艺术、法律、道德、风俗以及人作为社会成员而获得的任何其他的能力和习惯’”。文化在泰勒的定义中包括了许多方面,包括了人类生活的方方面面,这是一位人类学家对于文化的概念概括。奈达将语言文化特性分为五类:生态学、物质文化、社会文化、宗教文化和语言文化。各国地理环境、宗教信仰、民族思想的不同都会对语言的使用产生巨大影响。这些词尤其是在习语、俗语和日常用语中表现明显。 因为受到文化的影响,语言就会表现出来。于是就出现了“文化负载词”,又称词汇空缺,指原语词汇所承载的文化信息在译语中没有对应语。 2、文化负载词的成因 这些具有文化负载的词,都是带有典型的国家特色的。这与英美国家和中国不同的地理位置以及气候有很大关系。英国曾是海上霸主,渔业十分发达,所以词语中有许多与渔业有关的词。比如sea 和fish这两个词在英语中文化内涵十分丰富。sea同“许多”、“大量”联在一起,如a sea of fish(大量的鱼),a sea of troubles(许多麻烦)。“fish”一词同许多形容词搭配,喻指形形色色的“人”,如a big fish(大人物),a dull fish(迟钝的人),a queer fish(古怪的人)。而中国大部分是农耕产业,所以词语中有许多是与农业有关的,所以词语与农耕联系密切。

中国文化“走出去”文化负载词翻译研究.docx

中国文化“走出去”文化负载词翻译研究文化“走出去”战略,是指通过发展文化传播、文化贸易促使中国的文化产品进人国际市场,向世界传播中华文化,在获取文化产品出口和投资收益的同时,提高国家的文化“软实力”和影响力。[1]中国文化“走出去”是提升国际竞争“软实力”,推动中国文化走向世界的重要战略。翻译作为多元文化沟通和传播的桥梁,在这一伟大战略实现进程中有着举足轻重的作用。然而,文化“走出去”不能简单地理解为普通的翻译问题,不能盲目地认为只要把中国文化作品和文化典籍翻译成外文,中国文化就“走出去”了。事实上,在中国传统文化中尤其是少数民族题材小说中存在大量的区域特色的文化负载词(cul-ture-loadedterms),即标志某种文化中特有事物的词、词组和习语。这些词汇反映了特定民族在漫长的历史进程中逐渐积累的有别于其他民族的独特的活动方式。[2]因此,在对外翻译中,译者如何处理这类特殊词语,将中国传统文化的精髓准确无误地传播出去,以便真正达到中国文化“走出去”的目的。 一、文化负载词翻译研究的阶段性 在国内,“文化负载词翻译”在20XX年以前鲜有提及,20XX年以后呈增长态势,20XX年之后呈迅猛增长态势并以每年达百余篇的数量增加。从“中国知网”检索情况来看,在此20年间(19XX年以前,探索阶段。此阶段的研究主要侧重于文化负载词翻译的探索。(陈喜荣,19XX年陈喜荣首次论及文化负载词翻译,从功能语法语境理论探讨文化负载词的翻译,并给出语境理论指导下的文化负载词翻译形

式,这是目前国内有关文化负载词翻译的开山之作。张红艳(20XX 年之前的有关文化负载词翻译的相关研究数量不多,而且大多是文化负载词翻译技巧等简单尝试和探索,大多是泛泛而谈,成果不甚明显,核心期刊发表论文数量为零,但有学者的研究观点颇有见地,至今仍有借鉴意义。第二阶段:20XX年,讨论和争论阶段。20XX年,奥运会在中国举办,XX20XX年迅速增加为23篇,几乎为前十年相关研究数量总和,此后几年呈连续增长态势。同时,部分学者的相关研究开始具体化、深入化,从不同的视角、理论开始探讨各类语境文化负载词的翻译实践,从宏观方面的探讨进而朝着微观研究方向发展,其中以各类文学作品中文化负载词的翻译数量最多,各类核心期刊发文呈增加态势。(郭靖文,20XX年以来,成熟和多产阶段。经过21世纪第一个10年的发展,文化负载词翻译研究已经积累了一定的经验。随着国际形势的变幻、国内经济的发展和党的十八届三中全会的召开,文化“走出去”战略成为建设文化强国、增强国家文化“软实力”的必经之路,在新的时代背景下被赋予了全新的意义。自十八大以来,不断推出促进文化“走出去”的政策,其中《关于进一步加强和改进中华文化“走出去”工作的指导意见》《关于加快发展对外文化贸易的意见》《关于加强“一带一路”软力量建设的指导意见》等文件先后印发,统筹对外文化交流,文化传播和文化贸易,努力讲好中国故事,传播好中国声音,推进文化“走出去”的力度空前加大。这一阶段,受国家政策影响,各类学者积极响应,相关研究迅猛增加,每年的相关研究都超百篇。研究领域涉及文学作品、政宣文本、古诗词、电影字幕、饮

词汇翻译练习[学生版]

Name & No.: Exercises for Business English Translation 练习之词义选择(1) 1. Thank you for your letter reference DT/Zi No. 102, of 29th, March. 感谢贵方3月29日编号为DT/Zi,No.102的来信。 2. With only one order from ABC Co., Ltd., we regret we cannot give you a reference from long experience. 我们仅接受ABC有限公司的一笔定货,很遗憾我们不能提供具有长期交往经历的资信情况。 3. Reference is made to your Sales Confirmation No. 1529. 现谈到贵方的第1529号销售确认书。 4. The Buyer asks for credit and has given the Bank of China, Beijing as a reference. 买方要求记账交易,并提出中国银行北京分行作为资信备询人。 5. The Sales Company is given the same power with reference to apportioning the commission. 关于佣金的分配问题,应授予销售公司同样的权利。 6. A reference to your records will show that we have more than once asked you to establish L/C against S/C No. 2523. 查阅你方记录可以看出,我方已多次催促,要求你方对第2523号销售确认书开立信用证 7. The time limit for inspection and claim is 60 days after discharge of the cargo at the port of destination. 检验与索赔的期限为货物卸至目的港后60天。 8. Party B agrees that the expiration of this license shall not discharge party B from its obligation. 乙方同意在许可证到期时并不免除乙方应尽的义务。 9. Routine duties of the Joint Venture Company are to be discharged by the general manager appointed by the Board of Directors. 董事会任命的总经理,负责履行合营公司的日常职权。 10. Party B shall check the quality of each discharge in accordance with the Contract. 乙方应按合同规定检查发出的每批货物的质量。 11. Just as in that year, when those catastrophes were followed by substantial increases in insurance premiums, insurers are already lobbying for rate relief. 像那年的情况一样,大灾之后保险金大幅度提高,现在保险公司已经在游说希望减免保险费率。 12. During the 1980’s the large premiums paid in acquisition often resulted in prices that greatly exceeded the value of tangible assets. 20 世纪80 年代,并购中支付的大额溢价常常导致价格远远超过有形资产的价值。 练习之词类引申(2) 1. Vietnam was his entrée to the new Administration, his third incarnation as a foreign policy consultant.

网络流行语传播研究外文文献翻译最新 网络热词

毕设附件:外文文献翻译原文+译文 原文 The research of network buzzwords spreading Markus D Abstract Network buzzwords from the Internet language, that is, first appeared in the Internet and popular on the Internet, created by users or reference and are endowed with special meaning of words and sentences. Here's the special meaning has two meanings: the first layer means that it is unique in a certain period of time on the network popular virtual things and behavior as well as the things associated with the computer network technology. The second means that it is very different from daily in the natural language system, the unique meaning, this means that a certain period of social politics, economy, culture and Internet psychological activity factors such as comprehensive product. Keywords: Network hot words; Buzzwords; Spreading 1 Introduction In the 1980 s, Toffler in the United States believe that human civilization forward like waves, already had two causes the whole civilization and the great wave of social change: agriculture is the first wave of agricultural society is established. The second wave of industry established the industrial society. "Now is a new civilization in our life. The birth of the new civilization, is the only the most explosive events in our lives. The deep meaning of it, just like the invention of agriculture one hundred years ago the first wave of change of human liberation, or as the industrial revolution caused by the second wave of shock the world. We are the architects of the next change. Like it?s predicted, we ushered in the third wave, and the third wave is marked by information highway construction of the information revolution. In this case, the information highway is the emergence of the Internet. Its emergence caused a revolutionary change of the human social life each aspect. These changes occur, also affected the development of language change. Current research of network language has made certain achievements. In the definition of network language and the

机器翻译技术的探讨

机器翻译技术的探讨 六院五队-徐允鹏-12060143 摘要随着国际交流的日益增多,在计算机、互联网等相关技术日新月异的基础上,机器翻译的技术与应用得到了蓬勃发展。本文详细探讨了基于规则的机器翻译方法、基于语料库的机器翻译方法和混合式机器翻译方法,并讲述了机器翻译的评估方法,最后介绍了机器翻译技术的最新进展。 关键词:机器翻译;基于规则;语料库;评估方法 1.机器翻译概述 随着国际化交流的普遍性,信息通信的日益膨胀,高效的处理不同领域各种语言之间的互译已成为当代人们的普遍需求。翻译是解决自然语言之间通信障碍最直接最有效的方法。传统的翻译工作都是通过专业翻译人员完成,利用语言学知识进行自然语言之间的互译,帮助人们实现信息通信。伴随着计算机技术的成熟与自然语言处理技术的不断进步,利用机器翻译系统帮助人们快速获取外文信息代替人工翻译已成为一种必然的趋势。 机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language

Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系[1]。 机器翻译是21世纪要解决的科技难题之一,主要困难是自然语言在各个层次上的歧义性。研究机器翻译具有重要的实践意义和理论意义。国际间的合作与交流,语言的差异是一个非常重要的障碍,各行各业的人们面对大量他们不熟悉的语言的文档资料,如果单纯的依靠人工翻译,这些日益的待翻译材料将是一种非常沉重的负担,而机器翻译可大幅度减轻这种负担。同时,机器翻译对于了解人类语言和思维的基本机制,探讨人工智能技术有着重要的意义。 2.机器翻译方法 人们一直在寻求更好的解决机器翻译问题的方法,目前机器翻译方法主要有基于规则的机器翻译,基于语料库的机器翻译和混合式机器翻译方法。 2.1基于规则的机器翻译方法 2.1.1基于分析和转换的机器翻译方法 人作翻译时,把一个源语言句子译成目标语言句子,设计到四个基本操作:目标语言单词的检索、调序、删词、增词;机器翻译系统的过程包括检索、分析、转换和生成主要四个阶段,这被称为基于分析和转换的机器翻译系统,也被认为是模拟人类翻译活动最恰当的机

2017高考高频常考易错成语分类汇编大全(最全面)

第一类望文生义 成语的意蕴是约定俗成的,而且大多都有一定的典故,加之有些成语中的语素,还含有生僻的古义,这就造成了成语意蕴上的理解难度,如果我们对成语意蕴不仔细辨析,粗枝大叶,一瞥而过,就极易造成望文生义的误 用。 ☆类似因误解意义而误用的成语还有: 1. 明日黄花:比喻过时的事物或消息。 2. 火中取栗:比喻被别人利用去干冒险事,付出了代价而得不到好处。 3. 万人空巷:形容庆祝、欢迎等盛况。 4. 不刊之论:指正确的不可修改的言论。 5. 不为已甚:指对人的责备或责罚要适可而止。 6. 望洋兴叹:比喻做事时因力不胜任或没有条件而感到无可奈何。 7. 不足为训:不值得作为效法的准则或榜样。 8 .因人成事:依靠别人把事情办好。 9. 弹冠相庆:指旧社会官场中一人当了官或升了官,同伙就互相庆贺将有官可做。 10. 久假不归:长期地借用,不归还。 11. 司马青衫:比喻因遭遇相似而表示的同情。 12 .数典忘祖:比喻忘掉自己本来的情况或事物的本源。 13 .大动干戈:比喻大张声势地行事。 14 .高山流水:比喻知己、知音或乐曲高妙。 15 .不绝如缕:形容局势危急或声音细微悠长。 16 .不翼而飞:比喻东西突然丢失。 17七月流火】指天气逐渐凉爽起来。火:火星。 18木人石心】比喻人不受诱惑,不动心。 19敬谢不敏】恭敬地表示能力不够或不能接受。谢:推辞。 20日长一线】指冬至后白昼渐长。 21不经之谈】形容荒唐无根据的话。经:通常的道理 22差强人意】原意为还算能振奋人的意志,现表示还能够使人满意。差:稍微,大致。。 23高屋建瓴】在高屋顶上倒翻瓶子里的水;比喻居高临下,不可阻挡的形势。建:倒水,泼水。 24毫发不爽】一点也不差。爽:差错,失误。 25讳莫如深】形容瞒得很紧,不让别人知道。讳:隐秘不说。 26计日程功】按日子来计算工作的进度或功效。程:计量,考核。 27莫衷一是】不能断定哪个对,哪个不对。衷:决断。 28钟灵毓秀】美好的自然环境孕育优秀的人才。钟:凝聚,集中。 29师心自用】固执己见,自以为是。师:以……为师。 30韬光养晦】隐藏自己的才能、锋芒,不使外露。韬:隐藏。 31文不加点】文章一气写成,无须修改;形容文思敏捷,写作技巧纯熟。点:涂改。 32文过饰非】用假话掩饰自己的过失、错误。 33人浮于事】人员数量多于工作所需,人多事少。浮:超过。 第二类对象误用

相关主题
文本预览
相关文档 最新文档