宗成庆机器翻译概要
- 格式:ppt
- 大小:748.00 KB
- 文档页数:65
宗成庆统计自然语言处理自然语言处理(Natural Language Processing, NLP)是计算机科学与人工智能领域的一个重要研究方向。
它旨在让计算机能够理解、分析和生成自然语言的能力,使计算机能够更好地与人类进行沟通和交互。
NLP的研究范围非常广泛,涵盖了词法分析、句法分析、语义分析、机器翻译、情感分析等多个子领域。
通过对自然语言的分析和处理,NLP可以帮助计算机理解人类的意图和情感,实现智能化的交互和应用。
在词法分析方面,NLP可以对文本进行分词、词性标注和命名实体识别等处理,从而将一段文本切分成一个个具有意义的词语,并为它们赋予相应的词性和语义信息。
通过这种方式,计算机可以更好地理解文本的语义和结构。
句法分析是NLP的另一个重要研究方向,它的目标是分析句子的结构和语法关系。
通过句法分析,计算机可以理解句子中不同词语之间的依存关系,从而更好地理解句子的含义。
语义分析是NLP的核心任务之一,它的目标是理解文本的语义和逻辑关系。
通过语义分析,计算机可以挖掘出文本中隐藏的含义和逻辑结构,实现更精确的理解和推理。
机器翻译是NLP的一个重要应用领域,它旨在将一种语言的文本自动翻译成另一种语言。
通过机器翻译,人们可以更方便地进行跨语言交流和理解。
情感分析是NLP的一个新兴研究方向,它的目标是分析文本中的情感和情绪。
通过情感分析,计算机可以识别文本中的情感倾向和情绪状态,从而更好地理解人类的情感需求。
总的来说,自然语言处理是一门充满挑战和机遇的研究领域。
通过不断地深入研究和创新,NLP将会在人工智能和社会应用中发挥越来越重要的作用。
希望今后能有更多的科学家和工程师致力于NLP 的研究和应用,为人类创造更智能、更便捷的交互方式。
2020年6月Chinese Journal of Intelligent Science and Technology June 2020 第2卷第2期智能科学与技术学报V ol.2No.2 融合篇章结构位置编码的神经机器翻译亢晓勉1,2,宗成庆1,2(1. 中国科学院自动化研究所模式识别国家重点实验室,北京 100190;2. 中国科学院大学,北京 100049)摘 要:现有的文档级神经机器翻译方法在翻译一个句子时大多只利用文档的上下文词汇信息,而忽视了跨句子的篇章语义单元之间的结构关系。
针对此问题,提出了多种篇章结构位置编码策略,利用基于修辞结构理论的篇章树结构,对篇章树上位于不同篇章单元的单词之间的位置关系进行了表示。
实验表明,通过位置编码的方式,在基于Transformer框架的神经机器翻译模型中有效地融合了源端的篇章结构信息,译文质量得到了显著提升。
关键词:神经机器翻译;篇章结构;位置编码;篇章分析;修辞结构理论中图分类号:TP391文献标识码:Adoi: 10.11959/j.issn.2096−6652.202016Fusion of discourse structural position encoding for neuralmachine translationKANG Xiaomian1,2, ZONG Chengqing1,21. National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China2. University of Chinese Academy of Sciences, Beijing 100049, ChinaAbstract: Most of existing document-level neural machine translation (DocNMT) methods focus on exploring the utili-zation of the lexical information of context, which ignore the structural relationships among the cross-sentence discourse semantic units. Therefore, multiple discourse structural position encoding strategies were proposed to represent the posi-tional relationships among the words in discourse units over the discourse tree based on rhetorical structure theory (RST).Experimental results show that the source-side discourse structural position information is effectively fused into the DocNMT models underlying the Transformer architecture by the position encoding, and the translation quality is im-proved significantly.Key words: neural machine translation, discourse structure, position encoding, discourse analysis, rhetorical structure theory1引言近年来,随着人工智能技术在自然语言处理任务中的广泛应用[1-4],机器翻译(machine translation,MT)得到了快速发展。
基于篇章结构多任务学习的神经机器翻译
亢晓勉;宗成庆
【期刊名称】《软件学报》
【年(卷),期】2022(33)10
【摘要】篇章翻译方法借助跨句的上下文信息以提升篇章的翻译质量.篇章具有结构化的语义信息,可以形式化地表示为基本篇章单元之间的依存关系.但是目前的神经机器翻译方法很少利用篇章的结构信息.为此,提出了一种篇章翻译模型,能够在神经机器翻译的编码器-解码器框架中显式地建模基本篇章单元切分、篇章依存结构预测和篇章关系分类任务,从而得到结构信息增强的篇章单元表示.该表示分别通过门控加权和层次注意力的方式,与编码和解码的状态向量进行融合.此外,为了缓解模型在测试阶段对篇章分析器的依赖,在训练时采用多任务学习的策略,引导模型对翻译任务和篇章分析任务进行联合优化.在公开数据集上的实验结果表明,所提出的方法能够有效地建模和利用篇章单元间的依存结构信息,从而达到提升译文质量的目的.
【总页数】13页(P3806-3818)
【作者】亢晓勉;宗成庆
【作者单位】模式识别国家重点实验室(中国科学院自动化研究所);中国科学院大学人工智能学院
【正文语种】中文
【中图分类】TP18
【相关文献】
1.基于多任务学习的汉语基本篇章单元和主述位联合识别
2.基于篇章上下文的蒙汉神经机器翻译方法
3.基于补全信息的篇章级神经机器翻译
4.跨语言多任务学习深层神经网络在蒙汉机器翻译的应用
5.层次化结构全局上下文增强的篇章级神经机器翻译
因版权原因,仅展示原文概要,查看原文内容请购买。
宗成庆自然语言处理讲义
宗成庆教授是中国著名的计算机科学家,他在自然语言处理领
域有着丰富的研究和教学经验。
他所著的《自然语言处理》讲义是
该领域的经典教材之一,被广泛应用于大学本科和研究生的自然语
言处理课程中。
这本讲义系统地介绍了自然语言处理的基本概念、技术和应用。
宗成庆教授从语言学、计算机科学和人工智能等多个角度深入浅出
地阐述了自然语言处理的理论和实践,涵盖了词法分析、句法分析、语义分析、文本分类、信息抽取、机器翻译等多个方面的内容。
在这本讲义中,宗成庆教授结合自己多年的教学和研究经验,
将复杂的理论和算法以通俗易懂的方式呈现给读者,使得初学者能
够迅速掌握自然语言处理的基本原理和方法。
同时,这本讲义也涵
盖了大量的案例分析和实践操作,有助于学生将理论知识应用到实
际项目中去。
总的来说,宗成庆教授的《自然语言处理》讲义是一本权威、
全面且深入浅出的教材,对于想要深入了解自然语言处理领域的学
生和研究人员来说,具有非常重要的参考价值。
专利名称:构建树结构及基于树结构的机器翻译系统的方法专利类型:发明专利
发明人:宗成庆,翟飞飞
申请号:CN201210068782.3
申请日:20120315
公开号:CN102662932A
公开日:
20120912
专利内容由知识产权出版社提供
摘要:本发明涉及一种构建树结构及基于相应树结构的机器翻译系统的方法,所述方法包括如下步骤:对所述双语语料中的双语句子对进行分词、词性标注和词对齐;根据所述词对齐的结果,对所述双语句子对进行双语切分,生成比双语句子对长度更短的双语子句对,并对生成的所述双语子句对重新进行词对齐;根据所述双语子句对词对齐的结果,进行子句合并以获得所述双语句子对的词对齐,并为所述双语句子对构造压缩森林;从所述压缩森林中选择适合于机器翻译的树结构。
本发明无需任何句法树资源,只要有词性标注资源的语言对,就可以构建基于树结构的翻译系统。
申请人:中国科学院自动化研究所
地址:100190 北京市海淀区中关村东路95号
国籍:CN
代理机构:中科专利商标代理有限责任公司
代理人:宋焰琴
更多信息请下载全文后查看。
基于多层过滤的统计机器翻译
周玉;宗成庆;徐波
【期刊名称】《中文信息学报》
【年(卷),期】2005(19)3
【摘要】本文提出了一种基于多层过滤的算法.该算法主要实现从对齐的中英文句子中自动的抽取与对齐双语语块.根据不同语块具备的不同特性,采用不同的层次对其处理.该算法不同于传统的算法,它不需要对句子进行标注,句法分析,词法分析甚至不需要对汉语句子进行分词等操作.初步的实验结果表明该算法性能较好,测试的结果是:抽取语块的准确率能达到F=0.70,对齐语块的准确率能达到F=0.80;而且将此算法获得的对齐双语语块用于统计机器翻译系统,跟基于词的系统做对比,结果表明基于语块的翻译系统明显提高了翻译水平,差不多能提高10%.
【总页数】7页(P54-60)
【作者】周玉;宗成庆;徐波
【作者单位】中国科学院,自动化研究所,模式识别国家重点实验室,北京,100080;中国科学院,自动化研究所,模式识别国家重点实验室,北京,100080;中国科学院,自动化研究所,模式识别国家重点实验室,北京,100080
【正文语种】中文
【中图分类】TP391.2
【相关文献】
1.基于多层过滤的光度法微生物鉴定算法的研究 [J], 张绍康;林勇
2.基于多层次混合相似度的协同过滤推荐算法 [J], 袁正午;陈然
3.基于短语的统计机器翻译中短语表的过滤 [J], 狄萍;周宥良;贡正仙;周国栋
4.基于虚拟上下文的统计机器翻译短语表的过滤 [J], 殷乐;张玉洁;徐金安
5.基于多层过滤和动态概率模型的试题抽取算法研究 [J], 傅勉
因版权原因,仅展示原文概要,查看原文内容请购买。
语音翻译系统技术分析
宗成庆;陈肇雄
【期刊名称】《计算机科学》
【年(卷),期】1997(024)005
【摘要】语音翻译(SPeech Translation)技术作为一门综合性的计算机应用技术,近年来得到了广的关注。
有关专家曾指出,语音翻译是自然语言处理、语音识别及其人工智能研究的最终目标一,是当今世界对计算机科学和工程最大的挑战[1]。
【总页数】4页(P12-15)
【作者】宗成庆;陈肇雄
【作者单位】中国科学院计算技术研究所机译中心;中国科学院计算技术研究所机译中心
【正文语种】中文
【中图分类】TP391.2
【相关文献】
1.网络语音翻译系统问世 [J],
2.语音特征和情感特征的翻译系统与实现 [J], 曹春香
3.基于语音识别的密语口令翻译系统 [J], 赵文杰;薛永奎;陈磊;刘镇瑜;霍烁烁
4.多语言语音识别翻译系统 [J], 莫沛;梁伟鄯;殷浩天;倪志平
5.基于RIA模型的网上语音翻译系统的研究 [J], 陈再兴;王大震
因版权原因,仅展示原文概要,查看原文内容请购买。
基于统计学习的机器翻译模板自动获取方法
胡日勒;宗成庆;徐波
【期刊名称】《中文信息学报》
【年(卷),期】2005(19)6
【摘要】本文提出了一种从未经深层次处理的双语口语语料库中自动获取机器翻译模板的方法.这种算法是一种无监督的、基于统计的、数据驱动的方法.这种方法有两个基本的步骤.首先,通过语法归纳分别从源语言和目标语言中获取语义类和短语结构类.然后,利用双语划界文法将短语结构类进行对齐.对齐的结果经过后处理就可以得到翻译的模板.初步的试验结果表明,本方法是有效的和切实可行的.
【总页数】6页(P1-6)
【作者】胡日勒;宗成庆;徐波
【作者单位】中国科学院,自动化研究所,模式识别国家重点实验室,北京,100080;中国科学院,自动化研究所,模式识别国家重点实验室,北京,100080;中国科学院,自动化研究所,模式识别国家重点实验室,北京,100080
【正文语种】中文
【中图分类】TP391.2
【相关文献】
1.基于错误驱动的翻译模板自动获取 [J], 张春祥;梁颖红;于林森
2.基于句对比较的自动获取翻译模板方法改进 [J], 方淼;关小薇;高庆狮
3.基于模板的机器翻译系统中模板库的自动构建技术 [J], 林贤明;李堂秋;史晓东
4.水书异体字机器翻译的自动获取方法 [J], 罗俊才;陈笑蓉
5.机器翻译系统中词类搭配规则的自动获取方法 [J], 孙杰;李晶皎;张俐;姚天顺因版权原因,仅展示原文概要,查看原文内容请购买。