基于局部和全局语义融合的跨语言句子语义相似度计算模型
- 格式:pdf
- 大小:6.19 MB
- 文档页数:9
多特征融合的语句相似度计算模型。
知识专栏标题:深度探讨多特征融合的语句相似度计算模型一、引言在自然语言处理领域,语句相似度计算一直是一个重要的研究课题。
而多特征融合的语句相似度计算模型作为其中的一种方法,近年来备受关注。
本文将从多个角度深入探讨这一模型的原理、应用以及发展前景。
二、多特征融合的语句相似度计算模型原理多特征融合的语句相似度计算模型是基于多种特征进行计算,然后将这些特征进行融合,最终得出语句的相似度分数。
这些特征可以包括语义信息、句法结构、词向量表示等多个方面。
通过将这些特征进行融合,可以获得更全面、准确的语句相似度计算结果。
三、多特征融合的语句相似度计算模型应用这种模型在自然语言处理的许多领域都有着广泛的应用。
比如在信息检索中,可以通过计算查询语句与文档之间的相似度来进行文档排序;在问答系统中,可以通过计算问题与候选答案的相似度来进行答案的匹配;在文本对比中,可以进行抄袭检测等。
这些应用都需要准确的语句相似度计算,而多特征融合的模型能够很好地满足这一需求。
四、多特征融合的语句相似度计算模型的发展前景随着人工智能和自然语言处理技术的不断进步,多特征融合的语句相似度计算模型也将不断得到优化和拓展。
未来可能会有更多新颖的特征加入到模型中,也可能会结合深度学习等先进技术来提高模型的表现。
这将会为语句相似度计算领域带来更大的突破和进步。
五、个人观点和理解对于多特征融合的语句相似度计算模型,我个人认为它是一种很有效的计算方法。
通过融合多个特征,可以很好地弥补单一特征计算的不足,得到更全面、准确的结果。
随着人工智能技术的发展,这一模型的应用范围也将会越来越广泛,对于学术研究和实际应用都具有重要意义。
六、总结多特征融合的语句相似度计算模型作为自然语言处理领域的重要研究课题,在理论和应用上都具有重要意义。
通过本文的深入探讨,相信读者对这一模型的原理、应用以及发展前景有了更深入的了解。
未来,这一模型将会在自然语言处理领域继续发挥重要作用。
语义相似度计算目前,语义相似度计算已经成为了自然语言处理领域中的一个研究热点,各种模型和算法不断涌现。
在本文中,我们将对语义相似度计算的基本概念和常用方法进行介绍,并且讨论一些当前研究中的热点问题和挑战。
## 语义相似度的定义和挑战语义相似度衡量的是两个句子或短语之间的语义相似程度。
在计算语义相似度时,我们通常会考虑到两个句子或短语之间的含义、单词的语义以及语法结构等因素。
然而,要准确地计算出两个句子之间的语义相似度并不是一件容易的事情,因为自然语言的含义通常是多样化、模糊不清的,而且受到语言表达方式的限制。
在计算语义相似度时,我们需要克服一些挑战和困难。
首先,要考虑到句子或短语之间的多样性。
同一句话可以有多种表达方式,而这些表达方式的语义可能是相似的,但又不尽相同。
其次,要考虑到语言的歧义性。
自然语言中存在着很多的歧义现象,一个词汇可以有多种不同的含义,这就增加了语义相似度计算的难度。
此外,要考虑到语言的多义性。
一个句子中的一些词汇可能具有多个含义,这就增加了语义相似度计算的复杂性。
## 语义相似度计算的常用方法为了克服这些挑战和困难,研究人员提出了许多语义相似度计算的方法和模型。
这些方法和模型大致可以分为基于知识的方法和基于数据的方法两种。
基于知识的方法通常利用词汇语义资源(如WordNet)来计算语义相似度。
其中,常用的算法包括基于路径的方法、基于信息内容的方法和基于语义子空间的方法等。
基于路径的方法通过计算两个词之间在WordNet中的最短路径来计算它们的语义相似度。
基于信息内容的方法则是利用词汇在语料库中的分布信息来计算它们的语义相似度。
而基于语义子空间的方法则是利用词汇在一个高维语义空间中的向量表示来计算它们的语义相似度。
这些方法在一定程度上可以解决语义相似度计算中的多样性、歧义性和多义性问题。
另一方面,基于数据的方法则是利用机器学习和深度学习技术来计算语义相似度。
其中,常用的方法包括基于词向量的方法、基于神经网络的方法和基于迁移学习的方法等。
跨语言机器翻译中的相似度计算与模型构建随着全球化的加速发展,跨语言交流的需求越来越迫切。
而在这样的背景下,机器翻译作为一项重要的技术应运而生。
然而,由于不同语言之间的差异和语义多样性,实现准确的跨语言翻译仍然具有一定的挑战性。
相似度计算和模型构建是跨语言机器翻译的核心领域之一,本文将探讨这方面的相关内容。
一、相似度计算在跨语言机器翻译中,相似度计算是指对源语言和目标语言之间的语义相似性进行度量的过程。
传统的相似度计算方法通常基于词袋模型或统计方法,这种方法在一定程度上可行,但却无法捕捉到句子或语言的语义信息。
因此,近年来,基于深度学习的相似度计算方法逐渐得到了广泛应用。
1. 基于词向量的相似度计算词向量是将词语映射到连续向量空间的表示方法,在跨语言机器翻译中被广泛应用于相似度计算。
常用的词向量模型包括Word2Vec、GloVe和FastText等。
这些模型通常利用大规模语料库进行无监督训练,使得词汇之间的语义相似性能够得到有效地捕捉。
基于词向量的相似度计算方法主要包括余弦相似度、欧氏距离和曼哈顿距离等。
其中,余弦相似度是最常用的计算方式,可以通过计算两个词向量之间的余弦夹角来获得相似度分数。
此外,还可以通过使用深度学习模型(如Siamese神经网络)来进一步提高相似度计算的准确度。
2. 基于句子向量的相似度计算句子向量是将整个句子映射到向量空间的表示方法,能够捕捉句子的语义信息。
为了实现跨语言机器翻译中的句子级别相似度计算,一种常用的方法是使用预训练的句子向量模型,如InferSent和USE等。
基于句子向量的相似度计算方法可以通过计算两个句子向量之间的余弦相似度来度量它们之间的语义相似性。
此外,还可以使用更加复杂的深度学习模型(如Transformer)来构建句子级别的相似度计算模型,从而获得更好的效果。
二、模型构建模型构建是指在跨语言机器翻译中构建翻译模型的过程。
目前,主流的跨语言机器翻译模型包括统计机器翻译(SMT)和神经机器翻译(NMT)两种。
语义相似度计算语义相似度计算是自然语言处理领域的一个重要任务,它旨在衡量两个词语、短语或句子之间的语义相似程度。
在实际应用中,语义相似度计算可以帮助机器理解语言,从而实现诸如信息检索、问答系统、机器翻译等任务。
现在我们将介绍几种常用的语义相似度计算方法:1. 基于词向量的方法:词向量是将词语映射到一个高维实数向量空间的表示方法。
在这种方法中,可以使用预训练的词向量模型(如Word2Vec、GloVe、FastText等)将词语表示为向量,然后通过计算两个词向量之间的相似度(如余弦相似度、欧氏距离、曼哈顿距离等)来衡量它们之间的语义相似度。
2. 基于词汇语义资源的方法:除了词向量外,还可以利用词汇语义资源(如WordNet、PPDB等)来计算语义相似度。
这些资源中包含了词语之间的语义关系(如同义词、上下义词、反义词等),可以通过这些关系计算词语的语义相似度。
3. 基于深度学习的方法:深度学习模型(如Siamese神经网络、BERT、ELMO 等)在语义相似度计算任务中也取得了很好的效果。
这些模型可以学习词语、短语或句子的语义表示,然后通过模型的输出来计算它们之间的语义相似度。
4. 基于语义图的方法:语义图是一种将词语表示为节点、语义关系表示为边的图结构。
在语义相似度计算中,可以利用语义图中的节点和边来计算词语之间的语义相似度。
这种方法可以很好地捕捉词语之间的语义关系,从而提高语义相似度计算的准确性。
总的来说,语义相似度计算是一个复杂而重要的任务,在实际应用中需要综合考虑不同的方法和技术。
通过不断的研究和实践,我们可以提高语义相似度计算的准确性和效率,从而更好地帮助机器理解语言,实现更多的自然语言处理任务。
希望以上介绍能够对语义相似度计算有所帮助。
用于方面级情感分析的情感增强双图卷积网络情感分析是自然语言处理的一个重要任务,其目标是从文本中识别和提取出其中表达的情感倾向。
近年来,深度学习技术的发展,尤其是卷积神经网络(CNN)的成功应用,使得情感分析在大规模数据上取得了突破性的进展。
然而,传统的CNN在对局部信息的建模中存在局限性,对于复杂的句子结构和长程依赖关系的建模能力较弱。
为了解决这一问题,本文提出了一种用于方面级情感分析的情感增强双图卷积网络。
首先,让我们来了解一下方面级情感分析的任务。
在情感分析中,文本可以被划分为三个层次:整体文本级、句子级和方面级。
整体文本级情感分析旨在判断整段文本的情感倾向;句子级情感分析则关注于分析句子的情感;而方面级情感分析则是针对文本中的某个方面或目标进行情感判断。
在实际应用中,方面级情感分析对于了解用户对特定产品、服务或事件的情感反馈非常有用。
因此,我们的研究重点是提升方面级情感分析的准确性和效率。
为了提升方面级情感分析的效果,本文引入了情感增强双图卷积网络(EAGCN)。
EAGCN是一种基于图卷积网络的模型,在传统的CNN模型的基础上进行改进,通过建模文本中的局部语义信息和全局语义信息,有效地提高了方面级情感分析的性能。
EAGCN模型主要包括两个关键组件:局部语义图卷积和全局语义图卷积。
局部语义图卷积用于捕捉句子和方面之间的局部关系,通过对句子和方面之间的共现矩阵进行卷积操作,将局部语义信息融合到方面的表示中。
全局语义图卷积则旨在捕捉句子和方面之间的全局关系,它通过计算句子和方面之间的相似性矩阵,并通过图卷积操作将全局语义信息融合到方面的表示中。
具体来说,局部语义图卷积的过程如下:首先,将文本中的句子和方面转化为词向量表示,然后计算句子和方面之间的共现矩阵。
接下来,利用共现矩阵构建一个无向图,其中句子和方面分别表示为图的节点,共现关系表示为图的边。
然后,通过对图进行多层卷积操作,逐步将局部语义信息传递到方面的表示中。
“深度学习”计算词和句子的语义相似度及应用深度学习技术在自然语言处理领域中的应用日益广泛,其中之一便是计算词和句子的语义相似度。
通过深度学习算法,我们可以更准确地理解句子或词语的语义,并将其应用到机器翻译、情感分析、问答系统等方面。
本文将从深度学习计算词和句子的语义相似度的原理、技术和应用进行详细介绍。
深度学习是一种机器学习技术,通过多层次的神经网络模拟人脑的结构,可以更好地处理自然语言中的复杂特征和规律。
在计算词和句子的语义相似度中,深度学习技术可以通过训练模型来学习词汇和句子的语义信息,从而实现语义相似度的计算。
深度学习计算词和句子的语义相似度的原理主要包括以下几个方面:1. 词向量表示:深度学习中常用的词向量表示方法包括word2vec、GloVe等。
它们通过将词汇映射到高维空间中的向量表示,实现了对词汇语义的抽象和表示。
在训练过程中,相似语境中的词汇会被映射到相邻的向量空间中,从而实现了对词汇语义相似度的计算。
2. 句子表示:除了词向量表示外,深度学习还可以通过循环神经网络(RNN)、长短时记忆网络(LSTM)、注意力机制等方法来对句子进行表示。
这些方法可以将句子转化为固定维度的向量表示,从而实现了对句子语义的抽象和表示。
3. 神经网络模型:深度学习可以通过神经网络模型来学习词汇和句子之间的语义关系。
通过构建Siamese网络或孪生网络,可以学习词汇或句子的相似度,并基于此进行语义相似度的计算。
以上原理为深度学习计算词和句子的语义相似度提供了技术支持,通过训练模型可以实现对词汇和句子语义的理解和抽象,从而实现语义相似度的计算。
深度学习计算词和句子的语义相似度涉及到多种技术和方法,包括词向量表示、句子表示、神经网络模型等。
下面将分别介绍这些技术和方法的应用。
1. 机器翻译:在机器翻译中,深度学习可以通过计算源语言和目标语言之间的词或句子的语义相似度来改善翻译的质量。
通过学习源语言和目标语言之间的语义关系,可以更准确地进行句子的转换和翻译。
bisenet详解在计算机视觉领域,语义分割是一项重要任务,其目标是将图像中的每个像素分配给特定的语义类别。
为了实现准确而高效的语义分割,研究者们提出了各种不同的模型和算法。
其中,BiSeNet(全称为Bilateral Segmentation Network)是一种基于双流结构的语义分割网络,具有出色的性能和有效的计算效率。
BiSeNet的设计理念是将图像分割任务分为两个子任务:全局上下文理解和局部细节分割。
通过将这两个子任务相结合,BiSeNet提供了高质量的语义分割结果。
接下来,我们将详细探讨BiSeNet的架构和其关键特性。
1. BiSeNet的网络架构BiSeNet的网络架构由两个分支组成:一个全局分支和一个局部分支。
全局分支负责捕捉整个图像的全局上下文信息,而局部分支则专注于提取图像的细节信息。
全局分支由一个骨干网络和一个空洞空间金字塔模块(ASPP)组成。
骨干网络通常采用轻量级的卷积神经网络,如ResNet-18。
ASPP模块包括多个并行的空洞卷积层,每个层都有不同的采样率,以捕捉不同尺度的上下文信息。
局部分支由两个并行的卷积层和一个特征重插值模块组成。
这两个卷积层分别用于提取低级和中级特征,并将它们与全局分支的特征进行融合。
然后,特征重插值模块将融合后的特征映射上采样到与输入图像相同的尺寸。
通过综合全局分支和局部分支的特征,BiSeNet能够在保留图像全局上下文信息的同时,提取丰富的局部细节信息,从而实现精确的语义分割。
2. BiSeNet的关键特性BiSeNet的设计充分考虑了计算效率和实际应用需求,在实现卓越性能的同时,保持了较低的计算复杂度。
其关键特性包括:2.1 双流结构BiSeNet的双流结构使其能够充分利用全局上下文和局部细节信息。
全局分支的ASPP模块能够捕捉图像的全局信息,而局部分支能够提取图像的细节信息。
通过将这两个分支的特征进行融合,BiSeNet能够实现更准确的语义分割。
第33卷第1期计算机辅助设计与图形学学报Vol.33No.1 2021年1月Journal of Computer-Aided Design & Computer Graphics Jan. 2021结合全局和局部特征的BiGRU-RA图像中文描述模型邓珍荣1,2), 张永林2), 杨睿2), 蓝如师1,2)*, 黄文明1,2), 罗笑南1,2)1) (广西图像图形与智能处理重点实验室桂林541004)2) (桂林电子科技大学计算机与信息安全学院桂林541004)(**************.cn)摘要: 针对目前基于全局特征的图像描述模型存在细节语义信息不足的问题, 提出结合全局和局部特征的图像中文描述模型. 该模型采用编码器-解码器框架, 在编码阶段, 分别使用残差网络(residual networks, ResNet)和Faster R-CNN提取图像的全局特征和局部特征, 提高模型对不同尺度图像特征的利用. 采用嵌入了残差连接结构和视觉注意力结构的双向门控循环单元(bi-directional gated recurrent unit, BiGRU)作为解码器(BiGRU with residual connection and attention, BiGRU-RA). 模型可以自适应分配图像特征和文本权重, 改善图像特征区域和上下文信息的映射关系.此外, 加入基于强化学习的策略梯度对模型的损失函数进行改进, 直接对评价指标CIDEr进行优化. 在AI Challenger 全球挑战赛图像中文描述数据集上进行训练和实验, 实验结果表明, 该模型获得更高的评分, 生成的描述语句更准确、更详细.关键词: 图像描述; 双向门控循环单元; 视觉注意力; 强化学习; 残差连接中图法分类号: TP391.41 DOI: 10.3724/SP.J.1089.2021.18262BiGRU-RA Model for Image Chinese Captioning via Global and Local FeaturesDeng Zhenrong1,2), Zhang Yonglin2), Yang Rui2), Lan Rushi1,2)*, Huang Wenming1,2), and Luo Xiaonan1,2)1) (Guangxi Key Laboratory of Image and Graphic Intelligent Processing,Guilin 541004)2) (School of Computer and Information Security, Guilin University of Electronic Technology,Guilin 541004)Abstract: To address the problem of insufficient detailed semantic information in current global features-based image captioning models, an image Chinese captioning model combining global and local features is proposed.The proposed model adopts the encoder-decoder framework. In the coding stage, the residual networks (Res-Net) and Faster R-CNN are used to extract the global and local features of images respectively, improving the model s utilization of image features at different scales. A bi-directional gated recurrent unit (BiGRU) with embedded visual attention structure and residual connection structure is applied as the decoder (BiGRU with residual connection and attention, BiGRU-RA). The model can adaptively allocate image features and text weights, and improve the mapping relationship between image feature regions and context information. Addi-tionally, the reinforcement learning-based policy gradient is added to improve the loss function of the model and optimize the evaluation criteria CIDEr directly. The training and experiments are conducted on the Chinese captioning dataset of AI challenger. The comparative results show that the proposed model obtained better收稿日期: 2020-03-04; 修回日期: 2020-09-30. 基金项目: 国家自然科学基金(61772149, 6202780103, 61762028); 国家重点研发计划(2018AAA0100300); 广西科技计划(AB20238013, ZY20198016,2019GXNSFAA245014, AD18281079); 广西图像图形与智能处理重点实验室项目(GIIP2003); 桂林电子科技大学研究生教育创新计划(2020YCXS049). 邓珍荣(1977—), 女, 硕士, 研究员, 硕士生导师, 主要研究方向为图像处理; 张永林(1995—), 男, 硕士研究生, 主要研究方向为图像处理、深度学习; 杨睿(1996—), 女, 硕士研究生, 主要研究方向为计算机视觉; 蓝如师(1986—), 男, 博士, 副教授, 硕士生导师, 论文通讯作者, 主要研究方向为图像处理、机器学习; 黄文明(1963—), 男, 教授, 硕士生导师, 主要研究方向为大数据处理、图像处理; 罗笑南(1963—), 男, 博士, 教授, 博士生导师, 主要研究方向为图形学、数字图像处理.50 计算机辅助设计与图形学学报第33卷scores and the generated caption are more accurate and detailed.Key words: image captioning; bi-directional gated recurrent unit; visual attention; reinforcement learning; resid-ual connection随着智能拍照设备的普及和信息技术的高速发展, 图像成为人们获取信息的重要途径. 图像中包含众多信息, 能够形象生动地表达出信息的内容. 而面对大量的图像, 如何让计算机代替人工理解图像信息, 已成为计算机视觉领域的研究热点. 图像的文本描述是融合计算机视觉和自然语言处理领域的交叉任务, 能够完成从图像到文本的多模态转换[1]. 通过对图像进行语义分析和理解, 得到图像中各个实体对象信息和实体对象之间的联系, 最终生成准确且符合人类语言习惯的描述语句. 图像描述技术具有巨大的应用前景, 在图像检索[2]、人机交互系统、图像视频标注、辅助教育和自动驾驶等多方面具有重要的实用价值.尽管图像描述任务十分具有挑战性, 但仍然引起了国内外学者的广泛关注. 根据关键技术和文本描述方法的不同, 图像文本描述方法一般分为3类: 基于模板匹配的方法、基于检索的方法和基于深度学习的方法[3-6]. (1) 基于模板匹配的方法包括对象检测和描述生成2个过程. 其在对象检测过程通过目标检测和属性特征检测算法识别出图像中包含的实体对象和对象之间的属性关系等; 在描述生成过程将识别的单词填入场景模板的相应位置, 形成该图像对应的描述语句. 该方法的不足之处是局限于固定模板, 生成的文本描述句式结构过于单一. (2) 基于检索的方法首先通过检索数据库中与输入图像相似的图像集, 然后通过分析和重组该图像集的文本描述来形成输入图像的描述语句; 但其描述结果依赖于句子池. (3) 基于深度学习的方法将机器翻译任务中的编解码思想应用到图像文本描述任务中, 主要通过深度卷积神经网络对图像进行编码, 利用循环神经网络建立语言模型, 将图像信息和文本信息映射到循环神经网络中, 进而利用图像信息指导描述语句的生成. 该方法能够明确地学习图像与文本之间的对应关系, 生成的描述语句具有多样性, 可以广泛适用于任何场景.虽然基于深度学习的图像描述方法已取得非常好的结果, 但仍存在以下问题. (1) 图像特征提取不够充分, 容易导致解码模型忽略图像的细节信息; 传统的语言模型往往只考虑正向的上下文信息, 而序列的生成同样依赖反向的上下文信息, 使得生成的描述文本不够详细. (2) 目前的图像描述任务主要是针对英文数据集, 基于中文数据集的图像描述任务还没有取得很大的进展.本文针对上述图像描述模型存在的细节语义信息利用不足、描述文本不够细致问题, 提出结合全局和局部特征的BiGRU-RA图像中文描述模型, 其采用编码器-解码器框架. 在编码阶段, 采用ResNet-101提取图像的全局特征, 采用Faster R-CNN 提取图像的局部特征. 为了增强模型对上下文信息的利用, 避免神经网络随着深度的增加引发的退化问题, 采用基于残差连接的双向门控循环单元(bi-directional gated recurrent unit, BiGRU)作为解码器. 在解码器中引入视觉注意力机制, 通过自适应分配图像特征和文本权重改善图像特征区域和上下文信息的映射关系. 此外, 加入基于强化学习的策略梯度对模型的损失函数进行改进, 直接对评价指标进行优化.1相关工作随着深度学习的发展, 基于深度学习的方法逐渐成为图像描述任务的主流方法, 不断推动图像描述生成技术的发展. Mao等[6]提出首个基于神经网络的多模态图像描述生成模型, 其使用卷积神经网络(convolutional neural networks, CNN)对图像建模, 使用循环神经网络(recurrent neural net-works, RNN)对描述文本建模, 并使用多模态空间为图像和文本建立映射关系. Vinyals等[7]率先将编码器-解码器框架应用于图像描述任务, 通过预训练好的CNN将图像编码成能够表征图像内容的特征, 然后结合图像对应的训练文本提供的语义, 输入到RNN将该特征解码成句子. Fang等[8]结合深度多模相似网络和最大熵语言模型生成图像的描述语句, 在检测出图像中的属性信息后, 利用属性信息替代原始图像信息输入到长短期记忆网络(long short-term memory, LSTM)语言模型生成描述语句. Xu等[9]在图像上引入注意力机制, 将上下文信息引入编码器-解码器框架, 在编码阶段, 使用保留图像空间信息的较低层的卷积层作为图像特第1期邓珍荣, 等: 结合全局和局部特征的BiGRU-RA 图像中文描述模型 51征, 然后结合注意力机制将其用于解码阶段. 该方法可有效地提取图像的视觉信息, 以生成更加准确的描述语句. Xu 等[10]利用语义信息指导LSTM 在各个时刻生成描述文本. Yao 等[11]通过多实例学习的方法对图像属性信息进行提取, 研究图像属性特征对描述结果的影响. Wu 等[12]在编码器-解码器框架中引入高级语义属性, 把原问题转换为多标签分类问题, 先利用VggNet 进行多标签的预训练, 再通过CNN 产生多标签的预测结果, 将预测结果经过最大池化处理后输入到LSTM 产生描述. Jiang 等[13]通过添加称为引导网络的组件来对编码器-解码器框架进行扩展, 引导网络对输入图像的属性进行建模, 并利用其在每个时间步的输出构成解码器的输入. 考虑原始注意力机制强制将每一个单词对应到图像的某一区域, 而某些单词没有对应图像的意义, Lu 等[14]提出哨兵机制, 在生成每个单词时先计算这个单词是属于视觉词还是上下文词的概率, 即与图像的关联性, 再根据权重计算总体的特征. Chen 等[15]提出一种融合空间和通道注意的模型, 在多层特征图中动态地调制句子生成上下文, 对视觉注意的位置和注意通道进行编码. Dai 等[16]利用对比学习的方法构造损失函数, 利用负样本来参与训练, 以提高模型的独特性. Anderson 等[17]提出一种自上而下与自下而上相结合的注意力机制, 前者用于提取图像区域特征; 后者用于学习特征所对应的权重. 郭淑涛等[18]提出一种面向中文数据集的多模态神经网络模型, 采用深度神经网络和注意力机制提取图像特征, 并在RNN 中引入记忆力助手引导句子的生成.2 本文模型本文模型采用编码器-解码器框架, 由图像特征提取和语言生成2部分组成, 如图1所示. 编码器的主要任务是提取输入图像的特征并进行编码, 捕获图像内容中的对象主体以及属性关系, 其分别使用ResNet [19]和Faster R-CNN [20]提取图像的全局特征和局部特征. 解码器由带有残差连接的BiGRU 网络和视觉注意力结构(图1中的ATT)组成, 其主要任务是对图像特征进行解码, 并将图像特征和输入的词嵌入向量建立映射关系, 输出词典中词的概率分布. 本文将编码器提取到的全局图像特征和局部图像特征分别输入视觉注意力结构和BiGRU 网络, 得到输入图像的上下文信息, 通过解码器计算每个词的概率, 最终生成描述语句.图1 本文模型总体框架2.1 编码器编码器由ResNet 和Faster R-CNN 组成. ResNet 通过引入残差网络结构, 可以有效地避免梯度消失和网络退化问题. 具体做法是在输入和输出之间采用如图2a 所示的快捷连接(shortcut). 通过增加这个恒等映射连接, 使原本需要学习的函数()F x 转换为()F x x . 该做法不会增加网络的参数和计算量, 反而能够提升模型的训练速度和训练效果. 为了降低参数的数目, ResNet 内部采用如图2b 所示的瓶颈层(bottleneck)设计. 第1个图2 快捷连接和瓶颈层设计52计算机辅助设计与图形学学报 第33卷11⨯的卷积把256维通道降到64维, 然后通过下一个11⨯卷积恢复为256维.本文使用预训练好的ResNet-101模型来提取图像的全局特征. 网络共有100个卷积层和1个全连接层, 卷积层被分为5组, 卷积核的大小分别为77⨯,11⨯和33⨯. 为了得到全局的图像特征图,把最后一层全连接层去掉. 第1组卷积的输入大小为224224⨯, 输出大小为77⨯, 共有2 048维. 图像经过ResNet-101后得到的全局特征可表示为g V .Faster R-CNN 常被用于目标检测任务中, 通过在深度神经网络中引入区域建议网络(regionproposal networks, RPN), 以提高目标检测准确率. 采用预训练好的Faster R-CNN 提取图像的局部特征, 通过RPN 找到感兴趣的区域(region of interest,RoI), 从而得到包含图像视觉属性的局部特征. Faster R-CNN 的结构如图3所示, 图像输入卷积层中进行特征提取, 得到图像的特征图, 然后利用RPN 生成候选区域, 这一层利用Softmax 来确定当前锚点是前景还是背景, 再通过边界框回归修正锚点, 从而得到精确的候选区域. RoI 池化层通过收集之前的特征图和候选区域来得到候选特征图, 最后的分类层将RoI 池化层形成固定大小的特征图进行全连接操作, 通过Softmax 进行分类. 同时, 利用1L 损失完成边界框回归操作, 以获得物体的精确位置.图3 Faster R-CNN 结构为得到图像的局部特征, 本文将Faster R-CNN 的分类层去掉, 直接把候选特征图作为局部特征l V , 提取图像局部特征的过程如图4所示. 首先将图像输入卷积层中得到卷积特征图, 然后经过RPN得到特征图对应的推荐窗口, 再对推荐窗口进行RoI 池化操作, 利用双线性插值算法对特征图进行裁剪, 最后得到固定尺寸的特征图作为局部特征.图4 图像局部特征提取示意图2.2 GRU 网络门控循环单元(gated recurrent unit, GRU)[21]网络是LSTM [22]的一种变体, 可以解决RNN 中的长期依赖问题, 对长序列具有很好的学习能力. GRU 在保持了LSTM 的效果同时又使结构更加简单, 因此在训练过程中, GRU 的参数更少, 收敛速度更快. GRU 的结构如图5所示, GRU 使用门控机制来跟踪序列的状态, 它有重置门和更新门2种类型. 重置门用来控制忽略上一时刻的状态信息的程度, 更新门用来控制上一时刻的状态信息被输入到当前状态中的程度. 在t 时刻, GRU 的计算过程为1([,])t z t t z h σ-=⋅W x , 1([,])t r t t r h σ-=⋅W x , 1tanh([,])t t t t h r h -=⋅*W x ,1(1)t t t t th z h z h -=-*+* . 其中, t z 表示更新门; ()σ⋅表示Sigmoid 函数; t r 表示重置门; t h 表示候选隐藏层; z W ,r W ,W 是需要学习的权重矩阵; *表示哈达玛积.图5 GRU 内部结构在GRU 对文本序列建模时, 每个t 时刻的隐藏状态只能正向读取上下文信息, 无法反向读取;BiGRU 则可以利用并行通道, 同时读取前后方向的上下文信息. BiGRU 由2个方向相反的单向GRU 组成, 如图6所示. 用1h 和2h 分别表示前向和后向GRU 在t 时刻隐藏状态的输出, 则双向GRU 隐藏状态的输出可表示为12[,]h h =h .第1期邓珍荣, 等: 结合全局和局部特征的BiGRU-RA 图像中文描述模型53图6 BiGRU 网络结构2.3 视觉注意力机制注意力机制的本质作用是将图像的上下文信息与图像的不同特征区域做映射, 根据注意力得分来分配不同的权重, 使上下文信息可以对应到相应的图像特征区域. 本文采用的视觉注意力机制属于自适应注意力, 在解码时可以自适应地分配图像特征权重和文本权重, 指导模型在生成描述文本时是依赖视觉特征还是文本信息.视觉注意力结构如图7所示. 其中, t s =tanh()t t g m 是一个视觉开关, 它是从GRU 的记忆单元中提取得到的. 定义11()t x t h t g h σ-=+W x W 为GRU 记忆单元的门, t x 表示t 时刻输入GRU 的词向量; t m 表示GRU 记忆单元; x W 和h W 为模型需要学习的参数权重.图7 视觉注意力结构通过视觉注意力生成的图像信息向量可表示为1a g (,)t t f V h =c . 其中, a f 表示注意力机制函数;g V 表示通过ResNet 提取到的全局图像特征; 1t h 表示t 时刻GRU 隐藏状态的输出. 通过融合图像特征g V 和1t h 可得到当前时刻的注意力分布, 原始注意力权重和归一化后的注意力权重分别为g a T 1g tanh()t h V f t V h =+z W W W ,Softmax ()t t f =z α.t c 可进一步表示为771t ti gi i V ⨯==∑c α. 通过视觉注意力结构生成的上下文向量可表示为ˆ(1)t t t t t βs β=+-cc . 其中, []T 1tanh(),0,1.a t h s t f t t βs h β=+∈W W W2.4 BiGRU-RA 解码器为了增强图像特征与描述文本之间的映射关系, 充分利用上下文信息, 提出一种嵌入残差连接结构和视觉注意力结构的双向门控循环单元解码器(BiGRU with residual connection and attention, BiGRU-RA). 通过视觉注意力结构, 使模型根据注意力得分自动分配图像权重和文本权重, 更加合理地预测当前词. 加入残差连接结构的目的是降低模型的训练难度并避免信息在深度传播时部分信息丢失.如图8所示, 全局图像特征g V 输入到视觉注意力结构, 局部图像特征l V 和词向量t x 输入到第1层GRU 中. 局部特征包含有图像属性信息, 使得模型能够关注到图像中更多的细节信息. 在第2层GRU 间加入了残差连接, 最后通过Softmax 层得到生成词的概率分布2Softmax ()t p t r t p f h r =+W W . 其中, 1112ˆˆ([;])[;]t r t t t t r f h h =+W cW c 表示残差连接结构的输出; r f 表示ReLU 激活函数; p W ,r W ,1W ,2W 表示模型需要学习的权重参数.图8 BiGRU-RA 解码器结构2.5 损失函数优化传统的图像描述模型在训练时用的是交叉熵损失函数, 在评价时用的是CIDEr [23]等评价指标, 存在不对应的问题. 本文加入基于强化学习的策54计算机辅助设计与图形学学报 第33卷略梯度对模型的损失函数进行改进, 直接对评价指标进行优化. 把描述文本生成当作强化学习的过程, 智能体为GRU 网络, 环境为生成词和图像特征, 模型的参数θ定义了一个策略p θ, 根据策略会产生相应的动作, 即生成预测词. 在动作结束后, 模型就会更新GRU 的细胞状态和隐藏状态, 智能体通过环境的变化来获得奖励, 该奖励设置为CIDEr 的得分. 通过最小化奖励的负期望来选择动作, 此时, 损失函数定义为[()log ()]s w p s p s L Εr w w θθθθθ∇=-∇ .其中, s w 表示生成的句子; r 表示CIDEr 得分. 为了加快模型的收敛, 加入一个基线值, 并在采样句子时采用集束搜索的方式, 即[(())log ()]s w p s p L Εr w b w θθθθθθ∇=--∇ .其中, ˆ()b r w=; ˆw 表示通过集束搜索得到的句子. 3 实验结果与分析3.1 数据集和实验环境本文的实验数据集为AI Challenger 全球挑战赛图像中文描述数据集. 该数据集的图像包含丰富的场景, 是目前规模最大的中文图像描述数据集. 数据集包含30万幅图像, 每幅图像对应有5句中文描述, 一共有150万句中文描述. 其中, 训练集有21万幅, 验证集有3万幅, 测试集有6万幅.本文实验环境基于Pytorch 深度学习框架, Ubuntu 14.04.1操作系统, Intel(R) Xeon(R) E5-2698 v4 @ 2.20 GHz CPU, 512 GB 内存, NVIDIA Tesla P100-SXM2 16 GB 显卡. 3.2 模型分析及参数设置本文模型采用编码器-解码器框架, 在编码阶段, 通过ResNet-101的最后一层卷积层提取图像的全局特征, 图像通过100个卷积层后, 输出图像特征大小为77⨯, 共有2 048维. 通过Faster R-CNN 提取图像的局部特征. 具体做法如下. 先将图像输入到卷积层中得到卷积特征图, 然后经过RPN 得到特征图对应的推荐窗口; 再对推荐窗口进行RoI 池化操作, 得到固定尺寸的特征图作为图像的局部特征. 对于中文的描述语句, 本文采用jieba 分词对文本进行分词, 通过逐个对比文本和词库中出现的字词实现分词, 分词效果比较稳定, 避免了中文语句的语义歧义带来的不确定性. 然后统计出高频词, 设置句子最大长度为40, 用“start”表示句子开始, “end”表示句子结束, “un-known”表示未知词; 最后利用word2vec 对分词进行编码. 解码器由带有残差连接的BiGRU 网络和视觉注意力结构组成. 图像的全局特征输入到视觉注意力结构中, 由注意力自动分配特征权重. 图像的局部特征和文本向量输入到第1层GRU 网络中, 使模型关注更多的视觉属性信息. 通过残差连接, 减少模型的参数计算量, 避免信息丢失. 在模型训练过程中,GRU 隐藏神经元个数设置为512, 学习率设置为10−4. 同时采用dropout 方法防止网络过拟合, 其值设置为0.5. 批大小设置为64, epoch 设置为10k. 解码过程中采用Adam 算法进行优化; 模型训练完成后, 加入策略梯度优化损失函数对模型进行微调, 从而得到最终的图像中文描述模型.3.3 评价方法图像描述的评价指标主要有BLEU [24], METEOR [25], ROUGE [26]和CIDEr. BLEU 通过计算预测语句和参考语句之间N 元词共现的程度, 衡量这2个句子的相似程度. 加权平均后的相似度得分计算公式为1(,)(,)exp ln (,)N N n n n B C S b C S C C S ω=⎛⎫= ⎪⎝⎭∑. 其中,min((),max ())(,)()k i j m k ij ikn k i ikh c h s C C S h c ∈=∑∑∑∑表示准确度指标, 与句子的长度有关; ()k i h c 表示N 元词在预测语句中出现的次数; ()k ij h s 表示N元词在参考语句中出现的次数; (,)b C S =11,>e,s cc sl l c sl l l l -⎧⎪⎨⎪⎩≤表示惩罚项; c l 表示预测语句ic 的长度; s l 表示参考语句ij s 的长度.METEOR 在计算2个句子相似程度的同时, 考虑了同义词等相关信息, 使用同义词库作为辅助信息, 计算生成描述句在参考描述句上的准确率和召回率的调和平均. METEOR 评价得分计算公式为pen sc al ore t e n y m a (1)M b F =-. 其中,h penalty c b m θγ⎛⎫= ⎪⎝⎭表示惩罚系数; mean F =(1)PRP Rαα+-表示准确率和召回率的调和平均;α, γ和θ均为用于评价的默认参数; m 表示预先给定的一组校准; h c 表示语句中连续有序的块;第1期邓珍荣, 等: 结合全局和局部特征的BiGRU-RA 图像中文描述模型 55()k i kmP h c =∑和()k ij kmR h s =∑分别表示准确率和召回率.ROUGE 源自文本摘要, 是基于最长公共子序列(longest common subsequence, LCS)的一种测量方法. ROUGE 评价得分计算公式为2score 2(1)(,)i ij RP R c s R Pββ+=+.其中, (,)maxi ij jijl c s R s =和(,)maxi ij jil c s P c =分别表示召回率和准确率; (,)i ij l c s 表示预测语句和参考语句的最长公共子序列长度; l l R P β=表示权重系数, 当β很大时, 评价得分更加关注召回率; i c 为预测语句; ij s 为参考语句.CIDEr 通过对每个N 元组进行词频-逆文本频率(term frequency–inverse document frequency,TF-IDF)权重计算, 以此来衡量图像描述的一致性. CIDEr 是为图像描述任务而定制的, 其计算公式为1(,)(,)Ni i n n i i n C c s C c s ω==∑.其中, 22()()1()()n n i ij n nn j i ij c s C m c s ⋅=⋅∑g g g g 表示相似度得分; i s 表示参考语句集合; i c 为预测语句; ij s 为参考语句; ()ni c g 和()nij s g 为TF-IDF 向量.3.4 实验对比为了验证模型的有效性, 本文在中文数据集上进行对比实验. 实验分为2个部分: 一个是在基准模型上加入不同策略的得分对比; 另一个是所提模型与当前主流模型的得分对比.表1所示为在基准模型上加入不同策略的实验对比. 其中, Base 是基准模型, 即结合全局特征和视觉注意力的BiGRU 模型; Base_L 表示基准模型加入局部特征; Base_R 表示基准模型加入残差连接; Base_P 表示基准模型加入策略梯度进行优化; Base_LR 表示基准模型加入局部特征和残差连接; Base_LRP 表示基准模型加入局部特征、残差连接和策略梯度. 通过实验对比结果可知, 在基准模型中分别加入3种策略后, 在BLEU 和CIDEr 指标上的得分均有显著的提高. 其中, Base_LRP 模型表现最好, 将其作为本文最终的模型.表1 不同策略的评分比较策略 局部特征残差连接策略梯度BLEU-1 BLEU-4CIDEr Base × × × 0.733 0.463 1.837 Base_L √ × × 0.745 0.468 1.840 Base_R × √ × 0.751 0.476 1.857 Base_P × × √ 0.742 0.471 1.864 Base_LR √ √ × 0.787 0.482 1.891 Base_LRP√√√0.7910.4871.920注. 粗体表示最高评分.表2所示为本文模型与当前主流模型的实验对比. 其中, NIC [6]使用GoogLeNet 提取图像特征, 使用LSTM 作为语言生成模型; Adaptive [13]在LSTM 解码器中使用自适应的注意力机制; LSTM-A [10]使用多实例学习提取图像属性特征, 并把属性特征作为LSTM 的原始输入; Up-Down [17]使用Faster R-CNN 提取图像特征, 使用2层LSTM 作为语言模型, 并引入自上而下的注意力;ILAM [18]采用Incepresv2作为编码器, 采用LSTM 作为解码器, 并加入注意力机制和记忆助手, 在图像中文数据集中进行实验. BiGRU-RA 表示本文模型. 其中, NIC, Adaptive, LSTM-A, Up-Down 模型在原始文献中均使用英文数据集. 英文和中文描述的主要区别在于语言的语法不同. 英文一句话中每个单词用空格隔开, 英文常用的分词方法为word2vec, 而中文在分词的时候常常以一个词组为单位分开. 在对比实验中, 以上模型均采用同一个中文数据集, 采用jieba 分词工具对文本进行切分. 在相同的环境下进行训练, 得到实验结果.表2 不同模型的评分比较模型 METEOR [25]ROUGE_L CIDEr NIC [6] 0.380 0.612 1.603 Adaptive [13] 0.392 0.631 1.735 LSTM-A [10] 0.396 0.673 1.810 Up-Down [17] 0.407 0.701 1.852 ILAM [18] 0.412 0.688 1.848 BiGRU-RA0.4130.7091.920注. 粗体表示最高评分.3.5 实验分析由表1可知, 模型中加入局部特征、残差连接和策略梯度后, 得分均有不同程度提升. 由表2可知, 本文模型的各项得分得到了提升, 其中METEOR 得分为0.413, ROUGE_L 得分为0.709, CIDEr 得分为1.920. 与Adaptive 模型相比, 本文所提模型的。
自然语言处理中常见的语义相似度计算方法自然语言处理(Natural Language Processing,NLP)是人工智能领域中的一个重要分支,其主要研究内容是如何让计算机能够理解、分析和生成人类语言。
在NLP中,语义相似度计算是一个重要的问题,它涉及到词语之间的语义关联程度,对于文本相似度计算、信息检索、机器翻译等任务都具有重要的意义。
在NLP中,常见的语义相似度计算方法有很多种,其中比较常用的包括词向量模型、基于知识图谱的方法、基于规则的方法等。
下面将针对这些方法进行介绍和分析。
词向量模型是目前NLP领域应用最为广泛的语义相似度计算方法之一。
它的基本思想是将词语表示为一个向量,使得在向量空间中相似的词语在语义上也是相似的。
词向量模型可以通过无监督学习的方式从大规模语料库中学习得到,其中比较有代表性的模型包括Word2Vec、GloVe和FastText等。
这些模型在训练过程中可以捕捉到词语之间的语义关联信息,因此在语义相似度计算中取得了较好的效果。
除了词向量模型,基于知识图谱的方法也是一种常见的语义相似度计算方法。
知识图谱是一种用来表示实体和实体之间关系的图结构,其中的实体可以是词语、短语或句子等。
通过利用知识图谱中实体之间的关系信息,可以计算出它们之间的语义相似度。
基于知识图谱的方法通常可以充分利用知识图谱中的丰富信息,对于一些具有明确语义关联的实体可以取得较好的效果。
不过,这种方法也面临着知识图谱的不完备性和稀疏性等问题,因此在实际应用中需要进行一定的改进和优化。
此外,基于规则的方法也是一种常见的语义相似度计算方法。
它的基本思想是通过一些规则或者模型来捕捉词语之间的语义关联信息。
这种方法通常需要人工设计一些规则或者模型来进行计算,因此对于一些特定的任务可以取得比较好的效果。
不过,基于规则的方法也面临着规则编写的难度和规模的限制等问题,因此在实际应用中需要进行一定的折衷和平衡。
综上所述,自然语言处理中常见的语义相似度计算方法包括词向量模型、基于知识图谱的方法和基于规则的方法等。
“深度学习”计算词和句子的语义相似度及应用随着互联网数据的爆炸式增长,语义计算在信息处理和信息检索中的需求越来越大。
其中,语义相似度计算是计算机自然语言处理的重要应用之一。
语义相似度计算可以帮助机器理解人类语言,实现诸如文本分类、命名实体识别、情感分析、问答系统、机器翻译等自然语言处理的应用。
传统的语义相似度计算方法包括基于词典、基于知识库、基于语法和基于统计等方法,但这些方法在计算语义相似度时存在许多问题,例如处理复杂句子和表达多义词语的语义准确率较低。
为此,深度学习算法被引进用于语义相似度计算任务中。
深度学习算法是一种基于人工神经网络的机器学习方法,它通过在大量标注好的数据上训练模型,学习模式并自动地提取特征来处理复杂的自然语言处理任务。
深度学习算法在语义相似度计算中的应用主要包括两种:基于单个句子的语义相似度计算和基于两个句子的语义相似度计算。
基于单个句子的语义相似度计算使用卷积神经网络(CNN)或循环神经网络(RNN)模型,将句子表示为向量,然后计算向量之间的相似度。
例如,利用CNN模型将输入的句子表示为向量,然后计算向量之间的相似度,可用于句子分类和情感分析等任务。
而利用RNN模型可以处理比较长的序列输入,可用于文本分类和自然语言生成等任务,如生成与输入句子相似的句子。
基于两个句子的语义相似度计算通常使用Siamese神经网络,该神经网络有两个完全相同的子网络用于处理两个句子的表示。
在两个句子的表示之间使用距离度量函数,例如余弦相似度或曼哈顿距离计算两个句子的相似度。
这种方法可以用于文本匹配和问答系统等任务。
总之,深度学习算法在自然语言处理中有着广泛的应用前景,尤其在语义相似度计算方面。
随着数据集的不断增大和深度学习算法的不断改进,我们相信深度学习算法本身和基于深度学习算法的自然语言处理方法都将得到进一步的改善和完善。
第33卷第6期2019年6月Vol.33,No.6June,2019中文信息学报JOURNAL OF CHINESE INFORMATION PROCESSING文章编号:1003-0077(2019)06-0018-09基于局部和全局语义融合的跨语言句子语义相似度计算模型李霞刘承标2,章友豪2,蒋盛益3(1.广州市非通用语种智能处理重点实验室.广东广州510006;2.广东外语外贸大学信息科学与技术学院.广东广州510006)摘要:跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。
近年来.前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息.缺少对句子中远距离单词之间语义相关信息的获取。
该文提出一种融合门控卷积神经网络和自注意力机制的神经网络结构,用于获取跨语言文本句子中的局部和全局语义相关关系,从而得到文本的综合语义表示。
在SemEval-2017多个数据集上的实验结果表明.该文提出的模型能够从多个方面捕捉句子间的语义相似性.结果优于基准方法中基于纯神经网络的模型方法。
关键词:跨语言文本句子语义相似度;自注意力机制;门控卷积神经网络中图分类号:TP391文献标识码:ACross-Lingual Semantic Sentence Similarity ModelingBased on Local and Global Semantic FusionLI Xia1'2,LIU Chengbiao2,ZHANG Youhao2,JIANG Shengy严(1.Eastern Language Processing Center・Guangzhou,Guangdong510006,China; 2.School of InformationScience and Technology,Guangdong University of Foreign Studies,Guangzhou.Guangdong510006・China) Abstract:Cross-lingual semantic textual similarity(STS)is to measure the degree of semantic similarity between texts in different languages.Most current neural network-based models use convolutional neural network to capture the local in f ormati o n of lhe text.without covering the semantic inf o rmation between long-distance words in sentences.In this paper,we propose a neural network structure that combines gated convolutional neural networks and self-attention mechanism to obtain the local and global semantic correlations of cross-lingual text sentences»thus obtaining a better semantic representation of the sentences.The experimental results on several datasets of SemEval-2017show that our model can capture the semantic similarity between sentences from different aspects,and outperforms the baselines based solely on neural network model.Keywords:cross-li ng u al sema n tic sente n ee similarity;self-attention mechanism;gated convoluti o nal neural network()引言跨语言句子语义相似度是指计算不同语言句子之间的语义相似程度.它被广泛应用于机器翻译、平行语料库构建、跨语言文本推荐、跨语言信息检索等领域。
目前,单语言(尤其以英语为代表的单语言)句子语义相似度度量取得了很大的成功.然而,由于缺乏足够的训练语料.跨语言句子语义相似度研究还存在诸多挑战:传统的句子语义相似度研究工作主要集中在抽取句子的文本特征来计算句子间的语义相似度。
如传统使用向量空间模型和n-gram特征的语义相似度计算方法、基于句子语法结构特征的方法"切、基于机器翻译的方法以及基于双语词典或平行语料的方法”⑷等。
Tian":和Wu[,6]的工作通过抽取句子之间丰富的文本特征来表示句子之间的语收稿日期:2019^01-11定稿日期:2019-02-22基金项目:国家自然科学基金(61402119,61572145)6期李霞等:基于局部和全局语义融合的跨语言句子语义相似度计算模型19义信息,取得较好的效果.分别在SemEval2017®比赛任务中取得第一名和第二名的成绩。
其中. T i a n等:":使用了句对的匹配特征、基于机器翻译的特征,n-gram重合特征、句子序列特征、句法分析特征、句子对齐特征等丰富的文本特征来表示句子的语义信息。
Wu-,6J的工作则采用了WordNet词典中语义层次树结构中的非重叠信息来计算句子间的语义相似度,并取得了很好的结果。
传统方法使用丰富的文本特征提取句子语义信息从而计算句子之间语义相似度的方法虽然取得了不错的结果,但需要复杂的手工特征抽取。
近年来,基于神经网络模型的跨语言句子语义相似度研究工作在无需传统特征的基础上可以获得较好的句子表示并取得较好的结果"如。
已有基于神经网络模型的跨语言句子语义相似度研究工作中•主要采用的是基于卷积神经网络或递归神经网络模型的方法•如He等-切使用卷积神经网络(convolutional neural network,CNN)获取句子的局部语义信息作为句子的表示,最后计算句子间的相似度分数。
Mueller等卬提出使用LSTM网络(long short term memory, LSTM)[21]学习句子的表示,并通过计算句子向量之间的曼哈顿距离得到句子的整体相似度。
Zhuang 等:⑷使用双向门递归单元(Bidirectional Gated Recurrent Unit,BGRU)琢结合注意力机制对句子生成向量表示,同时结合了平行句对中词对的余弦相似度特征向量作为辅助特征•将句向量和特征向量输入多层感知器得到句子的相似性分数。
已有工作中卷积神经网络可以获得句子的局部信息.但不能较好地获取句子中远距离单词之间的语义相关性。
LSTM网络虽然可以获得句子内一定距离内单词的依赖关系•但是它捕捉的是句子内前后单词之间的序列语义关系。
而在跨语言句子相似度任务中,由于跨语言训练语料的不足•现有工作主要采用的方法是将非英语语言翻译为英语,以英语为中间语言•通过将其他语种翻译为英语,然后计算翻译后英语句对之间的语义相似度作为原始跨语言句对的语义相似度。
由于翻译结果的误差,可能导致翻译结果中单词语序的不对。
例如•例1为SemEval2017数据集Track4a中西班牙语—英语的一个原始跨语言句对和经过机器翻译后的结果句对。
例1原始句对:Spanish(source):Una mujer es un bloque de tofu cortado en cub o s pequenos.English^target):A wo m a n is cutting a block of tofu into small cubes.翻译后句对:English(source):A woman is a block of tofu cut into small cubes.English{target'):A woman is cutting a block of tofu into small cubes.我们可以看到西班牙语翻译为英语后.句子单词的语序发生了错误,A woman在语义上被错误翻译为A woman is...tofu。
如果使用LSTM网络获得句子中长距离关系•可能会因为序列的不正确导致语义上的不正确。
基于以上两点,受已有工作的启发妙皈,本文提出了基于局部信息和全局信息融合的跨语言句子语义相似度计算模型•其主要动机是通过自注意力机制获得句子内的远距离单词之间的语义相关信息,并将句子的平均词向量作为句子的最后一个单词拼接到句子末尾作为初始输入,尽可能获取句子的全局信息。
同时结合门卷控积神经网络获得句子的局部n-grams信息,分别对卷积操作使用最大池化和对自注意力机制操作使用平均池化.并将结果进行拼接后获得句子的最终语义表示。
本文的模型结构如图1所示,在得到两个句子的语义表示后.通过两个语义表示向量的差值和乘积运算获得句子对之间的差异信息和相似信息.最后通过全连接层和softmax函数得到句子对的相似度分数。
本文在SemEval2017和STS Benchmark②两个数据集上进行了实验测试,结果表明本文所提出的模型具有较好的实验结果.获得了在SemEval 2017数据集上无任何特征工程的神经网络模型的最好结果。
1基于门控卷积神经网络和自注意力机制的跨语言文本语义相似度计算模型1.1句子输入编码为了尽可能获得句子的全局信息.本文模型的输入包括两个部分•一部分是原始句子中每个单词的词向量,另一部分是句子中每个单词词向量的平均值。
①http:7//senieval2017/task1/index,php?id= data-and-tools②http:ixa2.si.ehu.es/stswiki index.php ^TSbenchmark20中文信息学报2019年源句目标句图1本文模型结构图设句子最大长度为L.对于输入模型的句子,若句子长度length<L,则用0补齐至长度L,若length〉厶,则舍弃第L个词后面的所有词。
设句子S=[>i,x2,x3,…,xj,其中X,为句子S第i个词的词向量,我们将S中所有词向量求平均值作为其句向量心,并将这两个部分拼接作为句子的初始化表示,即以S'=[xi.x,,x3,x L,xj作为句子的初始化输入编码。