A SURVEY ON RELATION EXTRACTION
- 格式:pdf
- 大小:896.63 KB
- 文档页数:46
Roberta-Relation-Extraction是一种基于深度学习模型的关系抽取方法。
其原理是基于Transformer架构的模型,通过输入文本序列,经过自注意力机制和前馈神经网络的处理,得到每个词的表示向量,然后通过分类器对每个词进行分类,从而识别出实体之间的关系。
具体来说,Roberta-Relation-Extraction模型首先将输入文本序列分为头实体、关系类型和尾实体三个部分。
然后,模型将这三个部分分别输入到自注意力机制中,得到每个词的表示向量。
接着,模型使用前馈神经网络对每个词的表示向量进行处理,得到每个词的分类结果。
最后,模型使用分类器对每个词的分类结果进行判断,从而识别出实体之间的关系。
Roberta-Relation-Extraction模型在训练过程中采用了监督学习和半监督学习两种方式。
对于有标注的数据,模型直接使用标注数据进行训练;对于无标注的数据,模型使用预训练的词向量进行初始化,然后通过迁移学习的方式进行训练。
总之,Roberta-Relation-Extraction是一种基于深度学习模型的关系抽取方法,其原理是通过自注意力机制和前馈神经网络的处理,识别出实体之间的关系。
relation extraction 公式
关系抽取(Relation Extraction)是自然语言处理(NLP)中的一个任务,旨在从文本中识别和提取实体之间的关系。
在关系抽取任务中,可以使用不同的模型和算法进行建模和预测。
以下是一些常见的关系抽取公式和方法:
1. 二分类模型:
a. 特征提取:从文本中提取特征,如词袋模型、词嵌入(Word Embedding)等。
b. 特征表示:将提取的特征转化为数值形式,如使用向量化或编码方法。
c. 建模:使用机器学习算法,如逻辑回归、支持向量机(SVM)或深度学习模型等,对数据进行训练和建模。
d. 预测:基于模型进行预测,判断实体之间是否存在特定关系。
2. 神经网络模型:
a. 序列标注模型:将文本中的实体和关系标记化为序列标签的任务,如使用条件随机场(CRF)或循环神经网络(RNN)进行建模和预测。
b. 卷积神经网络(CNN):通过卷积和池化操作,提取文本特征,并进行关系分类和预测。
c. 长短期记忆(LSTM)或注意力机制:利用LSTM或注意力机制处理文本序列,捕捉重要的语义信息和上下文关系。
3. 远程监督(Distant Supervision):
a. 利用已有的知识库或数据库,将实体和已知的关系对齐。
b. 在文本中基于已有关系对进行标记,通过训练模型来抽取。
⾃然语⾔处理(⼀)关系抽取Relation Extraction信息抽取在⾃然语⾔处理中是⼀个很重要的⼯作,特别在当今信息爆炸的背景下,显得格外的⽣重要。
从海量的⾮结构外的⽂本中抽取出有⽤的信息,并结构化成下游⼯作可⽤的格式,这是信息抽取的存在意义。
信息抽取⼜可分为实体抽取或称命名实体识别,关系抽取以及事件抽取等。
命名实体对应真实世界的实体,⼀般表现为⼀个词或⼀个短语,⽐如曹操,阿⾥巴巴,中国,仙⼈掌等等。
关系则刻画两个或多个命名实体的关系。
⽐如马致远是《天净沙 · 秋思》的作者,那么马致远与《天净沙 · 秋思》的关系即是“创作”(author_of )关系,张三是银⾏员⼯,那么张三与银⾏可以是“所属”(member_of)关系。
关系抽取可分为全局关系抽取与提及关系抽取。
全局关系抽取基于⼀个很⼤的语料库,抽取其中所有关系对,⽽提及关系抽取,则是判断⼀句话中,⼀个实体对是否存在关系,存在哪种关系的⼯作。
关系抽取分两步,⼀步是判断⼀个实体对是否有关第,⽽另⼀步则是判断⼀个有关系的实体对之间的关系属于哪种。
当然这两步可变成⼀步,即把⽆关系当作关系的⼀种(特殊的),来进⾏多类别分类。
在监督学习的模式下,传统的关系分类⽅法为基于特征的⽅法与核⽅法,耗时,费事,准确度不⾼。
远程监督:⼈⼯标注费事耗时还伤钱,2009年Mintz等⼈提出了远程监督⽅法。
远程监督是借助外部知识库为数据提供标签,从⽽省去⼈⼯标注的⿇烦。
Mintz提出⼀个假设,如果知识库中存在某个实体对的某种关系,那么所有包含此对实体的数据都表达这个关系。
理论上,这让关系抽取的⼯作⼤⼤简化。
但远程监督也有副作⽤,因为不⽤⼈为的标注,只能机械地依赖外部知识库,⽽外部知识库会将同⼀对实体的所有情况都会标注⼀种关系,其标签的准确度就会⼤⼤的降低。
⽐如‘汉武帝封卫青为⼤将军’,外部知识库中有关系:君⾂_(汉武帝, 卫青)。
,在这句中,'君⾂'关系完全正确,但在另⼀句‘汉武帝是卫青姐姐的丈夫’,这⾥表达的关系可以是:亲属_(汉武帝, 卫青),⽽不是’君⾂‘,此时外部知识库提供的信息就是不准确的,从⽽引⼊⼤量的噪声。
以通俗易懂的方式来讲解知识图谱相关的知识导读:从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。
它在技术领域的热度也在逐年上升。
本文以通俗易懂的方式来讲解知识图谱相关的知识、尤其对从零开始搭建知识图谱过程当中需要经历的步骤以及每个阶段需要考虑的问题都给予了比较详细的解释。
对于读者,我们不要求有任何AI相关的背景知识。
1. 概论随着移动互联网的发展,万物互联成为了可能,这种互联所产生的数据也在爆发式地增长,而且这些数据恰好可以作为分析关系的有效原料。
如果说以往的智能分析专注在每一个个体上,在移动互联网时代则除了个体,这种个体之间的关系也必然成为我们需要深入分析的很重要一部分。
在一项任务中,只要有关系分析的需求,知识图谱就“有可能”派的上用场。
2. 什么是知识图谱?知识图谱是由Google公司在2012年提出来的一个新的概念。
从学术的角度,我们可以对知识图谱给一个这样的定义:“知识图谱本质上是语义网络(Semantic Network)的知识库”。
但这有点抽象,所以换个角度,从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图(Multi-relational Graph)。
那什么叫多关系图呢?学过数据结构的都应该知道什么是图(Graph)。
图是由节点(Vertex)和边(Edge)来构成,但这些图通常只包含一种类型的节点和边。
但相反,多关系图一般包含多种类型的节点和多种类型的边。
比如左下图表示一个经典的图结构,右边的图则表示多关系图,因为图里包含了多种类型的节点和边。
这些类型由不同的颜色来标记。
在知识图谱里,我们通常用“实体(Entity)”来表达图里的节点、用“关系(Relation)”来表达图里的“边”。
实体指的是现实世界中的事物比如人、地名、概念、药物、公司等,关系则用来表达不同实体之间的某种联系,比如人-“居住在”-北京、张三和李四是“朋友”、逻辑回归是深度学习的“先导知识”等等。
专家视点编辑:胡欣Expert Viewpoint专家视点Expert Viewpoint应用与检测类标准等。
2.2 鉴别与授权相关标准鉴别与授权领域国家标准的研制工作由全国信安标委鉴别与授权标准工作组(WG4)负责。
截至2020年12月,共发布密码领域国家标准63项,主要包括授权类标准、鉴别类标准、凭证与核验类标准、标识类标准、集成应用与身份管理类标准等。
2.3 信息安全评估相关标准信息安全评估国家标准的研制工作由全国信安标委信息安全评估标准工作组(WG5)负责。
截至2020年12月,共发布信息安全评估相关国家标准112项,主要包括系统类标准、产品类标准、服务类标准等。
2.4通信安全相关标准通信安全领域国家标准的研制工作由全国信安标委通信安全标准工作组(WG6)负责。
截至2020年12月,共发布通信安全领域国家标准22项,主要包括基础技术类标准、基础网络类标准、业务网络与应用类标准、终端安全类标准、安全管理类标准等。
2.5 信息安全管理相关标准信息安全管理领域国家标准的研制工作由全国信安标委信息安全管理标准工作组(WG7)负责。
截至2020年12月,共发布信息安全管理领域国家标准66项,主要包括信息安全管理体系类标准、管理支撑技术类标准、政府监管类标准等。
2.6 大数据安全相关标准大数据安全国家标准的研制工作由全国信安标委大数据安全标准特别工作组(SWG-BDS)负责。
截至2020年12月,共发布大数据安全类标准、个人信息保护类标准、云计算安全类标准、智慧城市安全类标准等共20项。
综合来看,我国网络安全国家标准研制工作取得了阶段性进展,这些标准成果为我国网络安全保障体系与保障能力建设提供了技术依据,在支撑国家网络安全法律法规与网络安全重点工作落地实施、推动信息技术产业发展等方面发挥着基础性、规范性和引领性作用。
3 网络安全国家标准关联分析模型随着信息技术的飞速发展,网络安全标准化范畴正在不断扩大。
近5年好的jmc文章以下是近5年中一些好的JMC文章:1. "A Joint Model for Entity Recognition and Relation Extraction in Biomedical Text" - 该文章介绍了一个联合模型,用于在生物医学文本中进行实体识别和关系提取。
该模型基于深度学习技术,能够在多个任务上取得较高的性能。
2. "Joint Modeling of Text and Network for Sentiment Analysis in Social Media" - 该文章提出了一种联合模型,用于在社交媒体中进行情感分析。
该模型结合了文本信息和社交网络中的关系信息,能够更准确地预测文本的情感倾向。
3. "Joint Multi-View Clustering and Feature Selection" - 该文章介绍了一个联合多视图聚类和特征选择的方法。
该方法能够同时利用多个视图的信息进行聚类,并选择最具代表性的特征,从而提高聚类的准确性。
4. "Joint Modeling of Multiple Networks for Link Prediction in Social Media" - 该文章提出了一种联合建模的方法,用于在社交媒体中进行链接预测。
该方法能够同时利用多个网络的信息,并通过学习网络之间的关系来预测未来的链接。
5. "Joint Learning of Image and Text Representations for Image Captioning" - 该文章介绍了一种联合学习图像和文本表示的方法,用于图像字幕生成。
该方法能够将图像和文本信息进行有效地融合,生成准确而有趣的图像字幕。
这些文章涵盖了不同领域的JMC研究,包括自然语言处理、社交媒体分析和机器学习等。
关系抽取方法关系抽取方法是一种自然语言处理技术,它可以从文本中提取关系对象之间的关系。
这种技术帮助我们更好地理解文本的意义,并为人们更快更好地检索信息提供帮助。
关系抽取方法主要可以分为规则型方法和基于机器学习的方法,两者的基本原理和优缺点各不相同。
一、规则型关系抽取方法规则型关系抽取方法是一种基于语法规则的简单方法,基本原理是由专家手工制定关系抽取规则,从而抽取文本中的关系对象。
传统的规则型方法基于正则表达式,但正则表达式易于出错且效率低,近年来也有改进的结构化查询语言(Structured Query Language,SQL)被用于表示关系抽取规则,此类方法被称为“查询型关系抽取”(Query-based Relation Extraction,QRE)。
早期的关系抽取方法依赖专业水平较高的专家来编写规则,是一种比较耗费时间和费力的方法。
规则型关系抽取方法的优点在于从设计上可以精确地抽取特定关系,并且可以通过规则的变化来适应新的文本语义和关系;另外,对于某些关系类型,规则型方法可以较快得到结果。
但是,规则型关系抽取方法也存在一些缺点。
首先,这种方法要求专家花费大量的精力去编写规则,容易出现低效的现象;其次,由于文本语义复杂,确定规则比较困难,容易出错;最后,规则型关系抽取方法较难改进并且效果受规则作者的影响较大。
二、基于机器学习的关系抽取方法基于机器学习的关系抽取方法是一种基于统计的自动方法,它可以利用机器学习的算法来自动构建关系抽取模型。
这类方法主要利用训练数据集来学习抽取特定关系的模型,可以帮助我们自动的抽取文本中的关系对象,而不是像规则型方法一样,需要手动制定规则。
基于机器学习的关系抽取方法与规则型方法相比有着许多优点,首先,基于机器学习的方法可以自动学习抽取特定关系的模型,节省了人工的时间;其次,机器学习方法可以在数据量足够的情况下更精确的抽取特定关系;最后,机器学习方法也可以检测出文本中更复杂的语义关系。
第47卷第5期Vol.47No.5计算机工程Computer Engineering2021年5月May2021面向法律文本的三元组抽取模型陈彦光1,王雷2,孙媛媛1,王治政1,张书晨1(1.大连理工大学计算机科学与技术学院,辽宁大连116024;2.辽宁省人民检察院第三检察部,沈阳110033)摘要:在中国裁判文书网上的开源刑事判决文档中蕴藏着重要的法律信息,但刑事判决书文档通常以自然语言的形式进行记录,而机器难以直接理解文档中的内容。
为使由自然语言记录的非结构化刑事判决书文本转化为结构化三元组形式,构建一种面向法律文本的司法三元组抽取模型。
将三元组抽取过程看作二阶段流水线结构,利用预训练的基于Transformer的双向编码器表示模型先进行命名实体识别,再将识别结果应用于关系抽取阶段得到相应的三元组表示,从而实现对非结构化刑事判决书文本的信息提取。
实验结果表明,在经过人工标注的刑事判决书数据集上,该模型相比基于循环神经网络的组合模型的F1值提高了28.1个百分点,具有更优的三元组抽取性能。
关键词:命名实体识别;关系抽取;预训练语言模型;Transformer编码器;流水线结构开放科学(资源服务)标志码(OSID):中文引用格式:陈彦光,王雷,孙媛媛,等.面向法律文本的三元组抽取模型[J].计算机工程,2021,47(5):277-284.英文引用格式:CHEN Yanguang,WANG Lei,SUN Yuanyuan,et al.Triple extraction model for legal texts[J].Computer Engineering,2021,47(5):277-284.Triple Extraction Model for Legal TextsCHEN Yanguang1,WANG Lei2,SUN Yuanyuan1,WANG Zhizheng1,ZHANG Shuchen1(1.School of Computer Science and Technology,Dalian University of Technology,Dalian,Liaoning116024,China;2.The Third Procuratorial Department,People’s Procuratorate of Liaoning Province,Shenyang110033,China)【Abstract】The open-source documents of criminal sentences on China judgments online contain important legal information.However,the documents are usually transcribed in the form of natural language and difficult for machines to understand.This paper proposes a triplet extraction model for legal texts to transform the unstructured texts recorded by natural language into structured triplets.In the construction of the model,the triplet extraction process is considered as a two-stage pipeline structure.The pretrained Bidirectional Encoder Representations from Transformer(BERT)model is used for Named Entity Recognition(NER),and the recognition results are applied to relation extraction to obtain the corresponding triplet representation,completing the information extraction for the unstructured legal texts of criminal senteces.Experimental results on the manually labeled dataset of criminal sentences show that the F1score of the proposed model is28.1percentage points higher than that of combinational model based on recurrent neural network,demonstrating its excellent triplet extraction performance.【Key words】Named Entity Recognition(NER);relation extraction;pretrained language model;Transformer encoder;pipeline structureDOI:10.19678/j.issn.1000-3428.00576770概述随着中国司法信息的不断公开化,最高人民法院生效裁判文书全部在中国裁判文书网上公布,除法律有特殊规定的以外。
第43卷第2期㊀2021年3月㊀湖北大学学报(自然科学版)Journal of Hubei University(Natural Science)㊀Vol.43㊀No.2㊀㊀Mar.2021收稿日期:20200928基金项目:国家自然基金项目(61977021)㊁国家重点研发计划(2017YFB1400602)㊁湖北省技术创新重大专项(2018ACA13)和湖北省教育厅青年人才项目(Q20171008)资助作者简介:单娅辉(1995),女,硕士生;张龑,通信作者,教授,主要研究方向为信息安全㊁数据库,E -mail:zhangyan@文章编号:10002375(2021)02021406面向中文基础教育知识图谱的关系抽取模型单娅辉,田迎,张龑(1.湖北大学计算机与信息工程学院,湖北武汉430062;2.湖北省教育信息化工程技术研究中心,湖北武汉430062;3.绩效评价信息管理研究中心(湖北大学),湖北武汉430062)摘要:在构建中文基础教育知识图谱过程中,使用远程监督的方法能够有效解决训练语料匮乏的问题,同时使用神经网络模型能够提升构建过程中关系抽取的准确率.为了缓解远程监督中引入的错误标签带来的影响,模型通过双向门限循环单元(bidirectional gated recurrent unit)获取双向上下文中的语义信息,同时引入句子层注意力机制,动态降低噪声数据的权重.在基于中文信息技术教材教辅和百度百科的基础上构建的知识库上的关系抽取实验表明,引入句子层注意力机制能够促进模型的关系抽取效果,模型的准确率相比于中文主流关系抽取方法提高了4%~5%,能更好地应用于知识图谱的构建.关键词:中文关系抽取;注意力机制;远程监督;基础教育;知识图谱中图分类号:TB324.1㊀㊀文献标志码:A㊀㊀DOI :10.3969/j.issn.1000-2375.2020.00.007著录信息:单娅辉,田迎,张龑.面向中文基础教育知识图谱的关系抽取模型[J].湖北大学学报(自然科学版),2021,43(2):214-219.Shan Y H,Tian Y,Zhang Y.A relation extraction model oriented to the knowledge graph of Chinese basic education [J].Journal ofHubei University(Natural Science),2021,43(2):214-219.A relation extraction model oriented to the knowledgegraph of Chinese basic educationSHAN Yahui,TIAN Ying,ZHANG Yan(1.School of Computer Science and Information Engineering,Hubei University,Wuhan 430062,China;2.Research Center of Educational Informatization Engineering and Technology,Hubei University,Wuhan 430062,China;3.Research Center of Information Management for Performance Evaluation,Hubei University,Wuhan 430062,China)Abstract :In the process of constructing a knowledge graph of Chinese basic education,the use of remotesupervision can effectively solve the problem of lack of training corpora,and the use of neural network modelscan improve the efficiency of relation extraction during the construction process.In order to mitigate the impactof incorrect labels introduced in remote supervision,the model obtains semantic information in a bidirectionalcontext through a bidirectional gated recurrent unit,while introducing a sentence-level attention mechanism todynamically reduce the weight of noisy data.The relationship extraction experiments on the knowledge basebuilt on the basis of Chinese information technology teaching materials and baidu encyclopedia show that theintroduction of sentence-level attention mechanism can promote the relationship extraction effect of the model.The mainstream relation extraction method is improved by 4%-5%,which can be better applied to the construction of knowledge graph.Key words :Chinese relation extraction;attention mechanism;remote supervision;basic education;knowledge graph第2期单娅辉,等:面向中文基础教育知识图谱的关系抽取模型215㊀0㊀引言随着我国信息技术的发展,通过新兴技术来直接或间接影响传统教育教学方式,已成为教育信息化的新热点.2012年,Google提出 Google Knowledge Graph 后,知识图谱在各个领域受到了广泛的关注,其中教育领域知识图谱更是在近年来成为研究热点.在构建中文教育领域知识图谱的过程中,面对急剧增长的数据,中文实体关系抽取成为其中的难点之一.传统的关系抽取方法主要包括两类,一类是基于规则匹配的方法,另一类是基于深度学习的方法.其中基于规则匹配的方法是定义了一种表达实体关系的规则模版,然后在数据中找到与该模版相匹配的实体及关系.该方式对数据要求较高且灵活性很差[1],已逐渐被深度学习的方法所取代.基于深度学习的方法目前流行的包括有监督的方法和远程监督的方法[2].其中,有监督的关系抽取方法主要是利用深度学习中的神经网络模型能够自动学习文本的特征,改善了经典方法中需要人工特征选择的缺点[3].远程监督的关系抽取方法是将大量无标注的数据自动对准已标注的知识库来自动标注数据来提高关系抽取的效率.该方法的前提是,如果两个实体间存在已定义的某种关系,那么所有包含这两个实体的文本都存在该关系[4].Mintz等[5]提出使用Freebase知识库与维基百科中的文本来对齐,获取实体及其关系的三元组.在该前提下,基于远程监督的关系抽取能够自动获取大量的训练实例,但是同时也不可避免地存在许多噪声数据.王斌等[6]用远程监督的方法进行关系抽取时,通过采用LDA(latent dirichlet allocation)模型㊁对比类型相似度和对关键词进行模式匹配去噪.Surdeanu等[7]提出加入多标签来减少噪声数据对关系抽取性能的影响.Lin等[8]提出在加入注意力机制在训练过程中通过动态调整各实例的权重来降低噪声数据的权重,从而减少错误实例对关系抽取模型性能的影响.以上方式大多是基于英文语料或者中文通用语料上[9]提出的模型,而在中文教育领域,杨玉基等[10]提出在构建领域知识图谱过程中使用有监督㊁无监督㊁远程监督多种方法来进行关系抽取,最后使用大量人工标注来获取高质量数据,耗费时间精力.黄焕等[11]在构建java知识图谱的过程中采用人工定义关系类型,且在识别实体关系的过程中采用手工标注关系的方式,虽然保证了数据的准确性,但适用性不强.本研究提出的实体关系抽取模型适用于中文基础教育中的科目,将高质量的教材教辅通过文本处理成已标注的知识库,通过远程监督能够获取大量数据并自动标注,加入的句子层注意力更能有效减少噪声数据对于关系抽取性能的影响.1㊀远程监督构建关系语料库由于中文领域公开的可供使用的数据很少,而基础教育领域的就更少见,所以首先利用教育部发布的基础教育的教材教辅,将其转换成可供使用的电子文本;然后结合网络爬虫从百度百科上获取的网页数据,通过预处理得到关系实体对以及包含实体对的文本集;最后选取其中一部分数据作为训练数据对关系抽取模型进行训练,另一部分作为测试数据来检测模型关系抽取的效果.构建流程如图1所示.图1㊀构建流程1.1㊀构建信息技术知识库㊀基于教育部发布的基础教育中信息技术学科的教材教辅,利用OCR技术216㊀湖北大学学报(自然科学版)第43卷将图像中的文字转换成文本格式存储,使用词频-逆向文件频率[12](term frequency-inverse document frequency,TF-IDF)算法和TextRank [13]算法对文本集进行关键词抽取,TF-IDF 算法是一个统计词语在该文件中的重要程度的方法,其核心思想是词语的重要性与它在该文件中出现的次数成正比,同时与它在语料库中出现的次数成反比.TF-IDF 算法考虑了词语出现的频率等因素,但是没有考虑与其他词语的关联性,而TextRank 算法就考虑到了词语之间的关联程度.TextRank 算法起源于Google 团队的PageRank 算法,其核心思想是,如果网页节点代表一个字词,那么这个词语的重要性与连接其他词语的多少和与它连接的词语权值的高低成正比.分别使用以上两种算法对文本进行关键词提取,得到了 数据库 信息安全 信息资源管理 计算机病毒 等核心概念,但同时也得到了一些出现频率高,却不是核心概念的词,如 学生 方法 过㊀㊀㊀㊀程 等.结合信息技术领域专家的指导,得到最终的学科实体并且定义了基础教育领域信息技术中实体的2种属性关系: 同级 父级 .如表1所示,构建了包括2种属性关系及其对应的3563个实例的知识库.表1㊀关系及其对应实例关系名称实例父级<数据库,数据库管理>同级<音频,视频>1.2㊀构建关系实例集㊀在远程监督构建关系实例集中,如果我们文本集中的句子包含的实体对在知识库中有对应的关系,那么我们认为该句子可以描述此关系.以关系实体对<信息技术,传感技术,父级>为例,可以在文本集中找到包含 信息技术 和 传感技术 的句子:1)[传感技术]同计算机技术与通信一起被称为[信息技术]的三大支柱;2)[信息技术]包括[传感技术],通信技术和电子计算机技术等,将这两个句子分别提取出来,作为 父级 关系的两个实例, 信息技术传感技术父级传感技术同计算机技术与通信一起被称为信息技术的三大支柱 , 信息技术传感技术父级信息技术包括传感技术,通信技术和电子计算机技术等 ,为了方便模型训练,我们将关系实例的各个部分用空格符分割,这些关系实例构成我们使用的关系实例数据集.图2㊀模型训练流程2㊀关系抽取模型设计本研究提出一种面向中文基础教育知识图谱的关系抽取模型,基于权威教材教辅和远程监督构建的关系数据集,转化成词向量模型供模型训练,通过双向门限循环单元获得句子上下文语义,引入句子层注意力机制来动态降低句子噪声权重,提升了关系抽取模型的准确率.模型训练算法如图2所示.2.1㊀词向量映射训练㊀为了将数据转换成模型可识别的形式,我们需要将文本数据向量化.Mikolov 等[14]提出了分布式的词向量表征word2vec,即一个词用一个低维向量来表示,词与词之间的相似性可以通过向量之间的相关性表示,其中包括2个模型,连续词袋(Continuous Bag-of-Words,CBOW )模型和Skip-Gram 模型,由于Skip-Gram 模型在语义关系识别方面效果较好,所以本研究采用word2vec 中的Skip-Gram 模型来对词向量模型进行训练,使用知识库中所有的三元组来进行训练,其中模型参数设置的窗口数为5,向量维度为200.2.2㊀BI-GRU ㊀传统的循环神经网络通过权重矩阵使神经网络具备了记忆功能,但是由于梯度爆炸和梯度消失的存在,它不能记忆太前和太后的内容.GRU 网络是由Chung 等[15]对LSTM 网络(一种循环神经网络)进行改进得到的一种结构,由于门控机制,很大程度上弥补了梯度爆炸或梯度消失所带来的第2期单娅辉,等:面向中文基础教育知识图谱的关系抽取模型217㊀图3㊀GRU 内部结构损失,同时它简化了LSTM 网络,只有更新门(update gates)和重置门(reset gates)两种门结构,因此参数更少,也更容易收敛㊂其内部结构如图3所示.其更新表达式为:h t =z t h t -1+(1-z t ) hᶄ(1)h t-1包含了前一时刻节点的相关信息,z t 表示更新门,hᶄ表示当前时刻节点的相关信息,主要是包含了当前的输入x t .从公式中可以得到,z t 能控制遗忘和记忆的信息量,它的取值范围为0~1,越接近1,代表 记忆 下来的前一时刻节点信息越多;越接近0则代表 遗忘 的越多.z t 计算表达式为:z t =σ(W z ㊃[h t -1,x t ])(2)σ为sigmoid 函数,这个函数使数据的取值范围为0~1来表示成门控信号,重置门r t 计算表达式为:r t =σ(W r ㊃[h t -1,x t ])(3)㊀㊀hᶄ计算表达式为:hᶄ=tanh(W ㊃[r t ∗h t -1,x t ])(4)上述公式中W z ,W r ,W 为权值矩阵,用于模型训练,x t 表示当前的输入信息.我们通过上一个节点传输下来隐状态的h t-1和当前输入的信息x t 来得到更新门z t 和重置门r t ,然后使用重置门r t 将重置之后的数据通过σ激活函数缩放到-1~1的范围,最后由更新门z t 对原本隐藏状态的选择性 遗忘 和对当前信息选择性 记忆.图4㊀Bi-GRU 内部结构为了能够捕获词语的前后特征,本研究采用双向GRU (Bi-GRU )网络作为模型的一部分来提高模型的性能,从而更好地进行关系抽取.Bi-GRU 的结构如图4所示.在每一时刻,模型的输入数据会同时经过两个方向相反的单向GRU,而后通过它们进行输出.2.3㊀句子层注意力㊀使用远程监督的方法构建实例数据集中,自动获取的实例有时候并不包含该关系,为了减少噪声数据的影响,本文引入了句子层注意力机制.对于含有相同实体对的m 个句子向量集合s ={s 1,s 2,s 3, ,s m },s i 为句子向量,句子向量为s 中所有句子的加权,其表达式T 为:T =ðmi =1k i si(5)其中,权重K i 表示句子S i 与对应关系R 的相关程度,其表达式为:k i =softmax (s i Ar )(6)其中,A 为初始化的加权对角矩阵,r 为对应关系R 的向量表示.3㊀实验与分析3.1㊀实验数据㊀由于目前还没有通用和权威的针对基础教育信息技术这一领域的公开数据集,因此本研究基于教育部发布的教材教辅采用远程监督的方法构建了关系实例数据集.针对基础教育知识图谱的特性,本文中所构建的语料包含2类属性关系: 同级 父级 ,包含了106332个关系实例.本研究实验随机选取数据集80%的关系实例数据作为训练数据,其余的20%的关系实例作为测试数据,图5为关系实例数据集片段.3.2㊀评估标准㊀本研究使用准确率(P Precision )㊁召回率(R Recall )㊁F 值(F1-score)作为模型的评估标准,来218㊀湖北大学学报(自然科学版)第43卷图5㊀关系实例片段评估关系抽取模型的效果.其计算公式如式(7)~(9)所示:P Precision =TP TP +FP(7)R Recall =TP TP +FN(8)F =2∗P Precision ∗R Recall P Precision +R Recall(9)其中,TP (true positive)表示测试集中该关系的正例被匹配到的数值,FP (false positive)表示测试集中该关系的正例未被匹配到的数值,FN (false negatives)表示测试集中该关系的负例被错误匹配的数值.3.3㊀实验结果及分析㊀为了验证本文中方法的有效性和适用性,设置3组实验进行对比.㊀㊀实验一:在远程监督构建数据的实验上,加入的句子层注意力机制能够减少噪声数据,为了验证去噪数据和未去噪数据关系抽取效果,对于两种关系类型,采用BIGRU 与BIGRU +Attention 模型进行对比实验.实验结果如表2所示.表2㊀BIGRU 与BIGRU +Attention 模型实验结果关系类型BIGRU BIGRU +AttentionPRF P RF同级74.21%73.55%73.88%83.18%82.41%82.79%父级74.33%73.62%73.97%83.11%82.45%82.78%㊀㊀从表2可以看出,加入了句子层注意力机制后,模型的实验结果指标均有提高.主要原因是句子层注意力机制能够减少训练语料的噪声数据,更有效地捕捉句子的特征,使得模型训练得更好,故关系抽取效果更好.㊀㊀实验二:通过神经网络进行远程监督的关系抽取模型中,PCNN +Attention 模型通过加入句子层注意力来减少噪声标注,对于两种关系类型,采用BIGRU +Attention 与PCNN +Attention 模型进行对比实验.实验结果如表3所示.表3㊀PCNN +Attention 与BIGRU +Attention 模型实验结果关系类型PCNN +AttentionBIGRU +AttentionP RF P RF同级78.41%77.52%77.96%83.18%82.41%82.79%父级78.62%77.75%78.18%83.11%82.45%82.78%㊀㊀从表3可以看出,在同样加入句子层注意力机制的远程监督方法中,相比于PCNN 神经网络,BIGRU 神经网络模型有着更高的准确率和召回率,模型提高了5%左右,这表明BIGRU 模型能够提升关系抽取的效果.实验三:由于中文教育知识图谱的实体关系不同于通用领域的实体关系,目前已知的一些中文教育领域知识图谱实体关系使用支持向量机(SVM),条件随机场(CRF)进行关系抽取,为了验证本文中关系抽取模型对于构建中文教育知识图谱的适用性,在相同条件下,采用SVM 和CRF 模型进行对比实验.实验结果如表4所示.表4㊀SVM 、CRF 与本文中模型实验结果关系类型SVM CRF 本研究模型P R F P R F P R F 同级79.31%79.66%79.48%80.12%80.32%80.22%83.51%82.76%83.13%父级80.02%79.33%79.67%80.38%80.45%80.41%84.44%83.57%84.00%㊀㊀从表4可以看出,本研究所提出的关系抽取模型在中文基础教育数据中的关系抽取的F 值更高,模型性能更好,适用性更强.主要原因是本研究加入的句子层Attention 机制能够减少数据中的噪声问题,同时双向GRU 能够解决SVM 模型在关系抽取的过程中丢失了词语位置信息的缺点.第2期单娅辉,等:面向中文基础教育知识图谱的关系抽取模型219㊀4㊀结束语本研究针对中文基础教育知识图谱中的实体关系,提出一种基于注意力机制的远程监督关系抽取模型,为验证模型的性能,本研究以信息技术知识图谱为例,构建基于中文信息技术教材教辅的知识库并进行了对照试验,实验结果表明,相比于已知的知识图谱中实体关系抽取方法,基于注意力机制的关系抽取模型能有效提高关系抽取的准确率.后续工作将尝试使用该模型参与中文基础教育知识图谱的构建,提高知识图谱构建效率及准确率,由于中文基础教育领域的公开数据较少,数据前期处理工作量较大,本研究使用的数据不够全面,模型还未达到理想的抽取效果,后期将考虑采用更多更全面的数据,结合更丰富的人工特征,如词性等来改进模型.5㊀参考文献[1]陈金栋,肖仰华.一种基于语义的上下位关系抽取方法[J].计算机应用与软件,2019,36(2):216-221.[2]吴佳昌,吴观茂.基于依存关系和双通道卷积神经网络关系抽取方法[J].计算机应用与软件,2019,36(4):241-246.[3]鄂海红,张文静,肖思琪,等.深度学习实体关系抽取研究综述[J].软件学报,2019,30(6):1793-1818.[4]Riedel S,Yao L,Mccallum A.Modeling relations and their mentions without labeled text[C]//Proceedings of European Conference on Machine Learning and Knowledge Discovery in Databases.Berlin:Springer-Verlag,2010:148-163. [5]Mintz M,Steven B,Rion S,et al.Distant supervision for relation extraction without labeled data[C]//Proceedings of Joint Conference of the Meeting of the ACL.Stroudsburg:Association for Computational Linguistics,2009:1003-1011. [6]王斌,郭剑毅,线岩团,等.融合多特征的基于远程监督的中文领域实体关系抽取[J].模式识别与人工智能,2019,32 (2):133-143.[7]Surdeanu M,Tibshirani J,Nallapati R,et al.Multi-instance multi-label learning for relation extraction[C]//Proc of the Joint Conf on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,2012:455-465.[8]Lin Y,Shen S,Liu Z,et al.Neural relation extraction with selective attention over instances[C]//Proceedings of the54th Annual Meeting of the Association for Computational Linguistics,Berlin,Germany,2016:2124-2133.[9]张兰霞,胡文心.基于双向GRU神经网络和双层注意力机制的中文文本中人物关系抽取研究[J].计算机应用与软件,2018,35(11):130-135.[10]杨玉基,许斌,胡家威,等.一种准确而高效的领域知识图谱构建方法[J].软件学报,2018,29(10):2931-2947.[11]黄焕,元帅,何婷婷,等.面向适应性学习系统的课程知识图谱构建研究:以 Java程序设计基础 课程为例[J].现代教育技术,2019,29(12):89-95.[12]田迎,单娅辉,王时绘.基于知识图谱的抑郁症自动问答系统研究[J].湖北大学学报(自然科学版),2020,42(5):587-591.[13]Mihalcea R,Tarau P.TextRank:bringing order into texts[C]//Proc of the Association for Computational Linguistics,2004.[14]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J/OL].arXiv PreprintarXiv:1301.3781,2013.[15]Chung J,Gulcehre C,Cho K,et al.Empirical evaluation of gated recurrent neural networks on sequence modeling[J/OL].arXiv:1412.3555,2014.(责任编辑㊀江津)。