基于混合模型的生物事件触发词检测
- 格式:docx
- 大小:44.73 KB
- 文档页数:11
基于深层句法分析的生物事件触发词抽取王健;吴雨;林鸿飞;杨志豪【期刊名称】《计算机工程》【年(卷),期】2014(000)001【摘要】Due to the simplistic and shallow application mode, syntactic information can not effectively play a role in the trigger recognition phase of traditional biological event extraction methods based on semantic and syntactic information. This paper describes a trigger extraction method based on the deep syntactic analysis. To make more effective utilization of the deep syntactic information, a unique indirect application mode is adopted. Deep syntactic information is used for edge detection, and the result is merged into the trigger extraction phase. Experimental results on BioNLP 2009 and 2011 shared tasks data achieve F-scores of 68.8%and 67.3%, which shows that the method has a good performance on biomedical event trigger extraction.%传统利用语义和句法信息进行生物事件抽取的方法,在触发词抽取阶段句法信息运用形式单一笼统,不能有效发挥作用。
近年来,随着网络的持续普及,技术的不断发展,使用网络的用户越来越多,网络中的信息量随着用户频繁的交互行为的增加而增加,互联网成为传播大量信息的新媒介,由于信息多数是非结构化的,且一个领域的信息散布在浩瀚的信息海洋中,致使网络中的信息很难处理,因此快速从大量信息中提取有价值的信息显得越来越重要。
许多信息一般是以事件的形式存在,事件指的是由特定关键词触发的、包含一个或多个参与者参与的、特定类型的事情,事件抽取技术是从纯文本中提取人们关心的事件信息,并以结构化的形式展现出来[1],是构建特定领域的事件库以及建立知识图谱的基础。
事件抽取分为两个步骤,事件检测和元素抽取,事件检测指从一段文本中提取可以标志事件发生的触发词,包括事件触发词识别与事件触发词分类两部分。
元素抽取主要针对一句话中与触发词相关的元素进行抽取和角色匹配。
本文的重点是针对事件检测部分。
事件检测中的触发词是指直接引起事件发生的词语,一般触发词的词性为动词,也可能是表示动作或状态的名词。
事件检测任务面临着许多挑战,一是一句话中不仅只有一个事件,有多个事件就会有多个事件触发词。
例如,在句子1中有两个事件触发词,分别是“离”和“暗杀”,并且是两种不同的子事件类型“Transport”和“Attack”。
句子1:根据警方消息来源,法官与其子在上午交通基于BERT-CRF模型的中文事件检测方法研究田梓函,李欣中国人民公安大学信息网络安全学院,北京100038摘要:事件抽取是自然语言处理中信息抽取的关键任务之一。
事件检测是事件抽取的第一步,事件检测的目标是识别事件中的触发词并为其分类。
现有的中文事件检测存在由于分词造成的误差传递,导致触发词提取不准确。
将中文事件检测看作序列标注任务,提出一种基于预训练模型与条件随机场相结合的事件检测模型,采用BIO标注方法对数据进行标注,将训练数据通过预训练模型BERT得到基于远距离的动态字向量的触发词特征,通过条件随机场CRF对触发词进行分类。
两阶段问答范式的生物医学事件触发词检测
行帅;熊玉洁;苏前敏;黄继汉
【期刊名称】《计算机工程与应用》
【年(卷),期】2024(60)10
【摘要】现有的生物医学事件触发词检测存在以下缺陷:保留了与触发词无关的冗余信息;忽略了实体与事件之间的潜在关联性;传统方法容易受到数据稀缺性的影响。
针对上述问题,提出了一种两阶段问答范式的生物医学事件触发词检测方法。
在事
件类型识别阶段,采用基于句法距离的注意力捕获更有意义的上下文特征,排除无关
信息的干扰;为了有效利用实体中的潜在特征,采用全局统计的单词-实体-事件共现
特征,指导事件类型感知注意力挖掘词与事件之间的强关联性。
在触发词定位阶段,
根据识别出的事件类型,制定问题回答该事件对应的触发词索引,从而利用丰富的问
答数据库实现数据增强。
在MLEE语料库上的结果表明,两阶段问答范式、句法距
离和事件类型感知注意力都有效地提升了模型性能,所提出的模型取得了81.39%的F1分数,并在多个事件类型上的详细结果均优于其他基线模型。
【总页数】11页(P121-131)
【作者】行帅;熊玉洁;苏前敏;黄继汉
【作者单位】上海工程技术大学电子电气工程学院;上海中医药大学药物临床研究
中心
【正文语种】中文
【中图分类】TP391.1
【相关文献】
1.生物医学事件触发词识别研究
2.基于混合模型的生物事件触发词检测
3.“事态触发词”内涵及汉语事件表述系统——以突发事件触发词为例
4.一种非监督的事件触发词检测和分类方法
5.基于SVM的生物医学事件触发词识别研究
因版权原因,仅展示原文概要,查看原文内容请购买。
化工事故案例关键信息抽取研究荆思凤;熊刚;刘希未;宫晓燕;胡斌【摘要】针对当前大部分化工事故案例因以电子文档形式存储而不利于人们对案例信息利用的问题,提出了一种化工事故案例关键信息抽取方法.该方法利用中国科学院计算所ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)系统对化工案例文本进行中文分词和词性标注,利用化工案例信息表述特点及句子语法信息制定关键信息识别规则,利用visual studio平台编制测试代码,对收集到的2000年至今的100个化工事故案例进行测试评价,结果显示该方法能抽取出化工事故案例发生的时间、地域、化工设备及事故类型等信息.该工作为提高化工事故案例信息的利用率作了有效的探索与尝试.【期刊名称】《工业安全与环保》【年(卷),期】2019(045)008【总页数】5页(P61-65)【关键词】化工事故案例;中文文本信息抽取;基于规则方法;化工安全;知识自动化【作者】荆思凤;熊刚;刘希未;宫晓燕;胡斌【作者单位】中国科学院自动化研究所复杂系统管理与控制国家重点实验室北京100190;青岛智能产业技术研究院智慧教育研究所山东青岛266109;中国科学院自动化研究所复杂系统管理与控制国家重点实验室北京100190;中国科学院云计算中心广东东莞523808;中国科学院自动化研究所复杂系统管理与控制国家重点实验室北京100190;青岛智能产业技术研究院智慧教育研究所山东青岛266109;中国科学院云计算中心广东东莞523808;中国科学院自动化研究所复杂系统管理与控制国家重点实验室北京100190;青岛智能产业技术研究院智慧教育研究所山东青岛266109;中国科学院自动化研究所复杂系统管理与控制国家重点实验室北京100190;中国科学院云计算中心广东东莞523808【正文语种】中文0 引言化工事故往往会引起较大的人员伤亡、财产损失和环境破坏。
基于混合模型的事件触发词抽取
杨昊;赵刚;王兴芬
【期刊名称】《计算机工程与科学》
【年(卷),期】2023(45)1
【摘要】事件结构性语法特征与事件语义特征各有优势,二者融合利于准确表征事件触发词,进而有利于完成事件触发词抽取任务。
现有的基于特征、基于结构及基于神经网络模型等的抽取方法仅能捕捉事件的部分特征,不能够准确表征事件触发词。
为解决上述问题,提出一种融合了事件结构性语法特征和事件语义特征的混合模型,完成事件触发词抽取任务。
首先,在初始化向量模型中融入句子的依存句法信息,使初始向量中包含事件结构性语法特征;然后,将初始向量依次传入神经网络模型中的CNN和BiGRU-E-attention模型中,在捕获多维度事件语义特征的同时,完成事件结构性语法特征与事件语义特征的融合;最后,进行事件触发词的抽取。
在CEC 中文突发语料库上进行事件触发词位置识别和分类实验,该模型的F值较基准模型的分别提高了0.86%和4.07%;在ACE2005英文语料库上,该模型的F值较基准模型的分别提高了1.4%和1.5%。
实验结果表明,混合模型在事件触发词抽取任务中取得了优异的效果。
【总页数】10页(P171-180)
【作者】杨昊;赵刚;王兴芬
【作者单位】北京信息科技大学信息管理学院
【正文语种】中文
【中图分类】TP391.1
【相关文献】
1.基于语义的中文事件触发词抽取联合模型
2.基于混合模型的生物事件触发词检测
3.基于预训练模型和特征融合的事件触发词抽取
4.基于CNN-BiGRU模型的事件触发词抽取方法
5.基于跨度回归的中文事件触发词抽取
因版权原因,仅展示原文概要,查看原文内容请购买。
基于混合模型的新闻事件要素提取方法
YU Jin-Zhong;YANG Xian-Feng;CHEN Yan;LI Juan
【期刊名称】《计算机系统应用》
【年(卷),期】2018(027)012
【摘要】为了帮助读者从大量新闻报道信息中迅速地把握其主要内容,本文分析了事件要素对新闻主要内容的影响,结合新闻报道的基本原则和要求,提出了一种基于混合模型的事件要素提取方法.该方法首先对新闻数据中识别的实体进行加权,然后使用依存句法树分析实体在新闻事件中扮演的角色,并对关于要素的指代现象进行消解,最终融合频率及角色关系对实体加权的方法进行改进,有效地提取出新闻事件关联性较为重要的要素.实验结果表明,本文所述方法能够准确地提取出与新闻事件关联性较强的事件要素,提高了读者快速筛选新闻事件要素的效率.
【总页数】6页(P169-174)
【作者】YU Jin-Zhong;YANG Xian-Feng;CHEN Yan;LI Juan
【作者单位】
【正文语种】中文
【相关文献】
1.基于进化神经网络模型的网络安全态势要素提取方法研究 [J], 易飞
2.基于PageRank的产品方案设计SysML模型关键要素提取方法 [J], 蒋丹鼎;赵颖
3.基于实景三维模型地形图要素提取方法及应用检验 [J], 罗浩;冯艺;邵茂亮;严晓玲
4.基于K-Means和高斯混合模型的云肩色彩提取方法对比 [J], 陈思燕;方丽英
5.基于K-Means和高斯混合模型的云肩色彩提取方法对比 [J], 陈思燕;方丽英因版权原因,仅展示原文概要,查看原文内容请购买。
军事事件图谱构建的事件抽取技术研究发布时间:2022-11-28T05:25:53.550Z 来源:《科技新时代》2022年第15期作者:李临风1,潘仁前2[导读] 军事领域中事件抽取是该领域相关体系事件图谱建设的重要步骤。
李临风1,潘仁前21. 中国电子科技集团公司第二十八研究所,江苏南京 210000;2. 中国电子科技集团公司第二十八研究所,江苏南京 210000【摘要】军事领域中事件抽取是该领域相关体系事件图谱建设的重要步骤。
本文基于DMCNN模型对军事领域相关文档进行事件抽取,该模型将事件抽取分为触发词分类和论元分类两个阶段的多分类任务,第一阶段任务目的是确定事件的类别,第二阶段的任务着重于判断触发词与事件元素之间的关系。
在对相关语料进行实验验证的基础上,结果显示该模型对军事事件抽取有较好的性能。
【关键词】军事事件图谱;事件抽取;DMCNN1 引言近些年来,知识图谱技术凭借着自身查询精度以及可扩展性的巨大优势,被广泛应用在军事领域。
这些专业的军事知识图谱很大程度上地提高了作战效率,为作战指挥人员提供了更为夯实的情报数据[1]。
随着大国博弈加深、国际局势恶化以及地区冲突的加剧,描述静态知识的图谱已经很难满足需求,需要一种新的图谱来动态描述军事事件的整个过程,对事件的发生与走向进行预测,使我军能够更快更好地应对突发事件。
当知识图谱作为一项技术和名词性概念进行发展之时,新的变体就会必然出现。
在知识图谱的基本组成单位<实体,实体关系,实体>中,若将实体单位替换成一个事件,将实体之间的关系替换成事件之间的关系,那么就构成了一个以事件为核心的知识图谱,即事件图谱。
知识图谱旨在描述实体与实体之间的关系,例如上下级部队、部队关联设施。
事件图谱更侧重于舆情监测和文本分析,例如军事事件监测、事件发展的预测与推理。
事件是由触发词和描述事件结构的各个元素构成。
事件触发词是触动事件发生的词,决定着事件的类型。
生物特征识别中多模态生物信息融合一、生物特征识别技术概述生物特征识别技术是一种利用人体固有的生理特征或行为特征来进行个人身份验证的技术。
随着科技的发展,生物特征识别技术在安全验证、身份认证等领域得到了广泛的应用。
生物特征识别技术的核心在于其唯一性和不易被复制的特性,使得其在安全性方面具有显著优势。
1.1 生物特征识别技术的核心特性生物特征识别技术的核心特性主要体现在以下几个方面:- 唯一性:每个人的生物特征都是独一无二的,如指纹、虹膜、面部等。
- 稳定性:生物特征在一定时间内具有较高的稳定性,不易发生显著变化。
- 难以伪造:生物特征难以被复制或伪造,提高了身份验证的安全性。
- 便捷性:生物特征识别技术操作简单,用户易于接受。
1.2 生物特征识别技术的应用场景生物特征识别技术的应用场景非常广泛,包括但不限于以下几个方面:- 安全验证:用于银行、政府机构等需要高安全性的场所。
- 身份认证:用于机场、车站等需要快速身份验证的场所。
- 智能家居:用于家庭安全系统,提高家庭的安全性。
- 医疗健康:用于病人身份识别,确保医疗信息的准确性。
二、多模态生物信息融合技术多模态生物信息融合技术是指将多种生物特征信息进行综合分析,以提高识别的准确性和可靠性。
随着技术的发展,单一的生物特征识别技术已经难以满足日益复杂的应用需求,多模态生物信息融合技术应运而生。
2.1 多模态生物信息融合技术的原理多模态生物信息融合技术的原理在于将不同的生物特征信息进行综合分析,通过算法优化,提高识别的准确性和可靠性。
常见的生物特征包括指纹、虹膜、面部、声音、步态等,每种特征都有其独特的优势和局限性。
2.2 多模态生物信息融合技术的关键技术多模态生物信息融合技术的关键技术包括以下几个方面:- 特征提取:从不同的生物特征中提取关键信息,为后续的融合分析提供基础。
- 特征匹配:将提取的特征进行匹配,确定其相似性和差异性。
- 融合算法:采用先进的算法对不同特征进行融合,提高识别的准确性。
基于HMM和ANN混合模型的语音情感识别研究
林巧民;齐柱柱
【期刊名称】《计算机技术与发展》
【年(卷),期】2018(28)10
【摘要】随着情感计算成为人工智能的一个重要方向,语音情感识别作为情感计算的一个重要部分,已经逐渐成为模式识别领域研究的热点之一.随着研究的不断深入,单独使用某一种模式识别时效果并不理想.为了提高识别率,提出了一种将隐马尔可夫模型(HMM)和径向基函数神经网络(RBF)相结合的方法.这种方法对不同情感状态分别设计HMM模型,经过维特比(Viterbi)算法得到最优状态序列,然后对得到的状态序列进行时间规整,以便生成等维的特征矢量,将其作为RBF模型的输入进行语音情感识别,最后的识别结果由RBF模型给出.实验结果表明,与孤立HMM相比,该方法在识别率上有较大的提高.
【总页数】5页(P74-78)
【作者】林巧民;齐柱柱
【作者单位】南京邮电大学计算机学院,江苏南京 210023;南京邮电大学教育科学与技术学院,江苏南京 210003;南京邮电大学计算机学院,江苏南京 210023【正文语种】中文
【中图分类】TN912.34
【相关文献】
1.基于HMM/ANN混合模型的带噪语音识别 [J], 齐爱学;王洪刚
2.基于HMM和ANN的语音情感识别研究 [J], 胡洋;蒲南江;吴黎慧;高磊
3.基于ANN/HMM混合模型汉语大词表连续语音识别系统 [J], 蒋瑞;李海峰;马琳
4.基于ANN/HMM混合模型汉语大词表连续语音识别系统 [J], 蒋瑞;李海峰;马琳
5.ANN/HMM混合模型中状态数的自适应确定方法研究 [J], 刘明宇;高晓晶
因版权原因,仅展示原文概要,查看原文内容请购买。
生物医学事件触发词识别研究0引言为了提高对海量文本信息管理的自动化程度,许多研究学者在事件抽取领域投入了大量的精力.在生物医学领域内,做好事件触发词的识别是事件抽取中比较关键的一步,有必要对生物医学事件触发词的识别进行深入研究.在进行生物医学事件抽取研究中,针对通用的特征很难找到,且对语料的要求和依赖性对总体识别准确率的影响.本文通过对生物医学的领域知识进行学习,把事件抽取的过程简化为分类问题,经过文本信息的预处理、事件触发词的识别、事件元素识别、后处理,其中在事件触发词识别的过程中,采用支持向量机(SVM)多分类任务来处理.通过实验,该方法有效地实现了触发词的识别与抽取.1生物医学事件抽取的相关知识1.1信息抽取面对海量的信息,能够对信息进行自动分类、提取和重构,使人们快速从中获得有价值的信息,这就称为信息抽取技术,传统的信息抽取系统在实现方法上与其他自然语言处理问题的研究方法类似,并且笼统地划分为基于机器学习的统计方法和基于分析的方法.1.2机器学习机器学习是人工智能领域的一个重要研究方向,它能够让我们从数据集中受到启发,利用计算机来彰显数据背后的真实含义,是机器学习的目的.分类是机器学习的主要任务.1.3生物医学事件抽取事件抽取实质上是指基于实体层面的信息抽取,它既抽取指定的一些动作,还抽取动作与实体之间的关系.1.4SVMSVM是建立在统计学习理论(STL)的VC维理论和结构风险最小原理的基础上的,它是根据有限的样本信息在模型的复杂性之间寻求一个最佳的折中,来获得好的推广能力.SVM 的基本思想主要是在向量空间中找到一个决策平面,找到的平面能“最好”地分割两个分类中的数据点.而SVM分类方法就是在训练集中找到具有最大类间界限的决策平面.假设给定ωTχnew+b,标准支持向量机使用线性决策边界来给新的对象进行分类.将落在这条线一边的对象分类为tnew=1,另一边对象分为tnew=-1(特别注意类别标记为{1,-1}).由此可知支持向量机对一个新测试点χnew的判定函数定义为tnew=sign(ωTχnew+b).学习的任务包括基于训练数据选择ω和b,这里我们主要是通过寻求最大化间隔的参数来实现的.1.5句法分析句子是由词通过特定的形式组织起来的,如果能够从句子中发现不同词语间的句法关联,那么我们就能够更好的理解句子的含义.经过句法分析,我们就可以从字符串中去找到语义结构,那么如何找到一个合适的分类决策成为句子分析的主要挑战.Gdep(GENIADependencyparser)是由日本东京大学的KenjiSagae开发的专门针对生物医学文本的依存分析器,它是在GENIA语料库下训练的.1.6评测方法准确率(P)和召回率(R)是衡量评测效率的两个重要指标.其中准确率衡量的是系统寻找到真正相关事件的可靠程度,而召回率衡量的则是系统寻找到相关事件的能力,二者紧密相关,缺一不可.要寻找的事件的集合用A表示,系统找到的事件的集合用B表示,则准确率P=A∩BA,召回率R=A∩BB,其中:|•|表示集合的大小;F表示准确率和召回率的调和平均数,用公式表示为:F=2PRP+R.由于调和平均数强调的是较小的那个值,所以F更容易被较小的值影响,偏向较小值的方向,所以F值更适合对准确率P和召回率R来评价.1.7语料本文采用的是标注的语料集,是BioNLP’13中GE(GeniaEvent)任务的语料集.GE语料中有“全文”和“摘要”两个集合,全文是指新标注的全文论文,通过这种方法来增加语料的多样性,这样可以使训练后的系统具有更强的泛化能力.全文主要由标题、摘要、方法和结果等部分组成,不同的部分所具有的目的也完全不同,从而造成获取到不同的信息类型.摘要中的数据与BioNLP’09中的评测数据相同.2基于SVM方法的生物医学事件触发词识别事件是指关于某一主题的一组相关描述.事件抽取的任务主要分为元事件抽取和主题事件抽取.本文借鉴了基于HMM的生物医学命名实体的识别与分类、基于多类型特征的生物医学事件触发词识别中介绍的方法来对生物医学事件的触发词进行识别.当前触发词的识别方法主要有三类:基于规则的方法、基于字典的方法和机器学习的方法.本文利用丰富的上下文信息、语义信息,首先通过组织各种不同类型的信息,然后把它们统一表示为SVM下的特征,最后利用多分类方法解决触发词识别的问题.2.1语料预处理BioNLP’13中的GE语料是以全文的一部分或每个摘要作为一组,每一组中都包含:“.txt”、“.a2”和“.a1”三个文件.例如:在文档号为“PMC-1310901-00-TIAB.txt”、“PMC-1310901-00-TIAB.a1”、“PMC-1310901-00-TIAB.a2”文件中.这三个文件中,txt、a2和a1分别表示摘要原文本的内容、摘要文档中触发词和摘要文档中已标记的蛋白质.2.1.1语料格式BioNLP共享任务(ST)数据使用格式类似于2009和2011年的BioNLP共享文件格式.在语料格式表示中,文本文件是分开注释的.所有注释文件格式遵循的相同基本结构,每一行包含一个注释,每个注释ID出现在第一行,其余的注释随类型的不同而变化.2.1.2语料预处理流程由于在总体事件中,跨句事件低于1%比例的事实情况,而同时在寻找跨句事件的过程中,通常也会引起过多的噪音.鉴于这些情况,我们在本文中只对一个句子中的事件进行详细研究.所以需要预处理GE语料.(1)首先对GE语料中各文档的txt文件进行分句处理.(2)由于在GE语料中,a2及a1文件中的触发词、蛋白质都是标明的位置,如T84Binding28452850binds表示触发词“binds”在这个文档中某种事件的标识为T84,类型为“Binding”,所处理的对象是以文档中起始位置开始记录的第2845个字符一直到其后面的5个字符之间的所有字符串.所以通过对文档分句后,就要重新计算这些触发词、蛋白质的位置,并让它们转化为分句处理后在各自句子的位置.(3)由于按词语进行分析是Gdep分析器的主要功能,并且部分蛋白质是由两个或更多的词构成,因此在进行句法分析前,我们需要先替换蛋白质,统一以“protein+序号”的形式将语料中给出的蛋白质替换掉,然后再对分句处理后的语料进行分析.(4)用Gdep句法分析器进行句子的分析处理后,每个句子中的每个词的依有关系及依有关系子节点,另外还有词干化结果、词性等相关信息就会清晰呈现出来.(5)分析Gdep得出的结果,弄懂每行的基本信息,可以看出句子中的每一个词分别占一行.每个词的基本信息都在对应行清晰显现.通过观察分析可知:该词的依存关系中父节点的位置是每行倒数第二个位置上的数字,该词在句子中所处的位置则是该行最前面的数字.(6)建立候选词词典.候选词词典在建立的过程中通常会引入大量噪音,进而特征的可用性就会随之降低.鉴于此种情况,候选词词典中只放入训练集中出现的触发词,即将所有a2文件的触发词抽取到一个文件中,这样就建立了候选词的词典.而对于候选词,则必须要先在触发词词典中进行匹配,然后才能进行提取特征.2.2提取上下文特征提取上下文特征主要是从处理后的语料中得到的.其原理是根据候选词本身以及其所在的位置、词干化和词性等特征进行提取.其具体的特征主要有:(1)词特征.它主要包括候选词词干化的结果、候选词本身和候选词词性以及词袋特征.其中N窗口表示与候选词左侧和右侧相距最远为N个词的距离.由经验得知,N=5时效果最佳.所以实验中窗口的大小我们也采用N=5.(2)特定位置特征.对触发词的识别有重要影响的还有判断候选词周围特殊位置的词.如果候选词“transcription”左边的第一个为“T-box”,右边的第一个词为“factor”.我们就会把该特征记录为“Candicate_left=T-box”“Candicate_right=factor”.同样也会考虑左右第二个词.由经验可知,如果考虑太多位置,则会引入更多噪音,同时还会出现数据稀疏问题.(3)N-gram特征.N-gram特征更多的是考虑周围词与候选词的关系.由于这个特征,从而使得特征的可辨识度得到了进一步提高,同样是由经验可知,2-gram和3-gram时效果最好.如对于“Down-regulationofinterferonregulatorfact4geneexpr essioninleukemiccellsduetohypermethylationofCpGnoti fsinthepromoterregion.”的候选词expression来表示,它的3-gram特征则表示为“3-gram-left=4geneexpression”,它还可以表示为“3-gram=geneexpressionin”或“3-gram-right=expressioninleukemic”.(4)与给定蛋白质的距离特征.已标识的蛋白质对于判断是否为触发词能起很大作用.因此我们可以利用蛋白质及候选词之间的单词个数(距离信息),通过下边的公式将两者间的距离特征变为特征值.在score(d)=iemax(d,β)-β+0.01公式中的d表示的是候选词与蛋白质之间的距离,β作为阀值进行调节,从而确定出β取什么值时F的效果最好.2.3提取语义特征在语料预处理过程中,我们已经通过Gdep句法分析器进行了分析,分析结果可以用语义上下层关系表示出来,从而得到一个树形结构,即依存分析树,因而可以利用语义信息进行特征的提取。
融合实体信息和时序特征的问答式事件检测方法
马宇航;宋宝燕;丁琳琳;鲁闻一;纪婉婷
【期刊名称】《计算机工程与设计》
【年(卷),期】2024(45)4
【摘要】针对现有问答方法在处理触发词歧义性问题上的不足,提出一种融合实体信息和时序特征的问答式事件检测方法EDQA-EITF。
构建一种基于RoBERTa的问答框架,增强模型的语义表示能力;通过在模型输入序列中显示地添加实体、实体类型等先验信息,进一步帮助模型根据句子的上下文语境对触发词进行分类;采用最小门控循环单元(minimal gated unit,MGU)和Transformer编码器对输入序列中的时序依赖关系进行建模,提升模型对于句子的语义关系、句法结构的阅读与理解能力。
公共数据集上的实验结果表明,所提方法在进行事件检测时具有更优的性能,有效缓解了触发词的歧义性问题。
【总页数】7页(P1218-1224)
【作者】马宇航;宋宝燕;丁琳琳;鲁闻一;纪婉婷
【作者单位】辽宁大学信息学院
【正文语种】中文
【中图分类】TP391.1
【相关文献】
1.融合全局时序和局部空间特征的伪造人脸视频检测方法
2.融合上下文信息的篇章级事件时序关系抽取方法
3.注意力叠加与时序特征融合的目标检测方法
4.融合实
体信息和时序特征的意图识别模型5.融合时序和空间特征的车辆异常轨迹检测方法
因版权原因,仅展示原文概要,查看原文内容请购买。
基于双重注意力的无触发词中文事件检测程永;毛莺池;万旭;王龙宝;朱敏【期刊名称】《计算机科学》【年(卷),期】2023(50)1【摘要】事件抽取是自然语言处理的重要任务,而事件检测是事件抽取的关键步骤之一,其目标是检测事件的发生并对其进行分类。
目前基于触发器识别的中文事件检测方法存在一词多义、词与触发词不匹配的问题,影响了事件检测模型的精度。
针对此问题,提出基于双重注意力的无触发词事件检测模型(Event Detection Without Triggers based on Dual Attention,EDWTDA),该模型可跳过触发词识别过程,实现在无触发词标记情况下直接判断事件类型。
EDWTDA利用ALBERT改善词嵌入向量的语义表示能力,缓解一词多义问题,提高模型预测能力;采用局部注意力融合事件类型捕捉句中关键语义信息并模拟隐藏的事件触发词,解决词与触发词不匹配的问题;借助全局注意力挖掘文档中的语境信息,解决一词多义问题;最后将事件检测转化成二分类任务,解决多标签问题。
同时,采用Focal loss损失函数解决转化成二分类后产生的样本不均衡问题。
在ACE2005中文语料库上的实验结果表明,所提模型相比最佳基线模型JMCEE在精确率、召回率和F1-score评价指标上分别提高了3.40%,3.90%,3.67%。
【总页数】9页(P276-284)【作者】程永;毛莺池;万旭;王龙宝;朱敏【作者单位】水利部水利大数据技术重点实验室;河海大学计算机与信息学院【正文语种】中文【中图分类】TP391【相关文献】1.基于语义的中文事件触发词抽取联合模型2.基于混合模型的生物事件触发词检测3.融合句法信息的无触发词事件检测方法4.基于MLN的中文事件触发词推理方法5.基于跨度回归的中文事件触发词抽取因版权原因,仅展示原文概要,查看原文内容请购买。
融合词性语义扩展信息的事件检测模型严海宁;余正涛;黄于欣;宋燃;杨溪【期刊名称】《计算机工程》【年(卷),期】2024(50)3【摘要】事件检测是事件抽取中的关键步骤,依赖于触发词进行事件类型分类。
现有主流事件检测方法在稀疏标记数据上性能较差,模型过度拟合密集标注的触发词,在稀疏标记的触发词或者未见过的触发词上容易失效。
改进方法通常通过扩充更多训练实例来缓解这一问题,但扩充后的数据分布不平衡,存在内置偏差,仍然表现不佳。
为此,建立一种融合词性语义扩展信息的事件检测模型。
对词粒度扩展信息进行分析,在不增加训练实例的条件下缩小候选触发词的范围,并对候选触发词进行语义扩展,挖掘候选触发词的上下文中蕴含的丰富语义,缓解了标记数据稀疏造成模型训练不充分的情况。
通过词性筛选模块寻找候选触发词并对其进行语义扩展挖掘词粒度语义信息,融合句子粒度语义信息提升语义表征的鲁棒性,最终利用Softmax分类器进行分类完成事件检测任务。
实验结果表明,该模型在ACE2005和KBP2015数据集上的事件检测任务中的F1值分别达到79.5%和67.5%,有效提升了事件检测性能,并且在稀疏标记数据实验中的F1值达到78.5%,明显改善了标记数据稀疏带来的不良影响。
【总页数】9页(P89-97)【作者】严海宁;余正涛;黄于欣;宋燃;杨溪【作者单位】昆明理工大学信息工程与自动化学院;昆明理工大学云南省人工智能重点实验室【正文语种】中文【中图分类】TP391【相关文献】1.融合统计信息与语义相似度的特征扩展算法2.基于关键词语义与作用域扩展的事件检测3.基于框架语义扩展训练集的有监督事件检测方法4.利用门控机制融合依存与语义信息的事件检测方法5.融合多跳关系标签与依存句法结构信息的事件检测模型因版权原因,仅展示原文概要,查看原文内容请购买。
基于双向LSTM和两阶段方法的触发词识别何馨宇;李丽双【期刊名称】《中文信息学报》【年(卷),期】2017(31)6【摘要】The trigger detection is of significance in the biomedical event extraction.The existing trigger detection methods are almost one-stage methods based on shallow machine learning,w hich demands on heavy training on the rich domain knowledge and sufficient manual features.In this paper,we propose a two-stage trigger detection meth-od based on Bidirectional Long Short Term Memory(BLSTM),which divides trigger detection into recognition stage and classification stage.This approach can relieve the issue of imbalance class effectively,and avoid the cost of manual feature extraction.In addition,to obtain more semantic information,we use the large-scale corpus down-loaded from the PubMed database to train the dependency word embeddings,which effectively improves the recogni-tion performance of trigger detection.On the multi-level event extraction(MLEE)corpus dataset,our method a-chieves an F-score of 78.46%,which outperforms the state-of-the-art systems.%生物事件抽取是生物文本挖掘领域的一个重要分支,而触发词识别作为事件抽取的重要子过程,已经吸引了众多的关注.现有的触发词识别方法多为浅层的一阶段方法,训练代价较大,且需要丰富的领域知识抽取大量特征,人工成本较高.因此,该文提出了一种基于两阶段和双向LSTM神经网络的触发词识别方法.首先,将触发词识别分为识别和分类两个阶段,有效地缓解了训练过程中存在的类不平衡问题;其次,在两个阶段中均采用目前性能较好的双向LSTM神经网络来完成二分类任务和多分类任务,避免了浅层机器学习方法抽取人工特征时的代价.此外,利用PubM ed数据库下载大规模语料训练带有依存关系的词向量,获得了更加丰富的语义信息,从而有效地提高了触发词的识别性能.该文方法在生物事件抽取通用语料MLEE上已获得目前最好抽取性能,F值为78.46%.【总页数】8页(P147-154)【作者】何馨宇;李丽双【作者单位】大连理工大学计算机科学与技术学院,辽宁大连116023;大连理工大学计算机科学与技术学院,辽宁大连116023【正文语种】中文【中图分类】TP391【相关文献】1.基于CNN与双向LSTM的中文文本蕴含识别方法 [J], 谭咏梅;刘姝雯;吕学强2.基于双向LSTM的软件漏洞自动识别方法研究 [J], 梁俊毅;陈静3.基于Bi-LSTM的古籍事件句触发词分类方法研究 [J], 马晓雯;何琳;刘建斌;李章超;高丹4.基于Bi-LSTM的古籍事件句触发词分类方法研究 [J], 马晓雯;何琳;刘建斌;李章超;高丹5.基于堆叠双向LSTM的雷达目标识别方法 [J], 曹展家;师本慧因版权原因,仅展示原文概要,查看原文内容请购买。
基于混合模型的生物事件触发词检测李浩瑞;王健;林鸿飞;杨志豪;张益嘉【摘要】语义歧义增加了生物事件触发词检测的难度,为了解决语义歧义带来的困难,提高生物事件触发词检测的性能,该文提出了一种基于丰富特征和组合不同类型学习器的混合模型.该方法通过组合支持向量机(SVM)分类器和随机森林(Random Forest)分类器,利用丰富的特征进行触发词检测,从而为每一个待检测词分配一个事件类型,达到检测触发词的目的.实验是在BioNLP2009共享任务提供的数据集上进行的,实验结果表明该方法有效可行.【期刊名称】《中文信息学报》【年(卷),期】2016(030)001【总页数】7页(P36-42)【关键词】触发词;生物事件;歧义;丰富特征;组合学习器【作者】李浩瑞;王健;林鸿飞;杨志豪;张益嘉【作者单位】大连理工大学计算机科学与技术学院,辽宁大连116024;大连理工大学计算机科学与技术学院,辽宁大连116024;大连理工大学计算机科学与技术学院,辽宁大连116024;大连理工大学计算机科学与技术学院,辽宁大连116024;大连理工大学计算机科学与技术学院,辽宁大连116024【正文语种】中文【中图分类】TP391随着新的生物医学文献的爆炸性增长,越来越多的关系抽取方法得以提出,用来从生物医学文献中抽取有用的信息。
近几年,事件抽取以其有表现力的结构化呈现而流行,广泛地应用于系统生物学,涉及到从对通路的产生和标注提供支持到数据库自动产生母体数据和丰富数据库数据等领域。
生物医学事件与蛋白质-蛋白质交互关系(PPI)等二元关系不同,它包含了生物实体以及实体之间的交互关系。
这些生物事件能够完整地代表原始关系的生物医学意义,所以从文本中自动地识别生物事件变得非常有意义。
生物医学事件抽取就是一个在医学研究文章中自动检测分子交互关系描述的过程[1]。
它的目的是从非结构化的文本中抽取关于预先定义事件类型的结构化信息。
生物医学事件抽取在BioNLP2009共享任务(以下称BioNLP’09)之后开始在领域内流行。
在BioNLP’09结束之后出现了许多事件抽取系统。
一般来说这些系统可以分为两类:基于机器学习的系统和基于规则的系统。
在BioNLP’09中性能最好的Uturku系统是泛化的系统,并采用了支持向量机(SVM)来进行事件抽取[2-3]。
Uturku系统把事件抽取的整个过程分成了触发词检测和事件元素检测两个部分。
该系统的特点是严重依赖高效、先进的机器学习技术和一系列从每个句子完全依存分析中产生的特征[4]。
在BioNLP’09的任务1中排名第三的ConcordU 系统是本次评测中最好的基于规则的系统[2]。
另外,在BioNLP2011共享任务的四个大任务中获得三个任务性能第一的FAUST系统探索使用了模型的组合,它使用的基础模型是Umass对偶分解模型和斯坦福事件分析器。
该系统的先进之处在于它使用了斯坦福事件分析系统的预测结果,并通过与对偶分解模型进行组合来求得最终的结果[5]。
目前大多数的事件抽取系统关注的是整个事件抽取的过程,将触发词检测作为一个单独问题进行研究的比较少见。
检测生物事件触发词是事件抽取过程中一个非常重要的步骤,触发词检测的性能对它之后的步骤的性能有很大的影响,它在事件抽取中起到了至关重要的作用。
David等人提出了一种使用向量空间模型(VSM)和条件随机场(CRF)相结合的方法,建立触发词检测的语义消歧系统(WSD)[6]。
该方法是将每个出现的歧义词表示成一个向量,向量的每一维代表了一个特征的出现或者缺失,在该系统的训练过程中,系统为每个词类型的每个含义产生一个单一的质心向量。
该系统在BioNLP’09的数据集上进行了实验,并取得了较好的效果。
事件抽取通过识别文本中触发词和参与的实体来发现触发词和实体之间的关系。
作为整个事件抽取流程中的基础步骤,事件触发词检测的性能对整个事件抽取过程的性能有着至关重要的影响。
在触发词检测过程当中,语义歧义使得触发词检测有一定的难度。
如下面的例1~例3中,单词“expression”在例1和例3中是触发词,而在例2中不是触发词。
而是触发词的情况下,该单词在例1和例3标识的事件类型也是不同的类型。
因此,很难判定诸如“expression”这类单词是否是触发词或者在是触发词的情况下它们标识的触发词的类型。
例1 It activates Prot18 gene expression in T lymphocytes.例2 ......, the expression was enhanced at 30 min.例3 the expression of c-fos mRNA was suppressed at 30 min受到之前提及系统的启发,特别是FAUST系统的原理,本文利用组合学习器的方法,使用从原始句子和句子依存分析树中产生的特征来进行触发词检测。
在实验的过程中,除了使用一些常用的文本特征,如词特征,还从依存分析树中发掘了很多特征。
把这些特征应用到两个判别原则完全不同的学习器中,即支持向量机(SVM)和随机森林(Random Forest)。
最终,根据每个学习器单独预测性能的好坏指派权值,对两个分类器输出的结果进行线性加权组合得到最终的输出结果。
实验结果表明,组合学习器能够获得比单独使用任何一个学习器更好的效果。
2.1 依存句法分析器依存分析树是用来表示一个句子中词与词之间的语法关系。
依存分析器用来构建一个句子的依存关系树。
在依存分析树中每一个节点代表一个词,每一条边代表了两个词之间的关系。
本文使用的是GDep[7]依存分析器,图1中是句子“AML and Ets proteins regulate the I alphal germtine promoter.”的依存分析树。
2.2 相关学习器组合总是做出类似决策的学习器是毫无意义的[8]。
将决策原则不同的分类器进行组合,分类器在决策时可以进行互补。
本文采用了两个基础的分类器:一个是支持向量机,它是基于线性判别的决策理论;另一个是随机森林,它是基于决策树的决策理论。
这两个分类器在决策原理上是不相同的。
接下来简要介绍一下本文中使用的分类器和它们的决策原理。
2.2.1 支持向量机支持向量机是一种基于线性判别的方法,它使用Vapnik原则,即在解决实际问题之前总会把解决一个较为简单的问题作为第一步[9]。
支持向量机的目的是学习一个能够将训练集里的正例和负例分开的超平面。
超平面到任意一边离超平面最近点的距离标为间隔。
支持向量机的目的是找到能够使得间隔最大化的最优间隔超平面,同时又使得分类器的泛化误差最小。
假设有训练样本(xt,yt),xt是n维特征空间中的一个向量,yt 是类别标签-1代表负例,+1代表正例。
图2中超平面w*x +w0 = 0将训练样本正确的分离并且最大化超平面w*x +w0 = 1 和 w*x +w0 = -1之间的间隔。
超平面可以通过求解公式(1)而得到。
‖w‖2 s.t. yt (w*xt +w0)≥1∀通过引入拉格朗日因子α,超平面可以最终表示为公式(2)。
式(2)中的K(xt,x)被称为核函数。
经过计算,根据f(x)的符号给待预测点x分配相应的类别标签。
2.2.2 随机森林随机森林(简称RF)是一种使用了一组未修剪的决策树的分类算法。
每一棵分类树都是使用了数据的引导样例,并且在每一个数据分割中变量的候选集是整体变量的一个随机子集[10]。
随机森林使用两种方法来构建树:一种是装袋法,它是一种对于组合不稳定学习器比较有效的方法[11-12];另一种是随机变量选取法。
假设给定一组分类器C1(x), C2(x),..., Ck(x)和从随机向量的分布中随机抽取的训练集X,Y,定义间距函数为公式(3)。
此处I(x)是指标函数。
所谓间距,是用来衡量给一个样本X,Y投票时,投它是正确类票数平均数超过投它是其他类票数平均数的程度。
间距越大,学习器在分类时得到的结果就越可信。
在随机森林中,第k个分类器可以表示成另一种形式,即Ck(x) = C(X, Θk)。
对于大多数的树而言,随机森林遵循强大数定理并遵循如下的结构:随着树的数量增加,可以肯定的是对于所有的Θ序列,PE*收敛于H[13]。
其中H可表示为公式(4)。
通过描述可以看到随机森林的决策机制和之前选的第一个分类器(SVM)的决策机制是不同的。
除了决策机制,本文选用随机森林作为第二个学习器的原因是在分类任务中随机森林有非常优秀的性质。
主要有以下两点性质促使了本文的实验使用随机森林。
首先,使用强大数定律表明了随机森林是收敛的,所以过拟合不是问题;其次,是随机森林的泛化误差,泛化误差的形式为公式(5)。
此处X,Y标明了概率是在X,Y空间上的。
泛化误差的上限可以表示成两个参数的形式,这两个参数分别表示了每一个单独分类器的准确性和各分类器之间的依赖性。
3.1 相关特征本文使用一些常用的特征和一些从句子的依存分析树中发掘的特征。
主要包括下列几种特征。
词特征:词特征主要包含词本身以及由GDep产生的词干和这个词在句子中的词性。
词袋特征:词袋特征是指候选词周围的词,包括了候选词前边和后边的N个词。
考虑到特征的维数和特征的表现能力,本文将N设定为8。
依存分析特征:依存分析特征主要来自于GDep解析器的解析结果,包括了候选词的依存信息和候选词在依存分析树中的路径信息以及候选词在依存分析树中的父节点和子节点的信息。
N元特征:N元特征主要包括以候选词为中心的一个范围内的N元词组,主要是三元组和二元组。
这些N元特征丰富了词袋特征的表现[14-15]。
距离特征:距离特征用来衡量候选词和最近的蛋白质之间的距离。
触发词是和蛋白质紧密相关的,一个距离蛋白质近的候选词比一个距离蛋白质远的候选词更有可能是触发词。
本文定义的距离指的是在原始语句中候选词到最近蛋白质所包含的单词的个数(在距离统计时将蛋白质包含在内)。
统计发现,在BioNLP’09的训练集中大部分的触发词是靠近蛋白质的。
图3中表示的是在BioNLP’09的训练集中触发词和其距离最近的蛋白质的分布图,例如,有超过1 200个触发词与蛋白质相邻,距离定义为1,接近1 600个触发词与蛋白质距离是2。
依存路径特征:相同的候选词在一个句子里是触发词而在另一个句子里不是触发词。
经过研究,在例4和例5两个句子中,expression 在例4中是触发词而在例5中不是触发词。
例4 Prot24 can directly inhibit STAT-dependent early response gene expression induced by both IFNalpha and Prot25 in monocytes by suppressing the tyrosine phosphorylation of Prot23.例5 IL-10 preincubation resulted in the inhibition of gene expression for sev-eral IFN-induced genes...使用了依存分析器之后,在依存分析树中构建从蛋白质到根节点的路径。