基于CRF与规则的工程领域命名实体识别方法
- 格式:doc
- 大小:17.50 KB
- 文档页数:4
文章编号:1006-3080(2019)03-0486-05DOI: 10.14135/ki.1006-3080.20180407001基于双向GRU-CRF 的中文包装产品实体识别李一斌, 张欢欢(华东理工大学信息科学与工程学院,上海 200237)摘要:为了实现包装行业的信息自动抽取,需要对文本中的包装产品进行命名实体识别工作。
设计了一种基于双向GRU-CRF 的中文包装产品实体识别方法。
以预训练的领域词向量为输入,通过双向GRU 网络对上下文语义信息进行建模,并使用输出端的CRF 层对最佳标签序列进行预测。
将该模型与传统的序列标注模型以及循环神经网络模型在包装产品文本数据集上进行了对比,实验结果表明,本文模型具有较少人工特征干预、更高准确率和召回率等优点。
关键词:命名实体识别;双向GRU 网络;CRF 模型;包装产品;深度学习中图分类号:TP391文献标志码:A智能化是继数字化和网络化之后新一代信息技术发展的重要方向[1],随着信息技术的不断发展,包装产业也进入了高度智能化时代。
在包装产业高度智能化的环境下,大量的产品说明、用户手册等都是以电子文档的形式呈现。
为了给用户提供更好、更人性化的服务,必须结合用户的个性化需求,从多而杂的信息中找到有价值的商业信息。
然而在包装产业领域,产品名的构成复杂、长度较长,如“防静电透明PVC 板棒”、“双通道连卷背心袋机”等,这种结构使得产品实体识别比一般的实体识别更为复杂和困难。
为了充分挖掘包装产业信息中的价值,并为接下来的包装产业知识图谱构建、包装产业智能问答等基础应用打下良好的数据基础,包装产品实体识别是必不可少的步骤。
1 相关工作在产业信息处理领域,由于产品实体的结构特征多变、边界模糊,不适合用一般的命名实体识别的方法来处理。
根据命名实体的定义和已有的产品命名实体研究,一般认为产品命名实体包括品牌、系列、型号、种类和属性5个方面,但它们并非不可或缺,一些品牌的产品没有系列名,而一些品牌独有的系列则可以省略品牌名,如“JD-111电子式纸张耐折度测定仪”,这种复杂的名称组成结构对命名实体识别技术带来了很大的挑战。
一、概述在当今信息时代,海量的数据需要被有效地管理和利用,而命名实体识别技术(Named Entity Recognition,NER)就是其中一种非常重要的数据挖掘技术。
命名实体识别旨在从文本中识别并分类出命名实体,例如人名、地名、组织机构名等。
基于深度学习的命名实体识别模型在这一领域取得了很大的成功,而其中的LSTM+CRF模型更是备受关注。
二、LSTM+CRF模型的原理1. LSTM模型LSTM(Long Short-Term Memory)是一种特殊的循环神经网络(RNN),它的主要特点是能够解决传统RNN在处理长序列时出现的梯度消失和梯度爆炸的问题。
LSTM通过引入遗忘门、输入门和输出门等机制,有效地记忆和遗忘过去的信息,从而更好地处理长序列数据。
2. CRF模型CRF(Conditional Random Field)是一种概率图模型,它主要用于对序列化数据进行建模。
CRF能够在标注样本数据的基础上学习出模型参数,进而对新的序列化数据进行标注。
3. LSTM+CRF模型LSTM+CRF模型将LSTM和CRF两种模型进行了结合,其主要思想是利用LSTM来提取文本中的特征,然后将这些特征输入到CRF模型中进行标注。
这样的结合能够有效地解决传统LSTM模型在命名实体识别任务上存在的问题,提高了模型的识别准确率和鲁棒性。
三、LSTM+CRF在命名实体识别中的应用1. 数据集准备在应用LSTM+CRF模型进行命名实体识别之前,需要准备好相应的数据集。
数据集通常包括已经标注的文本数据,以及相应的命名实体标签。
这些数据可以通过人工标注、开源数据集或者其他手段获取。
2. 模型训练在数据集准备完毕后,就可以开始对LSTM+CRF模型进行训练。
在训练过程中,需要将文本数据输入到LSTM模型中进行特征提取,然后将得到的特征输入到CRF模型中进行标注。
训练过程通常采用反向传播算法,并通过调整模型参数使得模型的损失函数最小化。
《蒙古文命名实体识别研究》篇一一、引言随着信息技术的快速发展,自然语言处理技术逐渐成为人工智能领域的重要研究方向。
其中,命名实体识别(Named Entity Recognition,NER)是自然语言处理中的一项关键技术。
针对蒙古文文本处理领域,命名实体识别研究具有重要的应用价值和意义。
本文旨在探讨蒙古文命名实体识别的研究现状、方法、存在的问题以及未来发展方向。
二、蒙古文命名实体识别的研究现状蒙古文是一种特殊的语言文字,其书写系统、语法结构等方面与汉语等语言存在较大差异。
因此,在蒙古文命名实体识别方面,国内外学者进行了大量的研究工作。
目前,蒙古文命名实体识别的研究已经取得了一定的成果,但仍然存在一些问题和挑战。
在蒙古文命名实体识别的研究方面,主要涉及到命名实体的类型、特征提取、模型构建等方面。
其中,命名实体的类型主要包括人名、地名、机构名等。
在特征提取方面,研究者们采用了基于规则、统计和深度学习等方法。
在模型构建方面,研究者们提出了各种机器学习算法和深度学习模型,如隐马尔可夫模型(HMM)、条件随机场(CRF)、长短期记忆网络(LSTM)等。
三、蒙古文命名实体识别的研究方法针对蒙古文命名实体识别的研究方法,本文主要介绍基于规则、统计和深度学习三种方法。
1. 基于规则的方法基于规则的方法主要是通过人工总结的规则对蒙古文文本进行命名实体识别。
这种方法需要大量的人力投入,但可以针对特定领域进行优化,具有一定的适用性。
在规则的制定过程中,需要考虑到蒙古文的书写规则、语法结构等方面。
2. 统计方法统计方法主要是通过计算命名实体的概率分布来实现命名实体识别。
其中,最常用的统计方法是基于隐马尔可夫模型(HMM)和条件随机场(CRF)等方法。
这些方法可以通过对大量语料库进行训练,得到较为准确的命名实体识别结果。
3. 深度学习方法深度学习方法是一种基于神经网络的自动学习算法,可以自动提取文本中的特征并进行分类。
ner方法NER(Named Entity Recognition),即命名实体识别,是自然语言处理中的一项重要技术,能够将文本中的具有特定意义的实体识别出来,如人名、地名、组织机构、时间、日期等。
NER方法可以分类为基于规则的方法和基于机器学习的方法。
基于规则的方法需要手工编写规则,对于不同类型的实体需要编写不同的规则,工作量较大,但对于一些特定领域的实体识别效果较好。
基于机器学习的方法则是让计算机通过学习大量标注好的数据,自动学习如何识别实体,效果相对较好,但需要大量标注好的数据作为输入。
下面介绍几种常用的基于机器学习的NER方法。
一、CRF(Model-based)CRF(Conditional Random Fields),即条件随机场,是目前应用最广泛的序列标注模型之一。
CRF在实体识别任务中被广泛应用,其主要思想是用特征函数表示样本的不同特征。
特征函数的表达方式可以是基于字符层面的特征、基于词层面的特征和基于上下文的特征等。
在CRF中,一个句子中的每个词都是一个隐状态,而观测到的是其对应的特征。
CRF通过学习条件概率P(Y|X)来预测标注序列Y。
X表示输入的特征序列,Y表示输出的标注序列。
CRF可以学习到输入与输出之间的复杂概率关系,从而取得较好的实体识别效果。
二、BiLSTM-CRF(Model-based)BiLSTM-CRF是一种结合了BiLSTM和CRF的模型。
BiLSTM(双向长短时记忆网络)是一种循环神经网络,可以很好地处理序列标注任务。
BiLSTM-CRF的主要思想是利用BiLSTM学习输入序列的上下文信息,然后再使用CRF模型输出每个词的标注结果。
在BiLSTM-CRF中,首先经过字符嵌入层和词嵌入层对输入文本进行向量化表示,然后输入到BiLSTM中进行序列标注。
通过CRF对标注结果进行校正,保证标注的上下文一致性和合理性。
这种方法的优点在于可以处理长序列上的标注任务,并且可以同时捕捉前后上下文信息,提高了实体识别的准确率。
基于crf命名实体识别实验总结基于CRF的命名实体识别实验总结近年来,随着人工智能技术的不断发展,命名实体识别(Named Entity Recognition, NER)作为自然语言处理领域的一个重要任务,受到了越来越多研究者的关注。
基于条件随机场(Conditional Random Fields, CRF)的命名实体识别模型,因其在序列标注任务中表现出色而备受推崇。
在进行基于CRF的命名实体识别实验时,首先需要准备标注好的语料数据集,包括文本内容和对应的命名实体标签。
然后,将数据集划分为训练集和测试集,用于模型的训练和评估。
接着,构建CRF 模型,定义特征函数,设置超参数等。
在训练过程中,通过最大化对数似然函数,使用梯度下降等方法优化模型参数,以提高命名实体识别的准确率和召回率。
在实验过程中,我们发现基于CRF的命名实体识别模型具有以下优点:1. 考虑了序列标注任务中的上下文信息,能够更好地捕捉实体之间的关系,提高了识别的准确性。
2. 可以灵活定义特征函数,结合领域知识和实际需求,对模型进行定制化,提高了适用性和泛化能力。
3. 在处理未知实体和模糊边界时,具有较强的鲁棒性,能够有效应对各种复杂情况。
4. 训练速度较快,适用于大规模数据集和实时场景,具有较好的实用性和效率。
然而,在实验中我们也发现了一些挑战和改进空间:1. 对于长距离依赖关系的建模能力仍有待提高,特别是在处理长文本和复杂实体结构时容易出现误差。
2. 特征工程的设计对模型性能有着重要影响,需要更多的经验和实践来挖掘有效的特征。
3. 模型的解释性相对较弱,难以解释模型如何做出决策,需要进一步研究可解释性机制。
总的来说,基于CRF的命名实体识别模型在实验中表现出了较好的性能和潜力,但仍有一些问题和挑战需要解决。
未来,我们将继续优化模型结构,改进特征工程和参数调优方法,提升模型的性能和可解释性。
同时,我们也将探索更多领域的应用场景,推动CRF在命名实体识别领域的进一步发展和应用。
基于条件随机场(CRF)的命名实体识别 很久前做过⼀个命名实体识别的模块,现在有时间,记录⼀下。
⼀、要识别的对象 ⼈名、地名、机构名 ⼆、主要⽅法 1、使⽤CRF模型进⾏识别(识别对象都是最基础的序列,所以使⽤了好评率较⾼的序列识别算法CRF) 2、使⽤规则对相关数据进⾏后过滤、 三、具体实现 1、训练数据的⽣成 主要使⽤了⼈民⽇报免费部分,以及⼀些及它从⽹上找到的资源(时间长了,记不住了,好像还⾃⼰标注了些) 2、模板的⽣成 使⽤的是Unigram,由于考虑到要识别的实体⼀般情况下没有长距离依赖以及训练时的效率问题,所以模板没有写得过长。
经过⼏次测试,最终确定的模板如下。
#UnigramU00:%x[-3,0]U01:%x[-2,0]U02:%x[-1,0]U03:%x[0,0]U04:%x[1,0]U05:%x[2,0]U06:%x[3,0]U07:%x[-3,0]/%x[-2,0]U8:%x[-2,0]/%x[-1,0]U9:%x[-1,0]/%x[0,0]U10:%x[0,0]/%x[1,0]U11:%x[1,0]/%x[2,0]U12:%x[2,0]/%x[3,0]# BigramB 3、参数寻优 参数寻优,使⽤⽹上提供的python脚本,进⾏参数寻优。
(脚本的具体使⽤⽅法不在这⾥赘述) 4、迭代训练 a)使⽤初始的训练数据及调优过的参数进⾏训练 b)使⽤训练好的model对⽂本进⾏实体识别 c)对识别错误的结果进⾏⼈⼯标注,添加到训练集,转⾄步骤a) 这⾥的采⽤了⼈⼯⼲预的⽅法,来提⾼识别⾼性能,可能有些⿇烦,但这是个⽐较有效的⽅法。
5、总体性能 经测试,总体准确度(A ccuracy)在94%以上。
注:没有经过严格的测试,只是取了300篇⽂章,对其中的实体标注了,然后⽤模型识别了⼀遍,统计了Acc,⽽recall⼏乎100%,我感觉测试⽂章⽐较少,所以这个测试结果可能不太严谨,由于最后领导感觉达到要求了,所以我也没有继续提⾼。
实体类的识别方法实体类识别是自然语言处理领域中的一个重要任务,其目标是从文本中识别出具体的实体对象。
下面是关于实体类识别的50种方法,并对每种方法进行详细描述:1. 基于规则的方法: 使用预定义的规则或模式来识别特定类型的实体。
使用正则表达式识别电话号码或邮件地址。
2. 基于词典的方法: 使用预先构建的词典来匹配文本中的实体。
词典可以包含各种实体类型,如人名、地名、组织名等。
3. 基于统计的方法: 利用统计模型来识别实体。
这种方法通常使用标记序列模型,如隐马尔可夫模型(HMM)或条件随机场(CRF)。
4. 基于机器学习的方法: 使用机器学习算法来训练模型,从而识别实体。
常用的机器学习算法包括支持向量机(SVM)和神经网络。
5. 基于深度学习的方法: 使用深度神经网络模型来学习文本的表示,并从中提取实体信息。
使用循环神经网络(RNN)或卷积神经网络(CNN)。
6. 基于模式匹配的方法: 根据已知的模式来匹配实体。
使用关键词匹配来识别特定类型的实体。
7. 基于依存句法分析的方法: 利用句子的依存句法结构来识别实体。
通过分析句子中的依存关系,可以确定实体的范围和类型。
8. 基于词性标签的方法: 使用词性标签来过滤出可能是实体的词。
通过识别名词短语来识别人名或地名。
9. 基于实体关系的方法: 根据实体之间的关系来识别实体。
通过分析实体的上下文来确定实体的类型。
10. 基于上下文信息的方法: 使用文本中的上下文信息来识别实体。
通过分析实体周围的词语来确定实体的类型。
11. 基于语义角色标注的方法: 利用语义角色标注来识别实体。
语义角色标注可以帮助确定词语在句子中的语义角色,从而识别实体。
12. 基于实体链接的方法: 使用实体链接技术将文本中的实体链接到知识图谱或数据库中的实体。
通过实体链接,可以进一步获取实体的更多信息。
13. 基于预训练模型的方法: 使用在大规模数据集上预训练的模型来识别实体。
预训练模型通常具有强大的语义表示能力。
第38卷第3期 计算机应用与软件Vol 38No.32021年3月 ComputerApplicationsandSoftwareMar.2021结合自注意力的BiLSTM CRF的电子病历命名实体识别曾青霞1 熊旺平2 杜建强2 聂 斌2 郭荣传11(江西中医药大学岐黄国医书院 江西南昌330004)2(江西中医药大学计算机学院 江西南昌330004)收稿日期:2019-08-21。
国家自然科学基金项目(61762051,61562045);江西省科技厅重点研发计划项目(20171ACE50021,20171BBG70108);江西省教育厅科学技术研究项目(GJJ170747)。
曾青霞,硕士,主研领域:机器学习,医药数据挖掘。
熊旺平,副教授。
杜建强,教授。
聂斌,硕士。
郭荣传,硕士。
摘 要 为弥补现有方法不能很好捕获电子病历实体之间的长距离依赖关系的缺陷,提出一种结合自注意力的BiLSTM CRF的命名实体识别方法。
将输入文本转成神经网络可识别的数值形式;经过BiLSTM网络并结合自注意力计算得到每个字的输出特征向量;通过CRF层找到句子最适合的输出标签序列,从而确定命名实体。
采用CCKS2018数据集进行实验,结果表明,改进的命名实体识别方法对电子病历具有一定的适应性,且与现有的方法相比,测试集的准确率提高了6.50~9.25个百分点。
关键词 电子病历 命名实体识别 自注意力 BiLSTM CRF中图分类号 TP3 文献标志码 A DOI:10.3969/j.issn.1000 386x.2021.03.024ELECTRONICMEDICALRECORDNAMEDENTITYRECOGNITIONCOMBINEDWITHSELF ATTENTIONBILSTM CRFZengQingxia1 XiongWangping2 DuJianqiang2 NieBin2 GuoRongchuan11(QihuangMedicalCollege,JiangxiUniversityofTraditionalChineseMedicine,Nanchang330004,Jiangxi,China)2(ComputerSchool,JiangxiUniversityofTraditionalChineseMedicine,Nanchang330004,Jiangxi,China)Abstract Tocompensatefortheshortcomingsofthelong distancedependencebetweenelectronicmedicalrecordentitiesthatarenotwellcapturedbyexistingmethods,thispaperproposesnamedentityidentificationofBiLSTM CRFcombinedwithself attention.Theinputtextwasconvertedintoarecognizablenumericalformoftheneuralnetwork;theoutputfeaturevectorofeachwordwascalculatedthroughtheBiLSTMnetworkandcombinedwithself attention;theCRFlayerwasusedtofindthemostsuitableoutputtagsequenceofthesentence,therebydeterminingthenamedentity.TheexperimentswerecarriedoutusingtheCCKS2018dataset.Theexperimentalresultsshowthattheimprovednamedentityrecognitionmethodhascertainadaptabilitytoelectronicmedicalrecords.Comparedwiththeexistingmethods,theaccuracyofthetestsetisimprovedby6.5%~9.25%.Keywords Electronicmedicalrecord Namedentityrecongition Self attention BiLSTM CRF0 引 言命名实体识别(NamedEntityRecongition,NER)是自然语言处理(NaturalLanguageProcessing,NLP)任务中的重要步骤之一,其主要目的是识别给定文本中的命名实体。
第44卷㊀第3期㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀湖北科技学院学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Vol.44,No.3㊀2024年6月㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Journal of Hubei University of Science and Technology㊀㊀㊀㊀㊀㊀㊀㊀Jun.2024文章编号:2095-4654(2024)03-0151-06㊀㊀㊀㊀基于BERT-BiLSTM-CRF古籍文献命名实体识别㊀㊀㊀㊀蔡维奕(西北民族大学㊀数学与计算机科学学院,甘肃㊀兰州㊀730030)摘㊀要:古籍文献中存在着大量的多字词㊁歧义词㊁异体字等问题,使得古籍文献命名实体识别成为了一项具有挑战性的任务㊂本文提出一种基于BERT-BiLSTM-CRF模型的古籍文献命名实体识别方法㊂该方法首先用预训练语言模型BERT来建模字的上下文表示,然后通过BiLSTM模型对BERT的输出进行加工,解决长距离依赖问题,得到更加丰富的特征信息,最后通过CRF模型对这些特征进行联合建模,从而实现对古籍文献中命名实体的精确识别㊂实验结果显示,BERT-BiLSTM-CRF性能超过了所有基线模型㊂关键词:BiLSTM模型;BERT模型;古籍文献中图分类号:TP391.1㊀㊀㊀㊀㊀㊀㊀㊀文献标识码:A㊀㊀㊀㊀㊀开放科学(资源服务)标识码(OSID ):㊀㊀古籍文献包含了丰富的历史㊁文化和语言信息,对于人类文明的研究和传承具有重要意义㊂古籍文献的命名实体识别旨在自动识别出古籍文本中人名㊁地名㊁机构名等实体㊂它是正确分析处理古籍文献文本的基础步骤,也是深度挖掘㊁分析古代人文知识与文化的重要前提㊂然而,由于古籍文献的特殊性,如书写方式㊁语言习惯等,使得古籍文献命名实体识别(Named Entity Recognition,NER)成为了一项具有挑战性的任务㊂近年来,学界已有多项研究[1-3]关注史籍㊁方志㊁诗词㊁中医等类目的古籍命名实体识别,构建了一些针对垂直领域的小型标注数据集,实体标注的体系和规范有所差异,识别范围往往由三种基本实体类别扩充至人文计算研究所需的多种特殊类别,如书名㊁药物名㊁疾病名㊁动植物名等㊂这些研究所构建针对特殊领域的小型标注数据集,实体类型有差异㊂另一方面,古文字词含义的多样性㊁行文结构的连续性以及多用繁体字㊁无句点等特点,也增加了古籍文献命名实体识别任务的复杂和困难程度㊂在过去的几年中,深度学习技术在自然语言处理领域取得了巨大的成功,BERT(Bidirectional En-coder Representations from Transformers)模型[4]作为其中的代表之一,以其卓越的性能和广泛的应用受到了广泛关注㊂基于BERT的古籍文献NER任务[3]已经成为了当前研究的热点之一㊂然而,由于BERT模型本身是一个字词级别的模型,而古籍文献中存在着大量的多字词㊁歧义词㊁异体字等问题,这就需要我们对BERT进行改进和优化㊂本文提出了一种基于BERT-BiLSTM-CRF模型的古籍文献NER方法㊂该方法首先用预训练语言模型BERT来建模字的上下文表示的基础上,引入了BiLSTM[5](Bi-directional Long Short Term Memo-ry)和CRF[6](conditional Rondom Fields)模型,通过BiLSTM模型对BERT的输出进行加工,得到更加丰富的特征信息,然后通过CRF模型对这些特征进行联合建模,从而实现对古籍文献中命名实体的精确识别㊂本文的主要贡献包括:∗收稿日期:2023-12-08(1)提出了一种基于BERT-BiLSTM-CRF模型的古籍文献命名实体识别方法;(2)在公开数据集上进行了大量实验,并与其他方法进行了对比;(3)分析了实验结果,探讨了该方法的优缺点和改进方向㊂一㊁相关工作在自然语言处理领域,命名实体识别(NER)是一个重要的任务,其目的是从文本中识别出具有特定意义的实体,如人名㊁地名㊁机构名等㊂近年来,深度学习技术在自然语言处理领域取得了巨大的成功,其中基于预训练语言模型的NER方法已经成为了当前研究的热点之一㊂1.预训练语言模型预训练语言模型是指在大规模文本数据上进行无监督预训练的语言模型,它可以学习到丰富的语言知识,并将这些知识应用于各种自然语言处理任务中㊂其中BERT是一种基于Transformer架构的预训练语言模型,它通过双向编码器对输入序列进行编码,从而学习到上下文相关的词向量表示㊂BERT 模型在多项自然语言处理任务上取得了卓越的性能,如情感分析[7,8]㊁问答系统[9]㊁文本分类等[10]㊂2.基于BERT的命名实体识别方法基于BERT的命名实体识别方法是自然语言处理领域中的研究热点之一,在多个数据集上均取得了优秀的表现㊂目前,基于BERT的命名实体识别方法的研究现状主要包括以下几个方面: (1)模型结构的改进:通过引入不同的模型结构来提高命名实体识别的性能㊂例如,将BERT与BiLSTM㊁CRF等模型结合[11-13],可以更好地捕捉上下文信息和标签之间的依赖关系㊂(2)数据增强的研究:由于命名实体识别数据集通常较小,对模型的训练和泛化能力造成了一定的影响㊂因此,研究者通过数据增强等方法来扩充训练数据集[14],从而提高模型的性能㊂(3)多语言命名实体识别:由于BERT在多语言上均有较好的表现,因此研究者将其应用于多语言命名实体识别任务中㊂例如,通过使用跨语言预训练模型来进行多语言实体识别[15]㊂(4)迁移学习:在预训练阶段,BERT学习了大量无标签的语言数据,从而捕获了丰富的语言特征㊂然而,对于特定的下游任务,这些预训练的语言表示可能不够精确,因此需要进行微调㊂迁移学习是一种常用的微调方法,它利用预训练模型已经学习到的知识来帮助解决新的任务㊂在迁移学习中,预训练模型首先被加载并冻结(即不参与训练),然后使用任务特定的数据来微调模型的顶部层(通常是全连接层)㊂通过这种方式,模型可以利用已经学习到的知识来改善对新任务的适应能力㊂将BERT预训练模型进行微调,可用于不同领域和不同任务的命名实体识别[16,17]㊂本文把中文训练的BERT-Base-Chinese语言模型,运用于古籍文献,本质上将BERT预训练模型作微调,进行迁移学习,并结合BiLSTM㊁CRF等模型结合更好地捕捉上下文信息和标签之间的依赖关系㊂图1㊀模型总体结构图二㊁模型基于BERT-BiLSTM-CRF的古籍文献NER方法旨在提高古籍文献NER任务的准确性㊂它是一种基于预训练语言模型BERT㊁双向LSTM和条件随机场(CRF)的命名实体识别方法㊂该方法BERT-BiLSTM-CRF模型的结构如图1所示㊂首先使用BERT预训练语言模型对输入序列进行编码,然后将编码结果输入到BiLSTM序列模型中,从而学习到上下文相关的特征表示㊂最后,通过CRF模型对标签序列进行建模,从而实现对命名实体的识别㊂1.BERT层BERT是一种基于Transformer架构的预训练语言模型,它通过双向编码器对输入序列进行编码,在本文方法中主要学习古文字的上下文相关的向量表示㊂BERT通过两个阶段的训练来获得上下文相关的输出字向量表示:第一阶段是无监督的预训练,用于学习通用的语言知识;第二阶段是有监督的微调,用于将BERT模型应用于特定的自然语言处理任务㊃251㊃湖北科技学院学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀总第44卷中㊂在古籍文献NER任务中,一个输入可表示为s =(w1,w2, ,w n),其中w i表示输入的第i的字㊂每个字w i编码由三部分组成:(1)token embedding:将字转换成固定维度的向量㊂每个字会被转换成768维的向量表示㊂此外,两个特殊的token会被插入到tokenization的结果的开头([CLS])和结尾([SEP])㊂(2)segment embedding:用于区分一个token属于句子对中的哪个句子㊂Segment Embeddings包含两种向量表示㊂前一个向量是把0赋给第一个句子中的各个token,后一个向量是把1赋给第二个句子中的各个token㊂如果输入仅仅只有一个句子,那么它的segment embedding就是全0㊂(3)position embedding:由于Transformers无法编码输入的序列的顺序性,所以BERT在各个位置上学习一个向量表示来将序列顺序的信息编码进来㊂最终,古文字w i由三个embedding编码连接得到,即E i=E token E seg E pos㊂经过BERT层,得到每个字的向量表示:X i=Bert(E i)㊂2.Bi-LSTM层本文采用双向LSTM来学习每个古文字的中间表示,其优点可利用远距离的特征㊂对每一个LSTM 单元由多个实向量组合而成,包括输入门向量i t,忘记门向量f t,输出门向量o t,内存单元c t和隐藏状态h t㊂各变量内计算公式如下:i t=σ(W(i)x t+U(i)h t-1+b(i)f t=σ(W(f)x t+U(f)h t-1+b(f)o t=σ(W(o)x t+U(o)h t-1+b(o)u t=tanh(W(u)x t+U(u)h t-1+b(u)c i=i t☉u t+f t☉c t-1h t=o t☉tanh(c i)式中σ,tanh表示神经元的激活函数㊂W,U是权重矩阵,b是偏差向量㊂对于序列中的每个字,其输入为BERT层的输出,即x t㊂输出为h t,在Bi-LSTM网络中,其输出向量为左㊁右LSTM的输出连接组成,即h t=[h➝t,h t]㊂3.CRF层最后,本文采用CRF对标签序列进行全局建模,并考虑标签之间的依赖关系㊂具体地,对BiL-STM层的输出序列h1, ,h n作为CRF的特征输入,一个标签序列y=y1, ,y n的条件概率采用下面公式计算为:o i=Wh ip(y|s)=eði o i[y i]+T[y i,y i-1]ðy'eði o i[y'i]+T[y'i,y'i-1]其中y'=y'1, ,y'n是一个候选标签序列输出, W为发射矩阵,T为状态转移矩阵㊂在推断时,采用Viterbi算法发现概率最高的标签序列㊂在训练时,采用交叉熵损失,具体地,假设给定古文序列的黄金标签是g=g1, ,g n该实例的损失函数定义如下:L ner=-log p(g|s)三、实验与分析1.数据集文本采用2023中国计算语言学大会古籍命名实体识别评测数据集,由北京大学数字人文研究中心组织标注,语料来源是网络上公开的部分中国古代正史纪传文本㊂数据集以 二十四史 为基础语料,包含13部书中的22卷语料,随机截断为长度约100字的片段,标注了人名(PER)㊁书名(BOOK)㊁官职名(OFI)三种实体,总计15.4万字(计标点)㊂数据集统计如下:表1㊀实验用数据集统计总字数实例数人名数书名数官职数实体总数15.4万字23476670213336310246㊀㊀标签方案采用 BISO ,其中 B 表示实体的开始字符, I 表示实体的其它字符, S 表示只含单字实体, O 表示非实体字符㊂下面给出一个标签例子:友_B-PER倫_I-PER幼_O亦_O明_O敏_O,_ O通_O論_B-BOOK語_I-BOOK㊁_O小_B-BOOK 學_I-BOOK,_O曉_O音_O律_O㊂_O存_S-PER已_O死_O,_O太_B-PER祖_I-PER以_O友_B-PER 倫_I-PER為_O元_B-OFI從_B-OFI馬_I-OFI軍_I -OFI指_I-OFI揮_I-OFI使_I-OFI},_O表_O右_B -OFI威_I-OFI武_I-OFI將_I-OFI軍_I-OFI㊂2.实验设置实验时标注语料按8ʒ1ʒ1分别分为训练集㊁开发集和测试集㊂主要超参数设置如表2所示㊂㊃351㊃2024年第3期㊀㊀㊀㊀㊀㊀㊀㊀㊀蔡维奕:基于BERT-BiLSTM-CRF古籍文献命名实体识别表2㊀超参设置表超参值超参值dropout0.5L21e-8 Batch size16Learing rate1e-5 Optimizer Adm Learning rate decay0.05 Momentum0.9Learning rate clipping 5.0㊀㊀实验采用精度(P)㊁召回率(R)和F1值三个指标评估模型性能,分别表示如下:P=预测正确的实体数预测的总实体数R=预测正确的实体数总实体数F1=2∗P∗RP+R3.实验结果为了比较本文采用的模型,实验引入3个基线,分别描述如下:(1)CRF:结合了最大熵模型和隐马尔可夫模型的特点,在序列标注任务中取得了很好的效果,特征采用相连5个窗口内的字符及其组合㊂(2)BiLSTM-CRF:结合BiLSTM与CRF,字向量表示随机初始化㊂模型参数与本文所提出模型的对应组件相同㊂(3)BERT-CRF:使BERT学习到字符的表示,并做为特征直接输出到CRF㊂模型参数与本文所提出模型的对应组件相同㊂表3给出基线与本文所提模型的实验结果㊂可以发现,仅采用离散特征的CRF模型性能远低于采用密向量表示的模型㊂在三个密向量表示的模型,采用预训练语言模型的BERT-CRF的性能高于未采用预训练语言模型的BiLSTM-CRF㊂本文所采用模型充分利用BERT与BiLSTM的优点,在精度㊁召回率和F1值都取得最高的分数㊂表3㊀基线与本文所提模型的实验结果模型P R F1CRF82.4882.3282.40BiLSTM-CRF89.8787.5488.69BERT-CRF92.590.6591.57BERT-BiLSTM-CRF93.591.292.34 4.实验分析本节从学习率㊁训练批大小方面分析了超参对性能的影响,此外,也比较分析了不同实体类型㊁不同文本长度的性能㊂(1)学习率影响图2显示了不同学习率对性能的影响,可以看到,当学习率为1e-5时,本文模型在精度㊁召回率和F1值达到了最好的性能㊂图2㊀不同学习率的性能(2)批训练大小的影响批训练大小也是重要超参之一㊂图3显示了不同批训练大小的F1值,可以看出,当批训练大小为16时,模型取得了最好的性能㊂图3㊀不同批训练大小的性能(3)不同类型实体识别结果表3给出不同类型的命名实体的识别比较结果㊂可以看出,书名实体的识别效果最差,人名识别效果最好,主要原因是书名的训练实例太少,而人名的训练实例比较多㊂此外,本文采用模型在所有的类型上都超过了BERT-CRF的识别性能㊂表3㊀模型对不同类型命名实体的识别比较类型BERT-CRF BERT-BiLSTM-CRF 人名(PER)92.4593.86书名(BOOK)83.4685.6官职名(OFI)91.1391.65 (4)不同文本长度的实验结果BiLSTM能抓住长距离依存特征㊂实验比较了不同文本长度的识别性的影响㊂我们样本按句子长度分为4组:小于10㊁大于等于10及小于30㊁大于等于30及小于50㊁大于等于50.表4给出本文模型与BERT-CRF的比较结果㊂可以看出,当文本长度㊃451㊃湖北科技学院学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀总第44卷小于10时,两个模型性能基本相同㊂随着文本长度增大,两个模型的识别性能差距不断变大,当长度大于50时,本文模型超过BERT-CRF模型达到2.11%㊂这显示本文模型能有效抓住长文本的长距离依存信息㊂表4㊀不同长度文本的识别F1值比较文本长度BERT-CF BERT-BiLSTM-CRF<1097.3197.3410ɤ㊃ɤ3094.1094.2130<㊃ɤ5088.5389.04>5078.3580.46㊀㊀(5)实例分析为了更好地与基线进行比较,表5给出了本文方法与BiLSTM-CRF在古文命名实体识别的实例分析㊂在例子1中,BiLSTM-CRF方法由于缺少更多的上下文语义信息,并没有识别出人名{王鐵槍| PER}㊂在例子2中,本文所提方法识别出了所有的实体,而BiLSTM-CRF把两个OFI实体没有识别准确,这说明本文所提方法能获得更多边界信息㊂表5㊀实例分析与比较序号句子实例BiLSTM-CRF BERT-BiLSTM-CRF1持一鐵槍,騎而馳突,奮疾如飛,而佗人莫能舉也,軍中號{王鐵槍|PER}㊂持一鐵槍,騎而馳突,奮疾如飛,而佗人莫能舉也,軍中號王鐵槍㊂持一鐵槍,騎而馳突,奮疾如飛,而佗人莫能舉也,軍中號{王鐵槍|PER}㊂2壬午,{匡國軍節度使|OFI}{劉知俊|PER}爲{潞州行營招討使|OFI}㊂癸巳,改卜郊㊂{張文蔚|PER}薨㊂壬午,匡國軍{節度使|OFI}{劉知俊|PER}爲潞州行營{招討使|OFI}㊂癸巳,改卜郊㊂{張文蔚|PER}薨㊂壬午,{匡國軍節度使|OFI}{劉知俊|PER}爲{潞州行營招討使|OFI}㊂癸巳,改卜郊㊂{張文蔚|PER}薨四㊁结论古籍文献命名实体识别是正确分析处理古籍文献文本的基础步骤,也是深度挖掘㊁分析古代人文知识与文化的重要前提㊂本文采用BERT-BILSTM-CRF模型实现对古籍文献命名实体识别,实验表明模型的准确率㊁召回率和F1值均达到了较好的效果㊂此外实验也显示本模型能有效抓住长距离文本的依存信息㊂虽然书名实体识别性能不佳,这主要是由于训练语料太少,模型训练不充分所致㊂本文主要研究人名㊁书名㊁官职名三类古籍文献命名实体㊂后期研究工作中,将收集整理更大规模的古籍文献命名实体语料,研究更多的不同类型的古籍文献命名实体,并进一步研究模型各项参数,训练更好的模型,为古籍文献命名实体识别提供帮助㊂参考文献:[1]㊀崔丹丹,刘秀磊,陈若愚,等.基于Lattice LSTM的古汉语命名实体识别[J].计算机科学,2020,47(S2):18-22.[2]㊀胡为,刘伟,石玉敬.基于BERT-BiLSTM-CRF的中医医案命名实体识别方法[J].计算机时代,2022(9):119-122+135.[3]㊀余馨玲,常娥.基于DA-BERT-CRF模型的古诗词地名自动识别研究 以金陵古诗词为例[J].图书馆杂志,2023,42(10):87-94+73.[4]㊀Devlin J,Chang MW,Lee K.Bert:Pre-training of deepbidirectional transformers for language understanding[J/OL].https:///pdf/1810.04805.pdf.11Oct.2018.[5]㊀Schuster M,Paliwal KK.Bidirectional recurrent neuralnetworks[J].IEEE transactions on Signal Processing.1997,45(11):2673-2681.[6]㊀McCallum A.Efficiently inducing features of conditionalrandom fields[C].//Inproceedings of the Nineteenthconference on Uncertainty in Artificial Intelligence,USA,7Aug.2002.[7]㊀Gao Z,Feng A,Song X,etal.Target-dependent senti-ment classification with BERT[J].Ieee Access,2019(7):154290-154299.[8]㊀Catelli R,Pelosi S,Esposito M.Lexicon-based vs Bert-based sentiment analysis:A comparative study in Italian[J].Electronics,2022,11(3):374.[9]㊀Guven Z A,Unalir M O.Natural language based analysisof SQuAD:An analytical approach for BERT[J].ExpertSystems with Applications,2022,195:116592. [10]Esmaeilzadeh A,Taghva K.Text classification using neu-ral network language model(nnlm)and bert:An empiri-cal comparison[C].//Intelligent Systems and Applica-tions:Proceedings of the2021Intelligent Systems Confer-ence(IntelliSys)Volume3.Springer International Pub-lishing,2022:175-189.[11]Souza F,Nogueira R,Lotufo R.Portuguese named entityrecognition using BERT-CRF[J/OL].https://arxiv.㊃551㊃2024年第3期㊀㊀㊀㊀㊀㊀㊀㊀㊀蔡维奕:基于BERT-BiLSTM-CRF古籍文献命名实体识别org/pdf/1909.10649.pdf.23Sep.2019. [12]Alsaaran N,Alrabiah M.Arabic named entity recogni-tion:A BERT-BGRU approach[J].Computers,Materi-als and Continua,2022,68:471-485.[13]Jiang S,Zhao S,Hou K,etal.A BERT-BiLSTM-CRFmodel for Chinese electronic medical records named entityrecognition[C].//12th international conference on intelli-gent computation technology and automation(ICICTA).IEEE,2019:166-169.[14]Tikhomirov M,Loukachevitch N,Sirotina A,ingbert and augmentation in named entity recognition for cy-bersecurity domain[C].//Natural Language Processingand Information Systems:25th International Conference onApplications of Natural Language to Information Systems,Germany,24–26June,2020.[15]Hakala K,Pyysalo S.Biomedical named entity recogni-tion with multilingual BERT[C].//Proceedings of the5thworkshop on BioNLP open shared tasks.ACL,2019:56-61.[16]Labusch K,Kulturbesitz P,Neudecker C,etal.BERTfor named entity recognition in contemporary and historicalGerman[C].//Proceedings of the15th conference on nat-ural language processing.ACL,2019:8-11. [17]Montejo-Ráez,A and Jiménez-Zafra,S.M.Current Ap-proaches and Applications in Natural Language Processing[J].Applied Sciences,2022,12(10):4859.Named Entity Recognition in Ancient Books andLiterature Based on BERT-BiLSTM-CRFCAI Wei-yi(School of Mathematics and Computer Science Northwest Minzu University,Lanzhou730030,China)Abstract:There are a lot of complex words,ambiguous words,variant characters,and other problems in ancient texts,making named entity recognition in ancient texts a challenging task.This paper proposes a named enti-ty recognition method for ancient texts based on the BERT-BiLSTM-CRF model.This method first uses a pre-trained language model BERT to model the context representation of characters,then processes the output of BERT through a BiLSTM model to solve the problem of long-distance dependencies and obtain richer feature information. Finally,these features are jointly modeled through a CRF model to achieve accurate identification of named entities in ancient documents.Experimental results show that the performance of BERT-BiLSTM-CRF exceeds all baseline models.Key words:Bilstm model;Bert model;Ancient texts责任编辑:彭茜珍㊃651㊃湖北科技学院学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀总第44卷。
基于CRF与规则的工程领域命名实体识别方法
作者:郭喜跃周琴陈前军
来源:《软件导刊》2014年第11期
摘要:在分析工程文本中命名实体实际特征的基础上,提出一种基于CRF与规则相结合的工程领域命名实体识别方法。
在完善用户词典并对文本进行分词后,以短语级的粒度为原则从中确定特征,将文本交由CRF算法进行处理;分析CRF的处理结果,根据语言学规律及工程文本特点编写规则,对CRF处理结果进行优化。
实验表明,该方法的全局F1值能够达到93.45。
关键词:命名实体识别;CRF;规则;工程文本
DOIDOI:10.11907/rjdk.143506
中图分类号:TP301文献标识码:A文章编号文章编号:16727800(2014)011002803
作者简介作者简介:郭喜跃(1983-),男,河南镇平人,华中师范大学国家数字化学习工程技术研究中心博士研究生,兴义民族师范学院信息技术学院实验师,研究方向为信息抽取。
0引言
命名实体识别(NER)是信息抽取的基础性工作,其任务是从文本中识别出诸如人名、组织名、日期、时间、地点、特定的数字形式等内容,并为之添加相应的标注信息,为信息抽取后续任务提供便利[1]。
传统方法有基于统计的NER和基于规则的NER,这两种办法各有优缺点,所以目前的研究趋势是考虑将这两种办法结合起来,从而促进识别效果的进一步提高。
2006年张华平等[2]提出了基于层叠HMM的中文NER方法,首先在词语粗切分的结果集上采用底层HMM模型识别出普通无嵌套的人名、地名等,然后依次采取高层HMM模型识别出嵌套了人名、地名的复杂地名和机构名。
2013年王厚峰等[3]提出了基于多步聚类的中文NER方法,首先通过两轮聚类将命名实体与知识库实体定义链接,通过层次聚合式聚类对知识库中未出现的实体进行聚类,最后进行普通词的识别和基于KMeans聚类的结果调整。
这些研究都有力推动了中文NER的发展。
当前中文NER研究主要集中在几个特定领域,针对工程领域的研究尚未出现。
工程领域的文本有其独有特点,如术语多、数据短语多、语法结构复杂、NER需要识别的种类多等。
现有研究成果在工程领域的NER方面很难取得理想效果。
本文将统计机器学习领域中较新的理论模型CRF与基于规则的方法相结合,期望在此领域有所突破。
1条件随机场CRF
CRF是一种无向图模型,它在给定一组输入随机变量条件下可获取另一组输出随机变量的条件概率分布,其特点是假设输出随机变量构成马尔可夫随机场,属于判别式模型。
与HMM 模型相比,CRF的不同点在于,它是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,所以CRF很适合进行标注一类的工作[4]。
设O={O1,O2,…,oT}为训练数据的输入数据序列,这里的输入数据序列可为文本中按顺序出现的字、词、短语或者标注等;再设S={s1,s2,…,sT}为测试文本中的状态序列。
在给定输入序列时,输出序列的条件概率表示为:P△(S|O)=exp(∑Tt=1∑Kk=1λkfk(st-1,st,O,t))/Z0其中,λ为特征值权重参数,f为特征函数,Z0为归一化函数,特征函数中的参数st和st-1分别表示测试文本当前输出状态和上一个输出状态,参数o为当前输入状态,参数t为当前处理的状态序号;Z0的具体过程为:Z0=∑Kk=1exp(∑Tt=1∑Kk=1λjfj(si-1,si,O,t))在理解和应用CRF的过程中,关键环节是权重参数λ的确定和特征函数f的选择。
特征的选择没有固定的形式,要根据标注目标、语料特征等,进行综合考虑,通常为输入状态序列特征或这些特征的组合;λ的值通常通过机器学习获得。
2基于CRF与规则的工程领域命名实体识别
2.1方法思想
提出一种基本CRF与规则相结合的工程领域NER方法,该方法的主要思想是:首先对文本进行预处理,在完善用户词典的基础上借助词法分析工具对文本进行分词及词性标注,并在训练语料中完成命名实体的人工标注;从文本中抽取出相应的特征;将训练语料交CRF算法进行学习,得到学习模型;以上述模型为依据,对测试语料进行处理,得到初步结果;将此结果交给规则处理模块进行修正,得到最终结果。
2.2文本预处理
从实际工程中获取原始文档,这些文档需要进行一定的处理。
(1)噪声过滤。
文本中会有一些不规范、不统一的内容,比如原始文档中包含的图片等,数据单位的表述不规范(如“平方米”的表述方法有m2、㎡等),可用正则表达式等方法对其进行规范化处理。
(2)文档分词。
常规的文本分词结果对工程领域NER没有良好的促进作用,这里采用维护用户字典的方法来提高文档分词的效果。
如前所述,工程文本的一个显著特征就是专有术语较多,且往往为若干普通字或词的随机组合。
为此在分词工具的用户字典中新增了大量专有术
语,并附带完整的词性设置,这样就可保证专有术语会被分成独立的词,从而提高它们作为一类实体而被识别的准确率。
部分字典维护内容示例如表1所示。
对工程文本中存在的识别目标进行综合分析后可以看出,一个实体的词性、上下文短语及其词性的组合,对于识别实体起着较大的决定作用。
另外,由于本方法不是以单个字为粒度进行分析的,所以具体单个基本词的长度对识别结果影响不大,而应考虑识别目标组合短语的长度。
综合研究后,选取表4所示的几组特征。
3.1基于CRF的NER实验与分析
由于目前还没有出现公认度较高的面向工程领域的语料,所以为了保证实验数据的真实可靠,从某市地铁规划建设部门获取了大量的设计与施工文档,经过预处理后形成了大约10万字的可用语料,80%作训练语料,20%作测试语料,以CRF++作为辅助工具。
使用CRF++的关键是参数C的确定,合理的C值能够在过度拟合和拟合不足之间找到最优的平衡点[6]。
将语料进行5折交叉验证,发现当C=2.5时效果最佳。
实验结果如表5所示。
3.2基于规则的NER结果修正实验
导致CRF识别错误的主要原因在于训练语料的质量,可以从两方面加以改进:①完善分词字典;②使用规则办法进行修正。
这里重点阐述使用规则的方法。
下面为部分规则的原理:
4结语
本文创新性地将NER应用到工程领域中,提出了基于CRF与规则相结合的工程领域命名实体识别方法,选取真实文档作为语料,根据工程文本的特点选取特征,并获得较合理的CRF 模型参数,最后根据CRF识别结果中存在的错误,对编制规则进行优化。
结果表明,该方法能够有效提高识别效果。
另外,实验还反映出该方法局部准确率较低,未来将完善此问题。
参考文献:
\[1\]WENLIANG CHEN,YUJIE ZHANG,HITOSHI ISAHARA.Chinese named entity recognition with conditional random fields[C].SIGHAN,2006:118121.
[2]俞鸿魁,张华平.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):8794.
[3]李广一,王厚峰. 基于多步聚类的汉语命名实体识别和歧义消解[J].中文信息学报,2013,27(5):2934.
[4]JOHN LAFFERTY,ANDREW MCCALLUM,FERNANDO C N PEREIRA. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]. ICML,2011:282289.
[5]周俊生.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804809.
[6]ADAM RADZISZEWSKI. A tiered crf tagger for polish[J]. Studies in Computational Intelligence,2013,457:215230.
[7]ZHOU JUNSHENG,QU WEIGUANG,ZHANG FEN.Chinese named entity recognition via joint identification and categorization[J].Chinese Journal of Electronics,2013,22(2):225230.
责任编辑(责任编辑:孙娟)。