当前位置：文档之家› 基于CRF的中文命名实体识别研究

基于CRF的中文命名实体识别研究

新词发现综述

新词发现综述廖先桃摘要：中文自动分词技术是自然语言处理领域一项很重要的基础工作，而随着新词的不断出现，它使中文分词结果中出现过多的“散串”，影响了分词的准确率。因此，新词识别已经成为中文自动分词的一个难点和瓶颈问题。本文从新词的概念出发，讨论了新词发现的技术及发展。关键词：新词发现中文分词 1 引言在中文信息处理领域，由于中文自身的特点，它不像英文那样在词与词之间有空格间隔，因此，中文自动分词是一项很重要的基础工作。但是随着社会和互联网的不断发展，新词语不断在日常生活中涌现。据中国语言文字工作委员会专家曾做的一个保守统计，中国自改革开放的20年来平均每年产生800多个新词语[1][2]。新词的出现，使得自动分词结果中出现过多的“散串”，从而影响了分词的准确率。最近的研究还显示，60％的分词错误是由新词导致的[20]。因此，有效地识别新词，将为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。 2 新词的概念目前，在中文分词领域出现了新词（New Words）和未登录词(Unknown Words)两种概念。很多研究者并没有对未登录词和新词加以区别，认为它们是一样的[12][13]。通常，未登录词被定义为未在词典中出现的词[3][4][5]。(Chen,1997)通过对一个规模为300万词汇的语料统计，将未登录词分为五种类别，包括 (a) 缩略词(abbreviation)，如“中油”、“日韩”； (b) 专有名词(Proper names)，主要包括人名、地名、机构名。如“张三”、“北京”、“微软”； (c) 派生词(derived words)，主要指含有后缀词素的词，如“电脑化”； (d) 复合词(compounds)，由动词或名词等组合而成，如“获允”、“搜寻法”、“电脑桌”； (e) 数字类复合词(numeric type compounds)，即组成成分中含有数字，包括时间、日期、电话号码、地址、数字等，如“2005年”、“三千”。新词虽然也是未在词典中出现的词，属于未登录词，但它和未登录词还是不同的。(周,et al.,2004)认为应该从两个方面把握新词的定义，(1)从词典参照的角度来说，新词语是指通过各种途径产生的、具有基本词汇所没有的新形式、新意义或新用法的词语[6]。即鉴定新词语的参照系是现代汉语基本词汇的词形、词义和词语的用法。(2)从时间参照角度来说，新词语是出现在某一时间段内或自某一时间点以来所首次出现的具有新词形、新词义或者新用法的词汇[7]。从语言学角度来讲，汉语中的新词语按照来源大体可以分为以下几类[2][6]： (1) 命名实体：包括人名、地名、商品名、公司字号、机构名等； (2) 缩略语：如“非典”、“计生委”等； (3) 方言词：如“靓”、“埋单”等； (4) 新造词：如“伊妹儿”、“美眉”等；

智能问答系统中命名实体识别问题研究

龙源期刊网 https://www.doczj.com/doc/1017597934.html, 智能问答系统中命名实体识别问题研究作者：费建军来源：《数字技术与应用》2017年第07期摘要：信息化时代的到来，人们从互联网中快速获得大量的信息。如何高效的从海量数据中获取有用的资源的需求和人工智能的兴起，促进了问答系统的发展。问答系统是构架于信息抽取之上，其影响着知识库的结构和解析问句的方式。命名实体是信息抽取领域的一个子集。所以本文主要是针对实体识别模型进行研究，本文介绍了三中主流实体识别模型的，并将股票实体作为研究对象，最终采用了CRF（Conditional Random Field）条件随机场模型。在该模型基础上根据上下文和词性特征，提出了CC-CRF识别算法。利用CRF++训练得到能够识别代码和名称的CC-CRF实体识别模型。关键词：股票；命名实体识别；CRF模型中图分类号：TP391.6 文献标识码：A 文章编号：1007-9416（2017）07-0093-04 命名实体通常指的是现实中独立存在的具体的或者抽象的事物[2]。如何使计算机能够理解自然语言是智能问答系统需要解决的一个关键问题。自然语言处理的研究范围包括词法分析、信息抽取、自动文摘等[1]。信息抽取领域中，命名实体识别作为重要分支[3]，其任务是标注语句中的实体，所以命名实体的识别有着非常关键的意义。作为文本的基本单位，它包含大量的语义信息，因此对命名实体进行识别可以保证最简单快捷的获得文本信息。他存在的价值就是标注语句中的实体，实体的识别对正确解析自然语言有着极其重要的作用。识别的实体领域一般为人名、机构名、地名以及专有名词等。在实际研究中，还需要根据具体要求来确定。本文中，要识别的实体为股票名称与股票代码[4]。命名实体识别在问句处理和知识库的构建方面发挥着关键性的作用。命名实体识别的方法主要有：基于规则和词典的方法、基于统计的方法和二者混合的方法[5]。本文介绍了四种命名实体识别模型（基于规则和词典的方法、隐马尔科模型、最大熵模型、条件随机场模型）以及每种模型的优缺点。在经过对比并且结合股票命名实体的特点，选择条件随机场作为投资领域命名实体的模型。并在此基础上提出了引入了上下文特征和词性特征的CC-CRF识别算法。使用该模型对语料训练得到CC-CRF模型，并对模型的识别效果进行测试。 1 相关工作与常规实体识别模型 1.1 基于规则和词典的方法

中文语义角色标注的特征工程

中文语义角色标注的特征工程1 刘怀军2，车万翔，刘挺（哈尔滨工业大学计算机学院，哈尔滨 150001）摘要：基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视，丰富多样的特征直接决定语义角色标注系统的性能。本文针对中文的特点，在英文语义角色标注特征的基础上，提出了一些更有效的新特征和组合特征：例如，句法成分后一个词、谓语动词和短语类型的组合、谓语动词类别信息和路径的组合等，并在Chinese Proposition Bank(CPB)语料数据上，使用最大熵分类器进行了实验，系统F-Score由89.76%增加到91.31%。结果表明，这些新特征和组合特征显著提高了系统的性能。因此，目前进行语义角色标注应集中精力寻找丰富有效的特征。关键词：语义分析；语义角色标注；特征工程；最大熵分类器 Feature Engineering for Chinese Semantic Role Labeling Huaijun Liu, Wanxiang Che, Ting Liu (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001) Abstract: In the natural language processing field, researchers have experienced a growth of interest in semantic role labeling by applying statistical and machine-learning methods. Using rich features is the most important part of semantic parsing system. In this paper, some new effective features and combination features are proposed, such as next word of the constituent, predicate and phrase type combination, predicate class and path combination, and so on. And then we report the experiments on the dataset from Chinese Proposition Bank (CPB). After these new features used, the final system improves the F-Score from89.76% to 91.31%. The results show that the performance of the system has a statistically significant increase. Therefore it is very important to find better features for semantic role labeling. key words: Semantic Parsing; Semantic Role Labeling; Feature Engineering; Maximum Entropy Classifier 1基金资助：自然科学基金60435020, 60575042, 60503072 2作者简介：刘怀军（1982-），男，山西人，硕士研究生，hjliu@https://www.doczj.com/doc/1017597934.html,

【CN109977402A】一种命名实体识别方法及系统【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910202512.9 (22)申请日 2019.03.11 (71)申请人北京明略软件系统有限公司地址 102218 北京市昌平区东小口镇中东路398号中煤建设集团大厦1号楼5层 (72)发明人张金贺　徐安华　欧阳佑　 (74)专利代理机构北京安信方达知识产权代理有限公司 11262 代理人柳倩　栗若木 (51)Int.Cl. G06F 17/27(2006.01) (54)发明名称一种命名实体识别方法及系统 (57)摘要本申请公开了一种命名实体识别方法及系统，所述方法包括：对待处理文本进行预处理，得到预处理结果；根据所述预处理结果得到对应所述待处理文本的上下文信息敏感的字符级表达信息；创建与不同命名实体类型一一对应的条件随机场CRF解码单元，各条件随机场CRF解码单元分别对所述上下文信息敏感的字符级表达信息进行解码，生成各命名实体类型对应的标签序列；分别根据各标签序列抽取对应的命名实体。本申请解决了现有技术中对于重叠的命名实体识别方案中所存在的效率低下的问题，通过共享机制减少了冗余信息，降低了推理时间，使得不同类型实体识别时能够进行相互协助，从而提升了单类实体的识别效果。权利要求书2页说明书6页附图3页CN 109977402 A 2019.07.05 C N 109977402 A

权　利　要　求　书1/2页CN 109977402 A 1.一种命名实体识别方法，其特征在于，包括：对待处理文本进行预处理，得到预处理结果；根据所述预处理结果得到对应所述待处理文本的上下文信息敏感的字符级表达信息；创建与不同命名实体类型一一对应的条件随机场CRF解码单元，各条件随机场CRF解码单元分别对所述上下文信息敏感的字符级表达信息进行解码，生成各命名实体类型对应的标签序列；分别根据各标签序列抽取对应的命名实体。 2.根据权利要求1所述的方法，其特征在于，其中，所述预处理结果的类型包括：对应所述待处理文本的字符集，对所述待处理文本进行分词后的词汇集，对所述待处理文本进行句子切分后的句子集和对应所述词汇集的词性集。 3.根据权利要求2所述的方法，其特征在于，所述根据所述预处理结果得到对应所述待处理文本的上下文信息敏感的字符级表达信息，包括：根据所述预处理结果的类型构建与所述类型对应的特征信息；对所述特征信息进行处理，得到对应所述待处理文本的上下文信息敏感的字符级表达信息。 4.根据权利要求3所述的方法，其特征在于，其中，所述特征信息包括：对应所述字符集的字符编码信息，对应所述词汇集的分词边界信息，对应所述句子集的句子边界距离信息和对应所述词性集的词性特征信息。 5.根据权利要求4所述的方法，其特征在于，所述对所述特征信息进行处理，得到对应所述待处理文本的上下文信息敏感的字符级表达信息，包括：利用双向长短时记忆循环神经网络从正向和反向两种维度扫描所述特征信息，构建出对应所述待处理文本的上下文信息敏感的字符级表达信息。 6.一种命名实体识别系统，其特征在于，包括：文本预处理模块，设置为对待处理文本进行预处理，得到预处理结果；编码模块，设置为根据所述预处理结果得到对应所述待处理文本的上下文信息敏感的字符级表达信息；多任务CRF解码模块，设置为创建与不同命名实体类型一一对应的条件随机场CRF解码单元，各条件随机场CRF解码单元分别对所述上下文信息敏感的字符级表达信息进行解码，生成各命名实体类型对应的标签序列；输出整合模块，设置为分别根据各标签序列抽取对应的命名实体。 7.根据权利要求6所述的系统，其特征在于，其中，所述预处理结果的类型包括：对应所述待处理文本的字符集，对所述待处理文本进行分词后的词汇集，对所述待处理文本进行句子切分后的句子集和对应所述词汇集的词性集。 8.根据权利要求7所述的系统，其特征在于，所述编码模块，具体设置为：特征抽取模块，设置为根据所述预处理结果的类型构建与所述类型对应的特征信息；上下文表达构建模块，设置为对所述特征信息进行处理，得到对应所述待处理文本的上下文信息敏感的字符级表达信息。 9.根据权利要求8所述的系统，其特征在于，其中，所述特征信息包括：对应所述字符集的字符编码信息，对应所述词汇集的分词边界信息，对应所述句子集的句子边界距离信息 2

中文命名实体识别方法研究及其在文本分类中的应用

中文命名实体识别方法研究及其在文本分类中的应用Chinese Named Entity Recognition Study and Application in Text Categorization (申请清华大学工程硕士专业学位论文) 培养单位：软件学院工程领域：软件工程申请人：刘彬指导教师 : 李春平副教授二○○九年五月

中文命名实体识别方法研究及其在文本分类中的应用刘彬

关于学位论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定，即：清华大学拥有在著作权法规定范围内学位论文的使用权，其中包括：（1）已获学位的研究生必须按学校规定提交学位论文，学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文；（2）为教学和科研目的，学校可以将公开的学位论文作为资料在图书馆、资料室等场所供校内师生阅读，或在校园网上供校内师生浏览部分内容；（3）根据《中华人民共和国学位条例暂行实施办法》，向国家图书馆报送可以公开的学位论文。本人保证遵守上述规定。（保密的论文在解密后遵守此规定）作者签名：导师签名：日期：日期：

摘要命名实体是一篇文章的基本信息元素，是正确理解文本的基础。命名实体识别就是判断文本中的一个字符串是否代表实体并确定实体的类别。由于中文自身的特点，中文命名实体识别相比于英文命名实体识别具有更大的难度。哪些措施可以尽可能的提高中文命名实体识别的效果？如何减少分词的确定性切分误差导致的命名实体识别的错误？命名实体识别技术如何有效的用到其他自然语言处理技术当中？本文将围绕这些问题展开研究。本文首先采用一种针对不同实体使用不同标注策略的中文命名实体识别方法并基于链式条件随机场实现了此方法。在此基础上，对利用中文语言学特点提高中文命名实体识别效果，动态随机场模型用于组织机构名识别，中文命名实体识别技术用于文本分类等问题做了研究。本文的主要贡献包括：采用一种针对不同实体使用不同标注策略的中文命名实体识别方法并基于链式条件随机场实现了此方法。同时，收集整理了若干语言学资料，以字典和词典的形式加入到链式条件随机场的特征模板当中，丰富了此方法的特征模板。通过和同类方法的比较，证明了我们的方法能够得到较好的识别效果。提出了一种基于动态条件随机场的识别方法用于中文组织机构名的识别。此方法将中文分词和组织机构名识别融合到一个统一的过程当中，与同类方法相比能够取得更高的召回率，此方法尽可能的避免了分词的确定性切分的误差导致的命名实体识别的错误。将中文命名实体识别技术用于中文文本分类任务。考虑到现有的特征选择方法都是基于概率统计模型，没有考虑到文章本身的语义信息，我们提出了一种引入命名实体识别技术的文本分类特征选择方法，并针对命名实体提出了对应的特征加权方法。通过和文本分类中常用的特征选择及特征加权方法比较，证明我们的方法是有效的。关键词：中文命名实体识别链式条件随机场动态条件随机场文本分类 I

参考文献著录规范

参考文献著录规范参考文献的规范使用，既体现科研论文的严谨态度，也是对前人研究成果的尊重。为规范参考文献的使用要求，请遵照国家标准《文后参考文献著录规则》（GB/T 7714-2005），归纳总结如下。 1著录格式 1. 1参考文献类型及其标志(见下表) 文献类型和标志代码电子文献载体类型和标志代码普通图书 M 数据库 DB 会议论文 C 计算机程序CP 报纸文章 N 电子公告 EB 期刊文章 J 网络期刊 J/OL 学位论文 D 电子文档 EB/OL 报告 R 网络报告 R/OL 标准 S 网络专利 P/OL 专利 P 汇编 G 联机网络网络数据库 DB/OL 参考工具 K 1.2一般性著录要求（1）著者英文名统一采用“姓+名简称”形式，首字母大写。如：Piggot T M，Sandhu R 。（2） 3个以下（含3个）著者全部著录，“,”分隔。著者超过3个，只著录前3个，后加“等”或者“et al”。（3）参考文献每个著录项之间用“.”分隔。（4）英文文献对文题名及刊名著录时，文题名及刊名所有单词首字母大写，其他全部小写，刊名用斜体标识。以下对各种参考文献的著录格式分别给出详细的解释，红色标注部分为任选项，有则提供，请参考应用：

表1 常用参考文献文献类型文献标注示例 (1)专著[序号] 主要责任者. 书名[M]. 其他责任者(如编者、译者). 版本. 出版地：出版者，出版年：起止页码. [1] 霍国庆. 企业战略信息管理[M]. 北京：科学出版社， 2001：230. [2] 施瓦尔贝 K. IT项目管理[M]. 邓世忠译. 2版. 北京：机械工业出版社, 2002：35-45. [3] Piggot T M. The Cataloguer’s Way through AACR2：from Document Retrieval[M]. McGrsw Hill, 2001. (2)期刊[序号] 析出责任者. 析出题名[J]. 刊名，出版年，卷号（期号）：起止页码. [4] 张旭, 张通和, 易钟珍, 等. 采用磁过滤MEVVA 源制类金刚石膜的研究[J]. 北京师范大学学报：自然科学版，2002， 38(4)：478-481. [5] 王昊.基于层次模式匹配的命名实体识别模型[J].现代图书情报技术,2007（5）：62-68. [6] Piterniek A B. Functions and Capabilities of Online Searching Systems: a Checklist[J]. Online Review, 1989,13(6):466-469. (3)学位论文[序号] 责任者.题名[D].学位授予地址：学位授予单位，年份. [7] 王亚军.整装催化剂及催化转化器若干研究[D].北京：北京理工大学，2000. [8] Young L C. The Application of Orthogonal Collocation to Laminar Flow Heat and Mass Transfer in Monolith Converters[D]. Washington: University of Washington, 1974. (4)会议论文集[序号] 责任者. 题名[C]. 见（英文用“In”）:编著者.文集名或者会议名,会址.出版地：出版机构，出版年：起止页码. [9] 辛希孟.信息技术与信息服务国际研讨会论文集：A集［C］. 北京：中国社会科学出版社，1994. [10] Sandhu R, Park J. Usage Control: A vision for Next Generation Access Control[C]. In:Proceedings of the 2nd International Workshop on Mathematical Methods, Models and Architectures for Computer Networks Security. LNCS 2776. Berlin: Springer-Verlag, 2003: 17-31. (5)电子文献[序号]主要责任者．电子文献题名[电子文献及载体类型标识]．（发表或更新日期）.[作者访问日期].电子文献的出处或可获得地址（网址）. [11] 中国互联网信息中心. 2005年中国互联网络信息资源数量调查报告[R/OL].[2007-09-28]. https://www.doczj.com/doc/1017597934.html,/index/0E/00/12/index.htm. [12]Hadoop分布式文件系统：体系和设计 [EB/OL].[2006-06-25]. https://www.doczj.com/doc/1017597934.html,/html/2007-04/1690.html [13] Christine M. Plant Physiology: Plant Biology in the Genome Era[J/OL]. Science, 1998, 281（5375）:331-332. [2005-09-23].https://www.doczj.com/doc/1017597934.html,/cgi/collection/anatmorp. 注：①电子文献的访问日期采用“[年-月-日]” （XXXX-XX-XX）格式标注，如[2006-01-28]。 ② 网上电子期刊，还须注明期刊名，年（卷）：页码。请参考示例[13]。表2 不常用参考文献文献类型文献标注示例 (6)专著中析出文献 [序号] 析出责任者.析出题名[A].析出其他责任者（如编者、译者）. // 专著责任者.书名[文献类型].版次.出版地：出版机构，出版年：起止页码. [14] 罗云.安全科学理论体系的发展及趋势[A].//白春华，何学秋，吴宗之，等.21世纪安全科学与技术的发展趋势[M]. 北京：科学出版社，2005. [15] 胡伯陶.天然彩色棉的状况和产业发展的研究[A]//中国纺织工程学会.第9届全国花式纱线及其织物技术进步研讨会论文集［C］.北京：中国纺织信息中心，2002：24-33. [16] Dicheva D, Dichev C. Authoring Educational Topic Maps: Can We Make it Easier[A]// 5th IEEE International Conference on Advanced Learning Technologies(ICALT2005)[C]. Taiwan,2005：216-219. (6)专利[序号]专利申请者或所有者.专利名: 专利国别（地区），专利号[P].公告日[17] 杨林.移动电话机：中国，CN99115146.1[P].2001-03-28. [18]杨林江.沥青混凝土再生搅拌机:中国，CN200510049046.3