基于条件随机场的中文分词方法_迟呈英

格式：pdf
大小：111.23 KB
文档页数：3

下载文档原格式

一种基于自动机的分词方法

一种基于自动机的分词方法
吴建胜;战学刚;迟呈英
【期刊名称】《计算机工程与应用》
【年(卷),期】2005(041)008
【摘要】该文介绍一种简洁有效的快速分词方法,并通过理论分析和实验对比说明几种分词方法的效率差异,以说明文章所提出方法的有效性.
【总页数】3页(P81-82,85)
【作者】吴建胜;战学刚;迟呈英
【作者单位】鞍山科技大学计算机科学与工程学院,辽宁,鞍山,114044;鞍山科技大学计算机科学与工程学院,辽宁,鞍山,114044;鞍山科技大学计算机科学与工程学院,辽宁,鞍山,114044
【正文语种】中文
【中图分类】TP301.1
【相关文献】
1.一种基于特征嵌入神经网络的中文分词方法 [J], 王文涛;穆晓峰;王玲霞
2.一种基于字的多模型中文分词方法 [J], 张少阳;王裴岩;蔡东风;
3.一种基于双向LSTM的联合学习的中文分词方法 [J], 章登义; 胡思; 徐爱萍
4.一种基于LSTM的端到端多任务老挝语分词方法 [J], 郝永彬;周兰江;刘畅
5.一种基于分词和遗传算法的题库解析方法 [J], 夏德虎
因版权原因，仅展示原文概要，查看原文内容请购买。

结合CRFs的词典分词法

ＺＨＡＮＧｈｏＧｕ．ＡＧＮＧｅｇＬｉｎＳｕ — ｏＷＣｈｎ．ａｇ
（ｐｒｎｆｏｕｅ，ｈｎｑｎｉｅｓｙＣｏｇｉｇ４０４，ｈｎ）ＤｅａｔｔｍｐｔｒＣｏｇｉｇＵｎｖｒｉ，ｈｎｑｎ００４ＣｉａｍｅｏＣｔ
【ｆ
机场模型（Ｒｓ。３部分介绍作者提出的分词方案。ＣＦ）第
第４部分通过分析和实验说明新方案与传统的分词法
童荚宁Ｉ键
，
一＿ｌ医Ｌ＿．＿ＬＴｌ．
、、『
相比，更适应于对速率和正确率都有要求的系统。第
关键词：条件随机场：分词：交叉歧３；组合歧５；字匹配ＬＬ逐
ＤｉｔｏａｙＣｈｉｓｏｄＳｅｍｅａｉｎＭｅｈｍｂｎｄｗｉｈＣＲＦＳｃｉｎｒｎｅｅＷｒｇｎｔｔｏｔｏｄＣｏｉｅｔ
歧义与组合歧义带来的问题。文以词典分词为基础，本从序列标注的角度，在逐字匹配过程中使用ＣＦＲｓ
标注模型提供辅助决策，由此来处理歧义问题。经实验和分析，该方法较传统的ＣＦ模型分词法和Ｒｓ
词典分词，更适合对分词速率及正确率都有一定要求的系统。
Ｋｅｗｏｄ：Ｆ；ｒｅｍｅｔｔｎｓｇｎｉｇａｉｕｕｎｓ；ｏｉａｏｉｌｍｂｇｉ；ｔｈｇｌｅａｙｒｓＣＲｓｗｏｄｓｇｎａｉ；ｅｍｅｔｍｂｇｏｓｅｓｃｍｂｎｔｒｏｎａａｉｕｔｍａｃｉｔｒｌｙｎｉ

基于条件随机场的古汉语自动断句与标点方法

I SSN 100020054 清华大学学报(自然科学版) 2009 年第49 卷第10 期39ƒ39 C N 1122223ƒN J T s ingh ua U n iv (Sci & Tech) ,2009, V o l. 49, N o. 10173321736基于条件随机场的古汉语自动断句与标点方法张开旭1 , 夏云庆2 , 宇航1(1. 清华大学计算机科学与技术系, 北京100084; 2.清华大学清华信息科学与技术国家实验室, 北京100084)摘要: 标点符号在现代汉语中扮演着重要的角色, 但古代汉语中却不含有任何标点。

这使得现代中国人阅读古代文献有严重的困难。

该文提出一个基于条件随机场(CR F) 的古汉语自动断句标点方法, 并引入互信息和t2测试差两个统计量作为模型的特征。

分别在《论语》与《史记》两个语料库上进行了充分实验, 该方法在《论语》断句处理F 1 分数上超出现有方法0. 124, 在《论语》标点和《史记》断句、标点处理上也取得了满意效果。

实验证明: 基于条件随机场的方法能较好解决古文自动标点处理问题; 层叠条件随机场策略亦优于单层条件随机场策略。

关键词: 计算机信息处理; 古汉语标点; 条件随机场(CR F)中图分类号: T P 391. 1文献标识码: A 文章编号: 100020054 (2009) 1021733204CRF-ba sed approach to sen tencesegm en ta t ion and punctua t ion foranc ien t Ch in ese proseZHANG Ka ixu1, X IA Yunq ing2, YU Ha ng1(1. D epartm en t of Com puter Science and Technology,Tsinghua U n iversity, Be ij ing 100084, Ch ina;2. Tsinghua National Laboratory for Inform a t ion Sc ie nce andTechnology, Tsinghua Un iversity, Beij ing 100084, Ch ina)Abstract: T hough punct uat ion is i m po rtant in modern Ch inese, punctuat ion m ark s w ere no t used in ancient Chinese. Thus, ancient Ch inese lit erature is very hard f o r modern Chinese to read. T his arti cle p resents a condit iona l random f ield (CR F) based app roach to autom ate anci ent Ch inese p r o se punctuat ion using the m utual inf o r m at ion and the t2test difference as f eatures. T ests on L uny u and S h ij i show that t he app roach outperfo r m s the state2of2the2a rt m ethod by 0. 124 on the F 1 sco re f o r sentence segm entat ion. Thus, th is app roach yields p rom ising result s f o r sentence punctuat ion analysis on bo th L uny u and S h ij i. The cascaded CRF app roach can deal w ith ancient Ch inese p ro se punctuat ion analysis mo re effectively than the single CR F.Key words: comput er inf o r m at ion p rocessing; punct uat ion m ark of anci ent Chinese; condit iona l random f ield (CRF)中国古代文献无标点, 不断句。

基于条件随机场CRFs的中文词性标注方法_洪铭材

· 148 ·
行文本标注时 , 先对文本进行初始标注 , 然后按照规则获取的次序应用规则进行标注。该方法在英文词性标注上取得了很好的效果。其主要问题是学习规则的时间过长。针对这一问题 , 周明等提出一个快速学习算法 , 使训练速度大大提高[ 2] 。
③基于统计的方法。基于统计的方法是目前应用最广泛的词性标注方法。白栓虎提出基于统计的汉语词性自动标注方法 , 使用二元语法模型和动态规划的方法进行汉语的词性标注。当前大部分汉语词性系统采用基于二元语法模型或三元语法模型的隐马尔可夫模型 , 通过 EM 训练的方法 , 给每个词和词性标签对分配一个联合概率 , 通过维特比解码的动态规划方法来获取一个句子对应的最佳的词性标注序列。隐马尔可夫模型的缺点是假设词的词性只与词本身和它前面的 n 个词有关 , 而与该词后面的词没有关系。这个假设与实际情况并不吻合。基于最大熵模型的词性标注方法 , 有效地利用了上下文信息 , 在一定的约束条件下可以得到与训练数据一致的概率分布 , 得到了很好标注效果。但是最大熵模型存在一种称为“ label bias” 问题的弱点[ 1] , 在某些训练集上得到的模型可能会得到很差的标注效果。常见的基于统计的方法还有神经元网络、决策树、线性分离网络标注模型等。
词性标注是自然语言处理的重要内容之一 , 是其他信息的标注正确率 , 其封闭测试和开放测试的准确率分别为 98.
处理技术的基础 , 被广泛地应用于机器翻译、文字识别、语音 56%和 96.60 %, 兼类词和未登录词的标注也取得了很好的

中文分词技术的研究现状与困难

四、解决方案
为了克服中文分词技术的研究困难，以下一些解决方案值得：
1、优化分词算法：针对分词算法的复杂性问题，可以尝试优化算法的设计和实现，提高其效率和准确性。例如，可以通过引入上下文信息、利用语言学知识等方式来改进算法。
2、改进信息检索技术：在信息检索领域，可以尝试将先进的排序算法、推荐系统等技术引入到检索过程中，以提高检索效果。此外，还可以研究如何基于用户行为和反馈来优化检索结果。
3、缺乏统一的评价标准：中文分词技术的评价标准尚未统一，这使得不同研究之间的比较和评估变得困难。建立通用的中文分词技术评价标准对于推动相关研究的发展至关重要。
4、特定领域的应用场景：中文分词技术在不同领域的应用场景中面临着不同的挑战。例如，在金融领域中，需要分词技术对专业术语进行精确识别；在医疗领域中，需要处理大量未登录词和生僻字。如何针对特定领域的应用场景进行优化，是中文分词技术的重要研究方向。
3、建立大型标注语料库：通过建立大型标注语料库，可以为分词算法提供充足的训练数据，提高其准确性和自适应性。此外，标注语料库也可以用于开发基于规则的分词方法和测试集的构建。
4、研究跨领域的应用场景：针对不同领域的应用场景，可以研究如何将中文分词技术进行迁移和适配。例如，可以通过知识图谱等技术将不同领域的知识引入到分词过程中，以提高分词效果。
然而，各种分词方法也存在一定的局限性和不足。例如，基于规则的分词方法需要人工编写规则和词典，难以维护和更新；基于统计的分词方法需要大量标注语料库，而且训练模型的时间和计算成本较高；基于深度学习的分词方法虽然取得了较好的效果，但也需要耗费大量的时间和计算资源进行训练。
三、研究困难
中文分词技术的研究面临着诸多困难和挑战，以下是一些主要词方法：该方法主要依靠人工编写的分词规则来进行分词。代表性的工作包括台湾大学开发的中文分词系统“THULAC”和北京大学开发的“PKU中文分词系统”。这些系统均基于词典和规则，具有较高的准确率和召回率。

基于条件随机场的中文分词方法_迟呈英

(a) Cn ( n = - 2 , - 1 ,0 ,1 ,2) ( b) CnCn+1 ( n = - 2 , - 1 , 0 , 1 , 2) (c) Pu ( C0) ( d) T ( C- 2) T ( C- 1) T ( C0) T ( C1) T ( C2) 其中 , C 代表着中文字符 ; C0 代表着当前字符 ; n 是相对于当前字符所处的位置。比如 , 在序列“辽宁科技大学的学生”中 , 假如当前字符是 ‘的’,那么 C0 表示‘的’; C- 1 表示‘学’; C2 表示‘生’。Pu ( C0) 是针对分词语料在中存在的标点符号 (预先搜集 , 比如‘。’、 ‘ ?’等) 而设置的特征 ; T ( Cn) 是针对分词语料中实体名词而设置的特征。这主要针对诸如日期、时间等和数字符号相关的词类。
语料 Uppen Msra
准确率 95. 8 % 95. 9 %
召回率 91 % 94. 5 %
F值 92. 9 % 95. 2 %
切分准确率 ( Precision)
=
正确切分的数量总的切分数量
召回率 ( Recall)
=
正确切分的数量测试集中实有切分的数量
F
值 ( Fscore)
=
2
×Precision Precision +
f k ( yi - 1 , yi , x) 是针对边、捕获标记转移特征的状态特征函
K′
6 数。exp ( λ′kf ′k ( yi - 1 , yi , x) ) 是针对每个结点的非负因子。 k =1
f′k ( yi , x) 是针对结点、捕获当前标记特征函数。λ和λ′都是
待学习的模型参数 ,表示特征函数的权重。

基于条件随机场的中文分词方法

迟呈英于长远战学刚
（宁科技大学辽摘要鞍山１４５）１０１
提出了一种基于条件随机场（ｏｄｔＩｌａｄｍＦｅｓ简称ＣＦ的中文分词方法。ＣＦ模型剃用词的上ＣｎｉｏａＲｎｏｉｄ，ｉｌ！Ｒ）Ｒ
频率进行统计，不需要切分词典，而因而又叫作元词典分词法
田１
镊式采件雕机场
在序列标注任务中，机变量Ｘ＝｛，，｝示可随Ｘ … Ｘ表
或统计取词方法，主要包括基于引马尔可夫模型、于最大其基
生成的有向图模型（ｏ —ｇｎｒｔｅｄｒｔｄｇａｈａｍｏｅ）ｎｎｅｅａｉｉｃｅｒｉｌｄｌｖｅｐｃｓ
（）ｘ（ ∑ （，ｉ）＝ｅ ∑ ｐｃＹ，）ｘ
（２）
ቤተ መጻሕፍቲ ባይዱ
所固有的“ 记偏置 ” 】１ｅ—ｂｓ（ｏｎＬｆｒ，０１的标［（ａｌｉ）Ｊｈａｅｔ２０）ｂａｙ
是只依赖于观测序列的归一化函数（ｏｍａｚｇｎｒｌｉｉｎ
ｆｃｏ）ａｔｒ
立假设，时克服了最大熵马尔可夫模型（ｘｍｕｎｒｐ同ＭａｉｍＥｔｙｏＭａｋｖＭｏｅ，ＭＥｒｏｄＩＭＭ）ｎｒｗＭｃａｕ２０）其他非（ＡｄｅＣｌｍ，００和ｌ
别出一个词）按照扫描方向的不同，匹配分词方法又可分。串为正向和逆向匹配；照优先匹配的原则，分为最大和最小按可匹配。ｂ基于理解的分词方法：种分词方法是通过让计算．这机模拟人对句子的理解，到识别词的效果，称人工智能达也法。Ｃ基于统计的分词方法：种方法只需对语料中的字组．这

基于条件随机场的中文分词算法改进

Ｙａｔｉｈｎｏｇ２４０，Ｃｉａ２ＭｉｉｒｐｅｅｔｔｅｕｅｕｏＤｉｈｎＷｕａｂｉ３０４，ＣｉａｎａＳａｄｎ６０１ｈｎ；．ｌａｙＲｅｒｓｎａｉｓＢｒａｆｔｖＮＥｎＷｕａ，ｈｎＨｕｅ４０６ｈｎ）
摘要：在中文分词领域，基于字标注的方法得到广泛应用，通过字标注分词问题可转换为序列标注问题，现在分词效果最好的是基于条件随机场（Ｒｓ的标注模型。作战命令的分词是进行ＣＦ）作战指令自动生成的基础，在将ＣＦ模型应用到作战命令分词时，时间和空间复杂度非常高。为Ｒｓ提高效率，对模型进行分析，根据特征选择算法选取特征子集，有效降低分词的时间与空间开销。利用ＣＦ置信度对分词结果进行后处理，进一步提高分词精确度。实验结果表明，特征选择算法Ｒｓ
ｉａａｙｅｎｅｔｒｓｂｅｓｒｓｌｃｅｙｓｎｔｆａｕｒｓｌｃｉｎｌｏｉｈ，ｗｈｃｃｔｔｅｓｎｌｚｄａｄｆａｕｅｕｓｔａｅｅｅｔｄｂｕｉｇｈｅｅｔｅｅｅｔｏａｇｒｔｍｉｈｕｈ
（，，）Ｐｆ为状态转移特征函数；ｇ（，Ｘ为状态特征函数；Ｙｋｖ，）Ｊ
和是由训练样本得到的特征权重；ｋ为特征
函数编号；ｖ为中的节点。计算特征权重函数采用极大似然估计方法。ＣＦ指数模型为凸函数，可采用迭代Ｒｓ

基于条件随机场方法的汉语专利文本介词短语识别

基于条件随机场方法的汉语专利文本介词短语识别（实用版4篇）目录（篇1）I.引言A.研究背景B.研究目的C.研究意义II.相关工作A.专利文本处理B.介词短语识别C.条件随机场方法III.方法介绍A.条件随机场模型B.介词短语特征提取C.模型训练与评估IV.实验设计A.数据集与预处理B.实验参数设置C.实验流程V.实验结果A.准确率对比B.F1得分对比C.时间消耗对比VI.分析和讨论A.结果解释B.方法优缺点分析C.未来工作展望VII.结论A.方法有效性验证B.方法在专利文本中的应用前景C.对相关工作的启示和影响正文（篇1）基于条件随机场方法的汉语专利文本介词短语识别是近年来受到广泛关注的研究领域。

介词短语在汉语中扮演着重要的语法角色，对专利文本的理解和分析具有重要意义。

本文提出了一种基于条件随机场方法来识别汉语专利文本中的介词短语。

首先，介绍了条件随机场模型的基本原理和专利文本处理的相关工作。

然后，详细阐述了如何提取介词短语的特征，并使用条件随机场方法进行训练和评估。

最后，通过实验对比了不同方法的准确率、F1得分和时间消耗，验证了本文方法的有效性。

目录（篇2）1.引言2.条件随机场方法介绍3.汉语专利文本介词短语识别方法4.实验与结果5.结论正文（篇2）一、引言随着人工智能技术的发展，自然语言处理成为其中的一个重要领域。

在自然语言处理中，词法分析是一个基本任务，而介词短语识别则是词法分析中的一个重要组成部分。

近年来，条件随机场方法在汉语词法分析中得到了广泛的应用。

本文将介绍基于条件随机场方法的汉语专利文本介词短语识别方法。

二、条件随机场方法介绍条件随机场（CRF）是一种基于概率模型的方法，用于处理序列标注问题。

它通过将序列中的每个标记视为一个条件概率来建模序列的联合概率分布。

在汉语专利文本介词短语识别中，条件随机场可以用于建模介词短语的识别。

三、汉语专利文本介词短语识别方法1.数据预处理：对专利文本进行分词、去除停用词等预处理操作，为后续的模型训练做准备。

基于条件随机场的汉语词汇特征研究

１相关研究概述
１１条件随机场ＣＲＦ［５］是一种统计模型。由隐马尔可夫模型（ｈｉｄｄｅｎ
Ｍａｒｋｏｖｍｏｄｅｌ，ＨＭＭ）理论与最大熵模型（ｍａｘｉｍｕｍｅｎｔｒｏｐｙ，ＭＥ）理论发展而来，同时具有这两种模型的优势。相比于ＨＭＭ，ＣＲＦ可以使用复杂的特征函数对指定信息进行评判，在训练过程中能够充分利用特征函数指定的文本上下文信息进行参数调整，从而在推理分词过程中应用上下文信息。
ቤተ መጻሕፍቲ ባይዱ
ＳｔｕｄｙｏｆＣｈｉｎｅｓｅｌｅｘｉｃａｌｆｅａｔｕｒｅｓｂａｓｅｄｏｎｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓ
ＨｕａｎｇＤｉｎｇｑｉ，ＳｈｉＳｈｅｎｇｈｕｉ
（ＣｏｌｌｅｇｅｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ＆Ｔｅｃｈｎｏｌｏｇｙ，ＢｅｉｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＣｈｅｍｉｃａｌＴｅｃｈｎｏｌｏｇｙ，Ｂｅｉｊｉｎｇ１０００２９，Ｃｈｉｎａ）
以上研究着重考虑特定领域的指定信息特征，其提取方法对标注集的依赖性较强，在其他领域应用该方法时均需要花费大量的精力构建标注集。本文研究了基于条件随机场的汉语语言特征，在汉语文本只具有简单标注的条件下，尝试从中提取其行文特征，寻找汉语文本的词汇特征，使其能够在简单标注的语料下实现较好的性能。
随着机器学习的发展，信息提取（ｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎ，ＩＥ）技术已经逐渐被应用在各个领域的生产过程中，建立各个领域的智能知识库成为越来越迫切的需求。其中从各式各样的文字说明和描述中提取信息关键词，即命名实体识别（ｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ，ＮＥＲ），是一项必备而重要的工作。关于汉语命名实体识别的研究，目前主要集中于特定领域中的特定格式文本的特定关键字识别。例如，文献［１］基于医学领域中的中文临床病历内容，研究病历记录中的疾病、症状以及时间记录等关键信息；文献［２］从模型方法对比、特征标注集的角度研究从医药领域的药品说明中抽取症状信息的自动化方法，发现增加有效标注信息能够提升信息抽取的准确率及查全率；文献［３］从使用模型加自定义规则的方式，识别文本中的时间表达式；文献［４］则研究在电子商务领域中的产品描述信息的自动分词。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

(4)
i,k
在当前序列位置为 i 、当前标记为 y 的时候 , Viterbi 算法
可以求得至当前位置的最优标记序列的未归一化概率值。其
递归形式为 :
Φ( i , y)
=
max y′Φ( i
-
1 , y′) 3
6 e
λkf k ( x , y , y′, i)
k
(5)
Viterbi 算法属于动态规划算法 ( dynamic programming) 。
J o ur n al of Inf o r m a ti o n N o . 5 ,2008 情报杂志 2008 年第 5 期
基于条件随机场的中文分词方法
A Chinese Word Segmentation Approach Using Conditional Random Fields
3 试验结果和分析
3. 1 CRF 分词实验结果本次实验使用的所有数据都来自于 SIGHAN2006 Chinese Language Processing Bakeoff[6 ] 提供的数据 ,进行的是分词封闭性测试。分词测试结果如下 :
表 1 条件随机场在 SIGHAN2006 中文分词语料上的分词结果
件随机场进行训练 , 使得条件概率的 log 似然值 (log -
likelihood) [3 ] 最大 :
6 L (λ) =
log pλ( y | x)
(3)
( x , y) ∈D
1. 3 条件随机场的推理条件随机场的推理是指在给定
一个观测序列 X = { X1 , X2 , …, XN } 的条件下 , 找到一个对应于最可能的标记序列 Y = { Y1 , Y2 , …, YN } 。
语料 Uppen Msra
准确率 95. 8 % 95. 9 %
召回率 91 % 94. 5 %
F值 92. 9 % 95. 2 %
切分准确率 ( Precision)
=
正确切分的数量总的切分数量
召回率 ( Recall)
=
正确切分的数量测试集中实有切分的数量
F
值 ( Fscore)
=
2
×Precision Precision +
中文分词是自然语言理解中很重要的内容之一 ,也是当前智能信息处理技术的基础。分词的效果将影响到后续分析的难易程度 ,如句法分析、语义分析等。现阶段人们提出了许多中文分词的算法 ,主要可以分成以下三类 :a. 基于字符串匹配的分词方法 :待分析的中文字符串与一定规模的词典中的词条进行匹配 ,若在词典中找到某个字符串 ,则匹配成功 (识别出一个词) 。按照扫描方向的不同 ,串匹配分词方法又可分为正向和逆向匹配 ;按照优先匹配的原则 ,可分为最大和最小匹配。b. 基于理解的分词方法 :这种分词方法是通过让计算机模拟人对句子的理解 ,达到识别词的效果 ,也称人工智能法。c. 基于统计的分词方法 :这种方法只需对语料中的字组频率进行统计 ,而不需要切分词典 ,因而又叫作无词典分词法或统计取词方法 ,其主要包括基于引马尔可夫模型、基于最大熵模型、基于条件随机场模型的方法等[1 ] 。
D = ( X , Y) ,观测数据 X = { X1 , X2 , …, XN } ,标记数据 Y = { Y1 , Y2 , …, YN } 。
在中文分词系统中 , 条件随机场的训练就是通过训练语
料来学习最恰当的模型参数 ,来使得某种规则标准最大。在这
里 ,基于最大似然原则 ( maximum - likelihood principle) 对条
在我们实验中 ,如果字符是阿拉伯数字 ,那么 T ( . ) 为 1 ; 如果字符是‘年’‘、月’或‘日’, 那么 T ( . ) 为 2 ; 如果字符是 ‘分’或‘秒’那么 T ( . ) 为 3 ; 如果字符是文字数字形式 ( 如 ‘一’‘、二’等) ,那么 T ( . ) 为 4 ; 如果字符是英文字符 , 那么 T ( . ) 为 5 ;如果字符是其他情况 , T ( . ) 为 6 。特征模板 (a) 和 (c) 都是单个序列元素的特征 ; 特征模板 ( b) 和 (d) 都是元素序列的组合特征。同样 , 实验中也针对多字词的情况实验过 C- 1 C0 C1 等长词特征 ,但实验效果并不理想。
动态规划是最优化原理中的一种重要方法。在解决一个大的
问题中包含有很多重叠的子问题情况的最优解是有效的 , 它
将问题重新组合成子问题。为了避免多次解决这些子问题 ,计
算过程中会将中间结果保存以备后用 , 直至整个大的问题被
解决。
2 自动分词模型
在本文中 , 根据中文分词的特点及条件随机场所使用的特征[4～5 ] ,即 CRF 能够同时使用中心词的前 n 个词和后 m 个词作为该词的上下文信息。这样 ,中心词的词性不仅与它前面的词有关 , 还与它后面的词有关 , 更加符合实际情况。在本文中 ,使用了中心词本身、中心词的前两个词和中心词后两个词 ,以及它们之间的结构特征 ,我们所采用的特征模板如下 :
×Pecall Recall
3. 2 CRF 对歧义词和未登陆词的处理实验中文分词任
务的难点在于分词边界的歧义处理和未登陆词的识别问题。
我们从分词歧义情况的处理和未登陆词的识别两个方面 ,来分析条件随机场的分词处理方法、效果及其在分词任务中仍
待解决的方面。
3. 2. 1 歧义词的处理实验。在这里 ,我们首先考察、分析条件随机场解决中文分词词边界的消歧能力。因为歧义片
1. 2 条件随机场的训练在序列标注任务中 , 给定训练
作者简介 :迟呈英 ,女 ,1963 年生 ,教授 ,硕士 ,研究方向为数据库技术、自然语言理解 ;于长远 ,男 ,1981 年生 ,硕士研究生 ,研究为自然语言理解 ; 战学刚 ,男 ,1962 年生 ,教授 ,博士 ,研究方向为自然语言理解、信息检索、网络安全。
i,k
+
λ′kf ′k ( yi , x ) )
i, k
(1)
Zx 是只依赖于观测序列的归一化函数 (normalizing
factor)
6 6 Z ( x) = exp (
λkf k ( C , Yi , X) )
(2)
ik
K
6 其中 ,exp ( λkf k ( yi - 1 , yi , x) ) 是针对边的非负因子。 k =1
1 条件随机场模型理论
1. 1 条件随机场模型的定义 CRF 是无向图模型 ,其最简单的形式是链式 CRF ,也就是模型中的各个节点构成了链式分布 ,根据中文分词的特点 ,本文采取的就是链式 CRF 。
在链式 CRF 中 ,无向图中的所有标记结点形成一个链。在一阶链式条件随机场中 , 全连通子图集合就是所有的含有当前标记 yi 、前一个标记 yi - 1 和包含观测序列 x 的任何子集的最大连通子图。例如 ,在图 1 中 ,结点集合{ Y2 , Y3 , X} 就为一个最大连通子图。其形式如图 1 所示 :
79
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
情报杂志 2008 年第 5 期 J o u r n al of Inf o r m a ti o n N o . 5 ,2008
图 1 链式条件随机场
在序列标注任务中 ,随机变量 X = { X1 , …, X n} 表示可观测序列 ; 随机变量 Y = { Y1 , Y2 , …, Y n} 表示观测序列对应的标记序列 ,随机变量 Y 的链式条件概率分布为 :
6 6 P( y |
x)
=
Z
1 ( x)
exp
(
λkf k ( yi - 1 , yi , x )
条件随机场模型是新近提出的一个基于统计的序列标记和分割的方法。CRF 是一个在给定输入节点条件下计算输出节点的条件概率的无向图模型。它没有隐马尔可夫模型 ( Hidden Markov Model) ( L . R. Rabiner. 1989) 那样严格的独立假设 ,同时克服了最大熵马尔可夫模型 ( Maximum Entropy Markov Model , MEMM) ( Andrew McCallum ,2000) 和其他非生成的有向图模型 (non - generative directed graphical models) 所固有的“标记偏置”[2 ] (label - bias) (John Lafferty ,2001) 的缺点。
从式 (1) 可以看到 ,在条件随机场的分布函数 , 归一化因
子完全独立于标记序列。所以 , 给定模型参数条件下 , 求得最
可能的标记序列可以表示为 :
6 Y 3 = arg max y P ( Y | X) = arg max y exp ( λkf k ( yi - 1 , i, k
6 yi , x) + λ′kf ′k ( yi , x) )
词典词 ,根本不会考虑上下文的信息。所以 ,该歧义片断会被错误地切分为下文的位置信息来进行判
断 ,比如 ,在“外交部长”的片断中 ,虽然“外交部”是词典词 ,但条件随机场模型会从该片断序列整体考虑出发 ,进行统计判断。在训练语料中 “, 外交部”一词后面从来没有出现过“长” 字。而且“外交部长”这个切词片断在训练语料中出现了 22 次。这些统计信息都将作为条件随机场的重要特征 ,使得歧义片断“外交部长”能够被正确切分。
(a) Cn ( n = - 2 , - 1 ,0 ,1 ,2) ( b) CnCn+1 ( n = - 2 , - 1 , 0 , 1 , 2) (c) Pu ( C0) ( d) T ( C- 2) T ( C- 1) T ( C0) T ( C1) T ( C2) 其中 , C 代表着中文字符 ; C0 代表着当前字符 ; n 是相对于当前字符所处的位置。比如 , 在序列“辽宁科技大学的学生”中 , 假如当前字符是 ‘的’,那么 C0 表示‘的’; C- 1 表示‘学’; C2 表示‘生’。Pu ( C0) 是针对分词语料在中存在的标点符号 (预先搜集 , 比如‘。’、 ‘ ?’等) 而设置的特征 ; T ( Cn) 是针对分词语料中实体名词而设置的特征。这主要针对诸如日期、时间等和数字符号相关的词类。

基于条件随机场的中文分词方法_迟呈英

合集下载

一种基于自动机的分词方法

结合CRFs的词典分词法

基于条件随机场的古汉语自动断句与标点方法

基于条件随机场CRFs的中文词性标注方法_洪铭材

中文分词技术的研究现状与困难

基于条件随机场的中文分词方法_迟呈英

基于条件随机场的中文分词方法

基于条件随机场的中文分词算法改进

基于条件随机场方法的汉语专利文本介词短语识别

基于条件随机场的汉语词汇特征研究

文档推荐

最新文档