一种消除中文分词中交集型歧义的方法
- 格式:pdf
- 大小:301.91 KB
- 文档页数:4
一种消除混合歧义的新方法发表时间:2011-12-31T14:57:17.747Z 来源:《时代报告》2011年11月下期供稿作者:朱新维[导读] 由于混合歧义以及交叉歧义的存在,歧义一直是困扰分词技术发展的瓶颈。
朱新维(合肥学院,安徽合肥 230601)中图分类号:TP311.52 文献标识码:A 文章编号:1003-2738(2011)11-0361-01摘要:由于混合歧义以及交叉歧义的存在,歧义一直是困扰分词技术发展的瓶颈。
本文以含有歧义词语的句子作为研究对象,考虑了由于不同的分词方法导致的共生词语的出现,构建了辨别不同断句方法的公式。
初步试验与例证表明该方法具有较好的灵活性,优于现存技术。
关键词:信息处理;混合歧义;消除歧义;方程一、前言在中文文本信息处理中,自动分词是一项由计算机将完整的句子划分为多个词语单元的技术。
由于分词的精度严重影响了读者对于文本的分析与理解程度,因此该技术在信息处理领域具有一定的重要意义,比如文本分类、文本信息检索以及本文自动总结等。
分词技术的瓶颈是消除歧义,其中包括混合歧义与交叉歧义。
以下列存有混合歧义的句子为例:1.你要考虑你自己的/将来/;市长/将/来/我们学校考察工作。
2.他/才能/有资格获得冠军;人/才/能/推动科技进步。
3.国家的/中长期/计划是指导国家战略发展的计划;这是国际共产主义运动/中/长期/没有解决的一个重大理论问题。
在本文中,综合考虑了多种分词方法所导致的不同结果,例如歧义词“中长期”可以分解为“中”,“长期”或者“中长期”两种不同的结果,在可能的结果与其在文本中前后的词语之间,根据匹配词语的数量构建方程来消除句子中的歧义。
二、相关概念定义1:将连续的字符串分解为多个词语的技术为分词技术,且由不同分词方法导致的词语含义发生变化称为歧义。
三、混合歧义(二)设计原则混合歧义性词语被保留为整体还是分解主要应由词语所在上下文决定。
根据不同分词方法与上下文信息,结合两者的匹配度,确定对词语做何种分词。
中文分词交叉型歧义消解算法甘蓉【摘要】中文分词是自然语言处理的基础.交叉型歧义是提高中文分词精度的瓶颈之一.文章提出一种基于正向、负向最大匹配算法和passive aggressive(PA)算法结合的交叉型歧义消解算法.基于PA算法训练分词模型;利用正向、负向最大匹配算法检测交叉型歧义的位置;把可能出现交叉型歧义的句子或者句子的部分传递给分词模型,解码得到分词结果;最后,把正向、负向最大匹配结果和分词模型解码结果拼接成最终的分词结果.利用PA算法基于2014年2—12月份人民日报数据训练分词模型、2014年1月份人民日报数据作为测试语料进行实验,得到交叉型歧义的准确率、召回率和F-score分别为98.32%、98.14%和98.23%,说明该方法有效可行.【期刊名称】《西华大学学报(自然科学版)》【年(卷),期】2018(037)006【总页数】5页(P32-36)【关键词】中文分词;交叉型歧义;最大匹配算法;PA算法【作者】甘蓉【作者单位】陕西工业职业技术学院汽车工程学院,陕西咸阳712000【正文语种】中文【中图分类】TP391.1中文分词是自然语言处理的基础和关键[1]。
中文分词已经有很多成熟的算法,但是歧义识别和未登录词识别仍是中文分词的2大难点。
其中,歧义识别又分为交叉型歧义和组合型歧义[2]。
对于歧义,许多研究者做了大量的工作。
目前常用的歧义消解算法主要分为2种:规则型歧义消解算法和概率型歧义消解算法。
规则型歧义消解算法主要采用语义、语法、词性等规则对歧义字段进行消歧。
概率型歧义消解算法通常需要统计上下文信息[3](例如使用互信息、N元统计模型、t-测试原理、HMM模型、字标注统计等方法或模型[4]统计上下文信息)从而进行歧义消解。
文献[4]提出了一种基于词频的中文分词歧义消解方法,该方法主要适用于没有上下文的歧义消解。
文献[5]提出了一种针对交叉型歧义无监督的学习方法,并比较了卡方统计量、t-测试差在歧义处理中的效果。
基于CFRs模型的交集型歧义消解研究作者:尤慧丽来源:《电脑知识与技术》2018年第18期摘要:中文自动分词是中文信息处理的基础,交集型歧义字段的消解又是中文自动分词中的重点。
本文将CRFs模型用于交集型歧义字段的歧义消解中。
该算法将交集型歧义字段的消解任务由二值分类的问题转化为序列标注的问题,这样不仅能处理任意链长的交集型歧义字串,而且能够充分利用上下文环境的信息,在不同的上下文环境中对真歧义字串进行正确的切分。
关键词:中文自动分词;交集型歧义;CRFs模型;序列标注中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)18-0263-021引言汉语词语的切分往往存在歧义,歧义切分是自动分词中一个比较棘手的问题。
歧义切分字段从构成形式上可以划分为交集型歧义切分字段、组合型歧义切分字段和混合型歧义切分字段三种类型。
交集型歧义切分字段是中文自动分词系统中的主要歧义类型,据相关统计,交集型歧义切分字段占所有歧义切分字段的85%以上[1],一直以来是人们研究的重点,本文主要讨论交集型歧义字段。
对消解交集型歧义字段,现阶段主要的方法有:基于词概率模型的歧义消解方法和基于最大熵模型的歧义消解方法等。
文献[2]中提及的方法在一元概率语法模型中简单易行,但参与计算的只有歧义字段内每个词的出现概率,和上下文环境没有关系。
而在二元概率语法模型中虽然能够利用上下文环境信息,但是它存在的最大困难是数据稀疏的问题。
文献[4]将最大熵模型应用于交集型歧义字段的消解任务中,但其消歧准确率不是特别理想。
本文在对现有方法进行深入分析的基础上,采用基于条件随机场模型的算法来解决交集型歧义字段的切分问题。
2预备知识2.1交集型歧义字段的定义定义1:交集型歧义字段:设汉字字符串[S=],其中S不是词,[ci(i=1,2......n)]为单个汉字,如果存在整数[i1],[i2],...,[im], [j1],[j2]…[jm]([m≥2])满足:(1)[w1=ci1...cj1],[w2=ci2...cj2],[wm=cim...cjm]分别构成词,并且S中不存在包含[w1]、[w2]、…、[wm]的词;(2) [w1]、[w2]、…、[wm]相互交叉,即[ik例如: A、资助/的/女童/已/从/小学/毕业/ B、从小/学/书法汉字字符串“从小学”为交集型切分歧义,这里“从小”、“小学”均为词,并构成交叉,所以“从小学”是一个交集型歧义切分字段。
基于关联规则的交集型歧义消解算法
一、算法思想
本算法基于关联规则,采用交集型消解方法,通过对歧义词的上下文进行分析,利用关联规则,从歧义词的候选词中选择最终的歧义解。
二、算法流程
1. 根据歧义词的上下文,确定歧义词的候选词。
2. 根据歧义词的候选词,构建关联规则,计算候选词之间的关联度。
3. 对关联度进行排序,选择关联度最高的候选词作为歧义词的最终解。
三、算法实现
本算法的实现需要借助NLP技术,如词法分析、句法分析等,以及数据挖掘技术,如关联规则挖掘等。
1. 首先,利用NLP技术,对歧义词的上下文进行词法分析和句法分析,得到歧义词的候选词。
2. 然后,利用数据挖掘技术,构建候选词之间的关联规则,并计算关联度。
3. 最后,根据关联度进行排序,选择关联度最高的候选词作为歧义词的最终解。
基于双字耦合度的中文分词交叉歧义处理方法王思力;王斌【摘要】本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法: 首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分.实验结果表明,双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合,因此,用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法.【期刊名称】《中文信息学报》【年(卷),期】2007(021)005【总页数】5页(P14-17,30)【关键词】计算机应用;中文信息处理;中文分词;双字耦合度;t-测试差【作者】王思力;王斌【作者单位】中国科学院,计算技术研究所,北京,100080;中国科学院,研究生院,北京,100039;中国科学院,计算技术研究所,北京,100080【正文语种】中文【中图分类】TP391随着中国社会经济的飞速发展以及互联网在中国的普及,互联网上日益增长的中文信息也被越来越多的人所重视。
巨大的商业前景和重要的学术价值,吸引了来自于业界和学术界不同领域的研究人员在中文信息处理这一问题上开展研究。
作为中文信息处理基础的分词技术,已经被广泛应用于中文领域的信息检索、人机交互、信息提取、文本挖掘等技术中。
歧义消除和未登录词识别是当前的分词技术中存在的两大难点。
所谓歧义,是指同一个字符串存在不止一种切分形式。
一般来说,歧义按照结构可以分为两种歧义类型:交集型歧义(交叉歧义)和组合型歧义(覆盖歧义)。
有研究者通过统计发现[1],在这两种歧义结构中,交叉歧义占到了总歧义字段的86%。
因此,目前中文分词中歧义消除工作的重点通常集中于如何消除交叉歧义。
孙茂松等人[2]提出了一种利用句内相邻字之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法。
其初步实验显示,可以正确处理90.3%的歧义字段。
在此基础上,孙茂松等人又在文献[3]进一步提出将两者线性叠加的新的统计量md,并引入“峰”和“谷”的概念,设计了一种无词表的自动分词算法。
汉语产生歧义的原因和消除歧义的方法2008-06-24 11:56一、产生歧义的原因1.组合层次不同造成歧义。
如:①“我们三个人一组”,可理解为“我们/三个人一组”或“我们三个人/一组”。
②“这份报告,我写不好”,可理解为“这份报告,我/写不好(能力有限)”,也可理解为“这份报告,我写/不好(可能由于身份等因素)”。
2.结构关系不同造成歧义。
如:①“进口彩电”,可理解为动宾关系,也可理解为偏正关系。
②“学生家长”,可理解为并列关系,也可理解为偏正关系。
3.语义不明确造成歧义。
如:①“开刀的是她父亲”,可理解为她父亲是开刀的外科医生,也可理解为他父亲有病,医生给他做了手术。
②“妇女理发店”,可能是由妇女开办的理发店,也可能是以妇女为服务对象的理发店。
③“诗人的风度”,所说的可能是诗人,也可能不是诗人。
4.词类不同造成歧义。
如:①“我要炒肉丝”,“炒”可理解为动词或形容词。
②“饭不热了”,“热”是动词,意即不用热饭了,凉的也可以吃;“热”是形容词,意即饭凉了。
③“他原来住在这里”,“原来”做名词,意即他以前曾住在这里;“原来”做副词,意即没想到他就住在这个地方。
④“县里通知说,让赵乡长本月15日前去汇报”,“前”做形容词,表以前之意,时间范围大;“前”做动词,表往前走之意,则只能在15日这一天去县里。
5.词语含义多解造成歧义。
如:①“躺在床上没多久,他想起来了”,可理解为他想起了什么事,也可理解为他要起床。
②“请吃菜”,“菜”既可指蔬菜,也可泛指菜肴。
③“贸易部已向华北东北调拨物资”,“向”可理解为“从”,也可理解为“给”,表意大不相同。
6.句子成分残缺造成歧义。
如:①大家对护林员揭发林业局带头偷运木料的问题,普遍感到非常气愤。
因为在“揭发”后随意省去一个“的”字,使文意中心可以前移,造成歧义。
既可理解为大家对林业局带头偷运木料一事气愤;也可理解为对护林员揭发这个问题的行为气愤。
加上这个“的”字,中心限制在“林业局带头偷运木料的问题”上,文意就明确了。
消解中文三字长交集型分词歧义的算法消解中文三字长交集型分词歧义的算法如下:
1、词概率+词性Bigram法,
对S3z=ABC,其切分取作
AB/C,如果f(AB,C)-f(A,BC)>t0;
A/BC,如果f(AB,C)-f(A,BC)<-t0;
未定,如果ûf(AB,C)-f(A,BC)û≤t0.
2、设定六个字表
对S3z=ABC,根据分词语料库对{S03z}的人工切分结果,可搜集到6个关于首字A、中字B、尾字C的字表:
字表L1为切分为单字词频率很高的首字A的集合,
字表L2为切分为单字词频率很低的首字A的集合,
字表L3为与首字A结合成词频率很高的中字B的集合,
字表L4为与尾字C结合成词频率很高的中字B的集合,
字表L5为切分为单字词频率很高的尾字C的集合,
字表L6为切分为单字词频率很低的尾字C的集合
设L是上述任一汉字表,Z是任意汉字,令
RL(Z)=0,Z∈/L;或1,Z∈L.
k1=RL1(A)+RL4(B)+RL6(C),
k2=RL2(A)+RL3(B)+RL5(C).
则常用字分合法可描述为对S3z=ABC,其切分取作
A/BC,如果k1>k2;
AB/C,如果k1<k2; 未定,其它。