高频最大交集型歧义切分字段在汉语自动分词中的作用
- 格式:pdf
- 大小:188.15 KB
- 文档页数:8
汉语分词在中文软件中的广泛应用各位读友大家好,此文档由网络收集而来,欢迎您下载,谢谢摘要:中文软件需要具有对中文文本的输入、显示、编辑、输出等基本功能,而且随着计算机技术的发展,对于计算机的文本处理能力提出了更高的要求,诸如智能拼音语句输入、手写和语音自动识别输入;文章的校对;简体和繁体中文的自动转换;信息检索和信息摘录;文本分类和自动文摘;语音合成;自然语言的理解和自动翻译;自然语言接口等。
而所有这些中文处理功能都要建立在对汉语文本的分词处理这一基本功能之上。
因而,汉语分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用前景。
一、为什么需要汉语分词我们知道,汉语的中文信息处理就是要“用计算机对汉语的音、形、义进行处理。
”[1],我们还知道,“词是最小的能够独立活动的有意义的语言成分。
”然而,汉语文本中词与词之间却没有明确的分隔标记,而是连续的汉字串。
显而易见,自动识别词边界,将汉字串切分为正确的词串的汉语分词问题无疑是实现中文信息处理的各项任务的首要问题。
以拼音输入中的同音词自动辨识为例,据我们统计,汉语单字同音现象是非常严重的。
以6763个汉字为例,没有同音字的汉字只有16个。
其他汉字都有同音字。
其中最多的有116个同音字。
而汉语词的同音现象则有很大的改善。
以52505的词表为例,其中35942个词语没有同音词。
因此,大多数同音字可以依靠词来确定。
例如:”yi”对应的同音字“以,一,易,已,意”,分别可以在“以为,一定,容易,已经,意义”中来确定。
对于词语(包括单字词)的同音现象,则需要运用词语之间的合理搭配以及词语在句子中的合法运用来确定。
比如“一枝可爱的玫瑰花”,”Zhi”的同音字有:“只,之,直,支,枝.....”等。
但是这里“枝”是和“花”的合理搭配。
也就是说”一+枝+可爱的玫瑰花”是合理的搭配。
由此不难看出,分词对于同音词自动辨识的作用。
而同音词的自动辨识也是语音自动识别所要解决的重要问题。
计算机研究与发展ISSN 100021239ΠCN 1121777ΠTPJournal of Computer Research and Development 43(6):1122~1128,2006 收稿日期:2005-01-11;修回日期:2005-10-31 基金项目:国家自然科学基金项目(60272055);国家“八六三”高技术研究发展计划基金项目(2001AA114111);教育部科学技术研究重点基金项目(00128);教育部人文社会科学重点研究基地重大项目(02JAZ JD740007)现代汉语通用分词系统中歧义切分的实用技术罗智勇1,2 宋 柔21(北京工业大学计算机学院 北京 100022)2(北京语言大学信息科学学院 北京 100083)(luo zy @blcu 1edu 1cn )Disambiguation in a Modern Chinese G eneral 2Purpose Word Segmentation SystemLuo Zhiyong 1,2and Song Rou 21(College of Com puter Science ,Beijing U niversity of Technology ,Beijing 100022)2(College of Inf orm ation Science ,Beijing L anguage and Culture U niversity ,Beijing 100083)Abstract Disambiguation is one of the most important parts of segment systems in Chinese 1A Chinesegeneral 2purpose word segmentation (GPWS )system demands higher capacity of disambiguation techniques particularly ,because it has functions such as allowing users to create their own dictionaries dynamically and employing multiple user ’s dictionaries to word segmentation 1Based on inspection of the distributions and characteristics of ambiguity fragments (especially overlapping ambiguity fragments )in large 2scale real cor 2pus ,an improved forward maximum match algorithm for ambiguity fragment detection ,as well as a practi 2cal “rules +exceptions ”disambiguation strategy ,are proposed in this paper 1An exhaustive extraction has been made of the overlapping ambiguity sections (about 214million occurrences )from a People ’s Daily cor 2pus of 100million characters (234MB approximately ),and open 2ended experiments on the above strategy randomly were carried out ,which achieved accuracy average of 99%1K ey w ords Chinese information processing ;general 2purpose word segmentation system ;disambiguation摘 要 歧义切分技术是中文自动分词系统的关键技术之一1特别是在现代汉语通用分词系统(GPWS )中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求1从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS 的需求,提出了一种“规则+例外”的实用消歧策略1对1亿字《人民日报》语料(约234MB )中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%1关键词 中文信息处理;通用分词系统;歧义切分中图法分类号 TP3911121 引 言分词系统是深层次中文信息处理的基础1在现有的中文自动分词方法中,基于词表的分词方法占有主导地位1中文分词的主要的困难不在于词表中词条的匹配,而是在于切分歧义消解和未登录词语的识别[1,2]1实际上,切分歧义现象不仅仅由词表中的词与词之间的交叠(交集型歧义)和串联(组合型歧义)产生,在各种未登录词语之间,未登录词语与普通词语之间也存在歧义现象,而且这些歧义现象也会随着专名识别规则的增加和词表的扩大而不断增加[3]1在现有的歧义处理方法中,一般是基于两步走的策略:第1步,歧义发现1如双向最大匹配法[4] (正向最大匹配+反向最大匹配)、全切分发现算法[5]等等1其中,双向最大匹配算法有检测盲点[6],同时需要附加的反向词典索引机制以获取反向匹配结果,以及反向匹配的附加时间开销1另一方面,全切分算法穷举所有切分可能,虽然没有切分盲点,但不可避免地导致大量的切分垃圾,这给下一步处理带来更大的消歧负担,以及成倍的时空开销1同时,由于缺少足够的标准切分语料进行训练,导致数据稀疏问题,不能获取可靠的启发信息(n2gram),反而会导致分词性能的降低1有研究者[7]使用Beam Search或者在Viterbi算法中只记录当前几条最好的路径来控制切分路径的增长1从某种意义上来说,这仍然是在牺牲歧义字段的召回率的前提下,换取处理效率一个折中方案1如何尽可能地覆盖所有可能的切分歧义,同时避免切分路径的无理膨胀,是歧义发现算法研制的主要任务1第2步,歧义消解1国内外的研究工作者在歧义消解方面进行了大量的研究,我们可以粗略的将它们分为3类:一类是基于语言知识的规则方法1歧义消解主要使用了词法、句法甚至语义等层次的语言知识作为歧义消解的启发式规则[8]1一类是基于统计的方法1最有代表性的是基于隐马模型和n元文法的分词与词性标注合一来消解切分歧义[7],通过Viterbi算法寻求最优的切分路径,这种方法比分词和词性标注分步处理在精度上有了更进一步的提高1一类是基于实例的方法1文献[9]提出了伪歧义的概念,并利用伪歧义消解不依赖于上下文的特点,将伪歧义字段的正确切分方式预先记录在一张表中,歧义消解通过直接查表解决1经过20多年的研究与发展,汉语分词系统已经初步具有了实用价值,有些系统的分词精度已达到95%以上,被应用到文语转换、机器翻译、信息检索等中文应用系统中1但是,随着待处理的语料库规模不断扩大,在实际工程问题中,分词系统研发者始终需要在性能与代价两方面进行权衡,以取得最优的性价比1本文详细讨论现代汉语通用分词系统(GPWS)[1,2]中的歧义处理方法,而且着重讨论交集型歧义的实用处理策略1本文工作使用了两个大规模语料库:①1亿字《人民日报》生语料库(约234MB),记为RMRB01;②379万字《人民日报》熟语料库,由1998年1月、2000年12月组成,记为RMRB02;本文中统计和测试使用的词表规模约15万条12 交集型歧义字段发现算法211 基本定义从歧义字段的构成形式上来说,歧义字段可分为交集型歧义字段和多义组合型歧义字段两类[9,10]1为行文方便,将它们分别定义如下:定义11若字串W=a1…a i b1…b k c1…c j中W1=a1…a i b1…b k,W2=b1…b k c1…c j,W a=a1…a i,W c=c1…c j均是词,则称字串W为由词W1和词W2形成的交集型歧义字段,n=i+k+j为歧义字段的长度,其中字串b1…b k为交段,k为交段的长度,歧义字段中交段的个数称为链长1例如:提高人民生活水平1其中,“提高人民生活水平”为词“提高”、“高人”、“人民”、“民生”、“生活”、“活水”、“水平”构成的链长为6的交集型歧义字段,其中,所有交段长度均为11例如:北京大学生学习很刻苦1其中,“北京大学生”为“北京大学”和“大学生”构成的交集型歧义字段,交段的长度为2,链长为1 (北京大学生①);同时也是“北京大学”和“学生”构成的交段长度为1,链长为1的交集型歧义字段(北京大学生)1定义21若词W=a1…a i b1…b k中W1=a1…a i是词,W2=b1…b k是词,而且存在语境〈α,β〉和〈λ,μ〉,使得αa1…a i b1…b kβ中a1…a i b1…b k为词W,λa1…a i b1…b kμ中a1…a i b1…b k为词序列W1W2,则称W为多义组合型歧义字段1例如:(1)李教授将来香港讲学1(2)香港将来经济更繁荣1其中,“将来”为多义组合型歧义字段,在第1句中,“将来”应切分为“将Π来”;在第2句中“将来”是词,不应切分1文献[11]对50833个汉字的典型综合型语料库进行了统计分析,在这个综合语料库中,歧义字段的总出现次数与语料库中所含汉字的总数比为3211罗智勇等:现代汉语通用分词系统中歧义切分的实用技术 ①本文中,我们将用斜体和下划线等方式表示歧义字段中词语之间的交叠情况101911%,其中交集型字段占84110%1另一方面,从歧义字段的切分结果来看,歧义字段又可以分为真歧义字段和伪歧义字段1真歧义字段是指不但从构成形式上,有多种切分方式,而且在不同的上下文环境中,确实有不同的切分结果1这一类歧义字段占总歧义字段的6%[3]1例如:交集型歧义字段“多少年”,在“多少年来”中应切分成“多少Π年”,而在“三千多少年参加了这次活动1”中应切分成“多Π少年”1伪歧义字段是指从构成形式上来看,虽然有多种切分方式,但是在实际的上下文环境下,只有惟一一种切分结果,没有其他切分方式或其他切分方式十分罕见,属于形式上的歧义1例如:高频交集型歧义字段“方面的”,在语料库RMRB01中都惟一地切分成“方面Π的”1因此,对于这类歧义字段的处理,不需要考虑上下文,仅从歧义字段本身就可得到切分该歧义字段所需的信息1这一类歧义字段占总歧义字段的94%[3]1因此,在歧义处理中,如能解决好伪歧义字段的切分问题,将大大提高歧义切分的处理精度1这为基于“实例”的歧义处理方法提供了实用基础1212 交集型歧义字段的发现算法歧义字段边界识别是歧义消解的基础1根据切分词表,我们采用改进的正向最大匹配算法发现交集型歧义字段1一般地,设待发现的交集型歧义字段中交段的长度为N(N>0),以下算法将发现所有交段长度均为N的交集型歧义字段1变量:N,待发现歧义字段的交段长度;Source Tex t,待切分文本串;Poi nt,当前文本指针(相对于待切分文本串首位置);W ord,当前文本指针处最长匹配词条;A mbiSection,当前歧义字段;K,当前歧义字段的链长;其中:N,Source Tex t,Poi nt为算法输入,A mbiSection,K为算法输出1算子:L en(W ord),获取字串W ord的长度;IsN ull(W ord),判定W ord是否为空串,若W ord为空串,返回True,否则返回False;Mmatch(SourceT ext,Point),从SourceT ext中Poi nt位置处正向匹配词表,返回最长匹配词条W ord1算法:Proc FindA mbiguousSection(SourceT ext,Point, N;A mbiSection,K) K=0; A m biSection=Null; While(True) W ord=M m atch(Source Tex t,Poi nt); If(L en(W ord)>N)Then Append W ord to A m biSection; Poi nt=Poi nt+L en(W ord)-N;Π3正向最大匹配,并回拨当前文本指针3Π K=K+1;Π3当前歧义字段链长加13Π Else Break; EndIf EndWhileEndProc在GPWS实现过程中,我们取N=1,即“正向最大匹配+回退一字”歧义字段发现算法1213 可行性分析由定义1,从形式上来说,“正向最大匹配+回退一字”算法只能发现和处理交段长度均为1的交集型歧义字段,虽然有检测盲点(不能发现含有长度为2或以上交段的歧义字段),但是根据我们对语料RMRB01进行统计和分析发现(使用“全切分”算法穷尽式抽取交集型歧义字段段例3232113,段型369894):在交集型歧义字段中,交段长度均为1的情况占有绝大多数,含有长度为2或以上交段的歧义字段是极少的(表1)1实验表明,该算法对交集型歧义字段保持了较高的召回率,段例和段型分别达到了97177%和98185%,同时较好地控制了切分路径的无理膨胀1T able1 R ecall of OAS表1 歧义字段召回率统计Extraction Methods Extracted OAS(token)Extracted OAS(type)Recall(token(%)Πtype(%))ExamplesFMM&Backward2One2Character315991036564297177Π98185“方面的”“应用于”“提高人民生活水平”Full2Match3232113369894100Π100“中国共产党人”“传统计划经济体制”4211计算机研究与发展 2006,43(6) 同时,我们对未能召回的歧义字段抽样调查发现(抽样规模:段例590条,来自1998年1月《人民日报》):其中89166%的歧义字段,使用正向最大匹配算法即能获得正确结果1例如:“国家开发银行Π贷款”、“市场经济Π体制”、“假冒伪劣Π产品”等等1另外,从系统实用性的角度来说,“正向最大匹配+回退一字”算法,同样具有一定优势:空间上:该算法只需建立正序索引的词库,无需逆序词库以实现逆向匹配(相对于“双向最大匹配”)和其他更精细的索引结构(相对于“全切分”),降低了对词表的存储需求,有利于将分词系统移植到小型存储处理系统上;时间上:该算法只需对原文本进行正向单遍扫描,每匹配一个词条,只需将当前文本位置指针回拨一个字符,即能发现相关的歧义字段和收集相关的歧义信息1根据算法中“回退一字”的特点,我们只需对词表中的词条按首字索引,将词条除去首字后的其余部分有序紧凑排列(供二分查找),即可获得较高的切分效率1在词表规模15万条,PⅣ216GHz 512MB RAM机器上,歧义切分的处理效率达到160万字Π秒13 大规模真实语料中交集型歧义字段统计分析 我们对语料RMRB01进行了统计,分析了不同长度歧义字段切分方式的分布情况,以及在交集型歧义字段中真伪歧义字段的分布情况1在此基础上,以歧义字段长度为分类特征,制定各类歧义字段的最大概率切分规则1311 按歧义字段长度的统计按交集型歧义字段长度分类统计是我们下一步制定歧义处理规则的基础1对于串长为3,4,5的歧义字段,其交叠形式是有限的,我们可以根据每一种歧义交叠形式给出它们的切分规则;而对于字串长度为6及6以上的歧义字段,虽然其交叠形式是无限的,但从大规模真实语料的调查结果来看,其中一种交叠方式(即在歧义字段中,词长为2的词语交替出现)占有绝大多数(表2)1T able2 Statistics of OAS on Length and Overlapping2Style表2 歧义字段按串长的统计、典型交叠方式所占比例的统计结果Length OAS Number of Overlapping2Style Examples of Overlapping2Style Percent(%) 3abc1ab&bc424abcd3ab&bc&cdab&bcd abc&cd435abcde7ab&bc&cd&de ab&bc&cde ab&bcd&de ab&bcde abc&cde abc&cd&de abcd&de106and More〈See comments〉5 对于长度为6及6以上的歧义字段,交叠方式难以枚举,但我们发现其中一种交叠方式最为常见:词长为2的词语在歧义字段中交替出现,这种交叠方式在6字及6字以上的歧义字段中所占比率大于90%1例如:“提高Π中华民族”、“首批Π发电Π工期”、“人民Π生活Π水平”、“提高Π人民Π生活Π水平”等等;其中,“高中”、“批发”、“电工”、“民生”、“活水”、“高人”等二字词语在各自歧义字段中均交替出现,而该类型歧义字段的正确切分结果几乎都是从这些交替出现的二字词语依次切分开来1312 交集型歧义字段中的真歧义与伪歧义我们通过对上述收集到的歧义字段人工逐一甄别后发现,交集型真歧义字段几乎只存在于3字长的歧义字段中,约占总交集型歧义字段的014%1按现有的歧义切分规则,对所有真歧义字段进行切分,平均正确率约为40%1因此,在所有的歧义字段中,由于真歧义而导致切分错误的概率是极小的(约为014%×(1-40%)=0124%)14 实用的消歧策略在GPWS系统中,我们采用3级集成的“规则+实例”消歧策略,分别叙述如下:411 元分词规则元分词规则,即分词规则的使用规则,独立于分词算法1①改进的正向最大匹配策略:正向最大匹配+回退一字1大多数情况下以最左最长词串优先,兼顾处理交段长度均为1的交集型歧义字段的处理1②允许上层应用系统定义多个词表,并且在不5211罗智勇等:现代汉语通用分词系统中歧义切分的实用技术同词表的之间规定优先级:优先级高的词表中的词条优先切出1词表之间的优先级由上层应用系统根据实际情况动态制定1412 补充规则根据表2的统计和分析,我们把交集型歧义字段按歧义字段长分成长度为3,4,5,6及6以上4类1对于前3类歧义字段,根据其不同的交叠形式给出相应的切分规则1例如:串长为3的歧义字段abc,采用以下的切分规则:If(Freq(a)>Freq(c))Then aΠbc Else abΠc EndIf;其中:Freq(a),Freq(c)分别为a,c作为单字词的词频1串长为4的歧义字段abcd,若交叠形式为ab&bcd,则采用以下的切分规则:If IsW ord(cd)Then abΠcd Else aΠbcd EndIf;其中:IsW ord(cd)判定cd是否为词表收录词语1对于串长为6及6以上的歧义字段,我们简要的细分为两类:一类是其交叠形式中,词长为2的词语交替出现的歧义字段;其余歧义字段归为另外一类1前一类的切分规则为:把歧义字段中交替出现的串长为2的词语切开;而对于后一类,采取最左最长优先的方法进行切分1413 歧义知识库———切分校正库对于以上两类规则无法覆盖的歧义字段,我们采用静态切分标注的方法,把它们的正确切分结果整理成歧义切分知识库,在机械切分完成后,以便对分词结果进行校正1但问题在于:在目前的通用分词系统(GPWS)中,允许用户定义多个词表、动态的挂接词表和定义词表之间的优先级,歧义切分知识库需要动态的反映这种用户分词规则的变化,保证纠正后的分词结果与用户的分词规则始终保持一致1例如:给定词表V1,V2,词W1=“羊肉”,W2=“肉汤”且W1∈V1且W1┐∈V2,W2∈V2且W2┐∈V1,“羊”、“肉”、“汤”均为单字词,Q=“羊肉汤”为W1和W2交叠构成的交段长为1的交集型歧义字段1在任何上下文环境下:当词表V1,V2同时参与分词(不论V1和V2之间的优先级)时,Q的正确切分结果为“羊肉Π汤”,若只有词表V2参与分词时,Q的正确切分结果应为“羊Π肉Π汤”,而不能为“羊肉Π汤”(因为根据用户规则,W1∈V1并没有参与分词),更不能为“羊Π肉汤”1显然,简单地把歧义字段Q的两种正确的切分结果和相应切分条件分别保存在歧义知识库中,会导致存储的浪费,而动态修改歧义切分知识库来适应用户分词规则的变化也是不现实的1由此,我们采用静态结构化标注和动态校正相结合的方法达到了上述要求141311 歧义字段切分标准答案的标注方法对于每一个歧义字段的正确切分结果,我们都采用结构化的表示方法,给出其自顶向下、在不同颗粒度情况下的切分方式,以体现歧义字段内部切分层次结构1因而这种标注方式既独立于用户词表,也独立于用户词表的优先级1这种层次结构在形式上等价于一棵多叉树(如图1所示),在存储方式上,这种层次结构也是采用紧凑的树形结构表示的1在不打破其内部结构层次的基础上,这种结构包含了在各种词库挂接和词库优先级下该歧义字段所有正确的切分方式1在上例中,歧义字段Q在歧义知识库中的标注为{羊Π肉}汤1等价的树形表示如图1所示:Fig11 Tree2Style of“羊肉汤(mutton soup)”1图1 “羊肉汤”树形结构表示这种表示方法不但包含了正确的切分结果“羊肉Π汤”(V1,V2同时参与分词),同时也包含了正确切分结果“羊Π肉Π汤”(仅有V2参与分词),而排斥了错误的切分结果“羊Π肉汤”(只有V2参与分词,或者V1,V2均参与分词但V2的优先级比V1的高)1在对歧义字段Q进行校正时,我们先检查W1=“羊肉”是否参与分词,若是,则把“羊肉”切出,若否,则打开“羊肉”结点,进入下一层,分别把单字词“羊”、“肉”切出;最后切出单字“汤”141312 基于切分知识库的动态校正算法由上一节可知,对每一歧义字段的正确切分结果标注方法,实质上等价于一棵多叉树,基于切分知识库的动态校正算法,实质上是一个多叉树先根遍历算法1它与多叉树先根遍历算法的惟一差别在于:当某非叶结点所标记的字串为本次参与分词的词语时,终止以该非叶结点为根的子树的遍历,切出该字串,进而根据遍历过程直接返回至父结点1基于切分知识库的动态校正算法的伪代码如下:变量:m T ree为歧义字段Q正确切分结果的等价树形表示;6211计算机研究与发展 2006,43(6)node代表树中某个结点;String代表树中某个结点上标注的字串;算子:RootOf(m T ree),取树m T ree的根结点;IsL eaf(node),判定node是否为叶结点;S t ri ng TagOf(node),取结点node上标注的字串;IsW ord(S t ri ng),判定S t ri ng是否参与本次分词;CutO ut(S t ri ng),切出S t ri ng为词;S plit ToPieces(S t ri ng),把S t ri ng切分为单字词序列;算法:Proc Disambi guiateW ithL ib(node) If node=Null Then Return EndIf; S t ri ng=S t ri ng TagOf(node); If IsL eaf(node)ThenIf IsW ord(S t ri ng)Then CutO ut(S t ri ng);Else S plit ToPieces(S t ri ng);EndIf Return; EndIf If IsW ord(S t ri ng)Then CutO ut(S t ri ng); Else Set node1,node2,…,node k as children of node; For i∶=1To k Do Disambi guityW ithL ib(node i); EndIf Return;EndProc初始调用:Disambi guiateW ithL ib(RootOf(m T ree))1对于因为不恰当的词库优先级造成的切分错误,例如:词W1=“感受”∈V1,W2=“受到”∈V2,称Q=“感受到”为“跨(词)库交集型歧义字段”;按用户的规则,V2的优先级大于V1的优先级,Q的切分结果为“感Π受到”,但在绝大多数上下文环境中,歧义字段Q的正确切分结果为“感受Π到”,这与用户定义的词库优先级正好相反1因为基于歧义知识库的校正是在多库机械切分后进行的,对于以上类型的歧义处理也是适用的15 测试结果与结论我们对上述RMRB01语料中的交集型歧义字段进行了穷尽式的抽取,并随机抽取以上歧义字段组成3个样本(每个样本1000条歧义字段),分别对上述消歧策略进行了测试,歧义切分的平均正确率约为9910%1T able3 Experiments on Disambigu ation表3 歧义字段切分实验结果Samples Total OAS Exactly Segmented OAS Precision(%) 110009889818210009929912310009919911 另外,我们使用语料RMRB02,对不同层次的歧义消解策略对分词结果整体性能的影响进行了对比测试(表4),其中:词表规模约15万条,歧义切分知识库约6890条1测试表明,歧义字段的发现算法和根据长度分类的最大概率消歧规则,对分词性能提高具有积极作用;同时,歧义知识库对于规则未能覆盖的高频歧义字段具有“查漏补缺”的效果1T able4 Comparison of Different Disambigu ation Strategies 表4 不同层次消歧策略对比结果Disambiguation StrategiesPrecision(NamedEntity Included)(%) FMM(Baseline)8715FMM&Backward2one2CharacterComplemented Rules9319FMM&Backward2one2CharacterComplemented Rules Repository of OAS95117本文对大规模真实语料中歧义字段的分布特征进行了统计分析,提出了歧义字段发现方法和交集型歧义字段的处理策略1其中,“正向最大匹配+回退一字”的歧义字段边界发现方法,具有较高的歧义字段召回率,同时也没有使问题复杂化;“规则+例外”的歧义处理策略和动态的校正算法,兼顾一般与特殊,同时满足了现代汉语通用分词系统(GPSW)的通用性和实用性的要求1致谢 感谢评审专家耐心细致的审查,并提出许多宝贵的意见和建议1参考文献1Lou Ting,Song Rou,Li Weiliang,et al1Design and implementa27211罗智勇等:现代汉语通用分词系统中歧义切分的实用技术tion of general2purpose interface of modern Chinese word segmen2 tation system1Journal of Chinese Information Processing,2001, 15(5):1~7(in Chinese)(娄,宋柔,李卫亮,等1现代汉语分词系统通用接口设计与实现1中文信息学报,2001,15(5):1~7)2Lou Ting1G eneral purpose design and disambiguation in Chinese word segmentation system:[Master dissertation]1Beijing:Bei2 jing University of Technology,2000(in Chinese)(娄1现代汉语分词系统通用性设计及切分歧义处理:[硕士论文]1北京:北京工业大学,2000)3Luo Zhiyong,Song Rou,et al1Integrated and fast recognition of proper noun in modern Chinese word segmentation(in Chinese)1 2001Int’l Conf1Chinese Computing(ICCC’2001),Singapore, 2001(罗智勇,宋柔,等1现代汉语自动分词中专名的一体化、快速识别方法12001Int’l Conf1Chinese Computing(ICCC’2001),新加坡,2001)4Andi Wu,Z ixin Jiang1Word segmentation in sentence analysis1 In:Proc11998Int’l Conf1Chinese Information Processing1Bei2 jing:Tsinghua University Press,19981169~180(Andi Wu,Z ixin Jiang1Word segmentation in sentence analysis1见:1998中文信息处理国际会议论文集1北京:清华大学出版社,19981169~180)5Ma Y an1Research on Chinese word segmentation system based on evaluation1In:Special Review on Language Information Process2 ing1Beijing:Tsinghua University Press;Nanning:Guanxi Sci2 ence&Technology Publishing House,199612~36(in Chinese) (马晏1基于评价的汉语自动分词系统的研究与实现1见:语言信息处理专论1北京:清华大学出版社;南宁:广西科学技术出版社,199612~36)6Sun Maoshong,K1T1Benjamin1Review of Chinese word seg2 mentation1Contemporary Linguistics,2001,3(1):22~32(in Chinese)(孙茂松,邹嘉彦,等1汉语自动分词研究评述1当代语言学, 2001,3(1):22~32)7Liu Qun,Zhang Huaping,Yu Hongkui,et al1Chinese lexical analysis using cascaded hidden Markov model1Journal of Comput2 er Research and Development,2004,41(8):1421~1429(in Chinese)(刘群,张华平,俞鸿魁,等1基于层叠隐马模型的汉语词法分析1计算机研究与发展,2004,41(8):1421~1429)8Liu K aiying1Word Segmentation and POS Tag in Chinese1Bei2 jing:Commercial Press,2000(in Chinese)(刘开瑛1中文文本自动分词和标注1北京:商务印书馆, 2000)9Sun Maosong,Zuo Zhengping1Overlapping ambiguity resolution in Chinese real text1In:Quantitative and Computational Studies on the Chinese Language1Hong K ong:Language Information Sci2 ence Research Center,City University of Hong K ong,19981323~338(in Chinese)(孙茂松,左正平,等1汉语真实文本中交集型切分歧义1见:汉语计量与计算研究1香港:香港城市大学语言资讯科学研究中心,19981323~338)10Feng Zhiwei1Natural Language Processing with Computers1 Shanghai:Shanghai Foreign Language Education Press,1994(in Chinese)(冯志伟1自然语言的计算机处理1上海:上海外语教育出版社,1994)11He K ekang,Xu Hui1Design of an expert system of automatic word segmentation in written Chinese text1Journal of Chinese In2 formation Processing,1991,5(2):1~14(in Chinese)(何克抗,徐辉,等1书面汉语自动分词专家系统设计原理1中文信息学报,1991,5(2):1~14)Luo Zhiyong,born in19751Ph1D1candi2date in computing science from Beijing Uni2versity of Technology,Beijing,China1Hisresearch interests includes com putational lin2guistics1罗智勇,1975年生,博士研究生,主要研究方向为计算语言学1Song R ou,born in19461Professor and doc2torial supervisor of Beijing Language andCulture University1His main research inter2ests are natural language process and artificialintelligence1宋柔,1946年生,教授,博士生导师,主要研究方向为自然语言理解和人工智能1R esearch B ackgroundWord segmentation is the basis of Chinese information processing(CIP)1Any CIP system beyond character level should have a built2in word segmentation block1Disambiguation and recognition of unknown words are most im portant points for design of word segmentation systems1On the other side,with the ex plosion of corpus to be processed,in the real engineering process,developers of word segmentation systems always need to strike a balance between the performance and cost in order to acquire the optimal perfor2 manceΠprice ratio1In this paper,we mainly discuss how to detect ambiguous sections(AS)and to disambiguate them efficiently and correctly in a general2purpose word segmentation(GPWS)system1Our work is supported by the National Science Foundation of Chi2 na(NSFC,60272055)and the National High2Technology Research(863)Project of China(2001AA114111)1 8211计算机研究与发展 2006,43(6)。
基于CFRs模型的交集型歧义消解研究作者:尤慧丽来源:《电脑知识与技术》2018年第18期摘要:中文自动分词是中文信息处理的基础,交集型歧义字段的消解又是中文自动分词中的重点。
本文将CRFs模型用于交集型歧义字段的歧义消解中。
该算法将交集型歧义字段的消解任务由二值分类的问题转化为序列标注的问题,这样不仅能处理任意链长的交集型歧义字串,而且能够充分利用上下文环境的信息,在不同的上下文环境中对真歧义字串进行正确的切分。
关键词:中文自动分词;交集型歧义;CRFs模型;序列标注中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)18-0263-021引言汉语词语的切分往往存在歧义,歧义切分是自动分词中一个比较棘手的问题。
歧义切分字段从构成形式上可以划分为交集型歧义切分字段、组合型歧义切分字段和混合型歧义切分字段三种类型。
交集型歧义切分字段是中文自动分词系统中的主要歧义类型,据相关统计,交集型歧义切分字段占所有歧义切分字段的85%以上[1],一直以来是人们研究的重点,本文主要讨论交集型歧义字段。
对消解交集型歧义字段,现阶段主要的方法有:基于词概率模型的歧义消解方法和基于最大熵模型的歧义消解方法等。
文献[2]中提及的方法在一元概率语法模型中简单易行,但参与计算的只有歧义字段内每个词的出现概率,和上下文环境没有关系。
而在二元概率语法模型中虽然能够利用上下文环境信息,但是它存在的最大困难是数据稀疏的问题。
文献[4]将最大熵模型应用于交集型歧义字段的消解任务中,但其消歧准确率不是特别理想。
本文在对现有方法进行深入分析的基础上,采用基于条件随机场模型的算法来解决交集型歧义字段的切分问题。
2预备知识2.1交集型歧义字段的定义定义1:交集型歧义字段:设汉字字符串[S=],其中S不是词,[ci(i=1,2......n)]为单个汉字,如果存在整数[i1],[i2],...,[im], [j1],[j2]…[jm]([m≥2])满足:(1)[w1=ci1...cj1],[w2=ci2...cj2],[wm=cim...cjm]分别构成词,并且S中不存在包含[w1]、[w2]、…、[wm]的词;(2) [w1]、[w2]、…、[wm]相互交叉,即[ik例如: A、资助/的/女童/已/从/小学/毕业/ B、从小/学/书法汉字字符串“从小学”为交集型切分歧义,这里“从小”、“小学”均为词,并构成交叉,所以“从小学”是一个交集型歧义切分字段。
课程编号:S0300010Q课程名称:自然语言处理开课院系:计算机科学与技术学院任课教师:关毅刘秉权先修课程:概率论与数理统计适用学科范围:计算机科学与技术学时:40 学分:2开课学期:秋季开课形式:课堂讲授课程目的和基本要求:本课程属于计算机科学与技术学科硕士研究生学科专业课。
计算机自然语言处理是用计算机通过可计算的方法对自然语言的各级语言单位进行转换、传输、存贮、分析等加工处理的科学。
是一门与语言学、计算机科学、数学、心理学、信息论、声学相联系的交叉性学科。
通过本课程的学习,使学生掌握自然语言(特别是中文语言)处理技术(特别是基于统计的语言处理技术)的基本概念、基本原理和主要方法,了解当前国际国内语言处理技术的发展概貌,接触语言处理技术的前沿课题,具备运用基本原理和主要方法解决科研工作中出现的实际问题的能力。
为学生开展相关领域(如网络信息处理、机器翻译、语音识别)的研究奠定基础。
课程主要内容:本课程全面阐述了自然语言处理技术的基本原理、实用方法和主要应用,在课程内容的安排上,既借鉴了国外学者在计算语言学领域里的最新成就,又阐明了中文语言处理技术的特殊规律,还包括了授课人的实践经验和体会。
1 自然语言处理技术概论(2学时)自然语言处理技术理性主义和经验主义的技术路线;自然语言处理技术的发展概况及主要困难;本学科主要科目;本课程的重点与难点。
2 自然语言处理技术的数学基础(4学时)基于统计的自然语言处理技术的数学基础:概率论和信息论的基本概念及其在语言处理技术中的应用。
如何处理文本文件和二进制文件,包括如何对文本形式的语料文件进行属性标注;如何处理成批的文件等实践内容3 自然语言处理技术的语言学基础(4学时)汉语的基本特点;汉语的语法功能分类体系;汉语句法分析的特殊性;基于规则的语言处理方法。
ASCII字符集、ASCII扩展集、汉字字符集、汉字编码等基础知识。
4 分词与频度统计(4学时)中文分词技术的发展概貌;主要的分词算法;中文分词技术的主要难点:切分歧义的基本概念与处理方法和未登录词的处理方法;中外人名、地名、机构名的自动识别方法;词汇的频度统计及统计分布规律。
中 文 信 息 学 报第13卷第1期JOURNAL OF CHINESE INFORMATION PR OCESSING V ol.13No.1高频最大交集型歧义切分字段①在汉语自动分词中的作用孙茂松 左正平 邹嘉彦3中国北京邮政编码100084清华大学智能技术与系统国家重点实验室3香港城市大学语言资讯科学研究中心摘要 交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。
本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。
考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619个的覆盖率为59.20%,且覆盖率受领域变化的影响不大。
而其中4,279个为伪歧义型,覆盖率高达53.35%。
根据以上分析,我们提出了一种基于记忆的、高频最大交集型歧义切分字段的处理策略,可有效改善实用型非受限汉语自动分词系统的精度。
关键词 中文信息处理 汉语自动分词 高频最大交集型歧义切分字段 基于记忆的排歧策略一、引言歧义切分字段是影响汉语自动分词系统精度的一个重要因素。
其中交集型歧义切分字段又占全部歧义切分字段的绝大多数。
迄今为止,关于交集型歧义切分字段仍缺乏比较深入、完整的研究。
根据国家863智能机主题组对国内一些汉语书面语自动分词软件的评测结果,交集型歧义切分字段的切分正确率最高仅为78%[1]。
虽然分词评测方法本身也处在不断完善中,但这个数字还是可以大体上反映出相关研究的状况:距问题的满意解决还有相当距离。
我们曾以一个极大规模汉语语料库为背景,对交集型歧义切分字段进行了穷举式的调查[2],以便摸清其分布全貌,为有针对性地研究其消解手段打下扎实的基础。
这个调查的主要收获之一是:交集型歧义切分字段的高频部分具备某些值得注意的特点,对提高汉语自动分词系统的性能颇有参考价值。
本文的讨论即围绕高频交集型歧义切分字段展开。
二、高频最大交集型歧义切分字段分析考察2.1.交集型歧义切分字段与最大交集型歧义切分字段①本研究得到国家自然科学基金资助(合同号:69433010) 本文1998年12月2日收到定义1交集型歧义切分字段设字符串,S=c1c2…c n,S不是词,c1,…,c n为汉字,如果存在整数i1,i2,…,i m,j1,j2,…,j m(mΕ2),满足:(1) w1=c i1…c j1,w2=c i2…c j2,…,w m=c im …c jm分别构成词,并且S中不存在包含w1、w2、…、w m的词;(2) w1、w2、…、w m构成相互交叉,即1=i1<i2Φj1<j2,i2<i3Φj2<j3,i3<i4Φj3<j4,…i m-2<i m-1Φj m-2<j m-1,i m-1<i mΦj m-1<j m=n则称字段S为交集型歧义切分字段。
例如字符串“辛勤劳动”,其中“辛勤”、“勤劳”、“劳动”均为词,并构成交叉,所以“辛勤劳动”是一个交集型歧义切分字段。
定义2最大交集型歧义切分字段设S=c1c2…c n为任一字符串,S max=c i…c j为S的一个子串(1Φi<jΦn),并且S max为交集型歧义切分字段。
如果在S中不存在包含S max的更大的交集型歧义切分字段,则称S max为S的最大交集型歧义切分字段。
例如在句子“你任何时候都可以来找我”中,“任何时”和“任何时候”均为交集型歧义切分字段,但“任何时候”涵盖了“任何时”,同时不为任何交集型歧义切分字段所包含,故“任何时候”是最大交集型歧义切分字段,“任何时”则不是。
区别交集型歧义切分字段和最大交集型歧义切分字段的意义在于:最大交集型歧义切分字段不再与周围任何字发生新的交叉关系,具有一定的独立性,这使得我们有可能把它们从上下文环境中分离出来,独立进行考察。
我们的基本考虑是:一方面,汉语中某些交集型歧义切分字段确乎依赖于上下文,具有真歧义。
如“地面积”,在句子“这几块地面积还真不小”和句子“地面积了厚厚的雪”中,切分结果迥异。
另一方面,我们更发现,当面对大规模真实文本时,在相当多的场合下,我们并不需要知道上下文环境就能对交集型歧义切分字段正确地进行切分。
如“和软件”,虽然存在两种不同的切分形式“和/软件”和“和软/件”,但在真实文本中,它无一例外地应被切分为“和/软件”。
也就是说,从交集型歧义切分字段本身可以得到切分该字段所需的自足信息。
这意味着大部分交集型歧义切分字段属于机器形式上的歧义,在人看来则是伪歧义。
2.2.高频最大交集型歧义切分字段的覆盖能力我们利用一部清华大学研制的、包含112,967个词的汉语通用词典TH-WL(由《现代汉语词典》《现代汉语词典补编》《同义词词林》《现代汉语通用字典》《现代汉语规范词典》等多部比较有影响的汉语词典综合而成),从一个规模为101,506,152个字的汉语语料库RCorpus (1993年《人民日报》、1994年《人民日报》、1994年《中国百家报刊精选》和1994年《市场报》)中无一遗漏地抽取出其中所有的最大交集型歧义切分字段。
最后共得到不同的最大交集型歧义切分字段233,888个。
这些字段在RCorpus中累计出现了1,793,317次,所含汉字总数6, 566,244个,覆盖了整个RCorpus的6.47%左右。
图1给出了前n个高频最大交集型歧义切分字段对RCorpus中全部最大交集型歧义切分字段的覆盖率r随序号n的变化曲线:图1 前n个高频最大交集型歧义切分字段关于RCorpus的覆盖率r(横坐标上的”K”表示数字1000)这种曲线变化是我们所期望看到的:在开始一段区间内急剧上升,以后渐趋平缓,显示为数不多的高频最大交集型歧义切分字段的覆盖率相当可观。
仔细观察与图1对应的数据,我们发现:前2,500个的覆盖率超过了50%,前4,619个的覆盖率接近59.20%。
我们另做了一个实验:用从RCorpus获取的前4,619个高频最大交集型歧义切分字段去覆盖一个与RCorpus毫不相干的、60万字的语料库ACorpus(领域涉及新闻、技术、科普、军事等)中蕴涵的全部最大交集型歧义切分字段,得到覆盖率变化曲线如图2:图2 RCorpus的前n个高频最大交集型歧义切分字段关于ACorpus的覆盖率r这4,619个高频最大交集型歧义切分字段关于ACorpus的覆盖率仍然达到了50.85%,与关于RCorpus的覆盖率59.20%相比,下降幅度有限。
这表明高频最大交集型歧义切分字段是比较稳定的,受领域变化的影响不大,具有相当程度的通用性。
2.3.高频最大交集型歧义切分字段在汉语自动分词中的作用高频最大交集型歧义切分字段强而稳定的覆盖能力决定了它们在汉语自动分词中势必占据非同寻常的位置:处理好这些字段,就意味着解决了汉语真实文本中全部交集型歧义的一半左右。
对RCorpus中的前4,619个高频最大交集型歧义切分字段做进一步的分析,可把它们归结成三种类型:(1)伪歧义:只有一种切分形式是可实现的(共4,279个)表1 伪歧义示例最大交集型歧义切分字段RC orpus中频度切分形式1能否实现切分形式2能否实现其它交集型切分形式能否实现市场经济体制7114市场经济/体制√市场/经济体制×无市政府6434市/政府√市政/府×无充分发挥4435充分/发挥√充/分发/挥×无产品质量4293产品/质量√产/品质/量×无年时间2613年/时间√年时/间×无今天下午2372今天/下午√今/天下/午×无不合理1883不/合理√不合/理×无族人民1515族/人民√族人/民×无部门对1424部门/对√部/门对×无国家规定1344国家/规定√国/家规/定×无在建设1186在/建设√在建/设×无大会堂会见1006大会堂/会见√大会/堂会/见×有×上下功夫900上/下功夫√上下/功夫×无代表团团长633代表团/团长√代表/团团/长×无提高产品质量606提高/产品/质量√提/高产/品质/量×有×以及其他595以及/其他√以/及其/他×无乡镇企业家589乡镇/企业家√乡镇企业/家×无等同志523等/同志√等同/志×无负责人和356负责人/和√负责/人和×无树立正确282树立/正确√树/立正/确×无家乡镇企业261家/乡镇企业√家乡/镇/企业×无情不自禁地201情不自禁/地√情/不/自/禁地×无提高人民生活水平165提高/人民/生活/水平√提/高人/民生/活/水平×有×加强调查研究119加强/调查研究√加/强调/查/研究×无演出活动113演出/活动√演/出活/动×无(2)真歧义1:存在两种以上经常可实现的切分形式(共85个)表2 真歧义1示例最大交集型歧义切分字段RCorpus中频度切分形式1切分形式1之例句切分形式2切分形式2之例句应用于603应用/于我国首次将卫星导航技术应用于植物保护。
应/用于按规定,变价收入应用于固定资产的更新改造。
可以为357可以/为这套设备可以为盲人提供方便。
可/以为这回,他可以为大功告成了,谁知…上来说217上/来说外包装从制作上来说是一个概念。
上来/说王经理迎上来说:“欢迎,欢迎!”从不同287从/不同这些文章从不同的角度论述了改革的必要性。
从不/同她从不同陌生人随便讲话。
有意见208有/意见我对他有意见。
有意/见他被告知总统有意见他。
的确定201的/确定毛泽东领导地位的确定是在著名的遵义会议上。
的确/定这件事一时的确定不下来。
超标准135超/标准这套干部住房超标准了。
超标/准这辆车尾气超标准不准进城?从小学114从小/学从小学电脑值得提倡。
从/小学她从小学到大学成绩一直很好。
中国人才74中国/人才中国人才很多。
中国人/才中国人才不吃这一套呢。
前进一步65前进/一/步改革每前进一步,都要付出一定的代价。
前/进一步避免暴力活动在大选前进一步升级。
(3)真歧义2:本质上属于真歧义但通常情况下只有一种切分形式是可实现的(其它切分形式出现机会很小),基本上可当成伪歧义处理(共255个)表3 真歧义2示例最大交集型歧义切分字段RCorpus中频度切分形式1(经常)切分形式1之例句切分形式2(罕见)切分形式2之例句方面的10264方面/的他受到了来自几个方面的压力。
方/面的受害那一方面的的车门被撞扁了。
主要是5366主要/是我看主要是你的问题。
主/要是主要是再不显灵,我们就没救了。