当前位置：文档之家› 中文信息处理中的自动分词方法研究

中文信息处理中的自动分词方法研究

基金项目：教育部人文社会科学研究青年基金项目“基于眼动法的中文分词机制研究”（17YJC740107）。作者简介：杨涛，西安外国语大学讲师，硕士，研究方向：应用语言学。

中文信息处理中的自动分词方法研究

杨涛

（西安外国语大学陕西西安 710128）

摘要：自动分词技术是中文信息处理的入门技术。通过对现有的三类中文分词算法（即基于词典的分词方法、基于统计的分词方法和基于理解的分词方法）的回顾和评述，分析“词”的界定、歧义消除和未登录词识别等制约中文分词的三大瓶颈，为中文分词技术的进一步发展提供方向。

关键词：中文分词分词算法歧义消除未登录词

中图分类号：H087 文献标识码：A 文章编号：1009-5349（2019）07-0093-03

分词技术是自然语言处理的一项基础任务。以英语为代表的印欧语系语言在词之间有明显的空格作为边界，一般情况下，词语都可以比较简单而准确地提取出来。相对而言，中文分词（Chinese word segmentation）就要复杂得多。中文句子中的字符呈紧密相连的状态，词之间没有明显的分割标记和形态变化。而在自然语言理解中，词是表达意义的基本语言成分，对词的理解是对句子含义理解的前提条件。因此，中文信息处理的首要问题就是将没有分隔标记的字符串切分为合理的词序列。在机器翻译、信息检索、文本分类、语音识别等大多数智能化自然语言任务中，都需要将分词系统作为其基本模块和关键技术点。中文分词系统的准确与否，会直接影响和传递到下一级任务中，进而影响到相关中文信息处理系统的可靠性和实用性。[1]

一、中文分词算法

近30多年来，经过国内外大量学者的共同努力，中文自动分词已发展成一个独立的研究领域，取得了许多可喜的进步，也出现了众多的知识理论和算法。根据研究方法的不同出发点，现有的分词算法可以分为三大类：基于词典的分词方法、基于统计的分词方法和基于理解的分词方法。

（一）基于词典的分词方法

该方法是一种基于规则的词切分法。其核心理念是：在进行词切分之前，预先建立一个足够大的机器词典，词典中尽可能包含所有可能出现的词；然后按照预定的策略，逐一比对待切分字符串和词典中的词条；如成功匹配到相对应的字符串，则完成切词。因此，这种方法也叫做基于字符串匹配的分词算法或称为机械分词方法。该方法有三个主要因素：即分词词典、匹配规则和扫描方向。[2]根据匹配词长的优先度，这种算法分为最大匹配、最小匹配、逐词匹配和最优匹配；根据文本的不同扫描方向，这种算法分为逆向匹配、正向匹配和双向匹配。

一般情况下，一个词的词长和它所能表达的信息量呈正相关，因此，最大匹配算法在一些比较成熟的词典分词方法中被广泛采用。这其中常见的有：正向最大匹配法（Maximum Matching,MM）、逆向最大匹配法（Reverse Maximum Matching,RMM）和双向最大匹配法（Bi-Direction

Maximum Matching,BDMM）等。MM 和RMM 分词过程大同小

异，都是采用减字的方式进行匹配，二者的区别主要在扫描顺序上。而由于信息后置这一中文语句的显著特点，MM 的分词效果相较而言要略逊于RMM。有实验结果表明，仅使用MM 的错误概率为0.59%，而仅使用RMM 的错误概率为0.41%[3]，这样的分词效果距离实际的应用还有一定的距离。BDMM 是对分别使用了MM 和RMM 切分结果中的不重合歧义问题做进一步处理，以此降低歧义句造成的分词错误率，但错误率的降低是以巨大的时间消耗换来的。除了上述常用的分词方法外，还有最佳匹配法、逐词遍历法、有穷多层次列举法和设立切分标志法等。

总体来说，基于词典的分词方法算法简单且易于实现，但词典的完备性难以保证，特别是对于未登录词（out of vocabulary,OOV）的识别率低；由于词的划分没有一个统一的标准，因此机器词典的词集质量对分词精度造成的影响较大。此外，词典的匹配速度慢，交集型和组合型歧义的切分问题也是两个比较明显的缺陷。因此，研究者往往将词典分词方法作为文本粗分和歧义识别的起始环节，将其与基于统计和理解的分词方法结合使用，以期提升整体的分词精度和分词效率。

（二）基于统计的分词方法

近年来，基于统计的分词方法成为中文分词技术的主流。该算法的依据是：在汉语上下文中，虽然没有任何的词边界，但相邻字之间联合出现的频率越高，则其越有可能形成一个词。因此，该算法首先对语料中的字符串进行全切分，然后对所有可能相邻共现的字组合进行频率统计，计算它们的互现信息[4]，这样便将语言问题转化成了统计问题，继而建立反映相邻字互信度的概率模型，从而完成新词识别和切分。这种算法仅需对语料中每个词的频率进行计算，而不依赖于大规模的机器词典，因此也称为无词典分词方法。该方法常用的统计量主要有：信息熵、互信息、t-测试差等；相关的分词模型包括：N 元文法模型（N-gram）、最大熵模型（Maximum Entropy,ME）、隐马尔可夫模型（Hidden Markov Model,HMM）以及条件随机场模型（Conditional Random Fields,CRFs）等。

N-gram 模型是一种基于有向图的全切分算法的经典模型。该模型认为，单个词的出现与其上下文的词序列相