中文分词算法概述
- 格式:pdf
- 大小:262.90 KB
- 文档页数:3
⼈⼯智能机器学习之NLP和中⽂分词算法前⾔:在⼈类社会中,语⾔扮演着重要的⾓⾊,语⾔是⼈类区别于其他动物的根本标志,没有语⾔,⼈类的思维⽆从谈起,沟通交流更是⽆源之⽔。
所谓“⾃然”乃是寓意⾃然进化形成,是为了区分⼀些⼈造语⾔,类似C++、Java等⼈为设计的语⾔。
NLP的⽬的是让计算机能够处理、理解以及运⽤⼈类语⾔,达到⼈与计算机之间的有效通讯。
01 什么是NLP1. NLP的概念NLP(Natural Language Processing,⾃然语⾔处理)是计算机科学领域以及⼈⼯智能领域的⼀个重要的研究⽅向,它研究⽤计算机来处理、理解以及运⽤⼈类语⾔(如中⽂、英⽂等),达到⼈与计算机之间进⾏有效通讯。
在⼀般情况下,⽤户可能不熟悉机器语⾔,所以⾃然语⾔处理技术可以帮助这样的⽤户使⽤⾃然语⾔和机器交流。
从建模的⾓度看,为了⽅便计算机处理,⾃然语⾔可以被定义为⼀组规则或符号的集合,我们组合集合中的符号来传递各种信息。
这些年,NLP研究取得了长⾜的进步,逐渐发展成为⼀门独⽴的学科,从⾃然语⾔的⾓度出发,NLP基本可以分为两个部分:⾃然语⾔处理以及⾃然语⾔⽣成,演化为理解和⽣成⽂本的任务,如图所⽰。
▲NLP的基本分类⾃然语⾔的理解是个综合的系统⼯程,它⼜包含了很多细分学科,有代表声⾳的⾳系学,代表构词法的词态学,代表语句结构的句法学,代表理解的语义句法学和语⽤学。
⾳系学:指代语⾔中发⾳的系统化组织。
词态学:研究单词构成以及相互之间的关系。
句法学:给定⽂本的哪部分是语法正确的。
语义学:给定⽂本的含义是什么?语⽤学:⽂本的⽬的是什么?语⾔理解涉及语⾔、语境和各种语⾔形式的学科。
⽽⾃然语⾔⽣成(Natural Language Generation,NLG)恰恰相反,从结构化数据中以读取的⽅式⾃动⽣成⽂本。
该过程主要包含三个阶段:⽂本规划:完成结构化数据中的基础内容规划语句规划:从结构化数据中组合语句来表达信息流实现:产⽣语法通顺的语句来表达⽂本2. NLP的研究任务NLP可以被应⽤于很多领域,这⾥⼤概总结出以下⼏种通⽤的应⽤:机器翻译:计算机具备将⼀种语⾔翻译成另⼀种语⾔的能⼒。
自然语言处理中的中文分词算法研究自然语言处理是现代计算机科学的一个重要分支,其主要目的是将人类语言转换为计算机所能理解和操作的形式。
中文作为世界上使用人口最多的语言之一,中文分词算法的研究具有十分重要的意义。
本文将从中文自然语言处理的背景、中文分词的概念、中文分词的方法以及中文分词算法的应用等方面进行研究探讨。
一、背景随着计算机技术的发展,自然语言处理技术已成为研究热点之一。
目前,自然语言处理技术已经得到了广泛的应用,如垃圾邮件过滤、搜索引擎、机器翻译等。
然而,由于自然语言处理本身的复杂性,中文分词一直是中文自然语言处理中的难点之一。
中文分词是将汉语句子中的词语划分开来的过程,也可以说是对于汉语句子的基本处理。
因为汉字没有像英文中空格那样的分隔符,所以中文分词是中文自然语言处理的首要任务。
对于中文分词而言,传统的分字方法很难满足需求,自然语言处理专家们通过不断创新研究相继提出了基于规则的分词方法和基于统计的分词方法等。
二、中文分词的概念中文分词是指将中文文本按照一定的规则和方法进行切分,划分出连续的词语序列的过程。
这个过程可以看作是基于词汇的文本矩阵化过程,也就是从原始文本中提取出一个个的单元(词)、量化表示出来。
中文文本中,词是语言的最小基本单位。
与单字相比,词汇的概念更贴合语言文本的实际情况,因为一个词往往还包含着丰富的语义信息。
而对于确定一个具有意义的中文词汇时,必须先将中文文本进行分词处理。
例如,“自然语言处理很重要”这个句子在分词处理后变成“自然语言处理/很/重要”三个词语,这个过程就是中文分词。
三、中文分词的方法大致分类,目前中文分词方法主要可以分为以下两类:1、规则分词法规则分词法属于基于人工经验的一类分词方法。
它是根据人工定义的一些规则来实现分词的。
在这种方法中,规则库的准确性和完备性对分词效果有较大的影响。
规则分词法的原理是,对于一段中文文本,通过基于语言学和统计学的规则来确定分词位置。
自然语言处理中的中文分词算法研究自然语言处理(Natural Language Processing, NLP)是近年来快速发展的一门计算机科学领域。
它研究如何让计算机理解和运用人类语言,包括自动语音识别、机器翻译、文本分类和信息检索等。
其中,中文分词是NLP领域中的一个重要问题,影响着许多中文信息处理任务的效果。
中文和英文不同,中文没有空格来分隔不同的单词。
因此,为了进行中文文本的语言学分析和处理,首先需要将文本中的字分隔为单独的词语,这个过程就被称为中文分词。
中文分词是一个具有挑战性的问题,因为中文中存在着大量的歧义和多义词,词汇之间的联系也很复杂。
例如,“我是一个程序员”这个句子,可以被分割为“我/是/一/个/程序员”或“我/是一个/程序员”,两种分词方式都是合理的,但对应的语义略有不同。
因此,中文分词算法需要进行语言学分析,采用合理的规则或算法来对中文文本进行分词,以保证分词结果的准确性和可用性。
目前,主要的中文分词算法可以分为基于规则的分词算法和基于统计机器学习方法的分词算法。
基于规则的分词算法依赖于一些人工制定的分词规则,例如基于词典匹配、基于正则表达式和基于句法规则的方法。
其中,基于词典匹配的方法是比较常见的一种方法,它将中文文本中的每个词汇都匹配到一个预先制定的词典中,从而实现分词。
该方法的优点在于对专业术语等特定领域的文本效果比较好,但缺点在于词典的质量和规模对分词效果有直接影响,对新的词汇处理不灵活。
基于统计机器学习方法的分词算法则是利用大规模语料库中的词频、上下文等信息进行学习和预测。
典型的算法包括隐马尔科夫模型(Hidden Markov Model, HMM)、条件随机场(Conditional Random Field, CRF)、最大熵模型(Maximum Entropy Model, MaxEnt)等。
这类算法能够更好地处理生僻词、新词和歧义词等问题,并且具有较强的自适应能力。
tiktoken中文分词原理1.概述在自然语言处理(NL P)领域中,中文分词是一个重要的任务,它的目标是将连续的中文字符序列切分成有意义的词语。
ti kt ok en是一个开源的中文分词工具,它基于最大匹配算法和字典树的方法来实现中文分词。
本文将介绍t ik to ke n中文分词工具的原理及其运行过程。
2.最大匹配算法最大匹配算法是一种常用的中文分词算法,它基于词典中最长的词汇进行切分。
t ik to ken利用了最大匹配算法来进行分词。
具体而言,t ik to ken首先将待切分的句子按照最大切分长度划分为几个子句。
然后,它从每个子句的起始位置开始,逐渐增大切分长度,不断寻找匹配的词汇。
当找到匹配的词汇时,t ik to ke n将该词汇作为一个分词结果,并将切分位置移动到下一个子句的起始位置。
这个过程重复进行,直到所有子句都被分词为止。
最大匹配算法的一个关键问题是如何确定最大切分长度。
t ikt o ke n使用了统计信息和机器学习的方法来动态地确定最佳的最大切分长度,以提高分词的准确性。
3.字典树字典树(Tr ie)是一种树状数据结构,它能够高效地存储和查找字符串。
ti kt ok en利用了字典树来储存中文词汇信息,以支持最大匹配算法的快速匹配过程。
字典树的每个节点代表一个字符,从根节点到叶节点的路径表示一个完整的词汇。
ti kt ok e n在分词过程中通过比对待切分句子的字符与字典树节点的字符,来确定最大匹配的词汇。
4. ti ktoken的运行过程t i kt ok en的运行过程可以概括为以下几个步骤:4.1构建字典树t i kt ok en首先从一个大型的中文词汇库中提取出所有的词汇,并构建字典树。
这个字典树将作为最大匹配算法的匹配模型。
4.2切分子句t i kt ok en将待切分的句子按照标点符号或其他符号进行划分,形成若干个子句。
每个子句都将作为最大匹配算法的输入。
4.3最大匹配对于每个子句,ti kt o ke n从起始位置开始,逐渐增大最大切分长度,利用字典树进行匹配。
火车采集中文分词-概述说明以及解释1.引言1.1 概述概述部分:在信息时代的今天,随着互联网和大数据的飞速发展,海量的中文文本数据正如火箭般迅猛增长。
在处理这些数据时,我们往往需要对其中的每个字或词进行正确划分和分析,这就需要运用到中文分词技术。
中文分词是将连续的中文文本切分成词语单位的过程,它是中文语言处理的关键步骤。
本文将深入探讨火车采集中文分词的相关技术和应用。
火车采集作为一种数据采集工具,广泛应用于各行各业,其中包括了对中文文本的采集和分析。
而中文分词作为其中的重要环节,对于火车采集工具的使用和效果具有至关重要的作用。
在本文的2.1节中,我们将先对火车采集的背景进行介绍,包括其基本原理和主要功能。
对于那些对火车采集不太了解的读者来说,这部分内容将提供一个全面的开端。
接着在2.2节,我们将探讨中文分词技术的重要性。
中文分词作为自然语言处理领域中的基础任务,对于各种文本挖掘、情感分析、机器翻译等应用具有重要影响。
我们将通过解释其在实际应用中的必要性和优势,让读者对中文分词的重要性有更深刻的认识。
最后,在结论部分中,我们将探讨火车采集中文分词的应用前景和总结整篇文章。
我们将对本文所介绍的技术进行回顾和总结,并对未来火车采集中文分词的发展方向进行展望。
通过本文的阅读,读者将能够全面了解火车采集中文分词的概况和意义。
同时,本文也将为相关领域的研究者和从业者提供一定的参考和启发。
让我们一起深入探索火车采集中文分词的世界,为中文文本处理和分析的发展助一臂之力。
1.2 文章结构本文将按照以下结构展开火车采集中文分词的讨论。
首先,我们将介绍火车采集的背景,包括其定义和主要特点。
通过了解火车采集的基本概念,读者能够更好地理解接下来讨论的中文分词技术对火车采集的重要性。
接着,我们将详细探讨中文分词技术的重要性。
我们会解释中文分词技术在文本理解、信息检索和自然语言处理等领域的应用,并阐述为什么中文分词对于火车采集至关重要。
中文分词相关技术简介目前对汉语分词方法的研究主要有三个方面:基于规则的分词方法、基于统计的分词方法和基于理解的分词方法。
基于规则的分词方法基于规则的分词方法,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
常用的方法:最小匹配算法(Minimum Matching),正向(逆向)最大匹配法(Maximum Matching),逐字匹配算法,神经网络法、联想一回溯法,基于N-最短路径分词算法,以及可以相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法等。
目前机械式分词占主流地位的是正向最大匹配法和逆向最大匹配法。
◆最小匹配算法在所有的分词算法中,最早研究的是最小匹配算法(Minimum Matching),该算法从待比较字符串左边开始比较,先取前两个字符组成的字段与词典中的词进行比较,如果词典中有该词,则分出此词,继续从第三个字符开始取两个字符组成的字段进行比较,如果没有匹配到,则取前3个字符串组成的字段进行比较,依次类推,直到取的字符串的长度等于预先设定的阈值,如果还没有匹配成功,则从待处理字串的第二个字符开始比较,如此循环。
例如,"如果还没有匹配成功",取出左边两个字组成的字段与词典进行比较,分出"如果";再从"还"开始,取"还没",字典中没有此词,继续取"还没有",依次取到字段"还没有匹配"(假设阈值为5),然后从"没"开始,取"没有",如此循环直到字符串末尾为止。
这种方法的优点是速度快,但是准确率却不是很高,比如待处理字符串为"中华人民共和国",此匹配算法分出的结果为:中华、人民、共和国,因此该方法基本上已经不被采用。
jieba分词规则jieba分词是一种常用的中文分词工具,它基于词频和统计的方法,使用了一系列规则和算法,能够较准确地将一个中文字符串分割成合理的词语。
下面我将详细介绍jieba分词的规则。
1.基于词典的正向最大匹配:jieba分词使用了一个包含了成千上万个词语的词典,它通过正向最大匹配法来确定最长的匹配词语。
具体来说,从字符串的最左侧开始,逐渐向右查找,直到找到的字符组成的字符串在词典中不存在或无法继续扩展为更长的词语。
2.基于HMM(Hidden Markov Model)的模型:当正向最大匹配无法确定最长的匹配词语时,jieba分词会使用基于HMM的模型来计算出一个概率最大的分词结果。
HMM模型根据隐含状态和观测状态之间的转移概率和观测概率,通过动态规划算法来计算分词结果的最大概率路径。
3.计算每个词语的词频:jieba分词会统计词典中每个词语的词频,这个词频信息会被用来计算分词结果的概率。
词频越高的词语,它是一个有效的词语的概率就越大。
4.基于标点符号的分词:jieba分词将标点符号作为一个特殊的符号处理,这样可以避免将标点符号切分出来作为一个独立的词语。
jieba分词提供了一个默认的标点符号集合,同时也可以通过用户自定义来扩展标点符号集合。
5.基于自定义词典的分词:jieba分词允许用户通过加载自定义的词典来增加新的词语。
用户可以将一些特定的词语添加到词典中,这样在分词过程中就可以将这些词语识别出来。
6.基于Jieba Analyse的关键词提取:jieba分词提供了一个关键词提取的功能。
用户可以输入一段文本,jieba分词会根据TF-IDF (Term Frequency-Inverse Document Frequency)的计算方法,提取出频率较高且具有一定关联性的关键词。
总的来说,jieba分词是一个功能强大的中文分词工具,它通过词典、HMM模型和词频等多种规则进行分词,能够较准确地将中文字符串分割成合理的词语。
中文的token数概述在自然语言处理领域,token是文本的最小单位,可以是单个字符、单词或词组。
中文作为一种复杂的语言,其token数的计算与英文等其他语言存在着不同。
本文将探讨中文的token数计算方法及其应用。
中文分词与token中文分词是将连续的中文字符序列切分成具有意义的词组或词语的过程。
由于中文没有空格来明确分隔词语,中文分词对于进行文本处理和语言理解至关重要。
而分词的结果就是文本的token。
分词算法中文分词算法可以分为基于词典的方法和基于统计的方法两大类。
基于词典的方法依赖于词典中包含的词语信息,通过匹配词典中的词语来进行分词。
基于统计的方法则是利用大规模语料库中的统计信息,通过分析词语间的关联性来进行分词。
目前比较常用的中文分词算法包括正向最大匹配(Maximum Matching,MM)、逆向最大匹配(Reverse Maximum Matching,RMM)、双向最大匹配(Bidirectional Maximum Matching,BMM)、隐马尔可夫模型(Hidden Markov Model,HMM)等。
分词示例下面是一段中文文本的分词示例:输入文本:我喜欢自然语言处理领域的研究。
分词结果:我喜欢自然语言处理领域的研究。
可以看到,分词后的结果是以单个词语作为一个token。
中文的token数计算方法中文的token数计算方法与英文等其他语言不同,主要原因是中文作为一种象形文字,其字符与词语并没有一对一的对应关系。
基于字符的计算方法最简单的计算方法是基于字符的计算方法,将每个中文字作为一个token。
这种方法简单、直观,但忽略了中文词汇的组合关系,对于文本理解和信息抽取等任务可能不够准确。
基于词语的计算方法更准确的计算方法是基于分词结果的计算方法,将分词后的每个词语作为一个token。
这种方法能够更好地反映中文词汇的组合关系,但需要进行分词操作,比较耗时。
中文token数计算示例下面是一个中文文本的token计算示例:输入文本:我喜欢自然语言处理领域的研究。
中文分词原理中文分词是指将一个汉字序列切分成一个个具有语言意义的词语的过程,是中文信息处理的基础工作之一。
在计算机领域中,中文分词是自然语言处理的重要环节,对于搜索引擎、信息检索、文本挖掘等应用具有重要意义。
本文将介绍中文分词的原理及相关内容。
首先,中文分词的原理是基于词语的语言学特征来进行切分。
中文词语之间并没有像英文那样的明显分隔符号,因此要进行中文分词就需要依靠词语的语言学特征来进行判断。
中文词语通常由一个或多个汉字组成,而且词语之间具有一定的语义关联,因此可以通过词语的语言学特征来进行切分。
其次,中文分词的原理还涉及到词语的频率统计和语境分析。
在进行中文分词时,需要利用大量的语料库来进行词语的频率统计,以确定词语的常见组合和概率。
同时,还需要进行语境分析,即根据词语在句子或文章中的上下文来确定词语的边界,以保证切分结果的准确性。
另外,中文分词的原理还包括了一些特定的算法和模型。
目前常用的中文分词算法包括基于词典的最大匹配法、逆向最大匹配法、双向最大匹配法等。
此外,还有基于统计模型的中文分词方法,如隐马尔可夫模型(HMM)、条件随机场(CRF)等。
这些算法和模型都是基于中文词语的语言学特征和频率统计来进行切分的。
总的来说,中文分词的原理是基于词语的语言学特征、频率统计和语境分析来进行切分的。
通过对词语的特征和语境进行分析,结合相应的算法和模型,可以实现对中文文本的准确切分。
中文分词的准确性对于中文信息处理具有重要意义,因此对于中文分词原理的深入理解和研究具有重要意义。
总结一下,中文分词原理是基于词语的语言学特征、频率统计和语境分析来进行切分的,通过相应的算法和模型实现对中文文本的准确切分。
中文分词对于中文信息处理具有重要意义,对其原理的深入理解和研究对于提高中文信息处理的效率和准确性具有重要意义。
fSSN 1009—3044 Computer Knowledge and Technology电脑知识与技术 Vo1.5,No.10,April 2009,PP.2605—2607
中文分词算法概述 龙树全.赵正文.唐华
E—mail:xsjl@cccc.net.cn http://www.dnzs.net.cn Te1:+86~55 l一5690963 5690964
(西南石油大学计算机科学学院,四川成都6105O0) 摘要:当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入 q-文分词是中文信息的关键技术之 其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模型进行了 详细的阐述和讨论.为中文分词的进一步发展提供基础和方向。
关键词:中文分词:全文检索;算法;搜索引擎;歧义切分 中图分类号:TP391.1 文献标识码:A 文章编号:1009—3044(2oo9)1o一2605—03
Overview on Chinese Segmentation Algorithm LONG Shu—quan,ZHAO Zheng—wen,TANG Hua (19epartment of Computer Science and Technology,Southwest Petroleum University,Chengdu 610500,China) Abstract:Currently,the search engine technology has been widely used,which brings in—depth researches tO full—text search technology and Chinese segmentations;Chinese Segmentation is one of the key technologies of Chinese information,it directly afects the quality of Chinese information processing efficiency.This article dedicated tO Research on Chinese Segmentation Algorithm,described in detail and discuss tO some kinds of Chinese Segmentation Algorithms,Theoretical model of Auto—Segmentation system.Provide foundation and di— rection for the further development of Chinese segmentations.
Key words:chinese segmentations;full——text search;algorithm;search engine;anabiguous word segmentation 1引言 自然语言处理是人工智能的一个重要分支。中文分词是中文自然语言处理的一项基础性工作,也是中文信息处理的一个重要 问题。随着搜索引擎技术的广泛应用,全文检索技术和中文分词技术也逐步受到广泛的研究和应用,然而到目前为止.还没有完全 成熟实用的中文分词系统面世,这成为严重制约中文信息处理发展的瓶颈之一。本文致力于研究中文分词算法,通过分词算法对分 词的质量做出客观的判断和评估,从而为中文分词的进一步发展提供基础和方向。
2中文分词技术综述
2.1全文检索技术 所谓全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引.指明该词在文章中出现的次数和 位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。在中文文档中根据是否 采用分词技术,索引项可以是字、词或词组,由此可分为基于字的全文索引和基于词的全文索引。 基于字的全文索引是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同 的含义,比如英文中字与词实际上是合一的,而中文中字和词有很大分别。此方法查全率较高,但查准率较低。有时会出现令人啼笑 皆非的检索结果,如检索货币单位“马克”时,会把“马克思”检索出来。 基于词的全文索引是指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于 按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文文字则需要切分字词.以达到按词索引的目的 对中文 文档进行切词,提高分词的准确性,抽取关键词作为索引项,实现按词索引可以大大提高检索的准确率。 2.2中文分词技术 中文分词与英文分词有很大的不同,对英文而言,一个单词就是一个词,而汉语是以字为基本的书写单位,词语之间没有明显 的区分标记,需要人为切分。中文分词系统是利用计算机对中文文本进行词语自动识别的系统.对其研究已经取得了很多成果,出 现了众多的算法。根据其特点,可以将现有的分词算法分为四大类:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的 分词方法和基于语义的分词方法等
3中文分词方法 中文分词方法的基本原理是针对输入文字串进行分词、过滤 处理,输出中文单词、英文单词和数字串等一系列分割好的字符 串。中文分词模块的输人输出如图l所示。
3.1基于字符串匹配的分词方法
图1中文分词原理图
这种方法又叫作机械分词方法、基于字典的分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中 的词条进行匹配。若在词典中找到某个字符串,则匹配成功(识别出一个词)。该方法有三个要素,即分词词典、文本扫描顺序和匹配 原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。
收稿日期:2009-02—11 本栏自责任编辑:谢媛媛 一 一 软件设计开发一 2605 Computer Knowledge and Technology电脑知识与技术 第5卷第10期(2009年4月) 1)最大匹配法(MM)。基本思想是:假设自动分词词典中的最长词条所含汉字的个数为i,则取被处理材料当前字符串序列中的 前i个字符作为匹配字段,查找分词词典,若词典中有这样一个i字词,则匹配成功,匹配字段作为一个词被切分出来:若词典中找 不到这样的一个i字词,则匹配失败,匹配字段去掉最后一个汉字,剩下的字符作为新的匹配字段,再进行匹配,如此进行下去,直到 匹配成功为止 统计结果表明,该方法的错误率为1/169。 2)逆向最大匹配法(RMM)。该方法的分词过程与MM法相同,不同的是从句子(或文章)末尾开始处理,每次匹配不成功时去掉 的是前面的一个汉字。统计结果表明,该方法的错误率为1/245。 3)逐词遍历法。把词典中的词按照由长到短递减的顺序逐字搜索整个待处理的材料,一直到把全部的词切分出来为止。不论分 词词典多大,被处理的材料多么小,都得把这个分词词典匹配~遍。 4)设立切分标志法。切分标志有自然和非自然之分。自然切分标志是指文章中出现的非文字符号,如标点符号等;非自然标志 是利用词缀和不构成词的词(包括单音词、复音节词以及象声词等)。设立切分标志法首先收集众多的切 标志 分词时先找出切分 标志,把句子切分为一些较短的字段,再用MM、RMM或其它的方法进行细加工。这种方法并非真正意义上的分词方法,只是自动分 词的一种前处理方式而已,它要额外消耗时间扫描切分标志,增加存储空间存放那些非自然切分标志。 5)最佳匹配法(0M)。此法分为正向的最佳匹配法和逆向的最佳匹配法,其出发点是:在词典中按词频的大小顺序排列词条,以 求缩短对分词词典的检索时间,达到最佳效果,从而降低分词的时间复杂度,加快分词速度。实质上,这种方法也不是一种纯粹葸义 上的分词方法,它只是一种对分词词典的组织方式。OM法的分词词典每条词的前面必须有指明长度的数据项.所以其空间复杂度 有所增加,对提高分词精度没有影响,分词处理的时间复杂度有所降低。 由上面的算法,不难看出基于字符串匹配的分词方法的优缺点: 优点:简单,易于实现。 缺点:l1匹配速度慢;21存在交集型和组合型歧义切分问题;3)词本身没有一个标准的定义,没有统一标准的词集;4)不同词典产 牛的歧义也不同:5)缺乏自学习的智能性。 3.2基于理解的分词方法 该方法又称基于人工智能的分词方法,其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧 义现象。它通常包括三个部分:分词子系统、句法语义子系统和总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子 等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。目 前基于理解的分词方法主要有专家系统分词法和神经网络分词法等由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织 成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。 11专家系统分词法。从专家系统角度把分词的知识(包括常识性分词知识与消除歧义切分的启发性知识即歧义切分规则)从实 现分词过程的推理机中独立出来,使知识库的维护与推理机的实现互不干扰,从而使知识库易于维护和管理。它还具有发现交集歧 义字段和多义组合歧义字段的能力和一定的自学习功能。 21神经网络分词法。该方法是模拟人脑并行,分布处理和建立数值计算模型工作的。它将分词知识所分散隐式的方法存入神经 网络内部.通过自学习和训练修改内部权值,以达到正确的分词结果,最后给出神经网络自动分词结果。 3)神经网络专家系统集成式分词法。该方法首先启动神经网络进行分词,当神经网络对新出现的词不能给出准确切分时,激活 专家系统进行分析判断,依据知识库进行推理,得出初步分析,并启动学习机制对神经网络进行训练。该方法可以较充分发挥神经 网络与专家系统二者优势,进一步提高分词效率。
3.3基于统计的分词方法 该方法的主要思想:词是稳定的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相 邻出现的概率或频率能较好反映成词的可信度。可以对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互 现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可以认为此字组可能构成了一个词。该 方法又称为无字典分词。 该方法所应用的主要的统计模型有:N元文法模型、隐Marker模型和最大熵模型等。在实际应用中一般是将其与基于词典的分 词方法结合起来.既发挥匹配分词切分速度快、效率高的特点,Y-N用了无词典分词结合上下文识别生词、自动消除歧义的优点。