当前位置:文档之家› 文本分类研究综述

文本分类研究综述

文本分类研究综述
文本分类研究综述

?2005 Journal of Software 软件学报

基于机器学习的文本分类研究综述*

张博锋1+, 苏金树2, 徐昕3

1(单位全名部门(系)全名,省市(或直辖市) 邮政编码

2(单位全名部门(系)全名,省市(或直辖市) 邮政编码

3(单位全名部门(系)全名,省市(或直辖市) 邮政编码)

NAME Name-Name1+, NAME Name2, NAME Name-Name3

1

2

3(Department of ****, University, City ZipCode, China)

Name NN, Name N, Name NN. Title. Journal of Software, 2004,15(1):0000~0000.

https://www.doczj.com/doc/cb10698206.html,/1000-9825/16/0000.htm

Abstract:

Key words:

摘要: *摘要内容.*

关键词: *关键词;

中图法分类号: ****: A

近十几年来,分布于互联网,电子图书馆和新闻机构等信息源的电子化文本资源数量疾速增长,为有效地管理,过滤及和用这些资源,基于内容的文档管理逐渐成为信息系统领域占主导地位的一类技术,统称为信息检索(information retrieval, IR).文本分类(text categorization, TC)是IR技术的重要组成部分,它的主要任务是在预先给定的类别集合下,根据自然语言文本的内容判定文本的类别,即为文本指派一些预先定义好的类别标记.文本分类应用十分广泛,如基于主题的文本自动索引,词的歧义消除,互联网(或其它) 信息的过滤,web资源的分级目录管理,选择性及自适应的文档分发等[1-9];Liao等人还将文本分类用于入侵检测[10, 11].

在20世纪80年代以前,文本分类使用的主要是知识工程(Knowledge Engineering, KE)方法,即需要领域专家手工定义一些在特定分类体系下归类文本的专家知识库并进行编码,分类器通过这些知识库中的规则进行分类,最著名的系统如CONSTRE系统[12]. 知识工程主要缺点是知识获取的瓶颈,即知识需要特定领域的专家手工定义,而且随着类别和领域的变化,都需要专家参与定制或修改知识.90年代后,机器学习(Machine Learning, ML)方法为越来越多的人所使用并逐渐成为这一领域的主导方法.ML方法更专注于分类器的自动生成,而不仅仅是分类的过程的自动,建立分类器所需要的知识或规则是通过归纳过程(称为学习)自动建立,在移植到其他领域时,分类器本身的建立不再需要领域专家的干涉,并且分类性能与KE方法相当,因此更具有优势.

*Supported by the **** Foundation of China under Grant No.****, **** (基金中文完整名称); the **** Foundation of China

under Grant No.****, **** (基金中文完整名称

作者简介: 张博锋(1978-),男,陕西铜川人,博士研究生,主要研究领域为*****,****;作者(出生年-),性别,学位(或目前学历),

职称,主要研究领域为****,****;作者名(出生年-),性别,学位(或目前学历),职称,主要研究领域为

2 Journal of Software 软件学报 2005,16(6)

本文主要综述了基于机器学习的文本分类方法中所用到的方法技术和评价手段,第一节讨论文本分类问题的定义;第二节概述文本分类的机器学习方法;第三节关于文本表示及降维技术,第四节详细阐述文本分类方法,第五节介绍分类器的性能评价方法,最后是关于中文文本分类的现状以及全文小节.

1 文本分类问题

关于文本分类问题的描述有很多种,其本质是根据文本的内容特征做出一个决策,即文本属于哪一个预先已知的类别.本文中采用的符号和定义都和[3]中基本一致.

1.1 文本分类定义

文本分类的主要任务是为给定的二元组C D ?>∈的赋值为T (称作d j 被c i 标注或d j 属于c i 类),否则赋值为F .即通过建立一个函数},{:F T →?ΦC D 来估计未知的目标函数},{:F T →?ΦC D (Φ 定义了每一个文本的实际分类),使得Φ和Φ 能够尽量一致.将Φ称为分类器, Φ和Φ 的一致程度,称为分类器的性能,将在第5节中讨论.上述定义要求分类器对每一个给出一个显式的T 或F 的判别, 也称为确定(hard)分类(HTC).

对每一个类别C ∈i c ,定义类别指示值(class status value)函数]1.0[:→D i CSV , CSV i (d j )给出了d j 与c i 符合程度的指示值(CSV i (d j )的取值根据不同的学习方法而有不同的意义,例如在Na?ve Bayes 方法中,定义为某种概率;而在Rocchio 方法中,定义为两个向量的距离或夹角,等等),作为T c d i j =Φ),( 可能性的证据.很多情形下讨论的分类器仅限于对文档d j ,要么给出其在每个类别c i 下的指示值CSV i (d j ),要么根据指示值的一个从大到小的分等(rank)或等级的前几位,而不明确给出),(i j c d Φ,称这种情况称为分等(ranking)分类(RTC).分等分类更便于讨论某些分类方法,也不会影响确定分类定义的概括性,事实上,为了得到),(i j c d Φ的值, 可以通过一些方法确定阈值τi ,这样CSV i (d j )≥τi 解释为T c d i j =Φ),(而CSV i (d j )<τi 解释为F c d i j =Φ),(.

需要指出的是,在本文讨论的文本分类问题中:(1)文本的类别只是一个用于标注文本的符号,不含任何额外的知识;(2)文本的分类只能依靠从文本本身抽取的知识来完成,不存在其它诸如文本类型,出版地等类似于元数据的外部知识.

1.2 单标注与多标注

文本可能属于多个分类,即给定一个自然数1

理论上,单标注问题是更一般的情形,因为用于二值标注问题的算法可以用于多标注,事实上总可以把},...,{1C C c c =下的多标注问题转化为|C |个独立的在},{i i c c 下的二值标注问题,i =1,…,|C |.这种转化需要一个前

提,即对任何C ∈'''c c ,,),(c d j 'Φ 与),(c d j ''Φ 的值互不依赖,实际中均假设它是成立的.

1.3 文本分类与信息检索

TC 是一种基于内容的文档管理技术,与IR 有很多共同的特点,例如在基于ML 的TC 方法中,分类器的归纳以及使用过程中所遇到的文本经常使用IR 风格的索引技术来处理,对分类器性能的评估也使用IR 风格的评价指标等.因此,现阶段的TC 技术是IR 的某些技术为基础的.

2 基于机器学习的文本分类

基于机器学习的文本分类使用一个称为学习机的通用归纳过程,对领域专家预先建立起来的c i 和i c 类的样本文档的特征进行收集, 观测和学习,预测属于c i 类的未知文档的应有特征,自动建立起一个c i 的分类器,这是一种有指导的学习(supervised learning).

2.1 初始样本文集

初始样本文集(initial corpus) D ?=ΩΩ},...,{1d d 是一个在},...,{1C C c c =中预先分类(即每个Ω中的文本均

张博锋 等:基于机器学习的文本分类研究综述 3

被C 中某些元素标注)的文本集合,对每一个序偶C ?Ω>∈

初始样本文集一般是由是由领域专家搜集并标注,用于对分类器的归纳,需要注意的是,其本身并不含有除所属类别之外任何的显式的知识(例如规则,标记等).对于

2.2 训练,测试和验证

2.2.1 训练-测试

使用一部分已标定数据建立起分类器后,需要另一部分已标定数据来评价性能,称为训练-测试,因此将初始样本文集划分为两个子集(大小并不需要相同),分别称为: 训练验证集},...,{1TV d d TV =,训练过程通过观测此集合上文本的特征归纳出类别集合},...,{1C C c c =的分

类器Φ; 测试集},...,{1Te d d Te =,用于测试过程评估分类器的性能.在每一个Te d j ∈通过分类器后,我们可以比较

),(i j c d Φ与),(i j c d Φ 的值,分类器的最终性能以所有),(i j c d Φ与),(i j c d Φ 的符合程度为依据.

为了得到可信科学的评价和结果,Te 不能以任何方式参与分类器的归纳组成.在实际应用的过程中[13],为了提高性能,最终用于使用的分类器可能在整个初始文集Ω上进行训练,而在TV 上训练并经过Te 测试的结果可以看成是此分类器性能的一个悲观的估计.

2.2.2 k 重交叉验证

将初始样本文集Ω分割为k 个不相交的子集Te 1,…,Te k ,在每个上使用测试-训练方法可以生成k 个不同的分类器k ΦΦ,...,1,估计其各自的性能,最终的分类器的性能是每个分类器性能的某种平均[13].

2.2.3 验证

常使用验证(validation)步骤对分类器内部的一些参数进行优化,以得到更好的性能,这时需要将TV 进一步分割为两个集合,分别称为:

训练集:},...,{1Tv d d Tv =,用于分类器的归纳; 验证集},...,{1Va d d Va =,通过对Va 的不断测试以达到参数优化的目标.

需要说明的是,在估计性能时仍旧需要将验证集Va 与测试集Te 分开.

为了下文讨论方便,给定文集D ?Ω,定义分类c i 在Ω上的普及度(generality))(i c g Ω为Ω中属于c i 的文本的比例[3],即 Ω=ΦΩ∈=Ω}

),(|{)(T c d d c g i j j i ,

可以很容易得到)(i Tr c g ,)(i Va c g ,)(i Te c g 的形式.

3 文本表示与降维

文本内容本身不可能直接被分类器或分类器生成算法所直接识别,因此需要利用数学模型将文本内容转换为一种简化的描述,以使其能方便地在训练,验证和测试阶段中使用,这个过程称为文本表示(representation)或索引(indexing).为了使文本的表示比较紧凑,还要对初始的表示进行降维.

3.1 文本表示

为了表达文本的内容或语义,大多数工作以文本中某些语义单元的统计性质为基础,这些语义单元称为项(term)或特征(feature).通常以词(或n -gram [14, 15])作为项.但为了能够反映文本中的一些语法及语义特征,有人采用一些复杂的项,如短语(phrase)和词义(word sense)等,实验中没有发现较大的性能提高,而且带来了效率和语义范围上的问题[3, 16, 17].本文讨论的项为词.另外,在进行表示之前,文本的预处理是必要的,包括停词(stop words)的剔除(如介词,助词等内容中性词),寻找同根词(word stemming)等;其次根据应用领域的不同,表示文本时一些主要的注意力可以放在文本的不同部分(如摘要,标题等)[18-20].

分类方法与文本的表示方法是密切相关,绝大多数的分类方法都是基于VSM(vector space model)模型的,但近年来的研究也发现很多的其它表示方法也具有很好的效果.

3.1.1 VSM 模型

VSM 模型[21]是比较通用的一种模型,它将文本表示为一个项的权重的向量.设},...,{1T T t t =是所有至少出

4 Journal of Software 软件学报 2005,16(6)

现在Tr 中的某个文本里一次的项的集合,文本d j 的表示为一个权重的向量>=

严格地说)反映了项t k 对文档d j 的语义的贡献.

权重一般在0和1之间(也有例外[22],但不失一般性本文假设权重均在0和1之间),二值权重(即0和1分别代表项的出项或不出现)便是一种比较特殊的情况,称为set of words;非二值情况称为bag of words(BOW),此时对项t k 可以使用任何IR 中的方法来确定其在文档d j 中的权重w kj [3].项的权重计算(term weighting)普遍使用的是tfidf (term frequency/ inverse document frequency)函数[23],其定义如下: )

(#log ),(#),(k Tr j k j k t Tr d t d t tfidf ?=, 其中#(t k , d j )表示t k 在d j 中出现的次数, #Tr (t k )表示t k 的文档频率,即Tr 中有t k 出现的文档的数目. tfidf 函数主要体现了这样一种现象,即(i)一个项在文档中出现的越多,它越能反映文档的内容,并且(ii)包含一个项的文本越多,项的区别能力就越弱.Joachims 等的实验结果表明基于概率的分类器更适用于这种启发式的tfidf 模型[24].为了使权重位于于[0,1]区间,并且使文档的表示向量有相同的长度,通常由下式进行标准化[23]:

()

∑==T 12),(),(s j k j k kj d t tfidf d t tfidf w . 考虑到了不同项对类的区别能力不同,可以将TEF(见3.2.1小节)或其他与类别相关的统计量引入到w kj 的计算中(例如采用tfidf *IG 等),称之为有指导的(supervised)权重计算(STW),在不同的实验中, 很多STW 获得的性能超过tfidf [25-27].

其他的权重函数见[28-30],在#Tr (t k )一开始未知(如自适应的文本过滤)的情形下,对tfidf 的估计也是必要的[31].

3.1.2 项概率分布模型

每个文本d j 和类别c i 均可以看作是一个项的出现的概率分布(term probability distribution: TPD)P (t k ,d j )和P (t k , c i ),如果关于d j 的分布在所有的类别中与c i 最为相似,则可以认为d j 属于c i 类,这种相似性可以KL 距离(Kullback-Leibler distance)来衡量[32].

3.1.3 二维表示

文献[33]中采用了一种新颖的二维(Bidimensional)表示方法,用几个统计量参数揭示文本对本类的区分和表达程度与对其他类的区分和表达程度,将高维的向量空间中所隐含的信息压缩到二维平面上,可以将不同类别的文本基本区分.在这种表示下采用一种启发式的分类算法,性能与几种优秀的分类方法相当.另外二维的表示也给可视化带来了方便.

其他非VSM 的表示方法还有如Darmstadt [34],将文本理解为信号序列[35],字符串核(string kernel)[36], 高阶词统计(higher order word statistics)[37] , NLP(Natural Language Processing)[38, 39]等,不再一一列举.非VSM 的表示方法的主要缺点在于分类方法便于灵活推广,其适用性也需进一步研究.

3.2 降维

在TC 中,基于VSM 模型文本表示向量空间的高维数(即T 的值很大)会带来存储空间和处理速度的问题,很多复杂的算法,如LLSF [40]无法扩展到较大的T 值下.因此在进行分类器的归纳建立之前就需要一个称为降维(dimensionality reduction, DR )的步骤,它的作用主要是将向量空间的大小从T 减少到T '<

合T ',满足T '<

DR 通常采用项选择(selection)和项提取(extraction)两类技术,主要区别在于降维后T '是否与T 中的项还是同一类型,如前者所得到新项有可能是通过组合或变换初始项而得来.

3.2.1 项选择

项选择技术也称为项空间简化(term space reduction, TSR),从初始的项集合T 中选出其子集T ' (满足T '<

'的情况下,还使得分类器的最终性能有一定的提高[49, 50].

Moulinier 等使用一种称为wrapper 的方法,通过使用和分类器相同的学习方法来确定T ',即从一个项的初

张博锋 等:基于机器学习的文本分类研究综述 5 始集开始,通过增加或删除一些项而不断改变项集合并在Tr 上使用基于此项集合的表示进行学习,分类器在验证集上性能变化决定是否接受这个项集合,最终目标是找到一个能产生最好结果并且维数最低的项集合[51],这实际上是一种穷举的方法.在对web 页的分类中,文献[52]中采用主成分分析(principle component analysis, PCA)方法,找出项权重的方差矩阵最大的特征值所对应的项.wrapper 和PCA 方法都存在效率上的问题.

绝大多数工作都采用效率更高,统计意义更充分的过滤(filtering)方法:根据一个称为TSR 或TEF(term evaluation function)的函数对每个项的重要性进行打分,保留T '<

更为复杂的TEF 基于信息论或来源于IR,目标都是选出那些在c i 和i c 中分布差别较大的项,因为这些项可能某种程度最能区别c i .这些差别的不同标准产生了不同的TEF,如(1)DIA 相关因子z [53],(2)平衡准确率(Accuracy balanced, AccB )[50],(3)χ2统计量[37, 49],(4)NGL 系数[43],(5)信息增益(information gain, IG )[37, 54],(6)互量信息(mutual information, MI )[41, 49],(7)让步比(odds ratio, OR )[37, 47],(8)关联得分(relevance score, RS )[46],(9)GGS 系数

[54],(10)BNS (bi-Normal separation)[50]等.以上TEF 的数学定义列于表1[3, 50],其中,),(i k c t P 表示对任意随机的文档x ,项t k 不出现在x 中且x 属于类c i 的概率,可通过以t k 和c i 的相互出现或不出现的次数来估计,),(i k c t P ,),(i k c t P 和),(i k c t P 以及)|(i k c t P 和)|(i k c t P 都可以类似定义和估算;)(x φ是标准正态分布的概率函数并指定0005.0),0005.0()(11≤=--x x φφ.表中所给出的形式都是TEF 的局部定义的,为了得到t k 的某些全局TEF 值,可以使用求和∑=C ),()(i k k sum c t f t f ,最大值)(max )(,1i k i k max c t f t f C ==或加权求和∑=C

),()()(i k i k wsum c t f c P t f 等方式.

比较性的工作中,Yang 的实验(没有考虑BNS )[49]发现IG 和χ2对LLSF 和k NN 分类方法最有效的,在不影响性能的情况下,可以去掉98%的项, #Tr (t k )居次,可以去掉90%的项,并且还发现三者有着非常强的关联.George 则从很多不同的方面评价了TEF [50], 证实IG 和χ2对准确性的同时失效,并且发现BNS 效果在很多方面超过IG .

过滤方法也是有缺陷的,例如多分类问题中一些类中过剩的强预测性项可能会使IG 和χ2等TEF 忽略其他类中的特征项,从而使评估效果下降, George 通过一种轮换(round robin)调整的方式来解决[55].

3.2.2 项提取

给定一个确定的T '<

(1)项聚类

将具有很强语义相关性的项进行分组,就可以将组作为新的项的维.Lewis 首先在TC 中考虑项聚类,使用称为相互最近邻 (reciprocal nearest neighbor) 的聚类[56],文献[42]利用词之间在训练文本中相互出现和相互不出现信息来度量他们的相关性,上述方法的相同之处在于聚类不受文档类别的影响,是无指导(unsupervised)的; Baker 等使用有指导的分布聚类(distributional clustering),利用了项在不同类别的分布信息.分布聚类在度量项与项之间的相似性时采用的方法如KL 距离或IB(information bottleneck)等,都取得了很好的效果[57-59].可以看出,与TSR 不通,项聚类针对意义相同或相近的项,而TSR 的目标是去掉信息含量较少的项[3].

(2)潜在语义索引 (Latent Semantic Indexing, LSI)

认为在很多文本中,项使用的模式总是有很多潜在或隐含的结构,可以使用统计技术来估计这些结构,这样做的好处是可以将一些本身所携带类别信息较少的项(每个项均可能被TSR 过滤)组合成为一个携带类别信息

6 Journal of Software 软件学报 2005,16(6) 较多的项的结构.为了将文档的表示向量压缩到一个更低的维数,对由初始的文本表示向量组成的矩阵进行奇异值分解,将初始向量映射成一个新的紧凑的向量.LSI 取得了一些比较好的结果,主要工作集中在[42, 60, 61]. 4 分类方法

分类方法指如何根据给定的Φ 在C ?Ω上的取值归纳出分类器Φ的内部构成,由第1.1小节关于RTC 的叙

述,对某些分类方法,仅讨论CSV i 的选取即可.

4.1 概率方法

基于概率的分类器中, CSV i (d j )的取值总是与条件概率P (c i |d j )有关,即文本d j 属于类别c i 的概率.通常通过Bayes 理论来估算: ∑===C 1)|()()|()()()|()()|(i i

j i i j i j i j i j i c d P c P c d P c P d P c d P c P d c P . 较大的T 给估计使估计P (d j |c i )变得困难,因此需要如下假设:任意文本中的两个项的出现,当被看作是随机变量时是相互独立的,此假设可以用下面的公式刻画(其中j k d t ∈表示项t k 在d j 中出现):

∏∈=j k d t i k i j c t P c d P )|()|(.

大多数基于概率的分类器使用类似的假设[30, 42, 62],均称为Na?ve Bayes 分类器,因为在实际中,此假设并不被验证是否严格成立.

P (c i )可以用下式估计; Tr

T c d Tr d c g c P i j j i Tr i }),(|{)()(=Φ∈== . 使用Laplace 估计来计算P (t k | c i ): ∑=++=T T 1)

,(),(1)|(k i k i k i k c t tf c t tf c t P , 其中∑∈=Φ=Tr d Tr

c d j k i k j i j d t c t tf ),(),(#),( ,表示t k 在所有的c i 类文本中出现的次数之和.

最后,用于估计P (c i | d j )的公式为: ∑∏∏=∈∈=C 1),()

,()|()()|()()|(i d t c t tf i k i d t c t tf i k i j i j k i k j

k i k c t P c P c t P c P d c P

Na?ve Bayes 方法是机器学习中的重要方法,概率模型有所差异,如多变元Bernoulli 模型和多项式模,文献[63]是两者的一个很好的比较.

4.2 线性方法

类别c i 的线性分类器的主要构成是一个称为c i 的模板(profile)的向量>=

离,即 ∑∑∑====

T T T 12121)(k kj k ki k kj ki j i w w w w d CSV . 线性分类器主要通过在线(on line)方法和批(batch)方法计算i c .

4.2.1 在线方法

在线方法在检查完第一个训练样本后即生成一个分类器,在新的训练样本到来时不断地改进分类器.最简单地在线方法是感知器(perceptron)算法[],它首先通过将所有的ki w 置为相同的正数而得到c i 的分类器,当新的训练样本d j (以二值权重向量j d 表示)来到时,用此分类器进行分类,如果分类正确,则检查下一个训练样本.否则,如果d j 是c i 的正例,则α+=ki ki w w (对于所有的k 使得w kj =1);如果d j 是c i 的正例,则α-=ki ki w w (对于所

张博锋 等:基于机器学习的文本分类研究综述 7 有的k 使得w kj =1),其中α>0是常数.另外一个著名的在线方法是Widrow-Hoff 算法:它的目标是检查完第l 个样本后,求得i c ,使得平方误差21]))],([[(i j l j j T i c d d c Φ-∑= 最小.

关于在线方法的研究集中在[][].

4.2.2 Rocchio 方法 Rocchio 方法是最著名,研究最多的批方法.为了计算每个分类c i 的模板>=

=}{}{i j i j NEG d i kj POS d i kj ki NEG w POS w w γβ,

其中}),(|{T c d Tr d POS i j j i =Φ∈= 且}),(|{F c d Tr d NEG i j j i =Φ∈= ,w kj 是项t k 在文本d j 中的权重.公式中β和γ是两个可调的参数.一般来说,反例不应过分强调,故β的取值较大而γ取值较小[].

Rocchio 方法非常易于实现,但性能上的缺陷在于如果一个分类包含了两个不相交的领域(即可能同一类文本的主题比较分散),整个类别的模板就会偏离每个领域的模板,导致分类会做出错误的决策.实际上,Rocchio 方法产生的分类器和所有线性分类器一样,是将文本向量空间线性地划分,这是一个重要缺陷.

Rocchio 方法简单且训练速度非常快,而联合其他方面的技术后也获得了巨大的性能提升,甚至性能不弱于一些较好的方法,因此近来又引起很多学者的兴趣. Ruiz 等在计算中取 ∑∑∈∈?-?=}{}{i

j i j NPOS d i kj POS d i kj ki NPOS w POS w w γβ, 其中NPOS i 是接近正例(near positive)的反例[43, 46, 64, 65].这是因为在反例中,只有那些接近正例的反例样本对分类器的影响最大,这也带来一个NPOS i 的选取问题;Tsay 等先通过普通Rocchio 方法计算出所有分类的模板,用这些模板在Tr 上进行一次分类,然后将所有分到同一类的文档按一定标准划分为s 个子类,共得到|C |·s 个子类,

在这些子类中再应用Rocchio 方法进行分类[66].

4.3 决策树与决策规则方法

TC 决策树(decision tree, DT)的内节点(internal node)被标定为项,从内节点出发的分枝标以测试文本中所含有的项的权重标定,分类作为它的叶子.这种分类器通过递归地测试向量j d 中所含项在决策树中相应内节点的权重来分类文档d j .通常这类分类器都使用二值索引,从而形成了二叉决策树.决策树的学习包括两个步骤:(1)树的归纳,即从训练集Tr 中归纳出一棵树,通常对每个分类c i ,通过是否包含相通同项t k (项的选择使用IG 或熵标准[])的准则递归地分割训练集,最终使得文本均有关于同一个类别的标号(c i 或i c ),这是一种分制策略的典型应用;(2)树的剪枝,去掉训练集上的任何统计相关性,使树更加简练和强壮.有很多DT 学习的软件包可用,最著名的如ID3,此外还有C4.5,C5等.DT 分类器常被作为基准(base-line)分类器.

c i 的决策规则分类器包含前提为一个DNF(disjunctive conditional form)的条件规则.前提中的文字指示了一个关键词在文档

d j 中的出现或不出现,结论则指示了在c i 下分类d j 的决策.与DT 类似,DNF 规则也可以对二值函数进行编码,但其优点在于可以生成更加紧凑的学习机.规则的学习方法试图从所有的规则中以某种最小原则挑选出最紧凑的规则.与DT 的分制策略不同,DNF 规则使用自底向上的方式生成.最初,每个样本文件d j 可以被认为是一个短句i n γηη→,...,1,其中n ηη,...,1是d j 中所含的项,γi 根据d j 是否属于分类c i 而等于c i 或i c ;学习过程使用泛化(generalization)步骤,使得规则通过一系列修改(例如去掉一些前提或合并短句)而简化,这种修改使得规则具有最大的紧凑性但不影响规则的能力;最后使用类似于DT 中的剪枝过程.用于文本分类的学习机如Charade[],DL-ESC[],SCAR[]等.

4.4 回归方法

在回归方法中,利用已知的函数值来估计未知的函数值,[]使用了线性最小方差拟合(LLSF).在LLSF 中,每一个文本d j 有两个向量和它关联T 维的权重向量j d 和|C |维的类的权重向量O (d j ) (对于训练数据是二值的,而对于测试数据就未必是二值,每个分量可作为CSV i (d j )的值).这样,分类器的归纳过程可以转化为一个计算一个C ×T 的矩阵M ?,使得)(?j j d d O M = 的问题.LLSF 通过最小方差拟和来使得在训练集上的误差最小,即O MD M M -=min arg ?,其中()Tr d d ,...,1=D 是T ×Tr 阶矩阵, ()

)(),...,(1Tr d O d O =O 是C ×Tr 阶矩阵,对C ×T 阶矩阵V ,∑∑==C T 12i ij

def v V .M ?通常通过在训练集上进行奇异值分解得到,其每一个分量ik m ?代表了项t k 与类别c i 的关联程度.

8 Journal of Software 软件学报 2005,16(6)

[][]的实验认为LLSF 是效果最好的分类方法之一,但是,其缺点在于M

?的计算开销,很难扩展到实际的大型计算.

4.5 神经网络方法

神经网络(NN)分类器的输入单元是项,而输出单元是单个类别或一些类别.对一个测试文本d j ,将其每个项的权重w kj 加载到输入单元,这种激励沿网络传播,输出单元的最终值决定了分类器的决策.NN 典型的训练方法是向后传播,即一个训练文本的权重被加载到输入单元,如果出现分类错误,则错误向后传播,修改网络的参数以达到消除错误或将错误最小化的目的.

感知器[]是最简单的线性NN 分类器,[]实现了一种形式的对数回归线性NN 分类器,产生很好的性能.也有很多非线性的NN 分类器的研究,但是性能没有提高或提高很少[].

4.6 基于实例的方法

基于实例的方法又称为懒惰学习机(lazy learner),或非参数的方法.对于类别c i ,不生成显式的,明确的分类器,但对测试文本的决策依赖于训练文本中与之相似的样本.最著名的基于实例的方法是k NN(k nearest neighbors)[].

对于文档d j ,要确定它是否属于类别c i ,k NN 方法考察训练文档中是否与之最相似的k 个样本均属于c i ,如果对于他们中足够比例的回答是肯定的,则做出肯定的决策,否则做出否定的决策.在Yang 方法中定义:

])],([[),()()

(i z d Tr d z j j i c d d d RSV d CSV j k z Φ?=∑∈ , 其中RSV (d j ,d i )指d j 与d i 间的某种距离,Tr k (d j )是使得RSV (d j ,d i )最大的k 个文本的集合.

方法需要考虑k 取值,[]中认为30≤k ≤45可能产生最好的效果.

k NN 方法对文本向量空间的划分不是线性的,不会带来线性分类方法的问题,因此效果很好.但是它的缺点在于分类的效率,因为它没有将训练过程和分类过程分开,对于每次测试,它都需要在全部的训练样本上进行一次计算,这非常耗时.正是因为上述原因,Lam 和Ho 提出了对k NN 方法的改进,在他们的方法中,进行k NN 方法的全集不再是所有的训练文本,而是一些称为GIs(generalized instances)的文本的模板.将方法简要叙述如下:

(1)将训练文本集合的进行聚类,对每个得到一些簇(cluster)的集合},...,{1i K i i i k k K =;

(2)使用线性方法(如Rocchio 或Widrow-Hoff)为每个簇k iz 计算出模板G (k iz )称为GI;

(3)在所有的模板集上使用k NN 方法,即对于文档d j , ∑∑∈∈=Φ∈?=∈?∈=Φ∈?=i

iz i iz K k i j iz j iz j iz j K k iz j i j iz j iz j def j i Tr T c d k d k G d RSV Tr k d k d T c d k d k G d RSV d CSV }),(|{))(,(}{}{}),(|{))(,()(

. 4.7 支持向量机方法

支持向量机(support vector machine, SVM)最初用于模式识别领域,由Joachims 在TC 首先领域使用,随后[][]中使用SVM 方法的实验都产生很好的性能,也是文本分类中最新的方法.SVM 方法面向的是二值分类,给定类别集合},{i i c c ,它希望通过一个(T -1)维的超曲面将c i 类的正例和反例分开.

对于线性可分的情形,希望用超平面0=+b x w T 将训练样本中的正例和反例分开.根据Vapnik 的结构风险最小化理论[],SVM 试图找到两个平行超平面1±=+b x w T ,使得c i 的正例反例分别位于这两个超平面的两侧,并且两个超平面间的距离最大,分类过程中使用的分割超平面0=+b x w T 正位于这两个超平面间的中心位置.

+=±T 1w x b 间的距离为w w T 2,使其最大相当于使2w w T 最小,这样,得到下面的优化问题:

Tr

j b d w c d t s w w j T i j T b

w ,...,11)(})],([{..21min ,=≥+?Φ ,

上述优化问题的约束条件即: F

c d b d w T c d b d w i j j T i j j T =Φ-≤+=Φ≥+),( if 1),( if 1 .

张博锋 等:基于机器学习的文本分类研究综述 9

对于近似线性可分和线性不可分的情形,可以引入松弛变量或使用核函数[][][].

SVM 算法的优点在于它的高性能,在几乎所有的对比实验中,它的性能较其他分类方法总是位于前列,[]详细分析了SVM 用于文本分类的优势.但是由于问题的求解实质上是一个带线性约束的二次规划问题,大训练样本量会带来时间和空间上的巨大开销,Dumais 等使用一个很新的算法使得SVM 的训练时间与Rocchio 等计算简单的算法的时间相当,Joachims 对此做了优化[],形成了一个SVM 系统的实现SVM Light ,另一个著名的实现是Chang 等的LibSVM[],使用了SMO 优化[].

SVM 的分类是二值的,在实际应用中对多类问题的处理稍显繁琐,Wei 在[]中讨论了一些有用的简化措施,

4.9将讨论的与Na?ve Bayes 分类器进行串联的方法就是其中一种.

4.8 多重分类器

多重分类器(multiple classifier)的主要目标是将每个单独的分类器的能力进行组合以获得整个系统整体性能的提高,即将k 个已知的分类器k ΦΦ,...,1应用于d j 是否属于类别c i 的决策,再将他们的结果综合起来.多重分类器的设计主要采用两种策略:

(1)决策优化(desicion optimization)

多重分类器使用已经完成训练的单分类器,检查文本后将他们的结果进行综合,这时单分类器和多重分类器的训练是分开的.结果的综合方法有很多种:最简单的方法是MV(majority voting)[],方法将k 个单分类器的二值决策看作(肯定或否定的)投票,获得超过半数得票的决策成为多重分类器最后的决策;MV 方法的改进是W(weighted)MV,此时,每个单分类器的投票均有权重;与之对应的是WLC(weighted linear combination), d j 关于k 个分类器CSV i 值的加权和形成多重分类器的CSV i 值,每个分类器的权重W t 反应了分类器t Φ的相对能力;如果在验证集上发现在所有分类器中t Φ对类别c i 的效果最好,则在确定CSV i 时选择t Φ的结果作为多重分类器CSV i 的结果,这种方法称为DCS(dynamic classifier selection);ACC(adaptive classifier combination)是介于WLC 和DCS 之间的方法,所有的分类器结果加权求和,但权重由单分类器在与d j 最相似的l 个验证样本集上的性能确定;Wei 将SVM 分类器和Na?ve Bayes 分类器进行串联式的综合,即先用Na?ve Bayes 方法找出所有CSV i 中最大的前N 位类别(他发现N =3时d j 属于这三类之一的比例超过90%),然后在这N 类上使用SVM 分类.此外,也有将Bayes,决策树等方法应用到分类器综合的例子[].

(2)范围优化(coverage optimization)

每个单分类器所用的算法相同,但是参加训练的样本集合不同,因此形成的不同分类器实质上只是参数不同,单分类器的WMV 决定每个文本的分类.这时,单分类器和多重分类器是同时训练的.最成功的方法是Bagging 方法和Boosting 方法.在Bagging 方法中,先给定一个确定的分类方法(或算法),然后胜成k 个不同的训练集Tr 1,…,Tr k ,每个Tr t 都是通过从Tr 中随机挑出|Tr|个样本(挑出后再放回,则Tr t 中可能有重复样本), t Φ是在Tr t 上训练所得的分类器,这样我们得到了k 个不同的分类k ΦΦ,...,1. Boosting 方法与Bagging 方法类似,但它更关心11,...,-ΦΦt 分错的样本,因此在选取Tr t 时会加大取这些样本的概率.BoosTexter 系统测试了两种Boosting 算法,AdaBoost.MH 和AdaBoost.MR.这两种方法的研究集中在[][].

4.9 其他方法

很多在ML 领域,IR 领域以及其他一些相关领域所用到的方法和技术在TC 领域内都有应用, 如Bayes 推理网络(inference network)[],遗传算法[],最大熵模型[]等,很多还不是成熟的应用,因此本文不再一一列举. 5 性能评价

分类器的能力评价是基于实验的,评价通常通过性能(effectiveness)来衡量,性能是指分类器做出正确分类决策的能力.

5.1 评价指标

(1)准确率(precision)和召回率(recall)

分类性能的度量仍旧使用IR 领域中准确率(π)和召回率(ρ)的概念.每个类别c i 下的准确率πi 定义为条件概率)),(|),((T c d T c d P i x i x =Φ=Φ ,即一个随机的文本d x 被分正确分入c i 类的概率;对应的召回率ρi 定义为条件

概率)),(|),((T c d T c d P i x i x =Φ=Φ ,即一个实际上属于c i 类的文本d x 被正确分类的概率.这种概率的定义度量

了系统在处理一个实际属于c i 类的未知文本时所能表现出的性能的数学期望. πi 和ρi 估计可以借助c i 类在测试集上分类结果的邻接表(见表II):

10

Journal of Software 软件学报 2005,16(6)

i i i i FP TP TP +=π? i i i i FN TP TP +=ρ?, 表中,FP i 是类别i c

表II 类别c i 的邻接矩阵

π和ρ的计算有两种不同的方法:

● 微平均:ρ和π通过将所有单个类别的决策求和获得,即

∑∑==+=+=C C 11)(?i i i i i FP TP TP FP TP TP μ

π ∑∑==+=+=C C 11)(?i i i i i FN TP TP FN TP TP μρ, 其中∑==C 1i i TP TP ,其余符号类似定义:

宏平均:先计算局部的准确率和召回率,然后再求平均: C C ∑==1??i i M ππ C C ∑==1??i i M ρρ,

两种方法的结果有时相差很大,例如当一个分类c i 的普遍度)(i c g Ω很小,即训练集中某个c i 的正例相对很少时,我们应强调宏平均而不是微平均.因此使用哪一个作为系统的性能评价要视应用而定.

(2)综合评价

分开强调准确率和召回率是没有意义的,例如π值的提高往往以ρ值降低为代价,而即使ρ=1的情况下, π也可能会处于一个非常低的状态[].实际中,往往通过调节阈值τi 使得分类器变得更开放(提高ρi ,但可能带来πi 的损失)或保守(提高πi ,但可能带来ρi 的损失).因此,分类器的应该结合π和ρ来评价.

● 十一点平均准确率:

调节πi 使得ρi 分别取到0.0,0.1,…,0.9,1.0十一个数值附近,计算相应的πi 的十一个值再取平均.这种方法对二值的CSV i 不起作用.

● 无亏损点(breakeven point)

和上面的方法相似,通过不断调节每个τi ,可以得到π和ρ变化的曲线,两条曲线相交处π(=ρ)的值称为无亏损点.两条曲线可能不相交,这时取曲线最接近时的值的平均值.

● F β函数

对0≤β≤+∞,定义

ρ

πβπρββ++=22)1(F . 这里β可以看作是π和ρ相对重要性的衡量,因为当β=0时, F β = π,而β=+∞时, F β = ρ.MouLinier,Yang 等指出分类器Φ的无亏损点值总是小于或等于F 1.

仍就有很多少见的性能评价方法如准确性(accuracy)和误差(error)等[][],甚至[]中出现了不同于性能,而是效率(efficiency)的评价指标.

5.2 测评基准

关于文本分类的评测基准文集,最常使用Reuters 文集,共有五个版本,第四个版本是用来比较分类器性能用到最多的,此外,OHSUMED,(二十类)新闻组,AP 文集等也是常用的基准文集,这些文集均已按照相应的主题标注好类别.

文本分类器间性能的直接比较在下面的条件下才有意义:(1)相同的文本集和相同的分类;(2)训练集和测试集的划分相同;(3)相同的评价标准和相同的外部参数设置.然而,在获得一个基准(base-line)分类器在不同条件下的性能,其余两个分类器也可以通过与此基准分类器的直接比较而获得性能上的相对比较.

5.3 分类器性能比较

图I 给出了本文中所讨论的分类方法在一些文献的实验中所表现出的性能,实验涉及了Reuters 文集不同的版本.这些实验数据均来源于[],性能数据中极少数分类器给出的是(宏或微)F 1值绝大部分均是(宏或微)无亏损点值.同一类型的分类器可能因不同的实现和设置而有不同的性能.

张博锋 等:基于机器学习的文本分类研究综述

11

尽管所有的实验不一定满足 5.2的三个条件,也不一定全面,仍旧认为实验的结果反映一些事实.可以看出,Boosting, SVM,基于实例的方法以及回归方法的性能排在前列;而

NN 和在线方法的性能略次于上述几类;Rocchio, Na?ve Bayes 的性能排在最后,与性能最好的几类总是有10%左右的差距. 6 中文文本分类

实际上将本文中讨论的所有分类方法应用于中文(亚洲等文字)文本分类不存在理论上的障碍.中文文本分类研究的特殊性在于两个方面:

(1)项的获取

中文文本中词与词之间是没有间隔的,因此如果以词作为项,则不能直接从文本中获得明确的词的信息,最直接的办法是在分类前对文本先做词语的切分(

分词),这本身是中文研究中的一个重要领域,并未完全解决,[]中讨论了几种分词的方法.分词的误差可能会给分来带来问题,但是,由于研究重点不同, 在TC 文献中仍就使用简单的分词方法,大多数文献使用N-gram 方法,即将句子按照N 个连续的字符切分,对N=2(称为Bi-gram),我们可以将’’文本分类”分成”文本”,”本分”,”分类”三个词.在特定文集上,按照N-Gram 方法获得的性能与分词后获得的性能差别不大[][][].

(2)测试文集

中文文本分类的研究尚未形成公开和标准的测试文集,很多语料库尚在建设和完善之中,大部分实验是在研究者自己归纳和收集的文本资源上进行的[][].复旦大学中文自然语言处理开放平台给出了文本分类的语料库[],共有涉及政治,经济,军事等20类的专题文章.

7 小结

本文讨论了基于机器学习的文本分类技术方法的研究现状,主要从文本索引,分类方法以及性能评价等方面进行了总结,内容概括如下:

(1)文本的索引技术主要采用了VSM 模型,项的权重计算以及降维技术多考虑其统计意义;

(2)文本分类方法多样,已有方法的优化以及单一分类器的组合是提高分类器性能的有效手段,并且TC 已经成为ML 中各种方法的一个重要的应用领域和挑战,;

(3)分类器性能的综合评价表明,在一些基准文集上,多分类器以及SVM 等方法的分类性能较优;

(4)中文文本分类在处理上具有一定特殊性,并且需要更多标准的建立和资源的建设.

最后,在TC 领域中仍旧有很多问题需要解决,如最大限度地提高文本分类的性能,对有噪音文本的学习和分类[],极短文本的分类[],文本的实时分类等,这些都可能成为基于ML 的TC 领域内新的研究方向.

8 一级标题 8.1 二级标题8.1.1 三级标题 定理1.* [“定义”、“算法”等的排版格式与此相同]

证明:*证明过程.* [“例”等的排版格式相同]

*正文部分

12 Journal of Software软件学报2005,16(6)

致谢*致谢内容

[1] ,卷号(期号):起始页码. [期刊]

[2] 作者. 书名. 版次(初版不写), 出版地(城市名): 出版者, 出版年. 起始页码(非必要项).[书籍]

[3] 作者. 题目. In(中文用“见”): 整本文献的编者姓名ed(多编者用eds). 文集实际完整名称. 出版地(城市名): 出版者, 出版年.

起止页码.[会议录(论文集、论文汇编等)]

[4] 著者. 题名. 学位, 学位授予单位, 出版年.[学位论文]

[5] Author. Title. Technical Report, Report No., Publishing place (city name): Publisher, Year (in Chinese with English abstract).[科技

报告]

附中文参考文献:

[5] 著者.题名.科技报告,报告号,出版地(或单位所在地):出版者(或单位),出版年.

[1] Diao Y, Lu H,Wu D, A comparative study of classification-based personal e-mail filtering, in Proceedings of PAKDD-00, 4th Pacific-Asia

Conference on Knowledge Discovery and Data Mining, T Terano, H Liu, and ALP Chen, Editors. 2000, Springer Verlag, Heidelberg, {DE}: Kyoto, {JP}. p. 408--419.

[2] Lewis DD. Representation and learning in information retrieval

Ph.D. thesis. 1992, Department of Computer Science, University of Massachusetts: Amherst, {US}.

[3] Sebastiani F, Machine learning in automated text categorization. Acm Computing Surveys, 2002. 34(1): p. 1--47.

[4] Chiang JH,Chen YC, An intelligent news recommender agent for filtering and categorizing large volumes of text corpus. International Journal

of Intelligent Systems, 2004. 19(3): p. 201-216.

[5] Adam CK, Ng HT,Chieu HL. Bayesian Online Classifiers for Text Classification and Filtering. in Proceedings of SIGIR-02, 25th ACM

International Conference on Research and Development in Information Retrieval. 2002. Tampere, {FI}: {ACM} Press, New York, {US}. [6] Attardi G, Gull\'{\i} A,Sebastiani F, Automatic {W}eb Page Categorization by Link and Context Analysis, in Proceedings of THAI-99, 1st

European Symposium on Telematics, Hypermedia and Artificial Intelligence, C Hutchison and G Lanzarone, Editors. 1999: Varese, {IT}. p.

105--119.

[7] Hwang BY,Lee BJ, An efficient e-mail monitoring system for detecting proprietary information outflow using broad concept learning, in

Metainformatics. 2004. p. 72-78.

[8] Mladenic D,Grobelnik M, Feature selection on hierarchy of {W}eb documents. Decision Support Systems, 2003. 35(1): p. 45--87.

[9] Ceci M,Malerba D, Hierarchical Classification of {HTML} Documents with {WebClassII}, in Proceedings of ECIR-03, 25th European

Conference on Information Retrieval, F Sebastiani, Editor. 2003, Springer Verlag: Pisa, {IT}. p. 57--72.

[10] Liao Y,Vemuri VR, Using Text Categorization Techniques for Intrusion Detection, in Proceedings of the 11th USENIX Security Symposium,

D Boneh, Editor. 2002, : San Francisco, {US}. p. 51--59.

[11] Zhang ZH,Shen H, Suppressing false alarms of intrusion detection using improved text categorization method, in 2004 Ieee International

Confernece on E-Technology, E-Commere and E-Service, Proceedings. 2004. p. 163-166.

[12] Hayes PJ,Weinstein SP, {\sc Construe/Tis}: a system for content-based indexing of a database of news stories, in Proceedings of IAAI-90,

2nd Conference on Innovative Applications of Artificial Intelligence, A Rappaport and R Smith, Editors. 1990, {AAAI} Press, Menlo Park, {US}. p. 49--66.

[13] Mitchell TM, Machine Learing. 1996, New York: McGraw Hill.

[14] Cavnar WB,Trenkle JM, N-Gram-Based Text Categorization, in Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and

Information Retrieval, , Editor. 1994, : Las Vegas, {US}. p. 161--175.

[15] Peng F, Schuurmans D,Wang S, Language and Task Independent Text Categorization with Simple Language Models, in Proceedings of

HLT-03, 3rd Human Language Technology Conference, , Editor. 2003, : Edmonton, {CA}. p. .

[16] Kehagias A, Petridis V, Kaburlasos VG, et al., A Comparison of Word- and Sense-based Text Categorization Using Several Classification

Algorithms. Journal of Intelligent Information Systems, 2003. 21(3): p. 227--247.

[17] Moschitti A,Basili R, Complex Linguistic Features for Text Classification: A Comprehensive Study, in Proceedings of ECIR-04, 26th

European Conference on Information Retrieval Research, S McDonald and J Tait, Editors. 2004, Springer Verlag, Heidelberg, {DE}:

Sunderland, {UK}. p. 181--196.

张博锋等:基于机器学习的文本分类研究综述13

[18] Apte C, Damerau FJ,Weiss SM, Automated learning of decision rules for text categorization. {ACM} Transactions on Information Systems,

1994. 12(3): p. 233--251.

[19] Cohen WW,Singer Y, Context-sensitive learning methods for text categorization. {ACM} Transactions on Information Systems, 1999. 17(2):

p. 141--173.

[20] Weiss SM, Apt\'e C, Damerau FJ, et al., Maximizing text-mining performance. {IEEE} Intelligent Systems, 1999. 14(4): p. 63--69.

[21] Salton G, Automatic Text Processing. 1998: Addison-Wesley Publishing Company.

[22] Lewis DD, Schapire RE, Callan JP, et al., Training algorithms for linear text classifiers, in Proceedings of SIGIR-96, 19th ACM International

Conference on Research and Development in Information Retrieval, H-P Frei, et al., Editors. 1996, {ACM} Press, New York, {US}:

Z{\"u}rich, {CH}. p. 298--306.

[23] Salton G,Buckley C, Term-weighting approches in automatic texi retrival. Information Processing and Management, 1998. 24(5): p. 513-523.

[24] Joachims T, A probabilistic analysis of the {R}occhio algorithm with {TFIDF} for text categorization, in Proceedings of ICML-97, 14th

International Conference on Machine Learning, DH Fisher, Editor. 1997, Morgan Kaufmann Publishers, San Francisco, {US}: Nashville, {US}. p. 143--151.

[25] Debole F,Sebastiani F, Supervised Term Weighting for Automated Text Categorization, in Text Mining and its Applications, S Sirmakessis,

Editor. 2004, Physica-Verlag, Heidelberg, DE. p. 81--98.

[26] Xue D,Sun M, A study on feature weighting in Chinese text categorization, in Computational Linguistics and Intelligent Text Processing,

Proceedings. 2003. p. 592-601.

[27] Xue D,Sun M, Chinese text categorization based on the binary weighting model with non-binary smoothing, in Proceedings of ECIR-03, 25th

European Conference on Information Retrieval, F Sebastiani, Editor. 2003, Springer Verlag: Pisa, {IT}. p. 408--419.

[28] Aas K,Eikvil L. Text categorization: A survey. 1999, Norwegian Computing Center,: Oslo.

[29] Govert N, Lalmas M,Fuhr N, A probabilistic description-oriented approach for categorising {W}eb documents, in Proceedings of CIKM-99,

8th ACM International Conference on Information and Knowledge Management, , Editor. 1999, {ACM} Press, New York, {US}: Kansas City, {US}. p. 475--482.

[30] Larkey LS,Croft WB, Combining classifiers in text categorization, in Proceedings of SIGIR-96, 19th ACM International Conference on

Research and Development in Information Retrieval, H-P Frei, et al., Editors. 1996, {ACM} Press, New York, {US}: Z{\"u}rich, {CH}. p.

289--297.

[31] Dagan I, Karov Y,Roth D, Mistake-driven learning in text categorization, in Proceedings of EMNLP-97, 2nd Conference on Empirical

Methods in Natural Language Processing, C Cardie and R Weischedel, Editors. 1997, Association for Computational Linguistics,

Morristown, {US}: Providence, {US}. p. 55--63.

[32] Bigi B, Using Kullback-Leibler distance for text categorization, in Proceedings of ECIR-03, 25th European Conference on Information

Retrieval, F Sebastiani, Editor. 2003, Springer Verlag: Pisa, {IT}. p. 305--319.

[33] Nunzio GMD, A Bidimensional View of Documents for Text Categorisation, in Proceedings of ECIR-04, 26th European Conference on

Information Retrieval Research, S McDonald and J Tait, Editors. 2004, Springer Verlag, Heidelberg, {DE}: Sunderland, {UK}. p. 112--126.

[34] Fuhr N, A probabilistic model of dictionary-based automatic indexing, in Proceedings of RIAO-85, 1st International Conference ``Recherche

d'Information Assistee par Ordinateur'', , Editor. 1985, : Grenoble, {FR}. p. 207--216.

[35] Xie C-f,LI X, A Sequence-Based Automatic Text Classification Algorithm. Journal of Software, 2002. 13(4): p. 783-789.

[36] Lodhi H, Saunders C, Shawe-Taylor J, et al., Text Classification using String Kernels. Journal of Machine Learning Research, 2002. 2: p.

419--444.

[37] Caropreso MF, Matwin S,Sebastiani F, A learner-independent evaluation of the usefulness of statistical phrases for automated text

categorization, in Text Databases and Document Management: Theory and Practice, AG Chin, Editor. 2001, Idea Group Publishing:

Hershey, {US}. p. 78--102.

[38] Jacobs PS, Joining statistics with {NLP} for text categorization, in Proceedings of ANLP-92, 3rd Conference on Applied Natural Language

Processing, M Bates and O Stock, Editors. 1992, Association for Computational Linguistics, Morristown, {US}: Trento, {IT}. p. 178--185.

[39] Basili R, Moschitti A,Pazienza MT, {NLP}-driven {IR}: Evaluating Performances over a Text Classification task, in Proceeding of IJCAI-01,

17th International Joint Conference on Artificial Intelligence, B Nebel, Editor. 2001: Seattle, {US}. p. 1286--1291.

[40] Yang Y,Chute CG, An example-based mapping method for text categorization and retrieval. {ACM} Transactions on Information Systems,

1994. 12(3): p. 252--277.

[41] Lewis DD,Ringuette M, A comparison of two learning algorithms for text categorization, in Proceedings of SDAIR-94, 3rd Annual

Symposium on Document Analysis and Information Retrieval, , Editor. 1994, : Las Vegas, {US}. p. 81--93.

[42] Li YH,Jain AK, Classification of text documents. The Computer Journal, 1998. 41(8): p. 537--546.

14 Journal of Software软件学报2005,16(6)

[43] Ng HT, Goh WB,Low KL, Feature selection, perceptron learning, and a usability case study for text categorization, in Proceedings of

SIGIR-97, 20th ACM International Conference on Research and Development in Information Retrieval, NJ Belkin, AD Narasimhalu, and P Willett, Editors. 1997, {ACM} Press, New York, {US}: Philadelphia, {US}. p. 67--73.

[44] Sable CL,Hatzivassiloglou V, Text-based approaches for non-topical image categorization. International Journal of Digital Libraries, 2000.

3(3): p. 261--275.

[45] Schutze H, Hull DA,Pedersen JO, A comparison of classifiers and document representations for the routing problem, in Proceedings of

SIGIR-95, 18th ACM International Conference on Research and Development in Information Retrieval, EA Fox, P Ingwersen, and R Fidel, Editors. 1995, {ACM} Press, New York, {US}: Seattle, {US}. p. 229--237.

[46] Wiener ED, Pedersen JO,Weigend AS, A neural network approach to topic spotting, in Proceedings of SDAIR-95, 4th Annual Symposium on

Document Analysis and Information Retrieval, , Editor. 1995, : Las Vegas, {US}. p. 317--332.

[47] Mladenic D, Feature subset selection in text learning, in Proceedings of ECML-98, 10th European Conference on Machine Learning, C

N\'edellec and Ce Rouveirol, Editors. 1998, Springer Verlag, Heidelberg, {DE}: Chemnitz, {DE}. p. 95--100.

[48] Yang Y, An evaluation of statistical approaches to text categorization. Information Retrieval, 1999. 1(1/2): p. 69--90.

[49] Yang Y,Pedersen JO, A comparative study on feature selection in text categorization, in Proceedings of ICML-97, 14th International

Conference on Machine Learning, DH Fisher, Editor. 1997, Morgan Kaufmann Publishers, San Francisco, {US}: Nashville, {US}. p.

412--420.

[50] Forman G, An Extensive Empirical Study of Feature Selection Metrics for Text Classification. Journal of Machine Learning Research, March,

2003. 3: p. 1289--1305.

[51] Moulinier I, Ra{\u{s}}kinis G,Ganascia J-G, Text categorization: a symbolic approach, in Proceedings of SDAIR-96, 5th Annual Symposium

on Document Analysis and Information Retrieval, , Editor. 1996, : Las Vegas, {US}. p. 87--99.

[52] Selamat A,Omatu S, Web page feature selection and classification using neural networks. Information Sciences, 2004. 158(1): p. 69--88.

[53] Fuhr N, Hartmann S, Knorz G, et al., {AIR/X} -- a Rule-Based Multistage Indexing System for Large Subject Fields, in Proceedings of

RIAO-91, 3rd International Conference ``Recherche d'Information Assistee par Ordinateur'', Ae Lichnerowicz, Editor. 1991, Elsevier

Science Publishers, Amsterdam, {NL}: Barcelona, {ES}. p. 606--623.

[54] Galavotti L, Sebastiani F,Simi M, Experiments on the use of feature selection and negative evidence in automated text categorization, in

Proceedings of ECDL-00, 4th European Conference on Research and Advanced Technology for Digital Libraries, JeL Borbinha and T Baker, Editors. 2000, Springer Verlag, Heidelberg, {DE}: Lisbon, {PT}. p. 59--68.

[55] Forman G, A pitfall and solution in multi-class feature selection for text classification, in Proceedings of ICML-04, 21st International

Conference on Machine Learning, CE Brodley, Editor. 2004, Morgan Kaufmann Publishers, San Francisco, {US}: Banff, CA. p. .

[56] Lewis DD, An evaluation of phrasal and clustered representations on a text categorization task, in Proceedings of SIGIR-92, 15th ACM

International Conference on Research and Development in Information Retrieval, NJ Belkin, P Ingwersen, and AM Pejtersen, Editors. 1992, {ACM} Press, New York, {US}: Kobenhavn, {DK}. p. 37--50.

[57] Slonim N,Tishby N, The Power of Word Clusters for Text Classification, in Proceedings of ECIR-01, 23rd European Colloquium on

Information Retrieval Research, , Editor. 2001, : Darmstadt, {DE}. p. .

[58] Bekkerman R, El-Yaniv R, Tishby N, et al., Distributional word clusters vs.\ words for text categorization. Journal of Machine Learning

Research, 2003. 3: p. 1183--1208.

[59] Baker LD,McCallum AK, Distributional clustering of words for text classification, in Proceedings of SIGIR-98, 21st ACM International

Conference on Research and Development in Information Retrieval, WB Croft, et al., Editors. 1998, {ACM} Press, New York, {US}:

Melbourne, {AU}. p. 96--103.

[60] Zelikovitz S,Hirsh H, Using {LSI} for Text Classification in the Presence of Background Text, in Proceedings of CIKM-01, 10th ACM

International Conference on Information and Knowledge Management, H Paques, L Liu, and D Grossman, Editors. 2001, {ACM} Press, New York, {US}: Atlanta, {US}. p. 113--118.

[61] Chen L, Tokuda N,Nagai A, A new differential LSI space-based probabilistic document classifier. Information Processing Letters, 2003.

88(5): p. 203--212.

[62] Koller D,Sahami M, Hierarchically classifying documents using very few words, in Proceedings of ICML-97, 14th International Conference

on Machine Learning, DH Fisher, Editor. 1997, Morgan Kaufmann Publishers, San Francisco, {US}: Nashville, {US}. p. 170--178.

[63] McCallum AK,Nigam K. A Comparison of Event Models for Naive Bayes Text Classification. in AAAI-98 Workshop on Learning for Text

Categorization. 1998. Menlo Park CA: AAAI Press.

[64] Ruiz ME,Srinivasan P, Hierarchical neural networks for text categorization, in Proceedings of SIGIR-99, 22nd ACM International

Conference on Research and Development in Information Retrieval, MA Hearst, F Gey, and R Tong, Editors. 1999, {ACM} Press, New York, {US}: Berkeley, {US}. p. 281--282.

张博锋等:基于机器学习的文本分类研究综述15

[65] Weigend AS, Wiener ED,Pedersen JO, Exploiting hierarchy in text categorization. Information Retrieval, 1999. 1(3): p. 193--216.

[66] Tsay J-J,Wang J-D, Improving linear classifier for Chinese text categorization. Information Processing and Management, 2004. 40(2): p.

223--237.

文本分类综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:文本分类综述 授课教师(职称):王素格(教授) 研究生姓名:刘杰飞 年级:2014级 学号:201422403003 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

文本分类综述 摘要文本分类就是在给定的分类体系下,让计算机根据给定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。文本分类在冗余过滤、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。本文主要介绍文本分类的研究背景,跟踪国内外文本分类技术研究动态。介绍目前文本分类过程中的一些关键技术,以及流形学习在文本分类中降维的一些应用。并且讨论目前文本分类研究面临的一些问题,及对未来发展方向的一些展望。 关键词文本分类;特征选择;分类器;中文信息处理 1.引言 上世纪九十年代以来,因特网以惊人的速度发展起来,到现在我们进入大数据时代互联网容纳了海量的各种类型的数据和信息,包括文本、声音、图像等。这里所指的文本可以是媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。基于机器学习的文本分类系统作为处理和组织大量文本数据的关键技术,能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,方便用户准确地定位所需的信息和分流信息。 利用文本分类技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高信息检索的效率。通过对文本信息进行基于内容的分类,自动生成便于用户使用的文本分类系统,从而可以大大降低组织整理文档耗费的人力资源,帮助用户快速找到所需信息。因此文本分类技术得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。 2.文本分类技术的发展历史及现状 2.1文本分类技术发展历史 国外自动分类研究始于1950年代末,早期文本分类主要是基于知识工程,通过手工定义一些规则来对文本进行分类,这种方法费时费力,还需要对某一领域有足够的了解,才能提炼出合适的规则。H.P.Luhn在这一领域进行了开创性的研究,他将词频统计的思想用于文本分类中。这一时期,主要是分类理论的研究,并将文本分类应用用于信息检索。在这一段时期,提出了很多经典文本分类的数学模型。比如1960年Maron在Journal of ASM上发表了有关自动分类的第一篇论文“On relevance Probabilitic indexing and informarion retriral”,这是Maron和Kuhns提出概的率标引(Probabilitic indexing )模型在信息检

文献综述的类型

文献综述是"一种在分析、比较、整理、归纳一定时空范围内有关特 定课题研究的全部或大部情报的基础上,简明的类述其中的最重要部分,并标引出处的情报研究报告"。文献综述的定义包含三个基本要素:首先,文献综述反映原始文献有一定的时间和空间范围,它反映一定时期内或是某一时期一定空间范围的原始文献的内容。其次,文献综述集中反映一批相关文献的内容。其它二次文献如题录、索引、文摘、提要等一条只能揭示一篇原始文献的外表信息或内容信息,且各条目之间没有联系,而综述一篇可集中一批相关文献,且将这批文献作为一个有机整体予以揭示,信息含量比二次文献多得多。第三,文献综述是信息分析的高级产物。书目、索引等是对原始文献的外表特征进行客观描述,不涉及文献内容,编写人员不需了解原始文献的内容,也不需具备相关学科的基础知识;提要、文摘是对原始文献的 内容作简要介绍和评价,编写人员需要具有相关学科的一些基础知识,以识别和评价原始文献;文献综述则要求编写人员对综述的主题有深 入的了解,全面、系统、准确、客观地概述某一主题的内容。运用分析、比较、整理、归纳等方法对一定范围的文献进行深度加工,对于读者具有深度的引导功能,是创造性的研究活动。 文献综述的类型可以从不同的角度对文献综述进行划分,最常见的方法是根据文献综述反映内容深度的不同即信息含量的不同划分按照文献综述信息含量的不同,可将文献综述分为叙述性综述、评论性综述和专题研究报告三类。

叙述性综述是围绕某一问题或专题,广泛搜集相关的文献资料,对其内容进行分析、整理和综合,并以精炼、概括的语言对有关的理论、观点、数据、方法、发展概况等作综合、客观的描述的信息分析产品。叙述性综述最主要特点是客观,即必须客观地介绍和描述原始文献中的各种观点和方法。一般不提出撰写者的评论、褒贬,只是系统地罗列。叙述性综述的特点使得读者可以在短时间内,花费较少的精力了解到本学科、专业或课题中的各种观点、方法、理论、数据,把握全局,获取资料。 评论性综述是在对某一问题或专题进行综合描述的基础上,从纵向或横向上作对比、分析和评论,提出作者自己的观点和见解,明确取舍的一种信息分析报告。评论性综述的主要特点是分析和评价,因此有人也将其称为分析性综述。评论性综述在综述各种观点、理论或方法的同时,还要对每种意见、每类数据、每种技术做出分析和评价,表明撰写者自己的看法,提出最终的评论结果。可以启发思路,引导读者寻找新的研究方向。 专题研究报告是就某一专题,一般是涉及国家经济、科研发展方向的重大课题,进行反映与评价,并提出发展对策、趋势预测。"是一种现实性、政策性和针对性很强的情报分析研究成果"。其最显著的特点是预测性,它在对各类事实或数据、理论分别介绍描述后,进行论证、预测的推演,最后提出对今后发展目标和方向的预测及规划。专题研究报告对于科研部门确定研究重点和学科发展方向,领导部门制定各项决策,有效实施管理起着参考和依据的作用。这一类综述主

基于机器学习的文本分类方法

基于机器学习算法的文本分类方法综述 摘要:文本分类是机器学习领域新的研究热点。基于机器学习算法的文本分类方法比传统的文本分类方法优势明显。本文综述了现有的基于机器学习的文本分类方法,讨论了各种方法的优缺点,并指出了文本分类方法未来可能的发展趋势。 1.引言 随着计算机技术、数据库技术,网络技术的飞速发展,Internet的广泛应用,信息交换越来越方便,各个领域都不断产生海量数据,使得互联网数据及资源呈现海量特征,尤其是海量的文本数据。如何利用海量数据挖掘出有用的信息和知识,方便人们的查阅和应用,已经成为一个日趋重要的问题。因此,基于文本内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类(text categorization,TC)技术是信息检索和文本挖掘的重要基础技术,其作用是根据文本的某些特征,在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。传统的文本分类模式是基于知识工程和专家系统的,在灵活性和分类效果上都有很大的缺陷。例如卡内基集团为路透社开发的Construe专家系统就是采用知识工程方法构造的一个著名的文本分类系统,但该系统的开发工作量达到了10个人年,当需要进行信息更新时,维护非常困难。因此,知识工程方法已不适用于日益复杂的海量数据文本分类系统需求[1]。20世纪90年代以来,机器学习的分类算法有了日新月异的发展,很多分类器模型逐步被应用到文本分类之中,比如支持向量机(SVM,Support Vector Machine)[2-4]、最近邻法(Nearest Neighbor)[5]、决策树(Decision tree)[6]、朴素贝叶斯(Naive Bayes)[7]等。逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,取得了很好的分类效果。 本文主要综述基于机器学习算法的文本分类方法。首先对文本分类问题进行概述,阐述文本分类的一般流程以及文本表述、特征选择方面的方法,然后具体研究基于及其学习的文本分类的典型方法,最后指出该领域的研究发展趋势。 2.文本自动分类概述 文本自动分类可简单定义为:给定分类体系后,根据文本内容自动确定文本关联的类别。从数学角度来看,文本分类是一个映射过程,该映射可以是一一映射,也可以是一对多映射过程。文本分类的映射规则是,系统根据已知类别中若干样本的数据信息总结出分类的规律性,建立类别判别公式或判别规则。当遇到新文本时,根据总结出的类别判别规则确定文本所属的类别。也就是说自动文本分类通过监督学习自动构建出分类器,从而实现对新的给定文本的自动归类。文本自动分类一般包括文本表达、特征选取、分类器的选择与训练、分类等几个步骤,其中文本表达和特征选取是文本分类的基础技术,而分类器的选择与训练则是文本自动分类技术的重点,基于机器学习的文本分来就是通过将机器学习领域的分类算法用于文本分类中来[8]。图1是文本自动分类的一般流程。

文本情感分类研究综述

Web文本情感分类研究综述 王洪伟/刘勰/尹裴/廖雅国 2012-9-27 14:55:59 来源:《情报学报》(京)2010年5期【英文标题】Review of Sentiment Classification on Web Text 【作者简介】王洪伟,男,1973年生,博士,副教授/博士生导师,研究方向:本体建模和情感计算,E-mail:hwwang@https://www.doczj.com/doc/cb10698206.html,。同济大学经济与管理学院,上海200092; 刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。同济大学经济与管理学院,上海200092; 尹裴,女,1986年生,硕士研究生,研究方向:商务智能。同济大学经济与管理学院,上海200092; 廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。香港理工大学电子计算学系,香港 【内容提要】对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。

Analyzing the users' reviews on the Web can help us to identify users' implicit sentiments and find the evolution laws of their emotion. To this end, this paper is a survey about the sentiment classification on the Web text. We divided the process of classification into three categories:subjective and objective classification,polarity identification and intensity identification and respectively summarize the resent research achievements in these fields. We also sorted the methods of polarity identification into two types: one is based on the emotional words with semantic characteristics, while the other statistic methods of natural language processing. What is more, the choice of corpus and potential research problems are discussed. At last, this paper summarized the status quo of application and pointed out the direction of future research. 【关键词】Web文本/情感分类/综述/主观性文本Web texts/Sentiment classification/Survey/Subjective text 随着互联网的流行,Web文本成为我们获取信息、发表观点和交流情感的重要来源。特别是随着Web2.0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如对某部大片的影评,对某款手机的用户体验等,其中蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentiment analysis),就是确定说话人或作者对某个特定主题的态度。其中,态度可以是他们的判断或者评估,他们(演说、写作时)的情绪状态,或者有意(向受众)传递的情感信息。因此,情感分

文本分类概述教学教材

文本分类概述

第一章绪论 1.1研究背景 当今的时代,是一个信息技术飞速发展的时代。随着信息技术的飞速发展,科学知识也在短时间内发生了急剧的、爆炸性的增长。 据1998年的资料显示[1],70年代以来,全世界每年出版图书50万种,每一分钟就有一种新书出版。80年代每年全世界发表的科学论文大约500万篇,平均每天发表包含新知识的论文为1.3万-1.4万篇;登记的发明创造专利每年超过30万件,平均每天有800-900件专利问世。近二十年来,每年形成的文献资料的页数,美国约1,750亿页。另据联合国教科文组织所隶属的“世界科学技术情报系统”曾做的统计显示,科学知识每年的增长率,60年代以来已从9.5%增长到10.6%,到80年代每年增长率达12.5%。据说,一位化学家每周阅读40小时,光是浏览世界上一年内发表的有关化学方面的论文和著作就要读48年。而2005年的资料显示[2],进入20世纪后全世界图书品种平均20年增加一倍,册数增加两倍。期刊出版物,平均10年增加一倍。科技文献年均增长率估计为13%,其中某些学科的文献量每10年左右翻一番,尖端科技文献的增长则更快,约2-3年翻一番。 同时,伴随着Internet的迅猛发展,网站和网页数也在迅速增长,大约每年翻一番。据估计,目前全世界网页数已高达2000亿,而Google宣称其已索引250亿网页。在我国,中国互联网络信息中心从2001年起每年都对中文网页总数作统计调查,统计结果显示,中文网页总数已由2001年4月30日的 159,460,056个发展到2005年12月31日的24亿个,增长之快可见一斑[3,4]。

文本分类中的特征提取和分类算法综述

文本分类中的特征提取和分类算法综述 摘要:文本分类是信息检索和过滤过程中的一项关键技术,其任务是对未知类别的文档进行自动处理,判别它们所属于的预定义类别集合中的类别。本文主要对文本分类中所涉及的特征选择和分类算法进行了论述,并通过实验的方法进行了深入的研究。 采用kNN和Naive Bayes分类算法对已有的经典征选择方法的性能作了测试,并将分类结果进行对比,使用查全率、查准率、F1值等多项评估指标对实验结果进行综合性评价分析.最终,揭示特征选择方法的选择对分类速度及分类精度的影响。 关键字:文本分类特征选择分类算法 A Review For Feature Selection And Classification Algorithm In Text Categorization Abstract:Text categorization is a key technology in the process of information retrieval and filtering,whose task is to process automatically the unknown categories of documents and distinguish the labels they belong to in the set of predefined categories. This paper mainly discuss the feature selection and classification algorithm in text categorization, and make deep research via experiment. kNN and Native Bayes classification algorithm have been applied to test the performance of classical feature detection methods, and the classification results based on classical feature detection methods have been made a comparison. The results have been made a comprehensive evaluation analysis by assessment indicators, such as precision, recall, F1. In the end, the influence feature selection methods have made on classification speed and accuracy have been revealed. Keywords:Text categorization Feature selection Classification algorithm

文本情感分析研究现状

文本情感分析研究现状 机器之心专栏 作者:李明磊 作为NLP 领域重要的研究方向之一,情感分析在实际业务场景中 存在巨大的应用价值。在此文中,华为云NLP 算法专家李明磊为 我们介绍了情感分析的概念以及华为云在情感分析方面的实践和 进展。 基本概念 为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。这些评价中都蕴含着巨大的商业价值。比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动。而这种正负面评价的分析就是情感分析的主要应用场景。 是什么:文本情感分析旨在分析出文本中针对某个对象的评价的正负面,比如「华为手机非常好」就是一个正面评价。情感分析主要有五个要素,(entity/实体,aspect/属性,opinion/观点,holder/观点持有者,time/时间),其中实体和属性合并称为评价对象(target)。情感分析的目标就是从非结构化的文本评论中抽取出这五个要素。

图1 情感分析五要素 举例如下图: 图2 情感分析五要素例子 上例中左侧为非结构化的评论文本,右侧为情感分析模型分析出的五个要素中的四个(不包括时间)。其中实体「华为手机」和属性「拍照」合并起来可以作为评价对象。评价对象又可细分为评价对象词抽取和评价对象类别识别。如实体可以是实体词和实体类别,实体词可以是「餐馆」、「饭店」、「路边摊」,而实体类别是「饭店」;属性可以是属性词和属性类别,如属性词可以是「水煮牛肉」、「三文鱼」等,都对应了属性类别「食物」。实体类别和属性类别相当于是对实体词和属性词的一层抽象和归类,是一对多的关系。词和类别分别对应了不同的

文献综述的类型

一、文献综述的类型、特点及作用 文献综述是“一种在分析、比较、整理、归纳一定时空范围内有关特定课题研究的全部或大部情报的基础上,简明的类述其中的最重要部分,并标引出处的情报研究报告”。文献综述的定义包含三个基本要素:首先,文献综述反映原始文献有一定的时间和空间范围,它反映一定时期内或是某一时期一定空间范围的原始文献的内容。其次,文献综述集中反映一批相关文献的内容。其它二次文献如题录、索引、文摘、提要等一条只能揭示一篇原始文献的外表信息或内容信息,且各条目之间没有联系,而综述一篇可集中一批相关文献,且将这批文献作为一个有机整体予以揭示,信息含量比二次文献多得多。第三,文献综述是信息分析的高级产物。书目、索引等是对原始文献的外表特征进行客观描述,不涉及文献内容,编写人员不需了解原始文献的内容,也不需具备相关学科的基础知识;提要、文摘是对原始文献的内容作简要介绍和评价,编写人员需要具有相关学科的一些基础知识,以识别和评价原始文献;文献综述则要求编写人员对综述的主题有深入的了解,全面、系统、准确、客观地概述某一主题的内容。运用分析、比较、整理、归纳等方法对一定范围的文献进行深度加工,对于读者具有深度的引导功能,是创造性的研究活动。 1.文献综述的类型可以从不同的角度对文献综述进行划分,最常见的方法是根据文献综述反映内容深度的不同即信息含量的不同划分 按照文献综述信息含量的不同,可将文献综述分为叙述性综述、评论性综述和专题研究报告三类。 叙述性综述是围绕某一问题或专题,广泛搜集相关的文献资料,对其内容进行分析、整理和综合,并以精炼、概括的语言对有关的理论、观点、数据、方法、发展概况等作综合、客观的描述的信息分析产品。叙述性综述最主要特点是客观,即必须客观地介绍和描述原始文献中的各种观点和方法。一般不提出撰写者的评论、褒贬,只是系统地罗列。叙述性综述的特点使得读者可以在短时间内,花费较少的精力了解到本学科、专业或课题中的各种观点、方法、理论、数据,把握全局,获取资料。 评论性综述是在对某一问题或专题进行综合描述的基础上,从纵向或横向上作对比、分析和评论,提出作者自己的观点和见解,明确取舍的一种信息分析报告。评论性综述的主要特点是分析和评价,因此有人也将其称为分析性综述。评论性综述在综述各种观点、理论或方法的同时,还要对每种意见、每类数据、每种技术做出分析和评价,表明撰写者自己的看法,提出最终的评论结果。可以启发思路,引导读者寻找新的研究方向。 专题研究报告是就某一专题,一般是涉及国家经济、科研发展方向的重大课题,进行反映

文本分类概述

第一章绪论 1.1研究背景 当今的时代,是一个信息技术飞速发展的时代。随着信息技术的飞速发展,科学知识也在短时间内发生了急剧的、爆炸性的增长。 据1998年的资料显示[1],70年代以来,全世界每年出版图书50万种,每一分钟就有一种新书出版。80年代每年全世界发表的科学论文大约500万篇,平均每天发表包含新知识的论文为1.3万-1.4万篇;登记的发明创造专利每年超过30万件,平均每天有800-900件专利问世。近二十年来,每年形成的文献资料的页数,美国约1,750亿页。另据联合国教科文组织所隶属的“世界科学技术情报系统”曾做的统计显示,科学知识每年的增长率,60年代以来已从9.5%增长到10.6%,到80年代每年增长率达12.5%。据说,一位化学家每周阅读40小时,光是浏览世界上一年内发表的有关化学方面的论文和著作就要读48年。而2005年的资料显示[2],进入20世纪后全世界图书品种平均20年增加一倍,册数增加两倍。期刊出版物,平均10年增加一倍。科技文献年均增长率估计为13%,其中某些学科的文献量每10年左右翻一番,尖

端科技文献的增长则更快,约2-3年翻一番。 同时,伴随着Internet的迅猛发展,网站和网页数也在迅速增长,大约每年翻一番。据估计,目前全世界网页数已高达2000亿,而Google宣称其已索引250亿网页。在我国,中国互联网络信息中心从2001年起每年都对中文网页总数作统计调查,统计结果显示,中文网页总数已由2001年4月30日的159,460,056个发展到2005年12月31日的24亿个,增长之快可见一斑[3,4]。 从这些统计数字可以看出,我们被淹没在一个多么浩大的信息海洋里!然而信息的极大丰富并没有提高人们对知识的吸收能力,面对如此浩瀚的信息,人们越来越感觉无法快速找到需要的知识。这就是所谓的“信息是丰富的,知识是贫乏的”。 如何在这样一个巨大的信息海洋中更加有效的发现和使用信息以及如何利用这个信息宝库为人们提供更高质量和智能化的信息服务,一直是当前信息科学和技术领域面临的一大挑战。尽管用户对图像、音频和视频等信息资源的需求也在急剧增加,但文本仍然是最主要的非结构化和半结构化的信息资源。针对目前的出版物和网络信息大部分都以文本形式存在的状况,自动文本分类技术作为处理和组织大量文本数据

中文文本分类算法设计及其实现_毕业设计

毕业设计(论文)任务书 毕业设计(论文) 题目中文文本分类算法的设计及其实现 电信学院计算机系84班设计所在单位西安交通大学计算机系

西安交通大学本科毕业设计(论文) 毕业设计(论文)任务书 电信学院计算机系84 班学生丰成平 毕业设计(论文)工作自2013 年 2 月21 日起至2013 年 6 月20 日止毕业设计(论文)进行地点:西安交通大学 课题的背景、意义及培养目标 随着文本文件的增多,对其自动进行分门别类尤为重要。文本分类是指采用计算机程序对文本集按照一定的分类体系进行自动分类标记。文本分类器的设计通常包括文本的特征向量表示、文本特征向量的降维、以及文本分类器的设计与测试三个方面。本毕设论文研究文本分类器的设计与实现。通过该毕业设计,可使学生掌握文本分类器设计的基本原理及相关方法,并通过具体文本分类算法的设计与编程实现,提高学生的实际编程能力。 设计(论文)的原始数据与资料 1、文本语料库(分为训练集与测试集语料库)。 2、关于文本分类的各种文献(包括特征表示、特征降维、以及分类器设计)以及资料。 3、中科院文本分词工具(nlpir)。 4、文本分类中需要用到的各种分类方法的资料描述。 课题的主要任务 1.学习文本特征向量的构建方法及常用的降维方法。 2.学习各种分类器的基本原理及其训练与测试方法。 3.设计并编程实现文本分类器。

毕业设计(论文)任务书 4、对试验结果进行分析,得出各种结论。 5、撰写毕业论文。 6、翻译一篇关于文本分类的英文文献。 课题的基本要求(工程设计类题应有技术经济分析要求) 1、程序可演示。 2、对源代码进行注释。 3、给出完整的设计文档及测试文档。 完成任务后提交的书面材料要求(图纸规格、数量,论文字数,外文翻译字数等) 1、提交毕业论文 2、提交设计和实现的系统软件源程序及有关数据 3、提交外文资料翻译的中文和原文资料 主要参考文献: 自然语言处理与信息检索共享平台:https://www.doczj.com/doc/cb10698206.html,/?action-viewnews-itemid-103 Svm(支持向量机)算法:https://www.doczj.com/doc/cb10698206.html,/zhenandaci/archive/2009/03/06/258288.html 基于神经网络的中文文本分析(赵中原):https://www.doczj.com/doc/cb10698206.html,/p-030716713857.html TF-IDF的线性图解:https://www.doczj.com/doc/cb10698206.html,/blog-170225-6014.html 东南大学向量降维文献:https://www.doczj.com/doc/cb10698206.html,/p-690306037446.html 指导教师相明 接受设计(论文)任务日期2013-02-21~2013-06-20 学生签名:

Web文本情感分类研究综述

情报学报  ISSN1000-0135 第29卷第5期931-938,2010年10月 JOURNALOFTHECHINASOCIETYFORSCIENTIFIC ANDTECHNICALINFORMATIONISSN1000-0135Vol.29 No.5,931-938October 2010 收稿日期:2009年6月29日 作者简介:王洪伟,男,1973年生,博士,副教授桙博导,研究方向:本体建模和情感计算,E-mail:hwwang@tongji.edu.cn。刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。尹裴,女,1986年生,硕士研究生,研究方向:商务智能。廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。 1) 本文得到国家自然科学基金项目(70501024,70971099);教育部人文社会科学资助项目(05JC870013);上海市重点学科建设项目(B310);香港研究资助局项目(polyU5237桙08E)资助。 doi:10.3772桙j.issn.1000-0135.2010.05.023 Web文本情感分类研究综述 1) 王洪伟1  刘 勰1  尹 裴1  廖雅国 2 (1畅同济大学经济与管理学院,上海200092;2畅香港理工大学电子计算学系,香港) 摘要 对用户发表在Web上的评论进行分析, 能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。 关键词 Web文本 情感分类 综述 主观性文本 LiteratureReviewofSentimentClassificationonWebText WangHongwei1 ,LiuXie1 ,YinPei1 andLiuN.K.James 2 (1畅SchoolofEconomicsandManagement,TongjiUniversity,Shanghai200092;2畅DepartmentofComputing,HongKongPolytechnicUniversity,HongKong) Abstract Analyzingtheusers’reviewsontheWebcanhelpustoidentifyusers’implicitsentimentsandfindtheevolution lawsoftheiremotion.Tothisend,thispaperisasurveyaboutthesentimentclassificationontheWebtext.Wedividedtheprocessofclassificationintothreecategories:subjectiveandobjectiveclassification,polarityidentificationandintensity identificationandrespectivelysummarizetheresentresearchachievementsinthesefields.Wealsosortedthemethodsofpolarityidentificationintotwotypes:oneisbasedontheemotionalwordswithsemanticcharacteristics,whiletheotherstatisticmethodsof naturallanguageprocessing.Whatismore,thechoiceofcorpusandpotentialresearchproblemsarediscussed.Atlast,thispaper summarizedthestatusquoofapplicationandpointedoutthedirectionoffutureresearch. Keywords Webtexts,sentimentclassification,survey,subjectivetext 随着互联网的流行,Web文本成为我们获取信 息、发表观点和交流情感的重要来源。特别是随着Web2畅0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如 对某部大片的影评,对某款手机的用户体验等,其中 蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentimentanalysis),就是确定说话人或作者对某个特定主题的 — 139—

分类目录用户研究综述

分类目录用户研究综述 1.分类目录研究现状 1.1分类目录的功能和优势 网络分类目录是应用分类的方法对巨大的网络资源进行组织和揭示的有效 手段。它可以提供浏览方式的信息查询途径,具有直观、易检的优点。分类目录的使用,可以使得用户更易查找到所需信息。 分类检索是以分类目录浏览方式提供信息查询途径, 一般称为网络分类目录。由专家选取一些网页, 以某种分类方法进行组织, 建立主题树分层目录, 并将采集、筛选后的信息分门别类地放人各大类或子类下面, 用户通过层层点击, 随着范围的缩小与查询专指度的提高, 最终满足用户的查询需求。网络分类目录在检索方面有以下优势: 1.分类浏览方式直观。在检索目的不明确、检索词不确定时, 分类浏览方式更有效率, 适合网络新手。 2.检准率高。网络分类目录由人工抓取、标引, 网页学术性强, 检索效果好。另一方面用户参与程度高, 在分类目录的指导下, 逐步明确用户的检索需求, 检索目的性更强更明确, 检索效率提高。尽管网络分类目录较检索法具有一定的优势, 但是, 要提高检全率、检准率, 采用科学的分类方法是至关重要的。分类标准是提供优质检索服务的重要保障。 1.2 中文搜索引擎分类目录状况 目前中文搜索引擎有70多种。其中, 只有“网络指南针”是采用《中图法》建立网络目录的。目前也只有两级类目的框架、内容不够丰富, 其他的中文搜索引擎都是自编的网络分类目录。由于缺乏统一的网络信息分类标准, 各搜索引擎的分类体系无法兼容, 用户检索需要适应各个搜索引擎不同的网络分类方法。例如, 搜狐的分类目录包括18个大类. 从这些搜索引擎网站分类目录状况可以得出以下结论: 1.网上搜索引擎应用的分类方法较文献分类法检索有其优越性。 2.在分类体系上, 采用以主题、事物为主的聚类方法, 替代了以学科为中心的聚类方法。即围绕某一主题、某一事物集中关于这一主题、这一事物的相关信息。例如, 在“雅虎”分类目录中查找“因特网”方面的信息,进人“电脑与因特网”

基于贝叶斯的文本分类

南京理工大学经济管理学院 课程作业 课程名称:本文信息处理 作业题目:基于朴素贝叶斯实现文本分类姓名:赵华 学号: 114107000778 成绩:

基于朴素贝叶斯实现文本分类 摘要贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。 关键词社区发现标签传播算法社会网络分析社区结构 1引言 数据挖掘在上个世纪末在数据的智能分析技术上得到了广泛的应用。分类作为数据挖掘中一项非常重要的任务,目前在商业上应用很多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该分类器可以将数据集合中的数据项映射到给定类别中的某一个,从而可以用于后续数据的预测和状态决策。目前,分类方法的研究成果较多,判别方法的好坏可以从三个方面进行:1)预测准确度,对非样本数据的判别准确度;2)计算复杂度,方法实现时对时间和空间的复杂度;3)模式的简洁度,在同样效果情况下,希望决策树小或规则少。 分类是数据分析和机器学习领域的基本问题。没有一个分类方法在对所有数据集上进行分类学习均是最优的。从数据中学习高精度的分类器近年来一直是研究的热点。各种不同的方法都可以用来学习分类器。例如,人工神经元网络[1]、决策树[2]、非参数学习算法[3]等等。与其他精心设计的分类器相比,朴素贝叶斯分类器[4]是学习效率和分类效果较好的分类器之一。 朴素贝叶斯方法,是目前公认的一种简单有效的分类方法,它是一种基于概率的分类方法,被广泛地应用于模式识别、自然语言处理、机器人导航、规划、机器学习以及利用贝叶斯网络技术构建和分析软件系统。 2贝叶斯分类 2.1分类问题综述 对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点都不夸张,只是我们没有意识到罢了。例如,当你看到一个陌生人,你的脑子下意识判断TA是男是女;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、那边有个非主流”之类的话,其实这就是一种分类操作。 从数学角度来说,分类问题可做如下定义: 已知集合:和,确定映射规则,使得任意有且仅有一个使得成立。(不考虑模 糊数学里的模糊集情况) 其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合,其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。

贝叶斯算法(文本分类算法)java源码

package com.vista; import java.io.IOException; import jeasy.analysis.MMAnalyzer; /** * 中文分词器 */ public class ChineseSpliter { /** * 对给定的文本进行中文分词 * @param text 给定的文本 * @param splitToken 用于分割的标记,如"|" * @return 分词完毕的文本 */ public static String split(String text,String splitToken) { String result = null; MMAnalyzer analyzer = new MMAnalyzer(); try { result = analyzer.segment(text, splitToken); } catch (IOException e) { e.printStackTrace(); } return result; } } 停用词处理 去掉文档中无意思的词语也是必须的一项工作,这里简单的定义了一些常见的停用词,并根据这些常用停用词在分词时进行判断。 package com.vista;

/** * 停用词处理器 * @author phinecos * */ public class StopWordsHandler { private static String stopWordsList[] ={"的", "我们","要","自己","之","将","“","”",",","(",")","后","应","到","某","后","个","是","位","新","一","两","在","中","或","有","更","好",""};//常用停用词public static boolean IsStopWord(String word) { for(int i=0;i

分类技术综述

分类算法综述(一) 摘要:分类是数据挖掘、机器学习和模式识别中一个重要的研究领域。通过对当前数据挖 掘中具有代表性的优秀分类算法进行分析和比较,总结出了各种算法的特性,为使用者选择算法或研究者改进算法提供了依据。 1 概述 分类是一种重要的数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知类别的样本映射到给定类别中的某一个。分类和回归都可以用于预测。和回归方法不同的是,分类的输出是离散的类别值,而回归的输出是连续或有序值。本文只讨论分类。 构造模型的过程一般分为训练和测试两个阶段。在构造模型之前,要求将数据集随机地分为训练数据集和测试数据集。在训练阶段,使用训练数据集,通过分析由属性描述的数据库元组来构造模型,假定每个元组属于一个预定义的类,由一个称作类标号属性的属性来确定。训练数据集中的单个元组也称作训练样本,一个具体样本的形式可为:(u1,u2,……un;c);其中ui表示属性值,c表示类别。由于提供了每个训练样本的类标号,该阶段也称为有指导的学习,通常,模型用分类规则、判定树或数学公式的形式提供。在测试阶段,使用测试数据集来评估模型的分类准确率,如果认为模型的准确率可以接受,就可以用该模型对其它数据元组进行分类。一般来说,测试阶段的代价远远低于训练阶段。 为了提高分类的准确性、有效性和可伸缩性,在进行分类之前,通常要对数据进行预处理,包括: (1) 数据清理。其目的是消除或减少数据噪声,处理空缺值。 (2) 相关性分析。由于数据集中的许多属性可能与分类任务不相关,若包含 这些属性将减慢和可能误导学习过程。相关性分析的目的就是删除这些不相关或冗余的属性。 (3) 数据变换。数据可以概化到较高层概念。比如,连续值属性“收入”的 数值可以概化为离散值:低,中,高。又比如,标称值属性“市”可概化到高层概念“省”。此外,数据也可以规范化,规范化将给定属性的值按比例缩放,落入较小的区间,比如[0,1]等。 2 分类算法的种类及特性 分类模型的构造方法有决策树、统计方法、机器学习方法、神经网络方法等。按大的方向分类主要有:决策树,关联规则,贝叶斯,神经网络,规则学习,k-临近法,遗传算法,粗糙集以及模糊逻辑技术。 分类算法综述(二)---决策树算法 2.1 决策树(decision tree)分类算法 决策树是以实例为基础的归纳学习算法。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值 的比较,并根据不同的属性值从该结点向下分支,叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则,整个决策树就对应着一组析取表达式规则。1986年

基于特征值提取文本分类方案

目录 一、综述 (2) (一)实现目标 (2) (二)主要功能 (2) 二、总体架构 (3) 三、各模块建模挖掘层详解 (4) (一)无监督学习模块.............................................. 错误!未定义书签。 (二)有监督学习模块.............................................. 错误!未定义书签。 四、输入层和输出层详解 (6) (一)输入层 (6) (二)输出层 (6)

基于特征值提取文本分类设计方案 一、综述 (一)实现目标 本模块实现了对文本文档集合的分类特征值提取。对输入的分类文档,基于词频、互信息、类别信息的综合特征,从每个分类中挖掘出对应的有效特征值。 该模块还实现了对特征值的权重计算,按照特征词的权重值,构造了分类器。新增文本可以通过文本分类器进行分类,无法分类的文本可以人工分类后重新执行特征值抽取功能,重新调整特征值,从而达到优化分类器的目的。 该模块由Java编写,可用于任何需要挖掘文本主题的项目中,也可以单独使用。 (二)主要功能 该模块的主要功能包括以下几个方面: ●对原始语料库进行中文分词、去除停用词 ●词性过滤,只提取名词,动词 ●按类别进行特征词提取 ●特征词权重计算 ●文本分类

二、总体架构

三、挖掘层详解 1.文本分词 中文分词采用开源的Ansj分词工具,基于中科院的ictclas 中文分词算法,采用隐马尔科夫模型(HMM),比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。Ansj是一款纯Java的、主要应用于自然语言处理的、高精度的分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、用户自定义词典。 Ansj实现了用户自定义词典的动态添加删除,当然,也支持从文件加载词典。用户自定义词典默认路径:项目目录/library/userLibrary/userLibrary.dic。格式为:[自定义词] [词性] [词频],其中[词性]和[词频]两项可以空缺不写。本项目在Ansj原本自带的词典(367425条)基础上,扩展了以下词典: 1)从数据库中抽取的电信业务词库(5767条) 2)广深东佛城市信息精选词库(来源:搜狗细胞词库)(62617条) 3)搜狗标准词库(392778条) 4)搜狗精选词库(392507条) 5)搜狗万能词库(362333条) 本模块还提供了从数据库加载词库的功能。目前整理了以下的数据库版本的词库: 1)公积金领域词(1332条) 2)医保领域词(2503条) 2.词性过滤 代词、连词、介词等的表征能力比较弱,因为一篇文本中的代词、连词或介词对于区分这个文本所属哪个领域几乎没什么参考价值。为此可以将表征能力很差的词性的词过滤掉。而名词和动词的表征能力最强,它们是文本中具有代表性的关键词项,因为大量的汉语知识表明,名词和动词是一个汉语句子中的核心部分,它们的简单组合,往往就可以表达出一种中心思想,一种主题。因此,我们只保留名词和动词,将其他词性的词作为弱词性词过滤掉。

文本预览