基于粗糙集理论和BP神经网络的分层递阶分类算法_乔斌
- 格式:pdf
- 大小:165.51 KB
- 文档页数:5
基于粗糙集和BP神经网络的文本分类研究唐云;罗俊松【期刊名称】《计算机仿真》【年(卷),期】2011(28)6【摘要】研究文本分类、提高文本检索效率问题,针对文本特征维数过高导致神经网络收敛速度慢、文本分类精度低的难题,结合粗糙集的属性约简和神经网络的文本分类优点,提出了一种粗糙集(RS)结合BP神经网络的文本自动分类算法(RS-BPNN).RS-BPNN首先应用粗糙集理论的属性约简对文本特征预处理,降低向量维数,然后把冗余的属性从决策表中删去,最后利用神经网络进行分类.并在MATLAB 环境中进行了仿真实验,仿真结果表明,RS-BPNN方法的识别精度比传统的BP神经网络高4%左右,提高了文本分类的精度和检索效率.%Although Rough Set can get obviously categorization rules with information reduction under the premise of not influeneing the aceuraey of Text Categorization, it is sensitive to noise data.Neural Network has a strong ability to learn fuzzy data, but it can not remove uncertain and vague information and its performance is weakened because the vectors of text are very huge.A hybrid classifier is presented based on the combination of rough set theory and BP neural network.Firstly, the documents are denoted by vector space model.Secondly, the feature vector were reduced by using rough sets.Finally, the documents were classed by BP neuralnetwork.Experimental results show that the algorithm of Rough - ANN is effective for the texts classification, and has the better performance inclassification precision, stability and fault - tolerance compared with the traditional BP neural networks.【总页数】5页(P219-222,283)【作者】唐云;罗俊松【作者单位】成都理工大学信息工程学院,四川,成都,610059;成都理工大学信息工程学院,四川,成都,610059【正文语种】中文【中图分类】TP183【相关文献】1.基于粗糙集与向量机的文本分类算法研究 [J], 朱敏玲2.基于粗糙集的KNN的WEB文本分类的研究 [J], 王斌;朴顺姬;邵华清3.基于粗糙集的KNN的WEB文本分类的研究 [J], 王斌;朴顺姬;邵华清4.基于粗糙集与改进KNN算法的文本分类方法的研究 [J], 邵莉5.基于粗糙集理论的文本分类研究现状综述 [J], 郭艳芬因版权原因,仅展示原文概要,查看原文内容请购买。
基于粗糙集和RBF神经网络的文本自动分类方法
白如江
【期刊名称】《现代图书情报技术》
【年(卷),期】2006(000)006
【摘要】结合粗糙集的属性约简和RBF神经网络的分类机理,提出一种新的文本分类混合算法.试验结果表明,与朴素贝叶斯、SVM、kNN传统分类方法相比,该方法在保持分类精度的基础上,分类速度有明显提高,体现出较好的稳定性和容错性,尤其适用于特征向量多且难以分类的文本.
【总页数】5页(P47-51)
【作者】白如江
【作者单位】山东理工大学图书馆,淄博,255049
【正文语种】中文
【中图分类】TP3
【相关文献】
1.基于粗糙集与RBF神经网络的农业总产值预测方法 [J], 杜智慧;俞晓红
2.基于粗糙集的文本自动分类方法的研究 [J], 王汉萍;孟庆春;张继军;李占斌;殷波
3.一种基于粗糙集文本自动分类的改进算法 [J], 张保富;施化吉
4.基于粗糙集理论和BP神经网络的文本自动分类方法研究 [J], 白如江;王效岳
5.粗糙集意义下的一种RBF神经网络设计方法 [J], 王耀南;张东波;黄辉先;易灵芝因版权原因,仅展示原文概要,查看原文内容请购买。
粗糙集理论与朴素贝叶斯分类器的比较与融合引言:在机器学习和数据挖掘领域,分类器是一种常用的工具,用于将数据集中的实例分配到不同的类别中。
粗糙集理论和朴素贝叶斯分类器是两种常见的分类方法,本文将对它们进行比较与融合,探讨它们的优势和适用场景。
一、粗糙集理论粗糙集理论是由波兰学者Pawlak于1982年提出的一种基于粗糙度的不确定性处理方法。
该理论将数据集分为决策属性和条件属性,通过计算属性间的粗糙度来实现分类。
粗糙集理论的优势在于能够处理不完整和不确定的数据,具有较强的鲁棒性。
二、朴素贝叶斯分类器朴素贝叶斯分类器是一种基于贝叶斯定理和特征条件独立性假设的分类方法。
该分类器通过计算给定特征条件下各类别的后验概率来进行分类。
朴素贝叶斯分类器的优势在于简单快速,对于大规模数据集具有较好的性能。
三、比较与融合粗糙集理论和朴素贝叶斯分类器在分类问题上有着不同的特点和适用场景。
粗糙集理论适用于处理不完整和不确定的数据,能够在数据缺失或噪声较多的情况下仍然有效。
而朴素贝叶斯分类器适用于处理大规模数据集,具有较好的性能和计算效率。
在实际应用中,可以将粗糙集理论和朴素贝叶斯分类器进行融合,充分利用它们各自的优势。
首先,可以使用粗糙集理论对数据进行预处理,处理不完整和不确定的数据,将其转化为可用的形式。
然后,将处理后的数据输入到朴素贝叶斯分类器中进行分类。
这样可以充分利用粗糙集理论的鲁棒性和朴素贝叶斯分类器的性能。
融合粗糙集理论和朴素贝叶斯分类器的方法有多种,可以根据具体问题选择合适的方法。
一种常见的方法是将粗糙集理论和朴素贝叶斯分类器作为两个独立的模块,分别进行数据预处理和分类,最后将它们的结果进行融合。
另一种方法是将粗糙集理论的粗糙度作为朴素贝叶斯分类器的先验概率,通过联合计算得到更准确的分类结果。
融合粗糙集理论和朴素贝叶斯分类器可以提高分类的准确性和鲁棒性,适用于处理复杂的实际问题。
在实际应用中,可以根据具体情况选择合适的方法和参数,进行优化和调整。
基于粗糙集的BP神经网络在震例中的应用研究作者:董晓娜苏道磊李希亮曲利张慧峰吴晨来源:《地震研究》2012年第02期摘要:采用《中国震例》作为数据源,通过初步整理分析和预处理,构建了较完备的震例研究样本集。
尝试将粗糙集与BP神经网络相结合的方法引入到震例研究中,用基于粗糙集的属性约简算法从众多复杂的地震异常指标中筛选出对最终分类起决定作用的核心异常作为输入,震级作为输出,构建了泛化能力强的BP神经网络模型来模拟异常与地震之间的不确定关系。
仿真测试结果表明:地震震级预测精度误差基本控制在-~级之间。
关键词:粗糙集;神经网络;震例研究;地震异常指标中图分类号:P315文献标识码:A文章编号:1000-0666(2012)02-0251-090引言地震预测是世界性科学难题,因为地震的孕育和发生是很复杂的自然现象。
在研究探索中,人们发现地震发生前会出现大量异常现象,且异常现象出现的种类多少、持续时间与地震之间有一定的关系,但这种关系具有很强的不确定性,是一种非线性映射关系,很难通过简单的解析表达式来描述,这使得地震预测具有较高的难度。
神经网络可以通过学习大量样本得到输入与输出之间高度非线性映射关系,这与一些学者从历史震例中总结出某些规律的地震预测思路相一致。
但在实际信息处理时,一旦输入信息量过大,神经网络结构就会变复杂,使得训练时间大大延长,实效性变差。
粗糙集可以解决这个问题,它可以通过发现数据之间的内在关系、去掉冗余、抽取核心属性从而简化输入。
因此,本文尝试将粗糙集与BP神经网络相结合应用于震例研究中,通过粗糙集属性约简算法对震例数据进行处理,将众多地震异常中筛选出的核心异常作为输入,将震级作为输出,构建泛化能力强的神经网络模型来模拟异常与地震之间的不确定关系,为地震预测研究提供更客观的指导。
1理论基础粗糙集概述粗糙集理论(Rough Set,简称RS),是波兰学者Pawlak(1982)提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的理论方法。
基于粗糙集理论和BP神经网络的分层递阶分类算法乔 斌 郭智疆 蒋静坪(浙江大学电气工程学院 杭州 310027)摘要 根据分层递阶的原则,提出一种将粗糙集理论与BP神经网络相结合的分类算法。
该算法分别用粗糙集理论和BP神经网络处理决策表中的离散属性和连续属性,可以避免对象连续属性离散化中产生不确定的情况。
同时,粗糙集对于决策表噪声比较敏感,BP神经网络可以克服这个缺点。
最后,对3个公共数据库的测试验证了该分类算法的有效性。
关键词 决策系统 粗糙集理论 BP神经网络The Hierarchical Classification Method Based on the Rough Set Theory and BP N eural NetworkQiao Bin Guo Zhijiang Jiang Jing ping(Colle ge of Electric Engineering,Zhejiang University,Hangzhou 310027,China)Abstract Acco rding to the hierarchical principle,a cla ssificatio n m ethod is presented based on the co mbinatio n o f ro ugh set theo ry and BP neural netw ork.In a decision ta ble,the discrete and co ntinue a ttributes are pro-cessed with roug h sets and BP neural netwo rk respectiv ely,w hich ca n av oid the uncertainty caused in the dis-cretiza tion o f the co ntinuous a ttributes.In additio n,ro ugh sets is high sensitiv ity to the noise in the decisio n table,this w eakness can be counterbalance by BP neural netwo rk.The test to3public databases v alidates the classifica tion m ethod.Key words Decision-making system Rough set th eo ry BP neural netw o rk1 引 言粗糙集理论是波兰数学家Z.Paw lak在1982年提出的。
它的重要特点是具有很强的定性分析能力,可以直接从给定问题的描述集合出发,通过不可分辨关系和不可分辨类确定给定问题的近似域,从而得到该问题的内在规律[1]。
粗糙集理论同神经网络、模糊理论和证据理论等其他不确定性计算理论,已广泛应用于数据挖掘、信息融合、决策分析和决策支持、模式识别、机器学习、故障诊断和控制算法获取等各种应用领域[2]。
对决策系统中普遍存在的不确定和不完备情况的处理是粗糙集理论的重要研究方向之一。
从粗糙集理论来说,不确定性的存在是因为决策系统中不可分辨的对象却具有可分辨的决策属性。
造成不确定性的原因有多种,其中值得注意的是,粗糙集理论对决策表的处理过程就可能导致决策表中出现不确定情况。
最常见的有两种:①在决策表中,如果连续条件属性的离散化较粗,则可能导致决策表出现不确定情况;②在决策表中,不完备属性用默认值替代法[3]或扩展法[3]处理可能产生的不确定情况。
另外,由于粗糙集对对象噪声比较敏感。
决策表中不完备对象的完备化处理会导致粗糙集约简结果变差;不完备被分类对象的完备化处理也会使粗糙集简约的分类性能降低。
本文针对以上的不确定和不完备情况,根据分层递阶的原则,提出一种将粗糙集理论与BP神经网络相结合的算法,分别用粗糙集理论和BP神经网络处第24卷第1期 仪 器 仪 表 学 报 2003年2月本文于2001年7月收到。
2000年国防科技预研跨行业基金项目资助(No.J16.6.3)。
理决策表中的离散属性和连续属性,可以避免对象连续属性离散化产生不确定的情况。
同时,粗糙集对于决策表中的噪声较敏感,BP神经网络可以克服这个缺点。
2 粗糙集理论2.1 决策系统定义1 信息系统S=(U,A,{V a},a)是一个四元组,其中U是非空有限集合,称为论域;A是非空有限集合,称为属性集合;V a是属性a∈A的值域;a:U →V a为一单射,使论域U中的任一元素取属性a在V a中的某一唯一值。
若A由条件属性集合C和结论属性集合D组成,C和D满足,C∪D=A,C∩D=Υ,则称S为决策系统,常用(U,C∪D)表示;当结论属性集合只有一个元素时,也常用(U,C∪{d})表示[4]。
定义2 对决策系统(U,C∪{d}),B C是条件属性集合的子集,称二元关系IND(B,{d})= {(x,y)∈U×U|d(x)=d(y)或者a∈B,a(x)=a(y)}为不可分辨关系,其中,x,y为U中的元素。
常用IND(B)表示不可分辨关系IND(B,{d})[4]。
2.2 粗糙集定义3 对于信息系统S=(U,A,{V a},a),设B A,X U,称BX={x∈U|[x]IN D(B)X},BX={x∈U|[x]IND(B)∩X≠Υ}分别为X的B-下近似和B-上近似。
PO S B(X)=B X,N EG B(X)=U-B X,BN B(X)= BX-BX分别称为X在B下的正域、负域和边界[4]。
定义4 μB(x,X)=ca rd([x]I N D(B)∩X) ca rd([x]IN D(B))为元素x对集合X的粗糙隶属函数,其中card(.)表示取集合中元素的个数[4]。
2.3 简约定义5 对于一个给定的决策系统(U,C∪{d}),条件属性集合C的简约是C的一个非空子集C′,它满足:·IND(C′,{d})=IN D(C,{d});·不存在C"C′,使IN D(C",{d})=IN D(C, {d});C的所有简约的集合记作S REC(C)。
C的所有简约的交集为核,记做S CO RE(C),S CORE(C)=∩S REC(C)[4]。
定义6 对于决策系统(U,C∪{d}),不可分辨关系IND(C)将U划分为t个不可分辨类,X1,X2,…, X t。
令D(X i)为X i的所有结论属性d的取值集合,即D(X i)={v=d(x):x∈X i},如果D([X i]I N D(C-{a}))=D(X i),则条件属性a∈C称为不可分辨类X i的相对冗余属性,否则称为不可分辨类X i的相对非冗余属性;若a∈C′,C′C,a为C的相对非冗余属性,则称C′为不可分辨类X i的相对简约。
X i的所有相对简约的集合记作S REC(C,X i),S CORE(C,X i)=∩S REC(C,X i)称相对于X i的核[4]。
3 粗糙集与神经网络粗糙集理论和BP神经网络作为不确定性计算的两种重要算法,它们具有很多共同优点。
例如,它们都可以处理不确定和不精确信息;它们都不依赖于数学模型,即其输入与输出之间的关系都不是以数学函数描述的;它们都是基于样本(对象)学习的;等等。
粗糙集理论和BP神经网络的区别主要存在于它们对样本的利用方式和对样本输入输出之间关系的表达方式。
1)BP神经网络是一个非线性动态系统,其输入输出之间的关联信息分布存储于连接权中;而粗糙集输入输出之间的关联信息存储于决策表中;2)BP神经网络输入输出之间的关系映射是基于数据样本点的非线性映射;而粗糙集理论是在条件属性C和决策属性D之间建立映射关系;3)BP神经网络训练时,计算量大,计算内容包括相乘,相加和指数运算,训练时间长,在有些情况下学习算法甚至不能收敛;粗糙集理论的计算量相对较小,计算内容为比较和逻辑操作,计算量相对很小;4)粗糙集理论应用时,其简约对决策表中的对象噪声非常敏感;而BP神经网络却可以很好地适应学习样本噪声。
从粗糙集理论和BP神经网络的比较可以看出,这两种不确定性计算的特性具有较好的互补性。
目前文献中常用的结合方法有以下四种:1)文献[5]中,利用粗糙集对神经网络训练样本进行属性约简和属性值域约简。
一方面,可以简化神经网络的训练样本;另一方面,可以简化神经网络的结构,从而将神经网络的训练速度提高 4.72倍;2)文献[6]中,首先利用粗糙集从决策表中提取规则,然后构架与粗糙集可以相互转换的神经网络,两种方法结合使用后,分类效果得到增强;3)文献[7]中,根据粗糙集理论中的置信度定义确定神经网络训练样本对决策表中各类别的置信度,使神经网络的结构由单个分类输出变为多个分类输出,从而提高神经网络对不确定对象的分类能力。
32仪 器 仪 表 学 报 第24卷 4)文献[8]中,提出一种根据粗糙集理论进行BP 神经网络设计的方法,结合粗糙集理论的定性分析能力和BP网络的逼近能力,得到一种可理解性好,计算简单,收敛速度快的神经网络模型。
4 基于粗糙集理论和BP神经网络的分层递阶分类算法 知识是有粒度和有层次的,不同层次的知识具有不同的粒度[9]。
一般地,在作为知识系统的决策表中,其定性的离散属性对应知识的较浅层次和较粗粒度;而其定量的连续属性则对应知识的较深层次和较细粒度。
人类智能的显著特点是可以遵循分层递阶的原则,有步骤、有层次地完成对事物从定性到定量的观测过程。
通常,人类首先对研究对象进行定性观察,试着得到定性的观察结论;否则,就再作进一步的定量测量,试着得到更深层次上的结论。
逐次递推,就可以较小的代价和有限的知识,在问题的各个层次上都做出比较满意的决策。
其中,对不确定和不完备情况通常在问题的较深层次处理。
4.1 算 法模仿人类智能,根据分层递阶的原则可以将决策系统中的条件属性分成离散和连续两种。
对离散条件属性构成的首层决策系统进行粗糙集约简,而对利用首层简约分类的包含连续条件属性的多个次层决策系统采用BP神经网络处理。
算法步骤如下:1)数据准备 在原始数据库中,确定条件属性和结论属性集合。
得到决策表形式的决策系统,记作(U,C∪{d})。
2)属性分层 将条件属性分为离散属性C1和连续属性C2两类,并且:C1∪C2=C,C1∩C2=Υ选择各属性的值域,采用默认值替代法处理不完备情况,即对离散属性C1,用属性出现频率最高的值作为默认值替代不完备值;对连续属性C2,用属性的平均值作为缺省值替代不完备值[10]。
3)首层决策系统 以离散条件属性C1和决策属性d构成首层决策系统,对决策表中的不相容情况,可以将决策属性以{d}的子集表示,记作(U1,C1∪{d1}), U1=U。