基于粗糙集的符号与数值属性的快速约简算法
- 格式:pdf
- 大小:198.43 KB
- 文档页数:5
粗糙集理论的使用方法与步骤详解引言:粗糙集理论是一种用来处理不确定性和模糊性问题的数学工具,它在数据分析和决策支持系统中得到了广泛的应用。
本文将详细介绍粗糙集理论的使用方法与步骤,帮助读者更好地理解和应用这一理论。
一、粗糙集理论概述粗糙集理论是由波兰学者Pawlak于1982年提出的,它是一种基于近似和粗糙程度的数学理论。
粗糙集理论的核心思想是通过对属性间的关系进行分析,识别出数据集中的重要特征和规律。
它主要包括近似集、正域、决策表等概念。
二、粗糙集理论的使用方法1. 数据预处理在使用粗糙集理论之前,首先需要对原始数据进行预处理。
这包括数据清洗、数据变换和数据归一化等步骤,以确保数据的准确性和一致性。
2. 构建决策表决策表是粗糙集理论中的重要概念,它由属性和决策构成。
构建决策表时,需要确定属性集和决策集,并将其表示为一个矩阵。
属性集包括原始数据中的各个属性,而决策集则是属性的决策结果。
3. 确定正域正域是指满足某一条件的样本集合,它是粗糙集理论中的关键概念。
通过对决策表进行分析,可以确定正域,即满足给定条件的样本集合。
正域的确定可以通过计算属性的约简度或者使用启发式算法等方法。
4. 近似集的计算近似集是粗糙集理论中的核心概念,它是指属性集在正域中的近似表示。
通过计算属性集在正域中的近似集,可以确定属性之间的关系和重要程度。
近似集的计算可以使用不同的算法,如基于粒计算、基于覆盖算法等。
5. 属性约简属性约简是粗糙集理论中的一个重要问题,它是指从属性集中选择出最小的子集,保持属性集在正域中的近似表示不变。
属性约简的目标是减少属性集的复杂性,提高数据分析和决策的效率。
属性约简可以通过计算属性的重要度、使用启发式算法或者遗传算法等方法实现。
6. 决策规则的提取决策规则是粗糙集理论中的重要结果,它是从决策表中提取出来的一组条件和决策的组合。
决策规则可以帮助我们理解数据集中的规律和特征,从而做出更好的决策。
一种高效的粗糙集属性约简算法【摘要】本文将递归和贪心算法的思想融入粗糙集理论的快速属性约简中,提出了一种较为高效的粗糙集属性约简算法。
该算法在保证约简质量的情况下,较大的提高属性约简的效率,实验仿真结果说明了该算法的高效性。
【关键词】粗糙集;属性核;属性约简;递归;贪心算法引言属性约简是粗糙集理论的一个重要研究内容,目前已经提出了许多经典的属性约简算法[1—6]。
得到决策表的最小约简是一个np 难题,现有的算法大多是以属性重要性为启发性知识得到一个相对约简。
文[1,2]给出了基于属性重要性的属性约简算法和归纳属性约简算法。
文[3,4]给出了基于信息熵的约简算法。
文[5]一种基于快速排序的属性约简算法。
文献[6]给出了一种基于蚁群优化的属性约简算法。
文献[7]给出了一种基于克隆选择的属性约简算法。
然而这些算法的时空复杂度都比较高,对于大数据的处理能力还不足。
本章结合递归的思想,将大数据集转化为多个小数据集来计算属性核,然后在利用贪心算法的思想进行属性约简,从而有效的提高了属性约简算法的运行效率。
1 相关概念以下将粗糙集属性约简的相关概念作简单介绍。
2 基于递归和贪心算法思想的快速属性约简算法本文中提出的属性约简算法首先计算属性核,然后在属性核的基础上采用贪心算法的思想进行属性约简。
首先给出递归思想计算属性核的理论基础。
3 仿真实验windows环境下采用vc6.0开发工具在个人计算机(windowsxp,cpu:p4 2.6,内存512)上进行实验仿真。
4 结束语理论证明得到决策表的最小属性约简是np难题。
本文综合利用递归和贪心算法的思想提出了一种较为高效的相对属性约简算法。
如何进一步提高该算法的效率是下一步研究的重点。
【参考文献】[1]王国胤.rough集理论与知识获取[m].西安交通大学出版社,2001.[2]x h hu, n cercone. learning in relational database:a rough set approach[j]. international. journal. of computational intelligence,1995,11(2):323—338.[3]王国胤,于洪,杨大春.基于条件信息熵的决策表约简[j].计算机学报,2002,25(7):759—766.[4]沈永红,王发兴.基于信息熵的粗糙集属性离散化方法及应用[j].计算机工程与应用,2008,05(8):221—224.[5]刘少辉,盛球戬,吴斌,等.rough集理论高效算法的研究[j].计算机学报,2003,5(26):524—529.[6]孙涛,蒋科艺,等.一种基于蚁群优化的粗糙集属性约简方法[j].海军工程学院学报,2011,11(1):324—327.[7]梁霖,徐光华.基于克隆选择的粗糙集属性约简方法[j].西安交通大学学报,2005,11(39):464—469.[责任编辑:王迎迎]。
一种基于模糊粗糙集的快速特征选择算法张晓;杨燕燕【摘要】模糊粗糙集由于能够处理实数值数据,甚至是混合值数据中的不确定性受到人们的广泛关注,其最重要的应用之一是特征选择,相关的特征选择方法已有不少研究,但其快速的特征选择算法研究很少.实际中的数据一般含有噪声点或信息含量低的样例,如果对数据集先筛选出代表样例,再对筛选的样例集进行数据挖掘便会降低挖掘计算量.本文基于模糊粗糙集,先根据样例的模糊下近似值对样例进行筛选,然后利用筛选样例的模糊粗糙信息熵构造特征选择的评估度量,并给出相应的特征选择算法,从而降低了算法的计算复杂度.数值试验表明该快速算法具有有效性,并且对控制筛选样例个数的参数给出了建议.【期刊名称】《数据采集与处理》【年(卷),期】2019(034)003【总页数】10页(P538-547)【关键词】模糊粗糙集;样例选择;特征选择;信息熵【作者】张晓;杨燕燕【作者单位】西安理工大学应用数学系,西安,710048;清华大学自动化系,北京,100084【正文语种】中文【中图分类】TP18引言经典的粗糙集理论[1]是由波兰数学家Pawlak在1982年提出的,它是一种处理数据中的不确定性的有效工具,然而经典粗糙集只能处理符号值(名义值)的数据。
模糊粗糙集[2]作为经典粗糙集的最重要的推广之一,可以用来处理实数值甚至是混合值的数据。
目前,模糊粗糙集已经成功应用于机器学习和数据挖掘领域[3],其最受人们关注的应用之一就是特征选择(属性约简)。
关于模糊粗糙集特征选择的研究工作已存在不少[4-10],但其快速的特征选择算法的研究还很少,据作者所知,仅文献[11]在特征选择算法迭代步骤提供了加速策略,从而减少了算法的计算时间。
实际中的数据一般包含信息量较低的样例或噪声点,如果对样例进行筛选,利用筛选得到的样例进行挖掘知识将会减少计算的复杂度。
文献[12]提供了3种样例选择的启发式算法,其中之一的算法思想即选择隶属模糊正域的值不小于给定阈值的那些样例。
粗糙集属性约简的方法ComputerEngineeringandApplica~ons计算机工程与应用◎数据库,信号与信息处理@粗糙集属性约简的方法王培吉,赵玉琳27吕剑峰W ANGPeiii,ZHAOYulin,LVJianfeng1内蒙古科技大学数理与生物工程学院,内蒙古包头0140102内蒙古第一机械集团公司二分公司,内蒙古包头0140321.SchoolofMath.,Physics&BiologicalEng.,InnerMongoliaUniversityofSciencean dTechnology,Baotou,NeiMongol014010,China2.Branch2,InnerMongoliaFirstMachineryGroupCorporation,Baotou,NeiMongol01403 2,ChinaW ANGPeiji,ZHAOYulin,LVJianfeng.Newmethodofattributereductionbasedonroughse puterEngineeringandAp—plications,2012,48(2):113—115.Abstract:Objectsclassificationisstrictexcessivelyandtoosensitiveonnoise.Aimingatdeci sionsystemwithuncertainfactor.anal? gorithmofattributereductionbasedondependabilityisestablished.Theattributesinthesyste mwithuncertaininformationandnoisedataarereduced,wherebyfindingareducibleimpliedpatternofthedata,anddeletingthosere dundantrulesinthesystem.Anditcan keeptheoriginalpropertiesandfunctionsofthesystem.Theimplementationofalgorithmisd escribedbyintroducinganexample.Keywords:roughset;dependability;attributereduction;implementation摘要:传统粗糙集分类方法过于严格,对噪音过分敏感.针对带不确定因子决策系统,提出一种基于属性依赖度的约简算法,使含不确定信息及数据噪音的系统中的属性得以简化,找到一种具有广泛表达能力的数据隐含格式,删去冗余的规则,并保持系统的原有用途和性能.通过一个例子实现了该算法.关键词:粗糙集;依赖度;属性约简DOI:10.3778/j.issn.1002—8331.2012.02.032文章编号:1002.8331(2012)02.0113.03文献标识码:A中图分类号:TP311基于粗糙集理论】的知识获取的核心问题之一是属性约简,有很多学者作了这方面的工作,其中应用较多的是基于辨识矩阵以及在此基础上的一些改进算法1.一般说来,知识库中的知识(属性)并不是同等重要的,还存在冗余,这不利于做出正确而简洁的决策.属性约简要求在保持知识库的分类和决策能力不变的条件下,删除不相关或不重要的属性.一般而言,较优的属性约简有如下指标:约简后属性个数较少;约简后规则数目较少;最终范化规则数目较少等.已证明求决策表所有约简和最小约简是一个典型的NP嘲问题,不过,在实际应用中,往往只要求出某种次优的属性约简就可以了.传统粗糙集分类方法过于严格,以及数据中存在噪音,造成知识的遗漏.如:条件属性下的两个等价类.,,分别有100个元素,对决策属性等价类,,只有一个元素属于,而,只有一个元素不属于,基于传统的粗糙集模式,,,同属于的边界区,对都不能作出肯定的判断,然而A,中只有一个元素不属于,也许是由噪音导致的,说明传统粗糙集对噪音是非常敏感的,而在机器学习,专家系统等实际应用中,获得的数据含有噪音是不可避免的,因此传统粗糙集模式在一定程度上限制了它更有效的应用,本文提出的针对带不确定因子决策系统的分类方法可将原来由于噪音的影响,被划到边界的等价类划回到正区(如上面的,)或负区(如上面的),克服了粗糙集对噪音过分敏感的缺点,使在有噪音的环境下获得的知识更可靠.1带不确定因子决策系统定义1称=fU,CUD,{},,imp}为带不确定因子的决策系统,记为S,D=},d是带不确定因子(0<-I.t1)的结论属性,=1表示该元素对结论有完全肯定的判断,即该元素所在等价类属于结论属性的正区POSB(D),=0表示该元素对结论有完全否定的判断,即该元素所在等价类属于结论属性的负区NEG09);imp是中元素在中的重要度,体现元素在中的重要性./1,imp由领域知识及数据库操作得到.如表1为一带不确定因子的决策系统.表1带不确定因子的决策系统075O.67O-350750.670_35表1中U={1,2,3,4,5,6),条件属性集C={日1,口2),1={1,2),2={1,2,3),决策属性D={,={1,2,3),每一元素的重要度imp={4,3,4,4,3,4},及不确定因子={O.75,0.67,0.35,0.75,0.67,0.35}.基金项目:国家自然科学基金(No.81060238).作者简介:王培吉(1968一),男,副教授,主要研究领域为数据库,数据挖掘;赵玉琳(1968一),男,高级工程师;吕剑峰(1984_),男,助教.E-mail:*************收稿日期:2011-01.24;修回日期:2011-04.26;CNKI出版:2011-07—25;/kcms/detail/11.2127.TP.20110725.1624.020.html ComputerEngineeringandApplications计算机工程与应用2属性依赖度与属性约筒2.1属性依赖度定义2在S中,BcC,,YcU/B且处于边界,划POSB(D):rflJY;~IJ)kNEG口(D)的误差p()和,l(】,)分别定义为: ):—Z—(impi_x(1一-,ui))厶l州,,?(y):—~.,(im_Pixiai)乙Ilnl划入正区和y划入负区的误差水平分别记为,.即:p()P时,XcPOSB(D);n(】,)≤Ⅳ时,YcNEG口(D●.定义3对,在误差水平为和下,结论屙陛d对条件属性集合C依赖度Dep(C,D,,)是U/C被划入正区POSc(D)和Y划入负区NEG(D)中元素重要度的和与所有元素重要度之比.2.2属性约简定义4在中,误差水平为P和,BC,a∈B,Dep(B,D,,Ⅳ)=Dep(B-{a},D,,aN),称a为B中可省略的,否则a为当中不可省略的;当所有a∈B在中不可省略的,且Dep(B,D,,Ⅳ)=Dep(C,D,,Ⅳ),即D对B,C有相同的依赖度,则是c的一个约简u.定义5在S中U/C={,,…,},称)为的辨识矩阵,其中,"一C:a(X)~a(Xj),D()≠D()}1,其他'其中l≤f,j<t.m包含使得,具有不同结论属性值的所有属性.称/=,vm为S的分辨函数,其中V表示m中所有属性的析取运算,^表示合取运算.如果一个属性在信息系统中是可省略的,删除此属性并不影响信息系统的依赖关系,且能与c一样分辨所有元素的属性子集,但这样的约简不是唯一的,co~(c1表示C的所有约简的交集.核.表1表示的带不确定因子信息系统中P=0.3,=0.6条件属性C的等价类:={l}={2}={3}={4}={5}={6}由P()={{4×(1.0—0.75)j=0.25P()={{3x(1.0—0.67)}=0.33P()={4×(1.0~o.75)}:0.25P()={{3×(i.0一o.67)}:0.33Ⅳ()={4×0_35))=0.35Ⅳ(x6):{4×0_35)}=0.35及P=0.3,Ⅳ=0.6得P(D):{,(D):{,}BND(D)={,}DEP(C,D,P,Ⅳ)=I-(4+4+4+4)=0.73等价类,划回到正区,等价类,划回到负区;而用传统粗糙集进行分类,它们却都属于边界类,造成了知识的遗漏和偏差.3基于属性依赖度的属性约简算法步骤1根据挖掘目标,选取一屙l生为结论屙陛,其余为条件属性;对数据进行归纳,形成宜于实施挖掘的数据形式,同时,结合统计结果及领域知识为每一对象赋一重要度imp及不确定因子,形成带不确定因子的决策系统=(£,,CUD, {},imp).步骤2由及不可分辨关系形成条件属性等价类和结论属性等价类,对处于边界的等价类,根据,imp及和划入正区和负区,由新的等价类形成可辨识矩阵.步骤3由可辨识矩阵找出该不可分辨关系的核B=COl~(C).步骤4C=C—B.步骤5对每一属性a∈C,计算Dep(BU{a},D,,,)一Dep(B,D,P,Ⅳ)并按降序排列C.步骤6DoJl[~序取a∈C,B=BU{a},C=C一{a}计算Dep(B,D,p,Ⅳ)UntilDep(B,D,P,Ⅳ)=Dep(C,D,dP,Ⅳ)步骤7For/=1to1B1Do如果a诺co~(c),则B:-{a}若Dep(B,D,,ON)~:Dep(C,D,P,Ⅳ)则B=BU{a.1.步骤8得条件属性c的约简为子集B.步骤9由约简简化带不确定因子的决策系统,形成由约简属性集为条件属性的决策系统S=,BU{d}).步骤10合并相同和相近元素(若结论相同,条件中仅有一项不同,则该项对该结论无关紧要).步骤11知识表示.4实例分析决策系统=,CU{d}),按结论属性d排序,为每一对象赋一重要度imp及不确定因子(如可将条件属性下每一等价类元素个数作为该对象的重要度imp),得到带不确定凶子的决策系统=(,CUD,{}c,,imp),见表2.由表2得条件属性C的等价类为={1),:{2}1={3},={4},={5,12},:{6j,={7,9},={8},=flo},Xl.:{1l},={13},:={14,15}.合并等价类得表3,进而得辨识矩阵(见表4).由可辨识矩阵得COl~(C)={a3}.:CORE(C)={a3),C={Ⅱ1,a2,a4,a5}.对每一属性a∈C,计算Dep(BU{aD,,).王培吉,赵玉琳,吕剑峰:粗糙集属性约简的方法2012,48(2)115 表2带不确定因子的决策系统表3=U,CUD,{)Ⅲ,,帅)表4辨识矩阵910l1a2a4a2a3a5ala2a3a5a2a4a2a3a5ala2a3a5a2a4a2a3a4a5dla2a3a4a5a2a4a2a3a4a5ala2a3a4a5ala4a5ala3a4a5a3a4a5a1a2a4ala2a3a4a5a1a2a3a4a5a2a4a5a2a3a4ala2a3a4a2a3a4a2a3a4a5ala2a3a4a5a3a4a2a3a4a3a2a3ala2a3a5ala3a3a5由条件属性co~(c)U{al}的等价类为={1,5,6,7,8,9,12,13},={2},={3),:{4,10},={14,15}及)=(1×(1—0.6)×2+2×(1—0.9)×4+1×(1—0.8)+l×(1—0.9))/12=0.158,z()=(1×0.6×2+2×0.9×4+1×0.8+1×0.9)/12=0.842 p(x2)p(X3)1×(1—0.9)/1=0.1n()n(X3)1x0.9/1=0.9P(X4)=(1×(1—0.9)+1×(1—0.8))/2=0.15H()=(1×0.9+1×0.8)/2=O.85)(2×(1—1)+2×(1—1))/4=0n(Xs)=f2×1+2x1)/4=l得正区等价类为={2)={3)x4={4,10}={14,15};边界等价类为={1,5,6,7,8,9,12,13).这样Dep(CORE(C)U1}, D,P,Ⅳ)=9/21.同理可得:Dep(CORE(C)U{a2},D,P,Ⅳ)=21/21Dep(CORE(C)[J{a4},D,,Ⅳ)=19/21Dep(CORE(COU{a5},D,P,Ⅳ):9/21按依赖度降序排列C={a2,a4,al,a5}B=cD衄(c)U{a2}:{a2,a3}Dep(B,D,P,Ⅳ)=21/21B=曰U{a4)={a2,a3,a4}可求得:Dep(B,D,,Ⅳ)=19/21a2硭CORE(C),贝0B=B-{a2)={a3,a4)又Del~B,D, P,Ⅳ)=19/21DIC,D,P,aN).这样,求得条件属性c的约简为子集B={a3,a4,.由约简B={口3,a4},表3简化为表5.=3对应的五:a3=3,a4=2及五:a3=3,a4=3中仅有口4的值不同,将对应的a4值去掉合并墨,化为表6.表5决策系统"=",BU{d})表6决策系统=,BU{d})知识表示:{(口3=3)^(a4=1)}v{(a3=2)^(a4=2)}(=2)(a3=3)=3)(a3=4)^(a4=3)=4)5结束语本文针对带不确定因子决策系统,提出了一种基于属性依赖度的属性约简算法,本算法能从属性集合中有效去除冗余属性,使属性选择的结果更合理,数据噪音的影响更小,获得的知识更可靠.在大部分情况下本算法都能快速有效地找到属性子集的最优解或令人满意的次优解.(下转129页)m56789m¨刘兴阳,毛力:基于f分布变异的自适应差分进化算法2o12,48(2)129进化代数进化代数进化代数进化代数图1sphere函数寻优曲线对比图2R0senbr0ck函数寻优曲线对比图3Griewallk函数寻优曲线对比图4Ackley函数寻优曲线对比表1三种算法寻优结果比较5结论本文提出一种基于f分布变异算子的自适应差分进化算法:其一在变异过程中使用f分布变异算子有效地将高斯变异和柯西变异进行结合;其二根据进化的不同阶段,提出新的自适应方式来调节进化策略及交叉概率.通过采用四个典型测试函数对新算法进行测试,实验结果表明本文提出的改进算法具有较好的全局探索能力和局部开发能力.参考文献:[1】StornR,PriceK.Differentialevolution-asimpleandefficient heuristicforglobaloptimizationovercontinuousspaces[J].Jour- nalofGlobalOptimization,1997,11(4):341—359.【2]ZhangM,LuoW,WangXF.Differentialevolutionwithdynamic stochasticselectionforconstrainedoptimization[J].Information Sciences,2008,178(15):3043.3074.【3]3唐德翠,朱学峰.改进差分进化PID参数优化及在凝絮中的应用[j]. 计算机工程与应用,2009,45(24):204.206.[4】MaulikU,SahaI.Modifieddifferentialevolutionbasedfuzzy clusteringforpixelclassificationinremotesensingimagery[J]. PaaemRecognition,2009,42(9):2135-2149.【5】RahnamayanS,TizhooshHR,SalamaMMA.Opposition-based differentialevolution[J].IEEEComputationalIntelligenceSociety,2008,12(1):64—79.[6】潭跃,谭冠政,伍雪冬.基于交叉变异策略的双种群差分进化算法[J]. 计算机工程与应用,2010,46(18):9-12.[7】DasS,AbrahamA,ChakrabortyUK.Differentialevolutionusing aneighborhood—basedmutationoperator[J].IEEETransactions onEvolutionaryComputation,2009,13(3):526.553.【8】LanKuo-Tong,LanChun-Hsitmg.NotesonthedislinctionofGaussian andCauchymutations[C]//EighthInternationalConferenceonIn. telligentSystemsDesignandApplications,2008:272-277.[9】Y aoX,LiuY,LinG.Evolutinaryprogrammingmadefaster[J].IEEE TransactionsonEvolutionaryComputation,1999,3(2):82—102.【1O】周方俊,王向军,张民.基于t分布变异的进化规划【J].电子, 2008,36(4):667.671.(da接l15页)参考文献:【1】PawlakZ.Roughset[J].InterofComputerandInformationSci- ences,1982,11.【2】刘清,刘少辉,郑非.Rough逻辑及其在数据挖掘中的应用【J】.软件,2001,12(3):415—419.【3】刘银山,吴孟达,王丹.粗糙集中求取所有最小约简快速算法【J].计算机工程与科学,2007,29(I):97—100.[4】苗夺谦,胡桂荣.知识约简的一种启发式算法[J】.计算机研究与发展,1999,36(6):681.684.【51HuXiaohua,CerconeN.Learninginrelationaldatabases:a roughsetapproach[J].ComputationalIntelligence,1995,11(2):323.337.[6]胡或,李智玲,李春伟.一种基于区分矩阵的属性约简算法[J].计算机工程与应用,2007,43(9):178.181.[7】黄治国,王端.基于粗糙集的数据约简方法研究[J】.计算机工程与设计,2009,30(18).【8】WongSK,ZiarkoW.Onoptimaldecisionrulesindecisionta-bles[J].BulletinofPolishAcademyofScience,1985,33:693-696.(上接123页)【7】ZhuZhengyu,XuJingqiu,RenXiang,eta1.QueryExpansionBased onaPersonalizedWebsearchmodel[C]//ThirdInternationalCon- ferenceonSemantics,KnowledgeandGrid,2007:128—133.【8】ZhuZhengyu,ZhouZhi,YuChunlei.Aquantizedanalyzingmethod forfindingauser'sinterestedwebpagesbasedontheuser's browsingactionsandquerywords[C]//InternationalConference onWebInformationSystemsandMining,2009.【9】ZhuZhengyu,TianYunyan,YuanKunfeng,eta1.Animproved Webdocumentsclausteringmethord[J].JournalofComputational InformationSystems,2007,3(3):1087—1094.[10】蒋萍.基于用户兴趣挖掘的个性化模型研究与设计[D].苏州大学, 2005:39-40.[11】张敏,宋睿华,马少平.基于语义关系查询扩展的文档重构方法[J].计算机,2004(10).【l2】瞿瑞彩,谢伟松.数值分析【M】.天津:天津大学出版社,2001:2-3. [13】LovicS,LuMeiliu,ZhangDu.Enhancingsearchengineperfor- manceusingexpertsystems,informationreuseandintegration[C]g IEEEIntema~IonalConferenceonSept2006:567.572.^趔卿籁闺。
粗糙集理论及其应用发展一、粗糙集的产生与发展粗糙集(Roughsets)理论是由波兰数学家Z. Pawlak在1982年提出的,该理论是一种刻画不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。
1992年至今,每年都召开以RS为主题的国际会议,推动了RS理论的拓展和应用。
国际上成立了粗糙集学术研究会,参加的成员来自波兰、美国、加拿大、日本、挪威、俄罗斯、乌克兰和印度等国家。
目前,粗糙集这一新的数学理论已经成为信息科学领域的研究热点之一,它在机器学习、知识获取、决策分析、过程控制等许多领域得到了广泛的应用。
粗糙集首先从新的视角对知识进行了定义。
把知识看作是关于论域的划分,从而认为知识是具有粒度〔granularity〕的。
认为知识的不精确性是由知识粒度太大引起的。
为处理数据〔特别是带噪声、不精确或不完全数据〕分类问题提供了一套严密的数学工具,使得对知识能够进行严密的分析和操作。
又由于数据挖掘的深入研究和一些成功的商业运作,使得粗糙集理论和数据挖掘有了天然的联系,粗糙集在知识上的定义、属性约简、规则提取等理论,使得数据库上的数据挖掘有了深刻理论基础,从而为数据挖掘提供了一种崭新的工具。
粗糙集不仅自己可以独特的挖掘知识,而且可以和其他的数据挖掘算法结合起来,从而产生了学多混合数据挖掘算法,大大开拓了数据挖掘的算法和技术,丰富了数据挖掘的工具。
除了研究,人们也在积极寻找粗糙集在数据挖掘中的应用,如RSES系统,该系统是基于粗糙集理论上研制的数据挖掘系统,里面提供了粗糙集的属性约简算法和规则提取,可以找到最佳约简集和近似约简集,并可以提出规则。
另外,还有,Regina大学开发的KDD-R系统,被广泛用于医疗诊断、电信业等领域。
还有美国Kansas大学开发的LERS(Learningfrom Examples based on RS)系统,在医疗诊断、社区规划、全球气象研究等方面都有应用。