粗糙集理论及其发展
- 格式:doc
- 大小:18.00 KB
- 文档页数:4
粗糙集理论的实际应用场景粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它在现实生活中有着广泛的应用场景。
本文将探讨粗糙集理论在数据挖掘、医学诊断和金融风险评估等领域的实际应用。
数据挖掘是当今信息时代的热门领域,而粗糙集理论在数据挖掘中发挥着重要作用。
通过粗糙集理论,我们可以从大量的数据中提取出有用的信息和规律。
例如,在市场营销中,企业可以利用粗糙集理论分析消费者的购买行为和偏好,从而制定更精准的营销策略。
此外,粗糙集理论还可以应用于图像识别、语音识别等领域,帮助计算机更好地理解和处理复杂的信息。
医学诊断是另一个粗糙集理论的重要应用领域。
在医学诊断中,患者的病情常常是复杂和模糊的,而粗糙集理论可以帮助医生进行更准确的诊断。
通过将患者的病情和症状进行模糊化处理,然后利用粗糙集理论进行分类和判断,医生可以更好地了解患者的病情和病因,并制定出更科学的治疗方案。
此外,粗糙集理论还可以应用于医学图像分析、基因识别等领域,帮助医生更好地理解和分析医学数据。
金融风险评估是金融领域中一个重要的应用场景。
在金融市场中,风险是无处不在的,而粗糙集理论可以帮助金融机构更好地评估和管理风险。
通过对金融数据进行模糊化处理,然后利用粗糙集理论进行分类和分析,金融机构可以更准确地评估不同投资产品的风险水平,并采取相应的风险控制措施。
此外,粗糙集理论还可以应用于信用评级、投资组合优化等领域,帮助金融机构更好地进行风险管理和决策。
除了上述应用场景,粗糙集理论还可以在许多其他领域发挥作用。
例如,在工程设计中,粗糙集理论可以帮助工程师更好地分析和处理不确定性因素,从而提高设计的可靠性和稳定性。
在城市规划中,粗糙集理论可以帮助城市规划师更好地理解和分析城市的发展趋势和需求,从而制定更科学和合理的规划方案。
在环境保护中,粗糙集理论可以帮助环保部门更好地评估和管理环境污染的风险和影响。
综上所述,粗糙集理论在数据挖掘、医学诊断、金融风险评估等领域有着广泛的应用。
粗糙集理论
粗糙集理论
1 粗糙集的基本概念
在粗糙集理论中,我们把知识看做是⼀种能被⽤于分类对象的能⼒。
其中对象可以代表现实世界中的任意事物,包括物品、属性、概念等。
即:知识需要同现实世界中特定环境的确定对象相关联,这⼀集合称为论域。
知识与概念
令U为包含若⼲对象的⾮空有限集,也即论域,在论域中,称任意集合为⼀个概念或范畴。
特别地,我们把空集也视为⼀个概念,称之为空概念。
⽽由任意个这样的X组成的⼦集簇形成了U中抽象知识,简称为知识。
知识库
在给定论域中,任意选择⼀个等价关系集R,我们可以得到⼀个⼆元组K=<U,R>,称这样的⼆元组视为⼀个知识库(近似空间)。
在论域中,任何等价关系都能导出⼀个对论域的划分,从⽽形成了⼀个知识库。
由此,每个知识库就能够与论域中的某个等价类⼀⼀对应。
不可分辨(不可区分/不分明)关系
在给定的论域U上,任意选择⼀个等价关系集R和R的⼦集,且,则P中所有等价关系的交集依然是论域U中的等价关系,称该等价关系为P 的不可分辨关系,记作IND(P)。
并且
:表⽰⾮空⼦族集所产⽣的不分明关系IND(P)的所有等价类关系的集合,⼜称该知识为知识库K=<U,R>中关于P-基本知识(P-基本集)集合的上下近似
上近似包含了所有那些可能是属于X的元素,下近似包含了所有使⽤知识R可确切分类到X的元素。
在给定的知识库K=<U,R>中,任意选择集合,可以定于X关于知识R的上下近似。
粗糙集理论及其应用综述3韩祯祥 张 琦 文福拴(浙江大学电机系・杭州,310027) 摘要:粗糙集理论是一种较新的软计算方法,可以有效地分析和处理不完备信息.该理论近年日益受到国际学术届的重视,已经在模式识别、机器学习、决策支持、过程控制、预测建模等许多科学与工程领域得到成功的应用.本文介绍了粗糙集理论的基本概念,对其在各领域的应用情况进行了综述.关键词:粗糙集;不确定性;数据分析;软计算;粗糙控制A Survey on R ough Set Theory and Its ApplicationHan Zhenxiang , Zhang Qi and Wen Fushuan(Department of E lectrical Engineering ,Zhejiang University ・Hangzhou ,310027,P.R.China )Abstract :R ough set theory is a relatively new s oft com putingtool to deal with vagueness and uncertainty.I t has received much attention of the researchers around the w orld.R ough set theory has been applied to many areas success fully including pattern recognition ,machine learning ,decision support ,process control and predictive m odeling.This paper introduces the basic concepts of rough set.A survey on its applicatoins is als o given.K ey w ords :rough set ;uncertainty ;data analysis ;s oft com puting ;rough control1 引言(Introduction )粗糙集(R ougn Set ,RS )理论是一种刻划不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律[1].RS 理论是由波兰学者Pawlak Z 在1982年[2]提出的.1991年Pawlak Z 出版了专著[3],系统全面地阐述了RS 理论,奠定了严密的数学基础.该书与1992年出版的RS 理论应用专集[4]较好地总结了这一时期RS 理论与实践的研究成果,促进了它的进一步发展,现已成为学习和应用RS 理论的重要文献.从1992年至今,每年都召开以RS 为主题的国际会议,推动了RS 理论的拓展和应用.国际上成立了粗糙集学术研究会,参加的成员来自波兰、美国、加拿大、日本、挪威、俄罗斯、乌克兰和印度等国家.目前RS 理论已成为人工智能领域中一个较新的学术热点,引起了越来越多的科研人员的关注.2 粗糙集理论的基本概念(Basic concepts of rough settheory )2.1 知识与不可分辨关系(K nowledge and indiscernibility rela 2tion )在RS 理论中,“知识”被认为一种将现实或抽象的对象进行分类的能力[3].假定我们具有关于论域的某种知识,并使用属性(attribute )及其值(value )来描述论域中的对象.例如:空间物体集合U 具有“颜色”、“形状”这两种属性,“颜色”的属性值取为红、黄、绿,“形状”的属性值取为方、圆、三角形.从离散数学的观点看,“颜色”、“形状”构成了U 上的一族等效关系(equivalent relation ).U 中的物体,按照“颜色”这一等效关系,可以划分为“红色的物体”、“黄色的物体”、“绿色的物体”等集合;按照“形状”这一等效关系,可以划分为“方的物体”、“圆的物体”、“三角形的物体”等集合;按照“颜色+形状”这一合成等效关系,又可以划分为“红色的圆物体”、“黄色的方物体”、“绿色的三角形物体”…等集合.如果两个物体同属于“红色的圆物体”这一集合,它们之间是不可分辨关系(indiscernibility relation ),因为描述它们的属性都是“红”和“圆”.不可分辨关系的概念是RS 理论的基石,它揭示出论域知识的颗粒状结构.2.2 粗糙集合的下逼近、上逼近、边界区和粗糙隶属函数(Lower and upper approximation of rough set ,boundary region and rough membership function )给定一个有限的非空集合U 称为论域,R 为U 上的一族等效关系.R 将U 划分为互不相交的基本等效类,二元对K=(U ,R )构成一个近似空间(approximation space ).设X 为U的一个子集,a 为U 中的一个对象,[a ]R 表示所有与a 不可分辨的对象所组成的集合,即由a 决定的等效类.当集合X 能表示成基本等效类组成的并集时,则称集合X 是可以精确定义的;否则,集合X 只能通过逼近的方式来刻划.集合X 关于R 的下逼近(lower approximation )定义为:R 3(X )={a ∈U :[a ]R ΑX}.(1)R 3(X )实际上是由那些根据已有知识判断肯定属于X 的对象所组成的最大的集合,也称为X 的正区(positive region ),记 3国家自然科学基金资助项目(59777011).本文于1997年9月3日收到.1998年11月18日收到修改稿.第16卷第2期1999年4月控制理论与应用CONTROL THEORY AND APPLICATIONS Vol.16,No.2Apr.,1999作POS (X ).由根据已有知识判断肯定不属于X 的对象组成的集合称为X 的负区(negative region ).记作NEG (X ).集合X 关于R 的上逼近(upper approximation )定义为R 3(X )={a∈U :[a ]R ∩X ≠ }.(2)R 3(X )是由所有与X 相交非空的等效类[a ]R 的并集,是那些可能属于X 的对象组成的最小集合.显然,R 3(X )+NEG (X )=论域U.集合X 的边界区(boundary region )定义为:BN (X )=R 3(X )-R 3(X ).(3)BN (X )为集合X 的上逼近与下逼近之差.如果BN (X )是空集,则称X 关于R 是清晰的(crisp );反之如果BN (X )不是空集,则称集合X 为关于R 的粗糙集(rough set ).图1为粗糙集概念的示意图.下逼近、上逼近及边界区等概念刻划了一个不能精确定义的集合的逼近特性.逼近精度定义为αR (X )=|R 3(X )||R 3(X )|.(4)式中|R 3(X )|表示集合R 3(X )的基数或势(cardinality ),对有限集合来说表示集合中所包含元素的个数.显然,0≤αR (X )≤1,如果αR (X )=1,则称集合X 相对于R 是清晰的;αR (X )<1,则称集合X 相对于R 是粗糙的.αR (X )可认为是在等效关系R 下逼近集合X 的精度.RS 理论中定义了粗糙隶属函数(rough membership func 2tion ).通过使用不可分辨关系,定义元素a 对集合X 的粗糙隶属函数如下μRX (a )=|X ∩[a ]R ||[a ]R |.(5)显然0≤μRX ≤1,粗糙隶属函数也可以用来定义集合X 的上、下逼近和边界区.现举例说明粗糙集的概念.论域U 及等效关系R ={R 1,R 2}采用如下定义:U ={x 1,x 2,x 3,x 4,x 5,x 6,x 7,x 8,x 9,x 10},U/R 1={{x 1,x 2,x 3,x 4},{x 5,x 6,x 7,x 8,x 9,x 10}},U/R 2={{x 1,x 2,x 3},{x 4,x 5,x 6,x 7},{x 8,x 9,x 10}},U/R ={{x 2,x 3},{x 4},{x 5,x 6,x 7},{x 8,x 9,x 10}}.则关于集合X ={x 1,x 2,x 3,x 4,x 5}的逼近为POS (X )={x 4},NEG (X )={x 8,x 9,x 10},BN (X )={x 1,x 2,x 3,x 5,x 6,x 7}.{x 4}是集合X 的正区,因为x 4肯定属于X ;{x 8,x 9,x 10}肯定不属于X ,因此为X 的负区;{x 1,x 2,x 3,x 5,x 6,x 7}是否属于X 在等效关系R 下无法确定,构成了X 的边界区.2.3 决策表、约简与核(Decision table ,reduct and core )RS 理论中应用决策表来描述论域中对象.它是一张二维表格,每一行描述一个对象,每一列描述对象的一种属性.属性分为条件属性和决策属性,论域中的对象根据条件属性的不同,被划分到具有不同决策属性的决策类.表1为一张决策表,论域U 有5个对象,编号1~5,{a ,b ,c}是条件属性集,d 为决策属性.对于分类来说,并非所有的条件属性都是必要的,有些是多余的,去除这些属性不会影响原来的分类效果.约简(reduct )定义为不含多余属性并保证分类正确的最小条件属性集.一个决策表可能同时存在几个约简,这些约简的交集定义为决策表的核(core ),核中的属性是影响分类的重要属性.表1化简后得到了两个约简:{a ,c}和{b ,c},见表2和表3.它们维持了与原有条件属性集{a ,b ,c}相同的分类能力.{c}是核,表明c 是影响分类的重要属性.表1 决策表T able 1 Decision tableUabcd110212210232123412215123表2 约简{a ,c}T able 2 Reduct {a ,c}Uacd112122023223513表3 约简{b ,c}T able 3 Reduct {b ,c}Ubcd10312102312342215203 从另一个角度看,决策表中每一个对象都蕴含着一条分类规则,决策表实际上也是一组逻辑规则的集合.例如表1中的对象1蕴含的规则是a 1b 0c 2]d 1.化简决策表的过程也就是抽取分类规则的过程.表2中对象4在去掉属性b 后154 控制理论与应用16卷 与对象1蕴含相同的分类规则,为避免重复而被除去.约简中的规则还可进一步化简,删除那些与分类无关的次要属性.表3第一行中的“3”表示属性c的取值不重要,即只要b =0,d一定为1(b0]d1).“约简”和“核”这两个概念很重要,是RS方法的精华. RS理论提供了搜索约简和核的方法.计算约简的复杂性随着决策表的增大呈指数增长,是一个典型的NP完全问题,当然实际中没有必要求出所有的约简.引入启发式的搜索方法如遗传算法[10]有助于找到较优的约简,即所含条件属性最少的约简.3 粗糙集理论的特点(Features of rough set theory)1)RS不需要先验知识.模糊集和概率统计方法是处理不确定信息的常用方法,但这些方法需要一些数据的附加信息或先验知识,如模糊隶属函数和概率分布等,这些信息有时并不容易得到.RS分析方法仅利用数据本身提供的信息,无须任何先验知识.2)RS是一个强大的数据分析工具.它能表达和处理不完备信息;能在保留关键信息的前提下对数据进行化简并求得知识的最小表达;能识别并评估数据之间的依赖关系,揭示出概念简单的模式;能从经验数据中获取易于证实的规则知识,特别适于智能控制.3)RS与模糊集分别刻划了不完备信息的两个方面[5]: RS以不可分辨关系为基础,侧重分类,模糊集基于元素对集合隶属程度的不同,强调集合本身的含混性(vagueness).从RS的观点看,粗糙集合不能清晰定义的原因是缺乏足够的论域知识,但可以用一对清晰集合逼近.有关RS和模糊集内在联系的阐述及模糊粗糙集(fuzzy2rough set)的概念,请参见文[6~8].RS和证据理论也有一些相互交叠之处[9],在实际应用中可以相互补充.4 粗糙集理论的应用(Applications of rough set theo2 ry)RS理论的生命力在于它具有较强的实用性,从诞生到现在虽然只有十几年的时间,但已经在许多领域取得了令人鼓舞的成果.1)股票数据分析.文[11]应用RS方法分析了十年间股票的历史数据,研究了股票价格与经济指数之间的依赖关系,获得的预测规则得到了华尔街证券交易专家的认可.2)模式识别.文[12]应用RS方法研究了手写字符识别问题,提取出了特征属性.3)地震预报.文[13]研究了地震前的地质和气象数据与里氏地震级别的依赖关系.4)冲突分析.文[14]应用RS方法建立了反映以色列、巴勒斯坦、约旦、埃及、叙利亚和沙特阿拉伯等六国关于中东和平问题各自立场的谈判模型.5)从数据库中知识发现(knowledge discovery in database, K DD)[15,16].K DD又称数据发掘(data mining),是当前人工智能和数据库技术交叉学科的研究热点之一.RS方法现已成为K DD的一种重要方法,其导出的知识精练且更便于存储和使用.6)粗糙控制(rough control)[17~23].RS根据观测数据获得控制策略的方法被称为从范例中学习(learning from exam2 ples),属于智能控制的范畴.基本步骤是:把控制过程中的一些有代表性的状态以及操作人员在这些状态下所采取的控制策略都记录下来,形成决策表,然后对其分析化简,总结出控制规则[17,18].形式为:IF C ondition=N满足THE N采取De2 cision=M.RS方法是一类符号化分析方法,需要将连续的控制变量离散化,为此Pawlak Z提出了粗糙函数(rough func2 tion)的概念[19],为粗糙控制打下了理论基础.文[20,21]应用粗糙控制研究了“小车—倒立摆系统”这一经典控制问题,取得了较好的结果.在过程控制领域,文[22]应用RS方法成功地提取出了水泥窑炉的控制规则.粗糙控制的优点是简单迅速、实现容易,不需要象Fuzzy控制那样进行模糊化和去模糊化.因此在特别要求控制器结构与算法简单的场合,采取粗糙控制较为合适.另外,由于控制算法完全来自观测数据本身,其决策和推理过程可以很容易被检验和证实.一种新的有吸引力的控制策略“模糊2粗糙控制(fuzzy2rough control)”正悄然兴起,其主要思路是利用RS获取模糊控制规则.7)医疗诊断.RS方法根据以往的病例归纳出诊断规则,用来指导新的病例.现有的人工预测早产的准确率只有17%~38%,应用粗糙集理论则可提高到68%~90%[1].8)专家系统(ES).RS抽取规则的特点,为构造ES知识库提供了一条崭新的途径[24].9)人工神经元网络(ANN).训练时间过于漫长的固有缺点是制约ANN实用化的因素之一.文[25]应用RS化简神经网络训练样本数据集,在保留重要信息的前提下消除了多余的数据,使训练速度提高了4177倍,获得了较好的效果.文[26,27]将RS与ANN结合起来,充分利用RS处理不确定性的特长以增强ANN的信息处理能力.10)决策分析[28~30].RS的决策规则是在分析以往经验数据的基础上得到的.RS允许决策对象中存在一些不太明确、不太完整的属性,弥补了常规决策方法的不足.希腊工业发展银行ETE VA应用RS理论协助制订信贷政策,是RS多准测决策方法的一个成功范例.RS理论的应用领域还包括:近似推理[31,32]、软件工程数据分析[33]、图象处理[34]、材料科学中的晶体结构分析[35]、预测建模[36,37]、结构建模[38]、投票分析[39]、电力系统[40,42]等. RS在我国的研究刚刚起步,有关文献还不多[43~44].5 结束语(C onclusion)虽然RS至今只有十几年的发展历史,但取得的研究成果是令人瞩目的.它是一种较有前途的软计算方法,为处理不确定性信息提供了有力的分析手段[45].我们相信RS具有广阔的发展空间,今后会在更多的实际领域中发挥作用.致谢 波兰华沙工业大学计算机科学研究所(Institute of C om puter Science,Warsaw University of T echnology)的Zdzislaw Pawlak教授和Bozena Skalska博士赠送了部分研究报告,在此向他们表示感谢. 1期粗糙集理论及其应用综述155参考文献(References)1 Pawlak Z et al.R ough sets.C ommunications of AC M,1995,38(11):89 -952 Pawlak Z.R ough sets.International Journal of In formation and C om puter Science,1982,(11):341-3563 Pawlak Z.R ough set-theoretical aspects of reas oning about data.D or2 drecht:K luwer Academ ic Publishers,19914 S lowinski R.Intelligent decision support-handbook of applications and advances of the rough sets theory.D ordrecht:K luwer Academ ic Publish2 ers,19925 Pawlak Z.Vagueness and uncertainty-a rough set perspective.C om puta2 tional Intelligence,1995,11(2):227-2326 W ygralak M.R ough sets and fuzzy sets-s ome remarks on interrelations.Fuzzy Sets and Systems,1989,29(3):241-2437 Nanda S et al.Fuzzy rough sets.Fuzzy Sets and Systems,1992,45(2): 157-1608 Banerjee M and Pal S K.R oughness of a fuzzy set.In formation Sciences, 1996,93(3,4):235-2469 Skowton A et al.From rough set theory to evidence theory.Advances in the Dem pster Shafer Theory of Evidence.New Y ork:John W iley&S ons Inc.,1994,193-23610 Jakub W.Finding m inimal reducts using genetic alg orithm.Institute ofC om puter Science Reports,W arsaw University of T echnology,W arsaw,199511 G olan R and Z iarko W.M ethodology for stock market analysis utilizing rough set theory.Proc.of IEEE/IAFE C on ference on C om putational In2 telligence for Financial Engineering,New Jersey,1995,32-4012 Nejman D.A rough set based method of handwritten numerals classifica2 tion.Institutc of C om puter Science Reports,W arsaw University of T ech2 nology,W arsaw,199413 T eghem J et e of rough sets method to draw prem onitory factors for earthquakes by em phasizing gas geochem istry.In:Intelligent Decision Support-Handbook of applications and Advances of the R ough Sets Theory.D ordrecht:K luwer Academ ic Publishers,1992,165-17914 Deja R.C on flict m odel with neg otiations.In:Institute of C om puter Sci2 ence Reports.W arsaw University of T echnlolgy,W arsaw,199515 Hu X iaohua et al.M ining knowledge rules from databases-a rough set approach.Proc.of IEEE International C on ference on Data Engineering, Los Alam itos,1996,96-10516 Tsum oto Sh et al.Extraction of domain knowledge from databases based on rough set theory.IEEE International C on ference on Fuzzy Systems, New Jersey,1996,748-75417 S ienkiewicz J.R ough set and rough function approaches to the control al2g orithm reconstruction.Institute of C om puter Science Reports,W arsaw U2niversity of T echnology,W arsaw,199618 Mrozek A et al.M ethodology of rough controller synthesis.Proc.of IEEE International C on ference on Fuzzy Systems,New Jersey,1996,1135-113919 Pawlak Z.R ough sets,rough relations and rough functions.Fundamenta In formaticae,1996,27(2,3):103-10820 Plonka L and Mrozek A.Rule2based stabilization of the inverted pendu2lum.C om putational Intelligence,1995,11(2):348-35621 C z ogala E et al.Idea of a rough fuzzy controller and its application to the stabilization of a pendulum2car system.Fuzzy Sets and systems,1995,72(1):6127322 Mrozek A.R ough sets and dependency analysis am ong attributes in com2 puter im plementations of expert’s in ference m odels.International Journal of M an2M achine S tudies,1989,30(4):457-47323 Arima M et al.Fuzzy logic and rough sets controller for HVAC systems.Proc.of IEEE WESCANEX C ommunications,P ower,and C om puting, New Y ork,1995,133-13824 Tsum oto S et al.Automated discovery of medical expert system rules from clinical databases based on rough sets.Proc.of Second InternationalC on f.on K nowledge Discovery and Data M ining,US A,1996,63-7225 Jelonek J et al.R ough set reduction of attributes and their domains for neural netw orks.C om putational Intelligence,1995,11(2):339-34726 Peng C et al.Multi2valued neural netw ork and the knowledge acquisition method by the rough sets for ambiguous recognition problem.Proc.of the IEEE International C on ference on Systems,M an and Cybernetics,Bei2 jing,1996,736-74027 Y asdi R.C ombining rough sets learning and neural learning2method to deal with uncertain and im precise in formation.Neurocom puting,1995,7(1):61-8428 S lowinski R.R ough set approach to decision analysis.AI Expert,M arch 1995,19-2529 Pawlak Z.R ough set approach to knowledge2based decision support.In2 stitute of C om puter Science Reports,W arsaw University of T echnology, W arsaw,199530 S lowinski R et al.R ough set s orting of firms according to bankruptcy risk.In:Applying Multiple Criteria aid for Decision to Environment M an2 agement,D ordrecht:K luwer Academ ic Publishers,1994,339-35731 S lowinski R et al.R ough set reas oning about uncertain data.Fundamenta In formaticae,1996,27(2,3):229-24332 Pars ons S et al.A rough set approach to reas oning under uncertainty.Journal of Exprimental and Theoretical AI,1995,7(2):175-19333 Ruhe Gand G esselschaft F.R ough set based data analysis in g oal2orient2 ed s oftware measurement.Proc.of IEEE International s oftware M etrics Sym posium,Los Alam itos,1996,10-1934 W ojcik Z et al.Application of rough sets for edge enhancing image fil2 ters.Proc.of IEEE International C on ference on Image Processing,Los Alam itos,1994,525-52935 Jacks on A et al.R ough sets applied to materials data.Acta M aterialia, 1996,44(11):4475-448436 C ollette T and S zladow e rough sets and spectral data for building predictive m odels of reaction rate constants.Applied S pectroscopy, 1994,48(11):1379-138637 Aijun A et al.Discovering rules for water demand prediction-an en2 hanced rough set approach.Engineering Applications of Artificial Intelli2 gence,1996,9(6):645-65338 W ojcik Z et al.S tructural m odeling using rough sets.Proc.of IEEE Inter2 national C on ference on Fuzzy Systems,New Jersey,1996,761-76639 Nurm i H et al.Probabilistic,fuzzy and rough concepts in s ocial choice.European Journal of Operational Research,1996,95(2):264-277156 控制理论与应用16卷 40 Lambert2T orres G et al.Data M ining into a C ontrol Center Database via R ough Set T echniques.Proc.of the International C on ference on Intelli2 gent Systems Applications to P ower Systems(IS AP’97),Seoul,1997, 246-25041 Zhang Q,Han Z X and W en F S.A new approach for fault diagnosis in power systems based on rough set theory.Proceedings of APSCOM’97,H ong K ong,1997,597-60242 张琦,韩祯祥,文福拴.一种基于粗糙集方法的电力系统故障诊断/警报处理的新方法.中国电力,1998,31(4):32-3843 王珏,苗夺谦,周育键.关于R ough Set理论与应用的综述.模式识别与人工智能,1996,9(4):337-34444 曾黄麟.粗集理论及其应用.重庆:重庆大学出版社,199845 E wa Orlowska(ed.).Incom plete in formation2rough set analysis.New Y ork:Physica2Verlag,1998本文作者简介韩祯祥 1930年生.浙江大学教授,博士生导师.研究领域为软计算方法及其在电力系统中的应用.张 琦 1971年生.浙江大学在读博士生.研究方向为粗糙集理论在电力系统中的应用.文福拴 1965年生.浙江大学教授,博士生导师.研究领域为软计算方法在电力系统中的应用. 1期粗糙集理论及其应用综述157。
粗糙集理论的应用领域及研究现状摘要:粗糙集理论是一种基于不完备信息的数学模型,具有广泛的应用领域。
本文将介绍粗糙集理论的基本概念和原理,并探讨其在数据挖掘、模式识别、决策分析等领域的应用。
同时,还将介绍粗糙集理论在实际研究中的现状和挑战。
1. 引言粗糙集理论是由波兰学者Pawlak于1982年提出的一种基于不完备信息的数学模型。
它通过将数据集划分为等价类,可以有效地处理不确定和模糊的信息。
粗糙集理论在多个学科领域中得到了广泛的应用,如数据挖掘、模式识别、决策分析等。
2. 粗糙集理论的基本概念和原理粗糙集理论的核心概念是“粗糙集”,它是指在不完备信息条件下,将数据集划分为等价类的过程。
在粗糙集理论中,等价类被称为“粗糙集”,而等价类之间的差异被称为“粗糙度”。
粗糙度越小,等价类之间的差异越小,数据集的信息越完备。
粗糙集理论的基本原理是“下近似”和“上近似”。
下近似是指用最少的信息描述数据集的特征,上近似是指用尽可能多的信息描述数据集的特征。
通过下近似和上近似的计算,可以得到数据集的粗糙集,从而实现对不完备信息的处理。
3. 粗糙集理论在数据挖掘中的应用数据挖掘是从大量数据中发现隐藏模式和知识的过程。
粗糙集理论在数据挖掘中可以用于特征选择、属性约简和规则提取等任务。
通过粗糙集理论,可以从复杂的数据集中挖掘出有用的模式和规律,帮助人们更好地理解数据集的结构和特征。
4. 粗糙集理论在模式识别中的应用模式识别是通过对数据进行分类和识别,从而实现对数据的理解和分析。
粗糙集理论在模式识别中可以用于特征选择、模式分类和模式识别等任务。
通过粗糙集理论,可以对数据进行有效的特征选择,提高模式识别的准确性和效率。
5. 粗糙集理论在决策分析中的应用决策分析是通过对决策问题进行建模和分析,从而实现对决策的优化和改进。
粗糙集理论在决策分析中可以用于决策规则的提取和决策的评估。
通过粗糙集理论,可以从决策问题中提取出有用的规则和知识,帮助人们做出更好的决策。
粗糙集理论与方法
粗糙集理论与方法是一种用于处理不确定性和不完全信息的数学方法。
该方法最早由波兰科学家Zdzislaw Pawlak于1982年提出,其基本思想是基于约简和分割的思想对样本空间进行建模和分析。
粗糙集理论主要包括以下几个关键概念和步骤:
1. 近似集:粗糙集理论认为,一个对象可能属于多个不同的概念或类别,且我们不能确定其准确的分类。
因此,利用近似集的概念,我们可以将对象分成精确区域和不确定区域。
精确区域是指可以准确分类的对象,而不确定区域是指不能确定分类的对象。
2. 上近似和下近似:在粗糙集理论中,上近似是指包含所有精确分类对象的集合,而下近似是指包含所有不确定分类对象的集合。
上近似和下近似的交集被称为约简。
3. 属性重要性:对于给定的属性,粗糙集理论可以通过属性重要性来判断其对分类结果的贡献程度。
属性重要性可以通过信息熵、信息增益等指标来度量。
4. 属性约简:属性约简是粗糙集理论中的一个重要步骤,它的目的是通过删除某些不重要的属性来减少样本空间的复杂性,同时保持样本分类的准确性。
属性约简可以通过贪婪算法、遗传算法等进行求解。
粗糙集理论与方法在数据挖掘、决策分析、模式识别等领域具有广泛应用。
它可以处理不完整、不确定、模糊等问题,帮助人们对复杂的数据进行分析和决策。
粗糙集理论及其用于属性约简在自然科学、社会科学与工程技术的很多领域中,都不同程度地涉及到对不确定因素和不完备信息的处理。
从实际系统中采集到的数据常常包含着噪声、不精确甚至不完整,采用纯数学上的假设来消除或回避这种不确定性,效果往往不理想。
多年来,研究人员们一直在努力寻找科学地处理不完整性和不确定性的有效途径,并先后提出了众多的软计算(Soft Computing)方法。
软计算的指导原则是利用所允许的不精确性、不确定性和部分真实性得到易于处理、鲁棒性强和成本较低的解决方案,以便更好地与现实系统相协调,主要工具包括粗糙集(Rough sets)、模糊逻辑(Fuzzy Logic)、神经网络(Nerve Network)、概率推理(Probability Reasoning)、信度网络(Belief Network)、遗传算法(Genetic Arithmetic)、混沌理论(Chaos)等。
粗糙集(Rough Sets,也称粗集、Rough集)理论是由波兰华沙理工大学Pawlak 教授于20 世纪80 年代初提出的一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法。
粗糙集方法的一个特点是不需要附加信息或先验知识,而这一点是其它方法无法做到的,如模糊集方法与概率统计或证据理论方法中,往往需要模糊隶属函数、基本概率指派函数(Basic Probability Assignment, BPA)和有关统计概率分布等,而这些信息有时并不容易得到。
正是基于这一优点,粗糙集理论得以迅速兴起,并逐渐成为人工智能界以及其它处理不确定性领域的研究热点。
粗糙集的研究对象是由一个多值属性集合描述的一个对象集合,对于每个对象及其属性都有一个值作为其描述符号,对象、属性和描述符号是表达决策问题的三个基本要素。
这种表达形式也可以看成为一个二维表格,即决策表;表格的行与对象相对应,各行包含了表示相应对象信息的描述符,还有关于各个对象的类别成员的信息;列对应于对象的属性,属性分为条件属性和决策属性,对象根据条件属性的不同,被划分到具有不同决策属性的决策类。
粗糙集理论简介及基本原理粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它由波兰数学家Pawlak于1982年提出。
粗糙集理论的核心思想是通过对数据进行粗糙化,将数据集划分为不同的等价类,以便更好地理解和描述数据的特征和规律。
粗糙集理论的基本原理是基于信息的不完备性和不确定性。
在现实世界中,我们往往无法获取到完整和精确的信息,数据中可能存在噪声、缺失或冲突等问题。
粗糙集理论通过对数据进行粗糙化,将不确定的数据转化为一组等价类,从而更好地处理这些问题。
粗糙集理论的核心概念是粗糙集和约简。
粗糙集是指在数据集中,存在一些元素无法被确定地分类到某个等价类中,即存在不确定性。
而约简则是指通过消除冗余和保留核心信息,将原始数据集简化为一个更小的等价类集合。
通过约简,我们可以减少数据集的复杂性,提取出数据中的关键特征和规律。
在粗糙集理论中,最常用的方法是基于属性约简。
属性约简是指通过选择一部分重要的属性,来代表整个数据集的特征和规律。
在实际应用中,数据集往往包含大量的属性,其中某些属性可能是冗余的或无关的。
通过属性约简,我们可以提取出最具代表性的属性,从而减少数据集的维度和复杂性。
粗糙集理论在各个领域都有广泛的应用。
在数据挖掘领域,粗糙集理论可以用于特征选择、分类和聚类等任务。
通过约简,我们可以选择出最具代表性的特征,从而提高分类和聚类的准确性和效率。
在决策支持系统中,粗糙集理论可以用于帮助决策者进行决策分析和风险评估。
通过对数据进行粗糙化和约简,我们可以更好地理解和描述决策问题,从而提供决策支持。
总之,粗糙集理论是一种处理不确定性和模糊性问题的有效工具。
它通过对数据进行粗糙化和约简,提取出数据的核心特征和规律,从而帮助我们更好地理解和处理现实世界中的复杂问题。
粗糙集理论在各个领域都有广泛的应用,为我们提供了一种全新的思维方式和分析工具。
粗糙集理论及其发展
作者:张也驰
来源:《管理观察》2010年第16期
摘要:粗糙集理论以其出色的处理模糊和不确定知识的能力,在数据挖掘领域占据了越来越重要的地位。
文章首先描述了粗糙集理论的核心思想,接着介绍了粗糙集理论在不完备信息系统领域的扩充,最后论述了粗糙集理论的应用发展以及未来的研究方向。
关键词:粗糙集机器学习不完备信息系统数据挖掘
1.引言
粗糙集理论[1]是由波兰数学家Z. Pawlak于20世纪80年代提出的一种新的处理不精确性和不确定性信息的数学方法。
之后国内外许多学者对粗糙集理论及其应用进行了坚持不懈的研究。
1991年,Pawlak出版了第一本关于粗糙集理论的专著,详细介绍了粗糙集的理论基础,它奠定了粗糙集理论的基础,但由于最初关于粗糙集理论的研究大部分是用波兰语发表的,当时并没有引起国际计算机学界和数学界的重视;1992年,在波兰Kiekrz召开了第一届国际粗糙集研讨会,从此每年一次以粗糙集理论为主题的国际研讨会以及粗糙集学术研究会的成立,推动了国际上对粗糙集理论与应用的深入研究。
1995年,Z. Pawlak概括性地介绍了粗糙集理论[2]的基本概念及其具体研究进展。
我国对粗糙集理论的研究起步较晚。
粗糙集理论是建立在分类机制基础上的,它将知识理解为对数据的划分,每一个被划分的集合称为概念或范畴,其主要思想是利用已有的知识库,将不精确知识用已知知识库中的知识来(近似)刻画。
与其他处理不精确性和不确定性信息的理论相比,该理论的一个最主要的优点是其无需提供任何除现有知识以外的任何先验知识,从而具有相当的客观性。
近年来,由于粗糙集理论在人工智能和认知科学中日益呈现出的重要性和优越性,特别是在机器学习、数据挖掘、决策分析、数据库知识发现、专家系统、决策支持系统、归纳推理和模式识别等领域,受到越来越多的研究人员的关注。
2.粗糙集理论的基本概念
粗糙集理论作为一种处理模糊和不确定性知识的数学工具,其主要思想是在保持分类能力不变的前提下,经过知识约简,导出问题的决策或分类规则。
即粗糙集理论是建立在不可分辨关系基础知识的,不可分辨关系构成了粗糙集理论的数学基础。
2.1 知识表达系统和决策表
定义1[3] 形式上,一个知识表达系统是一个四元组S=(U,A,V,f)是一个知识表达系统,其中U 是对象的非空有限集合,称为论域;A为属性的非空有限集合;V=■Va,Va是属性a的值
域;f:U×A→V是一个信息函数,它为每个对象的每个属性赋予一个信息值,即
Va∈A,X∈U,f(x,a)∈Va。
知识表达系统也称为信息系统,通常也用S=(U,A)也表示。
决策表是
一类特殊而重要的知识表达系统,多数决策系统问题都可以用决策表形式来表达。
在知识表达系统中,如果A=C∪D,C∩D=?椎,则S称为一决策系统。
定义2[3] 对知识表达系统S=(U,A,V,f),令P?哿A,称属性集P的不可分辨关系为
ind(P)={(x,y)∈U×U|Aa∈P,f(x,a)=f(y,a)}。
不可分辨关系ind(P)是U上的等价关系,由ind(P)导出的所有等价类集合记为U/P,它构成了论域U的一个划分,含有元素x的等价类记为[x]p。
2.2 粗糙集与近似
定义3[3] 对于知识表达系统S=(U,A,V,f),令X?哿U,R?哿A,则定义X的R下近似为
■X={x∈U|[x]R?哿X},X的R上近似为■X{x∈U|[x]R∩X≠?椎}。
在此基础上,定义bnR(X)=■X-■X为X的R边界域,posR(X)=■X为X的R正域,negR(X)=U-■X称为X的R负域。
显然,■X或posR(X)是由那些根据知识R判断肯定属于X的U中元素组成的集合;■X是根据知识R判断可能属于X的U中元素组成的集合;bnR(X)是那些根据知识R既不能判断肯定属于X又不能判断肯定输入~X(即U-X)的U中元素组成的集合;negR(X)是那些根据知识R判断肯定不属于X的U中元素组成的集合。
2.3 知识约简
知识约简是粗糙集理论的核心内容之一。
众所周知,知识库中知识(属性)并不是同等重要的,甚至其中某些知识是冗余的。
所谓知识约简,就是在保持知识库分类能力不变的条件下,删除其中不相关或不重要的知识。
知识约简中有两个基本概念:约简(reduct)和核(core)。
定义4[3] 令R为一族等价关系,R∈R,如果ind(R)=ind(R-{R}),则称R为R中不必要的;否则称R为R中必要的。
如果每一个R∈R都为R中必要的,则称R为独立的;否则称R为依赖的。
如果R是独立的,P∈R,则P也是独立的。
设Q?哿P,如果Q是独立的,且ind(Q)=ind(P),则称Q为P的一个约简。
显然,P可以有多种约简。
P中所有必要关系组成的集合称为P的核,记作core(P)。
核这个概念的用处有两个方面:首先它可以作为所有约简的计算基础,因为核包含在所有的约简之中,并且可以计算可以直接进行;其次可以解释为知识约简时它是不能消去的知识特征集合。
3.粗糙集理论在不完备信息系统上的扩充
在许多情况下,我们在现实中所获得的信息系统是不完备的,主要问题之一是属性的缺省值,但由于经典粗糙集理论中不可分辨关系的局限性,使得经典的粗糙集理论不适用于不完备信息系统,因此,众多的国内外专家学者对经典的粗糙集理论进行了扩充。
目前,对经典粗糙集理论的扩充主要有两类方法:一类是间接处理法,其特点是利用模糊理论、概率统计理论等其他处理不确定性知识的理论通过数据补齐等手段把不完备信息系统转化为完备信息系统[1,2];二是直接对经典粗糙集理论中的相关概念进行适当扩充,例如:将经典粗糙集理论中的等价关系扩充为相似关系[4]、容差关系[5]和限制容差关系[6]等,并对经典粗糙集理论中的上、下近似等概念进行相应的修改。
4.粗糙集理论未来的研究方向
粗糙集理论的优越性已经在很多实际应用中得到了证明,这种理论可以为人工智能的很多领域提供有效的方法。
粗糙集理论的独特优点是它不需要任何额外的先验信息就可以从数据本身发现分类规则,且实现这种方法的程序可以很容易地在计算机上实现。
然而,粗糙集理论仍然是一个极其年轻且在高速发展的学科,仍有一些问题需要解决,其今后研究的主要热点主要包括以下几个方向:
(1)粗糙集理论的系统化和形式化;
(2)粗糙集理论与其他模糊学科相结合的信息处理方法研究;
(3)面向粗糙集对象的专家系统和智能系统和粗糙集在工程技术方面的应用。
◆
参考文献:
[1]Z. Pawlak, Rough Sets. Inner Journal of Computer and Information Science. 1982,11:341-356
[2]Z. Pawlak, Rough Sets. Communcations of ACM,1995,38(11):89-95
[3]Z. Pawlak, Rough Sets: Theoretical
Aspects of Reasoning about Data,vol.9,
Kluwer Academic Publishers,Dordrecht,1991
[4] Stefanowski J, Tsoukias A., On the extension of rough sets under incomplete information, Proceedings of 7th Int’l Workshop on New Directions in Rough Sets, Data Mining, and Granular-soft Computing. Berlin: Springer-Verlag, 1999. 73-81.
[5]Marzena Kryszkiewicz, Rough set approach to incomplete information systems. Information Sciences,112(1998):39-49.
[6]王国胤,Rough集理论在不完备信息系统中的扩充,计算机研究与发展,2002,39(10):1238-1243
[7]Yee Leung, Deyu Li,Maximal Consistent
Block Technique for Rule Acquisition in Incomplete Information Systems. Information Sciences, 153(2003):85-106。