粗糙集理论及其发展

格式：doc
大小：18.00 KB
文档页数：4

下载文档原格式

基于粗糙集理论的数据挖掘方法(2006.10.16)

关于属性选择
许多学习算法处理高维数据有困难, 并且大量无关属性的存在, 也使得数据分析受到干扰. 目的是找到满足特定标准的最小的属性子集. 搜索算法起着重要的作用. 搜索算法可以用搜索方向(前向, 后向, 双向), 搜索方式(穷尽搜索, 启发式, 非确定式)及评价方式(精确度, 一致性, 依赖度, 信息熵等)等三个方面来分类. 约简的特点是可以保持分类/近似能力不变。
x5
x6 x7
MBA
MCE MSc
Low
Low Medium
Yes
Yes Yes
Neutral
Good Neutral
Reject
Reject Reject
x8
MCE
x1
Low
x2 x3
No
x4
Excellent
x5 x6
Reject
x7 x8
x1 x2 x3 x4 x5 x6 x7 x8 er der dr def de der e defr der der er def efr def defr der
例如，x1的决策函数为f(x1)=(e r) (d e r) (d r) (d e f) 整个Accept类的决策函数为f(Accept)=f(x1) f(x2) f(x3) f(x4) 化成析取范式后，各项就是Accept类最小决策规则
粗糙集和其他理论方法结合
和模糊集(Fuzzy set) ►模糊粗糙集(Fuzzy-Rough set) ► 应用：特征选择聚类 ►Rough K-means ►应用： Web挖掘
粗糙集的问题
粗糙集理论应用于实际数据分析时, 会遇到－离散化：－噪音: 过拟合－数据缺失: 如何“不可区分” ? －大数据量: 计算复杂度太高.

粗糙集

例
对于上表来说，U中有四个对象（概念），而现在条件集合中只有一个属性，对于U1和U2来说，它们的p不同所以可以通过p来区分，即u1,u2在p 下可区分；而U2和U3虽然是不同的对象但是在P 下却是相同的，即在p下不可区分，就成为不可区分
粗糙集：
一个集合若恰好等于基本集的任意并集称为一个清晰（crisp）集（精确集），否则称为粗糙（rough）集（不精确集）。解释：都可区分的是清晰集，有不可区分的对象为粗糙集主要特点:以不完全信息或知识去处理一些不分明现象的能力,或依据观察、度量到的某些不精确的结果而进行分类数据的能力. 粗糙集体现了集合中元素间的不可区分性. 主要优势:它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其它不确定性问题的理论有很强的互补性.
粗糙集理论所处理的问题
•不确定或不精确知识的表达; •经验学习并从经验中获取知识; •不一致信息的分析; •根据不确定,不完整的知识进行推理; •在保留信息的前提下进行数据化简; •近似模式分类; •识别并评估数据之间的依赖关系
三、粗糙集的应用
粗糙集理论在许多领域得到了应用： ①临床医疗诊断；
②电力系统和其他工业过程故障诊断；
3. 如果P中的任何一条属性都是不可简约的，那么就称P是独立的解释：P是独立的说明P中的任何一个属性都是必不可少的，它独立的表达一个系统分类的特征。
属性约简的算法分析：
初始状态：所有数据已存入数据库(以下为模拟数据)
u 1 2 3 4 5 6
a 1 1 0 1 1 2
b 0 0 0 1 1 1
集合O 的下逼近(即正区) 为 I 3 (O ) = PO S (O ) = {刘保,赵凯} 集合O 的负区为 N EG (O ) = {李得} 集合O 的边界区为 BND (O ) = {王治, 马丽} 集合O 的上逼近为 I 3 (O ) = PO S (O ) + BND (O ) = {刘保,赵凯,王治,马丽} 根据表1, 可以归纳出下面几条规则, 揭示了教育程度与是否能找到好工作之间的关 RUL E 1: IF (教育程度= 大学) OR (教育程度= 博士) THEN (可以找到好工作) RUL E 2: IF (教育程度= 小学) THEN (找不到好工作) RUL E 3: IF (教育程度= 高中) THEN (可能找到好工作)

粗糙集理论的实际应用场景

粗糙集理论的实际应用场景粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具，它在现实生活中有着广泛的应用场景。

本文将探讨粗糙集理论在数据挖掘、医学诊断和金融风险评估等领域的实际应用。

数据挖掘是当今信息时代的热门领域，而粗糙集理论在数据挖掘中发挥着重要作用。

通过粗糙集理论，我们可以从大量的数据中提取出有用的信息和规律。

例如，在市场营销中，企业可以利用粗糙集理论分析消费者的购买行为和偏好，从而制定更精准的营销策略。

此外，粗糙集理论还可以应用于图像识别、语音识别等领域，帮助计算机更好地理解和处理复杂的信息。

医学诊断是另一个粗糙集理论的重要应用领域。

在医学诊断中，患者的病情常常是复杂和模糊的，而粗糙集理论可以帮助医生进行更准确的诊断。

通过将患者的病情和症状进行模糊化处理，然后利用粗糙集理论进行分类和判断，医生可以更好地了解患者的病情和病因，并制定出更科学的治疗方案。

此外，粗糙集理论还可以应用于医学图像分析、基因识别等领域，帮助医生更好地理解和分析医学数据。

金融风险评估是金融领域中一个重要的应用场景。

在金融市场中，风险是无处不在的，而粗糙集理论可以帮助金融机构更好地评估和管理风险。

通过对金融数据进行模糊化处理，然后利用粗糙集理论进行分类和分析，金融机构可以更准确地评估不同投资产品的风险水平，并采取相应的风险控制措施。

此外，粗糙集理论还可以应用于信用评级、投资组合优化等领域，帮助金融机构更好地进行风险管理和决策。

除了上述应用场景，粗糙集理论还可以在许多其他领域发挥作用。

例如，在工程设计中，粗糙集理论可以帮助工程师更好地分析和处理不确定性因素，从而提高设计的可靠性和稳定性。

在城市规划中，粗糙集理论可以帮助城市规划师更好地理解和分析城市的发展趋势和需求，从而制定更科学和合理的规划方案。

在环境保护中，粗糙集理论可以帮助环保部门更好地评估和管理环境污染的风险和影响。

综上所述，粗糙集理论在数据挖掘、医学诊断、金融风险评估等领域有着广泛的应用。

粗糙集理论——精选推荐

粗糙集理论
粗糙集理论
1 粗糙集的基本概念
在粗糙集理论中，我们把知识看做是⼀种能被⽤于分类对象的能⼒。

其中对象可以代表现实世界中的任意事物，包括物品、属性、概念等。

即：知识需要同现实世界中特定环境的确定对象相关联，这⼀集合称为论域。

知识与概念
令U为包含若⼲对象的⾮空有限集，也即论域，在论域中，称任意集合为⼀个概念或范畴。

特别地，我们把空集也视为⼀个概念，称之为空概念。

⽽由任意个这样的X组成的⼦集簇形成了U中抽象知识，简称为知识。

知识库
在给定论域中，任意选择⼀个等价关系集R，我们可以得到⼀个⼆元组K=<U,R>,称这样的⼆元组视为⼀个知识库（近似空间）。

在论域中，任何等价关系都能导出⼀个对论域的划分，从⽽形成了⼀个知识库。

由此，每个知识库就能够与论域中的某个等价类⼀⼀对应。

不可分辨（不可区分/不分明）关系
在给定的论域U上，任意选择⼀个等价关系集R和R的⼦集，且，则P中所有等价关系的交集依然是论域U中的等价关系，称该等价关系为P 的不可分辨关系，记作IND(P)。

并且
：表⽰⾮空⼦族集所产⽣的不分明关系IND(P)的所有等价类关系的集合，⼜称该知识为知识库K=<U,R>中关于P-基本知识（P-基本集）集合的上下近似
上近似包含了所有那些可能是属于X的元素，下近似包含了所有使⽤知识R可确切分类到X的元素。

在给定的知识库K=<U,R>中，任意选择集合，可以定于X关于知识R的上下近似。

粗糙集理论和算法初步

粗糙集的数值特征
近似精度粗糙度
R(X )
R(X ) R(X )
R(X ) 1R X
粗糙集的数值特征
论域U和一个等价关系R，以及U的一个划分
U {x1, x2, , xn}U
划分独立于知识R，于是定义近似分类精度：
上近似
n
R U R Xi
的映射(A,B)→s(A,B)，称s(A,B)为A，B的相似度，如果满足如下条件： 1）任意U中的集合 A，B，s(A,B)有界； 2）对称性，即s(A,B)=s(B,A)； 3）s(A,A)=1，且s(A,B)=0的充要条件是 A∩B为空集。
粗糙集的近似集R0.5的提出
这里定义相似度为：
AB s(A, B)
AB
隶属度函数定义：
非空论域U，以及等价关系R，以及U中的
对象子集X，对于任意的xX，隶属度定义
为：
X x
R0.5的定义

R X
(
x)

R
x
R
粗糙集的近似集R0.5的提出
由近似度定义可以得到粗糙集的上下近似
集的表达
RX
x
x

U
,

R X
x
1
R X
关系族PS，对于任意P中的R，若 IND(P)≠IND(P-{R})成立，称R为P中必要的。独立性
如果对每一个P中R，R都是P中必要的，称P是独立的，否则称P是依赖的。显然，若P独立，则其任何子集G都是独立的。
知识约简
知识的约简知识库K和其上的一族等价关系PS，对
任意的GP，若: 1）G是独立的 2）IND(G)=IND(P) 称G是P的一个约简，记作G∈RED(P)。

粗糙集理论及其应用综述

粗糙集理论及其应用综述3韩祯祥　张　琦　文福拴(浙江大学电机系・杭州,310027) 摘要:粗糙集理论是一种较新的软计算方法,可以有效地分析和处理不完备信息.该理论近年日益受到国际学术届的重视,已经在模式识别、机器学习、决策支持、过程控制、预测建模等许多科学与工程领域得到成功的应用.本文介绍了粗糙集理论的基本概念,对其在各领域的应用情况进行了综述.关键词:粗糙集;不确定性;数据分析;软计算;粗糙控制A Survey on R ough Set Theory and Its ApplicationHan Zhenxiang ,　Zhang Qi and Wen Fushuan(Department of E lectrical Engineering ,Zhejiang University ・Hangzhou ,310027,P.R.China )Abstract :R ough set theory is a relatively new s oft com putingtool to deal with vagueness and uncertainty.I t has received much attention of the researchers around the w orld.R ough set theory has been applied to many areas success fully including pattern recognition ,machine learning ,decision support ,process control and predictive m odeling.This paper introduces the basic concepts of rough set.A survey on its applicatoins is als o given.K ey w ords :rough set ;uncertainty ;data analysis ;s oft com puting ;rough control1　引言(Introduction )粗糙集(R ougn Set ,RS )理论是一种刻划不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律[1].RS 理论是由波兰学者Pawlak Z 在1982年[2]提出的.1991年Pawlak Z 出版了专著[3],系统全面地阐述了RS 理论,奠定了严密的数学基础.该书与1992年出版的RS 理论应用专集[4]较好地总结了这一时期RS 理论与实践的研究成果,促进了它的进一步发展,现已成为学习和应用RS 理论的重要文献.从1992年至今,每年都召开以RS 为主题的国际会议,推动了RS 理论的拓展和应用.国际上成立了粗糙集学术研究会,参加的成员来自波兰、美国、加拿大、日本、挪威、俄罗斯、乌克兰和印度等国家.目前RS 理论已成为人工智能领域中一个较新的学术热点,引起了越来越多的科研人员的关注.2　粗糙集理论的基本概念(Basic concepts of rough settheory )2.1　知识与不可分辨关系(K nowledge and indiscernibility rela 2tion )在RS 理论中,“知识”被认为一种将现实或抽象的对象进行分类的能力[3].假定我们具有关于论域的某种知识,并使用属性(attribute )及其值(value )来描述论域中的对象.例如:空间物体集合U 具有“颜色”、“形状”这两种属性,“颜色”的属性值取为红、黄、绿,“形状”的属性值取为方、圆、三角形.从离散数学的观点看,“颜色”、“形状”构成了U 上的一族等效关系(equivalent relation ).U 中的物体,按照“颜色”这一等效关系,可以划分为“红色的物体”、“黄色的物体”、“绿色的物体”等集合;按照“形状”这一等效关系,可以划分为“方的物体”、“圆的物体”、“三角形的物体”等集合;按照“颜色+形状”这一合成等效关系,又可以划分为“红色的圆物体”、“黄色的方物体”、“绿色的三角形物体”…等集合.如果两个物体同属于“红色的圆物体”这一集合,它们之间是不可分辨关系(indiscernibility relation ),因为描述它们的属性都是“红”和“圆”.不可分辨关系的概念是RS 理论的基石,它揭示出论域知识的颗粒状结构.2.2　粗糙集合的下逼近、上逼近、边界区和粗糙隶属函数(Lower and upper approximation of rough set ,boundary region and rough membership function )给定一个有限的非空集合U 称为论域,R 为U 上的一族等效关系.R 将U 划分为互不相交的基本等效类,二元对K=(U ,R )构成一个近似空间(approximation space ).设X 为U的一个子集,a 为U 中的一个对象,[a ]R 表示所有与a 不可分辨的对象所组成的集合,即由a 决定的等效类.当集合X 能表示成基本等效类组成的并集时,则称集合X 是可以精确定义的;否则,集合X 只能通过逼近的方式来刻划.集合X 关于R 的下逼近(lower approximation )定义为:R 3(X )={a ∈U :[a ]R ΑX}.(1)R 3(X )实际上是由那些根据已有知识判断肯定属于X 的对象所组成的最大的集合,也称为X 的正区(positive region ),记　3国家自然科学基金资助项目(59777011).本文于1997年9月3日收到.1998年11月18日收到修改稿.第16卷第2期1999年4月控制理论与应用CONTROL THEORY AND APPLICATIONS Vol.16,No.2Apr.,1999作POS (X ).由根据已有知识判断肯定不属于X 的对象组成的集合称为X 的负区(negative region ).记作NEG (X ).集合X 关于R 的上逼近(upper approximation )定义为R 3(X )={a∈U :[a ]R ∩X ≠ }.(2)R 3(X )是由所有与X 相交非空的等效类[a ]R 的并集,是那些可能属于X 的对象组成的最小集合.显然,R 3(X )+NEG (X )=论域U.集合X 的边界区(boundary region )定义为:BN (X )=R 3(X )-R 3(X ).(3)BN (X )为集合X 的上逼近与下逼近之差.如果BN (X )是空集,则称X 关于R 是清晰的(crisp );反之如果BN (X )不是空集,则称集合X 为关于R 的粗糙集(rough set ).图1为粗糙集概念的示意图.下逼近、上逼近及边界区等概念刻划了一个不能精确定义的集合的逼近特性.逼近精度定义为αR (X )=|R 3(X )||R 3(X )|.(4)式中|R 3(X )|表示集合R 3(X )的基数或势(cardinality ),对有限集合来说表示集合中所包含元素的个数.显然,0≤αR (X )≤1,如果αR (X )=1,则称集合X 相对于R 是清晰的;αR (X )<1,则称集合X 相对于R 是粗糙的.αR (X )可认为是在等效关系R 下逼近集合X 的精度.RS 理论中定义了粗糙隶属函数(rough membership func 2tion ).通过使用不可分辨关系,定义元素a 对集合X 的粗糙隶属函数如下μRX (a )=|X ∩[a ]R ||[a ]R |.(5)显然0≤μRX ≤1,粗糙隶属函数也可以用来定义集合X 的上、下逼近和边界区.现举例说明粗糙集的概念.论域U 及等效关系R ={R 1,R 2}采用如下定义:U ={x 1,x 2,x 3,x 4,x 5,x 6,x 7,x 8,x 9,x 10},U/R 1={{x 1,x 2,x 3,x 4},{x 5,x 6,x 7,x 8,x 9,x 10}},U/R 2={{x 1,x 2,x 3},{x 4,x 5,x 6,x 7},{x 8,x 9,x 10}},U/R ={{x 2,x 3},{x 4},{x 5,x 6,x 7},{x 8,x 9,x 10}}.则关于集合X ={x 1,x 2,x 3,x 4,x 5}的逼近为POS (X )={x 4},NEG (X )={x 8,x 9,x 10},BN (X )={x 1,x 2,x 3,x 5,x 6,x 7}.{x 4}是集合X 的正区,因为x 4肯定属于X ;{x 8,x 9,x 10}肯定不属于X ,因此为X 的负区;{x 1,x 2,x 3,x 5,x 6,x 7}是否属于X 在等效关系R 下无法确定,构成了X 的边界区.2.3　决策表、约简与核(Decision table ,reduct and core )RS 理论中应用决策表来描述论域中对象.它是一张二维表格,每一行描述一个对象,每一列描述对象的一种属性.属性分为条件属性和决策属性,论域中的对象根据条件属性的不同,被划分到具有不同决策属性的决策类.表1为一张决策表,论域U 有5个对象,编号1～5,{a ,b ,c}是条件属性集,d 为决策属性.对于分类来说,并非所有的条件属性都是必要的,有些是多余的,去除这些属性不会影响原来的分类效果.约简(reduct )定义为不含多余属性并保证分类正确的最小条件属性集.一个决策表可能同时存在几个约简,这些约简的交集定义为决策表的核(core ),核中的属性是影响分类的重要属性.表1化简后得到了两个约简:{a ,c}和{b ,c},见表2和表3.它们维持了与原有条件属性集{a ,b ,c}相同的分类能力.{c}是核,表明c 是影响分类的重要属性.表1　决策表T able 1　Decision tableUabcd110212210232123412215123表2　约简{a ,c}T able 2　Reduct {a ,c}Uacd112122023223513表3　约简{b ,c}T able 3　Reduct {b ,c}Ubcd10312102312342215203 从另一个角度看,决策表中每一个对象都蕴含着一条分类规则,决策表实际上也是一组逻辑规则的集合.例如表1中的对象1蕴含的规则是a 1b 0c 2]d 1.化简决策表的过程也就是抽取分类规则的过程.表2中对象4在去掉属性b 后154　控制理论与应用16卷　与对象1蕴含相同的分类规则,为避免重复而被除去.约简中的规则还可进一步化简,删除那些与分类无关的次要属性.表3第一行中的“3”表示属性c的取值不重要,即只要b =0,d一定为1(b0]d1).“约简”和“核”这两个概念很重要,是RS方法的精华. RS理论提供了搜索约简和核的方法.计算约简的复杂性随着决策表的增大呈指数增长,是一个典型的NP完全问题,当然实际中没有必要求出所有的约简.引入启发式的搜索方法如遗传算法[10]有助于找到较优的约简,即所含条件属性最少的约简.3　粗糙集理论的特点(Features of rough set theory)1)RS不需要先验知识.模糊集和概率统计方法是处理不确定信息的常用方法,但这些方法需要一些数据的附加信息或先验知识,如模糊隶属函数和概率分布等,这些信息有时并不容易得到.RS分析方法仅利用数据本身提供的信息,无须任何先验知识.2)RS是一个强大的数据分析工具.它能表达和处理不完备信息;能在保留关键信息的前提下对数据进行化简并求得知识的最小表达;能识别并评估数据之间的依赖关系,揭示出概念简单的模式;能从经验数据中获取易于证实的规则知识,特别适于智能控制.3)RS与模糊集分别刻划了不完备信息的两个方面[5]: RS以不可分辨关系为基础,侧重分类,模糊集基于元素对集合隶属程度的不同,强调集合本身的含混性(vagueness).从RS的观点看,粗糙集合不能清晰定义的原因是缺乏足够的论域知识,但可以用一对清晰集合逼近.有关RS和模糊集内在联系的阐述及模糊粗糙集(fuzzy2rough set)的概念,请参见文[6～8].RS和证据理论也有一些相互交叠之处[9],在实际应用中可以相互补充.4　粗糙集理论的应用(Applications of rough set theo2 ry)RS理论的生命力在于它具有较强的实用性,从诞生到现在虽然只有十几年的时间,但已经在许多领域取得了令人鼓舞的成果.1)股票数据分析.文[11]应用RS方法分析了十年间股票的历史数据,研究了股票价格与经济指数之间的依赖关系,获得的预测规则得到了华尔街证券交易专家的认可.2)模式识别.文[12]应用RS方法研究了手写字符识别问题,提取出了特征属性.3)地震预报.文[13]研究了地震前的地质和气象数据与里氏地震级别的依赖关系.4)冲突分析.文[14]应用RS方法建立了反映以色列、巴勒斯坦、约旦、埃及、叙利亚和沙特阿拉伯等六国关于中东和平问题各自立场的谈判模型.5)从数据库中知识发现(knowledge discovery in database, K DD)[15,16].K DD又称数据发掘(data mining),是当前人工智能和数据库技术交叉学科的研究热点之一.RS方法现已成为K DD的一种重要方法,其导出的知识精练且更便于存储和使用.6)粗糙控制(rough control)[17～23].RS根据观测数据获得控制策略的方法被称为从范例中学习(learning from exam2 ples),属于智能控制的范畴.基本步骤是:把控制过程中的一些有代表性的状态以及操作人员在这些状态下所采取的控制策略都记录下来,形成决策表,然后对其分析化简,总结出控制规则[17,18].形式为:IF C ondition=N满足THE N采取De2 cision=M.RS方法是一类符号化分析方法,需要将连续的控制变量离散化,为此Pawlak Z提出了粗糙函数(rough func2 tion)的概念[19],为粗糙控制打下了理论基础.文[20,21]应用粗糙控制研究了“小车—倒立摆系统”这一经典控制问题,取得了较好的结果.在过程控制领域,文[22]应用RS方法成功地提取出了水泥窑炉的控制规则.粗糙控制的优点是简单迅速、实现容易,不需要象Fuzzy控制那样进行模糊化和去模糊化.因此在特别要求控制器结构与算法简单的场合,采取粗糙控制较为合适.另外,由于控制算法完全来自观测数据本身,其决策和推理过程可以很容易被检验和证实.一种新的有吸引力的控制策略“模糊2粗糙控制(fuzzy2rough control)”正悄然兴起,其主要思路是利用RS获取模糊控制规则.7)医疗诊断.RS方法根据以往的病例归纳出诊断规则,用来指导新的病例.现有的人工预测早产的准确率只有17%～38%,应用粗糙集理论则可提高到68%～90%[1].8)专家系统(ES).RS抽取规则的特点,为构造ES知识库提供了一条崭新的途径[24].9)人工神经元网络(ANN).训练时间过于漫长的固有缺点是制约ANN实用化的因素之一.文[25]应用RS化简神经网络训练样本数据集,在保留重要信息的前提下消除了多余的数据,使训练速度提高了4177倍,获得了较好的效果.文[26,27]将RS与ANN结合起来,充分利用RS处理不确定性的特长以增强ANN的信息处理能力.10)决策分析[28～30].RS的决策规则是在分析以往经验数据的基础上得到的.RS允许决策对象中存在一些不太明确、不太完整的属性,弥补了常规决策方法的不足.希腊工业发展银行ETE VA应用RS理论协助制订信贷政策,是RS多准测决策方法的一个成功范例.RS理论的应用领域还包括:近似推理[31,32]、软件工程数据分析[33]、图象处理[34]、材料科学中的晶体结构分析[35]、预测建模[36,37]、结构建模[38]、投票分析[39]、电力系统[40,42]等. RS在我国的研究刚刚起步,有关文献还不多[43～44].5　结束语(C onclusion)虽然RS至今只有十几年的发展历史,但取得的研究成果是令人瞩目的.它是一种较有前途的软计算方法,为处理不确定性信息提供了有力的分析手段[45].我们相信RS具有广阔的发展空间,今后会在更多的实际领域中发挥作用.致谢　波兰华沙工业大学计算机科学研究所(Institute of C om puter Science,Warsaw University of T echnology)的Zdzislaw Pawlak教授和Bozena Skalska博士赠送了部分研究报告,在此向他们表示感谢.　1期粗糙集理论及其应用综述155参考文献(References)1　Pawlak Z et al.R ough sets.C ommunications of AC M,1995,38(11):89 -952　Pawlak Z.R ough sets.International Journal of In formation and C om puter Science,1982,(11):341-3563　Pawlak Z.R ough set-theoretical aspects of reas oning about data.D or2 drecht:K luwer Academ ic Publishers,19914　S lowinski R.Intelligent decision support-handbook of applications and advances of the rough sets theory.D ordrecht:K luwer Academ ic Publish2 ers,19925　Pawlak Z.Vagueness and uncertainty-a rough set perspective.C om puta2 tional Intelligence,1995,11(2):227-2326　W ygralak M.R ough sets and fuzzy sets-s ome remarks on interrelations.Fuzzy Sets and Systems,1989,29(3):241-2437　Nanda S et al.Fuzzy rough sets.Fuzzy Sets and Systems,1992,45(2): 157-1608　Banerjee M and Pal S K.R oughness of a fuzzy set.In formation Sciences, 1996,93(3,4):235-2469　Skowton A et al.From rough set theory to evidence theory.Advances in the Dem pster Shafer Theory of Evidence.New Y ork:John W iley&S ons Inc.,1994,193-23610　Jakub W.Finding m inimal reducts using genetic alg orithm.Institute ofC om puter Science Reports,W arsaw University of T echnology,W arsaw,199511　G olan R and Z iarko W.M ethodology for stock market analysis utilizing rough set theory.Proc.of IEEE/IAFE C on ference on C om putational In2 telligence for Financial Engineering,New Jersey,1995,32-4012　Nejman D.A rough set based method of handwritten numerals classifica2 tion.Institutc of C om puter Science Reports,W arsaw University of T ech2 nology,W arsaw,199413　T eghem J et e of rough sets method to draw prem onitory factors for earthquakes by em phasizing gas geochem istry.In:Intelligent Decision Support-Handbook of applications and Advances of the R ough Sets Theory.D ordrecht:K luwer Academ ic Publishers,1992,165-17914　Deja R.C on flict m odel with neg otiations.In:Institute of C om puter Sci2 ence Reports.W arsaw University of T echnlolgy,W arsaw,199515　Hu X iaohua et al.M ining knowledge rules from databases-a rough set approach.Proc.of IEEE International C on ference on Data Engineering, Los Alam itos,1996,96-10516　Tsum oto Sh et al.Extraction of domain knowledge from databases based on rough set theory.IEEE International C on ference on Fuzzy Systems, New Jersey,1996,748-75417　S ienkiewicz J.R ough set and rough function approaches to the control al2g orithm reconstruction.Institute of C om puter Science Reports,W arsaw U2niversity of T echnology,W arsaw,199618　Mrozek A et al.M ethodology of rough controller synthesis.Proc.of IEEE International C on ference on Fuzzy Systems,New Jersey,1996,1135-113919　Pawlak Z.R ough sets,rough relations and rough functions.Fundamenta In formaticae,1996,27(2,3):103-10820　Plonka L and Mrozek A.Rule2based stabilization of the inverted pendu2lum.C om putational Intelligence,1995,11(2):348-35621　C z ogala E et al.Idea of a rough fuzzy controller and its application to the stabilization of a pendulum2car system.Fuzzy Sets and systems,1995,72(1):6127322　Mrozek A.R ough sets and dependency analysis am ong attributes in com2 puter im plementations of expert’s in ference m odels.International Journal of M an2M achine S tudies,1989,30(4):457-47323　Arima M et al.Fuzzy logic and rough sets controller for HVAC systems.Proc.of IEEE WESCANEX C ommunications,P ower,and C om puting, New Y ork,1995,133-13824　Tsum oto S et al.Automated discovery of medical expert system rules from clinical databases based on rough sets.Proc.of Second InternationalC on f.on K nowledge Discovery and Data M ining,US A,1996,63-7225　Jelonek J et al.R ough set reduction of attributes and their domains for neural netw orks.C om putational Intelligence,1995,11(2):339-34726　Peng C et al.Multi2valued neural netw ork and the knowledge acquisition method by the rough sets for ambiguous recognition problem.Proc.of the IEEE International C on ference on Systems,M an and Cybernetics,Bei2 jing,1996,736-74027　Y asdi R.C ombining rough sets learning and neural learning2method to deal with uncertain and im precise in formation.Neurocom puting,1995,7(1):61-8428　S lowinski R.R ough set approach to decision analysis.AI Expert,M arch 1995,19-2529　Pawlak Z.R ough set approach to knowledge2based decision support.In2 stitute of C om puter Science Reports,W arsaw University of T echnology, W arsaw,199530　S lowinski R et al.R ough set s orting of firms according to bankruptcy risk.In:Applying Multiple Criteria aid for Decision to Environment M an2 agement,D ordrecht:K luwer Academ ic Publishers,1994,339-35731　S lowinski R et al.R ough set reas oning about uncertain data.Fundamenta In formaticae,1996,27(2,3):229-24332　Pars ons S et al.A rough set approach to reas oning under uncertainty.Journal of Exprimental and Theoretical AI,1995,7(2):175-19333　Ruhe Gand G esselschaft F.R ough set based data analysis in g oal2orient2 ed s oftware measurement.Proc.of IEEE International s oftware M etrics Sym posium,Los Alam itos,1996,10-1934　W ojcik Z et al.Application of rough sets for edge enhancing image fil2 ters.Proc.of IEEE International C on ference on Image Processing,Los Alam itos,1994,525-52935　Jacks on A et al.R ough sets applied to materials data.Acta M aterialia, 1996,44(11):4475-448436　C ollette T and S zladow e rough sets and spectral data for building predictive m odels of reaction rate constants.Applied S pectroscopy, 1994,48(11):1379-138637　Aijun A et al.Discovering rules for water demand prediction-an en2 hanced rough set approach.Engineering Applications of Artificial Intelli2 gence,1996,9(6):645-65338　W ojcik Z et al.S tructural m odeling using rough sets.Proc.of IEEE Inter2 national C on ference on Fuzzy Systems,New Jersey,1996,761-76639　Nurm i H et al.Probabilistic,fuzzy and rough concepts in s ocial choice.European Journal of Operational Research,1996,95(2):264-277156　控制理论与应用16卷　40　Lambert2T orres G et al.Data M ining into a C ontrol Center Database via R ough Set T echniques.Proc.of the International C on ference on Intelli2 gent Systems Applications to P ower Systems(IS AP’97),Seoul,1997, 246-25041　Zhang Q,Han Z X and W en F S.A new approach for fault diagnosis in power systems based on rough set theory.Proceedings of APSCOM’97,H ong K ong,1997,597-60242　张琦,韩祯祥,文福拴.一种基于粗糙集方法的电力系统故障诊断/警报处理的新方法.中国电力,1998,31(4):32-3843　王珏,苗夺谦,周育键.关于R ough Set理论与应用的综述.模式识别与人工智能,1996,9(4):337-34444　曾黄麟.粗集理论及其应用.重庆:重庆大学出版社,199845　E wa Orlowska(ed.).Incom plete in formation2rough set analysis.New Y ork:Physica2Verlag,1998本文作者简介韩祯祥　1930年生.浙江大学教授,博士生导师.研究领域为软计算方法及其在电力系统中的应用.张　琦　1971年生.浙江大学在读博士生.研究方向为粗糙集理论在电力系统中的应用.文福拴　1965年生.浙江大学教授,博士生导师.研究领域为软计算方法在电力系统中的应用.　1期粗糙集理论及其应用综述157。

粗糙集理论的应用领域及研究现状

粗糙集理论的应用领域及研究现状摘要：粗糙集理论是一种基于不完备信息的数学模型，具有广泛的应用领域。

本文将介绍粗糙集理论的基本概念和原理，并探讨其在数据挖掘、模式识别、决策分析等领域的应用。

同时，还将介绍粗糙集理论在实际研究中的现状和挑战。

1. 引言粗糙集理论是由波兰学者Pawlak于1982年提出的一种基于不完备信息的数学模型。

它通过将数据集划分为等价类，可以有效地处理不确定和模糊的信息。

粗糙集理论在多个学科领域中得到了广泛的应用，如数据挖掘、模式识别、决策分析等。

2. 粗糙集理论的基本概念和原理粗糙集理论的核心概念是“粗糙集”，它是指在不完备信息条件下，将数据集划分为等价类的过程。

在粗糙集理论中，等价类被称为“粗糙集”，而等价类之间的差异被称为“粗糙度”。

粗糙度越小，等价类之间的差异越小，数据集的信息越完备。

粗糙集理论的基本原理是“下近似”和“上近似”。

下近似是指用最少的信息描述数据集的特征，上近似是指用尽可能多的信息描述数据集的特征。

通过下近似和上近似的计算，可以得到数据集的粗糙集，从而实现对不完备信息的处理。

3. 粗糙集理论在数据挖掘中的应用数据挖掘是从大量数据中发现隐藏模式和知识的过程。

粗糙集理论在数据挖掘中可以用于特征选择、属性约简和规则提取等任务。

通过粗糙集理论，可以从复杂的数据集中挖掘出有用的模式和规律，帮助人们更好地理解数据集的结构和特征。

4. 粗糙集理论在模式识别中的应用模式识别是通过对数据进行分类和识别，从而实现对数据的理解和分析。

粗糙集理论在模式识别中可以用于特征选择、模式分类和模式识别等任务。

通过粗糙集理论，可以对数据进行有效的特征选择，提高模式识别的准确性和效率。

5. 粗糙集理论在决策分析中的应用决策分析是通过对决策问题进行建模和分析，从而实现对决策的优化和改进。

粗糙集理论在决策分析中可以用于决策规则的提取和决策的评估。

通过粗糙集理论，可以从决策问题中提取出有用的规则和知识，帮助人们做出更好的决策。

粗糙集理论与方法

粗糙集理论与方法
粗糙集理论与方法是一种用于处理不确定性和不完全信息的数学方法。

该方法最早由波兰科学家Zdzislaw Pawlak于1982年提出，其基本思想是基于约简和分割的思想对样本空间进行建模和分析。

粗糙集理论主要包括以下几个关键概念和步骤：
1. 近似集：粗糙集理论认为，一个对象可能属于多个不同的概念或类别，且我们不能确定其准确的分类。

因此，利用近似集的概念，我们可以将对象分成精确区域和不确定区域。

精确区域是指可以准确分类的对象，而不确定区域是指不能确定分类的对象。

2. 上近似和下近似：在粗糙集理论中，上近似是指包含所有精确分类对象的集合，而下近似是指包含所有不确定分类对象的集合。

上近似和下近似的交集被称为约简。

3. 属性重要性：对于给定的属性，粗糙集理论可以通过属性重要性来判断其对分类结果的贡献程度。

属性重要性可以通过信息熵、信息增益等指标来度量。

4. 属性约简：属性约简是粗糙集理论中的一个重要步骤，它的目的是通过删除某些不重要的属性来减少样本空间的复杂性，同时保持样本分类的准确性。

属性约简可以通过贪婪算法、遗传算法等进行求解。

粗糙集理论与方法在数据挖掘、决策分析、模式识别等领域具有广泛应用。

它可以处理不完整、不确定、模糊等问题，帮助人们对复杂的数据进行分析和决策。

粗糙集理论及其用于属性约简

粗糙集理论及其用于属性约简在自然科学、社会科学与工程技术的很多领域中，都不同程度地涉及到对不确定因素和不完备信息的处理。

从实际系统中采集到的数据常常包含着噪声、不精确甚至不完整，采用纯数学上的假设来消除或回避这种不确定性，效果往往不理想。

多年来，研究人员们一直在努力寻找科学地处理不完整性和不确定性的有效途径，并先后提出了众多的软计算(Soft Computing)方法。

软计算的指导原则是利用所允许的不精确性、不确定性和部分真实性得到易于处理、鲁棒性强和成本较低的解决方案，以便更好地与现实系统相协调，主要工具包括粗糙集（Rough sets）、模糊逻辑(Fuzzy Logic)、神经网络（Nerve Network）、概率推理(Probability Reasoning)、信度网络(Belief Network)、遗传算法（Genetic Arithmetic）、混沌理论(Chaos)等。

粗糙集（Rough Sets，也称粗集、Rough集)理论是由波兰华沙理工大学Pawlak 教授于20 世纪80 年代初提出的一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法。

粗糙集方法的一个特点是不需要附加信息或先验知识，而这一点是其它方法无法做到的，如模糊集方法与概率统计或证据理论方法中，往往需要模糊隶属函数、基本概率指派函数(Basic Probability Assignment, BPA)和有关统计概率分布等，而这些信息有时并不容易得到。

正是基于这一优点，粗糙集理论得以迅速兴起，并逐渐成为人工智能界以及其它处理不确定性领域的研究热点。

粗糙集的研究对象是由一个多值属性集合描述的一个对象集合，对于每个对象及其属性都有一个值作为其描述符号，对象、属性和描述符号是表达决策问题的三个基本要素。

这种表达形式也可以看成为一个二维表格，即决策表；表格的行与对象相对应，各行包含了表示相应对象信息的描述符，还有关于各个对象的类别成员的信息；列对应于对象的属性，属性分为条件属性和决策属性，对象根据条件属性的不同，被划分到具有不同决策属性的决策类。

粗糙集理论简介及基本原理

粗糙集理论简介及基本原理粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具，它由波兰数学家Pawlak于1982年提出。

粗糙集理论的核心思想是通过对数据进行粗糙化，将数据集划分为不同的等价类，以便更好地理解和描述数据的特征和规律。

粗糙集理论的基本原理是基于信息的不完备性和不确定性。

在现实世界中，我们往往无法获取到完整和精确的信息，数据中可能存在噪声、缺失或冲突等问题。

粗糙集理论通过对数据进行粗糙化，将不确定的数据转化为一组等价类，从而更好地处理这些问题。

粗糙集理论的核心概念是粗糙集和约简。

粗糙集是指在数据集中，存在一些元素无法被确定地分类到某个等价类中，即存在不确定性。

而约简则是指通过消除冗余和保留核心信息，将原始数据集简化为一个更小的等价类集合。

通过约简，我们可以减少数据集的复杂性，提取出数据中的关键特征和规律。

在粗糙集理论中，最常用的方法是基于属性约简。

属性约简是指通过选择一部分重要的属性，来代表整个数据集的特征和规律。

在实际应用中，数据集往往包含大量的属性，其中某些属性可能是冗余的或无关的。

通过属性约简，我们可以提取出最具代表性的属性，从而减少数据集的维度和复杂性。

粗糙集理论在各个领域都有广泛的应用。

在数据挖掘领域，粗糙集理论可以用于特征选择、分类和聚类等任务。

通过约简，我们可以选择出最具代表性的特征，从而提高分类和聚类的准确性和效率。

在决策支持系统中，粗糙集理论可以用于帮助决策者进行决策分析和风险评估。

通过对数据进行粗糙化和约简，我们可以更好地理解和描述决策问题，从而提供决策支持。

总之，粗糙集理论是一种处理不确定性和模糊性问题的有效工具。

它通过对数据进行粗糙化和约简，提取出数据的核心特征和规律，从而帮助我们更好地理解和处理现实世界中的复杂问题。

粗糙集理论在各个领域都有广泛的应用，为我们提供了一种全新的思维方式和分析工具。

第五讲：粗糙集(Rough Set)

第三节粗糙集（Rough Set，RS）如果我们将研究对象看成是现象，那么我们可以将这些现象分类。

现象被分为确定现象与不确定现象。

不确定现象有分为随机现象，模糊现象和信息不全的粗糙现象。

如下所示：⎧⎪⎪⎧⎪⎪⎨⎪⎪⎨⎪⎪⎪⎪⎩⎩∈确定现象随机现象，0－1律，多种可能性满足分布规律。

现象不确定现象模糊现象，律属度Î(0，1），不是非此即彼。

粗糙现象，研究那些因为信息不充分而导致的不确定性相对于前两种现象的处理，粗糙现象是基于不完全的信息或知识去处理不分明的现象，因此需要基于观测或者测量到的部分信息对数据进行分类，这就需要与概率统计和模糊数学不同的处理手段，这就是粗糙集理论。

直观地讲，粗糙集是基于一系列既不知道多了还是少了，也不知道有用还是没用的不确定、不完整乃至于部分信息相互矛盾的1数据或者描述来对数据进行分析、推测未知信息。

下面我们对粗糙集的基本特征、以及数学符号进行简述。

1．粗糙集的特点粗糙集的特点是利用不精确、不确定、部分真实的信息来得到易于处理、鲁棒性强、成本低廉的决策方案。

因此更适合于解决某些现实系统，比如，中医诊断，统计报表的综合处理等。

粗糙集的另一个重要特点就是它只依赖于数据本身，不需要样本之外的先验知识或者附加信息，因此挑选出来的决策属性可以避免主观性，有英雄不问出身的意味。

用粗糙集来处理的数据类型包括确定性的、非确定性的、不精确的、不完整的、多变量的、数值的、非数值的。

粗糙集使用上、下近似来刻画不确定性，使得边界有了清晰的数学意义并且降低了算法设计的随意性。

3．粗糙集的基本概念粗糙集要涉及论域U（这与模糊系统相似），还要涉及属性集合R C D=（这被认为是知识，或者知识库）。

当然，也要有属性值域V，以及信息函数f：U R V⨯→的。

因此，一个信息系统S可以表示为一个四元组{}=。

在不混淆的情况下，简记为(,)S U R V f,,,=，S U R23 也称为知识库。

等价关系（通常用来代替分类）是不可或缺的概念，根据等价关系可以划论域中样本为等价类。

粗糙集理论与应用研究综述

粗糙集理论与应用研究综述粗糙集理论是不确定性信息处理的一种数学工具，是由波兰科学家佩德罗泽文斯基于1982年提出的。

粗糙集理论通过将数据划分成不同的等价类，来描述不确定性的知识和推理过程。

在实际应用中，粗糙集理论被广泛应用于模式识别、数据挖掘、决策支持系统等领域。

粗糙集理论的核心思想是基于粗糙近似。

在数据集中，有些数据可能存在不确定性，即一个数据对象可能属于多个等价类。

为了处理这种不确定性，粗糙集理论引入了下近似集和上近似集的概念。

下近似集是所有能包含该数据对象的最小等价类的集合，上近似集是能被该数据对象覆盖的最大等价类的集合。

通过对下近似集和上近似集的分析，可以获得对不确定性的更准确的描述。

粗糙集理论的核心内容包括等价关系的建立和精化、下近似集和上近似集的计算、知识规约等。

等价关系的建立和精化主要是通过观察数据集中的属性值之间的关系，构建等价关系矩阵，并通过矩阵的交叉点进行精化。

下近似集和上近似集的计算是通过迭代和剪枝操作，依次计算各个属性的下近似集和上近似集。

知识规约是利用粗糙集理论对数据集进行简化，去除不必要的属性，提取出核心属性和决策规则。

在模式识别中，粗糙集理论可以用于特征选择和特征提取。

特征选择是指从原始数据集中选择出最具有代表性和判别能力的特征子集，以便提高分类器的性能。

特征提取是通过对原始特征进行数学变换，将其转化为新的特征空间，以便更好地区分和分类数据。

粗糙集理论可以帮助识别出具有决策不确定性的特征，并提供精确的决策规则。

在数据挖掘中，粗糙集理论可以用于发现数据之间的相互关系和规律。

通过对数据集进行粗糙集分析，可以得到不同属性之间的依赖关系，以及属性与决策之间的关系。

基于这些关系，可以发现隐藏在数据集中的模式和规律，帮助用户进行预测和决策。

在决策支持系统中，粗糙集理论可以用于辅助决策过程中的信息处理和决策分析。

通过对决策问题进行粗糙集建模，可以对决策过程中的不确定性进行量化，并提供决策规则和优化方案。

粗糙集理论的入门指南

粗糙集理论的入门指南粗糙集理论是数学领域中的一种理论，它源于20世纪80年代的波兰学者Zdzisław Pawlak的研究工作。

粗糙集理论被广泛应用于数据挖掘、模式识别、决策分析等领域，它提供了一种处理不完备、模糊和不确定信息的方法。

一、粗糙集理论的基本概念在了解粗糙集理论之前，我们需要了解一些基本概念。

粗糙集理论主要涉及到以下几个概念：1. 上近似和下近似：粗糙集理论中的一个核心概念是近似。

给定一个数据集，上近似是指用最少的信息来描述数据集中的对象，下近似是指用最多的信息来描述数据集中的对象。

2. 等价关系：在粗糙集理论中，等价关系是指将数据集中的对象划分为不同的等价类。

等价关系可以用来描述数据集中的相似性。

3. 决策属性：决策属性是指在数据集中用来区分不同类别的属性。

在粗糙集理论中，决策属性是决策规则的基础。

二、粗糙集理论的应用粗糙集理论在实际应用中具有广泛的应用价值。

以下是一些常见的应用领域：1. 数据挖掘：粗糙集理论可以用于数据挖掘中的特征选择和分类问题。

通过分析数据集中的属性之间的关系，可以找到最具有代表性的属性，从而提高数据挖掘的效果。

2. 模式识别：粗糙集理论可以用于模式识别中的特征提取和模式分类。

通过对数据集中的特征进行分析，可以提取出最具有代表性的特征，从而实现模式的识别。

3. 决策分析：粗糙集理论可以用于决策分析中的决策规则的生成和评估。

通过对数据集中的属性进行分析，可以生成一组决策规则，从而帮助决策者做出正确的决策。

三、粗糙集理论的优点和局限性粗糙集理论作为一种处理不完备、模糊和不确定信息的方法，具有以下优点：1. 简单易懂：粗糙集理论的基本概念和方法相对简单，易于理解和应用。

2. 适用范围广：粗糙集理论可以应用于各种领域，包括数据挖掘、模式识别、决策分析等。

然而，粗糙集理论也存在一些局限性：1. 计算复杂度高：在处理大规模数据集时，粗糙集理论的计算复杂度较高，需要消耗大量的计算资源。

粗糙集理论综述

粗糙集理论综述作者：袁红杰陆永耕程松辽贾竹青来源：《科学与财富》2018年第18期摘要：粗糙集理论是一种新的分析和处理不精确、不一致、不完整信息与知识的数学工具，为智能信息处理提供了有效的处理技术，近年来，被广泛应用于专家系统、图像处理、模式识别、决策分析等领域。

文中介绍了关于粗糙集的基本理论，并对其在各领域的应用情况进行了综述。

关键词：粗糙集理论；不确定性；知识约简0 引言粗糙集理论由波兰华沙理工大学Z.Pawlak教授于1982年首先提出，通过结合逻辑学和哲学中对不精确、模糊的定义，针对知识和知识系统提出了知识简约、知识依赖、知识表达系统等概念，并在此基础上形成了完整的理论体系——粗糙集理论。

粗糙集理论把知识看作关于论域的划分，认为知识是有粒度的，而知识的不精确性是由知识的粒度过大引起的。

从 1992年至今，每年都要以粗糙集为主题召开国际会议，近两年，召开的关于粗糙集的会议有2015年国际粗糙集联合会议和2016年第十六届中国粗糙集与软计算联合学术会议。

粗糙集越来越受到各行业专家和科研人员的重视，随着对粗糙集理论研究的不断加深，越来越多的领域开始运用粗糙集解决问题。

（一）.粗糙集理论1.1 知识与知识系统将研究对象构成的集合记为U，这是一个非空有限集，称为论域U，任何子集，称其为U中的一个概念或范畴。

把U中任何概念族都称为关于U的抽象知识，简称知识。

R是U上的一个等价关系，由它产生的等价类可记为，这些等价类构成的集合是关于U 的一个划分。

若，且P≠φ，则∩P也是一种等价关系，称为P上不可分辨关系，记为ind （P）：。

1.2 粗糙集与不精确范畴给定知识库K=（U，Q），对于每个子集和一个等价关系 R ind（Q），定义在知识系统U/R下集合X 的下近似为：上近似表示属于X的对象组成的最小集合，即X的正域，记为，而肯定不属于X的对象组成的集合称为X的负域，记为。

在知识系统U/R下集合 X 的上近似为：上近似是可能属于X的对象组成的最小集合。

粗糙集理论及进展的研究

收稿日期:2006-07-07基金项目:安徽省教育厅自然科学研究项目(2006K J063B )作者简介:纪　滨(1970-),男,江苏人,讲师,硕士,研究方向为人工智能、信息安全。

粗糙集理论及进展的研究纪　滨(安徽工业大学计算机学院,安徽马鞍山243002)摘　要:粗糙集理论是一种较新的软计算方法,是分析和处理不完备信息的一种有效工具。

目前已在人工智能、知识与数据发现、模式识别与分类、故障检测等方面得到了广泛应用。

文中描述了粗糙集的基本理论,分析了粗糙集理论研究的最新进展,指出了粗糙集理论研究中存在的问题,并对粗糙集理论研究的发展趋势进行了展望。

关键词:粗糙集;知识发现;属性约简;规则提取;数据挖掘中图分类号:TP301.6;TP18 文献标识码:A 文章编号:1673-629X (2007)03-0069-04R esearch on Rough Set Theory and Its Progress on ApplicationsJ I Bin(School of Computer Science ,Anhui University of Technology ,Maanshan 243002,China )Abstract :Rough set theory is a relatively new computing method and tool to analyze and deal with vagueness and uncertainty effectively.It has been widely used in the area of AI ,data mining ,pattern recognition ,fault diagnostics etc.The basic rough set theory is described.Recent studies and the existing problems of rough set theory are analyzed.Future research directions are predicted.K ey w ords :rough set ;knowledge discovery ;attribute reduction ;rule abstraction ;data mining0　前　言粗糙集(RS )理论是一种刻画不完整性和不确定性的数学工具,能有效分析和处理不精确、不一致和不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。

Rough集理论及其应用发展

１４图像分类．
的，该理论对人工智能（Ｉ和认知科学尤为重要，Ａ）
在专家系统、策支持系统、决机器学习、机器发现、归纳推理、模式识别、策表等方面都有成功的应决
作者简介：微（９４）女，宁葫芦岛人，国传媒大学讲师，士生，事生声场仿真与声音信号处理方向研究巩１７一，辽中博从收稿日期：０６１舶２０．ｌ
１Ｒｕｈ集最新应用的现状ｏｇ
Ｒｕｈｏｇ集理论已被证实在实践中是非常有用
最新的文献利用Ｒｕ集理论辅助推理实现ｏｇｈ
专家系统，文献［］，４中在进行故障推理诊断时，根
据利用Ｒｕ集方法约简后的故障信号表对照分ｏｇｈ析，确定推理路径，简化推理过程．
趋势．文中较为重要的创新之处的是，于粗糙神经网络构造了一种从虚拟的场景图像智能化地直接推论基测符合主观听感的音质效果参数的模型．
关键词：ｏｇＲｕｈ集；经网络；能控制．神智中图分类号：Ｐ７Ｔ２４文献标识码：Ａ文章编号：００５４（０７０．７．３１０－８６２０）１０８００
完整等各种不完备信息，并从中发现隐含的知识，
揭示潜在的规律，是一种重要的软计算技术 … ．其
主要思想是在保持分类能力不变的前提下，过通知识约简，出概念的分类原则．ｏｇ集理论是导Ｒｕｈ基于不可分辨的思想和知识简化的方法，数据从

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

粗糙集理论及其发展
作者：张也驰
来源：《管理观察》2010年第16期
摘要:粗糙集理论以其出色的处理模糊和不确定知识的能力,在数据挖掘领域占据了越来越重要的地位。

文章首先描述了粗糙集理论的核心思想,接着介绍了粗糙集理论在不完备信息系统领域的扩充,最后论述了粗糙集理论的应用发展以及未来的研究方向。

关键词:粗糙集机器学习不完备信息系统数据挖掘
1.引言
粗糙集理论[1]是由波兰数学家Z. Pawlak于20世纪80年代提出的一种新的处理不精确性和不确定性信息的数学方法。

之后国内外许多学者对粗糙集理论及其应用进行了坚持不懈的研究。

1991年,Pawlak出版了第一本关于粗糙集理论的专著,详细介绍了粗糙集的理论基础,它奠定了粗糙集理论的基础,但由于最初关于粗糙集理论的研究大部分是用波兰语发表的,当时并没有引起国际计算机学界和数学界的重视;1992年,在波兰Kiekrz召开了第一届国际粗糙集研讨会,从此每年一次以粗糙集理论为主题的国际研讨会以及粗糙集学术研究会的成立,推动了国际上对粗糙集理论与应用的深入研究。

1995年,Z. Pawlak概括性地介绍了粗糙集理论[2]的基本概念及其具体研究进展。

我国对粗糙集理论的研究起步较晚。

粗糙集理论是建立在分类机制基础上的,它将知识理解为对数据的划分,每一个被划分的集合称为概念或范畴,其主要思想是利用已有的知识库,将不精确知识用已知知识库中的知识来(近似)刻画。

与其他处理不精确性和不确定性信息的理论相比,该理论的一个最主要的优点是其无需提供任何除现有知识以外的任何先验知识,从而具有相当的客观性。

近年来,由于粗糙集理论在人工智能和认知科学中日益呈现出的重要性和优越性,特别是在机器学习、数据挖掘、决策分析、数据库知识发现、专家系统、决策支持系统、归纳推理和模式识别等领域,受到越来越多的研究人员的关注。

2.粗糙集理论的基本概念
粗糙集理论作为一种处理模糊和不确定性知识的数学工具,其主要思想是在保持分类能力不变的前提下,经过知识约简,导出问题的决策或分类规则。

即粗糙集理论是建立在不可分辨关系基础知识的,不可分辨关系构成了粗糙集理论的数学基础。

2.1 知识表达系统和决策表
定义1[3] 形式上,一个知识表达系统是一个四元组S=(U,A,V,f)是一个知识表达系统,其中U 是对象的非空有限集合,称为论域;A为属性的非空有限集合;V=■Va,Va是属性a的值
域;f:U×A→V是一个信息函数,它为每个对象的每个属性赋予一个信息值,即
Va∈A,X∈U,f(x,a)∈Va。

知识表达系统也称为信息系统,通常也用S=(U,A)也表示。

决策表是
一类特殊而重要的知识表达系统,多数决策系统问题都可以用决策表形式来表达。

在知识表达系统中,如果A=C∪D,C∩D=?椎,则S称为一决策系统。

定义2[3] 对知识表达系统S=(U,A,V,f),令P?哿A,称属性集P的不可分辨关系为
ind(P)={(x,y)∈U×U|Aa∈P,f(x,a)=f(y,a)}。

不可分辨关系ind(P)是U上的等价关系,由ind(P)导出的所有等价类集合记为U/P,它构成了论域U的一个划分,含有元素x的等价类记为[x]p。

2.2 粗糙集与近似
定义3[3] 对于知识表达系统S=(U,A,V,f),令X?哿U,R?哿A,则定义X的R下近似为
■X={x∈U|[x]R?哿X},X的R上近似为■X{x∈U|[x]R∩X≠?椎}。

在此基础上,定义bnR(X)=■X-■X为X的R边界域,posR(X)=■X为X的R正域,negR(X)=U-■X称为X的R负域。

显然,■X或posR(X)是由那些根据知识R判断肯定属于X的U中元素组成的集合;■X是根据知识R判断可能属于X的U中元素组成的集合;bnR(X)是那些根据知识R既不能判断肯定属于X又不能判断肯定输入～X(即U-X)的U中元素组成的集合;negR(X)是那些根据知识R判断肯定不属于X的U中元素组成的集合。

2.3 知识约简
知识约简是粗糙集理论的核心内容之一。

众所周知,知识库中知识(属性)并不是同等重要的,甚至其中某些知识是冗余的。

所谓知识约简,就是在保持知识库分类能力不变的条件下,删除其中不相关或不重要的知识。

知识约简中有两个基本概念:约简(reduct)和核(core)。

定义4[3] 令R为一族等价关系,R∈R,如果ind(R)=ind(R-{R}),则称R为R中不必要的;否则称R为R中必要的。

如果每一个R∈R都为R中必要的,则称R为独立的;否则称R为依赖的。

如果R是独立的,P∈R,则P也是独立的。

设Q?哿P,如果Q是独立的,且ind(Q)=ind(P),则称Q为P的一个约简。

显然,P可以有多种约简。

P中所有必要关系组成的集合称为P的核,记作core(P)。

核这个概念的用处有两个方面:首先它可以作为所有约简的计算基础,因为核包含在所有的约简之中,并且可以计算可以直接进行;其次可以解释为知识约简时它是不能消去的知识特征集合。

3.粗糙集理论在不完备信息系统上的扩充
在许多情况下,我们在现实中所获得的信息系统是不完备的,主要问题之一是属性的缺省值,但由于经典粗糙集理论中不可分辨关系的局限性,使得经典的粗糙集理论不适用于不完备信息系统,因此,众多的国内外专家学者对经典的粗糙集理论进行了扩充。

目前,对经典粗糙集理论的扩充主要有两类方法:一类是间接处理法,其特点是利用模糊理论、概率统计理论等其他处理不确定性知识的理论通过数据补齐等手段把不完备信息系统转化为完备信息系统[1,2];二是直接对经典粗糙集理论中的相关概念进行适当扩充,例如:将经典粗糙集理论中的等价关系扩充为相似关系[4]、容差关系[5]和限制容差关系[6]等,并对经典粗糙集理论中的上、下近似等概念进行相应的修改。

4.粗糙集理论未来的研究方向
粗糙集理论的优越性已经在很多实际应用中得到了证明,这种理论可以为人工智能的很多领域提供有效的方法。

粗糙集理论的独特优点是它不需要任何额外的先验信息就可以从数据本身发现分类规则,且实现这种方法的程序可以很容易地在计算机上实现。

然而,粗糙集理论仍然是一个极其年轻且在高速发展的学科,仍有一些问题需要解决,其今后研究的主要热点主要包括以下几个方向:
(1)粗糙集理论的系统化和形式化;
(2)粗糙集理论与其他模糊学科相结合的信息处理方法研究;
(3)面向粗糙集对象的专家系统和智能系统和粗糙集在工程技术方面的应用。

◆
参考文献:
[1]Z. Pawlak, Rough Sets. Inner Journal of Computer and Information Science. 1982,11:341-356
[2]Z. Pawlak, Rough Sets. Communcations of ACM,1995,38(11):89-95
[3]Z. Pawlak, Rough Sets: Theoretical
Aspects of Reasoning about Data,vol.9,
Kluwer Academic Publishers,Dordrecht,1991
[4] Stefanowski J, Tsoukias A., On the extension of rough sets under incomplete information, Proceedings of 7th Int’l Workshop on New Directions in Rough Sets, Data Mining, and Granular-soft Computing. Berlin: Springer-Verlag, 1999. 73-81.
[5]Marzena Kryszkiewicz, Rough set approach to incomplete information systems. Information Sciences,112(1998):39-49.
[6]王国胤,Rough集理论在不完备信息系统中的扩充,计算机研究与发展,2002,39(10):1238-1243
[7]Yee Leung, Deyu Li,Maximal Consistent
Block Technique for Rule Acquisition in Incomplete Information Systems. Information Sciences, 153(2003):85-106。