当前位置:文档之家› 粗糙集

粗糙集

粗糙集
粗糙集

粗糙集理论与应用研究综述

王国胤1Yiyu Yao2 于洪1,2

(1重庆邮电大学计算机科学与技术研究所重庆400065)

(2Department of Computer Science, University of Regina, Regina, Canada S4S 0A2)

{wanggy, yuhong}@https://www.doczj.com/doc/dd3427396.html,, yyao@cs.uregina.ca

摘要本文在阐释粗糙集理论基本体系结构的基础上,从多个角度探讨粗糙集模型的研究思路,分析粗糙集理论与模糊集、证据理论、粒计算、形式概念分析、知识空间等其他理论之间的联系,介绍国内外关于粗糙集理论研究的主要方向和发展状况,讨论当前粗糙集理论研究的热点研究领域,以及将来需要重点研究的主要问题。

关键词粗糙集,模糊集,粒计算,形式概念分析,知识空间,智能信息处理

A Survey on Rough Set Theory and Its Application

Wang Guo-Yin1Yao Yi-Yu2 Yu Hong1,2

1 Institute of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing, 400065

2 Department of Computer Science, University of Regina, Regina, Saskatchewan, Canada, S4S 0A2

Abstract This paper introduces the basic ideas and framework of rough set theory and the different views of knowledge representation in rough set theory, and then discusses the relations between the rough set theory and the other theories, such as fuzzy set, evidence theory, granular computing, formal concept analyzing, knowledge space, etc. Furthermore, the paper reviews the recent studies for this theory and a survey on its applications is also given. The future development trend of rough set theory is also discussed.

Keywords rough set, fuzzy set, granular computing, formal concept analyzing, knowledge space, intelligent information processing

1 引言

智能信息处理是当前信息科学理论和应用研究中的一个热点领域。由于计算机科学与技术的发展,特别是计算机网络的发展,每日每时为人们提供了大量的信息,信息量的不断增长,对信息分析工具的要求也越来越高,人们希望自动地从数据中获取其潜在的知识。特别是近20年间,知识发现(规则提取、数据挖掘、机器学习)受到人工智能学界的广泛重视,知识发现的各种不同方法应运而生。

粗糙集(Rough Set,有时也称Rough集、粗集)理论是Pawlak教授于1982年提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具[1]。粗糙集理论最初的原型来源于比较简单的信息模型,它的基本思想是通过关系数据库分类归纳形成概念和规则,通过等价关系的分类以及分类对于目标的近似实现知识发现。

由于粗糙集理论思想新颖、方法独特,粗糙集理论已成为一种重要的智能信息处理技术[2-4],该理论已经在机器学习与知识发现、数据挖掘、决策支持与分析等方面得到广泛应用。目前,有三个有关粗糙集的系列国际会议,即:RSCTC、RSFDGrC和RSKT。中国学者在这方面也取得了很大的成果,从2001年开始每年召开中国粗糙集与软计算学术会议;RSFDGRC2003、IEEE GrC2005、RSKT2006、IFKT2008、RSKT2008、IEEE GrC2008等一系列国际学术会议在中国召开。

粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子,即上近似算子和下近似算子(又称上、下近似集)。经典Pawlak模型中的不分明关系是一种等价关系,要求很高,限制了粗糙集模型的应用。因此,如何推广定义近似算子成为了粗糙集理论研究的一个重点。

目前,常见的关于推广粗糙集理论的研究方法有两种,即:构造化方法和公理化方法。构造化方法是以论域上的二元关系、划分、覆盖、邻域系统、布尔子代数等作为基本要素,进而定义粗糙近似算子,从而导出粗糙集代数系统。公理化方法的基本要素是一对满足某些公理的一元集合算子,近似算子的某些公理能保证有一些特殊类型的二元关系的存在;反过来, 由二元关系通过构造性方法导出的近似算子一定满足某些公理。

事实上,有两种形式来描述粗糙集,一个是从集

合的观点来进行,一个是从算子的观点来进行。那么,从不同观点采用不同的研究方法就得到粗糙集的各种扩展模型。扩展模型的研究以及基于其上的应用研究已经成为新的研究热点。

粗糙集理论与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息, 所以对问题的不确定性的描述或处理可以说是比较客观的, 由于这个理论未能包含处理不精确或不确定原始数据的机制, 所以这个理论与概率论, 模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性。因此,研究粗糙集理论和其他理论的关系也是粗糙集理论研究的重点之一。

基于粗糙集理论的应用研究主要集中在属性约简、规则获取、基于粗糙集的计算智能算法研究等方面。由于属性约简是一个NP-Hard问题,许多学者进行了系统的研究。基于粗糙集的约简理论发展为数据挖掘提供了许多有效的新方法。比如,针对不同的信息系统(协调的和不协调的、完备的和不完备的),结合信息论、概念格、群体智能算法技术等都有了相应的研究成果。

基于粗糙集理论的应用也涌现在各行各业。许多学者将粗糙集理论应用到了工业控制[5-8]、医学卫生及生物科学[9-11]、交通运输[12-14]、农业科学[15-16]、环境科学与环境保护管理[17]、安全科学[18]、社会科学[19]、航空、航天和军事等领域[20-21]。

粗糙集理论发展二十余年来,无论在理论研究还是应用研究上都取得了很多成果。从认知科学的角度讲,我们如果要学习一个新的学科,就必须建立它的系统体系结构,同时学习思维及计算方法,这样我们就能从已知的结果推到未知的结果。本文将在总结已有的这些研究成果的基础上,帮助读者建立起一个这样的系统体系结构,同时指出进一步的研究方向。我们将这个理论目前的研究状况介绍给信息科学工作者, 希望进一步推动并促进我国在这一领域的研究工作。

本文组织结构如下:第二部分介绍粗糙集理论基础;第三部分介绍粗糙集模型研究,将从构造化方法和公理化方法、面向集合的观点和面向算子的观点来阐述;第四部分将探讨粗糙集理论和证据理论、模糊集、形式概念分析、知识空间等的关系;第五部分是基于粗糙集的研究以及应用。最后是总结和展望。

2 粗糙集理论基础

本节在回顾粗糙集基础概念的基础上,说明常见的两种研究粗糙集的方法:构造化方法和公理化方法。并且,从集合观点和算子观点来解释粗糙集。

2.1 概念、可定义集

为了对知识进行描述,首先需要知道什么是概念。从经典的角度来看,每个概念都包含其内涵和外延。为了给出概念内涵和外延的具体描述,我们考虑一个简单的知识表达系统,即信息表。信息表就是一组对象的集合,对象通过一组属性来描述。表1就是一个信息表的例子。

信息表M可以形式化地表达为四元组

(,,{|},{|})

a a

M U At V a At I a At

=∈∈。表1中,126

{,,...,}

U x x x

=是有限非空对象的集合,也称为论域,At={头疼,肌肉疼,体温,流感}是有限非空的

属性集合。

a

V表示属性a At

∈的属性值的范围,即属

性a的值域,:

a a

I U V

→是一个信息函数。如果A At

?,则()

A

I x表示U中对象x在属性A上的属性值。

表1 信息表实例

为了形式化地定义概念的内涵,可以采用决策逻辑语言[22]来分析信息表。我们定义和讨论的决策逻辑语言L由原子公式组成,公式是一种(属性,数据)对,用命题联词:与、或、非等通过标准的方法构成复合公式。公式是用来描述论域中对象的工具,可以用来描述论域中具有某些性质的对象的子集。例如在原子公式中,有序对(头疼,是)解释为在属性―a=头疼‖上值为―v=是‖的所有对象的描述。

当φ为信息表M中的一个公式时,集合

(){,|}

M

m x U x

φφ

=∈=称为M中公式φ的含义。含义()

mφ的自变量是语言的公式,其值是信息表中对象集合的子集。()

mφ就是那些具有公式φ的性质的对象的全体。换句话说,公式φ可以描述对象子集()

mφ。这样,就建立起了公式φ和论域U的子集之间的关系。

利用决策逻辑语言L,可以给出概念的形式描述:信息表M中的概念就是(,())

m

φφ,其中φ∈L。概念(,())

m

φφ的内涵是φ,表示M中对对象子集()

mφ的描述;概念(,())

m

φφ的外延是()

mφ,其含义是满足公式φ的所有对象的全体。

在粗糙集理论的很多应用中,经常考虑的只是一个属性子集A At

?,即在决策逻辑语言中只考虑A中的属性。我们用符号()A

L表示由属性子集A定义的语言。将前面讨论中出现的L用()A

L来代替,相应的结论也都成立。

考虑属性子集A At

?及其相应的语言()A

L,可定义集的形式化定义[23]如下。

定义1 在信息表M中,如果称子集X U

?是可被属性子集A At

?定义的,当且仅当在语言()A

L中存在一个公式φ使得()

X mφ

=。否则,X称为不可定义的。

值得注意的是,这里谈到的可定义,是指在属性

子集A 上是可定义的。

例如,表1中,我们考虑属性子集A ={头疼,肌肉疼},子集1123{,,}X x x x U ?=,公式1:φ(头疼=是)∧(肌肉疼=是)。那么在语言()A L 中,显然有

11()X m φ=,子集123{,,}x x x 是可定义集。而且,子

集X 2={x 4, x 6}、X 3={x 5}也是可定义集,满足的公式分别是:2:φ(头疼=否)∧(肌肉疼=是);3:φ(头疼=否)∧(肌肉疼=否)。

根据定义1,可定义集的全体表示为: (,()){()|()}.Def U A m A φφ=∈L L

如果概念的外延能用逻辑公式简洁地表达,那它就是一个可定义的概念;从这个角度讲,概念的外延就是可定义集。

类似地,由语言()A L 定义的概念集合表示为:

(,()){(,())|()}.DefCon U A m A φφφ=∈L L

很明显,如果两个对象x i , x j 是等价的,那么他们在语言()A L 中由相同的公式描述,或者说他们在A 上的各个属性值相同。刚才得到的可定义集就是在属性集合A 上的等价关系()E A 在论域U 上产生的划分,记为:()/(){[]|}E A U E A x x U =∈,()[]E A x 是由关系()E A 确定的等价类,同一个等价类中的对象是不可分辨的,所以,有时我们也称等价关系为不可分辨关系。上例中,U /E (A )= {{x 1, x 2, x 3}, {x 4, x 6}, {x 5}}。

等价类()[]E A x 的并显然是可定义集。比如,考虑子集X ={x 1, x 2, x 3, x 4, x 6},它是等价类的并,描述这个子集的公式为12φφφ=∨。

2.2 近似空间

语言()A L 的所有可定义集正好构造成一个σ代数(/())U E A σ,即:

(,())(/()).Def U A U E A σ=L

序对(,())apr U E A =称为一个Pawlak 近似空间,简称近似空间。所以,也可以将语言()A L 的所有可定义集记为(,())()Def U A Def apr =L 。

通过/()U E A ,可以构造一个σ代数,即(/())U E A σ,它包含空集φ和等价关系()E A 构成的

等价类及其并,并且在交、并和补运算上是封闭的。那么,Pawlak 近似空间也唯一确定了一个拓扑空间(,(/()))U U E A σ。

2.3 上下近似

针对不可定义集,显然不可能构造一个公式来精确描述,只能通过上下界逼近的方式来刻画,这就是粗糙集理论中的上下近似算子。

定义2 设()E A 是信息表M 上的等价关系,

X U ?,上下近似算子,()()

apr apr

E A E A (下文我

们采用缩写形式,apr apr )定义为:

(){|(/()),}

{|(,(),};

(){|(/()),}

{|(,(),}.

apr X Y Y U E A Y X Y Y Def U A X Y apr X Y Y U E A Y X Y Y Def U A Y X σφσ=∈≠=∈?=∈?=∈?U I I U U L L

上近似()apr X 是包含X 的最小可定义集,下近似()apr X 是包含在X 中的最大可定义集。

根据定义2,可定义集显然有相同的上下近似。刚才我们在可定义的基础上构造了一对近似算子。也就是说,只有当对象不可定义时,才会用上下近似的方法来描述。

考虑子集X U ?,论域空间将被分成三个区域: (1) 集合X 的正域: ()();POS X apr X =

(2) 集合X 的负域:

()(~)();NEG X POS X U apr X ==-

(3) 集合X 的边界域:

()()().BND X apr X apr X =-。

如果()BND X 是空集,则称集合X 关于关系()E A 是清晰的(crisp);反之,如果()BND X 不是空集,则称集合X 为关于关系()E A 粗糙的 (rough)。

2.4 粗糙集

Pawlak [1,22]定义由等价关系确定的等价类()[]E A x 的集合就组成了P1-粗糙集集合(P1-rough set ,简称PRS1)。显然,P1-粗糙集集合是子集集合,即:

()1{[]|2}U E A PRS x X =?。

借助上下近似的描述,也可以给出和PRS1等价的关于粗糙集的另外一种定义,称为P2-粗糙集集合。即

122{,}{(),()}.PRS X X apr X apr X =<>=<>

PRS1和PRS2通称为Pawlak 粗糙集。

有很多形式来描述粗糙集,比如:Iwinski [24]在布尔代数2U

的子代数上来描述粗糙集,他定义粗糙集为一对可定义集;Yao [25]在论域U 的子集空间2U

上描述粗糙集,定义粗糙集为一个闭区间集合。从代数学意义上讲,Iwinski-粗糙集代数和区间代数是等价的,Iwinski-粗糙集代数系统可以看作为一个上下界是可定义集的区间代数系统。

同时,Pawlak, Skowron, Wong, Yao [26-27]等也提出用论域U 的元素x 来描述粗糙集。一种简单有效解释粗糙集的方法就是应用三个成员(隶属度)函数来描述,即粗糙隶属度函数()X x μ、强隶属度函数

()()apr X x μ和弱隶属度函数()()apr X x μ。

关于粗糙隶属度函数的定义,有多种形式[28-29]。比如,文献[28]采用三值逻辑[0,α,1]定义的粗糙隶属度

函数建立起了粗糙集和模糊集的关系,用模糊集合来描述Iwinski-粗糙集集合,并给出了他们之间的关系。换句话说,采用此种隶属度函数来描述粗糙集,建立起了粗糙集和模糊集的关系。

基于文献[28]的隶属度函数,许多学者研究提出了各种概率模型:模糊集意义下的α截集、经典Pawlak 粗糙集、可变精度粗糙集(VPRS )、决策粗糙集理论等。

以上对粗糙集的解释都是从集合的观点进行的;还存在另外一种观点,即从算子的观点来解释粗糙集。在面向算子的观点中,上下近似被看作是论域幂集空间2U

上的一对一元算子L 和H 。也就是说,粗糙集理论中研究的系统(2,~,,,,)U ??L H 是标准集合系统

(2,~,,)U ??附加了两个近似算子的扩展。文献[30]对各种算子的定义及其相互关系作了探讨。

2.5 理论研究方法

经典粗糙集理论的基本思想是基于等价关系的粒化与近似的数据分析方法。粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子,即上近似算子和下近似算子(又称上、下近似集)。目前,主要有两种研究方法来定义近似算子:构造化方法和公理化方法。

2.1节中我们采用构造化方法回顾了经典的Pawlak 粗糙集模型。构造化方法的主要思路就是通过直接使用二元关系的概念来定义粗糙集的近似算子,从而导

出粗糙集代数系统(2,,,~,,)U apr apr ??。构造化方法所研究的问题往往来源于实际,所建立的模型有很强的应用价值,其主要缺点是不易深刻体现近似算子的公理(代数)性质。所以,也有许多学者从公理化的角度来研究粗糙集。

公理化方法也称为代数方法,有时也称为算子方法,这种方法不像构造化方法中是以二元关系为基本要素的,它的基本要素是一对满足某些公理的一元近似算子,:22

U

U

→L H ,即粗糙代数系统

(2,~,,,,)U ??L H 中近似算子L 和H 是事先给定的。然后再去找二元关系使得由该二元关系及其生成的近似空间按构造性方法导出的近似算子恰好就是给定的由公理化方法定义的集合算子。近似算子的某些特殊公理能保证有一些特殊类型的二元关系存在,使这些关系能够通过构造方法产生给定的算子;反之,由二元关系通过构造方法导出的近似算子一定满足某些公理,使这些公理通过代数方法产生给定的二元关系。

用公理化方法研究粗糙集最早的是Lin 和Liu [31]。由于Lin 和Liu 给出的公理组不独立,文献[32]对其进行了改进。Yao 与Thiele 从不同的角度分别对于一般关系下的经典粗糙集近似算子作了比较完整的公理化刻画。文献[33]刻画了一般关系下各种经典粗糙近似算子的独立性公理集。

目前,关于粗糙集理论的公理化研究,已经取得了进一步的成果[34-36]。关于公理化的研究主要从公理

组的极小化及独立性两方面展开研究工作。近年来,许多学者也展开了关于模糊粗糙近似算子、粗糙模糊近似算子、直觉模糊粗糙近似算子的构造性定义及其公理集的研究;其中,关于公理集的最小化问题、独立性问题还有待进一步的研究。

目前,关于构造化方法研究粗糙集理论的成果相对多些,比如我们后面的很多介绍都是采用构造方法进行的。

3 粗糙集模型扩展

粗糙集模型扩展是粗糙集理论研究的一个重要方向。结合其他理论方法与技术,大量的研究成果涌现。本节通过举例说明如何进行模型扩展,希望起到抛砖引玉的作用。

本节首先介绍上下近似的扩展定义,然后从粗糙集基于元素、粒、子系统、论域、关系、集合或近似空间等方向介绍相关的一些扩展模型。这些方面又常常不是单独出现的,还可以交叉、综合。

3.1 上下近似的扩展定义

如果二元关系R 是等价关系[]R x ,在近似空间

(,)U R 上就得到Pawlak 的基于元素的定义[37];如果R 是等价关系[]R x ,在近似空间(,(/))U U R σ上则有基于粒的定义[37];如果二元关系R 是子集(子系统),在近似空间(,(/))U U R σ上则有基于子系统的定义[37]。

基于元素(element based)的定义:

(){|,[]}{|,[,]},(){|,[]}

{|,[]}.

R R apr X x x U x X x x U y U xRy y X apr X x x U x X x x U y U xRy y X φ=∈≠=∈?∈∈=∈?=∈?∈?∈I

基于粒(granule based)的定义:

(){[]|[](/),[]},(){[]|[](/),[]}.

R R R R R R apr X x x U R x X apr X x x U R x X σφσ=∈≠=∈?U I U

基于子系统(subsystem based)的定义:

(){|(/),},

(){|(/),}.

apr X Y Y U R X Y apr X Y Y U R Y X σσ=∈?=∈?I U

上述三种定义分别从元素、粒和子系统的角度对等价关系进行了阐述。这三种等价的定义给出了粗糙集理论中上下近似的不同表达方式。

在基于元素的定义中,如果一个元素x 的所有等价元素(也就是它的等价类)都在集合X 中,则x 在X 的下近似()apr X 中;如果至少有一个x 的等价元素在X 中,则这个元素x 在X 的上近似()apr X 中。在基于粒的定义中,所有包含于X 的等价类的并组成下近似()apr X ,所有和X 交集不为空的等价类的并组成上

近似()apr X 。在基于子系统的定义中,下近似

()apr X 就是包含于X 的在子系统(/)U R σ中的那

些最大可定义集,上近似()apr X 就是那些包含X 的在子系统(/)U R σ中的最小可定义集。

有了上下近似的定义,就很容易得到粗糙集理论中的其他概念的定义,比如边界域、正域、负域等。这三种定义为结合其他理论扩展粗糙集模型建立起了联系。

3.2 基于元素的扩展模型

设R U U ??是论域上的一个任意二元关系,则其定义了一个扩展的近似空间(,)apr U R =。

从集合的观点来看,利用非等价关系显然可以扩展3.1节中基于元素的粗糙集定义。例如,将元素x 所在的等价类[]R x 看成是x 的一个邻域,从而得到基于邻域的粗糙集模型[38]。邻域关系()s R x 只要求满足自反性,不要求一定满足对称性或者传递性。那么在基于元素的定义中,将等价类[]R x 用非等价关系()s R x 代替,就得到基于非等价关系()s R x 的粗糙集模型:

(){|,()},(){|,()}.

s s apr X x x U R x X apr X x x U R x X φ=∈≠=∈?I

经典粗糙集模型是邻域模型中()s R x 为等价关系时的特例。

同理,读者也可以定义其他的非等价关系来扩展粗糙集理论。比如,为了处理不完备信息系统,已有的多种扩展模型:容差关系、相似关系、量化容差关系、限制容差关系和特征关系等等[39-42]都是利用各种非等价关系来扩展基于元素的粗糙集定义而得到的。

从算子的观点来看,粗糙集模型中的近似算子可以和模态逻辑中的必然性算子和可能性算子相联系起来[43]。在模态逻辑的公理化系统中,如果必然性算子W 用下近似算子L 来代替,可能性算子?用上近似算子H 来代替,非联结符?用集合补运算~代替,合取联结符∧用集合交运算I 代替,析取联结符∨用集合并运算U 代替,蕴涵→用集合包含?代替,那么得到的公理化系统就是一个粗糙集代数系统。比如,已经有文献基于模态逻辑提出分级模态粗糙集模型和概率模态粗糙集模型等[43-45]。

关于模态逻辑的研究成果已经很多,如果将模态逻辑中的研究方法与研究成果移植到粗糙集理论研究中来,或者结合粗糙集理论来研究模态逻辑都将是新的研究方向。

3.3 基于粒的扩展模型

基于粒的粗糙集定义是从等价类(划分)的角度出发来讨论的。在基于Pawlak 经典粗糙集的粒计算模型中,划分就是一个基本粒。显然,如果扩展划分的概念,就可以得到基于粒的扩展粗糙集模型;同时,这也为粒计算的模型研究指明了新的研究方向。

Zakowski W.在文献[46]中将划分扩展到了覆盖。设C 是论域U 上的子集族,如果C 中的所有子集都不空,且?C =U ,则称C 是U 的覆盖。那么在基于粒的定义中,用C 的子集代替[]R x ,覆盖C 代替(/)U R σ,就得到一对覆盖上下近似算子:

{|,};

{|,}.

aprX Y Y C Y X aprX Y Y C Y X φ=∈≠=∈?U I U

文献[36,47-50]都对覆盖广义粗糙集理论进行了深入的研究。文献[36]从不同的粒度结构来扩展粗糙集模型,从简单的单层结构到复杂的层次结构,以及如何利用非等价关系来扩展粒度概念作了探讨。文献[47]结合形式概念分析来研究覆盖广义粗糙集模型,文献[48]讨论了基于覆盖的约简问题,文献[49,50]研究了各种不同类型的扩展覆盖粗糙集模型及其关系等。

另一方面,基于这些扩展模型的应用研究也得到了发展[51,52],比如覆盖粗糙集扩展模型应用于词计算、社会科学、软件水印与软件混淆、泛逻辑中等相关的成果已经开始出现。

目前,基于粒的粗糙集理论扩展主要结合了覆盖和形式概念分析理论,如何结合其他粒计算工具扩展粗糙集理论将是未来的研究方向之一。

3.4 基于子系统的扩展模型

在标准的基于子系统的粗糙集模型中,定义上下近似用到的是相同的子系统。如果要扩展基于子系统的定义,我们需要两个子系统,一个用于定义上近似,一个用于定义下近似[53]。

例如,在拓扑空间(,())U U

O 中,子集族()2

U

U O ?称为U 上的开集;开集的补集称为闭集,记为(){|()}U X X U =?∈O C 。开集包含φ和U ,并且在并运算和有限次交运算下是封闭的;闭集包含φ

和U ,在交运算和有限次并运算下封闭。那么,在3.1节基于子系统的下近似定义中用()U O 代替

(/)U R σ,上近似定义中用()U C 代替(/)U R σ就得

到扩展了的模型:

(){|(),};

(){|(),}.

apr X Y Y U X Y apr X Y Y U Y X =∈?=∈O ?C I U

在这种情况中,上下近似算子事实上就是拓扑中的内部算子和闭包算子。经典粗糙集模型是拓扑空间中开集和闭集相等时的特例。

同理,也可以结合拓扑、闭系统、布尔代数、格、偏序等来扩展粗糙集理论;或者,从其他理论出发来探讨他们同粗糙集理论的关系。设计合适的子系统是研究的关键。例如,文献[54]在完全分配格上定义了一般化的粗糙近似算子,文献[55]在完备的原子布尔格上定义了粗糙近似并且研究了粗糙近似的结构,文献[56]在布尔代数的基础讨论了约简问题。相关的应用也出现在数据挖掘、信息检索[57]等领域。

3.5 双论域模型

在经典Pawlak 粗糙集模型中考虑的论域通常只有一个U ,我们也可以从论域上来推广粗糙集理论。

文献[58]第一次将粗糙集模型推广到了两个不同但相关联的论域上。设U ,V 是两个论域,元素u U ∈和v V ∈是相容的,记为u U C 。不失一般性,假定针对每个u U ∈,都有一个v V ∈存在,使得他们是相关联的,反之亦然。那么U ,V 之间的相容关系C 就可以用一个多值映射:2V

U ?→来定义,即(){|}?=∈u v V u v C 。为了扩展粗糙集模型,文献[58]定义如下一对上下近似:

(){|()};(){|()}.

apr X u U u X apr X u U u X φ=∈?≠=∈??I C C

上述定义也可以看作是3.1节基于元素定义的模型推广,这时的二元关系就变成为两个论域笛卡尔乘积的一个子集。

文献[59]进一步研究推广了基于双论域的粗糙集模型,并将其应用于不确定性推理中。文献[59-61]结合模糊集将该理论推广到多个论域,其特点是论域U 中的模糊集X 的上下近似是由另一个论域V 中的元素来表达的。

如何结合其他理论从多论域的角度来研究粗糙集理论还有待进一步的工作。

3.6 概率模型

根据是否使用了统计信息,粗糙集模型扩展大致可以分为两类:一类是经典的代数粗糙集模型,另一类是概率型的粗糙集模型。前述各种模型都是基于代数粗糙集模型的扩展。概率型的粗糙集模型在粗糙隶属度函数的基础上来讨论。

对于任意?X U ,粗糙隶属度函数定义为:

|[]|

().|[]|

μ?=R X R X x x x

文献[27]提出了决策粗糙集理论,得到了X 的上下近似定义:

,,,,,()()()

{|,(|())},

()()

{|,(|())}.

apr X POS X BND X x x U P X r x apr X POS X x x U P X r x βδβδβδβδβδδβ=?=∈>==∈≥

进一步分析会发现许多概率型粗糙集模型可以由决策粗糙集导出,它们均可以视为决策粗糙集的特例。

比如,当1,0βδ==时,概率函数取:

|()|

(|()),|()|

?=X r x P X r x r x

那么1,0

()apr X 和1,0()apr X 将表示为:

1,01,0(){|,()},(){|,()}.

apr X x x U r x X apr X x x U r x X φ=∈?≠=∈?

显然,如果()r x 是等价关系,这个模型就是经典

Pawlak 粗糙集模型。

文献[61]指出经典代数粗糙集模型的约简理论不再适用于概率型粗糙集模型,由此提出了决策粗糙集约简所需保持不变的若干特征,并系统阐述了决策粗糙集约简理论。决策粗糙集理论在网络支持系统、属性选择和信息过滤中得到了应用[62-65]。

更多的基于概率的模型[66-69]得到发展,比如:0.5-概率粗糙集模型、可变精度粗糙集模型(VPRS )、参数化粗糙集模型和贝叶斯粗糙集模型等。

目前,概率型粗糙集的有关研究主要有三个重点:(1) 概率型上下近似集和正、负、边界区域特征;(2)概率型规则的语义解释;(3) 概率型粗糙集属性约简理论。

4 粗糙集与其他不确定信息处理理论的联系

随着对粗糙集理论研究的不断深入, 与其他数学分支的联系也更加紧密。粗糙集理论研究不但需要以这些理论作为基础, 同时也相应地推动这些理论的发展。本节探讨粗糙集理论与其他不确定信息处理理论的关系。

4.1 粗糙集和证据理论

粗糙集理论与Dempster-Shafer 证据理论(D-S 证据理论)在处理不确定性的问题方面,产生和研究的方法是不同的, 但却有某种相容性, 粗糙集理论是为开发规则的机器自动生成而提出的, 而D-S 证据理论主要用于证据推理。

D-S 证据理论用一对信任函数和似然函数在给定证据下对假设进行估计和评价。利用基本概率分配函数:2[0,1]→U m ,信任函数和似然函数定义为:

()(),()().A X

A X Bel X m A Pl X m A ??≠Φ

=

=∑∑

在证据理论中,基本概率分配函数(即mass 函数)一般是由主观给出的可信度,所以又被称为可信度分配函数。

观察证据理论中信任函数和似然函数的定义形式,可以发现其和粗糙集理论中的上下近似有相似之处。文献[70,71]讨论了二者的关系,得出以下结论:在一个随机近似空间(,,((),))σ=apr U R M P 上,对于任意?X U ,定义:

()(()),()(());Bel X P apr X Pl X P apr X == 则()Bel X 和()Pl X 是U 上一对对偶的信任函

数和似然函数,其对应的mass 函数为:

()/()0∈?=?

?

其他P X X U R

m X 在这种情况下,信任结构中的焦元是两两不相交

的,是论域上的划分,此时信任函数退化为内概率。

(())P apr X 和(())P apr X 分别为X 的上、下近似随

机质量:

|()|

(()),||

apr X P apr X U =

|()|

(()).||

apr X P apr X U =

可见,粗糙集理论中的下近似和上近似的概率恰好分别是信任函数和似然函数[70], 然而生成信任函数和似然函数的基本概率分配函数方法是不同的, 前者来自于系统中数据本身, 比较客观, 而后者往往来自于专家的经验, 带有很强的主观性。

文献[72-73]等进一步讨论了粗糙集理论与D-S 证据理论的关系,二者有很强的互补性。从代数学意义上来讲,任何具有概率特性的信任函数都可以有相应的扩展粗糙集模型,比如,在串行代数、区间代数等结构上已有一些研究成果出现。

4.2 粗糙集和模糊集

模糊集和粗糙集理论在处理不确定性和不精确性问题方面都推广了经典集合论,两个理论的比较和融合一直是人们感兴趣的话题。鉴于粗糙集理论和模糊 集理论之间的互补性, 文献[74-79]提出了模糊粗糙集和粗糙模糊集的概念。

设(,)U R 是近似空间,R 是论域U 上的等价关系,F 是一个模糊集,则()?∈F U F ,模糊集F 在空间

(,)U R 上的上下近似()R apr F 、()R apr F 是一对模

糊集:

()

()sup{min[(),(,)]|},

()inf{max[(),1(,)]|}.

R

R

F R apr F apr F F R R F x y x y y U x y x y y U μμμμμμ-=∈=-∈ ((),())R R

a p r F a p r F 称为模糊集F 在U 上的粗糙模糊集。Rough-Fuzzy 模型将近似对象由crisp 集X 扩展

为了模糊集F 。 如果进一步将等价关系R 扩展为模糊相似关系R ,则有模糊近似空间(,)U R 。()?∈F U F ,模糊集F 在空间(,)U R 上的上下近似()apr F R 、()apr F R

一对模糊集:

()

()sup{min[(),(,)]|},

()inf{max[(),1(,)]|}.

F apr F apr F F F R x y x y y U x y x y y U μμμμμμ-=∈=-∈R

R

R R ((),())a p r F a p r F R R

称为模糊集F 在U 上的模糊粗糙集。Fuzzy-Rough 模型不仅将近似对象从crisp 集X

扩展到了模糊集F ,而且将论域上的等价关系R 扩展到了模糊相似关系R 。

从公式(R-F)、(F-R)显而易见,粗糙模糊集是模糊粗糙集的特例。而经典粗糙集又是粗糙模糊集中近似对象为crisp 集时的特例,为了更好地理解这个结论,我们来看粗糙集的另一个定义形式。

如前所述,粗糙集是通过上下近似来描述的,上下近似有时候也称为粗糙集的弱强成员函数。用

,X R μμ来表示X 和R 的成员函数,

注意到集合描述的特征函数表示(即:()1μ=X y ,若∈y X ;否则为0),则基于元素的粗糙集定义可改写为:

()

()

()sup{()|,(,)},()inf{()|,(,)}.

R R

X X

apr

X X x y y U x y R x y y U x y R μμμμ=∈∈=∈∈

其含义是直观的,只有任意与x 具有等价关系R 的y 都在集合X 中(即()1μ=X y ),才有()1μ=R

apr X x (即

∈R x apr X )。另一式理解类似。我们还可以进一步

改写上式得到:

()

()()

()sup{min[(),(,)]|},

()inf{max[(),1(,)]|}.

R

R

X R apr X apr

X X R R x y x y y U x y x y y U μμμμμμ=∈=-∈ 事实上,上式也是一对模糊集。观察公式(R)、(R-F),显然经典粗糙集是粗糙模糊集在近似对象为crisp 集X 时的特例。 既然粗糙集、模糊粗糙集和粗糙模糊集是模糊集,那它们一定可以用α-截集的形式来表达,文献[75]讨论了该工作。另外,文献[76]结合概率粗糙集模型进行了推广;文献[77]讨论了应用模糊粗糙集于属性约简和决策规则的获取。文献[78-81]等讨论了各种扩展模型应用于信息检索、文字识别、股票价格预测等。

4.3 粗糙集和形式概念分析

形式概念分析是一种从形式背景建立概念格来进行数据分析的方法。形式背景(,,)U V R 由对象集U 和属性集V 的一个二元关系R 给出。在一个形式背景中,我们可以构造(对象,属性)对,称为形式概念,记为(,)A B ,其中,??A U B V 。形式概念中的对象

A 称为外延,即(,)=extent A

B A ;形式概念中的属性B 称为内涵,即(,)=intent A B B 。所有的形式概念组成一个完全格,称为概念格,记为(,,)L U V R ,或者简记为L 。

形式概念的外延可看成是对象的可定义集,从某种意义上来说,这一点和粗糙集的可定义集定义不同。事实上,形式概念的外延是一个依据内涵得到的不可区分对象集。根据内涵的属性集,外延中的所有对象都是不可区分的;外延中的所有对象具有内涵中的所有属性。所有的外延,即对象集可以被认为是一个不同的可定义集系统。任意的一个对象集可能不是形式概念的外延。当对象集不是形式概念的外延时,我们认为它是不可定义集。因此,在形式概念分析中,提出一种不同的可定义性。

所有的外延形成对象论域幂集上的一个子系统,这个子系统对交运算是封闭的。任何形式概念的外延可看成是一个可定义集。借助粗糙集上下近似算子,对任意一个对象集?X U ,我们可以用概念的外延从上下逼近来描述。扩展3.1节基于子系统的定义,即集合运算符?和?分别用格理论中算子∧和∨代替,子系统(/)σU R 用格L 代替,对象的可定义集就是形式

概念的外延,那么就得到了在近似空间(,)apr U L =上基于格理论的关于对象子集X 的上下近似定义[82]:

({(,)|(,),}){|(,),},

({(,)|(,),})

({|(,),})**.

laprX extern A B A B L X A A A B L X A laprX extern A B A B L A X A A B L A X =∈?=∈?=∈?=∈?∧∨I U

运用近似算子的子系统定义,由于子系统只对交运算封闭,上近似由一个概念的外延组成而下近似由一组概念的内涵来描述,有可能X 的下近似不是X 的子集。所以,上述算子是一种逼近描述。粗糙集理论的目的是预测,形式概念分析的目的是描述[83]。

目前,基于形式概念分析和粗糙集理论的结合研究已经形成一个新的研究热点。研究成果体现在以下几方面:(1) 在形式概念分析中提出不同的近似算子[84]

;(2) 将粗糙集的结果引入形式概念分析中研究形式概念分析的约简问题[85];(3) 通过模式-类型算子描述概念和层次概念组织(即概念格)可应用到粗糙集分析中[86]。此外,形式概念分析中的依赖空间问题也得到了研究[87]。

4.4 粗糙集和知识空间

粗糙集理论和知识空间理论都是研究知识结构的理论;但他们用于解决不同的实际问题。粗糙集主要研究如何对数据进行分析及知识发现;而知识空间[88-89]着重对问题集进行分析,从而对个体知识状态进行评估。如何将知识空间和粗糙集理论结合正在成为一个新的研究方向。

粗糙集理论和知识空间都在一个有限的论域集以及一些论域集的子集上进行讨论,可记为(,)U K ,其

中2U

?K 。在粗糙集中,

U 中的元素称为对象,K 中的元素称为可定义集;对不可定义集,我们必须通过一对可定义集合分别从上下逼近来表示。在知识空间中,U 是一组问题集,而K 中的元素K 称为个体的知识状态,K 称为知识结构。某个个体的知识状态K 由问题间的依赖关系或者不同个体掌握不同的问题集决定。利用surmise 关系P [88](关系P 满足传递性和自反性),知识结构可以定义为:

{|(,',',')}.K q q Q qPq q K q K =?∈∈?∈K

此定义中,知识结构K 既包含空集φ也包含问题集U ,并且在集合交运算和集合并运算下封闭。由此,定义了一个近似空间(,)apr U =K 。那么,在近似空间(,)U K 上,针对问题子集X U ?,在3.1节基于子系统的上下近似定义的基础上有以下扩展定义[90]:

(){{|}},

(){{|}}.

apr X K X K apr X K K X =∈?=∈?I U K K

在这个定义形式中,知识结构在补运算中不封闭,也就是说,扩展模型不满足经典粗糙集理论中的对偶性质。

读者也可以尝试其他形式的扩展,比如知识结构

K 只在并运算下封闭,通过分析K 中的知识状态,

找出最有效的解决问题的捷径。

虽然粗糙集和知识空间研究对象不同,但从粒计算的角度来看,它们都可看成由一些基本粒通过不同的方式构造粒结构的过程。K 其实是对知识从不同大小的粒度进行多层次的描述。关于这方面的研究成果尚不多,希望能有更多的学者参与这个问题的研究。

4.5 粗糙集和粒计算 粒计算是一门飞速发展的新学科。它融合了粗糙集、模糊集及人工智能等多种理论的研究成果。词计算模型、粗糙集模型和商空间模型是三个主要的粒计算(GrC: Granular Compuing)模型[91-92]。粗糙集理论已经成为研究粒计算的重要工具。

基于粗糙集模型的粒计算,它的粒是一个划分,是一个特别的粒计算结构。基本知识粒度的构造和知识表示方法的拓广,实质是将粗糙集的商集扩展成一个拓扑空间,以此保证运算的封闭性,即用(/)U R σ代替/U R ,它是布尔代数(2,~,,)U I U 的一个子代数,则(,(/))U U R σ构成一个拓扑空间。

近期,基于粗糙集理论来研究粒计算的工作尤为突出。文献[93]使用Rough Mereology 方法和神经网络技术,基于知识粒化思想,提出了一个Rough 神经计算( RNC) 模型,将粗糙集的知识基(划分块)和神经网络相结合,形成一种高效的神经计算方法。文献[94]综述了关于RNC 模型的主要研究线索。文献[95]利用粗糙集粒计算模型来学习分类规则,用粒网格来表示学习所得的分类知识,提出了粒之间关联性的度量公式,通过搜索粒来归纳分类规则,给出了构造粒网格的算法。在研究Rough 推理的基础上,文献[45]对粒逻辑进行了探讨。

文献[96]结合粗糙集邻域系统对粒计算进行了详细的研究,为数据挖掘提供了新的方法和视角。两个覆盖生成相同覆盖广义粗集的判别条件[97]、覆盖粒计算模型的不确定性度量 [98]、基于集合论覆盖原理的粒计算模型[99]等也得到了研究。

文献[100-101]以容差关系为基础,提出了不完备信息系统的粒计算方法,使用属性值上的容差关系给出不完备信息系统的粒表示、粒运算规则和粒分解算法,同时结合粗糙集中的属性约简问题,提出了不完备信息系统在粒表示下属性必要性的判定条件。

结合粗糙集理论的粒计算方法已经在机器学习、数据分析、数据挖掘、规则提取、智能数据处理和粒逻辑等[92]方面取得了一定的应用。

5 基于粗糙集的应用研究

目前,基于粗糙集理论的应用研究主要集中在知识获取、基于粗糙集的计算智能算法研究等方面。这些研究成果成功应用在许多领域,有的已经获得了商业价值。

5.1 知识获取

知识获取是发现存在于数据库中有效的、新颖的、具有潜在效用的乃至最终可理解的模式的非平凡过程。粗糙集理论可支持知识获取的多个步骤[102],如数据预处理、属性约简、规则生成、数据依赖关系获取等。

传统的基于粗糙集理论的数据预处理过程通常包括决策表补齐和决策表离散化。关于这方面的研究工作已经取得一些成果[103-104]。

属性约简就是保持信息系统分类能力不变的情况下,约去不必要的属性。属性约简在某些应用领域,又叫数据约简、特征提取、知识约简等。如何求属性约简是约简理论研究的一个重要方面。

基于粗糙集的知识约简理论发展为数据挖掘提供了许多有效的新方法。针对协调决策表,现已提出了求属性约简的许多算法[105-109],如数据分析法、基于信息熵的属性约简算法、动态约简算法、增量式算法、可辨识矩阵算法等。

随着粗糙集理论研究的不断深入,许多学者进一步在等价关系下,讨论了不协调决策表的多种约简[110-114],如广义决策约简、可能性约简、动态约简、分布约简、最大分布约简、 约简、熵约简及近似熵约简等。

文献[105,115]从信息论的角度进一步研究了属性约简问题;并且修正了以前学术界认为基于代数观和基于信息观的粗糙集理论是等价的观点,得到了一系列有益的结论;文献[116]进一步提出了针对协调决策表和不协调决策表的核属性的不同计算方法。

同时,讨论的信息系统的形式也越来越多,如连续值信息系统、区间值信息系统、模糊值信息系统、集值信息系统等,并且相应系统的约简理论也得到了发展。

另一方面,随着概念格、偏序集等理论与粗糙集理论的结合,基于概念格的约简方法、广义协调决策形式背景知识约简方法、偏序关系下的决策形式背景规则提取与属性约简、对象概念格的属性约简方法、基于用户偏好的属性约简、属性序下的快速约简算法、权值约简、基于群体智能算法的属性方法等新方法[117-127]也大量涌现。比如,文献[125]结合高斯消去法通过矩阵运算直接得到属性约简,为属性约简研究提供了新思路。文献[126]对各种约简研究方法作了总结:从算法结构的层次来说,常见的约简策略有三种:删除法、增加法、加删法;而各个约简方法的不同体现在各自的启发式策略的不同上。

5.2 知识的不确定性度量

随着粗糙集理论的研究深入,一种新的不确定性——粗糙性正逐渐被人们认识和接受。至今,人们已经研究分析了三种不同的不确定性:随机性,即随机现象的不确定;模糊性,即模糊概念的不确定性;粗糙性,即信息系统中知识和概念的不确定性。

处理知识的不确定性的方法往往用香农(Shannon)信息熵来刻画,知识的粗糙性与信息熵的关系比较密切,知识的粗糙性实质上是其所含信息多少的更深层次的刻画。不少学者结合信息论做了研究工作:运用Shannon熵对粗糙集理论中的规则进行度量[128]、基于信息熵的知识约简算法[105-107]、度量粗糙集和粗糙分类的模糊性[129]、不完备系统中的熵度量[130]等。

信息熵和知识粒度从两个不同的角度研究了信息系统的不确定性度量。信息系统的信息熵越大,系统的不确定性越大;而信息系统的知识粒度越大,系统的不确定性越大。所以,结合粒计算来研究不确定性度量正在成为新的研究热点[130, 131]。

寻求合适的度量来刻画知识的不确定性是粗糙集理论研究的一个重要方向。在粗糙集理论与其他处理模糊性或不确定性方法的理论研究中,主要集中在它与概率统计、模糊数学、D-S证据理论和信息论等的相互渗透与补充。例如,文献[132]从信息熵的角度提出了一种粗糙集不确定性的模糊度度量方法。

5.3 面向领域的数据驱动的数据挖掘

简而言之,数据挖掘的目的就是从数据中挖掘出知识。在机器学习的许多方法中,我们往往依赖于一些先验知识,比如:贝叶斯概率方法依赖于先验概率;模糊集理论依赖于成员隶属度函数;多专家决策系统依赖于专家的权值属性。毫无疑问地,依靠这些先验知识的帮助我们成功地解决了许多问题。但是,有些领域的先验知识很难获得,比如网络入侵检测;另外,像外太空探索等新兴问题,要获得其先验知识也是很困难的。因此,如何建立根据问题已有的信息,而不依赖于先验知识获得问题解的计算模型具有非常重要的价值,可为真正的智能化数据挖掘提供理论支撑。为此,有学者提出领域(用户)驱动(user-driven)的数据挖掘模型[133-134]、数据驱动(data-driven)的数据挖掘模型[135-137]等,取得了一些初步研究成果。

在这些工作的基础上,Wang[138]将数据驱动和领域(用户)驱动的思想相结合,提出在保证知识的不变性的前提下,如何研究面向应用领域的数据驱动的数据挖掘理论与技术方法,应该是数据挖掘研究领域下一步的发展方向。由此提出了面向应用领域的数据驱动的数据挖掘模型,即3DM(Domain-oriented Data-driven Data Mining)。

考虑到粗糙集理论不需要领域先验知识可以进行学习的特点,一些学者基于粗糙集理论研究了面向应用领域的数据驱动的数据挖掘问题。比如,通过分析知识的不确定性特征[137],在基于粗糙集的自主式缺省规则知识获取[135]、数据驱动的自主式决策树学习[136]、数据驱动的自主式粒计算[139]、数据驱动的概念格学习[140]研究中取得了很好的结果,初步证实了3DM的可行性和有效性。

Ohsuga[141]认为知识发现就是一个翻译的过程,是一个从无符号到有符号表达方式的转变,并从谓词逻辑学的角度讨论了知识的表达问题。文献[141]与3DM 的研究,均说明了数据挖掘是一个知识表达形式的转换过程,即知识从人们难以理解和运用的数据表示形态转换到人类易于理解和运用的知识表示形态,如产生式规则、决策树等。3DM更进一步探讨了数据挖掘

过程中的各种知识来源,如数据、先验知识、用户兴趣、领域问题约束等,及其在整个知识学习过程中的关系

在3DM的研究工作中,还存在一些待解决的研究问题,如:(1)领域先验知识的编码模式;(2)用户兴趣模式和领域制约模式的编码模式;(3)用户交互控制信息的编码模式;(4)增量式的面向应用领域的数据驱动的数据挖掘模型等。

5.4 海量数据挖掘

为了使粗糙集应用于海量数据处理,国内外学者从以下几方面进行了研究:

(1) 利用粗糙集理论对海量数据集进行合理分割。文献[142]结合粗糙集给出了最佳分割的定义。

(2) 结合其他技术,研究增量式学习方法,处理粗糙集理论本身难于实现知识的积累、动态增长的问题。基于粗糙集的关于属性最小约简的增量式算法、增量式更新概念格算法、增量式知识获取算法、结合决策树的增量式规则获取、增量式属性约简等[144-149]得到了研究。

如何提高增量式学习方法的效率并将其应用到相关领域将是下一步的工作重点。

(3) 粗糙集理论对不完备海量数据的处理,目前的方法基本上都是基于对等价关系的泛化来解决的。比如容差关系[39]、相似关系[40]、限制容差关系[41]、利用模糊聚类处理不完备信息系统[150]、两步规则提取法处理不完备信息系统[151]。文献[152]针对不完备信息系统中的―数据补齐法‖和―模型扩展法‖进行了系统比较分析,提出了所有可能的8类扩展模型,详细分析了已有扩展模型的优缺点和相互关系,同时对不满足自反性的几类可能的扩展模型作了讨论和分析。

粗糙集理论在不完备信息系统中的应用,是将其进一步推向实用的关键之一,因为现实数据可能在一定程度上是不完备的。

(4) 利用数据库技术使粗糙集理论的相关算法直接处理驻留磁盘的海量数据。文献[143]提出类分布链表,通过多步生成的方法解决了内存对海量数据限制的问题。

(5) 与快速排序结合,降低海量数据挖掘的处理复杂度。文献[120,153]提出的新方法能有效提高海量数据处理的效率。

粒计算包含着将复杂问题划分为一系列更容易处理的、更小的子问题,从而降低全局计算代价的思想。因此,研究基于粗糙集理论的粒计算模型也将是解决此类复杂问题的重要方向之一。

5.5 其他应用领域

从应用的领域来看,基于粗糙集理论的应用除了我们上文提到的信息科学等方面,还遍及其他许多领域。许多学者将粗糙集理论成功应用到了工业控制、医学卫生及生物科学、交通运输、农业科学、环境科学与环境保护管理、安全科学、社会科学、航空、航天和军事等领域。比如:电厂气温过热控制[5]、虚拟现实的可视化[6]、对原棉纱线强度和纤维性能之间的知识规则提取[7]、手写体识别[8]、胸部X线数字图像滤波增强[9]、湖泊生态系统健康评定指数法的评价[10]、医疗图像处理[11]、遥感数据处理[12]、综合分类器设计与实现[13]、铁路行车调度指挥[14]、食品安全综合评价[15]、昆虫总科阶元分类[16]、泥石流危险度区划指标选取[17]、网络故障诊断[18]、上市公司违规行为预警[19]、武器系统灰色关联评估[20]和航空控制[21]等等。

6 总结与展望

虽然粗糙集理论从提出至今只有二十几年的发展历史,但取得的研究成果是令人瞩目的。在基于数据的决策与分析、机器学习、模式识别等计算机领域的成功应用,逐渐被人们所重视。

本文首先介绍了该理论的一些基础知识,然后介绍了如何从构造化方法、公理化方法来扩展粗糙集模型以及该理论和证据理论、模糊集、粒计算、形式概念分析、知识空间等的关系。

事实上,关于任何一门新学科的研究工作通常包括理论和应用两方面。

从理论研究来说,关于粗糙集理论的研究工作可以从粗糙集模型扩展来进行。研究者可以从构造化方法、公理化方法采用基于集合的观点或是基于算子的观点来扩展粗糙集理论。我们也可以结合模糊集、证据理论、粒计算、形式概念分析、知识空间等理论来研究粗糙集模型。从而,从理论上推动该学科的发展。

例如,可以从基于元素、基于粒和基于子系统的观念,结合概率论、逻辑学等其他理论来扩展定义粗糙集中的最基本概念——上下近似算子,进而解决相关领域的问题。比如,对等价关系的各种扩展定义就带来了各种处理不完备信息系统的方法。

另一方面,有了各种粗糙集模型,研究者可以在相关模型下进行应用研究。比如,知识约简及规则获取、不确定性信息处理、不完备性信息处理、海量数据挖掘等。

粗糙集理论研究目前正成为信息科学中的一个热点,我们将这个理论目前的研究状况归纳总结并介绍给读者,希望我国更多的感兴趣的研究同行更多地了解这个理论的研究工作,促进这一理论及其相关研究在我国的发展。

参考文献

[1]Pawlak Z.: Rough set.International Journal of Computer and

Information Sciences,l982,ll:341-356

[2]Chan C.C., Grzymala Busse J.W., Ziarko W.P.(Eds.): Rough

sets and current trends in computing, 6th International Conference, RSCTC 2008, Springer-Verlag, LNAI 5306, Berlin, Germany, 2008

[3]An A.J., Stefanowski ., Ramanna S., Butz C.J., Pedrycz W.,

Wang G.Y.(Eds.): Rough sets, fuzzy sets, data mining and granular computing, 11th International Conference, RSFDGrC 2007, Toronto, Canada, LNCS4482,Springer 2007 [4]Wang G.Y., Li T.R., Grzymala-Busse J., Miao D.Q.,

Skowron A., Yao Y.Y.:. Rough sets and knowledge technology,Proceedings of RSKT2008, LNAI5009, Springer-Verlag, Berlin, Germany, 2008

[5]Xie,K.M., Chen,Z.H., Xie,G., Lin,T.Y.: BGrC for

superheated steam temperature system modeling in power plant. In: Proc. of 2006 IEEE International Conference on Granular Computing, Atlanta, USA(2006), 708-711

[6]Valdes, J.J.; Romero, E.; Gonzalez, R.: Data and knowledge

visualization with virtual reality spaces, neural networks and rough sets: application to geophysical prospecting neural networks. 2007. IJCNN 2007, 160-165

[7]Ni Y.C., Yang J.G., Lv Z.J.: Raw cotton yarn tenacity's rule

extraction based on Rough Set theory, Progress in Textile Science & Technology, 2006, 6, 65-66 (in Chinese)

倪永成, 杨建国,吕志军:基于Rough Set理论对原棉纱线强度的规则提取.纺织科技进展. 2006, 6, 65-66

[8]Nguyen T. T.: Adaptive classifier construction: an approach

to handwritten digit recognition, J. J. Alpigini et al. (Eds.): RSCTC2002, LNAI 2475 , 2002, 578-585

[9]Chen Z.C., Zhang F., Jiang D.Z., Ni L.L., Wang H.Y.: The

filtering method for x-ray digital image of chest nased on multi-resolution and rough set. Chinese Journal of Biomedical Engineering, 2004, 23(6), 486-489 (in Chinese)

陈真诚, 张锋, 蒋大宗, 倪利莉, 王红艳. 利用多分辨率分析的胸部X线数字图像粗糙集滤波增强.中国生物医学

工程学报. 2004, 23(6), 486-489

[10]Pang F.H., Pang Z.L., Du R.Q.: Assessment on rough-set

theory for lake ecosystem health index. Journal of Biomathematics, 2008, 23(2), 337-344 (in Chinese)

庞发虎, 庞振凌, 杜瑞卿:粗糙集理论对湖泊生态系统健

康评定指数法的评价,生物数学学报, 2008, 23(2), 337-344 [11]Hirano S., Tsumoto S.: Segmentation of Medical Images

Based on Approximations in Rough Set Theory, J. J. Alpigini et al. (Eds.): RSCTC2002, LNAI 2475, 2002, 554-563 [12]Hu S.W, Guo Z.Z., Wang X.Z., Tao B.Z.: Fuzzy uncertainty

of remote sensing data and the processing method based on rough set. China Railway Science, 2006, 27(2): 132-136 (in Chinese)

胡圣武, 郭增长, 王新洲, 陶本藻:论遥感数据的模糊不确

定性及基于Rough集的处理方法.中国铁道科学. 2006, 27(2), 132-136

[13] Zhu Y.C., Xiong W., Jing Y.W., Gao Y.B.: Design and

realization of integrated classifier based on rough Set. Journal on Communications, 2006, 27(z1), 63-67 (in Chinese)

朱有产,熊伟,静永文,高亚彬:基于Rough Set理论的综合分类器设计与实现. 2006, 27(z1), 63-67

[14]Wang M.H.: Study on the application of rough set in railway

dispatching system. China Railway Science, 2004, 25(4), 103-107(in Chinese)

王明慧:粗糙集理论在铁路行车调度指挥系统中应用的研究.中国铁道科学. 2004 25(4), 103-107

[15]Li W.X., Cheng M., Li B.Y.: Extended dominance rough set

theory's application in food safety evaluation. Food Research and Development, 2008, 29(2): 152-156 (in Chinese)

李为相, 程明, 李帮义: 粗集理论在食品安全综合评价中的应用.食品研究与开发. 2008 29(2) 152-156

[16]Du R.Q., Chu X.Y., Wang Q.L., Zhao Q.H., Pang F.H.:

Application of a rough-set neural network to superfamily level in insect taxonomy. Journal of China Agricultural University, 2007, 12(1), 33-38 (in Chinese)

杜瑞卿, 褚学英, 王庆林, 赵秋红, 庞发虎: 粗糙集神经

网络在昆虫总科阶元分类学上的应用.中国农业大学学报.

2007 12(1), 33-38

[17]Kuang L.H., Xu L.R., Liu B.S., Yao J.C.: A new method for

choosing zonation indicators of mudflow danger degrees based on the rough set theory. Journal of Geomechanics, 2006, 12(2), 236-242 (in Chinese)

匡乐红, 徐林荣, 刘宝琛, 姚京成:基于粗糙集原理的泥石流危险度区划指标选取方法.地质力学学报. 2006 12(2), 236-242 [18]Peng Y.Q., Liu G.Q. , Lin T., Geng H.S.: Application of

rough set theory in network fault diagnosis. Information Technology and Applications, ICITA 2005. Volume: 2, 556- 559

[19]Xue F., Ke K.L.: The early warning of listed company's

illegal behaviors based on the integration of rough set and genetic algorithm. Soft Science, 2008, 22(4): 49-53(in Chinese)

薛锋, 柯孔林: 粗糙集理论和遗传算法集成的上市公司违规行为预警研究.软科学. 2008 22(4), 49-53

[20]Hu F., Huang J.G., Chu F.H.: Grey relation evaluation

model of weapon system based on rough set. ACTA ARMAMENTARII, 2008, 29(2): 253-256(in Chinese)

胡方, 黄建国, 褚福照: 基于粗糙集的武器系统灰色关联评估模型.兵工学报. 2008 22(4), 49-53

[21]Wojcik Z. M.: Detecting spots for nasa space programs using

rough sets. Proceedings of the Second Int. Conf. on Rough Sets and Current Trends in Computing, RSCTC’2000, Canada, Oct. 2000, 531-537

[22]Pawlak Z.: Rough sets: theoretical aspects of reasoning about

data. Kluwer Academic Publishers, Boston, 1991

[23]Yao Y.Y.: A note on definability and approximations. LNCS

Transactions on Rough Sets VII, LNCS 4400, 2007, 274-282 [24]Iwinski T.B.: Algebraic approach to rough sets, Bull. Pol.

Acad. Sci. Math. 35, 1987, 673-683

[25]Yao Y.Y.: Two views of the theory of rough sets in finite

universes, International Journal of Approximation Reasoning, Vol. 15, No. 4, 1996, 291-317

[26]Pawlak Z., Skowron A.: Rough membership functions, in

Fuzzy Logic for the Management of Uncertainty (L.A. Zadeh and J. Kacprzyk, Eds.), John Wiley & Sons, New York, 1994, 251-271

[27]Yao Y.Y. Wong S.K.M.: A decision theoretic framework for

approximating concepts. Int. J. Man-mach. Stud., 1992, 37, 793-809

[28]Yao Y.Y.: Generalized Rough Set Models. In Rough sets in

knowledge Discovery, Polkowski L. and Skowron A. (Eds.).

Physica-Verlag. Heidelberg, 1998, 286-318

[29]Pawlak, Z., Rough sets and fuzzy sets, Fuzzy Sets Syst. 17,

1985, 99-102

[30]Yao Y.Y.: Constructive and algebraic methods of the theory

of rough sets. Information Sciences, Vol. 109, No. 1-4, 1998, 21- 47

[31]Lin T.Y., Liu Q.: Rough approximate operators: axiomatic

rough set theory, in: Rough Sets, Fuzzy Sets and Knowledge Discovery, edited by W.P. Ziarko, Springer-Verlag, London, 1994, 256-260

[32]Zhu F., He H. C.: The axiomatization of the rough set.

Chinese Journal of Computers. 2000, 23 ( 3 ) , 330 - 333 (in Chinese)

祝峰, 何华灿: 粗集的公理化. 计算机学报, 2000, 23 (3), 330- 333

[33]Sun H., Liu D.Y., Li W:The Minimization of axiom groups

of rough set. Chinese Journal of Computers, 2002, 25 (2) , 201- 209(in Chinese)

孙辉,刘大有,李文: 粗集公理组的极小化.计算机学报. 2002,

25 (2) , 201- 209

[34]Wu W.Z., Mi J.S., Zhang W.X.: Generalized fuzzy rough sets.

Information Sciences, 2003, 151: 263–282

[35]Liu G.L., Zhu W: The algebraic structures of generalized

rough set theory. Information Sciences, 2008, 178(21): 4105-4113

[36]Zhang W.X., Yao Y.Y., Liang Y.: Rough set and concept

lattic e. Xi’an Jiaotong University Press, 2006(in Chinese)

张文修,姚一豫,梁怡, 《粗糙集与概念格》,西安交通大学出版社, 2006

[37]Yao Y.Y.: On generalizing rough set theory. Rough Sets,

Fuzzy Sets, Data Mining, and Granular Computing,

Proceedings of the 9th International Conference (RSFDGrC 2003), LNAI 2639, 2003, 44-51

[38]Yao Y.Y.: Relational interpretations of neighborhood

operators and rough set approximation operators, Information Sciences, Vol. 111, No. 1-4, 1998, 239-259

[39]Kryszkiewicz, M.: Rough set approach to incomplete

information systems. Information Sciences, 1998, 112: 39~49 [40]Stefanowski J., Tsoukias A.: Incomplete information tables

and rough classification. Computational Intelligence, 2001, 17(3): 545~566

[41]WANG G.Y.: Extension of rough set under incomplete

information systems, Journal of Computer Research and Development, 2002,39(10):1238-1243 (in Chinese)

王国胤. Rough 集理论在不完备信息系统中的扩充. 计算

机研究与发展, 2002,39(10):1238-1243

[42]J.W. Grzymala-Busse: A rough set approach to data with

missing attribute values. First International Conference of Rough Sets and Knowledge Technology (RSKT2006), G Wang et al. (Eds.), Springer, 2006, Vol.4062, 58-67

[43]Yao Y.Y., Lin T.Y.: Generalization of rough sets using

modal logic. Intelligent Automation and Soft Computing, An International Journal, 1996,2(2): 103-120

[44]Lin T.Y., Liu Q., Zuo X.L.: Models for first order rough logic

applications to data mining. Fuzzy Systems Symposium.

―Soft Computing in Intelligent Systems and Information Processing‖., Proceedings of the 1996 Asian, 152-157 [45]Liu Q.: Rough Sets and Rough Reasoning. Science Press,

2001, (in Chinese)

刘清. Rough集及Rough推理.北京:科学出版社,2001 [46]Zakowski W.: Approximation in the space(u, ).

Demonstratio Mathematica, 1983, 16, 761-769

[47]Bonikowski Z, et al: Extensions and intentions in the rough

set theory. Information Sciences, 1998, 107,149-167

[48]Zhu W., Wang F.Y.: Reduction and axiomization of covering

generalized rough sets. Information Sciences, 2003, 152, 217-230

[49]Tsang E.C.C., Chen D.G., Lee J.W.T., et al: On the upper

approximations of covering generalized rough sets.

Proceedings of the 3rd International Conference Machine Learning and Cybernetics, Shanghai, China, 2004, 4200-4203 [50]Zhu W.: Topological approaches to covering rough sets.

Information Sciences, 2007, 177, 1499-1508

[51]Wang F.Y.: On the abstraction of conventional dynamic

systems: from numerical analysis to linguistic analysis.

Information Sciences, 2005, 171(1-3), 233-259

[52]Zhu W., Clark Thomborson, Wang F.Y.: A survey of

software watermarking. Lecture Notes in Computer Science 3495. New York: Springer, 2005, 454-458

[53]Yao Y.Y.:On generalizing Pawlak approximation operators,

Rough Sets and Current Trends in Computing, Proceedings of the First International Conference, RSCTC'98, LNAI 1424, , 1998,298-307

[54]Chen D.G., Zhang W.X., Yeung D., Tsang E.C.C.: Rough

approximations on a complete completely distributive lattice with applications to generalized rough sets. Information Sciences, 2006,176:1829-1848

[55]J?rvinen J.: On the structure of rough approximations.

Fundamenta Informaticae, 2002, 53, 135-153

[56]Jaoua A., Elloumi S.: Galois connection, formal concept and

Galois lattice in real binary relation. Systems & Software, 2002, 60(2), 149-163

[57]Harms S.K., Deogum J.S.: Sequential association rule mining

with time lags. J. Intel. Inform. Systems, 2004, 22(1), 7-22 [58]Yao Y.Y., Wong, S.K.M., and Lin, T.Y., A review of rough

set models, in: Rough Sets and Data Mining: Analysis for Imprecise Data, Lin, T.Y. and Cercone, N. (Eds.), Kluwer Academic Publishers, Boston, 1997,47-75

[59]Pei D.W., Xu Z.B.: Rough set models on two universities.

International Journal of General systems, 2004, 33, 569-581 [60]Mi J.S., Zhang W.X.: An axiomatic characterization of a

fuzzy generalization of rough sets. Information Sciences, 2004(160), 235-249

[61]Yao Y.Y.: Decision-theoretic rough set models. Rough Sets

and Knowledge Technology, Second International Conference, RSKT 2007, Proceedings, LNAI 4481, 2007, 1-12

[62]Yao J.T., Zhang, M.: Feature selection with adjustable

criteria. LNAI 3641, 2005, 204-213

[63]Wong S.K.M., Ziarko W.:Comparison of the probabilistic

approximate classification and the fuzzy set model. Fuzzy Sets and Systems, ,1987,21,357-362

[64]Zhao W.Q., Zhu Y.L., Gao W.: An information filtering

model based on decision-theoretic rough set theory.

Computer Engineering and Applications,2007, 43(7) , 185- 187

赵文清, 朱永利, 高伟. 一个基于决策粗糙集理论的信息

过滤模型. 计算机工程与应用, 2007, 43(7) , 185- 187 [65]J.T. Yao, J.P. Herbert, Web-based Support Systems with

Rough Set Analysis, Rough Sets and Emerging Intelligent Systems Paradigms (RSEISP'07), LNAI 4585, June 28-30, 2007, Warsaw, Poland, 360-370

[66]Pawlak Z., Skowron A.: Rough sets: some extensions,

Information Sciences, 2007(177), 28-40

[67]Greco S., Matarazzo B., Slowinski R.: Rough membership

and bayesian confirmation measures for parameterized rough sets, LNAI 3641,2005,314-324

[68]Slezak, D. Rough sets and Bayes factor, LNAI 3400, 2005,

202-229

[69]Slezak, D., Ziarko, W.: Attribute reduction in the Bayesian

version of variable precision rough set model, Electronic Notes in Theoretical Computer Science, 82,2003, 263-273 [70]Fagin R., Halpern J.Y.: Uncertainty, belief, and probability,

Comput. Intell., 1991, 7, 160-173

[71]Skowron A.: The relationship between the rough set theory

and evidence theory. Bull. Pol. Acad. Sci. Math., 1989, 37: 87-90

[72]Yao Y.Y., Lingras, P.J.: Interpretations of belief functions in

the theory of rough sets. Information Sciences, 1998, 104(1-2): 81-106

[73]Wu W.Z., Leung Y., Zhang W.X.: Connections between

rough set theory and Dempster-Shafer theory of evidence.

International Jounrnal of General Systems, 2002, 31(4):405-430

[74]Dubois D., Prade H.: Rough fuzzy set and fuzzy rough sets.

International Journal of General Systems, 1990, 17:191-209 [75]YaoY.Y: Combination of rough and fuzzy sets based on

α-level sets. Rough Sets and Data Mining: Analysis for Imprecise Data. Kluwer Academic Publishers, 1997, chapter1,301-321

[76]Srinivasan P, Ruiz M ,Kraft D H, Chen J H.: Vocabulary

mining for information retrieval: rough sets and fuzzy sets.

Information Processing and Management, 2001, 37, 15-38 [77]Jensen R., Shen Q.: Fuzzy-rough attribute reduction with

application to web categorization. Fuzzy Sets and Systems, 2004, 141, 469-485

[78]Dubois D.: On Ignorance and Contradiction Considered as

Truth-Values. Logic Journal of the IGPL, 2008,16(2): 195-216

[79]Intan R, Mukaidono M.: Generalized fuzzy rough sets by

conditional probability relations. International Journal of Pattern Recognition and Artificial Intelligence, 2002, 16(7), 865~881

[80]WangY F.: Mining stock price using fuzzy rough set system.

Expert System with Applications, 2003, 24, 13-23

[81]Kasemsiri W, Kimpan C.: Printed thai character recognition

using fuzzy-rough sets. Proceedings of IEEE Region 10 International Conference on Electrical and Electronic Technology (volume1). 2001, 326~330

[82]Yao, Y.Y., Chen, Y. H.: Rough set approximations in formal

concept analysis. Journal of Transactions on Rough Sets, V, LNCS 4100, 2006, 285-305

[83]Yao, Y.Y.: A comparative study of formal concept analysis

and rough set theory in data analysis, Rough Sets and Current Trends in Computing, 4th International Conference (RSCTC 2004) Proceedings, Lecture Notes in Computer Science 3066 , Tsumoto, S., Slowinski, R., Jan Komorowski, H., Grzymala-Busse, J.W. (Eds.), Springer, Berlin, Uppsala, Sweden, June 1-5, 2004, 59-68

[84]Wolski M.: Galois connections and data analysis.

Fundamenta Informaticae, 2004,60, 401-415

[85]Li H.R., Zhang W.X., Wang H.: Classification and reduction

of attributes in concept lattices. In: Proceedings of the 2006 IEEE International Conference on Granular Computing, GrC’06,2006, 142-147

[86]Yao Y.Y.: Concept lattices in rough set theory. In:

Proceedings of the 23rd International Meeting of the North American Fuzzy Information Processing Society, 2004,796-801

[87]Ma J.M., Zhang W.X. Wang X.: Dependence space of

concept lattice based on rough set. In: Proceedings f the 2006 IEEE International Conference on Granular Computing, GrC’06, 2006, 200-204

[88]Doignon J.P., Falmagne J.C.: Spaces for the assessment of

knowledge. International Journal of Man-Machine Studies,1985,23, 175-196

[89]Duntsch I., Gediga G.: A note on the correspondences among

entail relations, rough set dependencies, and logical consequence. Mathematical Psychology.2001,43: 393—401 [90]Xu F.F., Yao Y.Y., Miao D.Q.:Rough set approximations in

formal concept analysis and knowledge spaces. In: The 17th International Symposium on Methodologies for Intelligent Systems (ISMIS'2008), LNAI 4994:319-328

[91]Miao D.Q., Wang G.Y., Liu Q., Lin Z.Y., Yao Y.Y.:

Granular Computing: Past, Present, Future. Science Press.

2007(in Chinese)

苗夺谦,王国胤,刘清,林早阳,姚一豫. 《粒计算:过

去、现在与展望》,科学出版社,2007

[92]Wang G.Y. Zhang Q.H., Hu J.: An overview of granular

computing. Caai Transactions on Intelligent Systems. 2007, 2(6):8-26 (in Chinese)

王国胤,张清华,胡军,粒计算研究综述,智能系统学

报,2007, 2(6):8-26

[93]Polkowski L., Skowron A.: Rough-Neuro Computing,

Proceedings of the Second International Conference on Rough Sets and Current Trends in Computing (RSCTC’2000), Lecture Notes in Artificial Intelligence, Springer-Verlag, Berlin, vol 2005, 2000, 25-32

[94]Peters J. F., Szczuka M. S.: Rough Neurocomputing : A

Survey of Basic Models of Neurocomputation, Proceedings of the Third International Conference on RSCTC’2002, October,14-16, 2002, Malvern, PA , USA , Springer, 308-315

[95]Yao J. T., Yao Y. Y.: Induction of Classification Rules by

Granular Computing. Proceedings of the Third International Conferenc e on RSCTC’2002, October 14-16, 2002 , Malvern, PA ,USA , Springer, 331- 338

[96]Yao Y.Y.: A partition model of granular computing, LNCS

Transactions on Rough Sets, 2004, 1, 232-253

[97]Zhu W., Wang F.Y.: Reduction and axiomization of covering

generalized rough sets. Information Sciences, 2003,152, 217-230

[98]Hu J., Wang G. Y., Zhang Q. H.: Uncertainty measure of

covering generated rough set, 2006 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology (WI-IATW'06), 2006, 498-504

[99]Ma J. M., Zhang W. X., Li T. J.: A covering model of

granular computing. Proceeding of the Fourth International

conference on machine learning and cybernetics, 2005, 1625- 1630

[100]Wang G. Y., Hu F., Huang H., Wu Y.: A granular computing model based on tolerance relation, The Journal of China Universities of Posts and Telecommunications, 2005, 12(3): 86-90.

[101]Hu F., Huang H., Wang G.Y. Wu Y.: Granular computing in incomplete systems. Journal of Chinese Computer Systems, 2005, 26(8): 1335-1339(in Chinese)

胡峰, 黄海, 王国胤, 吴渝. 不完备信息系统的粒计算方

法, 小型微型计算机系统, 2005,26(8):1335-1339.

[102]Wang G.Y.: Rough set theory and knowledge discovery.

Xi'an: Xi'an Jiaotong University Press(2001) (in Chinese)

王国胤,Rough集理论与知识获取,西安:西安交通大学

出版社,2001

[103]Chen C.Y.., Li Z.G., Qiao A.Y., Wen A.P.: Study on discretization in rough set based on genetic algorithm.

Proceedings of the Second International Conference on Machine Learning and Cybernetics, Xi’an, 2-5 November 2003, 1430-1434

[104]Hou L.J., Wang G.Y., Wu Y., Lie N.: Discretization in rough set theory. Computer Science, 2000, 27(12), 89-94 (in Chinese)

侯利娟,王国胤,吴渝,聂能,粗糙集理论中的离散化问

题,计算机科学,2000,27(12):89-94

[105]Wang G.Y., Yu H., Yang D.C.: Decision table reduction based on conditional information entropy. Chinese Journal of Computers, 2002, 25(7), 759-766(in Chinese)

王国胤,于洪,杨大春.基于条件信息熵的决策表约简,计算

机学报,Vol25,No.7, 2002 , 759-766

[106]Wang J., Wang R., Miao D.Q.: Data Enriching based on rough set theory. Chinese Journal of Computers, 1998, 21(5): 393-400(in Chinese)

王珏,王任,苗夺谦等.基于Rough Set理论的"数据浓缩".计

算机学报,1998,21(5), 393-400

[107]Yu H., Wang G.Y., Yang D.C., Wu Z.F.: Knowledge reduction algorithms based on rough set and conditional information entropy, proceedings of SPIE: data mining and knowledge discovery: theory, tool, and technology IV, April 2002, Orlando, USA, Volume 4730, 422-431

[108]Wei, L., Li, H.R., Zhang,W.X: Knowledge reduction based on the equivalence relations defined on attribute set and its power set,, Information Sciences, 177 (2007) 3178-3185 [109]Hu,Q.H., Zhao,H., Xie,Z.X., Yu,D.R.: Consistency based attribute reduction. Z. H. Zhou, H. Li, and Q. Yang (Eds.): PAKDD 2007, LNAI4426(2007) 96-107

[110]Kryzkiewicz M.: Comparative study of alternative types of knowledge reduction in inconsistent systems. International Journal of Intelligent systems, 2001, 16, 105-120

[111]Deng,D.Y., Huang,H.K., Li,X.J.: Comparison of various types of reductions in inconsistent systems. Acta Electronica Sinica35(2007)252-255

[112]Zhang W.X., Mi J.S., Wu W. Z.: Knowledge reductions in inconsistent information systems. Chinese Journal of Computers, 2003, 26(1), 12-18 (in Chinese)

张文修,米据生,吴伟志. 不协调目标信息系统的知识约简.

计算机学报.2003, 26(1):12-18

[113]Slezak D.: Approximate entropy reducts. Fundamenta Informatica, 2002, 53, 365-390

[114]Chen D.G., Wang C.Z., Hu Q.H.: A new approach to attribute reduction of consistent and inconsistent covering decision systems with covering rough sets. Information Sciences, 2007, 177, 3500-3518

[115]Wang G.Y., Zhao J., An J.J., Wu Y.: A comparative study of algebra viewpoint and information viewpoint in attribute reduction. Fundamenta Informaticae, 2005, 68(3), 289-301 [116]Wang G.Y.:Calculation methods for core attributes of decision table. Chinese Journal of Computers. 2003, 26(5),

611-615 (in Chinese)

王国胤, 决策表核属性的计算方法, 计算机学报, 2003,

26(5), 611-615

[117]Zhang W.X., Wei L., Qi J.J.: Attribute reduction based on concept lattice. Science in China(Series E), 2005, 35(6), 628-639 (in Chinese)

张文修,魏玲,祁建军.概念格的属性约简理论与方法.中

国科学E辑信息科学. 2005, 35(6), 628-639

[118]Harms S.K., Depgum J.S.: Sequential association rule mining with time lags. J. Intell. Inform. Systems, 2004, 22(1), 7-22 [119]Liang, H., Wang, J. and Yao, Y.Y.: User-oriented feature selection for machine learning, The Computer Journal, 2007, 50(4), 421-434

[120]Hu F., Wang G.Y.: Quick reduction algorithm based on attribute order. Chinese Journal of Computer. 2007, 30(8), 1429-1435 (in Chinese)

胡峰, 王国胤, 属性序下的快速约简算法, 计算机学报, 2007, 30(8): 1429-1435

[121]Jiang Y.C., Liu Y.Z.: An attribute reduction method based on ant colony optimization. Intelligent Control and Automation, 2006. WCICA 2006. 3542—3546(in Chinese)

姜元春,刘业政,.基于蚁群优化算法的属性约简方法.第

六届全球智能控制与自动化大会.2006.6.21-23,中国,大连[122]Ye D.Y., Chen Z.J., Liao J.K.: A new algorithm for minimum attribute reduction based on binary particle swarm optimization with vaccination, in: Proceedings of PAKDD07, LNAI 4426, Springer Verlag (2007) 1029-1036

[123]Xu C., Min F.: Weighted reduction for decision tables. In L.

Wang, L. Jiao, G. Shi, X. Li, J. Liu, eds. FSKD. Lecture Notes in Computer Science, Springer 4223 (2006) 246-255 [124]Hu J., Wang G.Y., Fu A.: Knowledge reduction of covering approximation space, Proc. 6th IEEE Int. Conf. on Cognitive Informatics (ICCI'07), D. Zhang, Y. Wang, and W. Kinsner (Eds.), 140-144

[125]Yao, Y.Y. and Zhao, Y.: Attribute reduction in decision-theoretic rough set models, Information Sciences, 178 (17), Elsevier B.V., 2008, 3356-3373

[126]Yao Y.Y., Zhao Y. and Wang J.: On reduct construction algorithms, Proceedings of the First International Conference on Rough Sets and Knowledge Technology (RSKT’06), 297-304, 2006

[127]Yu H., Wang G.Y., Lan F.K.: Solving the attribute reduction problem with ant colony optimization. Chan C.C., GrzymalaBusse J.W., Ziarko W.P.(Eds.): Rough Sets and Current Trends in Computing, 6th International Conference, RSCTC 2008, Springer-Verlag, LNAI 5306, Berlin, Germany, 2008, 242-251

[128]Düntsch I., Gediga G.: Uncertainty measure of rough set prediction. Artificial Intelligence, 1998, 106, 109-137 [129]Liang J.Y., Li D.Y.: Uncertainty and knowledge acquisition in information system. Science Press, 2005 (in Chinese) 梁

吉业,李德玉: 信息系统中的不确定性与知识获取. 北京.

科学出版社. 2005

[130]Liang J. Y., Shi Z. Z., Li D. Y., Wireman M. J.: The information entropy, rough entropy and knowledge granulation in incomplete information systems. International Journal of General Systems, 2006, 34(1), 641-654

[131]Zhang L., Zhang B.: Theory of Fuzzy Quotient Space (Methods of Fuzzy Granular Computing) Journal of Software] 2003, 14(04): 770-776张铃, 张钹: 模糊商空间理论(模糊

粒度计算方法). 软件学报. 2003, 14(04), 770-776

[132]Wang G.Y., Zhang Q.H.: Uncertainty of rough sets in different knowledge granularities. Chinese Journal of Computers. 2008,31(9), 1588-1598 (in Chinese)

王国胤,张清华:不同知识粒度下粗糙集的不确定性研究

计算机学报, 2008,31(9), 1588-1598

[133]Yao Y.Y., Zhao Y., Wang J., and Han S.: A model of machine learning based on user preference of attributes,

Rough Sets and Current Trends in Computing, 5th International Conference, RSCTC 2006, Proceedings, LNAI 4259, 2006,587-596

[134]Kuntz P., Guillet F., Lehn R., Briand H.: User-driven, a.: process for mining association rules. In: Zighed, A.D.A., Komorowski, J., Z˙ ytkow, J.M. (eds.) PKDD 2000. LNCS (LNAI), vol. 1910, 483-489. Springer, Heidelberg (2000) [135]Wang G.Y., He X.: A self-learning model under uncertain condition. Journal of Software 14(6), 2003, 1096–1102 (in Chinese)

王国胤, 何晓. 一种不确定性条件下的自主式知识学习模

型.软件学报, 2003, 14(6), 2003, 1096-1102

[136]Yin D.S., Wang G.Y., Wu Y.: Data-driven decision tree learning algorithm based on rough set theory. In: Tarumi, H., Li, Y., Yoshida, T. (eds.) Proc. Of the 2005 International Conference on Active Media Technology (AMT2005), Takamatsu, Kagawa, Japan, 2005, 579-584

[137]Zhao J., Wang G.Y.: A Data-driven knowledge acquisition method based on system uncertainty, Proc. of the 4th IEEE Int. Conf. on Cognitive Informatics, Irvine, USA, 2005, 267-275

[138]Wang G.Y.: Domain-Oriented Data-Driven Data Mining (3DM): Simulation of Human Knowledge Understanding, Zhong, N.; Liu, J.; Yao, Y.; Wu, J.; Lu, S.; Li, K. (Eds.), WImBI 2006, LNCS 4845, 278-290

[139]Q. Gan, G. Wang, J. Hu, A Self-Learning Model Based on Granular Computing, 2006 IEEE Int. Conf. on Granular Computing, IEEE GrC2006, Atlanta, USA, 2006, 530-533 [140]Wang Y., Wang G.Y., Deng W.B.: Data-driven knowledge acquisition based on concept lattice. Pattern Recognition and Artificial Intelligence. 2007, 20(5), 636-642

王燕,王国胤,邓维斌.基于概念格的数据自主式不确定知

识获取.模式识别与人工智能,2007,20(5), 636-642 [141]S. Ohsuga: Knowledge Discovery as Translation, Studies in Computational Intelligence (SCI) 6, 2005,3-19

[142]Qin Z.R. Study on Data Mining Based on Rough Set Theory.

Master Thesis, Chongqing University of Posts and Telecommunications, 2004 (in Chinese)

覃政仁. 基于Rough Set的海量数据挖掘算法研究. 学位

论文,重庆邮电大学,2004

[143]Qin Z.R., Wang G.Y., Wu Y., Xue X.R.: A Scalable rough set knowledge reduction algorithm. LNAI 3006, Springer-Verlag, 2004, 445-454

[144]Liu Z.T., An incremental Arithmetic for the smallest reduction of attributes. Acta electronica sinica, vol27, No.11, 1999:96-98 (in Chinese)

刘宗田,属性最小约简的增量式算法,电子学报,1999.27(11):96-98

[145]Godin R, Missaoui R, alaui H. Incremental Concept Formation Algorithms Based on Galoies (Concept) Lattics.

Computational Intelligence,1995,11(2), 246-267

[146]Wang Z.H., Hu K.Y.: General and incremental algorithms of rule extraction based on concept lattice. Chinese J. Computer, 1999,Vol22,No.1, 66-70 (in Chinese)

王志海,胡可云等,概念格上规则提取的一般算法与渐进式算法,计算机学报,1999,22(1), 66-70

[147]Zheng Z., Wang G. Y.: RRIA: A Rough Set and Rule Tree Based Incremental Knowledge Acquisition Algorithm, Fundamenta Informaticae, 2004, 59(2-3), 299-313

[148]Hu, F., Wang, G.Y., Huang, H., Wu,Y.: Incremental attribute reduction based on elementary sets, RSFDGrC2005 Part 1, LNAI3641 (2005) 185-193

[149]Yu H., Yang D.C.: An incremental rule acquisition algorithm based on rough set. The Journal of China University of Posts and Telecommunications, 2005, 12(1), 47-52

[150]Zhang Q. H., Wang G. Y., Hu J., Liu X. Q.: Incomplete Information Systems Processing Based on Fuzzy-clustering, 2006 IEEE/WIC/ACM International Conference on Web

Intelligence and Intelligent Agent Technology (WI-IAT 2006 Workshops) (WI-IATW'06), Hong Kong, 2006, 486-489. [151]Li H.X, Yao Y.Y., Zhou X.Z., Huang B.: Two-Phase Rule Induction from Incomplete Data,G. Wang et al. (Eds.): RSKT 2008, LNAI 5009, Springer-Verlag Berlin Heidelberg, 2008, 47–54

[152]Wang G.Y., Guan L. H., Hu F.: Rough set extensions in incomplete information systems. Frontiers of Electrical and Electronic Engineering in China, 2008, 3(4), 399-405 [153]Liu S.H., Sheng Q.J., Wu B., Shi Z.Z, Hu F.: Research on efficient algorithms for rough set methods. Chinese Journal of Computers,2003,26(5), 524-529 (in Chinese)

刘少辉, 盛秋戬, 吴斌, 史忠植, 胡斐:Rough集高效算法的研究. 计算机学报, 2003, 26(5), 524-529

粗糙集理论

粗糙集理论与应用研究综述 王国胤1Yiyu Yao2 于洪1,2 (1重庆邮电大学计算机科学与技术研究所重庆400065) (2Department of Computer Science, University of Regina, Regina, Canada S4S 0A2) {wanggy, yuhong}@https://www.doczj.com/doc/dd3427396.html,, yyao@cs.uregina.ca 摘要本文在阐释粗糙集理论基本体系结构的基础上,从多个角度探讨粗糙集模型的研究思路,分析粗糙集理论与模糊集、证据理论、粒计算、形式概念分析、知识空间等其他理论之间的联系,介绍国内外关于粗糙集理论研究的主要方向和发展状况,讨论当前粗糙集理论研究的热点研究领域,以及将来需要重点研究的主要问题。 关键词粗糙集,模糊集,粒计算,形式概念分析,知识空间,智能信息处理 A Survey on Rough Set Theory and Its Application Wang Guo-Yin1Yao Yi-Yu2 Yu Hong1,2 1 Institute of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing, 400065 2 Department of Computer Science, University of Regina, Regina, Saskatchewan, Canada, S4S 0A2 Abstract This paper introduces the basic ideas and framework of rough set theory and the different views of knowledge representation in rough set theory, and then discusses the relations between the rough set theory and the other theories, such as fuzzy set, evidence theory, granular computing, formal concept analyzing, knowledge space, etc. Furthermore, the paper reviews the recent studies for this theory and a survey on its applications is also given. The future development trend of rough set theory is also discussed. Keywords rough set, fuzzy set, granular computing, formal concept analyzing, knowledge space, intelligent information processing 1 引言 智能信息处理是当前信息科学理论和应用研究中的一个热点领域。由于计算机科学与技术的发展,特别是计算机网络的发展,每日每时为人们提供了大量的信息,信息量的不断增长,对信息分析工具的要求也越来越高,人们希望自动地从数据中获取其潜在的知识。特别是近20年间,知识发现(规则提取、数据挖掘、机器学习)受到人工智能学界的广泛重视,知识发现的各种不同方法应运而生。 粗糙集(Rough Set,有时也称Rough集、粗集)理论是Pawlak教授于1982年提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具[1]。粗糙集理论最初的原型来源于比较简单的信息模型,它的基本思想是通过关系数据库分类归纳形成概念和规则,通过等价关系的分类以及分类对于目标的近似实现知识发现。 由于粗糙集理论思想新颖、方法独特,粗糙集理论已成为一种重要的智能信息处理技术[2-4],该理论已经在机器学习与知识发现、数据挖掘、决策支持与分析等方面得到广泛应用。目前,有三个有关粗糙集的系列国际会议,即:RSCTC、RSFDGrC和RSKT。中国学者在这方面也取得了很大的成果,从2001年开始每年召开中国粗糙集与软计算学术会议;RSFDGRC2003、IEEE GrC2005、RSKT2006、IFKT2008、RSKT2008、IEEE GrC2008等一系列国际学术会议在中国召开。 粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子,即上近似算子和下近似算子(又称上、下近似集)。经典Pawlak模型中的不分明关系是一种等价关系,要求很高,限制了粗糙集模型的应用。因此,如何推广定义近似算子成为了粗糙集理论研究的一个重点。 目前,常见的关于推广粗糙集理论的研究方法有两种,即:构造化方法和公理化方法。构造化方法是以论域上的二元关系、划分、覆盖、邻域系统、布尔子代数等作为基本要素,进而定义粗糙近似算子,从而导出粗糙集代数系统。公理化方法的基本要素是一对满足某些公理的一元集合算子,近似算子的某些公理能保证有一些特殊类型的二元关系的存在;反过来, 由二元关系通过构造性方法导出的近似算子一定满足某些公理。 事实上,有两种形式来描述粗糙集,一个是从集

集合代数与粗糙集之间的关系研究【文献综述】

文献综述 信息与计算科学 集合代数与粗糙集之间的关系研究 粗糙集理论是波兰数学家Pawlak于1982年提出的用于数据分析的理论. 由于该理论能够处理模糊和不确定性信息, 因此作为一种有效的知识获取工具受到了人工智能研究者的关注. 目前粗糙集理论已被成功应用在机器学习与知识发现、过程控制、数据挖掘、决策分析、模式识别等领域, 成为信息科学的研究热点之一. 1965年, 美国加利福尼亚大学控制论专家扎德(L. A. Zadeh)教授在《信息与控制》杂志上发表了一篇开创性论文<模糊集合>, 这标志着模糊数学的诞生. L. A. Zadeh教授多年来致力于“计算机”与“大系统”的矛盾研究, 集中思考了计算机为什么不能象人脑那样进行灵活的思维与判断问题. 计算机为什么不能象人脑思维那样处理模糊信息呢? 其原因在于传统的数学. 例如精确数学, 是建立在经典集合论的基础之上, 一个研究的对象对于某个给定的经典集合的关系要么是属于, 要么是不属于, 二者必居其一. [2]19世纪, 由于英国数学家布尔(Bool)等人的研究, 这种基于二值逻辑的绝对思维方法抽象后成为布尔代数, 它的出现促使数理逻辑成为一门很有适用价值的学科, 同时也成为计算机科学的基础. 但是, 1923年, 大哲学家罗素(Russell)就在其著名论文<论模糊性>中提出“整个语言或多或少是模糊的”及“所有二值逻辑都习惯上假定使用精确符号. 因此它仅适用于虚幻的存在. 而不适用于现实生活. 逻辑比其他学科使我们更接近天堂”[1]时认识到二值逻辑的不足. 二值逻辑无法解决一些逻辑悖论, 如著名的罗素(Russell)“理发师悖论”、“秃头悖论”、“克利特岛人说谎悖论”等等悖论问题. 这就是目前计算机不能象人脑思维那样灵活、敏捷地处理模糊信息的重要原因. 为克服这一障碍, L. A. Zadeh教授提出了“模糊集合论”. 在此基础上, 现在已形成一个模糊数学体系. 1960年柏克莱加州大学电子工程系扎德(L. A. Zadeh)教授, 提出“模糊”的概念. 1965年发表关于模糊集合理论的论文. 1966年马里诺斯(P. N. Marinos)发表关于模糊逻辑的研究报告. 以后, 扎德(L. A. Zadeh)又提出关于模糊语言变量的概念. 1974年扎德(L. A. Zadeh)进行有关模糊逻辑推理的研究. 1978年, 国际上第一本以模糊数学为主题的学术刊物《Fuzzy Sets

粗糙集理论及其应用综述

控制理论与应用 CONTROL THEORY & APPLICATIONS 1999年 第16卷 第2期 Vol.16 No.2 1999 粗糙集理论及其应用综述* 韩祯祥 张琦 文福拴 摘要:粗糙集理论是一种较新的软计算方法,可以有效地分析和处理不完备信息.该理论近年日益受到国际学术届的重视,已经在模式识别、机器学习、决策支持、过程控制、预测建模等许多科学与工程领域得到成功的应用.本文介绍了粗糙集理论的基本概念,对其在各领域的应用情况进行了综述. 关键词:粗糙集;不确定性;数据分析;软计算;粗糙控制 A Survey on Rough Set Theory and Its Application Han Zhenxiang, Zhang Qi and Wen Fushuan (Department of Electrical Engineering, Zhejiang University.Hangzhou,310 027,P.R.China) Abstract: Rough set theory is a relatively new soft comput ingtool to deal with vagueness and uncertainty.It has received much attention of the researchers around the world.Rough set theory has been applied to many area s successfully including pattern recognition,machine learning,decision support, process control and predictive modeling.This paper introduces the basic concepts of rough set.A survey on its applicatoins is also given. Key words: rough set; uncertainty; data analysis; soft computing; rough control 1 引言(Introduction) 粗糙集(Rougn Set,RS)理论是一种刻划不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律[1].RS理论是由波兰学者Pawlak Z在1982年[2]提出的.1991年Pawlak Z出版了专著[3],系统全面地阐述了RS理论,奠定了严密的数学基础.该书与1992年出版的RS理论应用专集[4]较好地总结了这一时期RS理论与实践的研究成果,促进了它的进一步发展,现已成为学习和应用RS理论的重要文献.从1992年至今,每年都召开以RS 为主题的国际会议,推动了RS理论的拓展和应用.国际上成立了粗糙集学术研究会,参加的成员来自波兰、美国、加拿大、日本、挪威、俄罗斯、乌克兰和印度等国家.目前RS理论已成为人工智能领域中一个较新的学术热点,引起了越来越多的科研人员的关注. 2 粗糙集理论的基本概念(Basic concepts of rough set theory) 2.1 知识与不可分辨关系(Knowledge and indiscern ibility relation) 在RS理论中,“知识”被认为一种将现实或抽象的对象进行分类的能力[3].假定

基于优势关系下的模糊粗糙集模型

https://www.doczj.com/doc/dd3427396.html, Fuzzy Rough Sets Based on Dominance Relations Xiaoyan Zhang Department of Mathematics and Information Science Guangdong Ocean University Zhanjiang, P. R. China 524088 datongzhangxiaoyan@https://www.doczj.com/doc/dd3427396.html, Abstract This model for fuzzy rough sets is one of the most important parts in rough set theory. Moreover, it is based on an equivalence relation (indiscernibility relation). However, many systems are not only concerned with fuzzy sets, but also based on a dominance relation because of various factors in practice. To acquire knowledge from the systems, construction of model for fuzzy rough sets based on dominance relations is very necessary. The main aim to this paper is to study this issue. Concepts of the lower and the upper approximations of fuzzy rough sets based on dominance relations are proposed. Furthermore, model for fuzzy rough sets based on dominance relations is constructed, and some properties are discussed. Keywords: Rough sets; Dominance relations; fuzzy sets. 1Introduction The rough set theory [10,11], proposed by Pawlak in the early 1980s, is an extension of set theory for the study of intelligent systems. It can serve as a new mathematical tool to soft computing, and deal with inexact, uncertain or vague information. Moreover, this theory has been applied successfully in discovering hidden patterns in data, recognizing partial or total dependencies in systems, removing redundant knowledge, and many others [7,12,13,15,16]. Since its introduction, the theory has received wide attention on the research areas in both of the real-life applications and the theory itself. Theory of fuzzy sets initiated by Zedeh [9] also provides useful ways of describing and modeling vagueness in ill-defined environment. Naturally, Doubois and Prade [8] combined fuzzy sets and rough sets. Attempts to combine these two theories lead to some new notions [1,5,7], and some progresses were made [2,3,4,5,6,14]. The combination involves many types of approximations and the construction of fuzzy rough sets give a good model for solving this problem [5]. However, most of systems are not only concerned with fuzzy data, but also based on a dominance relation because of various factors. In order to obtain the succinct knowledge from the systems, construction of model for fuzzy rough sets based on dominance relations is needed. The main aim of the paper is to discuss the issue. In present paper, a dominance relation is introduced and instead of the equivalence relation (discernibility relation) in the standard fuzzy rough set theory. The lower and the upper approximation of a fuzzy rough set based on dominance relations are proposed. Thus a model for fuzzy rough sets based on dominance relations is constructed, and some properties are studied. Finally, we conclude the paper and look ahead the further research.

粗糙集综述word版

粗糙集论文 题目 粗糙集综述 1 粗糙集属性约简 1.1 经典粗糙集属性约简 对于经典粗糙集我们可以用上下近似来描述。 给定知识库()R U K ,=,对于每个子集U X ?和一个等价关系()K ind R ∈,定义两个上下近似: {}{}. |/,|/ U U φ≠?∈=?∈=X Y R U Y X R X Y R U Y X R 另外上下近似还可以用以下的等式表达: []{}[]{}. |,| U U φ≠?∈=?∈=X x U x X R X x U x X R R R 当利用区分矩阵来表达知识时有许多优点,特别是他能很容易计算约简和核。约简是满足能区别由整个属性集区别的所有对象的属性极小子集。如果A 包含B 是满足B 交区别对象x 和y 的所有属性集合的极小子集不为空,且区别对象x 和y 的所有属性集合的极小子集不为空,则B 是A 的一个约简。核是区分矩阵中所有单个元素组成的集合。 对于决策表,C 为条件属性集,D 为决策属性集,决策表S 的区分矩阵是一个n n ?矩阵,其任一元素为 },x ),(),(|{),(a *)(且y a y f a x f C a y x ω≠∈= 对于满足),(,,x y x U y ω∈ )(y )(x D pos D pos C C ?∈且, 或者

)(y )(x D pos D pos C C ∈?且, 或者 ).(),()(,D ind y x D pos y x C ?∈且 如果φφ≠?≠??),(,),(C C C **''y x a y x a 满足条件的极小子集(关于包含),则'C 是C 的D 约简(相对约简). D 核(相对核)是决策表S 的区分矩阵中所有单个元素组成的集合,即 }.,},{),(a |{)(core *U y x a y x C a C D ∈=∈=其中 1.2 变精度粗糙集属性约简 变精度粗糙集是粗糙集的扩充,它是在基本粗糙集模型的基础上引入 )5.00(<≤ββ,即允许一定程度的错误分类率存在。这一方面完善了近似空间的概念,另一方面也有利于粗糙集理论从认为不相关的数据中发现相关数据。当β=0时,经典粗糙集模型是变精度粗糙集模型的一个特例。 X 和Y 表示有限论域U 的非空子集,且Y ?X 。 令 ???>>?=0,|X |0,0,|X | |,X |/|Y X |1-Y)c(X, 多数包含关系定义为ββ ≤??),(Y Y X c X 。 约简是保持和决策属性Q 的依赖性相同的最小条件属性子集。通过近似以来的定义来引入近似约简概念。 条件属性集P 关于据测属性集Q 的β约简是P 的一个子集),,(βQ P red ,且满足: ),),,,((),,()1(ββγβγQ Q P red Q P =. 不成立。都将是中去掉任何一个属性,从)1(),,()2(βQ P red 引入)5.00(<≤ββ参数后,扩充了基本粗糙集理论,更好体现了数据分析中的数据相关性,从而为获取近似决策规则奠定了基础。

粗糙集基本概念

一种对集合A的划分就对应着关于A中元素的一个知识 面对日益增长的数据库,人们将如何从这些浩瀚的数据中找出有用的知识?我们如何将所学到的知识去粗取精?什么是对事物的粗线条描述什么是细线条描述? 粗糙集合论回答了上面的这些问题。要想了解粗糙集合论的思想,我们先要了解一下什么叫做知识?假设有8个积木构成了一个集合A,我们记: A={x1,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色属性,按照颜色的不同,我们能够把这堆积木分成 R1={红,黄,兰}三个大类,那么所有 红颜色的积木构成集合X1={x1,x2,x6}, 黄颜色的积木构成集合X2={x3,x4}, 兰颜色的积木构成集合X3={x5,x7,x8}。 按照颜色这个属性我们就把积木集合A进行了一个划分(所谓A的划分就是指对于A中的任意一个元素必然属于且仅属于一个分类),那么我们就说颜色属性就是一种知识。在这个例子中我们不难看到,一种对集合A的划分就对应着关于A中元素的一个知识,假如还有其他的属性,比如还有形状R2={三角,方块,圆形},大小R3={大,中,小},这样加上R1属性对A构成的划分分别为:

A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7,x8}}(颜色分类) A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6,x7}}(形状分类) A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4,x7}}(大小分类) 上面这些所有的分类合在一起就形成了一个基本的知识库。那么这个基本知识库能表示什么概念呢?除了红的{x1,x2,x6}、大的{x1,x2,x5}、三角形的{x1,x2}这样的概念以外还可以表达例如 大的且是三角形的{x1,x2,x5}∩{x1,x2}={x1,x2}, 大三角{x1,x2,x5}∩{x1,x2}={x1,x2}, 兰色的小的圆形({x5,x7,x8}∩{x3,x4,x7}∩ {x3,x4,x6,x7}={x7}, 兰色的或者中的积木{x5,x7,x8}∪ {x6,x8}={x5,x6,x7,x8}。 而类似这样的概念可以通过求交运算得到,比如X1与Y1的交就表示红色的三角形。所有的这些能够用交、并表示的概念以及加上上面的三个基本知识(A/R1,A/R2.A/R3)一

《粗糙集理论与方法》读书笔记

《粗糙集理论与方法》读书笔记 智能信息处理是当前信息科学理论和应用研究中的一个热点领域。由于计算机科学与技术的发展,特别是计算机网络的发展,每日每时为人们提供了大量的信息,信息量的不断增长,对信息分析工具的要求也越来越高,人们希望自动地从数据中获取其潜在的知识。特别是近20年间,知识发现(规则提取、数据挖掘、机器学习)受到人工智能学界的广泛重视,知识发现的各种不同方法应运而生。 1 粗糙集概述 粗糙集(Rough Set,有时也称Rough集、粗集)理论是Pawlak 教授于1982年提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具粗糙集理论最初的原型来源于比较简单的信息模型,它的基本思想是通过关系数据库分类归纳形成概念和规则,通过等价关系的分类以及分类对于目标的近似实现知识发现。 由于粗糙集理论思想新颖、方法独特,粗糙集理论已成为一种重要的智能信息处理技术,该理论已经在机器学习与知识发现、数据挖掘、决策支持与分析等方面得到广泛应用。目前,有三个有关粗糙集的系列国际会议,即:RSCTC、RSFDGrC和RSKT。中国学者在这方面也取得了很大的成果,从2001年开始每年召开中国粗糙集与软计算学术会议;RSFDGRC2003、IEEE GrC2005、RSKT2006、IFKT2008、RSKT2008、IEEE GrC2008等一系列国际学术会议在中国召开。 粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子,即上近似算子和下近似算子(又称上、下近似集)。经典Pawlak

模型中的不分明关系是一种等价关系,要求很高,限制了粗糙集模型的应用。因此,如何推广定义近似算子成为了粗糙集理论研究的一个重点。 目前,常见的关于推广粗糙集理论的研究方法有两种,即:构造化方法和公理化方法。构造化方法是以论域上的二元关系、划分、覆盖、邻域系统、布尔子代数等作为基本要素,进而定义粗糙近似算子,从而导出粗糙集代数系统。公理化方法的基本要素是一对满足某些公理的一元集合算子,近似算子的某些公理能保证有一些特殊类型的二元关系的存在;反过来, 由二元关系通过构造性方法导出的近似算子一定满足某些公理。 事实上,有两种形式来描述粗糙集,一个是从集合的观点来进行,一个是从算子的观点来进行。那么,从不同观点采用不同的研究方法就得到粗糙集的各种扩展模型。扩展模型的研究以及基于其上的应用研究已经成为新的研究热点。 粗糙集理论与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息, 所以对问题的不确定性的描述或处理可以说是比较客观的, 由于这个理论未能包含处理不精确或不确定原始数据的机制, 所以这个理论与概率论, 模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性。因此,研究粗糙集理论和其他理论的关系也是粗糙集理论研究的重点之一。 如果我们将研究对象看成是现象,那么我们可以将这些现象分

粗糙集与其他软计算理论结合情况进行综述研究

粗糙集与其他软计算理论结合情况进行综述研究 摘要:最近几年,对于粗糙集的研究越来越多,尤其是粗糙集与其他软计算理论相结合的研究更为突出,取得了很多有意义的研究成果。因此,将此方面目前的主要研究情况进行一个总结,主要介绍了目前粗糙集与模糊集、神经网络、证据理论等一些其他软计算理论之间的结合研究情况,并对这方面未来的发展提出了自己的一些观点。 关键词:粗糙集; 软计算; 模糊集; 粗糙模糊集; 模糊粗糙集 Survey on com bination of rough sets and other soft computing theories TANG Jian-guo??1,2, William ZHU?1,SHE Kun?1, CHEN Wen??1,3 (1.School of Computer Science & Engineering, University of Electronic Science & Technology of China, Chengdu 611731, China;2.School of Computer Science & Engineering, Xinjiang University of Finance & Economics, Urumqi 830012, China;3.Dept. of Computer Science, Fuzhou Polytechnic, Fuzhou 350108, China)?Abstract:In recent years, there are m ore and more research on rough sets.Especially,the com binations of rough sets and other soft computing theories have becam e more prominent,and have made a lot of m eaningful research results. In view of this, this paper gave a summary of the current status of these m ajor researchs.It focused on the com bination of rough sets and other soft computing theories such as fuzzy sets,neural net,evidence theory,and so on. In the end, it put forward the own viewpoint of the future development in this area. Key words:rough sets; soft com puting; fuzzy sets; rough-fuzzy sets; fuzzy-rough sets 0 引言 随着计算机技术和网络技术的迅速发展与广泛应用,人类社会进入了信息爆炸的时代,如何处理并有效利用这些信息已经成为世界各国学者研究的热点问题。软计算就是在这种需求背景下出现的一种新技术。软计算最初是由模糊集理论的创始人Zadeh[1]在1994年提出的,它是一种通过对不确定、不精确及不完全真值的数据进行容错处理从而取得低代价、易控制处理以及鲁棒性高的方法的集合。目前,软计算的理论与方法主要包括神经网络、模糊集、粗糙集、遗传算法、证据理论等。 粗糙集是在最近几年发展较快的一门理论,它是一种用于分析和处理不确定、不精确问题的数学理论,是由波兰数学家Pawlak[2]在1982年提出的。它的基本思想是通过论域上的等价关系将论域划分成若干个等价类,然后利用这些知识对所需处理的不精确或不确定的事物进行

粗糙集理论介绍(对于初学者来说,很经典的滴)

粗糙集理论介绍面对日益增长的数据库,人们将如何从这些浩瀚的数据中找出有用的知识?我们如何将所学到的知识去粗取精?什么是对事物的粗线条描述什么是细线条描述?粗糙集合论回答了上面的这些问题。要想了解粗糙集合论的思想,我们先要了解一下什么叫做知识?假设有8个积木构成了一个集合A,我们记:A={x1,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色属性,按照颜色的不同,我们能够把这堆积木分成R1={红,黄,兰}三个大类,那么所有红颜色的积木构成集合X1={x1,x2,x6},黄颜色的积木构成集合X2={x3,x4},兰颜色的积木是:X3={x5,x7,x8}。 按照颜色这个属性我们就把积木集合A进行了一个划分(所谓A的划分就是指对于A中的任意一个元素必然属于且仅属于一个分类),那么我们就说颜色属性就是一种知识。在这个例子中我们不难看到,一种对集合A的划分就对应着关于A中元素的一个知识,假如还有其他的属性,比如还有形状R2={三角,方块,圆形},大小R3={大,中,小},这样加上R1属性对A构成的划分分别为:A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7,x8}} (颜色分类)A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6,x7}} (形状分类)A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4,x7}} (大小分类) 上面这些所有的分类合在一起就形成了一个基本的知识库。那么这个基本知识库能表示什么概念呢?除了红的{x1,x2,x6}、大的{x1,x2,x5}、三角形的{x1,x2}这样的概念以外还可以表达例如大的且是三角形的{x1,x2,x5}∩{x1,x2}={x1,x2},大三角{x1,x2,x5}∩{x1,x2}={x1,x2},兰色的小的圆形({x5,x7,x8}∩{x3,x4,x7}∩{x3,x4,x6,x7}={x7},兰色的或者中的积木{x5,x7,x8}∪{x6,x8}={x5,x6,x7,x8}。而类似这样的概念可以通过求交运算得到,比如X1与Y1的交就表示红色的三角。所有的这些能够用交、并表示的概念以及加上上面的三个基本知识(A/R1,A/R2.A/R3)一起就构成了一个知识系统记为R=R1∩R2∩R3,它所决定的所有知识是A/R={{x1,x2},{x3},{x4},{x5},{x6},{x7},{x8}}以及A/R中集合的并。 下面考虑近似这个概念。假设给定了一个A上的子集合X={x2,x5,x7},那么用我们的知识库中的知识应该怎样描述它呢?红色的三角?****的大圆?都不是,无论是单属性知识还是由几个知识进行交、并运算合成的知识,都不能得到这个新的集合X,于是我们只好用我们已有的知识去近似它。也就是在所有的现有知识里面找出跟他最像的两个一个作为下近似,一个作为上近似。于是我们选择了“兰色的大方块或者兰色的小圆形”这个概念:{x5,x7}作为X的下近似。选择“三角形或者兰色的”{x1,x2,x5,x7,x8}作为它的上近似,值得注意的是,下近似集是在那些所有的包含于X的知识库中的集合中求并得到的,而上近似则是将那些包含X的知识库中的集合求并得到的。一般的,我们可以用下面的图来表示上、下近似的概念。这其中曲线围的区域是X的区域,蓝色的内部方框是内部参考消息,是下近似,绿的是边界加上蓝色的部分就是上近似集。其中各个小方块可以被看成是论域上的知识系统所构成的所有划分。整个粗集理论的核心就是上面说的有关知识、集合的划分、近似集合等等概念。 下面我们讨论一下关于粗糙集在数据库中数据挖掘的应用问题。考虑一个数据库中的二维表如下:元素颜色形状大小稳定性 x1 红三角大稳定 x2 红三角大稳定 x3 黄圆小不稳定 x4 黄圆小不稳定 x5 兰方块大稳定 x6 红圆中不稳定 x7 兰圆小不稳定 x8 兰方块中不稳定 可以看出,这个表就是上面的那个例子的二维表格体现,而最后一列是我们的决策属性,也就是说评价什么样的积木稳定。这个表中的每一行表示了类似这样的信息:红色的大三角积木稳定,****的小圆形不稳定等等。我们可以把所有的记录看成是论域A={x1,x2,x3,x4,x5,x6,x7,x8},任意一个列表示一个属性构成了对论域的元素上的一个划分,在划分的每一个类中都具有相同的属性。而属性可以分成两大类,一类叫做条件属性:颜色、形状、大小都是,另一类叫做决策属性:最后一列的是否稳定? 下面我们考虑,对于决策属性来说是否所有的条件属性都是有用的呢?考虑所有决策属性是“稳定”的集合

【文献综述】决策粗糙集均值模型

文献综述 数学与应用数学 决策粗糙集均值模型 由于社会已经进入了网络信息时代,信息量不断增长(信息爆炸),并且由于人类的参与,使数据与信息系统中的不确定性更加显著(复杂系统)。面对大量的、杂乱无章的数据,人们希望能从中挖掘出潜在的、有用的信息,这给人类的智能信息处理能力提出了前所未有的挑战。由此产生了人工智能的新领域——知识发现(规则提取、数据挖掘和机器学习)。 波兰数学家Pawlak于1982年发表了论文“Rough Sets”[9]提出了一种能够定量分析处理不精确、不一致、不完整信息与知识的理论——粗糙集理论。1992年,第一届关于粗糙集理论国际学术会议在波兰召开。粗糙集的主要特点是不需要预先给定所需处理的数据集合之外的任何信息,而是直接从给定问题的分类知识出发,提供潜在知识和决策支持。国内外学者对该理论进行了广泛而深入的研究,提出了许多粗糙集模型,并且已经成功应用于很多领域和开发了大量的实用系统[7]。目前,对粗糙集理论的研究集中在它的数学性质、粗糙集拓展、其它不确定方法的关系和互补、有效算法和粒度计算等方面。目前,有3个有关粗糙集的系列国际会议,即RSCTC、RSFDGrC和RSKT。中国学者在这方面虽然起步晚,但发展较快,从2001年开始每年召开中国粗糙集与软计算学术会议;2003年中国人工智能学会粗糙集与软计算专业委员会成立;一系列学术会议也有在中国召开,特别值得一提的是2010年第二届国际粗糙集理论研讨会在我校(浙江海洋学院)召开。中国第四届粗糙集与软计算会议也于2004年10月24日在我校召开,大大增加了我校在国内外的知名度。 在经典粗糙集理论的研究中,Pawlak的代数粗糙集模型是研究的主要对象。粗糙集理论是建立在分类机制的基础上的。它将研究对象组成的集合称为论域,将分类理解为在论域上的等价关系,而等价关系构成了对该论域的划分。粗糙集理论将知识理解为对数据的划分,每一被划分的集合称为概念或范畴。一个等价关系对应一个划分,把论域分解成子集族,作为描述论域中任意概念的基本信息粒子。这产生了一个颗粒集合,其中一个颗粒看作一丛点(对象),因其不可区分性、相似性、接近的功能而被看做一致[24]。 对于一个等价关系(划分),某些子集不能精确地由一个等价类或者几个等价类来表

粗糙集考试资料整理

粗糙集:等价关系和分类;精确集和粗糙集;属性间的依赖程度。(一张表,互信息和依赖程度都计算) 1、粗糙集基本概念: 粗糙集(Rough Set)理论是波兰数学家Z.Pawlak于1982年提出的,是一种新的处理含糊性和不确定性问题的数学工具。相对于概率统计、模糊集等处理含糊性和不确定性的数学工具而言,粗糙集理论有这些理论不具备的优越性。统计学需要概率分布,模糊集理论需要隶属函数,而粗糙集理论的主要优势就在于它不需要关于数据的任何预备的或额外的信息。 1982 年, 波兰学者Z. Paw lak 提出了粗糙集理论, 它是一种刻划不完整性和不确定性的数学工具, 能有效地分析不精确,不一致( incon sisten t),不完整( incomp lete) 等各种不完备的信息, 还可以对数据进行分析和推理, 从中发现隐含的知识, 揭示潜在的规律. 粗糙集理论是建立在分类机制的基础上的, 它将分类理解为在特定空间上的等价关系, 而等价关系构成了对该空间的划分.粗糙集理论将知识理解为对数据的划分, 每一被划分的集合称为概念.粗糙集理论的主要思想是利用已知的知识库, 将不精确或不确定的知识用已知的知识库中的知识来(近似) 刻画.该理论与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息, 所以对问题的不确定性的描述或处理可以说是比较客观的, 由于这个理论未能包含处理不精确或不确定原始数据的机制, 所以这个理论与概率论, 模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性. 在粗糙集理论中,"知识"被认为是一种分类能力.人们的行为是基于分辨现实的或抽象的对象的能力, 根据事物的特征差别将其分门别类的能力均可以看作是某种"知识". 2、关系、等价关系和分类 关系R:设U是一个非空集合,R是U上的一个关系,如果R是U×U的一个子集。例如,实数集中的“>”关系就是2维平面中的子集{(x, y):x >y};整数集中的“整除”关系就是Z×Z中的子集{(a, b):存在q∈Z,使得b = ra};等等。 等价关系:满足反身性,对称性和传递性的关系。例如,相等关系,三角形的相似关系。 等价关系与集合分类:一个等价关系可以给集合一个分类(等价类);集合的一个分类也对应一个等价关系。等价类。最细的分类和最粗的分类。 由等价关系R产生的关于集合U的分类(等价类)就是这个集合包含的知识。 分类过程中, 相差不大的个体被归于同一类, 它们的关系就是不可分辨关系( indiscernability relation). 假定只用两种黑白颜色把空间中的物体分割两类, {黑色物体},{白色物体},那么同为黑色的两个物体就是不可分辨的, 因为描述它们特征属性的信息相同, 都是黑色. 如果再引入方,圆的属性, 又可以将物体进一步分割为四类: {黑色方物体},{黑色圆物体},{白色方物体},{白色圆物体}. 这时, 如果两个同为黑色方物体, 则它们还是不可分辨的. 不可分辨关系也称为一个等效关系(equivalence relationship ), 两个白色圆物体间的不可分辨关系可以理解为它们在白,圆两种属性下存在等效关系.

基于邻域的粗糙集近似【开题报告】

开题报告 信息与计算科学 基于邻域的粗糙集近似 一、综述本课题国内外研究动态, 说明选题的依据和意义 粗糙集理论作为一种数据分析处理理论, 由波兰科学家Z.Pawlak[1]于1982年所创立. 自20世纪90年代起, 该理论日益受到重视, 并成为国际信息科学的研究热点之一. 它是经典集合理论的扩展[2][3], 是一种处理不精确、不一致、不完整等各种不完备信息有效的新型数学工具, 是一种天然的数据挖掘或者说是知识发现方法. 由于实际需求中的数据分类、数据挖掘、概念形成等的不充分和不完备, 人们主观对各个认识领域中的信息、知识大都也是不精确的, 这种知识、信息的不确定性就要求在知识的表示、处理时能够反映出这种不确定性. 因此, 这套理论得以开发, 同时也非常成功的应用于人工智能领域, 例如人工智能、模式识别与智能信息处理等计算机领域. 粗糙集理论不继续用确定的集合边界, 它的基础是分类机制, 将分类理解为在空间上的等价关系. 这个理论与概率论, 模糊数学和证据理论等理论有很强的互补性[4]. 它的基本要素是近似空间, 由近似空间可以导出粗糙集理论中一对基本概念: 下近似算子和上近似算子. 下近似算子是所有在给定集合的等价类中子集的元素, 而上近似算子是所有在给定集合的等价类中具有非空交集的元素. 每一个集合都能够定义上近似和下近似, 再由集合的上、下近似就可以刻画出集合中可用信息的非数值属性. 对于不同的二元关系, 可以得到不同的近似空间, 其导出的近似算子性质也各不相同[4]. 在Pawlak的粗糙集合模型中, 等价关系是必要条件. 等价关系可以看成是Pawlak的粗糙集合模型中的核心思想[5]. 粗糙集理论的主导思想是保持分辨能力不变的情况下[6], 通过知识约简得出问题的决策和分类方法. 对于分类, 可以找到不确定数据或者噪声数据内在结构; 对于特征归约, 可以用来识别、删除给定数据的属性; 对于分析, 可以根据分类而评估出每个属性的意义或贡献. 论域中的元素都与论域中的一族子集相对应, 这一族子集就称为元素的邻域, 并且族中的每一个系统都被称为元素的邻域. 二元关系中建立的模糊集合理论, 进而就相关到对应的

粗糙集理论论文

粗糙集理论浅析 粗糙集理论,是继概率论、模糊集、证据理论之后的又一个处理不确定性的数学工具。作为一种较新的软计算方法,粗糙集近年来越来越受到重视,其有效性已在许多科学与工程领域的成功应用中得到证实,是当前国际上人工智能理论及其应用领域中的研究热点之一。在很多实际系统中均不同程度地存在着不确定性因素,采集到的数据常常包含着噪声,不精确甚至不完整。 一、引言 粗糙集作为一种处理不精确、不确定与不完全数据的新的数学理论, 最初是由波兰数学家Z. Paw lak于1982年提出的。由于最初关于粗糙集理论的研究大部分是用波兰语发表的, 因此当时没有引起国际计算机学界和数学界的重视, 研究地域也仅局限在东欧一些国家, 直到20世纪80年代末才逐渐引起各国学者的注意。近几年来, 由于它在机器学习与知识发现、数据挖掘、决策支持与分析等方面的广泛应用, 研究逐渐趋热。1992年, 第一届关于粗糙集理论国际学术会议在波兰召开。1995年,A CM Com 2m unication 将其列为新浮现的计算机科学的研究课题。1998年, 国际信息科学杂志( Infor2m ation Sciences) 还为粗糙集理论的研究出了一期专辑。 粗糙集理论是建立在分类机制的基础上的, 它将分类理解为在特定空间上的等价关系, 而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分, 每一被划分的集合称为概念。粗糙集理论的主要思想是利用已知的知识库, 将不精确或不确定的知识用已知的知识库中的知识来(近似) 刻画。该理论与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息, 所以对问题的不确定性的描述或处理可以说是比较客观的, 由于这个理论未能包含处理不精确或不确定原始数据的机制, 所以这个理论与概率论, 模糊数学和证据理论等其他处理不确 定或不精确问题的理论有很强的互补性。 二、基本概念 粗糙集是一种较有前途的处理不确定性的方法,相信今后将会在更多的领域中得到应用. 但是,粗糙集理论还处在继续发展之中,正如粗糙集理论的创立人Z. Paw lak 所指出的那样,尚有一些理论上的问题需要解决,诸如用于不精确推理的粗糙逻辑(Rough logic) 方法,粗糙集理论与非标准分析(Nonstandard analysis) 和非参数化统计(Nonparametric statistics)等之间的关系等等. 将粗糙集与其它软计算方法(如模糊集,人工神经网络,遗传算法等)相综合,发挥出各自的优点,可望设计出具有较高的机器智商(M IQ) 的混合智能系统(Hybrid Intelligent System),这是一个值得努力的方向。 三、粗糙集理论中的知识表示 “知识”这个概念在不同的范畴内有多种不同的含义。在粗糙集理论中,“知识”被认为是一种分类能力。人们的行为是基于分辨现实的或抽象的对象的

相关主题
文本预览
相关文档 最新文档