当前位置:文档之家› 保正域的决策粗糙集属性约简

保正域的决策粗糙集属性约简

保正域的决策粗糙集属性约简

黄国顺

【摘要】针对决策粗糙集模型,分析了它的正域随条件属性删除时的变化特点,

即当条件属性集变小时,决策粗糙集的正域不但会变大,而且可能保持不变或变小。讨论了现有几种与正域相关的决策粗糙集属性约简定义的优缺点,在此基础上提出一种新的保正域不变的决策粗糙集属性约简。计算实例发现,现有基于差别矩阵的决策粗糙集属性约简方法不能求到它的所有保正域约简。上述研究结果说明,决策粗糙集模型与经典粗糙集模型的属性约简问题完全不同,因此不能简单地将经典粗糙集的方法平行推广到决策粗糙集模型上。该文的结论为将来系统研究决策粗糙集模型中的属性约简问题提供了很好的小结和理论基础。%For Decision-Theoretic Rough Set(DTRS)models, the positive region change rules are analyzed when remov-ing attributes from conditional attribute set. That is, the positive region not only may be larger, but also can be unchanged or smaller with respect to the decreasing of attributes. The existing attribute reducts related to positive regions in DTRS models are discussed and analyzed. Then a new type of positive region preservation attribute reduct in DTRS models is proposed. An example is given to show that the method based on discernibility matrix can’t get all of positive region pres-ervation reducts as in classical rough set models. It shows that the attribute reduct methods in classical rough set models are completely different from the ones in DTRS models and can’t extend the methods to DTRS parallelly. The results above give a summary and provide a

theoretical basis for the attribute reduct research in DTRS models in the future.

【期刊名称】《计算机工程与应用》

【年(卷),期】2016(000)002

【总页数】6页(P165-169,270)

【关键词】决策粗糙集;属性约简;正域;差别矩阵

【作者】黄国顺

【作者单位】佛山科学技术学院理学院,广东佛山 528000

【正文语种】中文

【中图分类】TP18

HUANG Guoshun.

Computer Engineering and Applications,2016,52(2):165-169.

决策粗糙集模型是经典粗糙集模型的一个概率推广[1-3],它通过引入两个阈值和

条件概率,允许决策具有一定程度的误差。在经典粗糙集模型中[4-5],Pawlak首先提出一种保正域不变的属性约简,并且可以证明保正域不变与保正域基数不变是等价的。但在决策粗糙集模型中,由于决策区域和属性减少之间没有单调性[6-7],使得在经典粗糙集上适用的定义和方法在决策粗糙集上无效。Yao和Zhao在详细讨论的基础上提出一种泛化形式的决策粗糙集属性约简定义,即满足某种度量性质的极小条件属性集合。为了避开决策粗糙集属性约简的非单调性问题,国内外多位学者提出了各种约简办法,如LI等人提出的非单调属性约简[8],Jia等人提出的

基于决策风险最小化的属性约简及其优化方法[9-10],Liao和Min等人提出的代

价敏感属性约简[11],Ma和Wang等提出的保决策区域分布约简[12]等。

根据文献[6]的观点,决策粗糙集模型中的属性约简应该保持约简前后正规则不变,即约简前的正规则约简后仍然是正规则。因此有学者提出正域或正域基数最大化的属性约简[7-8],但这样做是否合理呢?本文首先分析了决策粗糙集模型中正域随条件属性删除时的变化情况,然后分析了现有几种与正域相关的属性约简定义的优缺点,在此基础上提出一种保正域不变的决策粗糙集属性约简定义。与经典粗糙集模型不同,现有基于差别矩阵的决策粗糙集约简方法不能求到它的所有保正域约简,因此不能简单地将经典粗糙集的方法和结论平行推广到决策粗糙集模型上。

由于求属性约简的过程即是删除一些不必要属性的过程,在删除冗余属性时会使得划分变粗,从而影响各个决策规则的可信度大小,最终导致决策区域发生变化。一般地,在删除属性的过程中,高的可信度会变低,较低可信度会变高,即如下引理1。

引理1假设,那么对∀Dj∈πD,有

证明由于,因此合并后所得规则[x]A→Dj的可信度为参与合并等价类[xi]C在 Dj

上可信度的加权平均值,马上有结论成立。

根据定义2,(α,β)-正域仅要求存在某个Dj∈πD,使得Pr(Dj|[x]A)≥α。根据引

理1,即使是正域与正域中的等价类合并,合并后的等价类可能被划入负域或边界域或正域中。具体算例见例1。

例1[9]给定如表1所示的决策表 S1,其中U={x1,x2,…,x9},C={c1,c2},

D={d}。

记U/C={C1,C2,C3,C4},其中C1={x1,x4},C2={x2,x6,x8},C3={x3},C4={x5,x7,x9}。U/D={D1,D2,D3},其中D1={x1,x2},D2={x3,x4,

x5},D3={x6,x7,x8,x9}。令A={c1},那么U/A={A1,A2},其中

A1=C1∪C2,A2=C3∪C4。

若令α=0.6,β=0.5,那么POS(α,β)(πD|πC)=C2∪C3∪C4,NEG(α,

β)(πD|πA)=U。正域中的等价类C3,C4合并成A2后被划入负域,此时正域变小。若令α=0.6,β=0.4,同样是等价类C3,C4合并成A2,但此时A2被划入边界域,此时正域变小。

若令α=0.5,β=0.3,同样是等价类C3,C4合并成A2,但此时A2被划入正域,此时正域不变。

类似地,当正域与边界域(负域)中的等价类合并,新得到的等价类也可能被划入正域、边界域或负域,从而使得在等价类合并过程中正域变大或变小。

因此在决策粗糙集模型中,当删除冗余属性时,正域不仅仅可能变大[8]、还有可

能保持不变或变小。而在经典粗糙集模型中,随着属性的删除,它的正域不可能变大,只会变小或不变,这是两种模型不同的地方。

本章先回顾几种与正域相关的决策粗糙集属性约简定义,然后提出一种新的保正域不变属性约简定义。

4.1 决策粗糙集属性约简泛化定义

由于决策粗糙集的决策区域与属性减少之间没有单调性,Yao和Zhao在文献[6]

给出一种决策粗糙集属性约简的泛化定义即满足某种性质的C的极小集合。假设

是从条件属性集的幂集到偏序集L的一个映射。

定义3[6]给定决策表DIS,0≤β<α≤1和度量性质集合E={e1,e2,…},称集合

R⊆C是C的关于决策属性D的一个约简,当且仅当满足如下两个条件:

(1)对。

(2)对任意的R′⊂R和任意的不成立。

其中度量属性集可以是决策单调性、泛化规模和决策风险等指标。作者特别就上述三个指标展开讨论,强调如下几点:

(1)约简前的非负决策规则,约简后应给予保留,特别是高可信度正规则约简后

应该仍是正规则。

(2)约简后决策规则的覆盖范围至少不少于约简前决策规则的覆盖范围。

(3)约简后的代价不能超过约简前的代价,同时代价的减少不能改变原始决策,也不能以牺牲决策规则集的覆盖范围为代价。

4.2 基于正域基数的属性约简

Li等在文献[8]提出一种基于正域基数的属性约简方法。

定义4[8]给定决策表 DIS,0≤β<α≤1,B⊆C是C的一个属性约简,如果满足以

下两个条件:

(1)

(2)对任意

由于定义4以集合基数而非集合本身参与比较,可能会产生如下几个问题:(1)由于只需要比较集合基数大小,而非集合本身,从而不能保证高可信度正规则在属性约简后仍是正规则。(2)由于正域依赖于阈值α的值,如果α取值较小(此时仍满足0≤β<α≤1),很容易有POS(α,β)(πD|πC)=U,最终也会导致每个单列属性都是约简集。考察文献[7]的算例。

例2[7]给定表2的决策表S2,U={x1,x2,…,x9},C= {c1,c2,c3,c4,c5,c6},D={d}。

记U/D={D1,D2,D3},其中D1={x1,x2},D2={x3,x4,x5},D3={x6,x7,x8,x9}。取α=0.75,那么POS(α,β)(πD|πC)= {x1,x3,x4,x7},令R={c5},那么POS(α,β)(πD|πR)={x3,x4,x5, x9},虽然,但POS(α,β)(πD|

πC)≠POS(α,β)(πD|πR),对于约简前的确定性正规则[x1]C→D1在属性约简后

消失了。虽然允许误差,也允许属性约简前后正规则可信度可以不相等,但希望约简前的确定性正规则在约简后还是应该保留,定义4显然保证不了这点。

4.3 一种保正域的属性约简

在文献[7]中,Zhao提出一种保正域的属性约简。

定义5[7]给定决策表DIS,0≤β<α≤1,R⊆C,如果,那么称集合R是C的关于

决策属性D的一个保正域约简。

在某些情况下,该定义可放松为:

(1)

(2)对任意

根据定义5,保正域属性约简R希望得到一个局部最大的正域,这样做在约去一些条件属性后似乎能保留正规则,从而是合理的,但由于扩大了正域,从而必将约简前可信度低的边界域或负域在约简后将其划入正域中,势必增加决策风险。

例3[9]例1续)取α=0.75,β=0.6,此时有。在删除属性集{c1,c3,c4, c6}后,一方面有但另一方面它将原始决策表的边界域对象{x2,x6,x8}划入正域中,从而增加了决策风险。

4.4 一种新的保正域不变属性约简

根据前面的讨论,本节提出一种新的决策粗糙集属性约简定义。与Zhao的方法不同,不允许正域无限制扩大,即不是正域越大越好,因为这样做可能会在扩大正域的同时增加决策风险。基于以上考虑提出一种保正域不变的属性约简定义。

定义6给定决策表DIS,0≤β<α≤1,R⊆C,如果R满足如下两个条件,则称R

是C的关于决策划分πD的一个(α,β)-正域属性约简,简称为保正域属性约简。(1)

(2)对任意

称仅满足条件(1)的属性集R是C的一个正域协调集。特别地,如果当α=1,

β=0,决策粗糙集模型退化成经典粗糙集模型,此时POS(1,

0)(πD|πR)=POSR(D)。

Kryszkiewicz曾对变精度粗糙集的属性约简提出如下定义7,它的形式和定义6

非常类似,但两者有本质区别。

定义7[16]给定决策表DIS,R⊆C,如果R满足如下两个条件,则称R是C的关

于决策划分πD的α-正域约简,简称为α-正域属性约简。

(1)POS(α,β)(πD|πR)=POS(α,β)(πD|πC)。

(2)对任意a∈R,POS(α,β)(πD|πR-{a})≠POS(α,β)(πD|πC)。

例4给定表3中决策表S3,其中U={x1,x2,…,x9},C={c1,c2,c3,c4},

D={d}。

若取α=0.7,那么属性集C和{c1,c2,c3}及其子集下的(α,β)-正域如表4所示。若令R={c1,c2,c3},那么根据定义7知R是C的一个α-正域属性约简。另一

方面,由于所以知{c1}也是C的一个α-正域属性约简。之所以会这样,这是因为

决策粗糙集的(α,β)-正域不具有单调性,即它的(α,β)-正域不会随条件属性集的变小而变小,有时反而会变大。在本例中,当条件属性集不断缩小,由{c1,c2,

c3}→{c1,c3}→{c3}时,它的(α,β)-正域先变小然后变大。因此必须对满足

POS(α,β)(πD|πR)= POS(α,β)(πD|πC)的 R中任意真子集进行检验,而不能像经典Pawlak粗糙集模型那样,这是因为经典粗糙集的正域具有单调性,即如果

B⊆A⊆C,那么 POSB(D)⊆POSA(D)。

对于经典粗糙集模型,Skowron给出它的一种基于差别矩阵求属性约简的方法[17]。国内学者叶炯毅、杨明等对它进行改进,使得能基于差别矩阵求一致或不一致决策信息系统上的正域约简[18-19]。Zhao等将它应用到决策粗糙集模型的属

性约简中。

对于等价类[x]A∈πA,Skowron提出一种决策等价类集合定义,Zhao和Yao通过引入阈值(α,β),将它分成三部分,即(α,β)-正域、边界域和非负域的决策等

价类集合,其中(α,β)-正域决策等价类集合定义为:相应的差别矩阵定义为:

利用Skowron和Rauszer提供的差别矩阵布尔函数[17]。

最后得到吸取范式的每个合取式即是一个(α,β)-正域约简。

然而与经典粗糙集模型不同的是,基于上述差别矩阵方法只能计算到决策粗糙集模型中的部分保正域属性约简,具体考察算例5。

例5决策表S4如表5所示,其中U={x1,x2,x3,x4},C={c1,c2},D={d}。记U/C={C1,C2},其中C1={x1},C2={x2,x3,x4};U/D= {D1,D2},其中

D1={x1,x2},D2={x3,x4}。若取α=0.4,那么,知{c1}和{c2}都是C的一个(α,β)-正域约简。约简前的正规则C1→D1和C2→D2,可信度分别为1.00和0.667。若令 R={c1},那么U/R={R1},R1={x1,x2,x3,x4},约简后上述两规则合并

成R1→D1或R1→D2,可信度变成0.50。尽管约简前后各正规则的可信度不同,但它们都大于给定阈值α。

另一方面,DPOS(α,β)(C1)={D1},DPOS(α,β)(C2)={D2},相应的差别矩阵MPOS(0.4,β)如表6所示(由于是对称矩阵,只给出下半部分)。

经简单计算,最后得到约简为{c2},与通过定义6所得结果不一样(少了约简结果{c1})。

造成这个结果的深层次原因是什么呢?但必须先明确的一点是,当DTRS模型退化成经典Pawlak模型时,本文的定义2、定义6分别退化为Pawlak模型下的正域定义和保正域不变属性约简定义,此时它们与经典Skowron差别矩阵在语义上是完全吻合的。但在DTRS模型下却得到完全不同的结论(例5即是反例)。到底

是划分层面的基于集合表示形式的三个区域定义,即定义2有问题,还是定义6

有问题?还是改进后的差别矩阵构造方法即式(1)有问题?还是它们在DTRS模型下语义根本就完全不一样?这些问题还有待将来进一步深入研究。

本文主要对基于集合表示的决策粗糙集正域变化情况进行了分析,讨论了现有几种与正域相关属性约简定义的优缺点,在此基础上提出一种保正域不变的决策粗糙集属性约简定义,同时给出一种基于差别矩阵的计算方法。研究结果表明,基于集合

求并形式的的决策粗糙集正域以及保正域不变的属性约简、基于差别矩阵构造方法与经典粗糙集模型相应结论有所不同。因此如何对决策粗糙集属性约简理论进行扩展,使得当决策粗糙集模型退化成经典粗糙集模型时,决策粗糙集模型的约简方法能退化成经典粗糙集模型中相应约简方法,是下一步研究的重点问题。

【相关文献】

[1]Yao Y Y,Wong S K M,Lingras P.A decision-theorectic rough set

model[M]//Methodologies for intelligent systems. New York:North-Holland,1990:17-24.

[2]Yao Y Y,Wong S K M.A decision theoretic framework for approximating

concepts[J].International Journal of Manmachine Studies,1992,37(6):793-809. [3]Yao Y Y.Decision-theoretic rough set models[C]//Proceedings of

RSKT2007.Berlin/Heidelberg:Springer,2007:1-12.

[4]Pawlak Z.Rough sets:theoretical aspects of reasoning about data[M].Dordrecht:Kluwer Academic Publisher,1991.

[5]Pawlak Z.Rough sets[J].International Journal of Computer& Information Sciences,1982,11(5):341-356.

[6]Yao Y Y,Zhao Y.Attribute reduction in decision-theoretic rough set

models[J].Information Sciences,2008,178(17):3356-3373.

[7]Zhao Y,Wong S K M,Yao Y Y.A note on attribute reduction in the decision-theoretic rough set model[C]//LNCS 6499:Proceedings of the Trans on Rough Sets XIII.Heidelberg:Springer-Verlag,2011:260-275.

[8]Li H X,Zhou X Z,Zhao J,et al.Non-monotonic attribute reduction in decision-theoretic rough sets[J].Fundamenta Informaticae,2013,126(4):415-432.

[9]Jia X Y,Liao W,Tang Z,et al.Minimum cost attribute reduction in decision-theoretic rough set models[J].Information Sciences,2013,219(1):151-167.

[10]Jia X,Y Tang Z,Liao W,et al.On an optimization representation of decision-theoretic rough set mode l[J].International Journal of Approximate Reasoning,2014,55(1):156-166.

[11]Liao S,Zhu Q,Min F.Cost-sensitive attribute reduction in decision-theoretic rough set models[J].Mathematical Problems in Engineering,2014:1-9.

[12]Ma Xi’ao,Wang G,Yu H,et al.Decision region distribution preservation reduction in decision-theoretic rough set model[J].Information Sciences,2014,278(1):614-640.

[13]Pawlak Z,Wong S K M,Ziarko W.Rough sets:probabilistic versus deterministic approach[J].International Journal of Man-Machine Studies,1988,29(1):81-95. [14]Ziarko W.Variable precision rough set model[J].Journal of Computer and System Sciences,1993,46(1):39-59.

[15]Ślęzak D.Rough sets and Bayes factor[M]//Transactions on Rough Sets

III.Berlin/Heidelberg:Springer,2005:202-229.

[16]Kryszkiewicz https://www.doczj.com/doc/2919396700.html,parative study of alternative types of knowledge reduction in inconsistent systems[J].International Journal of Intelligent Systems,2001,16(1):105-120.

[17]Skowron A,Rauszer C.The discernibility matrices and functions in information systems[M]//Intelligent decision support:handbook of applications and advances of the rough sets theory.Dordrecht:Kluwer Academic Publisher,1992:331-362.

[18]叶东毅,陈昭炯.一个新的差别矩阵及其求核方法[J].电子学报,2002,30(7):1086-1088.

[19]杨明.一种基于改进差别矩阵的属性约简增量式更新算法[J].计算机学报,2007,30(5):815-822.

粗糙集理论的模型构建方法及其预测性能评估

粗糙集理论的模型构建方法及其预测性能评 估 引言: 粗糙集理论是一种基于不完全信息的数据分析方法,它可以处理不确定性和模糊性问题,并在决策和预测中发挥重要作用。本文将介绍粗糙集理论的模型构建方法以及如何评估其预测性能。 一、粗糙集理论的模型构建方法 1. 粗糙集理论的基本概念 粗糙集理论最基本的概念是等价关系和上近似集、下近似集。等价关系是指在给定条件下,某个对象的属性值相同,上近似集是指在给定条件下,某个对象的属性值不确定,下近似集是指在给定条件下,某个对象的属性值确定。通过等价关系和近似集,可以对数据进行粗糙划分。 2. 特征选择 特征选择是粗糙集理论中的一个重要步骤,它通过选择最重要的特征来减少数据集的维度。特征选择可以基于信息增益、相关性等指标进行,选取具有较高区分度的特征。 3. 粗糙集约简 粗糙集约简是指通过删除冗余的属性,减少数据集的复杂性,提高数据处理的效率。约简的目标是找到最小的等价类,使得约简后的数据集仍能保持原始数据集的重要信息。 4. 粗糙集分类模型构建

粗糙集分类模型构建是通过学习已知类别的样本,建立一个分类模型,用于对 未知类别的样本进行分类。常用的分类算法有基于规则的分类算法、基于决策树的分类算法等。 二、粗糙集理论的预测性能评估 1. 交叉验证 交叉验证是一种常用的评估粗糙集模型性能的方法。它将数据集划分为训练集 和测试集,通过训练集训练模型,再通过测试集评估模型的预测性能。常见的交叉验证方法有k折交叉验证、留一交叉验证等。 2. ROC曲线 ROC曲线是一种评估分类模型性能的图形化方法。它以真正例率(True Positive Rate)为纵轴,假正例率(False Positive Rate)为横轴,通过绘制不同阈值下的真正例率和假正例率,可以评估模型在不同阈值下的预测性能。 3. 混淆矩阵 混淆矩阵是一种评估分类模型性能的表格方法。它以实际类别和预测类别为行列,通过统计真正例、假正例、真负例、假负例的数量,可以计算出模型的准确率、召回率、F1值等指标。 结论: 粗糙集理论是一种处理不完全信息的数据分析方法,它可以通过等价关系和近 似集对数据进行粗糙划分,通过特征选择和约简来减少数据集的复杂性。在模型构建方面,可以通过学习已知类别的样本来建立分类模型。在预测性能评估方面,可以使用交叉验证、ROC曲线和混淆矩阵等方法来评估模型的性能。粗糙集理论在 决策和预测中具有重要的应用价值,可以帮助我们处理不确定性和模糊性问题,做出更准确的决策和预测。

粗糙集综述word版

粗糙集论文 题目 粗糙集综述 1 粗糙集属性约简 1.1 经典粗糙集属性约简 对于经典粗糙集我们可以用上下近似来描述。 给定知识库()R U K ,=,对于每个子集U X ?和一个等价关系()K ind R ∈,定义两个上下近似: {}{}. |/,|/ U U φ≠?∈=?∈=X Y R U Y X R X Y R U Y X R 另外上下近似还可以用以下的等式表达: []{}[]{}. |,| U U φ≠?∈=?∈=X x U x X R X x U x X R R R 当利用区分矩阵来表达知识时有许多优点,特别是他能很容易计算约简和核。约简是满足能区别由整个属性集区别的所有对象的属性极小子集。如果A 包含B 是满足B 交区别对象x 和y 的所有属性集合的极小子集不为空,且区别对象x 和y 的所有属性集合的极小子集不为空,则B 是A 的一个约简。核是区分矩阵中所有单个元素组成的集合。 对于决策表,C 为条件属性集,D 为决策属性集,决策表S 的区分矩阵是一个n n ?矩阵,其任一元素为 },x ),(),(|{),(a *)(且y a y f a x f C a y x ω≠∈= 对于满足),(,,x y x U y ω∈ )(y )(x D pos D pos C C ?∈且, 或者

)(y )(x D pos D pos C C ∈?且, 或者 ).(),()(,D ind y x D pos y x C ?∈且 如果φφ≠?≠??),(,),(C C C **''y x a y x a 满足条件的极小子集(关于包含),则'C 是C 的D 约简(相对约简). D 核(相对核)是决策表S 的区分矩阵中所有单个元素组成的集合,即 }.,},{),(a |{)(core *U y x a y x C a C D ∈=∈=其中 1.2 变精度粗糙集属性约简 变精度粗糙集是粗糙集的扩充,它是在基本粗糙集模型的基础上引入 )5.00(<≤ββ,即允许一定程度的错误分类率存在。这一方面完善了近似空间的概念,另一方面也有利于粗糙集理论从认为不相关的数据中发现相关数据。当β=0时,经典粗糙集模型是变精度粗糙集模型的一个特例。 X 和Y 表示有限论域U 的非空子集,且Y ?X 。 令 ???>>?=0,|X |0,0,|X | |,X |/|Y X |1-Y)c(X, 多数包含关系定义为ββ ≤??),(Y Y X c X 。 约简是保持和决策属性Q 的依赖性相同的最小条件属性子集。通过近似以来的定义来引入近似约简概念。 条件属性集P 关于据测属性集Q 的β约简是P 的一个子集),,(βQ P red ,且满足: ),),,,((),,()1(ββγβγQ Q P red Q P =. 不成立。都将是中去掉任何一个属性,从)1(),,()2(βQ P red 引入)5.00(<≤ββ参数后,扩充了基本粗糙集理论,更好体现了数据分析中的数据相关性,从而为获取近似决策规则奠定了基础。

粗糙集理论及其应用研究

粗糙集理论及其应用研究 粗糙集理论及其应用研究 引言: 粗糙集理论是20世纪80年代由波兰学者泽德·帕瓦尔斯基(Zdzisław Pawlak)提出的一种处理不完全信息的数学方法。粗糙集理论的引入为我们解决现实世界中模糊、不确定、随机等问题提供了一个简单有效的工具。本文旨在介绍粗糙集理论的基本原理,并讨论其在数据分析、特征选择和模式识别等领域的应用研究。 一、基本原理: 1.1 粗糙集的定义 粗糙集是一种集合比较的数学模型,它考虑了属性之间的相互依存关系。在一个给定的信息系统中,粗糙集可以将对象划分为等价类,每个等价类都对应于一个决策规则。粗糙集的核心思想是通过扩充等价关系来处理不完全信息,以获得更多的可信信息。 1.2 粗糙集的属性约简 属性约简是粗糙集理论的核心问题之一,主要用于减少数据集中的冗余属性。通过属性约简,可以提高数据集的处理效率并提取出更具有实际意义的属性集。属性约简的过程包括求解下近似、上近似以及确定决策属性等环节。 二、应用研究: 2.1 数据分析 粗糙集理论在数据分析中有着广泛的应用。通过建立一个信息系统,我们可以将数据集划分为等价类,从而更好地理解数据特征之间的相互关系。粗糙集的属性约简技术可以帮助我们减

少数据集中的属性数量,提高数据分析的效率。同时,基于粗糙集的决策规则可以为决策支持系统提供可靠的决策依据。 2.2 特征选择 特征选择在数据挖掘中起着重要的作用。通过使用粗糙集理论,我们可以从海量的特征中选择出最有价值的特征,从而提高分类器的效果。粗糙集的属性约简方法可以帮助我们消除冗余特征,减少特征空间的维度。同时,粗糙集的属性约简技术可以提供更好的特征排序评估指标,帮助我们找到最重要的特征组合。 2.3 模式识别 粗糙集理论在模式识别中的应用也备受关注。通过建立一个信息系统,我们可以将模式集合划分为等价类,然后根据粗糙集的思想确定决策规则。这个过程可以帮助我们识别出不同模式之间的相似性和差异性。同时,通过属性约简技术,我们可以选择出最有代表性的特征,提高模式识别的准确性。 三、案例研究: 以研究医学图像分类为例,介绍粗糙集理论在实际应用中的效果。通过建立一个医学图像信息系统,我们可以将不同类型的医学图像划分为等价类,从而提取出不同类型医学图像的共同特征。通过粗糙集的属性约简方法,我们可以减少特征的数量,提高医学图像分类的准确性。同时,通过建立基于规则的分类模型,可以根据图像特征进行精确分类和预测,为医学诊断提供有力支持。 结论: 粗糙集理论是一种处理不完全信息的有效方法,可以应用于数据分析、特征选择和模式识别等领域。它通过建立信息系统、进行属性约简以及确定决策规则等步骤,提供一种简单而强大

粗糙集理论的属性重要性评估方法及其实际应用

粗糙集理论的属性重要性评估方法及其实际 应用 引言: 粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它在数据挖掘、模式识别和决策分析等领域中得到了广泛的应用。在粗糙集理论中,属性重要性评估是一个重要的问题,它能够帮助我们识别出对决策结果具有重要影响的属性,从而提高决策的准确性和可靠性。本文将介绍一种基于粗糙集理论的属性重要性评估方法,并探讨其在实际应用中的价值。 一、粗糙集理论概述 粗糙集理论是由波兰学者Pawlak于1982年提出的,它是一种处理不确定性和 模糊性问题的数学工具。粗糙集理论通过将对象的属性进行划分,将属性值之间的差异进行模糊化处理,从而实现对不完备和不精确数据的分析和决策。粗糙集理论的核心思想是近似和约简,即通过近似的方法对数据进行简化和压缩,从而提取出最重要的信息。 二、属性重要性评估方法 在粗糙集理论中,属性重要性评估是一个关键问题。属性重要性评估的目标是 确定哪些属性对决策结果的影响最大,从而帮助我们进行决策和分析。常用的属性重要性评估方法有正域、核和约简等方法。 1. 正域方法 正域方法是一种基于粗糙集的属性重要性评估方法。它通过计算属性在正域中 的覆盖度来评估属性的重要性。正域是指在给定条件下能够唯一确定决策结果的属

性取值,它反映了属性对决策结果的贡献程度。正域方法的优点是简单直观,容易理解和计算,但它没有考虑属性之间的依赖关系。 2. 核方法 核方法是一种基于粗糙集的属性重要性评估方法。它通过计算属性在核中的约 简度来评估属性的重要性。核是指在给定条件下能够唯一确定决策结果的最小属性集合,它反映了属性对决策结果的决定性影响。核方法考虑了属性之间的依赖关系,能够更准确地评估属性的重要性,但计算复杂度较高。 3. 约简方法 约简方法是一种基于粗糙集的属性重要性评估方法。它通过对属性集合进行约简,得到一个最小的属性子集,从而实现对属性的重要性评估。约简方法的优点是能够同时考虑属性之间的依赖关系和决策结果的覆盖度,能够更全面地评估属性的重要性。但约简方法的计算复杂度较高,需要进行多次属性子集的搜索和比较。三、实际应用 属性重要性评估方法在实际应用中具有重要的价值。以金融风险评估为例,我 们可以利用属性重要性评估方法来确定哪些因素对金融风险的影响最大,从而帮助我们制定风险管理策略和决策。另外,在医学诊断中,属性重要性评估方法可以帮助我们识别哪些指标对疾病的诊断和治疗具有重要影响,从而提高医疗决策的准确性和效果。 结论: 粗糙集理论的属性重要性评估方法是一种重要的数学工具,在数据挖掘、模式 识别和决策分析等领域中具有广泛的应用价值。属性重要性评估方法能够帮助我们识别出对决策结果具有重要影响的属性,从而提高决策的准确性和可靠性。在实际应用中,属性重要性评估方法可以帮助我们进行金融风险评估、医学诊断等决策和分析,具有重要的实际意义。

属性约简

粗糙集的研究对象是一个数据集,数据集一般被保存为数据表格形式,即数据库或信息系统。信息系统的形式是由研究对象和属性值关系构成的二维数据表,类似于基础数学中的关系数据库。信息系统实现了粗糙集模型的知识表示。 定义 2.1.1[46] 设(,,,)S U A V f =为一个数据库,即信息系统,也称为知识表示系统。其中12{,}U U x x x = 为一个非空的有限对象集,12{,,}A A a a a = 是属性的有限非空集合,a V V =⋃,a A ∈,a V 为属性a 的值域;定义信息函数 :U V c a f A ⨯→ . 例如表2.1.1是一个信息系统,其中12345{,,,,}U x x x x x =, 1234{,,,}A a a a a =,123a a a V V V ==={0,1},4a V ={0,1,2}. 表2.1.1 信息系统 定义2.1.2[46] 对于a A ∀∈,x U ∀∈,(,)a f x a V ∈,对于P A ∀∅≠⊆,定义:{(,):(,)(,),}I x y U U f x q f y q q P =∈⨯=∀∈, I U 称为上的不可分辨关系。 (1)若(,)x y I ∈,则称:x y 和是不可分辨的。 (2)不可分辨关系是等价关系,具有: 自反性:xIx ; 对称性:xIy yIx ⇒;

传递性:,xIy yIz xIz ⇒ . (3) I 是U 上的一个等价关系,[]{,}I x y y U xIy =∈, 12{[]}{,}I k U I x x U X X X =∈= ,12,k X X X 称为U 关于I 的一个划分。 (4)P I ∅≠⊆,1,2I I I ∈, 112{,}k U I X X X = ,212{,}l U I Y Y Y = , 12{,1,2,1,2}i j U I I X Y i k j l ⋂=⋂== ,()I P ind P I P ∈== , 则称:()ind P U 是上的一个等价关系,称为P 上的不可区分关系。 ()[][]ind P I I P x x ∈= 称为P 的基本知识。 当12()()ind I ind I ⊆,称1,I 比2I 细,21I I . 1.1.1粗糙集与近似 定义2.1.3[46] X U ⊆,I 是U 上的一个等价关系,12{,}k U I X X X = ,若存在1i X ,2i X j i X U I ∈,.st X =1 t j i t X = ,称X 是关于I 的精确集。否 则称X 是I 的粗糙集。 定义 2.1.4[46] 给定一个知识系统(,,,)S U A V f =,D A ⊆,X U ⊆, x U ∈,集合X 关于D 的下近似,上近似,负区域及边界区域分别为: 下近似:()D apr X DX ={:()}x U D x X = ∈⊆ {,}Y U D Y X =∈⊆ {[][],}D D x x X x U =⊆∈ ; 上近似: ()D apr X =DX = {:()}x U D x X ∈⋂≠∅ {,}Y U D Y X =∈⋂≠∅ {[][],}D D x x X x U =⋂≠∅∈ ; 负区域:()D neg X =()D U apr X -= {:()}x U D x X ∈⋂=∅ ;

粗糙集约简方法

粗糙集约简方法 简介 粗糙集约简方法是数据挖掘领域中一种常用的特征选择方法。在众多特征选择方法中,粗糙集约简方法以其简单快速、易于理解的特点而受到广泛关注。它通过粗糙集理论的基本原理,对原始数据集进行约简,从而得到一个更精简的特征子集,提高数据挖掘效率。 粗糙集理论基础 粗糙集理论是由波兰学者Pawlak于1982年提出的,是一种处理不确定性信息的方法。它基于集合论和近似推理,并尝试解决数据集中存在的不确定性和模糊性问题。在粗糙集理论中,将数据集划分为对象的集合和属性的集合,并使用近似关系来描述属性与对象之间的关系。 约简的概念与意义 约简是指通过对原始数据集进行操作,得到一个特征子集,该子集包含了原始数据集中的重要、有用的特征信息,而丢弃了无关、冗余的特征信息。约简的过程就是在保持数据集中信息完整性和准确性的基础上,减少特征的数量,提高数据挖掘的效率。 约简所起到的作用有以下几个方面: - 减少特征的数量,提高数据挖掘算法的效 率和性能; - 去除冗余信息,减少数据挖掘模型的复杂度; - 提高数据可视化效果,减少特征数量可以降低维度,更方便数据的可视化和分析。 粗糙集约简方法的步骤 粗糙集约简方法一般包括以下几个步骤: 1.确定属性集合和决策集合:首先确定数据集中的属性集合和决策集合。属 性集合是指数据集中待选择的特征集合,决策集合是指用于分类或预测的结 果集合。

2.计算属性间的依赖度:使用粗糙集理论中的依赖度指标,计算属性集合中 各个属性之间的依赖程度。具体来说,可以计算属性集合中每个属性与决策 集合之间的依赖度,衡量该属性对于分类结果的贡献程度。 3.确定依赖度阈值:根据需求和实际情况,确定一个依赖度阈值。该阈值可 以根据经验选择,也可以通过交叉验证等方法进行确定。 4.生成约简的特征子集:根据依赖度阈值,从属性集合中选择具有较高依赖 度的特征,构成约简的特征子集。 5.验证约简的质量:使用约简的特征子集,进行数据挖掘任务,比如分类、 预测等。根据实际效果,评估约简的质量,如果效果不理想,可以调整依赖 度阈值或重新选择特征子集。 6.迭代优化:根据实际需求,通过不断调整依赖度阈值和属性选择策略,进 行迭代优化,得到更优的特征子集。 粗糙集约简方法的优缺点 粗糙集约简方法作为一种特征选择方法,具有如下优点: - 简单快速:粗糙集约 简方法的计算过程简单快速,能够在较短时间内完成特征选择任务。 - 易于理解:粗糙集约简方法基于粗糙集理论,其思想直观易懂,便于理解和解释。 - 能够处 理不确定性和模糊性数据:粗糙集约简方法能够有效处理数据集中的不确定性和模糊性问题。 然而,粗糙集约简方法也存在一些缺点: - 难以处理高维数据:当属性数目很大时,粗糙集约简方法的计算复杂度较高,难以处理高维数据。 - 对属性的依赖关 系敏感:粗糙集约简方法在选择特征时对属性之间的依赖关系敏感,可能出现倾向性选择的情况。 应用案例 粗糙集约简方法在实际应用中得到广泛的应用,以下是一个粗糙集约简方法应用的案例。 假设我们有一个房屋销售数据集,其中包含了各种属性,比如房屋面积、房间数量、地理位置等。我们的目标是通过特征选择来找出最具影响力的特征,以便在销售过程中更好地预测房价。 首先,我们确定属性集合和决策集合。属性集合包括房屋面积、房间数量、地理位置等属性,决策集合为房价。

粗糙集理论的使用方法和步骤

粗糙集理论的使用方法和步骤 粗糙集理论是一种用于处理不完全、不确定和模糊信息的数学工具,它在决策分析、数据挖掘和模式识别等领域具有广泛的应用。本文将介绍粗糙集理论的使用方法和步骤,帮助读者更好地理解和应用这一理论。 一、粗糙集理论的基本概念 粗糙集理论是由波兰学者Pawlak于1982年提出的,它的核心思想是通过对数据集进行粗糙化处理,找出数据集中的重要信息,从而进行决策和分析。在粗糙集理论中,数据集由属性和决策组成,属性是描述对象的特征,决策是对对象进行分类或判断的结果。 二、粗糙集理论的步骤 1. 数据预处理:在使用粗糙集理论之前,需要对原始数据进行预处理。预处理包括数据清洗、数据变换和数据归一化等步骤,旨在提高数据的质量和可用性。 2. 属性约简:属性约简是粗糙集理论的核心步骤之一。在属性约简过程中,需要根据属性的重要性对属性进行选择和优化。常用的属性约简方法有基于信息熵的属性约简和基于模糊熵的属性约简等。 3. 决策规则的生成:在属性约简完成后,可以根据属性和决策之间的关系生成决策规则。决策规则是对数据集中的决策进行描述和判断的规则,可以帮助决策者进行决策和分析。 4. 决策规则的评价:生成的决策规则需要进行评价和优化。常用的决策规则评价方法有支持度和置信度等指标,通过对决策规则进行评价,可以提高决策的准确性和可靠性。 5. 决策与分析:最后一步是根据生成的决策规则进行决策和分析。根据决策规则,可以对新的数据进行分类和判断,从而帮助决策者做出正确的决策。

三、粗糙集理论的应用案例 粗糙集理论在实际应用中具有广泛的应用价值。以电商平台为例,可以使用粗 糙集理论对用户行为进行分析和预测。首先,对用户的行为数据进行预处理,包括清洗和归一化等步骤。然后,通过属性约简找出用户行为中的关键属性,如浏览时间、购买频率等。接下来,根据属性和决策之间的关系生成决策规则,如用户购买商品的决策规则。最后,根据生成的决策规则对新的用户行为进行分类和分析,从而提供个性化的推荐和服务。 四、总结 粗糙集理论是一种处理不完全、不确定和模糊信息的数学工具,它在决策分析、数据挖掘和模式识别等领域具有广泛的应用。使用粗糙集理论需要经过数据预处理、属性约简、决策规则的生成和评价等步骤,最终可以帮助决策者做出正确的决策和分析。通过实际应用案例的介绍,我们可以看到粗糙集理论在电商平台等领域的应用潜力。希望本文能帮助读者更好地理解和应用粗糙集理论,从而提高决策和分析的准确性和可靠性。

粗糙集理论的常见使用方法介绍

粗糙集理论的常见使用方法介绍 粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它在数据挖掘、模式识别和人工智能等领域得到了广泛的应用。本文将介绍粗糙集理论的常见使用方法,包括近似集的构建、属性约简和决策规则的提取。 一、近似集的构建 近似集是粗糙集理论的核心概念之一,它用于描述数据集中的不确定性信息。 在实际应用中,我们通常需要根据给定的数据集构建近似集。构建近似集的方法有多种,其中最常见的是基于属性约简的方法。 首先,我们需要将原始数据集进行离散化处理,将连续属性转换为离散属性。 然后,根据数据集中的属性之间的关系构建一个属性关系矩阵。属性关系矩阵中的每个元素表示两个属性之间的关系强度,可以使用不同的度量方法来计算。接下来,我们可以根据属性关系矩阵来构建近似集,其中每个近似集表示一个属性的约简。 二、属性约简 属性约简是粗糙集理论中的一个重要问题,它用于减少数据集中的冗余属性, 提高数据挖掘和模式识别的效率。属性约简的目标是找到一个最小的属性子集,使得该子集能够保持数据集中的信息完整性。 属性约简的方法有多种,其中最常用的是基于启发式算法的方法。启发式算法 通过迭代搜索的方式,逐步减少属性集合的大小,直到找到一个最小的属性子集。常见的启发式算法包括遗传算法、模拟退火算法和粒子群优化算法等。 三、决策规则的提取 决策规则是粗糙集理论的另一个重要应用,它用于从数据集中提取出具有决策 能力的规则。决策规则的提取可以帮助我们理解数据集中的规律和模式,从而做出准确的决策。

决策规则的提取方法有多种,其中最常用的是基于属性约简的方法。首先,我 们可以根据属性约简的结果,将数据集划分为多个等价类。然后,对每个等价类进行进一步分析,提取出具有决策能力的规则。最后,通过对规则进行评估和选择,得到最终的决策规则集合。 四、案例分析 为了更好地理解粗糙集理论的应用方法,我们可以通过一个案例来进行分析。 假设我们有一个销售数据集,其中包含了客户的属性信息和购买的产品信息。我们可以使用粗糙集理论来进行数据挖掘和模式识别,找出潜在的销售规律和客户群体。 首先,我们可以根据客户的属性信息构建近似集,找出与购买决策相关的属性。然后,通过属性约简的方法,减少属性集合的大小,提高数据挖掘和模式识别的效率。最后,通过决策规则的提取,得到具有决策能力的规则,帮助我们做出准确的销售决策。 总结: 粗糙集理论是一种处理不确定性和模糊性问题的数学工具,它在数据挖掘、模 式识别和人工智能等领域得到了广泛的应用。本文介绍了粗糙集理论的常见使用方法,包括近似集的构建、属性约简和决策规则的提取。通过案例分析,我们可以更好地理解粗糙集理论的实际应用和价值。

粗糙集理论及其用于属性约简

粗糙集理论及其用于属性约简 在自然科学、社会科学与工程技术的很多领域中,都不同程度地涉及到对不确定因素和不完备信息的处理。从实际系统中采集到的数据常常包含着噪声、不精确甚至不完整,采用纯数学上的假设来消除或回避这种不确定性,效果往往不理想。多年来,研究人员们一直在努力寻找科学地处理不完整性和不确定性的有效途径,并先后提出了众多的软计算(Soft Computing)方法。软计算的指导原则是利用所允许的不精确性、不确定性和部分真实性得到易于处理、鲁棒性强和成本较低的解决方案,以便更好地与现实系统相协调,主要工具包括粗糙集(Rough sets)、模糊逻辑(Fuzzy Logic)、神经网络(Nerve Network)、概率推理(Probability Reasoning)、信度网络(Belief Network)、遗传算法(Genetic Arithmetic)、混沌理论(Chaos)等。 粗糙集(Rough Sets,也称粗集、Rough集)理论是由波兰华沙理工大学Pawlak 教授于20 世纪80 年代初提出的一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法。粗糙集方法的一个特点是不需要附加信息或先验知识,而这一点是其它方法无法做到的,如模糊集方法与概率统计或证据理论方法中,往往需要模糊隶属函数、基本概率指派函数(Basic Probability Assignment, BPA)和有关统计概率分布等,而这些信息有时并不容易得到。正是基于这一优点,粗糙集理论得以迅速兴起,并逐渐成为人工智能界以及其它处理不确定性领域的研究热点。 粗糙集的研究对象是由一个多值属性集合描述的一个对象集合,对于每个对象及其属性都有一个值作为其描述符号,对象、属性和描述符号是表达决策问题的三个基本要素。这种表达形式也可以看成为一个二维表格,即决策表;表格的行与对象相对应,各行包含了表示相应对象信息的描述符,还有关于各个对象的类别成员的信息;列对应于对象的属性,属性分为条件属性和决策属性,对象根据条件属性的不同,被划分到具有不同决策属性的决策类。通常,关于对象的可得到的信息不一定足以划分其成员关系。这种不精确性导致了对象的不可分辨性。给定对象的一个等价关系,即导致由等价类构成的近似空间的不分明关系,

粗糙集理论的基本原理与模型构建

粗糙集理论的基本原理与模型构建 粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它在信息科学、数据挖掘和人工智能等领域具有广泛的应用。本文将介绍粗糙集理论的基本原理和模型构建方法。 一、粗糙集理论的基本原理 粗糙集理论最早由波兰学者Pawlak于1982年提出,它是基于集合论和近似推 理的一种数学模型。粗糙集理论的核心思想是通过对数据集进行分析,找出数据之间的关联和规律,从而进行决策和推理。 粗糙集理论的基本原理包括下近似和上近似。下近似是指在给定条件下,能够 包含所有满足条件的对象的最小集合;上近似是指在给定条件下,能够包含所有满足条件的对象的最大集合。通过下近似和上近似的计算,可以得到粗糙集的边界区域,进而进行数据分类、决策和模式识别等任务。 二、粗糙集模型的构建方法 粗糙集模型的构建方法主要包括属性约简和决策规则提取两个步骤。 属性约简是指从原始数据集中选择出最具代表性和决策能力的属性子集。属性 约简的目标是减少属性的数量,同时保持原始数据集的决策能力。常用的属性约简方法包括正域约简、核约简和快速约简等。这些方法通过计算属性的重要性和相关性,从而选择出最优的属性子集。 决策规则提取是指从属性约简后的数据集中提取出具有决策能力的规则。决策 规则是一种描述数据之间关系的形式化表示,它可以用于数据分类、决策和模式识别等任务。决策规则提取的方法包括基于规则的决策树、基于规则的神经网络和基于规则的关联规则等。 三、粗糙集理论的应用领域

粗糙集理论在信息科学、数据挖掘和人工智能等领域具有广泛的应用。它可以用于数据预处理、特征选择、数据分类和模式识别等任务。 在数据预处理方面,粗糙集理论可以帮助我们对原始数据进行清洗和转换,从而提高数据的质量和可用性。通过对数据集进行属性约简和决策规则提取,可以减少数据集的维度和复杂度,提高数据挖掘和决策分析的效率和准确性。 在特征选择方面,粗糙集理论可以帮助我们选择出最具代表性和决策能力的属性子集。通过对属性的重要性和相关性进行计算,可以选择出最优的属性子集,从而提高数据分类和模式识别的性能。 在数据分类和模式识别方面,粗糙集理论可以帮助我们构建有效的决策规则。通过对属性约简后的数据集进行决策规则提取,可以得到具有决策能力的规则集,从而实现数据分类和模式识别的目标。 总结起来,粗糙集理论是一种处理不确定性和模糊性问题的数学工具。它通过对数据集进行分析,找出数据之间的关联和规律,从而进行决策和推理。粗糙集模型的构建方法包括属性约简和决策规则提取两个步骤。粗糙集理论在信息科学、数据挖掘和人工智能等领域具有广泛的应用,可以用于数据预处理、特征选择、数据分类和模式识别等任务。

粗糙集理论中的属性约简方法介绍

粗糙集理论中的属性约简方法介绍 粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它在数据挖掘、机器学习和模式识别等领域得到了广泛应用。属性约简是粗糙集理论中的一个重要概念,它能够帮助我们从大量的属性中找到最为重要的属性,减少数据处理的复杂性。本文将介绍粗糙集理论中的一些常用属性约简方法。 1. 正域约简方法 正域约简方法是粗糙集理论中最为常用的一种属性约简方法。其基本思想是通 过比较不同属性对决策类别的区分能力,来确定最为重要的属性。具体步骤如下: 首先,计算每个属性与决策类别之间的依赖度,依赖度越大表示属性对决策类 别的区分能力越强。 然后,根据依赖度的大小进行排序,选择依赖度最大的属性作为初始约简。 接下来,逐步添加其他属性,并计算约简后的属性集对决策类别的依赖度。如 果添加属性后的依赖度没有显著提高,则停止添加,得到最终的约简属性集。 2. 相关属性约简方法 相关属性约简方法是一种基于属性之间相关性的约简方法。它通过计算属性之 间的相关系数或互信息量来评估属性之间的相关性,并选择相关性较低的属性进行约简。具体步骤如下: 首先,计算属性之间的相关系数或互信息量。 然后,根据相关系数或互信息量的大小进行排序,选择相关性较低的属性作为 初始约简。 接下来,逐步添加其他属性,并计算约简后的属性集的相关系数或互信息量。 如果添加属性后的相关性没有显著提高,则停止添加,得到最终的约简属性集。

3. 基于粒计算的约简方法 基于粒计算的约简方法是一种基于粒度理论的属性约简方法。它通过将属性集 划分为不同的粒度,来减少属性的数量。具体步骤如下: 首先,将属性集划分为不同的粒度。每个粒度包含一组相关性较高的属性。 然后,选择每个粒度中最为重要的属性作为初始约简。 接下来,逐步添加其他粒度,并计算约简后的属性集的重要性。如果添加粒度 后的重要性没有显著提高,则停止添加,得到最终的约简属性集。 4. 基于遗传算法的约简方法 基于遗传算法的约简方法是一种基于进化计算的属性约简方法。它通过模拟生 物进化的过程,来寻找最优的属性约简。具体步骤如下: 首先,随机生成初始种群,每个个体表示一个属性集。 然后,通过交叉、变异和选择等遗传操作,不断演化种群,直到达到停止条件。 最后,选择适应度最高的个体作为最终的约简属性集。 以上介绍了粗糙集理论中的一些常用属性约简方法,它们在实际应用中具有一 定的优势和适用性。但是需要注意的是,不同的数据集和问题可能需要选择不同的属性约简方法,因此在具体应用时需要根据实际情况进行选择和调整。

基于粗糙集理论的评价指标属性约简

基于粗糙集理论的评价指标属性约简 作者:申文娟 来源:《科技创新与应用》2016年第05期 摘 ;要:粗糙集理论是一种对数据进行约简的有效工具。文章运用粗糙集理论对评价指标进行了属性约简,并根据各指标包含信息量的大小确定权重,构建了基于粗糙集理论的指标综合评价模型。 关键词:指标评价;粗糙集;属性约简 引言 粗糙集(Rough set)是由波兰数学家Z.Pawlak于1982年提出的一种处理模糊、不确定信息的方法。粗糙集理论把知识看做关于论域的划分,以不可分辨关系为基础,在保持分类能力不变的前提下,通过知识属性约简,导出问题的决策分类规则。属性约简是指对知识库中冗余繁杂的信息进行精简,以较少的数据进行较多信息的表达,从而方便对数据的处理和分析。根据其客观性和自身特点,其用在评价指标属性约简具有可行性,众多学者和专家们对该方法在各个领域运用的可行性方面进行了研究。 1 粗糙集理论 1.1 信息表。 S=(U,R,V,f)表示为信息表,其中U是一个非空集合,称为论域,U={x1,x2, x3……xn},其中xi表示对象;R表示对象的属性集合,R=C∪D,即对象的属性集合是条件属性(C)和决策属性(D)的并集;V是属性值的集合,Va是属性a∈R的值域;f是U×R→V的一个信息函数,它为每个属性a赋予一个属性值,即a∈R,x∈U,fa(x)∈Va。 1.2 等价关系。 对于任意a∈A(A中包含一个或多个属性),A⊂R,x∈U,它们的属性值相同,即 fa(x)=fa(y)成立,称对象x和y是对属性A的等价关系,表示为 IND(A)={(x,y)|(x,y)∈U×U,∀a∈A,fa(x)=fa(y)}。 1.3 等价类。 在U中,对属性集A中具有相同等价关系的元素集合称为等价关系IND(A)的等价类,表示为[x]A={y|(x,y)∈IND(A)}。

结合模糊集理论的粗糙集属性约简算法-2019年精选文档

结合模糊集理论的粗糙集属性约简算法 波兰数学家Z. Pawlak[1]于1982年提出的粗糙集理论是一种新的处理不精确、不完全与不相容的数学方法,能有效地处理各种不完备信息,并从中发现隐含知识,揭示潜在的规律。粗糙集以不可分辨关系为基础,研究不同类中对象组成的集合之间的关系。属性约简是粗糙集理论的核心问题和重要课题之一。 随着数据挖掘(data mining,DM)和知识发现(knowledge discovery in database,KDD)的概念在1989年被提出,随之出现了新一代的技术和工具用于DM和KDD领域。在DM和KDD的诸多方法中,粗糙集理论与方法是复杂系统中一种较为有效的方法。因为它与概率方法、模糊集方法和证据理论方法等其他处理不确定性问题理论最显著的区别是它无须提供问题所需处理的 数据集合之外的任何先验信息,所以它对数据的不确定性描述和处理一般来说是比较客观的。 信息系统约简主要是使信息量减少,将一些无关或多余的信息丢弃,而不影响其原有的功能。目前粗糙集应用的有效算法的研究主要集中在信息系统属性约简和用以规则提取的值约简方面。属性约简是指在保持信息系统分类或决策能力不变的条件下,删除冗余属性,用以得出正确的、简洁的规则。求解最小属性约简是NPhard 问题[2]。不过在实际应用中,得出相对属性约简就可以了。

研究人员已经提出很多属性约简算法[2~7]。其中,不论是基于约简后属性数最少还是约简后规则最简,都没有考虑到数据领域知识的特殊性和用户要求的灵活性。正如前 面所说粗糙集不依赖任何先验信息比较客观一样,本文结合模糊关系让它具有一定的领域知识,让本文属性约简算法具有更实际的决策需要和用户要求。实验证明,用户可以根据专家领域知识调整阈值,得到用户满意的属性约简结果。 5结束语 本文在粗糙集和模糊集理论的基础上提出一种处理粗糙数据的属性约简算法,探讨了基于粗糙集属性约简算法在决策领域的应用,对数据挖掘和决策分析都是一个有益的尝试。由于其中引入了模糊关系和模糊集中的复合矩阵运算,用户可以根据决策的需要和领域知识更改阈值,得到用户满意的属性结果。通过在家庭用车的应用实例验证了改进算法的可行性、有效性。在粗糙集中如何更好地离散化数据和与其他的软计算方法结合使用等方面,有待进一步研究。

粗糙集与概念格的属性约简研究

粗糙集与概念格的属性约简研究 粗糙集理论是波兰数学家Pawlak于1982年提出的一种用于分析数据的数学理论。概念格理论(也叫形式概念分析)是德国数学家Wille在同一年提出的描述概念与概念之间层次关系的形式化工具。 粗糙集理论与概念格理论作为数据分析和知识发现的强有力工具,越来越受到人工智能研究者的广泛关注。目前,这两种理论已经被广泛应用于软件工程、数据挖掘、信息检索、机器学习、不确定性规则获取与决策管理等领域。 知识发现的一个重要方面就是知识约简。本文研究信息系统属性约简和概念格属性约简,分别提出了基于闭算子的目标信息系统属性约简方法和异于文献[29]的概念格属性约简新方法。 系统研究了两个同类形式背景在同态映射下的性质。本文的主要工作如下:1.提出了目标信息系统属性约简的闭算子方法。 针对协调的目标信息系统,构造了条件属性集及其幂集上的一致关系,讨论了由这两种一致关系所导出的两个闭集族C_r与C_R的性质及相互之间的关系;证明了这两个闭集族相等的充分必要条件,并给出在此条件下目标信息系统的属性约简方法;证明了本文提出的属性约简与文献[12,28]中约简定义的等价性。2.提出了概念格属性约简的一种新方法。 针对文[29]所给出的概念格属性约简理论,利用概念格中所有交不可约元得到一些极小属性集族,每个集族中任取一个元素然后求并集就是文[29]中所定义的形式背景的约简。同时给除了求属性约简的相应算法。 3.研究了同态映射下同类形式背景各元素之间的关系。定义了形式背景之间的同态映射。

对于无决策形式背景,分析了形式背景的概念以及协调集的同态性。对于决策形式背景,讨论了协调性的同态不变性,并给出了约简的同态像仍为约简的充分条件。

属性约简有实例有讲解

粗糙集属性约简 注:这是我学粗糙集时老师给的作业 属性约简的顺序如下:求正域、生成未经处理的区分矩阵、对区分矩阵进行化简、求核、对 已经处理过的区分矩阵进行属性约简。约简后的决策表有26行,所有12个属性都是正域中的属性,核为空程序: % tic; a=[ 1,1,1,1,0,0,0,0,1,1,0,1; 0,0,0,0,0,0,0,0,0,0,0,0; 1,0,1,0,0,0,0,0,0,1,0,0; 0,0,0,1,1,1,1,0,1,0,1,1; 1,0,0,1,1,1,1,1,0,1,1,0; 0,1,0,1,1,1,1,1,1,0,0,1; 1,0,0,0,1,1,1,0,0,1,1,1; 1,1,1,1,0,0,0,0,1,1,0,1; 1,0,1,1,1,0,0,0,1,1,0,1; 1,1,1,1,0,0,0,0,1,1,0,1; 1,0,1,1,1,0,0,0,1,1,0,1; 1,0,1,1,1,0,0,0,1,1,0,1 ]; d=[1;0;0;0;0;0;0;1;1;1;1;1]; pos=posCD(a,d); dismat=dismatrix(a,d,pos); dism=disbe(dismat); core=cor(dism); [red,row]=redu(dism); time=toc % % 生成未经处理的区分矩阵dismat

function dismat=dismatrix(a,d,pos) [m,n]=size(a); p=1; index1=0;index2=0;index=0; dis=-1*ones(m*(m-1)/ 2,n); for i=1:m for j=i+1:m if (isxbelongtopos(i,pos)&~isxbelongtopos(j,pos))... |(~isxbelongtopos(i,pos)&isxbelongtopos(j,pos))... |(isxbelongtopos(i,pos)&isxbelongtopos(j,pos)&~isxybelongtoindD(i,j,d)) index2=1; end if index2==0 continue; end for k=1:n if a(i,k)~=a(j,k) dis(p,k)=1; index1=1; else dis(p,k)=0; end end if index1==1 p=p+1;index=1; end index1=0; index2=0; end end if p<=m*(m-1)/ 2 if index==0 dismat=[]; return; end if dis(p,1)==-1 p=p-1; end else p=m*(m-1)/ 2; end

第五讲:粗糙集(RoughSet)

第三节粗糙集(Rough Set,RS) 如果我们将研究对象看成是现象,那么我们可以将这些现象分类。现象被分为确定现象与不确定现象。不确定现象有分为随机现象,模糊现象和信息不全的粗糙现象。如下所示: ⎧ ⎪ ⎪⎧ ⎪⎪ ⎨⎪⎪⎨⎪⎪⎪⎪ ⎩⎩∈ 确定现象 随机现象,0-1律,多种可能性满足分布规律。 现象 不确定现象模糊现象,律属度Î(0,1),不是非此即彼。 粗糙现象,研究那些因为信息不充分而导致的不确定性 相对于前两种现象的处理,粗糙现象是基于不完全的信息或知识去处理不分明的现象,因此需要基于观测或者测量到的部分信息对数据进行分类,这就需要与概率统计和模糊数学不同的处理手段,这就是粗糙集理论。直观地讲,粗糙集是基于一系列既不知道多了还是少了,也不知道有用还是没用的不确定、不完整乃至于部分信息相互矛盾的数据或者描述来对数据进行分析、推测未知信息。下面我们对粗糙集的基本特征、以及数学符号进行简述。 1.粗糙集的特点 粗糙集的特点是利用不精确、不确定、部分真实的信息来得到易于处理、鲁棒性强、成本低廉的决策方案。因此更适合于解决某些现实系统,比如,中医诊断,统计报表的综合处理等。粗糙集的另一个重要特点就是它只依赖于数据本身,不需要样本之外的先验知识或者附加信息,因此挑选出来的决策属性可以避免主观性,有英雄不问出身的意味。用粗糙集来处理的数据类型包括确定性的、非确定性的、不精确的、不完整的、多变量的、数值的、非数值的。粗糙集使用上、下近似来刻画不确定性,使得边界有了清晰的数学意义并且降低了算法设计的随意性。 3.粗糙集的基本概念 粗糙集要涉及论域U(这与模糊系统相似),还要涉及属性集合R C D = 1

相关主题
文本预览
相关文档 最新文档