基于依赖度求解属性约简的方法

格式：pdf
大小：531.75 KB
文档页数：4

下载文档原格式

属性约简

粗糙集的几种属性约简算法分析分类:默认栏目2006.6.16 10:32 作者：万富| 评论：0 | 阅读：1628陈淑珍，基于粗集的几种属性约简算法分析，武汉工业学院学报，Vol.2 4No.3，Sep .20 051.1 利用差别矩阵求最小约简差别矩阵(Discernibility Matrix)是由波兰华沙大学的著名数学家Skowron[21 提出来的，利用这个工具，可以将存在于复杂的信息系统中的全部不可区分关系表达出来。

利用差别矩阵求取最小约简的一个前提是:在数据表的预处理阶段要先对不相容的记录进行处理，即差别矩阵不处理不相容记录。

预处理的方法如将冲突的记录数除以记录总数，得到一个粗糙度的量度，该量度可以作为数据表的一个特征。

通过差别矩阵可以很方便地求取核属性，以核属性为出发点，再求取差别函数的最小析取范式，则求析取范式的运算就可以得到很大的简化。

而最后得到的每个析取分量对应着一个约简。

因此，一定可以得到最小约简。

但该算法的缺陷十分明显:首先，当论域的对象与属性的规模较大时，差别矩阵将占有大量的存储空间口(n的二次方);其次，差别函数的化简本身就是一个NP一hard问题，因此只要数据集稍大一点，就不具备可操作性。

1.2 基于属性依赖度约简算法求取所有约简是一个NP一hard问题，因此运用启发信息来简化计算以找出最优或次优约简显然是一种可取的方法。

许多启发式约简算法的基本步骤都是:由信息系统或决策表的核为起始点，然后根据属性重要性的某种测度，依次选择最重要的属性加人核中，直到满足终止条件。

便得到信息系统或决策表的一个约简(更确切的说，是包含约简的一个属性集)。

一个信息系统中的所有属性对于决策来说并不是同等重要的，在粗集理论中，属性重要性可通过相依度来体现。

决策属性D对于属性R(R属于C)的相依度y(R,D)定义为[3]:显然有，O <,y(R,D), l,y(R,D)给出了决策D对属性R之间相依性的一种测度。

信息系统的一种启发式属性约简算法

摘
要：针对文献［］８中加权平均属性重要度中权值人为确定的不足，出改进的属性重要度定义，以实例提并
说明其应用情况。提出约简质量的定义，属性约简率和近似质量两方面来衡量约简效果。基于改进的属性从重要度定义（准）构造了两种启发式属性约简算法，标，并利用ＵＩＣ数据库中的一些典型算例验证了算法的有效性；说明在某些情况下，出的属性约简算法在一定程度上能够提高数据的约简质量。提
确定。
其中，
（Ｄ）＝ｃｒ（ＯＤ）／ａｄＵ３Ｒ，ａｄＰＳ（）ｃｒ（）（）
Ｗ（Ｄ）ｃｒ（ＮＲＤ）／ａｄＵ（）２Ｒ，ａｄＢ（）ｃｒ（）４
（Ｒ）＝１一Ｈ（ＲｌｇＮＤＩＤＩ）ｏ：！（）５
作者简介：陈思维（９１，，１８一）女湖南临武人，武汉理工大学机械工程学院博士研究生
维普资讯
４４
武汉理大学学报
・
信息与管理工程版
２００６年３月
置ｓ和Ｓｌ２的权重值。为此，提出如下改进的属性重要度标准，中权值的确定完全由数据本身其
．
（）２
其中，（，）ＣＤ表示Ｄ对Ｃ的依赖度，０（，且 ≤ ＣＤ ≤ｌ；（为Ｄ的熵，Ｄｌ）Ｄ相对于Ｃ）ＨＤ）Ｈ（为Ｃ
的条件熵。
在基于Ｓ３的属性重要度计算中，需要人为设
收稿日期：０５—１ —１．２０１８
维普资讯
第２卷第３８期

一种改进的属性约简算法

输入：一个决策表信息系统Ｓ＝（Ｕ，Ｒ，Ｖ，．厂），Ｒ＝ＣＵＤ，这里：论域；Ｃ：条件属．集；Ｄ：决
策属性集。输出：的一个约简Ｒｅｄ。算法步骤如下：
第ｌ步：初始化Ｒｅｄ：，Ｓｉｇ（ａ）＝０，ｃｏｕｎｔ（ａ）＝０；
长ｌｅｎ，并更新相应屙陛频率值Ｓｉｇ（ａｉ）和属陛出现次数ｃｏｕｎｔ（ａｉ）；。
第５步：按属性重要度（ａｉ）排序，选择属性重要度最大（若属性重要度（ａ）值相同，则选择
．
齐齐哈尔大学学报
ｃｏｕｎｔ（口，）较大的）的属性ａ并人Ｒｅｄ中，即Ｒｅｄ＝ＲｅｄＵ｛ａｉ｝；
中图分类号：ＴＰ３０Ｉ．６文献标志码：Ａ文章编号：１００７ — ９８４Ｘ（２０１３）０３ — ００１２－０３
属性约简是粗糙集理论及应用研究的重要组成部分，它是知识获取的关键步骤。信息系统中知识的重
【３１胡成祥，李天瑞，邹维丽，等．基于限制容差关系的粗糙集模型中近似集增量更新方法研究ｆＪ１＿两南族大学学报：自
然科学版，２００９（３１：４８０ — ４８４．
ｆ４１苗夺谦，李道国．粗糙集理论、算法与应用［ＭＩ．北京：清华大学出版礼。２００８．
Ｓｉｇ（ａｊ）＝（／ｌｅｎ，）（小于决策表中属性个数）

基于依赖度的启发式约简算法

则称决策规则ｄＸ是协调的，否则称为是不协调；只有当所有的决策规则都是协调时，决策表才是协调的，否则，决策表是不协调的。当且仅当ＣＤ，决策表是协调的。决策表是否协调可以通过考察条件属性和决策属性的依赖度，当依赖度小于１表示决策的结果时，不协调；当依赖度为１时，决策表的结果完全协调。
子集Ｃ和Ｄ分别表示条件属性集和决策属性集，Ｖ＝ｖ，∈Ｒ是属性值集合，，ｒｖ表示属性，．的属性值，厂．定义—个信息函数ｆ：Ｒ－Ｖ，它指定中每一对象的属性值。的表格形式称为决策表。Ｕ× －－）定义２６：设子集Ｘ，，若根据决策屙陛Ｄ，Ｘ和ｙ不可分辨时，Ｅ】ＹｃＵ称其为ｉｄＤ）ｎ（，它代表
２ｏ
四川理工Байду номын сангаас院学报（自然科学版）
２０年４月０６
定义４】当ｄｔ：ｘ为一决策规则时，ｘ对于ｃ的约束记作ｄｌｄｄｘｃ，ｘ对于Ｄ的约束记作ｄｌｘＤ，ｄｌＸＤ分别称为ｄＸＣ和ｄｌＸ的条件和决策。如果对于每个Ｙ≠Ｘ，ＸＣ＝ｄｌｄｌＹＣ意味着ｄｌｄｌＸＤ＝ＹＤ，
些属性是冗余的，当近似空间中的数据是随机采集的时候，其冗余属性更为普遍。冗余属性的存在，一方面是对资源的浪费（需要大量的存储空间）；另一方面，也会干扰人们做出正确而简洁的决策。因此有必要对属性进行约简。如何快速约简且是约简结果最简并符合对象要求是其目前研究的方向之一。般来讲，一个决策表的知识相对约简不是唯一的，即对同一个决策表可能存在多个相对约简。因为知识约简的目的是导出关于决策表的决策规则，约简中属性的多少直接影响着决策规则的繁简。因此，

基于相对知识量重要度的属性约简算法

定义２对于信息系统．（Ａ，，）Ｂ＿ｓ，ｆ．，Ｃ＝厂Ａ，
，
称＝ ∈Ｕ［￣ｘ，Ｘ＝ ∈ ｌｂｘＪＢＩｋｎ量．如果论域中的所有的元素只能划分为同一个等价类，那么这时具有的知识量为最少．数据库中的Ｘ≠咖分别为的曰下近似集和上近似集．庐）ｐ
属性其重要度不同，尤其是在现实生活中，采集到的数据必然存在误差，甚至出现缺省值的数据，常表现为噪声数据和缺省值数据，这两种属性都会出现分类误差，直接影响约简的结果．对于第一种属性，有允许一定范围误分类率的可变精度粗糙集模型等方法来解决；对于第二种属性，多出现在不完备信息系统中，通过为缺省值增加属性值的方法来
解决．
Ｂ成为的Ｂ正域，ｅＢＵ一成为的负Ｘｎｇ＝
域，ｎ（＝ — Ｘ成为的边界域．６）Ｂ定义３对于给定的决策系统（，Ｌｄ）条ＵＣＪ，件属性集合ｃ的一个约简是它的一个非空子集ｃ，满足：
１Ｗ（）０．ｎ＝；２Ｗ（１； … ；，；ｍ＝ｎ，；，；，；．ｎ，，凡 … ）（１ｎ … 凡 … … …
ｎ）ｍ；３．Ｗ（，２ … ，＝（，２ … ，ｍ＋（２Ｊ， ‰）ｌ，ｒ）Ｗ，ｉ
重要度属性约简
的概念．以属性相对知识量重要度为启发式信息，出了一种属性约简算法，通过实例证明了该算法的有效性．提关键词：相对知识量中图分类号：Ｐ１Ｔ３１文献标识码：Ａ
Ｐｗａａｌｋ等人提出的粗糙集理论，为一种处理作

属性约简方法概述

属性约简方法概述属性约简又称维规约或特征选择，从数学的角度考虑，就是有p维数据x=(x1,x2……xp)，通过某种方法，得到新的数据x’=(x’1,x’2……x’k),k≤p,新的数据在某种评判标准下，最大限度地保留原始数据的特征。

属性约简主要是为了解决高维数据计算的复杂性和准确性问题。

目标是消除冗余和不相关属性对计算过程和最终结果造成的影响。

数据属性约简的意义主要从以下几个方面考虑：a)从机器学习的角度来看，通过属性约简去除噪音属性是非常有意义的；b)对一些学习算法来说，训练或分类时间随着数据维数的增加而增加，经过属性约简可以降低计算复杂度，减少计算时间；c）如果不进行属性约简，噪声或无关属性对分类的影响将与预期属性相同，这将对最终结果产生负面影响；d)当用较多的特征来描述数据时，数据均值表现得更加相似，难以区分。

为了描述属性约简方法，这里假设数据集合为d，d={x1,x2….xn},xi表示d中第i个实例，1≤i≤n，n为总的实例个数。

每个实例包含p个属性{|xi|=p}。

从机器学习的角度来看，属性约简方法可以分为监督的和非监督的两类。

下面是几种常用的方法。

（1）主成分分析主成分概念是karlparson于1901年最先引进。

1933年，hotelling把它推广到随机变量。

主成分分析把高维空间的问题转换到低维空间来处理，有效的降低了计算的复杂度。

通过主成分的提取，降低了部分冗余属性的影响，提高了计算的精度。

主成分分析的基本思想是通过正交变换将具有成分相关性的原始随机变量转换为具有成分不相关性的新变量。

从代数的角度，将原始变量的协方差矩阵变换为对角矩阵；从几何角度来看，将原始变量系统转换为一个新的正交系统，指向样本点分布最广的正交方向，然后降低多维变量系统的维数[43]。

定义4-1[44]：设x?(x1,x2,...,xp)'为p维随机向量，它的第i主成分分量可表示yi?ui'x，i=1,2,…,p。

粗糙集理论中的属性约简方法介绍

粗糙集理论中的属性约简方法介绍粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具，它在数据挖掘、机器学习和模式识别等领域得到了广泛应用。

属性约简是粗糙集理论中的一个重要概念，它能够帮助我们从大量的属性中找到最为重要的属性，减少数据处理的复杂性。

本文将介绍粗糙集理论中的一些常用属性约简方法。

1. 正域约简方法正域约简方法是粗糙集理论中最为常用的一种属性约简方法。

其基本思想是通过比较不同属性对决策类别的区分能力，来确定最为重要的属性。

具体步骤如下：首先，计算每个属性与决策类别之间的依赖度，依赖度越大表示属性对决策类别的区分能力越强。

然后，根据依赖度的大小进行排序，选择依赖度最大的属性作为初始约简。

接下来，逐步添加其他属性，并计算约简后的属性集对决策类别的依赖度。

如果添加属性后的依赖度没有显著提高，则停止添加，得到最终的约简属性集。

2. 相关属性约简方法相关属性约简方法是一种基于属性之间相关性的约简方法。

它通过计算属性之间的相关系数或互信息量来评估属性之间的相关性，并选择相关性较低的属性进行约简。

具体步骤如下：首先，计算属性之间的相关系数或互信息量。

然后，根据相关系数或互信息量的大小进行排序，选择相关性较低的属性作为初始约简。

接下来，逐步添加其他属性，并计算约简后的属性集的相关系数或互信息量。

如果添加属性后的相关性没有显著提高，则停止添加，得到最终的约简属性集。

3. 基于粒计算的约简方法基于粒计算的约简方法是一种基于粒度理论的属性约简方法。

它通过将属性集划分为不同的粒度，来减少属性的数量。

具体步骤如下：首先，将属性集划分为不同的粒度。

每个粒度包含一组相关性较高的属性。

然后，选择每个粒度中最为重要的属性作为初始约简。

接下来，逐步添加其他粒度，并计算约简后的属性集的重要性。

如果添加粒度后的重要性没有显著提高，则停止添加，得到最终的约简属性集。

4. 基于遗传算法的约简方法基于遗传算法的约简方法是一种基于进化计算的属性约简方法。

基于遗传算法的属性约简新方法

收稿日期：０１０ —１２１— ７１
修稿日期：０１８１２１ —０ —１
作者简介：霜（９６，，宁锦州人，读研究生，究方向为粗糙集、工智能鲁１８一）女辽在研人
现计机２１．ｅ代算０１８０
算法通过实例分析．明是求解属性约简问题的快速有效方法。证
关键词：粗糙集；属性约简；遗传算法；属性依赖度；相对约简
０引
言
１粗糙集理论基本概念
定义１一个信息系统（识表达系统）以用一个知可
定义３令Ｐ和Ｏ为Ｕ中的等价关系，的Ｐ正Ｏ
域记为ＰＳ（）即ＰＳ（＝ｒｉＯＱ，ＯＱ）ｕ｛ｘ＇ｘ∈ＵＱ。／｝Ｑ的Ｐ正
域是Ｕ中所有根据分类ＵＰ的信息可以准确地划分到／关系Ｏ的等价类中去的对象集合。
工具．主要思想就是在保持分类能力不变的前提下．其
通过知识约简．出问题的决策或分类规则目前．导粗糙集理论已被成功地应用于机器学习、程控制、式过模
象的非空有限集合，为论域；＝ａ，，，｝示属性称Ａ｛ａ… ａ表。：的非空有限集合；Ｖ表示属性值集合，＝。。示ＶｕＶ，表Ｖ属性ａ的值域：表示ＵＡＶ的一个信息函数．它为ｆ ×—

信息量的不完备信息系统属性约简方法

信息量的不完备信息系统属性约简方法信息量的不完备信息系统属性约简方法不完备信息系统是指存在一些未知或不可知的属性的系统。

约简是在保留系统重要特征的前提下，去除一些冗余的特征以降低系统的复杂性。

在不完备信息系统中，属性约简是一种重要的方法。

下面介绍一种基于信息量的不完备信息系统属性约简方法。

信息量是指某一事件的不确定性程度，用信息熵来表示。

对于一个不完备信息系统来说，我们可以通过已知的属性信息和属性取值进行估算和推测，然后计算出每个未知属性的信息熵。

如果一个属性在已知属性的条件下其信息熵较小，那这个属性就有更大的概率是有用的属性。

用这种方法求解属性约简，可以使得约简结果更具有实际意义和解释性。

具体步骤如下：1. 将不完备信息系统分为两类：已知属性集和未知属性集。

其中已知属性集包含在一些实例中已知的属性，未知属性集包含在这些实例中未知或不可知的属性。

2. 对于每个未知属性，计算在已知属性的条件下的信息熵。

3. 对于每个未知属性，计算其信息增益。

信息增益表示该属性对系统的分类能力，加入该属性后能够使得不完备信息系统的熵减少的程度。

信息增益的计算公式为：Gain(Ai|K) = H(U|K) - H(Ai|K)其中，H(U|K) 是在已知属性集 K 的条件下未知属性集 U 的信息熵。

4. 对于所有未知属性，按照信息增益从大到小排序，选择信息增益最大的属性加入已知属性集 K。

基于模糊粗糙依赖度的连续值属性约简

定义１称在三元组（Ａ，）ｕ，Ｆ为一个信息系统＿集，＝，即
一ｌ中的每个。，，
理论中，属性约简是一个非常重要的课题和核心内容。它在不降低信息系统分类能力的基础上，用能区分所有对象的最小属
ＺＨＡＩＸｉｇｌｎＬＩＸｕｗｕＣｏｔｎｏｓａｔｉｕｅｒｄｃｉｎｂｓｄｏｕｚｏｇｅｅｄｎｅｄｇｅ．ｍｐｔｒＥｎｉｅｒｎｎ —ｏｇ．－．ｎｉｕｕｔｒｂｔｅｕｔｏａｅｎｆｚｙｒｕｈｄｐｎｅｃｅｒｅＣｏｕｅｇｎｅｉｇ
ｎｔｎｆｐｓｉｅｆｌｄｐｎｅｃｄｇｅａｅｇｖｎＡｎａａｔｉｕｅｒｄｃｉｎｌｏｔｍａｅｎｕｚｏｇｄｐｎｅｃｄ — ｉｏｓｏｏｉｖｅｄ，ｅｅｄｎｅｅｒｅｒｉｅ．ｄｎｔｂｔｅｕｔａｇｒｈｂｓｄｏｆｚｙｒｕｈｅｅｄｎｅｅｉｔｉｒｏｉ
ｒｅｉａｔｕａｌｎｌｚｄ，ｉｈｉｒｅｆｉｎｈｎｈｒｄｔｎｍｅｈｄ．ｘｅｉｎｓｓｏｈｅｓｂｌｙｏｈｐｌａｇｅｓｐｒｃｌｒｙａａｙｅｗｈｃｓｍｏｅｆｃｅｔｔａｔｅｔａｉｏａｉｉｉｌｔｏｓＥｐｒｍｅｔｈｗｔｅｆａｉｉｔｆｔｅａｐｉ — ｉｃ
摘
要：针对传统的离散化技术所造成的信息丢失问题，出了利用模糊粗糙集理论来进行属性约简的方法。描述了模糊等价关提

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

( 4) D 对属性集 { b, c} 依赖度为 c (D ) = 8 / 8 = 1 . 为了求解属性集依赖度, 作者在文 [ 3] 中提出了 ASDM 算法 , 由该算法可分别求得决策属性集 D 对单属性、二属性集的依赖度 , 分别见表 2 、 3 .
表 2 决策属性对单属性的依赖度属性依赖度 a 0. 25 b 0 . 375 c 0. 375 d 0 表 3 决策属性对二属性集的依赖度属性集依赖度 ab 0. 75 ac 0. 375 ad 0. 75 bc 1 bd 0. 5 cd 1
33
性集. 传统的依赖度的定义 , 依然满足求解属性集依赖度的要求. 设 P 与 Q 是全域 U 上的等价关系簇集, 如果 Q 的所有种类都可以用 P 的种类来定义 , 则由 P 可以得到 Q, 即 Q 依赖于 P. 若从知识 P 中可部分推导知识 Q, 或者知识 Q 有部分是依赖于知识 P 的, 称作知识 Q 对知识 P 的部分依赖性 . 定义 4 设 K = ( U, R ) 是一个近似空间, 且 P, Q 识 P, 记作 P Q, 当且仅当 k = rp (Q ) = R, 称知识 Q 以依赖度 k ( 0 k 1 ) 依赖于知
粗糙集合理论作为一种新的处理不确定性的有效数学工具, 在计算机科学与技术领域中发挥了重要的作用. 该理论由波兰数学家 P aw lak . Z于 1982 年首先提出, 并在 20 世纪 90年代得到快速发展. 在粗糙集合理论中, 知识的约简有两种方法. 一种是按定义求解, 另一种是分辨矩阵求解. 按定义计算所有约简已被证明是 NP - 完全问题 , 无法实际应用. A. Skow on 于 1991 年提出分辨矩阵方法 , 该方法在求解过程中, 需要比较任意两个非同决策对象的所有属性值 , 会产生海量矩阵元素, 占用大量存储空间 , 且时空性能差 . 近年来, 很多学者对分辨矩阵的方法进行了改造 , 包括矩阵本身的构造和算法 . 但无论怎样改造, 都无法从根本上改变分辨矩阵法时空性上存在的缺陷 . 作者从传统属性依赖度概念出发 , 对属性集和属性集依赖度两个概念进行了扩展 , 提出了通过属性集依赖度求解知识约简和知识核的新方法 , 即依赖度法 . 实验证明 , 依赖度法的时空性能比分辨矩阵法优越得多, 依赖度法是独立于定义求解分辨矩阵法之外的新的方法 .
策对象比较次数为 R, R = Cm - (Cm 1 +
2
2
+ Cm n ) = Cm i= 1
2
2
Cm i ; ( 2) 存储过程 : 为了求最小析取范式,
2
由 ( 1)比较所得的每一个分辨矩阵元素都需要存储. 若采用数据表存储 , 这个数据表的记录数为 R; ( 3) 析取过程: 对分辨矩阵数据表的所有记录进行极小范式化简提取, 各记录间需要正反比较 R (R - 1 ) 次. 过程 ( 1) 、 ( 3) 耗时巨大, 而过程 ( 2) 需海量存储空间 . 基于分辨矩阵方法的缺陷 , 作者从求解属性集依赖度出发 , 开辟了求解属性约简的新途径. 采用分辨矩阵的方法 , 可求出表 1 的核属性为 c, 两个约简分别为 cb 和 cd; 而表 3中 2个依赖度为 1 的二属性集恰恰就是 cb 和 cd. 作者对多个一致性决策表做了相同的计算, 都发现了这个相同的性质. 推论依赖度为 1 的最小属性集就是决策表 C 属性的约简 . 依赖度法求解约简过程描述: ( 1) 从小到大, 依次计算所有单属性、所有二属性集、、所有 n 属性集的依赖度 . 如表 1 中, n = 2 时 , 分别计算 D 对 ab、 ac、 ad、 bc、 bd、 cd 的依赖度 ; ( 2) n 为某一值时 , 若出现 1个或多个依赖度为 1 的属性集 , 则这 1个或多个属性集都是 C 的约简, 计算结束; ( 3) n 为某一值时, 若所有属性集的依赖度均不为 1 , 则继续计算 (n + 1) 属性集的依赖度, 直到找到; ( 4) 特别地 , 当 n = N 时, 条件全属性集 C 只有 1个 , 如果它的依赖度仍不为 1 , 则这个决策表不是一致性决策表.
[ 1]
1 属性集、属性集依赖度概念及属性依赖度的求解方法
定义 1 称 4元有序组 S = (U, A, V, f ) 为信息系统 , 其中 U 为所考虑对象的非空有限集合 , 称为论域 ; A 为属性的非空有限集合; V = a A Va, 而 Va 为属性 a 的值域 ; f: U A V 是一个信息函数 , x U, a C A, f ( x, a ) Va, 对于给定对象 x, f ( x, a ) 赋予对象 x 在属性 a 下的属性值 . 定义 2 在信息系统 S = ( U, A, V, f ) 中, 若 A 可划分为条件属性 C 和决策属性 D, 即 C D =
[ 1]
D = A,
, 则称该信息系统为决策表. IND (C ) 的等价类称为条件类, I ND (D ) 的等价类称为决策类 .
在决策表中 , 条件属性或决策属性往往是由多个属性构成的 (只有单个属性构成的为特例 ), 研究决策属性集对条件属性集的依赖度有着更加重要的意义 . 为区分传统属性集概念 , 作者对属性集概念作以下扩展: 定义 3 决策表的条件属性或决策属性中, 2 个属性构成的属性集合称作二属性集, n 个属性构成的属性集合称作 n 属性集 , 所有条件属性构成的属性集合称作条件全属性集 (C ) , 所有决策属性构成的属性集合称作决策全属性集 (D ), 这些属性集都称作多属性集. 特别地, 属性集只含单个属性, 称作单属性. 因决策属性集和条件属性集的构造方法及分类方法相同, 作者只对多个条件属性构成的条件属性集依赖度进行研究, 决策属性集 D 是由单属性构成的 , 下文所述属性集 , 如果无特别指出 , 均指条件属
表 5 依赖度法与分辨矩阵法时空性能比较实验值数据集名称文 [ 4] 表 1 UC I- Iris UC I- Balance U C I- M ushroo m U C I- M ushroo m U C I- M ushroo m 某借书数据表 1 某借书数据表 2 记录数 /m 条件属性数 /N 35 150 625 8 124 8 124 8 124 100 000 1 000 000 8 4 4 11 14 22 6 6 依赖度法索引次数 255 15 15 2 047 16 383 4 194 303 63 63 依赖度法耗时 / s 分辨矩阵法第 1 步耗时 / s 0. 938 0. 078 0. 141 131. 562 1 336. 406 566 020. 947* 125. 357 1 222. 676 0 . 094 0 . 719 9 . 734 3951 . 833* 5 789 . 346* 8 539 . 056* 441 989. 889 * 143 402 895. 314*
属性集依赖度的研究 , 给出了从属性集依赖度出发求解属性约简和核的方法 , 即依赖度法 , 开辟了独立于分辨矩阵法之外又一新途径 . 研究表明 , 依赖度法的时空性能比分辨矩阵法更加优越 . 关键词 : 粗糙集 ; 属性集 ; 依赖度法 ; 时空性能中图分类号 : T P301 文献标识码 : A 文章编号 : 1000- 2162( 2008) 04- 0032- 04
* *
C | m ij = { a}, 1 { m },若 C
* ij
*
, j i
n}
*
=
C, 对所有 m ij
,C
m ij
*
,且
34
2
安徽大学学报 ( 自然科学版 )
2 2 2
第 32 卷
有条件属性值相比较的次数为 Cm , 所有同决策对象比较次数为 Cm 1 + C m 2 +
n
+ Cm n. 令任意 2个非同决
3 依赖度法与分辨矩阵法时空性能比较
设一致性决策表条件属性数为 N, 决策属性数为 1 , 对象数为 m. 对两种方法归纳, 得到依赖度法与分辨矩阵法时空性能比较的理论值, 见表 4 .
表 4 依赖度法与分辨矩阵法时空性能理论值比较时空性能决策表索引次数比较次数中间值存储数矩阵元素比较次数依赖度法最坏情况 2 - 1 使用 1 个内存变量 , 共比较
2 分辨矩阵方法的缺陷
定义 5 决策表分辨矩阵是一个对称的 n 阶方阵, 其元素定义为 m ij =
*
{a | a
C 且 f (x, a)
F (x j, a ) }, ,
* ij
( x i, x j ) ( x i, x j )
*
I N D (D ) I N D (D )
在构建决策的分辨矩阵时 , 若 x i , x j 不属于同一个决策 , m 是可以区分 x i , x j 所有属性的集合; 若 x i , x j 属于同一个决策, m ij 为 . C 的 D 核是分辨矩阵中所有单个元素 m ij 的并, 即 CORED (C ) = { a 定义 6 决策表分辨函数定义为 C 是极小子集, 则 C 是 C 的 D 约简 . 设一致性决策表按决策属性被分为 n 个等价类 , 各等价类包含的对象数分别为 m 1, m 2, m2 + , m n (m 1 + + m n = m ). 由定义 5 、 6可知, 分辨矩阵法求解包括 3个过程: ( 1) 比较过程: 任意两个对象的所
N (m - 1 ) ( 2 - 1) 次 0 N
分辨矩阵法 ( 第 1 步 ) 0 使用 (N + 1 ) 个内存变量 ,
2 共比较 Cm 次 2 Cm 2 2 Cm ( Cm - 1)
0
由表 4 可见, 依赖度法后 2 项的值都为 0 , 而分辨矩阵法的后 2 项都为巨值. 作者将依赖度法求解全过程与分辨矩阵法的第 1 步进行了比较实验. 实验是以 P4, 3 . 1 GH z , 512 M 内存为硬件环境, 以 W in dow s V ista 、 VFP9 . 0 为软件开发环境, 比较结果见表 5 .