基于依赖度求解属性约简的方法
- 格式:pdf
- 大小:531.75 KB
- 文档页数:4
粗糙集的几种属性约简算法分析分类:默认栏目2006.6.16 10:32 作者:万富| 评论:0 | 阅读:1628陈淑珍,基于粗集的几种属性约简算法分析,武汉工业学院学报,Vol.2 4No.3,Sep .20 051.1 利用差别矩阵求最小约简差别矩阵(Discernibility Matrix)是由波兰华沙大学的著名数学家Skowron[21 提出来的,利用这个工具,可以将存在于复杂的信息系统中的全部不可区分关系表达出来。
利用差别矩阵求取最小约简的一个前提是:在数据表的预处理阶段要先对不相容的记录进行处理,即差别矩阵不处理不相容记录。
预处理的方法如将冲突的记录数除以记录总数,得到一个粗糙度的量度,该量度可以作为数据表的一个特征。
通过差别矩阵可以很方便地求取核属性,以核属性为出发点,再求取差别函数的最小析取范式,则求析取范式的运算就可以得到很大的简化。
而最后得到的每个析取分量对应着一个约简。
因此,一定可以得到最小约简。
但该算法的缺陷十分明显:首先,当论域的对象与属性的规模较大时,差别矩阵将占有大量的存储空间口(n的二次方);其次,差别函数的化简本身就是一个NP一hard问题,因此只要数据集稍大一点,就不具备可操作性。
1.2 基于属性依赖度约简算法求取所有约简是一个NP一hard问题,因此运用启发信息来简化计算以找出最优或次优约简显然是一种可取的方法。
许多启发式约简算法的基本步骤都是:由信息系统或决策表的核为起始点,然后根据属性重要性的某种测度,依次选择最重要的属性加人核中,直到满足终止条件。
便得到信息系统或决策表的一个约简(更确切的说,是包含约简的一个属性集)。
一个信息系统中的所有属性对于决策来说并不是同等重要的,在粗集理论中,属性重要性可通过相依度来体现。
决策属性D对于属性R(R属于C)的相依度y(R,D)定义为[3]:显然有,O <,y(R,D), l,y(R,D)给出了决策D对属性R之间相依性的一种测度。
属性约简方法概述属性约简又称维规约或特征选择,从数学的角度考虑,就是有p维数据x=(x1,x2……xp),通过某种方法,得到新的数据x’=(x’1,x’2……x’k),k≤p,新的数据在某种评判标准下,最大限度地保留原始数据的特征。
属性约简主要是为了解决高维数据计算的复杂性和准确性问题。
目标是消除冗余和不相关属性对计算过程和最终结果造成的影响。
数据属性约简的意义主要从以下几个方面考虑:a)从机器学习的角度来看,通过属性约简去除噪音属性是非常有意义的;b)对一些学习算法来说,训练或分类时间随着数据维数的增加而增加,经过属性约简可以降低计算复杂度,减少计算时间;c)如果不进行属性约简,噪声或无关属性对分类的影响将与预期属性相同,这将对最终结果产生负面影响;d)当用较多的特征来描述数据时,数据均值表现得更加相似,难以区分。
为了描述属性约简方法,这里假设数据集合为d,d={x1,x2….xn},xi表示d中第i个实例,1≤i≤n,n为总的实例个数。
每个实例包含p个属性{|xi|=p}。
从机器学习的角度来看,属性约简方法可以分为监督的和非监督的两类。
下面是几种常用的方法。
(1)主成分分析主成分概念是karlparson于1901年最先引进。
1933年,hotelling把它推广到随机变量。
主成分分析把高维空间的问题转换到低维空间来处理,有效的降低了计算的复杂度。
通过主成分的提取,降低了部分冗余属性的影响,提高了计算的精度。
主成分分析的基本思想是通过正交变换将具有成分相关性的原始随机变量转换为具有成分不相关性的新变量。
从代数的角度,将原始变量的协方差矩阵变换为对角矩阵;从几何角度来看,将原始变量系统转换为一个新的正交系统,指向样本点分布最广的正交方向,然后降低多维变量系统的维数[43]。
定义4-1[44]:设x?(x1,x2,...,xp)'为p维随机向量,它的第i主成分分量可表示yi?ui'x,i=1,2,…,p。
粗糙集理论中的属性约简方法介绍粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它在数据挖掘、机器学习和模式识别等领域得到了广泛应用。
属性约简是粗糙集理论中的一个重要概念,它能够帮助我们从大量的属性中找到最为重要的属性,减少数据处理的复杂性。
本文将介绍粗糙集理论中的一些常用属性约简方法。
1. 正域约简方法正域约简方法是粗糙集理论中最为常用的一种属性约简方法。
其基本思想是通过比较不同属性对决策类别的区分能力,来确定最为重要的属性。
具体步骤如下:首先,计算每个属性与决策类别之间的依赖度,依赖度越大表示属性对决策类别的区分能力越强。
然后,根据依赖度的大小进行排序,选择依赖度最大的属性作为初始约简。
接下来,逐步添加其他属性,并计算约简后的属性集对决策类别的依赖度。
如果添加属性后的依赖度没有显著提高,则停止添加,得到最终的约简属性集。
2. 相关属性约简方法相关属性约简方法是一种基于属性之间相关性的约简方法。
它通过计算属性之间的相关系数或互信息量来评估属性之间的相关性,并选择相关性较低的属性进行约简。
具体步骤如下:首先,计算属性之间的相关系数或互信息量。
然后,根据相关系数或互信息量的大小进行排序,选择相关性较低的属性作为初始约简。
接下来,逐步添加其他属性,并计算约简后的属性集的相关系数或互信息量。
如果添加属性后的相关性没有显著提高,则停止添加,得到最终的约简属性集。
3. 基于粒计算的约简方法基于粒计算的约简方法是一种基于粒度理论的属性约简方法。
它通过将属性集划分为不同的粒度,来减少属性的数量。
具体步骤如下:首先,将属性集划分为不同的粒度。
每个粒度包含一组相关性较高的属性。
然后,选择每个粒度中最为重要的属性作为初始约简。
接下来,逐步添加其他粒度,并计算约简后的属性集的重要性。
如果添加粒度后的重要性没有显著提高,则停止添加,得到最终的约简属性集。
4. 基于遗传算法的约简方法基于遗传算法的约简方法是一种基于进化计算的属性约简方法。
信息量的不完备信息系统属性约简方法信息量的不完备信息系统属性约简方法不完备信息系统是指存在一些未知或不可知的属性的系统。
约简是在保留系统重要特征的前提下,去除一些冗余的特征以降低系统的复杂性。
在不完备信息系统中,属性约简是一种重要的方法。
下面介绍一种基于信息量的不完备信息系统属性约简方法。
信息量是指某一事件的不确定性程度,用信息熵来表示。
对于一个不完备信息系统来说,我们可以通过已知的属性信息和属性取值进行估算和推测,然后计算出每个未知属性的信息熵。
如果一个属性在已知属性的条件下其信息熵较小,那这个属性就有更大的概率是有用的属性。
用这种方法求解属性约简,可以使得约简结果更具有实际意义和解释性。
具体步骤如下:1. 将不完备信息系统分为两类:已知属性集和未知属性集。
其中已知属性集包含在一些实例中已知的属性,未知属性集包含在这些实例中未知或不可知的属性。
2. 对于每个未知属性,计算在已知属性的条件下的信息熵。
假设一个未知属性 Ai,对于系统中任意的实例 X,已知属性集为 K,未知属性集为 U,该未知属性的取值为 Vi,那么该未知属性在已知属性集 K 的条件下的信息熵为:H(Ai|K) = -∑ (P(X|K) * log2 P(X|K))其中,P(X|K) 是在已知属性集 K 的条件下,未知属性 Ai 的取值为 Vi 的概率,根据贝叶斯定理可得P(X|K) = P(V1|K) * P(V2|K) * … * P(Vn|K)V1, V2, …, Vn 分别为未知属性集 U 中的属性取值。
3. 对于每个未知属性,计算其信息增益。
信息增益表示该属性对系统的分类能力,加入该属性后能够使得不完备信息系统的熵减少的程度。
信息增益的计算公式为:Gain(Ai|K) = H(U|K) - H(Ai|K)其中,H(U|K) 是在已知属性集 K 的条件下未知属性集 U 的信息熵。
4. 对于所有未知属性,按照信息增益从大到小排序,选择信息增益最大的属性加入已知属性集 K。