基于粗糙集的符号与数值属性的快速约简算法
- 格式:pdf
- 大小:198.43 KB
- 文档页数:5
粗糙集理论的使用方法与步骤详解引言:粗糙集理论是一种用来处理不确定性和模糊性问题的数学工具,它在数据分析和决策支持系统中得到了广泛的应用。
本文将详细介绍粗糙集理论的使用方法与步骤,帮助读者更好地理解和应用这一理论。
一、粗糙集理论概述粗糙集理论是由波兰学者Pawlak于1982年提出的,它是一种基于近似和粗糙程度的数学理论。
粗糙集理论的核心思想是通过对属性间的关系进行分析,识别出数据集中的重要特征和规律。
它主要包括近似集、正域、决策表等概念。
二、粗糙集理论的使用方法1. 数据预处理在使用粗糙集理论之前,首先需要对原始数据进行预处理。
这包括数据清洗、数据变换和数据归一化等步骤,以确保数据的准确性和一致性。
2. 构建决策表决策表是粗糙集理论中的重要概念,它由属性和决策构成。
构建决策表时,需要确定属性集和决策集,并将其表示为一个矩阵。
属性集包括原始数据中的各个属性,而决策集则是属性的决策结果。
3. 确定正域正域是指满足某一条件的样本集合,它是粗糙集理论中的关键概念。
通过对决策表进行分析,可以确定正域,即满足给定条件的样本集合。
正域的确定可以通过计算属性的约简度或者使用启发式算法等方法。
4. 近似集的计算近似集是粗糙集理论中的核心概念,它是指属性集在正域中的近似表示。
通过计算属性集在正域中的近似集,可以确定属性之间的关系和重要程度。
近似集的计算可以使用不同的算法,如基于粒计算、基于覆盖算法等。
5. 属性约简属性约简是粗糙集理论中的一个重要问题,它是指从属性集中选择出最小的子集,保持属性集在正域中的近似表示不变。
属性约简的目标是减少属性集的复杂性,提高数据分析和决策的效率。
属性约简可以通过计算属性的重要度、使用启发式算法或者遗传算法等方法实现。
6. 决策规则的提取决策规则是粗糙集理论中的重要结果,它是从决策表中提取出来的一组条件和决策的组合。
决策规则可以帮助我们理解数据集中的规律和特征,从而做出更好的决策。
一种高效的粗糙集属性约简算法【摘要】本文将递归和贪心算法的思想融入粗糙集理论的快速属性约简中,提出了一种较为高效的粗糙集属性约简算法。
该算法在保证约简质量的情况下,较大的提高属性约简的效率,实验仿真结果说明了该算法的高效性。
【关键词】粗糙集;属性核;属性约简;递归;贪心算法引言属性约简是粗糙集理论的一个重要研究内容,目前已经提出了许多经典的属性约简算法[1—6]。
得到决策表的最小约简是一个np 难题,现有的算法大多是以属性重要性为启发性知识得到一个相对约简。
文[1,2]给出了基于属性重要性的属性约简算法和归纳属性约简算法。
文[3,4]给出了基于信息熵的约简算法。
文[5]一种基于快速排序的属性约简算法。
文献[6]给出了一种基于蚁群优化的属性约简算法。
文献[7]给出了一种基于克隆选择的属性约简算法。
然而这些算法的时空复杂度都比较高,对于大数据的处理能力还不足。
本章结合递归的思想,将大数据集转化为多个小数据集来计算属性核,然后在利用贪心算法的思想进行属性约简,从而有效的提高了属性约简算法的运行效率。
1 相关概念以下将粗糙集属性约简的相关概念作简单介绍。
2 基于递归和贪心算法思想的快速属性约简算法本文中提出的属性约简算法首先计算属性核,然后在属性核的基础上采用贪心算法的思想进行属性约简。
首先给出递归思想计算属性核的理论基础。
3 仿真实验windows环境下采用vc6.0开发工具在个人计算机(windowsxp,cpu:p4 2.6,内存512)上进行实验仿真。
4 结束语理论证明得到决策表的最小属性约简是np难题。
本文综合利用递归和贪心算法的思想提出了一种较为高效的相对属性约简算法。
如何进一步提高该算法的效率是下一步研究的重点。
【参考文献】[1]王国胤.rough集理论与知识获取[m].西安交通大学出版社,2001.[2]x h hu, n cercone. learning in relational database:a rough set approach[j]. international. journal. of computational intelligence,1995,11(2):323—338.[3]王国胤,于洪,杨大春.基于条件信息熵的决策表约简[j].计算机学报,2002,25(7):759—766.[4]沈永红,王发兴.基于信息熵的粗糙集属性离散化方法及应用[j].计算机工程与应用,2008,05(8):221—224.[5]刘少辉,盛球戬,吴斌,等.rough集理论高效算法的研究[j].计算机学报,2003,5(26):524—529.[6]孙涛,蒋科艺,等.一种基于蚁群优化的粗糙集属性约简方法[j].海军工程学院学报,2011,11(1):324—327.[7]梁霖,徐光华.基于克隆选择的粗糙集属性约简方法[j].西安交通大学学报,2005,11(39):464—469.[责任编辑:王迎迎]。
一种基于模糊粗糙集的快速特征选择算法张晓;杨燕燕【摘要】模糊粗糙集由于能够处理实数值数据,甚至是混合值数据中的不确定性受到人们的广泛关注,其最重要的应用之一是特征选择,相关的特征选择方法已有不少研究,但其快速的特征选择算法研究很少.实际中的数据一般含有噪声点或信息含量低的样例,如果对数据集先筛选出代表样例,再对筛选的样例集进行数据挖掘便会降低挖掘计算量.本文基于模糊粗糙集,先根据样例的模糊下近似值对样例进行筛选,然后利用筛选样例的模糊粗糙信息熵构造特征选择的评估度量,并给出相应的特征选择算法,从而降低了算法的计算复杂度.数值试验表明该快速算法具有有效性,并且对控制筛选样例个数的参数给出了建议.【期刊名称】《数据采集与处理》【年(卷),期】2019(034)003【总页数】10页(P538-547)【关键词】模糊粗糙集;样例选择;特征选择;信息熵【作者】张晓;杨燕燕【作者单位】西安理工大学应用数学系,西安,710048;清华大学自动化系,北京,100084【正文语种】中文【中图分类】TP18引言经典的粗糙集理论[1]是由波兰数学家Pawlak在1982年提出的,它是一种处理数据中的不确定性的有效工具,然而经典粗糙集只能处理符号值(名义值)的数据。
模糊粗糙集[2]作为经典粗糙集的最重要的推广之一,可以用来处理实数值甚至是混合值的数据。
目前,模糊粗糙集已经成功应用于机器学习和数据挖掘领域[3],其最受人们关注的应用之一就是特征选择(属性约简)。
关于模糊粗糙集特征选择的研究工作已存在不少[4-10],但其快速的特征选择算法的研究还很少,据作者所知,仅文献[11]在特征选择算法迭代步骤提供了加速策略,从而减少了算法的计算时间。
实际中的数据一般包含信息量较低的样例或噪声点,如果对样例进行筛选,利用筛选得到的样例进行挖掘知识将会减少计算的复杂度。
文献[12]提供了3种样例选择的启发式算法,其中之一的算法思想即选择隶属模糊正域的值不小于给定阈值的那些样例。