基于粗糙集的数据挖掘方法探讨
- 格式:pdf
- 大小:322.07 KB
- 文档页数:1
• 100•ELECTRONICS WORLD ・探索与观察试论一种基于粗糙集的海量数据挖掘算法中国计量大学信息工程学院 蔡丛豫引言:就传统的数据挖掘技术来说,其在数据量级方面存在着一定的局限性,影响最终的效果,所以将粗糙集理论应用其中。
对此,本文以算法的优化为切入点,对一种基于粗糙集的海量数据挖掘算法进行分析。
结合本文的分析,其目的就是优化海量数据挖掘算法,并以全新的并行算法等为基础,提高海量数据挖掘的效率,以期为相关人员提供参考。
1.基于粗糙集对Rough Set知识约简算法的改进1.1 离散化算法在Rough Set 知识获取方法中,数据离散化是其关键的构成内容之一,本文就采用属性重要性的方式,将CDL 引入到原算法之中,保证这种算法能够实现对海量数据的挖掘。
具体来说,这种算法的具体步骤为:(1)对每一个连续的条件属性,进行循环遍历,同时能够生成条件信息熵,即ICDL ({a i })的信息熵。
(2)结合条件信息,对信息熵以降序的方式进行排序,即将所有连续的属性均进行排列。
(3)对于完成排序的DT ,并每个条件的a i 进行循环遍历,从而能够形成ICDL (C\{a i })。
在这一条件下,可以将S zone 设置为null ,而S zone 实际上是a i 值域的子集。
(4)对(S a ,S b )区间的额每一个断点,进行循环遍历,而S a 、S b 是a i 的连续属性值,并设S zone 的值为S zone 与S a 的和。
(5)对DT 中所有满足条件SV j (a i )=S h 的样本,进行循环遍历,即SV j ,而其中的S h=属于S zone 。
(6)对DT 中所有满足条件SV j (a i )=S b 的样本,进行循环遍历,即SV k ,如果样本SV k 、SV j 属于ICDL ({a i })的同一分类中,并且使用@的符号进行连接,在需要将(S a ,S b )的断点选择出来,并对S zone 进行重置(空)。
基于粗糙集和遗传算法旳数据挖掘措施摘要:运用粗糙集和遗传算法旳理论,为大型旳数据挖掘提供了一种新旳措施。
首先通过粗糙集理论对数据进行预处理, 然后对属性简约,最终通过遗传算法进行规则提取, 寻找最优解。
关键词:粗糙集;遗传算法;数据挖掘;知识发现Data ExtractionBased on Rough Set and GeneticAlgorithmAbstract: A new approach for datamining by using roughset and genetic algorithm is introduced in this article. First ofall we pretreatour datawith rough set, andthen reduce attributes, finally we extractthe bestrule through genetic algorithm.Key Words:Rough Set;Genetic Algorithm; Data Extration; Knowledge Discovery0 引言数据挖掘[1]又称知识发现, 是从大量旳、不完全旳、有躁声旳、模糊旳实际数据中, 提取隐含在其中旳、人们事先不懂得旳、但又很有用旳知识和信息旳过程。
它旳一般环节如下: 提出问题→数据准备→数据整顿→建立模型→评价和解释。
它是数据库研究、开发和应用最活跃旳一种分支, 是多学科旳交叉领域, 波及数据库技术、人工智能、机器学习、神经网络、数学、记录学、模式识别、知识库系统、知识获取、信息提取、高性能计算、并行计算、数据可视化等多方面旳知识。
1 粗糙集与遗传算法旳基本概念粗糙集( Rough Set,RS)[2]作为一种全新旳数学概念,为处理具有不完整、不一致及不确定性特性旳信息提供了新旳有效工具, 它旳重要特点之一是不必提供问题所需处理旳数据集合之外旳任何先验信息。
基于粗糙集的海量数据挖掘算法研究作者:张贵红李中华来源:《现代电子技术》2016年第17期摘要:针对传统数据挖掘算法在数据量级方面的局限性,提出在粗糙集理论的基础上,采用类分布链表结构改进传统的基于属性重要性的数据离散化算法、属性约简算法以及基于启发式的值约简算法;讨论了基于动态聚类的两步离散化算法,当算法适应大数据处理之后,采用并行计算的方法提高算法的执行效率。
算法测试结果表明改进的算法能有效地处理大数据量,同时并行计算解决了大数据量处理带来的效率问题。
关键词:数据挖掘;粗糙集;大数据处理;并行计算中图分类号: TN911⁃34; TQ028.1 文献标识码: A 文章编号: 1004⁃373X(2016)17⁃0116⁃040 引言信息时代,数据(尤其是海量数据)已被各企业、各研究机构当成重大的知识来源、决策的重要依据[1],对数据的急速增长,如何有效地解决数据挖掘过程中空间和时间的可伸缩性已经成为数据挖掘领域中迫切需要解决的难题[2]。
从知识发现的过程中可以看到,数据挖掘不仅面临着数据库中的庞大数据问题[3],而且这些数据有可能是不整齐的、不完全的、随机的、有噪声的、有复杂的数据结构、维数大[4]。
传统的数据挖掘算法还限制于单机内存的容量[5],当一次性需要分析的数据不能全部进入内存时,算法的性能就会严重降低[6],甚至得不到预期的结果,使用基于粗糙集理论的算法策略将有效地解决这个问题[7]。
本文针对传统数据挖掘算法在数据量级方面的局限性,提出了结合类分布链表,把数据挖掘算法推广到可以处理更高数据量级,最后采用并行计算的方法提高基于动态聚类的两步离散化算法适应大数据处理之后的执行效率。
1 改进的Rough Set知识约简算法许多经典的Rough Set知识约简算法都可以通过引进CDL(类分布链表)改进,CDL可以反映某个条件属性组合对论域的分类情况。
CDL分为不相容类分布链表(ICDL)和相容类分布链表(CCDL)两部分,CCDL根据链表中每个分类的样本数目又可分为单例相容类分布链表(SSCDL)和多例相容分布链表(MSCDL)[7]。
基于粗糙集的数据挖掘技术在电子商务中的应用摘要数据挖掘技术应用于电子商务,高效组织利用大量的数据信息,再把粗糙集的基本思想应用于电子商务,创新了一种利用数据挖掘技术的关于客户数据库的方法,以它的高效性再次使电子商务技术得到了发展。
关键词数据挖掘;电子商务;粗糙集;聚类分析粗糙集是一种由波兰科学家Pawlak创立数据分析处理理论,最开始只是研究语言问题,后来才进入数学及计算机领域;数据挖掘技术则是一种对事物分类处理,更是对数据的深度处理的方式,可以应用于数学、商业等等领域。
但是当粗糙集理论和数据挖掘技术相结合运用于电子商务的管理和进程,将会产生一种意想不到的高效及便捷。
1 粗糙集的基本思想和背景针对所讨论的论域中的任意一个对象,都会有一些被我们获得的知识去解释和描述它,这就是粗糙集的理论出发点。
1.1 知识的约简知识的约简是粗糙集理论的核心之一,是粗糙集在应用中的关键。
知识的约简分为属性约简和属性值约简。
对于信息系统,大量的属性并不是具有等同地位的,甚者有些属性是负赘的。
因此,首要目的是维护信息系统的划分类别的职能不变的情况下进行删减冗余属性,这也是属性约简的任务。
1.2 粗糙集理论的特点决策表是粗糙集理论最主要的研究对象。
对决策表进行分析是有决策的分析,对于有决策的分析,包括属性约简以及属性值约简这两个步骤,然而对无决策的分析,只进行属性约简即可。
然而对于有决策的分析,最终的目的不仅仅是通过属性约简去掉冗余属性,用户希望得到的是决策规则。
只依靠属性约简是不可能达到目的的,只有通过属性值的约简才可以实现。
粗糙集理论具有以下特点:1)粗糙集理论不需要依赖先验知识;2)粗糙集理论能够进行高效的数据分析;3)粗糙集理论能够关系型数据库里的关系转化成决策表,这就是为什么粗糙集理论被广泛应用的重要原因。
粗糙集理论提取的规则更加容易被检测;4)粗糙集理论可以和模糊集相互补充,更好的完善了对信息的描述。
2 基于粗糙集的数据挖掘技术运用于电子商务下面是基于粗糙集的数据挖掘技术运用于电子商务的一个实例。
基于粗糙集理论的数据挖掘技术研究随着信息时代的到来,数据量的飞速增长和数据质量要求的不断提高,数据挖掘技术越来越受到重视。
在数据挖掘中,粗糙集理论是一种重要的方法。
粗糙集理论是由波兰数学家Pawlak于1982年提出的一种不确定性的近似推理理论,适用于含有不确定信息的数据处理与分析,被广泛应用在分类、聚类和特征选择等领域。
本文将对基于粗糙集理论的数据挖掘技术进行研究探讨。
一、粗糙集理论简介1.1 基本概念粗糙集理论的核心概念是上近似和下近似。
设U为一个数据集,X和Y分别为U的属性集和决策集,A是X的子集,则A的下近似表示为:$〖POS〗_A=\{x\in〖U|A|},∀y∈Y,(x,y)\in 〖IND〗_1(X,Y)→y∈A_Y\}$A的上近似表示为:$NEG_A=\{x∈U|x∈A^C , ∀y∈Y∃x′∈〖POS|A|}(x′,y)\in IND_1(X,Y),y∈A_Y\}$其中$〖IND〗_1(X,Y)$是X与Y之间的条件最小化依赖关系,$A^C$表示A的补集。
1.2 粗糙集的属性约简属性约简是粗糙集理论的一个重要应用之一。
约简是指从原始数据中排除无用信息以减少数据的复杂度,并保证信息的完整性和可靠性。
属性约简是指在原始属性集合中,找出能够尽量多地保存与决策集相关依赖关系的最小属性子集。
粗糙集属性约简通过粗糙集下近似、下近似核以及属性重要性的定义和计算,来实现属性约简。
二、基于粗糙集理论的分类方法基于粗糙集理论的分类方法是通过构建决策表来实现的。
决策表是一种可以清晰表达出属性与决策之间联系的数据集表示方式,由属性集和决策集组成。
2.1 基本思路基于粗糙集理论的分类方法基本思路是将数据分成不相交的决策类,而将每个决策类逐步划分成两个子类,最终构成一棵决策树,再利用决策树对新数据进行分类。
2.2 树的生成一棵决策树可以通过粗糙集下近似和基本学习算法的结合生成。
下面给出决策树的生成步骤:1)初始化,将根节点定义为整个数据集U,将所有属性作为候选属性。
一种基于粗糙集的数据挖掘模型摘要:粗糙集理论是一种处理不确定和不精确问题的数学工具。
运用模拟例子通过不同简化层次的算法导出每个层次上的信息集,最后得到规则集来说明如何建立和运用这种数据挖掘模型。
关键词:粗糙集;数据挖掘;规则提取;算法数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
按照数据挖掘技术所能发现的规律,可以将挖掘任务分成5种:①总结规则挖掘:从指定的数据中,从不同的角度或层次上挖掘出平均值、极小值、极大值、总和、百分比等;②关联规则挖掘:从数据库中挖掘出满足一定条件的依赖性关系;③分类规则挖掘:在已知训练集的特征和分类结果的基础上,为每一种类别找到一个合理的描述或模型;④聚类规则挖掘:客观地按被处理对象的特征分类,将有相同特征的对象归为一类;⑤预测及趋势性规则挖掘:对数据进行分类或回归分析,或对数据将来的发展进行估计。
粗糙集(Rough Set)理论是由波兰数学家Z.Pawlak于1982年提出的一种处理不确定性问题的数学工具。
所谓粗糙集方法,是基于一个机构(或一组机构)关于一些现实的大量数据信息,以对观察和测量所得数据进行分类的能力为基础,从中发现推理知识和分辨系统的某些特点、过程、对象等。
粗糙集理论不仅为信息科学和认知科学提供了新的科学逻辑和研究方法,而且为智能信息处理提供了有效的处理技术。
粗糙集理论运用于数据挖掘中所带来的优点有以下几方面:①不需要数据集合之外的任何先验知识,仅利用数据本身所提供的信息;②可以从不同的抽象层次来对数据进行建模和分析,以更好地揭示数据间的依赖关系,发现数据间的规律;③基于集合理论,有效地分析和处理不精确、不完备和不一致数据,简化输入信息的表达空间;④生成规则简洁准确、易于验证。
1 粗糙集的基本概念决策表信息系统是Rough Set理论的主要研究对象。