一种基于Rough集的时间序列数据挖掘策略
- 格式:pdf
- 大小:200.65 KB
- 文档页数:8
• 100•ELECTRONICS WORLD ・探索与观察试论一种基于粗糙集的海量数据挖掘算法中国计量大学信息工程学院 蔡丛豫引言:就传统的数据挖掘技术来说,其在数据量级方面存在着一定的局限性,影响最终的效果,所以将粗糙集理论应用其中。
对此,本文以算法的优化为切入点,对一种基于粗糙集的海量数据挖掘算法进行分析。
结合本文的分析,其目的就是优化海量数据挖掘算法,并以全新的并行算法等为基础,提高海量数据挖掘的效率,以期为相关人员提供参考。
1.基于粗糙集对Rough Set知识约简算法的改进1.1 离散化算法在Rough Set 知识获取方法中,数据离散化是其关键的构成内容之一,本文就采用属性重要性的方式,将CDL 引入到原算法之中,保证这种算法能够实现对海量数据的挖掘。
具体来说,这种算法的具体步骤为:(1)对每一个连续的条件属性,进行循环遍历,同时能够生成条件信息熵,即ICDL ({a i })的信息熵。
(2)结合条件信息,对信息熵以降序的方式进行排序,即将所有连续的属性均进行排列。
(3)对于完成排序的DT ,并每个条件的a i 进行循环遍历,从而能够形成ICDL (C\{a i })。
在这一条件下,可以将S zone 设置为null ,而S zone 实际上是a i 值域的子集。
(4)对(S a ,S b )区间的额每一个断点,进行循环遍历,而S a 、S b 是a i 的连续属性值,并设S zone 的值为S zone 与S a 的和。
(5)对DT 中所有满足条件SV j (a i )=S h 的样本,进行循环遍历,即SV j ,而其中的S h=属于S zone 。
(6)对DT 中所有满足条件SV j (a i )=S b 的样本,进行循环遍历,即SV k ,如果样本SV k 、SV j 属于ICDL ({a i })的同一分类中,并且使用@的符号进行连接,在需要将(S a ,S b )的断点选择出来,并对S zone 进行重置(空)。
收稿日期:2012-10-18作者简介:王耀清(19-),中国矿业大学机电与信息工程学院2010级计算机应用专业硕士研究生。
基于粗糙集理论的股票时间序列数据的关联规则方法研究王耀清(中国矿业大学(北京)机电与信息工程学院,北京100083)摘要:有效做好采煤工艺的研究,促进井下采煤技术的优化,不仅能够推进我国煤炭资源的开采工作,同时也能自根本保障我国井下采煤的安全性,改善煤炭市场的整体发展环境。
本文从采煤技术工艺发展现状着手,分析了不同条件下不同煤炭开采方法的具体运用。
关键词:煤炭生产;采煤技术;工艺选择;应用中图分类号:TD801文献标识码:A 文章编号:1008-8881(2012)04-0139-031粗糙集基本理论粗糙集理论是由波兰学者Pawlak Z 在1982年提出的。
1991年Pawlak Z 出版了专著,系统全面地阐述了粗糙集理论,奠定了严密的数学基础。
该书与1992年出版的粗糙集理论应用专集较好地总结了这一时期粗糙集理论与实践的研究成果,促进了它的进一步发展,现已成为学习和应用粗糙集理论的重要文献。
从1992年至今,每年都召开以粗糙集为主题的国际会议,推动了粗糙集理论的拓展和应用。
目前粗糙集理论已成为人工智能领域中一个较新的学术热点,引起了越来越多的科研人员的关注。
设U 为非空的论域,X 哿U ,R 是U 上的等价关系,A=(U ,R )是一个近似空间,在A 上,如果X 是一些R 基本类的并集,则称X 是R 可定义的:否则称X 是R 不可定义的。
R 可定义集是全集U 上那样一些子集,这些子集在个体全集U 上是恰好可被定义,而R 不可定义集是子集X 上不可能恰好被定义的。
R 可定义集被称为R 一致集或R 恰当集,而R 不可定义集也被说成是R 不一致集或称R Rough 集,简称不一致集或Rough 集。
如果存在一个等价关系R ∈IND (U ),其中IND (U )是U 上给定的所有等价关系的交集,使得X 哿U 是R 一致的,则集合X 被称作U 中一致集:如果X 哿U 对任意R ∈IND (U )都是R Rough 的,则X 被称作U 上不一致集或Rough 集。
如何使用粗糙集理论进行时间序列分析与预测粗糙集理论(rough set theory)是一种用于处理不确定性和模糊性的数学工具,它可以应用于各种领域,包括时间序列分析与预测。
本文将探讨如何使用粗糙集理论进行时间序列分析与预测。
首先,我们需要了解粗糙集理论的基本概念。
粗糙集理论是由波兰学者Pawlak 于1982年提出的,它基于信息系统的概念,将不确定性的数据集划分为精确和粗略两部分。
在时间序列分析中,我们可以将时间序列看作是一个信息系统,其中每个时间点的数据可以被视为一个属性。
在进行时间序列分析之前,我们需要对数据进行预处理。
这包括数据清洗、平滑和规范化等步骤。
数据清洗可以去除异常值和缺失值,以确保数据的完整性和准确性。
平滑可以使数据变得更加平稳,有利于后续的分析和预测。
规范化可以将不同尺度的数据转化为相同的范围,以便比较和分析。
接下来,我们可以利用粗糙集理论进行特征选择。
特征选择是指从原始数据中选择最具有代表性和相关性的特征,以减少数据的维度和复杂度。
在时间序列分析中,特征选择可以帮助我们找到最重要的时间点或时间段,并排除那些对分析和预测没有帮助的特征。
在进行特征选择之后,我们可以利用粗糙集理论进行特征约简。
特征约简是指通过删除冗余和无关的特征,使得数据集的规模和复杂度减小,同时保持数据集的信息内容。
通过特征约简,我们可以获得更简洁和高效的数据集,从而提高时间序列分析和预测的准确性和效率。
在特征约简之后,我们可以利用粗糙集理论进行规则提取。
规则提取是指从数据集中提取出一些具有潜在规律和趋势的规则,以帮助我们理解和预测时间序列的变化。
通过规则提取,我们可以发现时间序列中的一些重要特征和规律,从而为未来的预测提供参考和依据。
最后,我们可以利用粗糙集理论进行时间序列的预测。
时间序列的预测是指根据过去的数据和趋势,对未来的数据进行推测和预测。
通过粗糙集理论,我们可以建立时间序列的模型和规则,从而进行准确和可靠的预测。
基于Rough集的数据库信息挖掘加权决策算法
巩建闽;王国胜;萧蓓蕾
【期刊名称】《计算机工程与应用》
【年(卷),期】2003(039)032
【摘要】利用Rough集方法进行数据库中信息挖掘时,因为相同的记录表示的是同样的决策信息,可以将它消去,但由此得到的决策规则可能是片面的.文章提出了一种带有权重的决策算法,该方法利用记录出现的频率作为权重系数,导出了带有全重的决策算法,该方法计算简便、实用,可提高最终决策算法的可靠性.
【总页数】3页(P198-200)
【作者】巩建闽;王国胜;萧蓓蕾
【作者单位】德州学院计算机系,德州,253023;德州学院计算机系,德州,253023;德州学院计算机系,德州,253023
【正文语种】中文
【中图分类】TP311.13
【相关文献】
1.一种基于粗糙集的决策算法挖掘方法 [J], 王常伟;马英红;朱颖翠
2.基于Rough集的动态信息系统的规则挖掘 [J], 牛海峰;何小卫;王基一
3.基于Rough 集的数据挖掘在高职院校就业指导决策分析中的应用 [J], 杨秀芳;陈金霞;雎力芬;
4.基于Rough Set的缺省加权规则挖掘算法 [J], 杨明;孙志挥;季小俊
5.基于加权构造链表的频繁加权项集挖掘算法 [J], 文凯;许萌萌;耿小海
因版权原因,仅展示原文概要,查看原文内容请购买。
第21卷第4期重庆邮电大学学报(自然科学版)Vol .21 No .42009年8月Journa l of Chongq i n g Un i versity of Posts and Teleco mm un i ca ti on s(Na tura l Sc i ence Ed iti on)Aug .2009一种基于Rough 集的海量数据属性约简方法收稿日期:2009203225 基金项目:国家自然科学基金(60573068);重庆市自然科学基金重点项目(2008BA2017);重庆市教育委员会科学技术研究项目(KJ090512,KJ7150080050)胡 峰,张 杰,刘 静,肖大伟(重庆邮电大学计算机科学与技术研究所,重庆400065)摘 要:海量数据属性约简的研究是数据挖掘研究中的一个难点。
已有的许多属性约简算法对于空间复杂度考虑得不够,导致了算法不能适应大数据集的约简处理。
结合分治法,在给定属性序下,提出了基于分治策略的属性约简算法。
利用该算法可以快速得到海量数据的属性约简结果。
仿真实验结果说明了该算法的高效性。
关键词:粗集;数据挖掘;分治;属性约简;属性序中图分类号:TP18 文献标识码:A文章编号:16732825X (2009)0420455206A ttr i bute reducti on a lgor ith m for huge da t a ba sed on rough set theoryHU Feng,ZHANG J ie,L IU J ing,X I A O Da 2wei(I nstitute of Computer Science and Technol ogy,Chongqing University of Posts and Telecommunicati ons,Chongqing 400065,P .R.China )Abstract:The attribute reducti on of huge data is a difficult p r oble m in the research of data m ining .A t p resent,many at 2tribute reducti on algorith m s lack considerati on on s pace comp lexity,which makes the m cannot adap t t o the reducti on of large data set .I n this paper,an attribute reducti on algorith m of ordered attributes was p r oposed based on the divide and conquer,and this algorith m can be used t o dealwith huge data reducti on .Si m ulati on results show the efficiency of the algo 2rith m.Key words:r ough set;data m ining;divide and conquer;attribute reducti on;attribute order0 引 言海量数据是指巨大的、浩瀚的数据。
drsa调度算法"DRSA" 是一种决策规则系统,全称为"Discernibility-based Rough Set Approach",是基于粗糙集理论的一种数据挖掘和知识发现方法。
它用于从数据集中提取有意义的规则,帮助分析和决策。
在DRSA 中,主要包括一系列的步骤,包括数据预处理、决策属性的确定、属性重要性的计算、规则的生成等。
DRSA 算法的主要步骤如下:1. 数据预处理:对数据集进行预处理,包括数据清洗、数据变换和数据归一化等操作,以确保数据的准确性和一致性。
2. 决策属性的确定:选择一个或多个作为决策属性,这是需要分析和预测的属性。
3. 属性重要性计算:使用不同的方法(如信息熵、Gini系数等)计算各个属性的重要性,以找到对决策属性影响较大的属性。
4. 粗糙集构建:基于属性重要性的计算,使用粗糙集理论确定决策属性的粗糙集,即与决策属性相关的属性集合。
5. 规则生成:基于决策属性的粗糙集,从数据集中提取有意义的决策规则,以描述属性之间的关系和决策属性的可能取值。
6. 规则评估:对生成的规则进行评估,根据支持度、置信度等指标来衡量规则的可靠性和实用性。
7. 规则选择和剪枝:从生成的规则中选择最具有代表性和有意义的规则,同时进行规则的剪枝,以减少冗余和提高规则的简洁性。
8. 规则应用:使用生成的规则来预测未知样本的决策结果,从而实现对数据的分析和决策。
DRSA 算法的核心思想是基于属性之间的关系,通过提取决策规则来揭示数据集中的模式和规律。
这种方法在数据挖掘、知识发现、决策支持等领域具有重要的应用价值。
请注意,具体的算法细节和实现可能因应用环境和需求的不同而有所变化。
基于粗糙集的海量数据挖掘算法研究牛咏梅【摘要】针对传统数据挖掘算法在数据量级方面的局限性,提出在粗糙集理论的基础上,采用类分布链表结构改进传统的基于属性重要性的数据离散化算法、属性约简算法以及基于启发式的值约简算法。
讨论了基于动态聚类的两步离散化算法,当算法适应大数据处理之后,采用并行计算的方法提高算法的执行效率。
算法测试结果表明,改进算法能有效地处理大数据量,同时并行计算解决了大数据量处理带来的效率问题。
%Since the traditional data mining algorithm has the limitation in the aspect of data magnitude,on the basis of rough set theory,the class distribution list structure is used to improve the traditional data discretization algorithm based on attri⁃bute importance,attribute reduction algorithm and heuristic⁃based value reduction algorithm. The two⁃step discrete algorithm based on dynamic clustering is discussed. When the algorithm adapts to the big data processing,the parallel computing method is used to improve the execution efficiency of the algorithm. The test results of the algorithm show that the improved algorithm can effectively process the big data size. The parallel computing can solve the efficiency problem causing by big data size pro⁃cessing.【期刊名称】《现代电子技术》【年(卷),期】2016(039)007【总页数】5页(P115-119)【关键词】数据挖掘;粗糙集;大数据处理;并行计算【作者】牛咏梅【作者单位】南阳理工学院,河南南阳 473000【正文语种】中文【中图分类】TN911-34;TQ028.1信息时代,数据(尤其是海量数据)已被各企业、各研究机构当成重大的知识来源、决策的重要依据[1],对于数据的急速增长,如何有效地解决数据挖掘过程中空间和时间的可伸缩性已经成为数据挖掘领域中迫切需要解决的难题[2]。
基于Rough Set的数据挖掘技术在网络安全中的应用研究摘要:网络安全作为信息技术的重要领域,在信息化时代得到了越来越多的关注和重视。
但是,随着网络技术的不断发展,网络安全问题也变得越来越复杂和严峻,因此,本文基于Rough Set的数据挖掘技术,在网络安全领域中的应用进行了研究。
关键词:Rough Set;数据挖掘技术;网络安全引言在网络安全中,数据挖掘技术可以通过对网络数据的分析和挖掘,发现网络攻击的迹象,提高网络的安全性。
基于Rough Set的数据挖掘技术是一种较为先进的数据挖掘方法,它能够有效地解决数据挖掘中的一些问题,在网络安全中的应用也具有很大的潜力。
因此,对基于Rough Set的数据挖掘技术在网络安全领域中的应用进行研究,具有重要的实际意义和理论价值。
一、Rough Set理论基础介绍(一)Rough Set的定义和基本概念Rough Set理论是由波兰数学家Pawlak于1982年提出的一种基于集合论的数据挖掘技术,用来解决数据集中的不确定性问题。
在Rough Set理论中,数据集中所包含的信息被看做是某个属性的取值,这些属性构成了一个属性集,而数据集则被看做是属性集上的一个关系。
在Rough Set理论中,一个概念可以被看做是属性集上的一个子集,表示这个概念所包含的所有属性值都是相互不可分割的。
Rough Set理论的基本思想是通过对属性集进行粗糙分割来获得数据集中的规律和模式。
具体地说,粗糙分割是指将属性集划分为若干个不相交的子集,每个子集对应一个概念或决策。
在Rough Set理论中,主要有三个基本概念:决策类、等价类和约简。
决策类是指数据集中的某个属性或属性组合,用来表示数据集中的某个事物或事件。
等价类是指在属性集上有相同取值的数据对象所组成的集合。
约简是指在数据集中找到最小的属性子集,使得该子集能够准确地刻画数据集中的一个概念或决策,而且该子集的任何一个真子集都不能准确地刻画该概念或决策。
基于拓扑数据分析的时间序列数据挖掘方法研究时间序列数据挖掘是指从时间序列数据中发现有趣的模式、规律或者进行预测的过程。
随着大数据时代的到来,时间序列数据的规模和复杂性不断增加,传统的数据挖掘方法已经无法很好地适应这种挑战。
因此,基于拓扑数据分析的时间序列数据挖掘方法应运而生。
拓扑数据分析是一种用拓扑学的方法来研究数据集的技术。
它可以将数据集中的关系表示为拓扑结构,通过研究拓扑结构的特征来揭示数据集中的有用信息。
在时间序列数据挖掘领域,拓扑数据分析方法可以被应用于如下几个方面:首先,拓扑数据分析可以用于时间序列的降维。
传统的时间序列数据挖掘方法往往会将时间序列数据转换为矩阵形式,然后利用矩阵分解等技术进行分析。
然而,这种方法会带来维数灾难问题,导致特征空间的维度过高。
拓扑数据分析方法可以通过构建拓扑结构来描述时间序列的形态,从而将高维时间序列数据降维到低维空间。
这样可以减少计算复杂度,并且保留了时间序列的重要特征。
其次,拓扑数据分析可以用于时间序列的聚类分析。
时间序列数据通常包含大量的噪音和波动,传统的聚类算法往往不能很好地处理这些问题。
拓扑数据分析方法通过研究时间序列数据的拓扑结构来进行聚类分析。
它可以基于拓扑距离度量相似性,并将相似的时间序列数据划分到同一类别中。
这种方法对于识别时间序列中的异常数据和周期性模式非常有效。
第三,拓扑数据分析可以用于时间序列的异常检测。
时间序列数据中的异常值通常反映了某种异常事件的发生。
传统的异常检测方法往往基于统计学的假设,但是在处理复杂和非线性的时间序列数据时效果有限。
拓扑数据分析方法通过构建拓扑结构来描述时间序列的形态,可以发现时间序列中的异常点和异常区域。
这种方法在金融领域的欺诈检测和工业领域的故障检测等方面具有广泛应用前景。
最后,拓扑数据分析可以用于时间序列的预测建模。
传统的时间序列预测方法往往基于统计学的模型,它们对于没有明显趋势和周期性的时间序列数据预测效果较差。
一种基于粗糙集的数据挖掘模型摘要:粗糙集理论是一种处理不确定和不精确问题的数学工具。
运用模拟例子通过不同简化层次的算法导出每个层次上的信息集,最后得到规则集来说明如何建立和运用这种数据挖掘模型。
关键词:粗糙集;数据挖掘;规则提取;算法数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
按照数据挖掘技术所能发现的规律,可以将挖掘任务分成5种:①总结规则挖掘:从指定的数据中,从不同的角度或层次上挖掘出平均值、极小值、极大值、总和、百分比等;②关联规则挖掘:从数据库中挖掘出满足一定条件的依赖性关系;③分类规则挖掘:在已知训练集的特征和分类结果的基础上,为每一种类别找到一个合理的描述或模型;④聚类规则挖掘:客观地按被处理对象的特征分类,将有相同特征的对象归为一类;⑤预测及趋势性规则挖掘:对数据进行分类或回归分析,或对数据将来的发展进行估计。
粗糙集(Rough Set)理论是由波兰数学家Z.Pawlak于1982年提出的一种处理不确定性问题的数学工具。
所谓粗糙集方法,是基于一个机构(或一组机构)关于一些现实的大量数据信息,以对观察和测量所得数据进行分类的能力为基础,从中发现推理知识和分辨系统的某些特点、过程、对象等。
粗糙集理论不仅为信息科学和认知科学提供了新的科学逻辑和研究方法,而且为智能信息处理提供了有效的处理技术。
粗糙集理论运用于数据挖掘中所带来的优点有以下几方面:①不需要数据集合之外的任何先验知识,仅利用数据本身所提供的信息;②可以从不同的抽象层次来对数据进行建模和分析,以更好地揭示数据间的依赖关系,发现数据间的规律;③基于集合理论,有效地分析和处理不精确、不完备和不一致数据,简化输入信息的表达空间;④生成规则简洁准确、易于验证。
1 粗糙集的基本概念决策表信息系统是Rough Set理论的主要研究对象。
基于粗糙集的数据挖掘方法探讨引言:随着全球计算科学的不断发展和进步,许多行业都在应用网络信息过程中遇到数据量和信息量过大的问题,如何进行数据的筛选,从中提取信息的有用部分,是当今数据处理方面所面临的的最重要的一个课题,数据挖掘的方法正是为了满足此领域的要求被提出和发展。
而其中粗糙集的数据挖掘方法也得到了广泛的应用,它应用过程较为高效,且各方面优势都较其他方法明显,在数据挖掘中进行粗糙集的应用不但提高了相关数据分析能力,还能够从中发现很高的实用和商业价值。
本文就基于粗糙集的数据挖掘方法,简单介绍粗糙集和数据挖掘方法的相关概念,并对其中应用的几种简单方法进行阐述。
一、数据挖掘相关概念现代数据分析过程可以很好的完成数据的采集、统计、录入和查询工作,对于发现数据之间的关系和准则则没有系统的手段,这必然导致数据过大但是有用知识不足的现象。
传统上的数据表格和数据软件辅助处理技术,工作效率太低,工作量太大,得到的数据的数据结果并不是较为深层次的数据分析,隐含信息的获取不到位,真正的有效信息也就无法得到。
对数据进行自动筛选,得到隐藏且有用,可以被人们理解的数据是很重要的数据处理手段,被称为数据挖掘,其过程如图1所示。
数据挖掘应用智能数据转化技术,结构化、半结构化或者非结构化的原始数据被人们进行处理,交叉有数字可视化、模式识别、数理统计等其他学科,总结出易于理解,在特定条件下可以区分的知识,最好能用自然语言表达出发现的结果。
粗糙集是数据挖掘方法中比较常见且有效的一种,它用于研究不完整数据和不精确知识的表达、学习归纳的数学分析理论[1]。
它较为简单的算法和极少应用先验信息的优势促使其发展迅速,属性相对简单不断推进着这种方法的发展。
二、粗糙集的发展历程及理论特点介绍2.1 粗糙集发展历程数据是对客观事物的属性、数量、位置或它们之间的相互关系的形式表示,是各种信息的载体。
但是随着科技的发展,对于模糊数据的需求越来越小,分析事物的内在本质,需要对数据进行清晰明确的分析和筛选,含糊概念的研究由来已久,在上个世纪初,gfrgee教授就提出了含糊的概念,它表示在全域内不确定属于某个子集的那部分个体,直到上世纪六十年代左右,很多计算机科学家对含糊概念有进一步的研究,但是突破性的研究不多。
基于粗糙集和神经网络的数据挖掘应用摘要:本论文就是根据电信行业需求,针对电信企业拥有大量详实而且丰富的数据,但是可用有效数据提取困难这一问题。
首先利用粗糙集理论中的差别矩阵方法对电信客户数据进行属性约简,之后采用bp(back propagation)神经网络建立基于粗糙集和神经网络的数据挖掘模型,实现对电信业务系统的客户数据信息进行有效分析和高效提取,并通过matlab实现了仿真模拟。
所建立的模型,减少神经网络的输入层个数、简化了运算次数、缩短了训练时间并提高数据预测的准确度。
abstract: based on the needs of the telecommunications industry, for telecommunications companies which have a large number of detailed and rich data, but it is difficult for the extraction of available valid data. first, this paper carriedout attribute reduction to telecommunications customer data using the difference matrix method of rough set theory, and then established data miningmodel based on rough set and neural network, using bp (back propagation) neural network, to achieve effective analysis and efficient extraction to customer data information of telecommunication services system, and realize simulationby matlab. the established model reduces the number of the input layer of theneural network, and simplifies the number of operations,shortens the training time and improves the accuracy of the data forecast.关键词:粗糙集;bp神经网络;数据挖掘key words: rough sets;bp neural network;data mining 中图分类号:tp39 文献标识码:a 文章编号:1006-4311(2013)07-0185-020 引言数据挖掘(data mining—dm)[1]就是从海量的、不完整的、杂乱无规律的、模棱两可的、随机的数据库中,提取隐含的、人们无法通过表面现象观察到的、但又对人们提供决策支持具有重要意义的信息和知识的过程。
基于Rough集的数据挖掘在高职院校就业指导决策分析中的应用本文对高职学生的就业情况进行了调研,并利用Rough集对调研结果进行数据挖掘,得出了提高学生就业率及就业质量的规则,为我们对高职学生进行就业指导提供一定的参考。
标签:Rough集;高职院校;就业指导一、课题研究背景Rough集理论是一种数据分析理论,是由波兰数学家Z.Pawlak等人提出的,是对不完整数据及不精确知识进行表达、学习、归纳的一种方法,又称粗糙集理论。
现在,Rough集理论主要应用在知识发现、机器学习、决策分析、医院诊断、数据挖掘等领域。
它的优点是不需要先验知识便可从数据或经验中获得知识,生成决策规则。
前几年,在国家政策的扶持下,高职院校像雨后春笋一样迅速发展起来,规模不断扩大、数量不断增加,毕业生人数也随之剧增,而社会就业岗位是有限的,所以近年来,毕业生的就业压力在不断增加。
如何提高毕业生的就业率、就业质量,是每个高校领导非常关注的问题。
只有把学生的就业问题解决好,才能在生源紧张的当下,使学校的招生畅通无阻,使学校的发展蓬勃向上。
虽然高职院校毕业生人数在不断增加,可真正能胜任工作岗位,满足用人单位需求的却并不多,这就出现了学生找不到合适的工作,用人单位找不到合适的员工的矛盾。
怎么来解决这一矛盾体,是上至国家领导,下到学校教师都面临的现实问题,也是对学校就业指导的一个挑战。
哪些因素影响着学生的就业质量,他们的权值有多大,只有掌握了这些情况,我们在日常的教学教育中才能有的放矢,才能对症下药,才能解决关键问题。
利用传统的方法,也能了解一点,但主观性太大,又没有科学的依据。
本课题正是在这样的问题趋动下展开的,本课题在充分调研的基础上,对就业数据进行收集、整理、分析、提取,然后利用Rough集进行数据挖掘,最后生成规则。
得到哪几项指标对就业质量影响较大,具体权重多少,从而为以后教育、教学、就业指导、职业生涯规划等提供科学的依据,最终提升学生素质、提高学生就业质量、增强学校竞争力,更好地体现高职院校“以就业为导向”的办学理念。
Time Series Data Mining Strategy Based on Rough
Set
作者: 马志锋[1];邢汉承[2];郑晓妹[3]
作者机构: 深圳中兴通讯股份有限公司上海第二研究所,[1] 东南大学计算机科学与工程系,
[2] 南京航空航天大学计算机科学与工程系,[3]
出版物刊名: 系统工程理论与实践
页码: 22-29页
主题词: 数据挖掘;Rough;时间序列;数据库;知识发现
摘要:阐述了基于Rough集的时间序列数据的挖掘策略,重点讨论了时间序列数据中的时序与非时序信息的获取问题.实践证明,Rough集理论作为一种处理模糊和不确定性问题的有效工具,对于时间序列数据的挖掘同样也是有效的.文章强调了时间序列数据中的多方面信息,包括原始数据及其变化量、变化率所提供的信息.。
2001年12月系统工程理论与实践第12期 文章编号:100026788(2001)1220022208一种基于Rough集的时间序列数据挖掘策略马志锋1,邢汉承2,郑晓妹3(1.深圳中兴通讯股份有限公司上海第二研究所,上海200233;2.东南大学计算机科学与工程系,江苏南京210096;3.南京航空航天大学计算机科学与工程系,江苏南京210016)摘要: 阐述了基于Rough集的时间序列数据的挖掘策略,重点讨论了时间序列数据中的时序与非时序信息的获取问题.实践证明,Rough集理论作为一种处理模糊和不确定性问题的有效工具,对于时间序列数据的挖掘同样也是有效的.文章强调了时间序列数据中的多方面信息,包括原始数据及其变化量、变化率所提供的信息.关键词: 数据挖掘;Rough集;时间序列数据中图分类号: T P18 文献标识码: A αT i m e Series D ata M in ing Strategy Based on Rough Set M A Zh i2feng1,X I N G H an2cheng2,ZH EN G X iao2m ei3(1.Shangh i N o.2R esearch In stitu te,ZT E Co rpo rati on,Shanghai200233,Ch ina;2.Sou theast U n iversity,N an jing210096,Ch ina;3.N an jing U n iversity of A eronau tics and A stronau tics,N an jing 210016,Ch ina)Abstract T h is paper p ropo ses ti m e series data m in ing strategy based on a rough set.Itm ain ly discu sses the acqu isiti on of ti m e2dependen t and ti m e2independen t info rm ati onfrom ti m e series data.P ractice p roves that rough set theo ry,as an effective too l to dealw ith vagueness and uncertain ty,is also effective to the ti m e series data m in ing.D ifferen t info rm ati on,such as info rm ati on from o riginal data,variati on and varian trati o of data,is emphasized in the m in ing p rocess of ti m e series data.Keywords data m in ing;rough sets;ti m e series data1 引言随着当今数据采集和存储技术的不断发展,数据库中存储的数据量急剧增加,数据库的规模也因此变得越来越庞大.人们发现自己已不再是缺少信息,而是被信息海洋所淹没.如何分析数据并从中挖掘出有用的知识是一项既费时又难于进行的工作.通常,对于特定领域的数据挖掘(data m in ing)需要有一定的背景领域知识,并在此基础上采用某种有效工具从数据集中获取更多的隐含的、先前未知的并具有潜在价值的知识.这种挖掘在工业过程控制、医疗诊断、股票分析、水文气象等领域尤显重要,因为这些领域的数据有一个共同的特点,即它们都记录了某个领域的时间序列(ti m e series)信息,且信息量特别巨大,如果没有合适的挖掘手段则势必给以后的决策和新数据的预测带来困难.信息系统中时间序列数据的出现使得有必要针对这一特殊数据类型的挖掘给出相应的策略,以便发现在某段时间内连续记录的某属性序列值的变化规律,以及它的变化给其它属性值所带来的影响.2 数据挖掘新方法:Rough集理论方法Rough集(Rough Set,R S)理论是一种新型的处理不完整性和不确定性问题的数学工具,能根据人们α收稿日期:2000204214对所获取数据的已有认识,有效地分析和处理各种不完备信息,从中发现隐含的知识并揭示出其中的潜在规律.该理论是由波兰华沙理工大学著名逻辑学家Z Paw lak 于1982年首次提出的[1].此后,在Z Paw lak 本人和其他研究者们的共同努力下,对R S 理论进行了丰富和完善,于1991年出版了第一部关于R S 的专著[2],系统全面地阐述了有关概念及其应用情况,从而奠定了R S 理论的数学基础.近些年来,随着R S 理论的研究深入,它已被广泛地应用于数据库中的知识发现、智能控制、机器学习、决策分析、专家系统以及模式识别等众多领域[3~7].2.1 RS 基本概念R S 理论认为知识是一种将对象进行分类能力的体现.领域知识即是为描述论域中各对象而设置的属性的取值之间的不分明性(indiscern ib ility ),例如,在医疗诊断数据库中的“体温”属性可取值“正常”、“发烧”、“37℃”、“40℃”、“41℃”等,根据医疗常识有“正常”与“37℃”和“发烧”与“40℃”、“41℃”为不可区分.这里不分明关系可以是由相似关系(si m ilarity relati on )来描述的,与传统R S 理论中的等价关系(equ ivalencerelati on )有所不同[3],前者满足自反性(reflex ive )、对称性(symm etric ),而后者则满足自反性、对称性、传递性(tran sitive ).通过数据采集所获取的数据是关于论域中各对象的区别信息,人们对于对象的认识即表现为能够将它们划分为不同的类别,R S 理论就是采用确定的方法在无需先验知识的前提下如实地提取经验数据间的相互依赖关系,从而最终得到智能决策规则.由此可见不分明关系乃是R S 理论的最基本的概念,它体现了知识的颗粒状态.这里值得一提的是,R S 理论与目前研究较多的Fuzzy Sets 理论对于不确定事物的描述既有相似之处,又是相互补充、相互区别的.模糊性在某种程度上属于自然语言的范畴,更富有语义的可适应性,表示集合具有某种平滑的边界,粗糙性则是集合中元素的不分明性.若借用图象处理中的概念来直观地形容便是,R S 为图象象素的大小,而Fuzzy Sets 则指象素中多个灰度级别的存在.R S 方法的基本思想是从信息系统(info rm ati on system )或决策表(decisi on tab le )中的数据提取出简洁易懂且有效的决策规则,规则常被用作对未知新对象的预测和辅助决策.假设给定一个信息系统IS =〈U ,A ,V ,Θ〉,其中U ≠ 为有限的论域集合,A 为IS 中的属性集合,V =∪a ∈AV a 为属性值的集合,Θ确定了一个信息函数U ×A →V ,它将属性的值分配到信息表中各行的相应属性中.D T =〈U ,A ∪{d },V ,Θ〉为一种特殊形式的信息表,称作决策表,其中d |A 为决策属性,相应地A 为条件属性.若X ΑU 为所要分辨的概念,R 为U 上的不分明关系,则二元组(U ,R )构成了一个近似空间(app rox i m ati on space ).[x ]R 表示U 中根据R 的认识,所有与x 不分明的对象的集合,称作x 的不分明类,其中x ∈U 为U 中的一个对象.R S 理论中的模糊性事实上是一种基于边界的概念,即一个模糊的概念具有模糊的不可被明确划分的边界.为刻划这种模糊性,每个不精确概念由一对称为下近似集与上近似集的精确概念来描述.R -X ={x ∈U [x ]R ΑX }=∪{[x ]R [x ]R ΑX }称为集合X 关于R 的下近似集(low er app rox i m ati on ),R -X 包含了所有可确切分类到X 的对象.R +X ={x ∈U [x ]R ∩X ≠ }=∪{[x ]R x ∈X }定义为X 关于R 的上近似集(upper app rox i m ati on ),它包括了所有那些可能属于X 的对象.上近似与下近似的差就是概念X 的边界区域,它由不能肯定分类到X 或其补集中的所有对象组成.显然若边界非空,则集合X 就是一个模糊概念.R S 理论中还有两个极其重要的概念,这就是约简(reduct )和核(co re ).约简是IS 或D T 中,在保证正确分类的前提下去除多余属性后的最小条件属性集,计算约简是一个典型的N P 完全问题,其复杂性随对象的增多而呈指数级增长.核为影响分类的重要属性,所有不可缺少的(indispen sab le )属性构成了核,也就是说核是由所有约简的交集所组成的.2.2 基于RS 的数据挖掘数据挖掘是数据库中知识发现(know ledge discovery in databases ,KDD )的一个重要步骤[7~9],它的处理过程如图1可分为:数据选择、数据的净化和预处理、数据约简与映射、数据挖掘任务与算法选择、对发现模式的解释.R S 理论的核心是提供了一套严格的数学方法,对于具有噪声、不完全或者不精确的数据在无需任何附加信息的条件下对其进行约简以及发现数据之间的依赖关系,因此可以认为,基于R S 的KDD 系统与其它方法相对比具有其独特的优势.近些年来,随着R S 理论在国际范围内的深入研究,它在KDD 中的应用也取得了较大的进展,基于R S 32第12期一种基于Rough 集的时间序列数据挖掘策略图1 数据挖掘的处理过程理论的KDD 方法已成为主流方法之一.现已研制成功的具有代表性的基于R S 的KDD 系统有:波兰Poznan 大学开发的Rough DA S &Rough C lass 、加拿大R egina 大学开发的KDD 2R 、美国Kan sas 大学研制的L ER S 、商业软件技术公司R EDU CT &L obbe 开发的D atalogic 、挪威理工大学研制的Ro setta 及RoughEnough 等.以上系统对于时间序列数据的挖掘都没有作特别的处理.典型的基于R S 的数据挖掘方法一般包括数据采集、预处理、数据约简、规则生成、决策分类与预测等步骤[7],如图2所示.图2 基于R S 的数据挖掘数据采集将原始数据库中的数据转换成R S 所能理解的信息系统或决策表的形式,这依赖于数据库中42系统工程理论与实践2001年12月数据的存放格式,有些情况下可以完全或部分地指定数据库中的某些属性和对象来导入系统,另一些情况,譬如时间序列数据则需加上时间标志并确定采样频率.为了适应R S 对数据进一步处理的需要,预处理过程需要对不完整数据进行适当的补充,对时间序列数据作某种特殊的映射处理,同时对连续数据作离散化处理等.数据约简过程是所有步骤中最为关键的部分,它凝聚了R S 理论对数据进行分析和约简的精髓.规则生成是指根据R S 计算出的约简生成相应的规则集合,另外由于数据不确定性的存在,可能导致不一致规则(incon sisten t ru le )的出现,通常可以给每条规则赋予一定的信任测度和频率测度.决策分类是对未知新对象的分类过程,由于新对象来自于规则提取的数据之外,此时必定会遇到规则集合未曾考虑到的情形,因此如何选择一条或若干条最为接近的规则来近似分类新对象是本步骤的主要内容.对于时间序列数据,更重要的还有预测趋势问题.3 时间序列数据的挖掘很多数据是依赖于时间的,例如银行交易、股市行情、病人医疗记录、工业过程控制等数据都是与时间紧密相关的.然而这些数据既有其依赖于时间的一面,同时也存在着非时间依赖性的另一面.只有把握好各方面的信息,才能对未知新对象的分类以及数据的未来走向做到心中有数.3.1 时间序列数据表达 时间序列数据是指一系列数据可依赖于时间进行排序[10,11],通常它可有两种表达形式:①事件表达(信息由某个时间点或时间区间所发生的事件来体现);②状态表达(信息主要由状态的变化来记录,事件使得对象的状态发生了改变).这两种表达形式的区别在于它们所记录信息的侧重点不同,前者为对于某时刻事件的描述,后者则以状态的演变次序为可能世界的可到达关系,需要记录的则是对于状态的描述.图3通过一个工业炉温控制数据给予了直观的说明.两种类型的时间序列数据反映到信息表 决策表的处理上本质上是一致的.图3 采用事件(a )与状态(b )描述的时间序列数据定义1 事件e 是一个二元序偶(E ,t ),其中E 是事件e 的类型描述,t >0是e 发生的时间戳.定义2 状态s i =〈s i -1,t 〉表示在t >0时刻,由于某事件的发生使得状态s i -1发生了变化,其中s i -1为状态s i -1的描述.3.2 基于RS 的时间序列挖掘表1 2×5移动窗口示例t 1,1t 1,2t 1,3t 1,4t 1,5t 2,1t 2,2t 2,3t 2,4t 2,5传统R S 最初是被设计成对于关系数据库表中数据的处理,而这些表通常并未考虑数据对于时间的依赖性.事实上,序列数据可以被看成是对现实世界在某个时刻的快照.文献[11]与[12]曾对时间序列数据的挖掘作了预测分析,它们所基于的是移动窗口技术(mob ile w indow ).其主要思想是通过在数据序列中移动窗口,只有落入窗口内的数据的时间依赖性才被列入考察范围,这样经过简单计算生成新的条件与决策属性标记,便可将时间序列数据转换成R S 对象.例如,假设有一个窗口为2×5,如表1所示。