数据仓库与数据挖掘论文
- 格式:doc
- 大小:32.00 KB
- 文档页数:6
数据挖掘毕业论文(bì yè lùn wén)题目本文关键词:毕业论文,题目,数据挖掘数据挖掘毕业论文题目本文简介:数据挖掘技术已成为计算机领域的一个新的研究热点,其应用也浸透到了其他各大领域。
以下是我们整理的数据挖掘毕业论文题目,希望对你有用。
数据挖掘毕业论文题目一:1、基于数据挖掘的方剂配伍规律研究方法讨论2、海量(hǎiliàng)流数据挖掘相关问题研究3、基于MapReduce的大规模数据挖掘数据挖掘毕业论文(bì yè lùn wén)题目本文内容:数据挖掘技术(jìshù)已成为计算机领域的一个新的研究热点,其应用也浸透到了其他各大领域。
以下是我们整理的数据挖掘毕业论文题目,希望对你有用。
数据挖掘毕业论文(bì yè lùn wén)题目一:1、基于数据挖掘的方剂配伍规律研究方法讨论2、海量流数据挖掘相关问题研究3、基于MapReduce的大规模数据挖掘技术研究4、地质环境数据仓库联机分析处理与数据挖掘研究5、面向属性与关系的隐私保护数据挖掘理论研究6、基于多目的决策的数据挖掘方法评估与应用7、基于数据挖掘的煤矿平安可视化管理研究8、基于大数据挖掘的药品不良反响知识整合与利用研究9、基于动态数据挖掘的电站热力系统运行优化方法研究10、基于支持向量机的空间数据挖掘方法及其在旅游地理经济分析中的应用11、挪动对象轨迹数据挖掘方法研究12、基于数据挖掘的本钱管理方法研究13、基于数据挖掘技术的财务风险分析与预警研究14、面向交通效劳的多源挪动轨迹数据挖掘与多尺度居民活动的知识发现15、面向电信领域的数据挖掘关键技术研究16、面向准确营销基于数据挖掘的3G用户行为模型及实证研究17、隐私保护的数据挖掘算法研究18、造纸过程能源管理系统中数据挖掘与能耗预测方法的研究19、基于数据挖掘的甲肝医疗费用影响因素与控制策略研究20、基于特征加权与特征选择的数据挖掘算法研究21、基于数据挖掘的单纯冠心病与冠心病合并糖尿病的证治规律比照研究22、基于数理统计与数据挖掘的?伤寒论?温里法类方方证辨治规律研究23、大规模数据集高效数据挖掘算法研究24、半构造化数据挖掘假设干问题研究25、基于数据挖掘与信息交融的瓦斯灾害预测方法研究26、基于数据挖掘技术的模糊推理系统设计27、基于CER形式的针灸干预颈椎病颈痛疗效数据挖掘研究28、时间序列(xùliè)数据挖掘中的特征表示与相似性度量方法研究29、可视化数据挖掘技术在城市地下空间GIS中的应用(yìngyòng)研究30、基于多目的决策的数据挖掘模型(móxíng)选择研究31、银行(yínháng)数据挖掘的运用及效用研究。
数据仓库、OLAP与数据挖掘关系概述 摘要:数据仓库、OLAP与数据挖掘是当今的技术热点,数据仓库是一种解决数据使用的高效技术,OLAP则将数据通过多维视角和多种层次向用户进行多方式的呈现,数据挖掘为之提供了更好的决策支持和服务,同时促进了数据仓库技术的发展,本文简单介绍了这三者的概念和应用。 关键词:数据仓库 OLAP 数据挖掘
一、数据仓库 数据仓库是一种资讯系统的资料储存理论,此理论强调利用某些特殊资料储存方式,让所包含的资料,特别有利于分析处理,以产生有价值的资讯并依此作决策。利用数据仓库方式所存放的资料,具有一但存入,便不随时间而更动的特性,同时存入的资料必定包含时间属性,通常一个数据仓库皆会含有大量的历史性资料,并利用特定分析方式,自其中发掘出特定资讯。 1.1 数据仓库的特征 (1)数据仓库的数据是面向主题的。主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻划各个分析对象所涉及的企业的各项数据,以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有 更高的数据抽象级别。 (2)数据仓库的数据是集成的 。数据仓库的数据是从原有的分散的数据库数据抽取来的。数据仓库的每一个主题所对应的源数据在原有的各分散数据库中有许多重复和不一致的地方,且来源于不同的联机系统的数据都和不同的应用逻辑捆绑在一起;数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库之前,必然要经过统一与综合,这一步是数据仓库建设中最关键、最复杂的一步。 (3)数据仓库的数据是不可更新的。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据,而不是联机处理的数据。 (4)数据仓库的数据是随时间不断变化的。数据仓库的用户进行分析处理时是不进行数据更新操作的。但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。 1.2 数据仓库的类型 数据仓库的类型根据数据仓库的数据类型和它们所解决的企业问题范围,一般可将数据仓库分为下列3种类型:企业数据仓库(EDW)、操作型数据库(ODS)和数据集市(Data Marts)。 (1)企业数据仓库为通用数据仓库,它既含有大量详细的数据,也含有大量累赘的或聚集的数据,这些数据具有不易改变性和面向历史性。此种数据仓库被采用进行涵盖多种企业领域上的战略或战术上的决策。 (2)操作型数据库既可以被用来针对工作数据做决策支持,又可用做将数据加载到数据仓库时的过度区域。与EDW相比,ODS是面向主题和面向综合的,易变的,仅含有目前的、详细的数据,不含有累计的、历史性的数据。 (3)数据集市是为了特定的应用目的或应用范围,从而数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据。几组数据集市可以组成一个EDW。 二、OLAP技术 联机分析处理(On-Line Analytical Processing,简称OLAP),是一套以多维度方式分析数据,而能弹性地提供积存上钻(Roll-up)、下钻(Drill-down)、和透视分析(pivot)等操作,呈现集成性决策信息的方法,多用于决策支持系统、商务智能或数据仓库。其主要的功能,在于方便大规模数据分析及统计计算,对决策提供参考和支持。与之相区别的是联机交易处理(OLTP)。 OLAP需以大量历史数据为基础配合上时间点的差异并对多维度及汇整型的信息进行复杂的分析。OLAP需要用户有主观的信息需求定义,因此系统效率较佳。 在实际应用中用广义和狭义两种不同的理解。广义上的理解与字面意思相同,即针对于OLTP而言,泛指一切不对数据进行输入等事务性处理,而基于已有数据进行分析的方法。但更多的情况下OLAP是被理解为其狭义上的含义,即与多维分析相关,基于立方体(CUBE)计算而进行的分析。 2.1 OLAP的多维分析特性 OLAP具有两个重要的特点:一是在线性,体现为对用户请求的快速响应和交互式操作;二是多维分析,也就是说,OLAP展现在用户面前的是一个多维视图,使用者可以对其进行各种多维分析操作。下面我们具体介绍OLAP的多维分析特性。 在实际的决策制定过程中,决策者需要的不是某一指标单一的值,而是希望从多个角度或者从不同的考察范围来观察某一指标或多个指标,通过分析对比,从而找出这些指标间隐藏的内在关系,并预测这些指标的发展趋势,即决策所需的数据总是和一些分析角度和分析指标有关。OLAP的主要工作就是将数据仓库中的数据转换到多维数据结构中,并且对上述多维数据结构执行有效且非常复杂的多维查询。 2.2 OLAP的多维分析操作 多维分析操作是指对以多维形式组织起来的数据采取切片、切块、旋转等各种分析操作,以求剖析数据、使最终用户能从多个角度、多个侧面去观察数据库中的数据、从而深入地了解包含在数据中的信息、内涵。多维分析的基本操作有: (1)切片操作:是在给定的多维数据集的某一个维上选定一维成员,从而得到一个多维数据子集的动作。如果有(维1,维2,„„,维i,„„,维n,度量)多维数据集,对维i选定了某个维成员,那么(维1,维2,„„,维i成员,„„,维n,度量)就是多维数据集(维1,维2,„„,维i,„„,维n,度量)在维i上的一个切片。 (2)切块操作:在多维数据集的某一维上选定某一区间的维成员的操作称为切块,即限制多维数据集的某一维的取值区间。 (3)旋转是一种目视操作,它转动多维数据集的视角,提供数据的替代表示。旋转操作可以将多维数据集的不同维进行交换显示,从而使用户更加直观地观察数据集中不同维之间的关系。 (4)钻取分为向下钻取和向上钻取。下钻操作是由不太详细的高层次汇总数据分解为更详细的低层次数据。上钻是下钻的逆操作,它是通过一个维的概念分层向上攀升,或者通过维归约,在多维数据集上进行聚集。 (5)在OLAP分析操作中,还有“钻过”(drill-across)和“钻透”(drill-through)等。“钻过”涉及多个事实表的查询;“钻透”操作使用关系SQL机制,钻到多维数据集的底层,到后端关系表。 (6)其它的OLAP操作还包括计算统计表中的最高或最低N项、平均值、移动平均值、增长率、各类百分比等。 三、数据挖掘 数据挖掘(Data mining),又译为资料探勘、数据挖掘、数据采矿。它是数据库知识发现(Knowledge-Discovery in Databases,缩写:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 3.1 数据挖掘与传统数据分析的区别 数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。 尽管通常数据挖掘应用于数据分析,但是像人工智能一样,它也是一个具有丰富含义的词汇,可用于不同的领域。 它与KDD的关系是:KDD是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程;而数据挖掘是KDD通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。 3.2 数据挖掘的分析方法 数据挖掘利用的技术越多,得出的结果精确性就越高。原因很简单,对于某一种技术不适用的问题,其它方法即可能奏效,这主要取决于问题的类型以及数据的类型和规模。数据挖掘方法有多种,其中比较典型的有关联分析、序列模式分析、分类分析、聚类分析等。 (1)关联分析,即利用关联规则进行数据挖掘。在数据挖掘研究领域,对于关联分析的研究开展得比较深入,人们提出了多种关联规则的挖掘算法,如APRIORI、STEM、AIS、DHP等算法。关联分析的目的是挖掘隐藏在数据间的相互关系,它能发现数据库中形如“90%的顾客在一次购买活动中购买商品A的同时购买商品B”之类的知识。 (2)序列模式分析和关联分析相似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序列关系。它能发现数据库中形如“在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A→B→C出现的频度较高”之类的知识,序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。 (3)分类分析,设有一个数据库和一组具有不同特征的标记,该数据库中的每一个记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。目前已有多种分类分析模型得到应用,其中几种典型模型是线性回归模型、决策树模型、基本规则模型和神经网络模型。 (4) 聚类分析与分类分析不同,聚类分析输入的是一组未分类记录,并且这些记录应分成几类事先也不知道。聚类分析就是通过分析数据库中的记录数据,根据一定的分类规则,合理地划分记录集合,确定每个记录所在类别。它所采用的分类规则是由聚类分析工具决定的。聚类分析的方法很多,其中包括系统聚类法、分解法、加入法、动态聚类法、模糊聚类法、运筹方法等。采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果。 四、 数据仓库、OLAP与数据挖掘的关系 数据仓库将来自于各种数据源的数据,根据不同的主题进行存储,并对原始数据进行抽取、转换和加载等一系列筛选和清理工作。OLAP则将数据通过多维视角和多种层次向用户进行多方式的呈现。数据挖掘则应用不同的算法,向用户揭示数据间的规律性,从而辅助商业决策。
暨南大学硕士学位论文暨南大学硕士学位论文题名(中英对照):基于数据挖掘的分类和聚类算法研究及R语言实现A Study on Algorithm of Classification and ClusterBased on Data Mining and Realization by R programe作者姓名:方匡南指导教师姓名王斌会博士教授及学位、职称:学科、专业名称:经济学统计学论文提交日期:2007 年 5 月论文答辩日期:2007 年 6 月答辩委员会主席:论文评阅人:学位授予单位和日期:1基于数据挖掘的分类和聚类算法研究及R语言实现独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。
据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得暨南大学或其他教育机构的学位或证书而使用过的材料。
与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。
学位论文作者签名:签字日期:年月日学位论文版权使用授权书本学位论文作者完全了解暨南大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。
本人授权暨南大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。
(保密的学位论文在解密后适用本授权书)学位论文作者签名:导师签名:签字日期:年月日签字日期:年月日学位论文作者毕业后去向:工作单位:电话:通讯地址:邮编:2暨南大学硕士学位论文摘要数据挖掘是个新兴的研究领域,涉及到统计学、数据库、机器学习等众多学科,正以其强大的功能和广泛的应用受到高度的关注。
数据挖掘的方法众多,其中分类、聚类方法是数据挖掘应用最多的方法,而算法研究是数据挖掘研究领域的重中之重,算法的好坏直接影响到数据挖掘的效率,所以本文主要深入系统地研究分类、聚类算法。
数据科学与大数据分析专业毕业论文研究方向探索数据科学与大数据分析是当今信息时代最重要的学科之一。
随着信息技术的迅速发展和互联网的普及,越来越多的数据被采集并储存起来,这为我们研究和探索大数据提供了广阔的空间。
而在这个领域中,选择一个合适的毕业论文研究方向是至关重要的。
本文将探索数据科学与大数据分析专业的毕业论文研究方向,为学生提供一些有益的参考。
一、数据挖掘与机器学习数据挖掘与机器学习是数据科学与大数据分析专业的核心内容。
在这个方向下,研究者可以探索如何从大数据集中提取与分析有价值的信息。
通过应用各种机器学习算法和模型,可以对数据进行分类、回归、聚类等任务。
此外,深度学习和神经网络也是当前研究的热点,可以用于处理具有复杂结构的数据,如图像、语音等。
将这些技术应用于某个特定领域,例如金融、医疗等,也是一种有意义的选择。
二、大数据管理与数据仓库大数据的存储与管理是数据科学与大数据分析中一个关键且具有挑战性的问题。
在这个方向下,研究者可以考虑如何构建高效的数据仓库以满足大规模数据存储和处理的需求。
面对海量数据,如何进行数据清洗、去重、存储和查询等操作也是一个亟待解决的问题。
此外,可以研究如何设计合适的数据索引和优化算法,以提高数据访问和处理的效率。
三、大数据可视化与数据分析大数据的分析结果对决策者和业务人员具有重要意义。
因此,将数据进行可视化是一种非常有效的方式。
在这个方向下,研究者可以探索如何设计和实现交互式的数据可视化工具,使得用户可以通过图表、图形和动画等形式更好地理解和解释数据。
此外,可以研究如何利用数据分析方法和算法,从可视化结果中发现隐藏的模式、趋势和异常信息,并为决策提供支持。
四、大数据安全与隐私保护随着大数据的广泛应用,数据安全和隐私保护问题日益突出。
在这个方向下,研究者可以探讨如何使用密码学、隐私保护算法和技术,保障大数据的安全性和隐私性。
另外,可以研究如何建立有效的数据访问控制和权限管理机制,以确保只有授权人员能够访问和操作数据。
潘怡编著《数据仓库与数据挖掘》课程实验指导书长沙学院计算机科学与技术系2009年9月前言本书是《数据仓库与数据挖掘》课程及《数据分析与挖掘》的实验指导书。
全书分为三个部分,第一部分为实验内容对每个实验的实验目的、实验类型、实验学时、实验原理及知识点、实验环境(硬件环境、软件环境)和实验内容及步骤进行简单介绍,第二部分为实验指导对每个实验的实验方法,实验步骤及补充的实验知识进行详细介绍,第三部分为实验报告。
本实践课程主要介绍数据仓库的工作机理及其构建过程,。
要求学生熟练使用数据库管理系统MS SQL Server,掌握典型的数据仓库系统及其开发工具的使用,理解数据挖掘的工作原理与流程,掌握典型数据挖掘技术及其工具的使用方法,熟悉SQL SERVER BI DE V集成挖掘环境。
要求学生实验前认真准备,实验后提供实验报告,给出详细设计方法以及设计依据。
实验报告的格式应采用统一封面,统一的实验报告纸。
封面应包括:课程名称、实验序号、名称、专业、班级、姓名、同组实验者、实验时间。
实验报告内容应包括:实验名称、目的、内容、实验步骤、实验记录、数据处理(或原理论证、或实验现象描述、或结构说明等)。
目录第一部分实验内容实验1:实践SQL Server数据多维分析环境实验2:实践关联规则挖掘方法实验3:实践决策树挖掘方法实验4:实践聚类挖掘方法实验5:实践神经网络挖掘方法第二部分实验指导实验1:实践SQL Server数据多维分析环境实验2:实践关联规则挖掘方法实验3:实践决策树挖掘方法实验4:实践聚类挖掘方法实验5:实践神经网络挖掘方法第三部分实验报告第一部分实验内容实验1:实践SQL Server数据多维分析环境一.实验目的学习和掌握Sql Server 2005 Analysis Services 工具集,包括如何在BI Development Studio 的Analysis Services 项目中定义数据源、数据源视图、维度、属性、层次结构和多维数据集,如何查看多维数据集和维度,理解并掌握OLAP分析的基本过程与方法。
本科生毕业论文题目基于数据挖掘的管理会计的研究摘要数据挖掘技术的出现,大数据时代的到来,企业在决策管理、整体经营、投资开发、总体竞争力等方面都面临着各个机遇和挑战。
风险管理成本等综合成本的加剧,低利润率和低增长率已经成为经济的新常态,把数据挖掘运用在管理会计之中便成为了企业经营创新的重要组成部分。
因此,数据挖掘和管理会计的有机结合是非常重要的。
本文分析了大数据在新时代背景下对管理会计的重大影响,以及提供了将大数据应用于管理会计的具体方法措施。
关键词:大数据时代,数据挖掘技术,管理会计,机遇与挑战AbstractWith the emergence of data mining technology and the advent of the era of big data, enterprises are faced with various opportunities and challenges in terms of decision-making management, overall operation, investment and development, and overall competitiveness. With the aggravation of comprehensive costs such as risk management cost, low profit rate and low growth rate have become the new normal of the economy, and the application of data mining in management accounting has become an important part of enterprise operation innovation. Therefore, how to achieve the organic combination of data mining and management accounting is very important. This paper analyzes the significant impact of big data on management accounting in the new era, and provides specific methods and measures to apply big data to management accounting.Key words: Big data era, data mining technology, management accounting, opportunities and challenges目录摘要 (I)Abstract (I)一、绪论 (1)(一)研究背景及意义 (1)1、研究背景 (1)2、研究意义 (1)(二)研究内容和方法 (2)1、研究内容 (2)2、研究方法 (2)二、理论基础 (2)(一)大数据的概述 (2)1、大数据的概念 (2)2、大数据的特征 (3)(二)数据挖掘的概述 (3)1、数据挖掘的概念 (3)2、数据挖掘的方法 (3)3、数据挖掘的流程 (4)(三)管理会计的概述 (4)1、管理会计的概念 (4)2、管理会计的发展 (4)3、大数据下的管理会计 (4)三、在管理会计中应用大数据技术的可行性分析 (5)(一)目前的应用情况 (5)(二)可行性分析 (6)1、技术的可行性 (6)2、经济的可行性 (6)四、大数据技术在管理会计中应用问题分析 (6)(一)大数据本身存在着哪些隐患 (6)(二)当前企业管理会计中的突出问题 (7)(三)大数据下管理会计的机遇 (7)1、全面预算发展的机遇 (7)2、管理决策发展的机遇 (7)3、绩效考核发展的机遇 (7)4、企业运营发展的机遇 (8)5、企业竞争力的机遇 (8)(四)大数据下管理会计面临哪些挑战 (8)1、针对管理会计理论体系的研究还不足,有待深入 (8)2、企业对大数据认识不足、应用投入不足 (8)3、掌握大数据技术的管理会计人才匮乏 (8)4、信息存储空间缺乏,数据分析技术不强 (9)5、管理会计信息安全无保障 (9)(五)新时代下对管理会计的意见措施 (9)1、建立符合中国国情的管理会计理论体系 (9)2、全面加强对于管理会计的重视程度 (9)3、注重专业的会计人才培养 (9)4、构建云计算的会计信息平台 (10)5、加强管理会计信息的安全性 (10)五、结论与不足 (10)(一)结论 (10)(二)本文研究中的不足 (10)致谢 (11)参考文献 (12)一、绪论(一)研究背景及意义1、研究背景经济一体化的全球趋势,互联网技术的逐步进步,人们可以更加迅速地获取各种数据和信息,世界已经连接起来,并且形成了一个巨大的网络。
基于知识网格的分布式数据挖掘摘要:本文在讨论知识网格体系结构的基础上,还讨论了知识网格是如何用于支持分布式数据挖掘。
关键词:分布式数据挖掘;网格计算;网格服务; web服务资源框架中图分类号:tp393.01 文献标识码:a 文章编号:1006-3315(2011)3-172-001一、前言随着科学、工业、商业等领域的发展,出现了大量的tb级甚至pb级的大规模数据集,在这些数据集中包含了大量的对生活、生产、科学研究等具有决策性作用的有用信息,那么如何从这些海量数据中提取信息是人们面临的一个重大的问题。
显然,原先的集中式数据挖掘模式已无法满足人们的需求,这就需要探索出面向分布式数据挖掘的体系结构和工具。
二、知识网格知识网格代表了数据网格的发展,为网格中分布式数据挖掘和抽取提供了高级工具和技术。
知识网格是设计和实现分布式高性能知识发现应用环境的体系架构,用于执行网格中的数据挖掘,进行科学发现,发现有用的商业信息。
三、知识网格体系结构知识网格体系结构是在globus toolkits网格工具集和服务的基础上定义的。
在globus中,知识网格集成局部服务以提供全局服务。
知识网格体系结构保证了数据挖掘工具和底层的网格机制和数据网格服务兼容。
知识网格服务由两层构成:核心知识网格层和高级知识网格层。
1.核心知识网格层1.1知识目录服务(kds)。
该服务扩展了基本的globus元数据目录服务(mds),负责维护知识网格中数据和工具的描述。
要维护从一个特定数据仓库中挖掘出来的数据是不切实际的,但是维护一个已发现知识的数据库是非常有用的。
这些信息被存放在知识仓库(kbr)中,但是描述它们的元数据仍由kds管理。
kds不仅可用于搜索和访问原始数据,也可以发现原先已发现的知识,以便在数据改变时比较给定挖掘计算的输出,或者以递增的方式应用数据挖掘工具。
1.2资源分配和执行管理服务(raems)。
该服务用于在执行方案和可用资源间查找最佳映射,以满足应用需求(如计算能力、存储能力、主存、数据库、网络带宽和延迟)和网格约束。
1 数据挖掘中常用的关联规则挖掘算法 摘 要:文中首先介绍了数据挖掘中关联规则的经典算法—Apriori算法。再从宽度、深度、划分、采样、增量式更新等几个角度对关联规则挖掘进行了分类讨论。然后运用文献查询和比较分析的方法对常见的关联规则挖掘算法进行了概述,主要包括FP-growth算法、DHP算法、Partition算法、FUP算法、CD等算法。最后对关联规则挖掘的发展远景进行了展望。 关键词:数据挖掘;关联规则;频繁项集;挖掘算法
Common Algorithms of Association Rules Mining in Data Mining Computer Science and Communication Engineering, Pattern Recognition and Intelligent Systems Abstract: This paper first introduces the data mining association rules in the classical algorithm-Apriori algorithm. Again from the depth, width and division, sampling, incremental updating aspects of association rules mining are classified discussions. Then use the literature search and the method of comparison to the common algorithm for mining association rules are summarized, including the FP-growth algorithm, Partition algorithm, the algorithm, DHP, FUP algorithm, CD. The association rules mining development prospect is discussed. Key words: Data mining; Association rule; Frequent itemsets; Mining algorithm 1引言 数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery In Database),是从大量的、不完整的、有噪声的、模糊的、随机的大型数据中提取隐含在其中的、人们事先未知的、具有潜在价值的信息和知识的过程[1]。简单的说,数据挖掘就是从大量数据中提取或“挖掘”出人们有用的知识。面对当前“海量数据,微量信息”的现状,数据挖掘的重要研究分支—关联规则,作为一种高级和智能的数据处理和分析技术的研究正方兴未艾。 通过关联规则挖掘,可以得到隐含于海量数据中具有潜在价值的有用信息。关联规则的目标是以有效的方式提取最有趣的模式。 关联规则挖掘是数据挖掘领域一个重要的研究课题。关联规则一般可分为布尔型关联规则和多值属性关联规则。Agrawal于1993年提出布尔型关联规则问题,之后提出了经典的Apriori和Apriori TID算法[2]。多值属性分为类别属性和数值属性,很多算法在解决多值属性关联规则挖掘时,都是将连续数值离散化,得到相应的模糊文字描述,然后其处理方法类似于布尔型关联规则挖掘。传统的关联挖掘算法 认为数据库中各个项的重要程度相同,然而在现实中各个项的重要性往往不同。例如,决策者往往会优先考虑利润较高的项目,而忽略利润较低的项目。另外,时间的推移以及消费习惯的改变也会对关联规则产生影响,时间间隔较短的事务所产生的关联规则尽管支持度不太高,却能很好地反映新的消费趋势,因此,在实际分析数据时,利用加权关联规则是有意义的。文献[2]提出布尔型属性加权关联规则的概念,并给出2种加权关联规则的挖掘算法:MINWAL(O)算法和MINWAL(W)算法,但前者的加权支持度可能大干I,后者的加权支持度不一定支持含有属性数多的加权关联规则,也不能很好地突出重点项目,文献[3]采用权重集归一化的思想对这2种算法做了改进。文献[4]提出了一种基于概率的加权关联规则算法。文献[5]提出了基于Apriori算法的水平加权关联规则挖掘方法,较好地突出了权值的作用。 2
2 关联规则的基本概念 设集合I={i1,i2,„,im},其中,ik(k=1,2,„,m)表示项。如果X∈I,集合X被称为项集。当|X|=k,则X被称为k-项集。事务二元组T=(tid,X),tid是事务唯一的标识,符称为事务号。数据集D={t1,-t2,t3,„,tn}是由t1,t2,t3,„,tn事务组成的集合。 关联规则可以描述为:形如A => B的蕴涵式,其中A∈I,B∈I,并且A∩B=¢。项集X的支持度s是D中包含X的事务数占所有事务数的百分比,记为 。项集x的置信度c是D中同时包 含X∪Y的事务数占包含X的所有事务数的百分比,记为c(X)=P(X|Y)=。至于最小支持度“minsup和最小置 信度minconf都是由用户所给定,如果项集X的sup(X)≥minsup,那么项集X被称为频繁项集,其中生成的关联规则中所有支持度和置信度都不小于minsup和minconf的被称为强关联规则。 关联规则的支持度表示在整个数据库中的重要性,而置信度则反映其可靠程度。只有支持度和置信度均为较高的关联规则才是用户感兴趣的、有用的关联规则。 3 关联规则的种类 根据不同的标准,关联规则可以用很多不同的方法分成若干类型[2],根据挖掘模式的完全性可以把关联规则分为闭频繁项集、挖掘频繁项集的完全性、极大频繁项集和被约束的频繁项集。根据规则涉及的数据的层和维可以把关联规则分为单层关联规则、多层关联规则、单维关联规则和多维关联规则的挖掘。根据规则所处理的值的类型可以把关联规则分为挖掘布尔 型关联规则和量化关联规则。根据所挖掘的规则类型可以把关联规则分为关联规则和相关规则挖掘。根据所挖掘的模式类型可以把关联规则分为频繁项集挖掘、序列模式挖掘、结构模式挖掘等。根据所挖掘的约束类型可以把关联规则分为知识类型约束、数据约束、维/层约束、兴趣度约束、规则约束。 4 关联规则挖掘算法 4.1 经典的关联规则挖掘算法 1994年Agrawal提出的Apriori算法是挖掘完全频繁项集中最具有影响力的算法。算法有两个关键的步骤:一是发现所有的频繁项集;二是生成强关联规则。 发现频繁项集是关联规则挖掘中的关键步骤。在Apriori算法中还利用了“频繁项集的子集是频繁项集,非频繁项集的超集是非频繁项集”这一个性质有效的对频繁项集进行修剪。 算法核心思想: 给定一个数据库,第一次扫描数据库,搜索出所有支持度大于等于最小支持度的项集组成频繁1-项集即为L1,由Ll连接得到候选1-项集Cl; 第二次扫描数据库,搜索出Cl中所有支持度大于等于最小支持度的项集组成频繁2-项集即为L2,由L2连接得到候选2-项集C2; 同理第k次扫描数据库,搜索出Ck-1中所有支持度大于等于最小支持度的项集组成频繁k-项集即为Lk,由Lk连接得到候选k-项集Ck,直到没有新的候选集产生为止。 Apriori算法需扫描数据库的次数等于最大频繁项集的项数。Apriori算法有两个致命的性能瓶颈:产生的候选集过大(尤其是2-项集),算法必须耗费大量的时间处理候选项集;多次扫描数据库,需要很大的l/0负载,在时间、空间上都需要付出很大的代价。 4.2 常用的关联规则挖掘算法 目前常见的关联规则挖掘算法大致可分为宽度优先算法、深度优先算法、数据集划分算法、采样算法、增量式更新算法等。下面对一些常用算法做简单的介绍。 4.2.1 宽度优先算法 3
宽度优先算法又称为分层算法,包括由Agrawal等人提出的Apriori、AprioriTid[7]和AprioriHybrid[8]算法,Park等人提出的DHP算法[9]等等。 Apriori算法也是宽度优先算法,AprioriTid算法是在Apriori算法的基础上演化而来的。该算法第一趟扫描数据库时采用Apriori算法,当再次扫描时不再是扫描整个数据库,而只是扫描上次生成的候选项集,扫描的同时还会计算出频繁项集的支持度,以减少扫描数据库的时间来提高算法的效率。Apriori算法和AprioriTid算法的融合产生了AprioriHybird算法,初始扫描数据库时使用Apriori算法,当生成的候选项集大小可以存放到内存中进行处理时再转向AprioriTid算法,直到找出所有的频繁项集。DHP算法采用哈希(Hash)表技术对数据集和候选项集进行修剪来降低算法的时间和空间的开销。它利用哈希表在计算(k-1)-项集时先粗略计算出k-项集的支持度,排除无意义的候选k-项集来减少候选k-项集的数量,尤其是 对候选2 -项集的数量控制特别突出。总的来说,宽度优先算法的不足之处还是在于需要生成大量候选项集,需要多次扫描数据库。 4.2.2 深度优先算法 深度优先算法中常见的算法有FP-growth算法[10]、0P算法[11]、TreeProjection算法[12]等。FP-growth算法是深度优先算法中最新最高效的且从本质上不同于Apriori算法的经典算法。基本思想是:采取分而治之的策略,首先在保留项集关联信息的前提下,将数据库压缩到一棵频繁模式树(FP-tree)中;然后将这种压缩后的FP-tree分成一些条件数据库并分别挖掘每个数据库。在算法中有两个关键步骤:一是生成频繁模式树FP-tree;二是在频繁模式树FP-tree上挖掘频繁项集。 与Apriori算法相比,FP-growth算法具有以下优点:FP-growth算法只需扫描数据库两次,避免多次扫描数据库;不需要产生庞大的候选项集,在挖掘过程中大大减少了搜索空间,在时间效率、空间效率上都有一个量级的提高。但它的应用难点在于处理很大的且很稀疏的数据库时,在挖掘处理、递归运算中都需要相当大的空间。 4.2.3 数据集划分算法 数据集划分算法包括SavaSere等人提出的Partition算法[13],Brin等人提出的DIC算法[13]等。Partition算法是从逻辑上将整个数据库划分成几个相互独立的可以存放在内存中进行处理的数据块,节省访问外存时I/O的开销。它单独考虑每个逻辑块生成相应的频集,然后利用“频繁项集至少在一个分区中是频繁的”这一性质把所有逻辑块生成的所有频集合并生成所有可能的全局候选项集,最后再次扫描数据库计算项集的支持度进行全局计数。整个过程只需对数据库进行两次扫描,但是产生的候选项集数量比较大。DIC算法同样采取数据库划分的思想,将数据库划分为若干个分区并在每个分区的开始部分做标记,在扫描数据库过程中可以在各个分区的标记点添加候选项集,在计算项集时并行计算可能为频集的支持度。算法扫描数据库的次数基本上是少于最大频集的项数。在数据块划分恰到好处时只需通过两次扫描数据库就能找出所有的频繁项集。 但是该类型的算法具有高度的并行性,只需扫描两次数据库,大大减少了I/O操作从而提高了算法效率。在基于划分的算法中主要瓶颈是算法执行的时间,同时产生的频繁项集的精度也不是很高。 4.2.4采样算法 采样算法包括由Park等人提出的可调精度的挖掘算法 [15] 、Toivonen提出的Sampling[16]算法等。Sampling算法是 从数据库D中随机抽取一个可以调人内存的数据库子集D’,然后求出数据库子集D’中可能在数据库D中成立的