基于Spark的并行频繁项集挖掘算法

格式：pdf
大小：1.41 MB
文档页数：6

下载文档原格式

基于Spark的层次化项集挖掘算法

０引言
频繁模式增长（ＦＰ－Ｇｒｏｗｔｈ）算法采用分而治之的算法思想，通过构建ＦＰ－ｔｒｅｅ并挖掘ＦＰ－ｔｒｅｅ就可以得到数据集的关联规则，得到了许多学者的关注和研究［１］。随着数据规模的海量增长，传统的算法会出现内存溢出等问题，学者们提出了多种并行的ＦＰ－ｇｒｏｗｔｈ算法，这些算法的关２］。然而这些算法都只是挖掘事务集的项之间的关系，很少有用于挖掘具有层次关系的事务集的项之间的关系的特定算法，需要花费大量时间处理大量冗余项集，降低了效率。在此基础上，学者们提出了一些相关的多层关联规则算法，［３－６］如
ＨｉｅｒａｒｃｈｉｃａｌｉｔｅｍｓｅｔｍｉｎｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＳｐａｒｋ
ＷＵＺｉ－ｈｏｎｇ，ＣＨＥＮＧＬｉａｎｇ－ｌｕｎ，ＷＡＮＧＺｈｕｏ－ｗｅｉ
（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒｓ，ＧｕａｎｇｄｏｎｇＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｇｕａｎｇｚｈｏｕ５１０００６，Ｃｈｉｎａ）
Ａｂｓｔｒａｃｔ：ＴｈｅｅｘｉｓｔｉｎｇｐａｒａｌｌｅｌＦＰ－Ｇｒｏｗｔｈａｌｇｏｒｉｔｈｍｈａｓｔｈｅｗｅａｋｎｅｓｓｏｆｌａｒｇｅｒｅｄｕｎｄａｎｔｉｔｅｍｓｅｔｓａｎｄｌｏｗｅｆｆｉｃｉｅｎｃｙｗｈｅｎｍｉ－ｎｉｎｇｔｒａｎｓａｃｔｉｏｎｄａｔａｗｉｔｈｈｉｅｒａｒｃｈｉｃａｌｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｉｔｅｍｓ．Ｉｎｖｉｅｗｏｆｔｈｅａｂｏｖｅｐｒｏｂｌｅｍｓ，ａｎｉｍｐｒｏｖｅｄａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＳｐａｒｋｗａｓｐｕｔｆｏｒｗａｒｄ，ｗｈｉｃｈｅｓｔａｂｌｉｓｈｅｄａｄｏｕｂｌｅ－ｌｅｖｅｌｈｉｅｒａｒｃｈｉｃａｌｓｔｒｕｃｔｕｒｅｏｆｌｅｘｉｃｏｇｒａｐｈｉｃａｌｔｒｅｅａｎｄＦＰ－ｔｒｅｅ，ｃａｌｌｅｄＬＦＰ－ｔｒｅｅ．Ｔｈｅｏｂｊｅｃｔ－ａｔｔｒｉｂｕｔｅａｓｓｏｃｉａｔｉｏｎｒｕｌｅｓｗｅｒｅｍｉｎｅｄｉｎｔｈｉｓｓｐｅｃｉａｌｔｒａｎｓａｃｔｉｏｎｄａｔａｂａｓｅ，ｗｈｉｌｅｔｈｅｅｘｃｅｓｓｓｅａｒｃｈｔｉｍｅｗａｓｒｅｄｕｃｅｄａｎｄｔｈｅｐｒｕｎｉｎｇ，ｃａｎｄｉｄａｔｅｓｅｔｇｅｎｅｒａｔｉｏｎｗｏｒｋｗｅｒｅｃｏｍｐｌｅｔｅｄｗｉｔｈｔｈｅａｄｖａｎｔａｇｅｏｆＳｐａｒｋｉｎｍｅｍｏｒｙｃｏｍｐｕｔｉｎｇａｎｄｉｔｅｒａｔｉｖｅｃｏｍｐｕｔｉｎｇ．ＥｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍｉｓｓｕｐｅｒｉｏｒｔｏＦＰ－ｇｒｏｗｔｈａｌｇｏｒｉｔｈｍｉｎｅｆｆｉｃｉｅｎｃｙｂｅ－ｃａｕｓｅｉｔｃａｎｓｉｇｎｉｆｉｃａｎｔｌｙｒｅｄｕｃｅｒｅｄｕｎｄａｎｔｉｔｅｍｓｅｔｓ．Ｋｅｙｗｏｒｄｓ：ｉｔｅｍｓｅｔｍｉｎｉｎｇ；ｈｉｅｒａｒｃｈｉｃａｌｓｔｒｕｃｔｕｒｅ；ＦＰ－Ｇｒｏｗｔｈ；Ｓｐａｒｋ；ＬＦＰ－ｔｒｅｅ

基于Spark平台的离群数据并行挖掘算法

关键词大数据技术；离群挖掘；Spark 平台；并行挖掘中图分类号 TP301 DOI：10. 3969/j. issn. 1672-9722. 2018. 11. 003
Parallel Mining Algorithm for Outliers Based on Spark Platform
LI Junli （School of Information technology and Engineering，Jinzhong College，Jinzhong 030619）
总第 349 期 2018 年第 11 期
计算机与数字工程 Compu计te算r &机D与ig数ita字l E工ng程ineering
Vol. 46 No. 11 2175
基于 Spark 平台的离群数据并行挖掘算法 ∗
李俊丽
（晋中学院信息技术与工程学院晋中 030619）
李俊丽：基于 Spark 平台的离群数据并行挖掘算法
第 46 卷
于可靠、可伸缩、分布式计算。尽管 Hadoop 是 Ma⁃ pReduce 最受欢迎的开源实现，但它在很多情况下并不适用，比如在线和迭代计算、高进程间通信模式或内存计算等。
近年来，Apache Spark 在 Hadoop 生态系统中被引入。这个框架的目的是通过使用内存原语来实现对大数据的更快的分布式计算，这使得它能够比 Hadoop 在某些应用程序上运行速度快 100 倍。这个平台允许用户程序将数据加载到内存中并反复计算，使其成为在线和迭代处理（特别是机器学习算法）的一个非常合适的工具，从而简化了编程任务。
Abstract With the development of big data technology，the efficiency of the existing outlier mining algorithms can be signifi⁃ cantly reduced or even not applicable. Spark memory computing can effectively reduce the I/O cost and improve the efficiency of da⁃ ta analysis and processing. Using Spark memory computing platform，a parallel algorithm is presented for mining outliers，the goal is to parallelize the traditional outlier mining algorithm using Spark platform，thus improving the performance. Finally，UCI data set is used as the experimental data set，and the experiment verifies that the algorithm has good scalability and scalability in the Spark memory computing platform.

一种基于Spark的高效增量频繁模式挖掘算法

处理候选项集生成ꎻ其后产生了一些列基于ＳＷＦ
的改进算法ꎬＬｉＨ. Ｆ. 等人提出一种有效的基于ｂｉｔ
收稿日期:２０２０￣０５￣３０
基金项目:国家青年科学基金 ( ６１６０２３３５ ) ꎻ 山西省自然科学基金 ( ２０１９０１Ｄ２１１３０２ ) ꎻ 太原科技大学博士科研启动基金
(２０１７２０１７)
作者简介:荀亚玲(１９８０￣) ꎬ女ꎬ副教授ꎬ主要研究方向为数据挖掘与并行计算ꎮ
第４１卷第６期
荀亚玲ꎬ等:一种基于Ｓｐａｒｋ的高效增量频繁模式挖掘算法
４４１
的挖掘算法ꎬ该算法由三个阶段组成 [８] ꎬ第一个是
２全压缩频繁模式树及树结构调整策略
的通信开销ꎮ 针对该问题问题ꎬ基于Ｓｐａｒｋ平台提出一种高效的并行增量ＦＩＭ算法( ＦＣＦＰＩＭ) . ＦＣＦＰＩＭ
结合完全压缩频繁模式树( ＦＣＦＰ￣Ｔｒｅｅ) 结构实现增量频繁模式的有效挖掘ꎬ当存在数据更新时ꎬ无需再
重新遍历和挖掘原始数据集ꎬ充分利用了原始数据集的挖掘结果ꎻ并设计了有效的ＲＤＤ转换策略以实
注
[２￣３]
ꎮ 但是ꎬ其挖掘过程占用大量ＣＰＵ和Ｉ / Ｏꎬ因
为会生成大量中间项和结果项集ꎬ并且此过程中涉
及的数据集也很大ꎮ
本文采用一种无损树结构 ( ＦＣＦＰ￣Ｔｒｅｅ) [４] ꎬ通
过在维护与新增数据相对应的树结构时避免重新
扫描原始数据集ꎬ以显著减少Ｉ / Ｏ. 为了突破单机资
源进行大数据处理的限制ꎬ开发了一种基于内存计
出了ＡＦＰＩＭ算法 [９] ꎬ该算法仍然采用ＦＰ￣Ｔｒｅｅ存储
数据ꎬ但其设置了一个低于最小支持度阈值的参数

基于Spark的并行频繁模式挖掘算法

基于Spark的并⾏频繁模式挖掘算法Computer Engineering and Applications 计算机⼯程与应⽤2016，52（20）基于Spark 的并⾏频繁模式挖掘算法曹博1，倪建成2，李淋淋1，于苹苹1，姚彬修1CAO Bo 1,NI Jiancheng 2,LI Linlin 1,YU Pingping 1,YAO Binxiu 11.曲⾩师范⼤学信息科学与⼯程学院，⼭东⽇照2768002.曲⾩师范⼤学软件学院，⼭东曲⾩2731001.College of Information Science and Engineering,Qufu Normal University,Rizhao,Shandong 276800,China2.College of Software,Qufu Normal University,Qufu,Shandong 273100,ChinaCAO Bo,NI Jiancheng,LI Linlin,et al.Parallel frequence pattern mining algorithm based on/doc/b5ee3e97951ea76e58fafab069dc5022aaea46d7.html puter Engineering andApplications,2016,52（20）：86-91.Abstract ：Under the environment of big data,the frequent pattern mining algorithm Apriori has some defects,including presetting minimum threshold and high time complexity when in data processing process.Therefore,the multistage mining strategy is adopted to realize the parallel frequent pattern mining algorithm （PTFP-Apriori ）.Firstly,the preprocessed data is stored in a pattern tree,and the optimal threshold is got by the most frequent K model.Subsequently,according to the threshold,the frequent pattern that can ’t grow up to be frequent patterns could be removed to reduce the computingscale.The RDD is used to accomplish the task of itemsets support counting and candidate itemsets generating.The experimental results show that the algorithm has higher effectivity and scalability than the traditional algorithm.Key words ：big data;frequent pattern mining;Top-k ;pattern tree;parallel computing摘要：在⼤数据环境下Apriori 频繁模式挖掘算法在数据处理过程具有预先设定最⼩阈值、时间复杂度⾼等缺陷,为此采⽤多阶段挖掘策略实现并⾏化频繁模式挖掘算法PTFP-Apriori 。

基于Spark框架的FP-Growth大数据频繁项集挖掘算法

基于Spark框架的FP-Growth大数据频繁项集挖掘算法邵梁;何星舟;尚俊娜
【期刊名称】《计算机应用研究》
【年(卷),期】2018(035)010
【摘要】针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法.首先,根据垂直布局思想将数据按照事务标志符垂直排列,以此解决扫描整个数据集的缺陷;然后,通过FP-Growth算法构建频繁模式树,并生成频繁1-项集;接着,通过扫描垂直数据集来计算项集的支持度,从而识别出非频繁项,并将其从数据集中删除以降低数据尺寸;最后,通过迭代过程来生成频繁k-项集.在标准数据集上的实验结果表明,该算法能够有效挖掘出频繁项集,在执行时间方面具有很大的优越性.
【总页数】4页(P2932-2935)
【作者】邵梁;何星舟;尚俊娜
【作者单位】浙江建设职业技术学院教育技术中心,杭州311231;浙江工业大学学生处,杭州311231;杭州电子科技大学通信工程学院,杭州310018
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.一种基于Spark框架的并行FP-Growth挖掘算法 [J], 张稳;罗可
2.基于Spark的投影树频繁项集挖掘算法 [J], 冯兴杰;潘轩
3.基于Spark改进的最大频繁项集挖掘算法 [J], 焦润海;张谦;陈超
4.基于Spark的并行频繁项集挖掘算法 [J], 张素琪;孙云飞;武君艳;顾军华
5.基于Spark框架的大数据局部频繁项集挖掘算法设计 [J], 王黎;吕殿基
因版权原因，仅展示原文概要，查看原文内容请购买。

基于Spark框架的FP-Growth大数据频繁项集挖掘算法

个条件模式子树每个条件子树对应一个频繁项集通过递归方式从这些条件子树中挖掘出事务数据库的频繁项集相比于 ?RD7;D7算法U>%KD;H3G 算法在性能上有一个数量级的提升然而在构建数中也需要遍历整个数据集
!"#$%&'$ U;D3GF7114F1;+3GF+DF,4F/373F61F3167/7/07/ Q70A.3. 3G71R.RFDRD;R;1FA .R.D.88F8+DF,4F/373F61F3167/7/0 .80;D73G6Q.1FA ;/ U>%KD;H3G ./A CR.DI +D.6FH;DI9U7D138- 73.DD./0FA 3GFA.3.EFD37:.88-.::;DA7/03;3GF3D./1.:37;/ 7AF/37% +7FD 7/ ;DAFD3;1;8EF3GFAF+F:31;+1:./ 3GFF/37DFA.3.1F39=GF/ 73.A;R3FA 3GFU>%KD;H3G .80;D73G6 3;:;/13D4:33GF+DF% ,4F/3R.33FD/ 3DFF./A 0F/FD.3FA +DF,4F/3#%73F61F319?+3FD3G.3 73:.8:48.3FA 3GF14RR;D3;+3GF73F61F3Q-1:.//7/03GFEFD37% :.8A.3.1F3 1;.13;7AF/37+-3GF/;/%+DF,4F/373F61 ./A AF8F3FA 3GF6+D;63GFA.3.1F33;DFA4:F3GFA.3.17TF9U7/.88- 73 41FA 3GF73FD.37EFRD;:F113;0F/FD.3F+DF,4F/373F61F319=GFFbRFD76F/3.8DF14831;/ 3GF13./A.DA A.3.1F31G;H3G.33GF.80;% D73G6:./ F++F:37EF8-Fb:.E.3F+DF,4F/373F61F31./A G.EF0DF.314RFD7;D73-7/ FbF:437;/ 376F9 ()* +,%-# Q70A.3. +DF,4F/373F61F3167/7/0 CR.DI +D.6FH;DI U>%KD;H3G .80;D73G6 EFD37:.88.-;43

基于Spark改进的最大频繁项集挖掘算法

2017年7月计算机工程与设计 Ju ly 2017第 38 卷第7 期 COMPUTER ENGINEERING AND DESIGN Vol. 38 No. 7基于S p a rk改进的最大频繁项集挖掘算法焦润海，张谦+，陈超(华北电力大学控制与计算机工程学院，北京102206)摘要：为解决面向大规模高维数据的频繁项集挖掘问题，针对传统算法的时空复杂度和并行化策略进行优化，实现基于 Spark改进的最大频繁项集挖掘算法。

结合Spark的分布式框架和DMFIA算法的优点，提出深度路径搜索和长度优先超集检验两项改进方法，进行深度路径递归搜索一次性生成最大频繁项候选集，对候选项集进行长度优先排序并检验超集，降低候选项集的规模和挖掘次数，解决传统最大频繁项集挖掘算法在数据量大、维度高时效率低的问题。

实验结果表明，该算法在时间上优于同类算法2-4倍，对数据集规模具有良好的扩展性。

关键词：频繁模式树；分布式计算；数据挖掘；关联规则；最大频繁项中图法分类号：TP311 文献标识号：A 文章编号：1000-7024 (2017) 07-1839-05doi：10. 16208/j. issnl000-7024. 2017. 07. 026Improved algorithm for mining maximum frequent itemsets based on SparkJIAO Run-hai,ZHANG Qian+，CHEN Chao(Control and Computer Engineering College, North China Electric Power University, Beijing 102206, China) Abstract：To solve the problem of mining frequent itemsets from data with large scale and high dimension, traditional algorithm was optimized from two aspects including time and space complexity and parallelization strategy. A refined algorithm was proposed based on Spark, combining the advantage of Spark distributed framework and DMFIA algorithm, with improvements by depth path search and length-first superset test. The reduction of efficiency in conventional maximum frequent data mining algorithms in large scale and high dimensional datasets was avoided, by utilizing depth-first search algorithm to generate maximum candidate frequent set, and sorting the acquired dataset by length and testing superset cyclically. Experimental results indicate that the proposed algorithm is 2-4 times faster than conventional algorithm and demonstrate its strong adaptability in different datasets of various scales.Key words：FP-growth；Spark；data mining；association rules；maximum frequent items〇引言FP-gr〇w ttf1]算法由H A N.J.W提出，许多学者相继对该算法进行了大量研究。

基于Spark平台的大数据挖掘技术分析

第2期2021年1月No.2January，20210 引言信息时代背景下，云计算、物联网技术的快速发展，各类数据信息急剧增长，怎样才能够将海量的数据信息转变为有效的资源，是大数据技术研究的要点。

通过大数据技术来挖掘海量数据存在的内在规律，确定有价值的信息数据并予以利用，可以打开全新的思维与认知角度，这对于社会经济的发展意义重大。

Spark 平台作为针对大数据集合的低延迟集群分布式计算系统，可以为大数据挖掘效率的提升提供更多支持。

1 大数据挖掘技术分析数据挖掘技术现在已经得到了广泛应用，可以利用算法来挖掘出海量数据内存在的有价值的信息以及有趣模式。

可以分为3个阶段：（1）数据的预处理。

转化采集到的所有原始数据，确保其在经过处理后可以符合项目需求，转变成有效数。

该步骤可以弥补原始数据存在的缺陷，提高数据的完整性与可靠性[1]。

数据抽取操作比较简单，可通过较快的速度从大量的数据信息内获得有价值的数据。

（2）数据的挖掘。

首先要确定数据仓库内各类数据的普遍特征，并根据此确定对应的算法工具，实现对目标数据的进一步处理。

该阶段为数据挖掘技术的核心，为达到最终目的，关键是要保证所选挖掘算法的适用性。

（3）知识表示与模式评估。

模式主要是完成数据挖掘成果的有效表达，最终构建出有识别能力的完整表达模式。

2 基于Spark平台的大数据挖掘技术2.1 基于Spark 平台的大数据生态系统2.1.1 Spark Runtime对Spark Runtime 分析时，首先要确定其功能性，例如任务调度与内存管理等。

在利用RDD 结构来进行Spark 内部的数据传输时，前提是要确定Spark 核心逻辑数据信息，在部分条件下其会与对象概念有着一定的相似性。

第一步想要对全部数据进行多个子集的划分，同时要求每个子集全部能够传输到集群内任意的节点做进一步的处理。

第二步是对计算中间结果提供可靠保护，通过此来获取与计算结果相同，同时在子集节点进行备份存放的文件内容[2]。

基于分布式平台Spark和YARN的数据挖掘算法的并行化研究

基于分布式平台Spark和YARN的数据挖掘算法的并行化研究一、本文概述随着大数据时代的来临，数据挖掘技术在各行各业中的应用越来越广泛。

然而，传统的数据挖掘算法在面对海量数据时，往往面临着计算效率低、处理时间长等问题。

为了解决这些问题，本文将研究基于分布式平台Spark和YARN的数据挖掘算法的并行化方法。

本文旨在通过对Spark和YARN的深入研究，探索出一种有效的数据挖掘算法并行化策略，以提高算法在处理大规模数据时的效率。

本文将介绍Spark和YARN的基本原理和架构。

Spark是一种基于内存计算的分布式计算框架，具有高性能、高可靠性等优点，适用于大规模数据处理和分析。

YARN（Yet Another Resource Negotiator）则是一种分布式资源调度框架，负责在集群中分配和管理计算资源。

接着，本文将详细分析数据挖掘算法在Spark和YARN平台上的并行化实现过程。

通过对算法进行并行化改造，可以充分利用分布式集群的计算资源，提高算法的运行效率。

同时，本文还将探讨如何优化并行化策略，以减少通信开销和计算冗余，进一步提高算法性能。

本文将通过实验验证所提并行化策略的有效性。

通过实验对比传统算法和并行化算法在处理大规模数据时的性能差异，评估所提策略的实际效果。

本文还将讨论并行化策略在不同场景下的适用性，为实际应用提供参考。

本文旨在通过对基于分布式平台Spark和YARN的数据挖掘算法并行化研究，为处理海量数据提供一种高效、可靠的解决方案。

通过深入研究和实验验证，本文将为数据挖掘技术的发展和应用提供有益的参考和借鉴。

二、相关理论与技术随着大数据时代的来临，传统的数据处理和分析方法已经无法满足日益增长的数据处理需求。

为了应对这一挑战，分布式计算平台如Apache Spark和YARN（Yet Another Resource Negotiator）应运而生，它们提供了高效的资源管理和并行处理能力，为数据挖掘算法的并行化提供了有力支持。

基于Spark平台的离群数据并行挖掘算法

基于Spark平台的离群数据并行挖掘算法
李俊丽
【期刊名称】《计算机与数字工程》
【年(卷),期】2018(046)011
【摘要】大数据技术的快速发展,现有的离群挖掘算法效率可能显著下降甚至不适用.Spark内存计算可以有效地降低I/O成本,并能提高数据分析和处理的效率.使用Spark内存计算平台,提出了一种离群数据并行挖掘算法,目的是在Spark这样的大数据平台上对传统离群挖掘算法进行并行化,从而提高性能.最后以UCI数据集作为实验数据集对算法进行了验证,实验结果表明,基于Spark平台的离群数据并行挖掘算法具有良好的可伸缩性和可扩展性.
【总页数】4页(P2175-2178)
【作者】李俊丽
【作者单位】晋中学院信息技术与工程学院晋中 030619
【正文语种】中文
【中图分类】TP301
【相关文献】
1.基于MapReduce与距离的离群数据并行挖掘算法 [J], 任燕
2.基于Spark平台的地理数据并行装载技术 [J], 贺梦洁;朱美正;初宁;杨岗
3.基于属性相关分析的离群数据并行挖掘算法 [J], 王磊;张继福
4.Spark平台下综合属性权重离群点挖掘算法研究 [J], 马晶;刘建华
5.基于Spark Streaming的视频大数据并行处理方法 [J], 张元鸣;虞家睿;陆佳炜;高飞;肖刚
因版权原因，仅展示原文概要，查看原文内容请购买。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第３６卷第２期２０１９年２月
计算机应用与软件ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅ
Ｖｏｌ３６Ｎｏ．２Ｆｅｂ．２０１９
基于Ｓｐａｒｋ的并行频繁项集挖掘算法
张素琪１ Байду номын сангаас云飞１武君艳２，３顾军华２，３
１（天津商业大学信息工程学院天津３００１３４）２（河北工业大学人工智能与数据科学学院天津３００４０１）
ＡＰＡＲＡＬＬＥＬＦＲＥＱＵＥＮＴＩＴＥＭＳＥＴＳＭＩＮＩＮＧＡＬＧＯＲＩＴＨＭＢＡＳＥＤＯＮＳＰＡＲＫ
ＺｈａｎｇＳｕｑｉ１ＳｕｎＹｕｎｆｅｉ１ＷｕＪｕｎｙａｎ２，３ＧｕＪｕｎｈｕａ２，３
１（ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＴｉａｎｊｉｎＵｎｉｖｅｒｓｉｔｙｏｆＣｏｍｍｅｒｃｅ，Ｔｉａｎｊｉｎ３００１３４，Ｃｈｉｎａ）２（ＳｃｈｏｏｌｏｆＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＤａｔａＳｃｉｅｎｃｅＩｎｓｔｉｔｕｔｅ，ＨｅｂｅｉＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｔｉａｎｊｉｎ３００４０１，Ｃｈｉｎａ）
３（河北省大数据计算重点实验室天津３００４０１）
摘要关联规则挖掘是数据挖掘领域的重要研究方向之一。频繁项集的挖掘是关联规则挖掘的第一步，也是最重要的步骤。ＦＰＧｒｏｗｔｈ（ＦｒｅｑｕｅｎｔＰａｔｔｅｒｎＧｒｏｗｔｈ）算法因其挖掘效率以及空间复杂度方面的优势被广泛应用于频繁项集挖掘任务中。面对海量数据，ＦＰＧｒｏｗｔｈ算法挖掘效率变得极低甚至失效。在Ｈａｄｏｏｐ大数据平台上实现的基于ＭａｐＲｅｄｕｃｅ框架的并行ＦＰＧｒｏｗｔｈ算法———ＰＦＰ算法解决在处理大规模数据时传统算法失效的问题，但是由于其将每次执行之后的中间结果输出到磁盘，降低算法执行效率。为提高并行ＦＰＧｒｏｗｔｈ算法执行效率，提出一种基于Ｓｐａｒｋ的ＳＰＦＰＧ算法。该算法运用负载均衡思想对分组策略进行改进，综合考虑分区计算量和ＦＰＴｒｅｅ规模两个因素，保证每个组之间负载总和近似相等。在Ｓｐａｒｋ上实现ＦＰＧｒｏｗｔｈ算法———ＳＦＰＧ算法的基础上，实现优化后的ＳＰＦＰＧ算法。实验结果表明，ＳＰＦＰＧ算法相比ＳＦＰＧ算法挖掘效率更高，且算法具有良好的扩展性。关键词大数据平台关联规则频繁项集ＦＰＧｒｏｗｔｈＳｐａｒｋ中图分类号ＴＰ１８１文献标识码ＡＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１０００３８６ｘ．２０１９．０２．００５
２５
０引言
随着人工智能时代的到来，基于大数据的关联规则挖掘成为国内外科学家研究的热点方向之一，其主要任务是挖掘大数据集中潜在有用的关联关系以及动态数据中规则的变化规律，在很多行业和领域有重要的研究意义和应用前景。随着数据的爆炸式增长，数据集中的关联关系越来越复杂、越来越广泛，关联规则发现的复杂性和实时性需求日益强烈。频繁项集挖掘是关联规则挖掘的第一步也是最重要的一步。Ａｐｒｉｏｒｉ算法是挖掘频繁项集最有影响和最具有代表性的一种算法，但该算法多次扫描数据库，并且产生大量的候选集［１］。基于此，Ｈａｎ等［２］提出了一种不产生候选项集的ＦＰＧｒｏｗｔｈ算法，并且只对数据库进行两次扫描，使得挖掘效率以及空间复杂度方面均有很大改进。随着计算规模不断增大，串行ＦＰＧｒｏｗｔｈ算法会因硬件资源的限制遇到内存瓶颈或者失效的问题［３］。基于分布式计算框架的大数据平台成为解决这一问题的一个重要途径。这些大数据平台在处理海量数据时通过分布式计算框架可以明显提高算法的处理效率，能更高效地引导人们发现潜在的、有利用价值的信息。
收稿日期：２０１８－０５－１０。河北省科技计划项目（１７２１０３０５Ｄ）；天津市科技计划项目（１５ＺＸＨＬＧＸ００１３０，１６ＺＸＨＬＳＦ００２３）。张素琪，讲师，主研领域：数据挖掘，计算机仿真。孙云飞，本科生。武君艳，硕士生。顾军华，教授。
第２期
张素琪等：基于Ｓｐａｒｋ的并行频繁项集挖掘算法
３（ＨｅｂｅｉＫｅｙＬａｂｏｒａｔｏｒｙｏｆＢｉｇＤａｔａＣｏｍｐｕｔｉｎｇ，Ｔｉａｎｊｉｎ３００４０１，Ｃｈｉｎａ）
ＡｂｓｔｒａｃｔＡｓｓｏｃｉａｔｉｏｎｒｕｌｅｍｉｎｉｎｇｉｓｏｎｅｏｆｔｈｅｉｍｐｏｒｔａｎｔｒｅｓｅａｒｃｈｄｉｒｅｃｔｉｏｎｓｉｎｄａｔａｍｉｎｉｎｇ．Ｔｈｅｍｉｎｉｎｇｏｆｆｒｅｑｕｅｎｔｉｔｅｍｓｅｔｓｉｓｔｈｅｆｉｒｓｔａｎｄｍｏｓｔｉｍｐｏｒｔａｎｔｓｔｅｐｉｎａｓｓｏｃｉａｔｉｏｎｒｕｌｅｍｉｎｉｎｇ．ＦＰＧｒｏｗｔｈａｌｇｏｒｉｔｈｍｉｓｗｉｄｅｌｙｕｓｅｄｉｎｆｒｅｑｕｅｎｔｉｔｅｍｓｅｔｓｍｉｎｉｎｇｔａｓｋｓｂｅｃａｕｓｅｏｆｉｔｓｍｉｎｉｎｇｅｆｆｉｃｉｅｎｃｙａｎｄｉｔｓｓｐａｔｉａｌｃｏｍｐｌｅｘｉｔｙ．Ｆａｃｅｄｗｉｔｈｂｉｇｄａｔａ，ｍｉｎｉｎｇｅｆｆｉｃｉｅｎｃｙｏｆＦＰＧｒｏｗｔｈａｌｇｏｒｉｔｈｍｂｅｃｏｍｅｓｅｘｔｒｅｍｅｌｙｌｏｗｏｒｅｖｅｎｉｎｖａｌｉｄ．ＰＦＰａｌｇｏｒｉｔｈｍ，ｔｈｅｐａｒａｌｌｅｌＦＰＧｒｏｗｔｈａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＭａｐＲｅｄｕｃｅｆｒａｍｅｗｏｒｋｉｍｐｌｅｍｅｎｔｅｄｏｎＨａｄｏｏｐ，ｓｏｌｖｅｓｔｈｅｐｒｏｂｌｅｍｏｆｆａｉｌｕｒｅｏｆｔｒａｄｉｔｉｏｎａｌａｌｇｏｒｉｔｈｍｓｗｈｅｎｄｅａｌｉｎｇｗｉｔｈｌａｒｇｅｓｃａｌｅｄａｔａ．Ｈｏｗｅｖｅｒ，ｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆｔｈｅａｌｇｏｒｉｔｈｍｉｓｒｅｄｕｃｅｄｂｅｃａｕｓｅｉｔｏｕｔｐｕｔｔｈｅｉｎｔｅｒｍｅｄｉａｔｅｒｅｓｕｌｔｓｔｏｄｉｓｋａｆｔｅｒｅａｃｈｅｘｅｃｕｔｉｏｎ．ＩｎｏｒｄｅｒｔｏｉｍｐｒｏｖｅｔｈｅｅｘｅｃｕｔｉｏｎｅｆｆｉｃｉｅｎｃｙｏｆｐａｒａｌｌｅｌＦＰＧｒｏｗｔｈａｌｇｏｒｉｔｈｍ，ａＳｐａｒｋｂａｓｅｄＳＰＦＰＧａｌｇｏｒｉｔｈｍｗａｓｐｒｏｐｏｓｅｄｉｎｔｈｅｐａｐｅｒ．Ｔｈｅａｌｇｏｒｉｔｈｍａｄｏｐｔｅｄｔｈｅｌｏａｄｂａｌａｎｃｉｎｇｉｄｅａｔｏｉｍｐｒｏｖｅｔｈｅｐａｃｋｅｔｓｔｒａｔｅｇｙ．ＣｏｎｓｉｄｅｒｉｎｇｔｈｅｐａｒｔｉｔｉｏｎｃａｌｃｕｌａｔｉｏｎａｎｄＦＰＴｒｅｅｓｉｚｅ，ｔｈｅｓｕｍｏｆｌｏａｄｓａｍｏｎｇｅａｃｈｇｒｏｕｐｗａｓａｐｐｒｏｘｉｍａｔｅｌｙｅｑｕａｌ．ＯｎｔｈｅｂａｓｉｓｏｆＳＦＰＧ，ＦＰＧｒｏｗｔｈｉｍｐｌｅｍｅｎｔｅｄｏｎＳｐａｒｋ，ｔｈｅｏｐｔｉｍｉｚｅｄＳＰＦＰＧａｌｇｏｒｉｔｈｍｗａｓｒｅａｌｉｚｅｄ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔＳＰＦＰＧａｌｇｏｒｉｔｈｍｉｓｍｏｒｅｅｆｆｉｃｉｅｎｔｔｈａｎＳＦＰＧａｌｇｏｒｉｔｈｍａｎｄｉｔｈａｓａｇｏｏｄｓｃａｌａｂｉｌｉｔｙ．ＫｅｙｗｏｒｄｓＢｉｇｄａｔａｐｌａｔｆｏｒｍＡｓｓｏｃｉａｔｉｏｎｒｕｌｅｓＦｒｅｑｕｅｎｔｉｔｅｍｓｅｔｓＦＰＧｒｏｗｔｈＳｐａｒｋ

基于Spark的并行频繁项集挖掘算法

合集下载

基于Spark的层次化项集挖掘算法

基于Spark平台的离群数据并行挖掘算法

一种基于Spark的高效增量频繁模式挖掘算法

基于Spark的并行频繁模式挖掘算法

基于Spark框架的FP-Growth大数据频繁项集挖掘算法

基于Spark框架的FP-Growth大数据频繁项集挖掘算法

基于Spark改进的最大频繁项集挖掘算法

基于Spark平台的大数据挖掘技术分析

基于分布式平台Spark和YARN的数据挖掘算法的并行化研究

基于Spark平台的离群数据并行挖掘算法

文档推荐

最新文档