基于Spark的并行频繁项集挖掘算法
- 格式:pdf
- 大小:1.41 MB
- 文档页数:6
基于Spark的并⾏频繁模式挖掘算法Computer Engineering and Applications 计算机⼯程与应⽤2016,52(20)基于Spark 的并⾏频繁模式挖掘算法曹博1,倪建成2,李淋淋1,于苹苹1,姚彬修1CAO Bo 1,NI Jiancheng 2,LI Linlin 1,YU Pingping 1,YAO Binxiu 11.曲⾩师范⼤学信息科学与⼯程学院,⼭东⽇照2768002.曲⾩师范⼤学软件学院,⼭东曲⾩2731001.College of Information Science and Engineering,Qufu Normal University,Rizhao,Shandong 276800,China2.College of Software,Qufu Normal University,Qufu,Shandong 273100,ChinaCAO Bo,NI Jiancheng,LI Linlin,et al.Parallel frequence pattern mining algorithm based on/doc/b5ee3e97951ea76e58fafab069dc5022aaea46d7.html puter Engineering andApplications,2016,52(20):86-91.Abstract :Under the environment of big data,the frequent pattern mining algorithm Apriori has some defects,including presetting minimum threshold and high time complexity when in data processing process.Therefore,the multistage mining strategy is adopted to realize the parallel frequent pattern mining algorithm (PTFP-Apriori ).Firstly,the preprocessed data is stored in a pattern tree,and the optimal threshold is got by the most frequent K model.Subsequently,according to the threshold,the frequent pattern that can ’t grow up to be frequent patterns could be removed to reduce the computingscale.The RDD is used to accomplish the task of itemsets support counting and candidate itemsets generating.The experimental results show that the algorithm has higher effectivity and scalability than the traditional algorithm.Key words :big data;frequent pattern mining;Top-k ;pattern tree;parallel computing摘要:在⼤数据环境下Apriori 频繁模式挖掘算法在数据处理过程具有预先设定最⼩阈值、时间复杂度⾼等缺陷,为此采⽤多阶段挖掘策略实现并⾏化频繁模式挖掘算法PTFP-Apriori 。
基于Spark框架的FP-Growth大数据频繁项集挖掘算法邵梁;何星舟;尚俊娜
【期刊名称】《计算机应用研究》
【年(卷),期】2018(035)010
【摘要】针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法.首先,根据垂直布局思想将数据按照事务标志符垂直排列,以此解决扫描整个数据集的缺陷;然后,通过FP-Growth算法构建频繁模式树,并生成频繁1-项集;接着,通过扫描垂直数据集来计算项集的支持度,从而识别出非频繁项,并将其从数据集中删除以降低数据尺寸;最后,通过迭代过程来生成频繁k-项集.在标准数据集上的实验结果表明,该算法能够有效挖掘出频繁项集,在执行时间方面具有很大的优越性.
【总页数】4页(P2932-2935)
【作者】邵梁;何星舟;尚俊娜
【作者单位】浙江建设职业技术学院教育技术中心,杭州311231;浙江工业大学学生处,杭州311231;杭州电子科技大学通信工程学院,杭州310018
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.一种基于Spark框架的并行FP-Growth挖掘算法 [J], 张稳;罗可
2.基于Spark的投影树频繁项集挖掘算法 [J], 冯兴杰;潘轩
3.基于Spark改进的最大频繁项集挖掘算法 [J], 焦润海;张谦;陈超
4.基于Spark的并行频繁项集挖掘算法 [J], 张素琪;孙云飞;武君艳;顾军华
5.基于Spark框架的大数据局部频繁项集挖掘算法设计 [J], 王黎;吕殿基
因版权原因,仅展示原文概要,查看原文内容请购买。
2017年7月计算机工程与设计 Ju ly 2017第 38 卷第7 期 COMPUTER ENGINEERING AND DESIGN Vol. 38 No. 7基于S p a rk改进的最大频繁项集挖掘算法焦润海,张谦+,陈超(华北电力大学控制与计算机工程学院,北京102206)摘要:为解决面向大规模高维数据的频繁项集挖掘问题,针对传统算法的时空复杂度和并行化策略进行优化,实现基于 Spark改进的最大频繁项集挖掘算法。
结合Spark的分布式框架和DMFIA算法的优点,提出深度路径搜索和长度优先超集检验两项改进方法,进行深度路径递归搜索一次性生成最大频繁项候选集,对候选项集进行长度优先排序并检验超集,降 低候选项集的规模和挖掘次数,解决传统最大频繁项集挖掘算法在数据量大、维度高时效率低的问题。
实验结果表明,该 算法在时间上优于同类算法2-4倍,对数据集规模具有良好的扩展性。
关键词:频繁模式树;分布式计算;数据挖掘;关联规则;最大频繁项中图法分类号:TP311 文献标识号:A 文章编号:1000-7024 (2017) 07-1839-05doi:10. 16208/j. issnl000-7024. 2017. 07. 026Improved algorithm for mining maximum frequent itemsets based on SparkJIAO Run-hai,ZHANG Qian+,CHEN Chao(Control and Computer Engineering College, North China Electric Power University, Beijing 102206, China) Abstract:To solve the problem of mining frequent itemsets from data with large scale and high dimension, traditional algorithm was optimized from two aspects including time and space complexity and parallelization strategy. A refined algorithm was proposed based on Spark, combining the advantage of Spark distributed framework and DMFIA algorithm, with improvements by depth path search and length-first superset test. The reduction of efficiency in conventional maximum frequent data mining algorithms in large scale and high dimensional datasets was avoided, by utilizing depth-first search algorithm to generate maximum candidate frequent set, and sorting the acquired dataset by length and testing superset cyclically. Experimental results indicate that the proposed algorithm is 2-4 times faster than conventional algorithm and demonstrate its strong adaptability in different datasets of various scales.Key words:FP-growth;Spark;data mining;association rules;maximum frequent items〇引言FP-gr〇w ttf1]算法由H A N.J.W提出,许多学者相继对 该算法进行了大量研究。
第2期2021年1月No.2January,20210 引言信息时代背景下,云计算、物联网技术的快速发展,各类数据信息急剧增长,怎样才能够将海量的数据信息转变为有效的资源,是大数据技术研究的要点。
通过大数据技术来挖掘海量数据存在的内在规律,确定有价值的信息数据并予以利用,可以打开全新的思维与认知角度,这对于社会经济的发展意义重大。
Spark 平台作为针对大数据集合的低延迟集群分布式计算系统,可以为大数据挖掘效率的提升提供更多支持。
1 大数据挖掘技术分析数据挖掘技术现在已经得到了广泛应用,可以利用算法来挖掘出海量数据内存在的有价值的信息以及有趣模式。
可以分为3个阶段:(1)数据的预处理。
转化采集到的所有原始数据,确保其在经过处理后可以符合项目需求,转变成有效数。
该步骤可以弥补原始数据存在的缺陷,提高数据的完整性与可靠性[1]。
数据抽取操作比较简单,可通过较快的速度从大量的数据信息内获得有价值的数据。
(2)数据的挖掘。
首先要确定数据仓库内各类数据的普遍特征,并根据此确定对应的算法工具,实现对目标数据的进一步处理。
该阶段为数据挖掘技术的核心,为达到最终目的,关键是要保证所选挖掘算法的适用性。
(3)知识表示与模式评估。
模式主要是完成数据挖掘成果的有效表达,最终构建出有识别能力的完整表达模式。
2 基于Spark平台的大数据挖掘技术2.1 基于Spark 平台的大数据生态系统2.1.1 Spark Runtime对Spark Runtime 分析时,首先要确定其功能性,例如任务调度与内存管理等。
在利用RDD 结构来进行Spark 内部的数据传输时,前提是要确定Spark 核心逻辑数据信息,在部分条件下其会与对象概念有着一定的相似性。
第一步想要对全部数据进行多个子集的划分,同时要求每个子集全部能够传输到集群内任意的节点做进一步的处理。
第二步是对计算中间结果提供可靠保护,通过此来获取与计算结果相同,同时在子集节点进行备份存放的文件内容[2]。
基于分布式平台Spark和YARN的数据挖掘算法的并行化研究一、本文概述随着大数据时代的来临,数据挖掘技术在各行各业中的应用越来越广泛。
然而,传统的数据挖掘算法在面对海量数据时,往往面临着计算效率低、处理时间长等问题。
为了解决这些问题,本文将研究基于分布式平台Spark和YARN的数据挖掘算法的并行化方法。
本文旨在通过对Spark和YARN的深入研究,探索出一种有效的数据挖掘算法并行化策略,以提高算法在处理大规模数据时的效率。
本文将介绍Spark和YARN的基本原理和架构。
Spark是一种基于内存计算的分布式计算框架,具有高性能、高可靠性等优点,适用于大规模数据处理和分析。
YARN(Yet Another Resource Negotiator)则是一种分布式资源调度框架,负责在集群中分配和管理计算资源。
接着,本文将详细分析数据挖掘算法在Spark和YARN平台上的并行化实现过程。
通过对算法进行并行化改造,可以充分利用分布式集群的计算资源,提高算法的运行效率。
同时,本文还将探讨如何优化并行化策略,以减少通信开销和计算冗余,进一步提高算法性能。
本文将通过实验验证所提并行化策略的有效性。
通过实验对比传统算法和并行化算法在处理大规模数据时的性能差异,评估所提策略的实际效果。
本文还将讨论并行化策略在不同场景下的适用性,为实际应用提供参考。
本文旨在通过对基于分布式平台Spark和YARN的数据挖掘算法并行化研究,为处理海量数据提供一种高效、可靠的解决方案。
通过深入研究和实验验证,本文将为数据挖掘技术的发展和应用提供有益的参考和借鉴。
二、相关理论与技术随着大数据时代的来临,传统的数据处理和分析方法已经无法满足日益增长的数据处理需求。
为了应对这一挑战,分布式计算平台如Apache Spark和YARN(Yet Another Resource Negotiator)应运而生,它们提供了高效的资源管理和并行处理能力,为数据挖掘算法的并行化提供了有力支持。
基于Spark平台的离群数据并行挖掘算法
李俊丽
【期刊名称】《计算机与数字工程》
【年(卷),期】2018(046)011
【摘要】大数据技术的快速发展,现有的离群挖掘算法效率可能显著下降甚至不适用.Spark内存计算可以有效地降低I/O成本,并能提高数据分析和处理的效率.使用Spark内存计算平台,提出了一种离群数据并行挖掘算法,目的是在Spark这样的大数据平台上对传统离群挖掘算法进行并行化,从而提高性能.最后以UCI数据集作为实验数据集对算法进行了验证,实验结果表明,基于Spark平台的离群数据并行挖掘算法具有良好的可伸缩性和可扩展性.
【总页数】4页(P2175-2178)
【作者】李俊丽
【作者单位】晋中学院信息技术与工程学院晋中 030619
【正文语种】中文
【中图分类】TP301
【相关文献】
1.基于MapReduce与距离的离群数据并行挖掘算法 [J], 任燕
2.基于Spark平台的地理数据并行装载技术 [J], 贺梦洁;朱美正;初宁;杨岗
3.基于属性相关分析的离群数据并行挖掘算法 [J], 王磊;张继福
4.Spark平台下综合属性权重离群点挖掘算法研究 [J], 马晶;刘建华
5.基于Spark Streaming的视频大数据并行处理方法 [J], 张元鸣;虞家睿;陆佳炜;高飞;肖刚
因版权原因,仅展示原文概要,查看原文内容请购买。