基于GPU的闭合频繁项集挖掘方法
- 格式:pdf
- 大小:219.48 KB
- 文档页数:3
基于分布式全局频繁项集挖掘算法的研究摘要:随着信息技术的飞速发展,数据库技术的不断更新,社会各个领域的数据信息增长趋势飞快,如何能够从海量数据中提取到具有实际应用价值的信息是目前数据挖掘领域中的重点研究问题。
本文提出了一种分布式的全局频繁项集挖掘算法(bfm-mgfis),与传统的全局频繁模式挖掘算法(fdm)相比能够有效提高算法的计算效率。
关键词:数据挖掘;关联规则;算法研究中图分类号:tp311.13 文献标识码:a 文章编号:1007-9599 (2012) 24-0156-021 数据挖掘的基本过程1.1 问题定义。
对业务问题进行详细分析,归类数据挖掘的问题,了解其应用具体范围,掌握用户需要实现的最终目标,发现某种有利用价值的知识。
1.2 数据准备。
在进行数据挖掘之前完成必要的准备工作,包括数据选择、预处理、数据转换、数据分割和数据压缩等等。
1.3 数据挖掘。
数据挖掘是整个数据挖掘过程的核心,也是发掘知识的关键点。
数据挖掘主要是利用相关算法从已经完成预处理的数据中发现内在模式,要将数据挖掘类型、数据挖掘方法、数据挖掘效率等问题综合考虑,再选择适当的算法从数据中发掘用户需要的知识,最终通过特定的方式将其表达出来。
1.4 模式评估。
经过数据挖掘得到的内在模式不能够将数据的真是含义正确反映出来,并不存在具体的实际利用价值,因此,需要对经过数据挖掘的模式重新进行评估,将结果转换成为用户能够理解的方式进行表达,或者通过可视化界面显示出来。
数据挖掘过程是一个反复循环的过程,其中包含了多种反馈回路,如果某一个步骤不能够到底预定的目标,则需要立刻返回到上一个步骤进行调整之后重新执行,因此,数据挖掘过程属于一种螺旋式的上升过程。
2 分布式关联规则挖掘2.1 无主站点的通信模式。
当每个站点从本地数据库得到局部数据模型之后,再将每个候选集数据分别映射到已经确认的站点中进行计算,每个站点都得到了全局性规则部分内容之后完成合并工作,使得最终获取到的数据是完整的全局性规则。
一种基于FP-Growth的频繁项目集并行挖掘算法章志刚;吉根林【期刊名称】《计算机工程与应用》【年(卷),期】2014(000)002【摘要】Algorithm FP-Growth is a classic algorithm for mining frequent item sets which is based on frequent pattern tree. In order to improve the efficiency of algorithm FP-Growth for mining association rules from massive datasets, parallel FP-Growth algorithm FPPM is presented. The algorithm is based on Map/Reduce model, and the local frequent pattern tree of each computing node is built, these local trees are mined to get local frequent item sets, and local frequent item sets are merged into global frequent item sets. After the statistics of the local frequent item sets, a complete result is got. In this paper, the idea of FPPM is introduced and its performance is studied. The experimental results show that the parallel algo-rithm FPPM has high scalability.%FP-Growth算法是基于FP树挖掘频繁项目集的经典算法,为提高FP-Growth算法挖掘大规模数据频繁项目集的效率,提出了一种基于FP-Growth的频繁项目集并行挖掘算法FPPM。
数据流中闭频繁项集的并行挖掘算法
冯忠慧;尹绍宏
【期刊名称】《软件工程师》
【年(卷),期】2018(021)008
【摘要】闭频繁项集包含了关于频繁项集的完整信息,可显著减少频繁项集挖掘所产生的模式数量,在一定程度上降低了内存开销、提高了时间效率.数据流的特性决定了它需要更高效的挖掘算法,为此使用分治策略,提出一种并行化闭频繁项集挖掘算法PCFI.该算法采用垂直数据格式存储项集的事务,通过对事务集的集合运算,可快速得到项集的支持度计数,合并具有相同事务集的频繁项,得到初始生成子,降低了搜索空间的规模.采用分治策略对初始生成子进行并行处理,得到约简前序集和约简后序集,在挖掘过程中不断地对每一生成子的搜索空间进行减枝,得到更小的约简后序集,从而减少对冗余数据的处理.实验分析表明,该算法的性能优于先前设计的算法.【总页数】5页(P10-14)
【作者】冯忠慧;尹绍宏
【作者单位】天津工业大学软件工程系,天津 300387;天津工业大学软件工程系,天津 300387
【正文语种】中文
【中图分类】TP311.5
【相关文献】
1.数据流中基于滑动窗口的闭序列模式挖掘算法 [J], 黄钧钧;谢伙生
2.一种基于后缀项表的并行闭频繁项集挖掘算法 [J], TANG Ying-feng;CHEN Shi-ping
3.数据流中基于滑动窗口的最大频繁项集挖掘算法 [J], 杨路明;刘立新;毛伊敏;谢东
4.MRClose:一种基于MapReduce的并行闭频繁项集挖掘算法 [J], 胡娟;肖文;
5.数据流中闭频繁项集的并行挖掘算法 [J], 冯忠慧;尹绍宏;
因版权原因,仅展示原文概要,查看原文内容请购买。
数据挖掘的四大方法随着大数据时代的到来,数据挖掘在各行各业中的应用越来越广泛。
对于企业来说,掌握数据挖掘的技能可以帮助他们更好地分析数据、挖掘数据背后的价值,从而提升企业的竞争力。
数据挖掘有很多方法,在这篇文章中,我们将讨论四种常见的方法。
一、关联规则挖掘关联规则挖掘是数据挖掘中常用的方法之一。
它的基本思想是在一组数据中挖掘出两个或多个项目之间的相关性或关联性。
在购物中,关联规则挖掘可以被用来识别哪些产品常常被同时购买。
这样的信息可以帮助商家制定更好的促销策略。
关联规则挖掘的算法主要有 Apriori 和 FP-Growth 两种。
Apriori 算法是一种基于候选集搜索的方法,其核心思路是找到频繁项集,然后在频繁项集中生成关联规则。
FP-Growth 算法则是一种基于频繁模式树的方法,通过构建 FP-Tree 实现高效挖掘关联规则。
二、聚类分析聚类分析是另一种常用的数据挖掘方法。
它的主要目标是将数据集合分成互不相同的 K 个簇,使每个簇内的数据相似度较高,而不同簇内的数据相似度较低。
这种方法广泛应用于市场营销、医学、环境科学、地理信息系统等领域。
聚类分析的算法主要有 K-Means、二分 K-Means、基于密度的DBSCAN 等。
其中,K-Means 是一种较为简单的方法,通过随机初始化 K 个初始中心点,不断将数据点归类到最近的中心点中,最终形成 K 个簇。
DBSCAN 算法则是一种基于密度的聚类方法,而且在数据分布比较稀疏时表现较好。
三、分类方法分类方法是一种利用标记过的数据来训练一个分类模型,然后使用该模型对新样本进行分类的方法。
分类方法的应用非常广泛,例如将一封电子邮件分类为垃圾邮件或非垃圾邮件等。
常见的分类方法有决策树、朴素贝叶斯、支持向量机等。
决策树是一种易于理解、适用于大数据集的方法,通过分类特征为节点进行划分,构建一颗树形结构,最终用于样本的分类。
朴素贝叶斯是一种基于贝叶斯定理的分类方法,其核心思想是计算不同类别在给定数据集下的概率,从而进行分类决策。
在线挖掘数据流滑动窗口中频繁闭项集
敖富江;杜静;颜跃进;黄柯棣
【期刊名称】《系统工程与电子技术》
【年(卷),期】2009(031)005
【摘要】在线挖掘滑动窗口中的频繁闭项集是一类重要的数据流挖掘问题.提出了一种新的频繁闭项集挖掘算法FPCFI-DS.该算法能够在有限的存储空间中高速挖掘数据流滑动窗口中的频繁闭项集,并且能够在任意时刻维护当前窗口中精确的频繁闭项集.对于第一个窗口中的数据,FPCFI-DS算法采用单遍过程FPCFI进行挖掘,挖掘结果被保存于一棵全局闭项集树GCT中.当窗口向前滑动时,FPCFI-DS算法采用更新挖掘方式快速挖掘出当前窗口中的频繁闭项集.实验结果表明,FPCFI-DS算法的空间效率和时间效率都显著优于同类经典算法Moment.
【总页数】6页(P1235-1240)
【作者】敖富江;杜静;颜跃进;黄柯棣
【作者单位】国防科学技术大学机电工程与自动化学院,湖南,长沙,410073;国防科学技术大学计算机学院,湖南,长沙,410073;国防科学技术大学计算机学院,湖南,长沙,410073;国防科学技术大学机电工程与自动化学院,湖南,长沙,410073
【正文语种】中文
【中图分类】TP311
【相关文献】
1.滑动窗口中近期数据流频繁项集挖掘 [J], 周勇;韩君;程春田
2.滑动窗口中数据流最大频繁项集挖掘算法研究 [J], 尹绍宏;单坤玉;范桂丹
3.滑动窗口中数据流频繁项集挖掘方法 [J], 张月琴
4.基于向量的数据流滑动窗口中最大频繁项集挖掘 [J], 徐嘉莉;陈佳;胡庆;黄波;郭红霞
5.数据流时间窗口中闭频繁项集的在线挖掘 [J], 姜苗;倪志伟;孟金华;周之强
因版权原因,仅展示原文概要,查看原文内容请购买。
实验一频繁模式挖掘算法(Apriori)一、实验目的1、理解频繁模式和关联规则2、掌握频繁模式挖掘算法Apriori3、为改进Apriori打下基础二、实验内容1、选定一个数据集(可以参考教学中使用的数据集)2、选择合适的实现环境和工具实现算法,本次试验采用的是C++3、根据设置的最小支持度和置信度,给出数据集的频繁模式集三、实验原理该算法的基本思想是:Apriori使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。
首先,通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合。
该集合记作L1.然后,L1用于找频繁2项集的集合L2,L2用于找L3,如此迭代,直到不能再找到频繁k项集。
找每个Lk需要一次数据库全扫描。
Apriori性质:频繁项集的所有非空子集也必是频繁的。
Apriori算法主要包括连接步和剪枝步两步组成。
在连接步和剪枝步中采用Apriori性质可以提高算法的效率。
四、实验要求1、数据集具有一定的代表性,可以使用数据库技术管理2、最小支持度和置信度可以设置3、实现界面友好4、提交实验报告:实验题目、目的、数据集描述、实验环境、过程、结果和分析等。
五、实验步骤1、所采用的数据集对于数据集,取最小支持度min_sup=2,最小置信度min_conf=0.8。
2、算法步骤①首先单趟扫描数据集,计算各个一项集的支持度,根据给定的最小支持度闵值,得到一项频繁集L1。
②然后通过连接运算,得到二项候选集,对每个候选集再次扫描数据集,得出每个候选集的支持度,再与最小支持度比较。
得到二项频繁集L2。
③如此进行下去,直到不能连接产生新的候选集为止。
④由频繁项集产生关联规则,关联规则产生步骤如下:1)对于每个频繁项集l,产生其所有非空真子集;2)对于每个非空真子集s,如果support_count(l)/support_count(s)>=min_conf,则输出 s->(l-s),其中,min_conf是最小置信度阈值。
频繁项集与关联规则
摘要:
一、频繁项集的定义与性质
1.频繁项集的概念
2.频繁项集的性质
3.频繁项集的计算方法
二、关联规则的定义与分类
1.关联规则的概念
2.关联规则的分类
3.关联规则的应用场景
三、关联规则挖掘算法
1.Apriori算法
2.Eclat算法
3.FP-growth算法
正文:
一、频繁项集的定义与性质
频繁项集是关联规则挖掘中的一个重要概念,它表示在数据集中出现频率较高的项的集合。
频繁项集有三个重要的性质:幂等性、无序性和传递性。
计算频繁项集的方法有多种,如基于频数的算法、基于排序的算法和基于哈希的算法等。
二、关联规则的定义与分类
关联规则是指在数据集中,两个或多个项之间存在的关联关系。
关联规则可以分为简单关联规则、时序关联规则和多维关联规则等。
关联规则广泛应用于购物篮分析、网络流量分析和医疗数据分析等领域。
三、关联规则挖掘算法
关联规则挖掘算法是挖掘关联规则的方法,常见的算法有Apriori算法、Eclat算法和FP-growth算法等。
Apriori算法是一种基于频繁项集的算法,它通过迭代计算来寻找所有频繁项集和关联规则。
Eclat算法是一种基于树结构的算法,它通过构建树结构来计算频繁项集和关联规则。
FP-growth算法是一种基于前缀的算法,它通过存储和计算前缀树来快速找到频繁项集和关联规则。
在实际应用中,关联规则挖掘算法可以帮助企业分析客户购买行为,发现潜在的销售机会,提高销售额;也可以帮助医生发现患者的疾病规律,提高医疗水平。
实验三、应用 Apriori 算法挖掘频繁项集学院计算机科学与软件学院•实验目的:(1)熟悉 VC++编程工具和 Apriori 频繁项集挖掘算法。
(2)根据管理层的需求,确定数据挖掘的任务,明确数据挖掘的功能,也就是明确要挖掘什么。
(3)由确定的数据挖掘任务,从实验一处理后的结果中,采用切块或切片等联机分析处理技术,选择出挖掘任务相关数据。
(4)用 VC++编程工具编写 Apriori 算法的程序,对任务相关数据运行 Apriori算法,挖掘出所有的频繁项集。
1.写出实验报告。
•实验原理:1 、Apriori 算法Apriori 使用一种称作逐层搜索的迭代方法,k 项集用于探索(k+1)项集。
首先,通过扫描数据库,累计每个项的计数,并收集满足最小支持度的项,找出频繁 1 项集的集合。
该集合记作 L 1 。
然后,L 1 用于找频繁 2 项集的集合L 2 ,L 2 用于找 L 3 ,如此下去,直到不能再找到频繁 k 项集。
找每个 L k 需要一次数据库全扫描。
2、提高频繁项集逐层产生的效率Apriori 性质:频繁项集的所有非空子集也必须是频繁的。
三、实验内容:1、实验内容在给定的数据中提取统一购物篮购买的商品信息,由这些数据构成事务数据库 D,挖掘其中的频繁项集 L。
挖掘频繁项集的算法描述如下:Apriori 算法:使用逐层迭代找出频繁项集输入:事务数据库 D;最小支持度阈值。
输出:D 中的频繁项集 L。
(1) L 1 = find_frequent_1-itemsets(D); // 挖掘频繁 1-项集,比较容易(2) for (k=2;L k-1 ≠Φ ;k++) {(3) C k = apriori_gen(L k-1 ,min_sup); // 调用 apriori_gen 方法生成候选频繁k-项集分为两步:合并、减枝(4) for each transaction t ∈ D { // 扫描事务数据库 D(5) Ct = subset(C k ,t);(6) for each candidate c ∈ Ct(7) c.count++; // 统计候选频繁 k-项集的计数(8) }(9) L k ={c ∈ Ck|c.count≥min_sup} // 满足最小支持度的 k-项集即为频繁 k-项集(10) }(11) return L= ∪ k L k ; // 合并频繁 k-项集(k>0)算法在根据频繁 k-1 项集生成频繁 K 项集过程中要计算频繁 K 项集中每个元素的支持度,并计算 K 项集中每个 k-1 项子集是否在 F k-1 中,上述两条任何一条不满足,则删去这个 K 项集中的元素。
基于图的频繁项集挖掘
刘丽
【期刊名称】《湖南城市学院学报(自然科学版)》
【年(卷),期】2009(018)003
【摘要】通过对Apriori算法的频繁项目集的分析研究,给出了基于图的频繁项集挖掘算法.该算法在求频繁K-项集的过程中只需一次扫描数据库,避免了Apriori算法需多次扫描数据库的不足.同时,由于在有向图中利用有限节点之间的路径求频繁K-项集,该算法减少了Apriori算法中需多次进行连接运算的不足.
【总页数】3页(P68-70)
【作者】刘丽
【作者单位】华中科技大学,计算机学院,武汉,430074;长沙航空职业技术学院,计算机与信息工程系,长沙,410014
【正文语种】中文
【中图分类】TP311.13
【相关文献】
1.基于图的四叉链表存储结构的最大频繁项集挖掘算法 [J], 王春华;宁慧;邹韵;郭江鸿
2.基于图和双向搜索的频繁项集挖掘算法 [J], 刘芳
3.一种基于无向项集图的频繁项集挖掘算法 [J], 黄龙军;章志明;段隆振;黄明和
4.基于MapReduce的并行频繁项集挖掘算法研究 [J], 刘卫明;张弛;毛伊敏
5.基于Spark框架的大数据局部频繁项集挖掘算法设计 [J], 王黎;吕殿基
因版权原因,仅展示原文概要,查看原文内容请购买。
fp-growth算法公式FP-growth算法是一种用于频繁项集挖掘的数据挖掘算法。
它通过构建一种称为FP树的数据结构来高效地发现频繁项集。
本文将介绍FP-growth算法的原理和步骤,并解释如何利用该算法进行频繁项集挖掘。
一、FP-growth算法原理FP-growth算法的核心思想是利用数据压缩和递归技术来高效地挖掘频繁项集。
它首先通过扫描事务数据库,统计每个项的频率,并根据频率降序排序。
然后,构建FP树,其中每个节点代表一个项,节点上的计数表示该项的频率。
最后,通过递归地挖掘FP树,找出频繁项集。
二、FP-growth算法步骤1. 构建频繁1项集:对事务数据库进行扫描,统计每个项的频率,并根据频率降序排序,得到频繁1项集。
2. 构建FP树:对于每个事务,按照频繁1项集的顺序,将事务中的项插入FP树中。
如果树中已经存在相同的项,则增加其计数;否则,在树中新增一个节点。
构建FP树的过程可以通过递归实现。
3. 构建条件模式基:对于每个频繁1项集,找出其对应的条件模式基。
条件模式基是指以频繁1项集为后缀的路径集合。
4. 递归挖掘FP树:对于每个频繁1项集,依次构建条件FP树,然后递归地挖掘该树,找出频繁项集。
递归的停止条件是树为空或只含有一个节点。
三、FP-growth算法实例假设有如下事务数据库:T1:{A, B, C, E}T2:{B, C}T3:{A, B, D}T4:{A, C, D, E}T5:{A, C, E}1. 构建频繁1项集:统计每个项的频率得到 {A: 4, B: 3, C: 4, D: 2, E: 3},根据频率降序排序得到 {A, C, B, E, D}。
2. 构建FP树:依次将事务插入FP树中,得到如下树结构:- 根节点- A (4)- C (3)- E (2)- B (1)- C (1)- E (1)- D (1)- C (1)- E (1)3. 构建条件模式基:对于每个频繁1项集,找出其对应的条件模式基。
基于MapReduce的频繁闭项集挖掘算法改进付婷婷;杨世平【摘要】挖掘频繁闭项集(CFI)在许多实际应用中起着重要的作用.传统的数据挖掘算法中常用FP增长算法和Apnori算法来挖掘频繁项集.然而,内存需求和计算成本成为CFI挖掘算法的瓶颈,尤其是在从大型数据集中挖掘频繁闭项集时,是一个重要和具有挑战性的问题.针对上述问题,提出一种基于云计算的MapReduce框架的并行AFOPT-close算法,使MapReduce可广泛地用于处理大型数据.此外,用于检查频繁项集是否为完全闭的有效并行算法也要求MapReduce平台进一步完善其性能.【期刊名称】《微型机与应用》【年(卷),期】2015(034)024【总页数】4页(P66-69)【关键词】MapReduce;频繁闭项集;FP增长算法【作者】付婷婷;杨世平【作者单位】贵州大学计算机科学与技术学院,贵州贵阳550025;贵州大学计算机科学与技术学院,贵州贵阳550025;贵州大学明德学院,贵州贵阳550004【正文语种】中文【中图分类】TP3-0频繁闭项集挖掘(Closed Frequent Itemset,CFI)在1999年由 Pasquier等人提出[1]。
作为一种代替传统频繁项集挖掘(Frequent Itemset Mining,FIM)的新算法,CFI挖掘的优点在于在相同的频繁项集挖掘效率下大大降低了冗余规则并且增加了挖掘的效率和有效性。
自CFI出现以来一直被广泛地研究,现有的CFI 挖掘算法可分为两类:候选项集生成和检测方法[1]和模式增长方式[2-4]。
这些算法在处理小数据集或者支持度阈值较高时有良好的性能,但是当处理大数据集或者支持度阈值变小时内存运行开销将大幅度增加。
一些早期的工作重点在于使用PC集群运行算法来加快挖掘速度,这样可以提高挖掘性能,但是也对诸如负载平衡、数据分区、通信成本最小化、因通信节点失效引起的错误等问题提出了新的挑战。
一种挖掘频繁项的新方法
陈冰;张化祥
【期刊名称】《计算机技术与发展》
【年(卷),期】2008(018)008
【摘要】介绍了关联规则挖掘的情况,然后对关联规则挖掘算法进行分析,并在此分析的基础上对经典的Apriori算法作出了进一步的改进,从而提出了这种改进的关联规则挖掘算法--Apriori-New算法.Apriori-New算法只需对数据库扫描一次,并在扫描过程中通过不断将被标记为频繁项的项集提取出来,最终找出所有的频繁项集.通过一个简单的实例说明了该算法的扫描过程,从而体现了该Apriori-New算法的效率及其所具有的实用性.
【总页数】4页(P118-120,125)
【作者】陈冰;张化祥
【作者单位】山东师范大学,信息科学与工程学院,山东,济南,250014;山东师范大学,信息科学与工程学院,山东,济南,250014
【正文语种】中文
【中图分类】TP391
【相关文献】
1.项约束频繁项集挖掘的新方法 [J], 李英杰
2.一种基于单事务项集组合的频繁项集挖掘算法 [J], 曾波
3.一种挖掘频繁项集和频繁闭包项集的算法 [J], 杨红菊;梁吉业
4.一种基于后缀项表的并行闭频繁项集挖掘算法 [J], TANG Ying-feng;CHEN Shi-ping
5.一种基于上三角频繁项集矩阵的频繁模式挖掘算法 [J], 王文正;王文平;许映秋;谈英姿
因版权原因,仅展示原文概要,查看原文内容请购买。
基于MapReduce的频繁项集并行挖掘算法马强;杨金民【期刊名称】《计算机应用与软件》【年(卷),期】2015(000)009【摘要】Existing mining algorithms of FP-growth frequent itemset has low time and space efficiency problem when dealing with large data,and with the data increase the memory usage can no longer satisfy to compress and store the data to be minded in a single memory. Therefore,the paper proposes a MapReduce model-based parallel mining algorithm for frequent itemset.The algorithm adopts a way which directly scans value based on key-value pairs to look for the conditional patternbase.Meanwhile,it also constructs a new condition pattern tree NFP-tree by adding a domain space with frequent item prefix in original FP-tree tree node,and that makes it possible to get the corresponding frequent itemsets by constructing the tree once and traverse once on the condition pattern base of a frequent item.This algorithm is verified and analysed on Hadoop platform,experimental results show that the algorithm is more efficient than the traditional FP-growth algorithm by an average increase of 1 6.6%.%现有FP-growth频繁集挖掘算法在处理大数据时存在时空效率不高的问题,且内存的使用随着数据的增加已经无法满足把待挖掘数据压缩存储在单个内存中,为此,提出一种基于MapReduce模型的频繁项集并行挖掘算法。
实验三、应用 Apriori 算法挖掘频繁项集学院计算机科学与软件学院•实验目的:(1)熟悉 VC++编程工具和 Apriori 频繁项集挖掘算法。
(2)根据管理层的需求,确定数据挖掘的任务,明确数据挖掘的功能,也就是明确要挖掘什么。
(3)由确定的数据挖掘任务,从实验一处理后的结果中,采用切块或切片等联机分析处理技术,选择出挖掘任务相关数据。
(4)用 VC++编程工具编写 Apriori 算法的程序,对任务相关数据运行 Apriori算法,挖掘出所有的频繁项集。
1.写出实验报告。
•实验原理:1 、Apriori 算法Apriori 使用一种称作逐层搜索的迭代方法,k 项集用于探索(k+1)项集。
首先,通过扫描数据库,累计每个项的计数,并收集满足最小支持度的项,找出频繁 1 项集的集合。
该集合记作 L 1 。
然后,L 1 用于找频繁 2 项集的集合L 2 ,L 2 用于找 L 3 ,如此下去,直到不能再找到频繁 k 项集。
找每个 L k 需要一次数据库全扫描。
2、提高频繁项集逐层产生的效率Apriori 性质:频繁项集的所有非空子集也必须是频繁的。
三、实验内容:1、实验内容在给定的数据中提取统一购物篮购买的商品信息,由这些数据构成事务数据库 D,挖掘其中的频繁项集 L。
挖掘频繁项集的算法描述如下:Apriori 算法:使用逐层迭代找出频繁项集输入:事务数据库 D;最小支持度阈值。
输出:D 中的频繁项集 L。
(1) L 1 = find_frequent_1-itemsets(D); // 挖掘频繁 1-项集,比较容易(2) for (k=2;L k-1 ≠Φ ;k++) {(3) C k = apriori_gen(L k-1 ,min_sup); // 调用 apriori_gen 方法生成候选频繁k-项集分为两步:合并、减枝(4) for each transaction t ∈ D { // 扫描事务数据库 D(5) Ct = subset(C k ,t);(6) for each candidate c ∈ Ct(7) c.count++; // 统计候选频繁 k-项集的计数(8) }(9) L k ={c ∈ Ck|c.count≥min_sup} // 满足最小支持度的 k-项集即为频繁 k-项集(10) }(11) return L= ∪ k L k ; // 合并频繁 k-项集(k>0)算法在根据频繁 k-1 项集生成频繁 K 项集过程中要计算频繁 K 项集中每个元素的支持度,并计算 K 项集中每个 k-1 项子集是否在 F k-1 中,上述两条任何一条不满足,则删去这个 K 项集中的元素。