第7章
大数据分析挖掘—关联规则
主要内容
01
关联规则的概念
02
关联规则挖掘的一般过程
03
Apriori算法
04
FP-Growth算法
05
关联模式评估
大数据分析挖掘——关联规则
7.1基本概念
• 设 I {x1, x2,xm}是项目的集合,其中的元素称为项目 (item),一个集合被称为一个项集,包含k个项的集合称为 k-项集。
项集 支持度计数
{I1,I2} 1
{I1,I3} 2
{I1,I5} 1
{I2,I3} 2
{I2,I5} 3
{I3,I5} 2
4.比较候选项支持度计数与最小支持度min_sup,产生2维最大项目集:
项集 支持度计数
{I1,I3} 2
{I2,I3} 2
{I2,I5} 3
{I3,I5} 2
5.由L2 产生候选项集 C3,比较候选项支持度计数与最小支持度 min_sup,产生3维最大项目集 L3 ,至此算法终止。
• FP-Growth算法(Frequent Pattern-Growth)是另一种 找出频繁项集的方法,与先生成规则再筛选的Apriori算 法不同,FP-Growth算法是将数据库中符合频繁1-项集规 则的事务映射在一种图数据结构中,即FP树,而后据此 再生成频繁项集,整个过程只需要扫描两次数据集。
表7.1 某商店购物清单 Item 2
Item 3
1
香草华夫
香蕉
狗粮
2
香蕉
3
香蕉
4
香草华夫
5
面包
6
牛奶
7
香草华夫
8
酸奶
9