• 每一个购物篮可以由一个布尔向量表示,可以分 析布尔向量,得到反映商品频繁关联或同时购买 的购买模式,这些模式可以用关联规则的形式表 示。 • 例 购买计算机也趋向于同时购买杀毒软件,可以 表示为computer→antivirus software[support=2%;confidence=60%](6.1) • 意义:分析所有事务的2%显示计算机和杀毒软件 被同时购买;置信度60%意味着购买计算机的 60%页购买了杀毒软件。 • 规则的支持度和置信度是规则兴趣度的两种度量 。它们分别分别反映所发现规则的有用性和确定 性。 • 最小支持度阈值,最小置信度阈值
confidence( A B) P( A / B) sup portcount ( A B) sup portcount ( A)
• 对于每个频繁项集l,产生所有的非空子集 • 对于l的每个非空子集s,如果
sup portcount (t ) min conf sup portcount ( s )
可以从C推出:(1){{a2,a45}:2},是因为 {a2,a45}是{a1,a2,....a50}:2}的子集 (2){{a8,a55}:1},因为{a8,a55}不是 {a1,a2,....a50}:2}的子集,而是{{a1,a2, .....a100}:1的子集。然而,从极大频繁项 集只能断言两个集合{a2,a45},{a8,a55}是 频繁的,但不能推断它们的实际支持度计 数。
• 例6.10 零事务是不包含任何考察项集的事务。 对于指示有趣的模式联系,全置信度,最大 置信度,Kulczynski度量,余弦度量哪个更 好?我们引入不平衡比 不平衡比定义
IR( A, B ) sup( A) sup( B )