基于约束的关联规则

格式：ppt
大小：126.50 KB
文档页数：21

下载文档原格式

基于空间布局约束的拓扑关联规则挖掘

目标对象 Ⅳ ，其类别为ｉ， Ⅳ ∈ ）丁（ｋ即之间存在表１中的某
性质用于表示ｍ个拓扑关系的二进制数Ｐ和ｑＰ对应，
的空间事务为
，对应的空间事务为，ｑ
ｓ的充Ｌ
种拓扑关系，就将其转为相应的二进制数；最后把所有的这些二进制数按非目标对象类的顺序，排列构成二进制数，并
包含空问布局约束的具有（一）１个共同项的一目集连接，生项成一个包含空间布局约束的候选（１一目集；二是将包含）项
空间布局约束的（一）目集与频繁１项目集进行一项扩展ｋ１一项一
作者简介：方
［（７－），￣１８，男副教授、硕士，研方向：Ｊ１９主数据挖Ｅｍａ：ｑｚｊ＠１３ｏ－ｉｃｗｊｆ６．ｒｌｓｇｃｎ
间关联，本文将采用基于空间事务的挖掘方法，以空间拓扑关联为例，介绍多空间关系模式下挖掘包含空间布局约束的
掘，数据库技术，地理信息系统
收稿刚啊：０１４１２１— —１０
第３卷７
第１期８
方
刚：基于空间布局约束的拓扑关联规则挖掘度和置信度的定义与传统空间关联规则挖掘类似。
３９
输出一个整数实现过程：先将非目标对象类按序排列；然后根据表１将空间事务的拓扑关系转为二进制数；即若目标对象与非
拓扑关联规则，但其却存在大量的重复候选项和冗余计算。为此，本文提出一种基于空间布局约束的拓扑关联规则挖掘算法ＴＲＳＣ（ｏｏｏｙｓｃａｏｕｅｎｎａｅｎＡＭＢＬＴｐｌｇｏｉｔｎｌＭｉｉｇＢｓｄＡｓｉＲｏ

关联规则概念

由散列函数H（x,y）=[(order of x)*10+(order of y)] mod 7创建散列表H2
24
三、Apriori算法的改进
2.事务压缩不包含任何K-项集的事务，不可能包含任何（K+1）-项集，可对这些事务加上删除标志,扫描数据库时不再考虑。
25
三、Apriori算法的改进
29
请老师、同学们批评指正！
30
26
三、Apriori算法的改进
3.划分
第1遍
找出局部中每一部分的频集（1次扫描）
第2遍结合局部频集形成候选项集
在候选项集中找出全局频集（1次扫描）
D中事务
将D划分成n 部分
D中频集
通过划分挖掘
27
三、Apriori算法的改进
4.选样
基本思想是在给定数据的一个子集挖掘。先使用从数据库中抽取出来的采样得到一些在整个数据库中可能成立的规则，然后对数据库的剩余部分验证这个结果。缺点：产生的结果不精确。
13
二、Apriori算法及举例
1.连接步：
例： L ={abc, abd, acd, ace, bcd} 3

Self-joining: L3 ⊕ L3

abcd from abc and abd
acde from acd and ace
14
二、Apriori算法及举例
2.剪枝步：Ck是Lk的超集，它的成员可以是频繁的，也可以不是频繁的，但所有的频繁k-项集都包含在 Ck中。扫描数据库，确定Ck中每个候选k-项集的计数，将计数值≥最小支持度计数的所有候选k-项集确定到Lk中。然而，Ck可能很大，这样所涉及到的计算量就很大。这时使用Apriori性质：如果一个候选 k-项集的（k-1）-项集不在Lk-1中，则该候选也不可能是频繁的，从而可以从Ck中删除。

基于约束的序列模式关联规则挖掘算法

基于约束的序列模式关联规则挖掘算法张钰;刘玉文【摘要】约束关联规则是数据挖掘的一个主要方向,可以根据用户给定的约束条件针对性的挖掘.目前大多数的研究都集中在约束频繁项集挖掘方面,很少进行序列模式的约束关联挖掘.本文把序列模式和约束进行结合,提出一种基于约束的序列模式关联规则挖掘算法.它同时处理两类约束:反单调性约束和单调性约束.可以根据约束条件挖掘数据间的因果关联关系.通过实验验证,该算法在运行效率上达到了较好效果.【期刊名称】《太原师范学院学报（自然科学版）》【年(卷),期】2015(014)001【总页数】6页(P44-48,88)【关键词】序列;单调性约束;反单调性约束;约束频繁项集;序列关联规则【作者】张钰;刘玉文【作者单位】蚌埠医学院,安徽蚌埠233000;蚌埠医学院,安徽蚌埠233000【正文语种】中文【中图分类】TP311序列模式关联规则[1]主要描述数据之间的前后或因果关系,要求各事件按照发生时间的先后次序进行登记,形成一个事件序列<a1,a2,…,an>,然后在序列的基础上进行关联规则挖掘．在商业领域,序列模式关联规则可以用来预测顾客的购买行为,优化商品销售策略,促进商品销售．例如A⟹B,这条规则表示顾客购买了商品A之后,往往会接着购买商品B．然而序列模式关联挖掘只能找出数据间的前后关系,在通常情况下会出现3个问题:1)可能产生大量不相关或不感兴趣的规则;2)用户不能参与到挖掘过程中,不能进行聚焦式的挖掘;3)关联性定义只依赖于支持度和置信度,没有相关约束条件．所以本文提出一个基于约束的序列模式关联挖掘算法,允许用户通过设置相关约束参数来进行序列模式的挖掘．该算法包括3个步骤:第一步把数据按时间进行排序,转换成序列模式事务数据库．第二步挖掘符合约束条件的频繁序列;第三步产生关联规则．文献[2]提出了一个序列模式正负关联规则挖掘算法,讨论了序列模式关联规则的挖掘过程．文献[3]提出了一种基于约束的关联规则挖掘算法,该算法给出了一个基于FP-Growth约束处理方法,FP-Growth不产生候选项集,提高了挖掘效率,但在序列模式频繁项集挖掘方面FP-Growth显得无能为力．文献[4]给出了一种松散的反单调性约束,并在Apriori基础上实现了算法,但是由于Apriori的固有缺陷,导致算法效率不高．文献[5]提出了一个带通配符和One-Off条件的序列模式挖掘算法,该算法设计了一种有效的带有通配符的模式挖掘算法,模式在序列中的出现满足One-Off条件,使得模式的任意两次出现都不共享序列中同一位置的字符．定义1[2] (序列)指按发生时间先后排成一列的对象或事件．设I是事件的集合,I={i1,i2,…,in},in表示事件称为项．由k个项组成的序列称为k-序列．设序列a<a1,a2,…,an>和序列b<b1, b2,…, bm>,如果存在i1<i2,<…<in,且a1包含于bi1,a2包含于bi2,…,an包含于bin,则序列a包含于序列b．设D是数据库事务的集合,其中每个事务T是项的集合(T⊆I),每个事务有一个标识(TID)．序列S的支持度是指包含S的事务数占事务总数的百分比,设最小支持度阈值为min-sup．如果Supp(S)≥min-sup,则称S为频繁序列．频繁序列中满足最小置信度的关联规则称为序列模式关联规则．定义2[3] (约束)作用于项I的约束可以看成一个谓词,表示为C:2I→{True,False}．一个序列X满足约束C,当且仅当C(X)=True．定义3 (约束集)指由n个约束组成的集合,表示为SC={C1,C2,…,Cn}．一个序列X 满足约束集SC(即:SC(X)=True),当且仅当C1(X)∧C2(X)∧…∧Cn(X)=True．定义4 (多维约束)指作用于多维属性上的约束．多维属性是指一个项有多个属性．比如把一个商品看成是一个项,该商品有若干个属性,如成本、价格等．定义5[3] (反单调性约束)给定一个约束C,如果序列X不满足C,X的任一超集也不满足C,则称C为反单调性约束．定义6[3] (单调性约束)给定一个约束C,如果序列X满足C,X的任一超集也满足C,则称C为单调性约束．定义7 (约束频繁序列)给定一个约束集SC,对于序列X,如果SC(X)=True,且支持度大于最小支持度阈值,则称X为约束频繁序列．3.1 算法的基本思想本算法同时处理两类约束,即反单调性约束和单调性约束．首先把数据库转换成序列模式事务数据库,然后产生序列模式约束频繁项集,最后产生规则．以表1和表2所列的数据为例来说明算法思想．事务数据库D是以UID为关键字,并按时间先后登记的数据集合,首先要把它转换成序列模式事务数据库．另外,我们考虑两类具体的约束形式:(1)max(S.cost)≤min(S.price);(2)total(S.price)≥100．其中S是序列,cost和price是S中项的两个属性．max(S.cost)指在S中属性cost最大的项．min(S.price)指S中属性price最小的项．显然,第(1)个约束是反单调性约束,第(2)个约束是单调性约束．用C1代表约束max(S.cost)≤min(S.price),用C2代表约束total(S.price)≥100,则约束集SC={C1,C2}．算法的结果是输出符合约束集SC的频繁序列．引理1 设序列X和Y,Y⊆X,C1为反单调性约束,如果C1(Y)=False,则C1(X)=False．证明:由于Y⊆X,而C1为反单调性约束,由反单调性约束的定义可以得到结论．引理2 设序列X和Y,Y⊆X,C1为反单调性约束,如果C1(X)=True,则C1(Y)=True．引理2的证明和引理1相似．引理3 设序列X和Y,Y⊆X,C2为单调性约束,如果C2(Y)=True,则C2(X)=True．证明:由于Y⊆X,而C2为单调性约束,由单调性约束的定义可以得到结论．引理4 设序列X和Y,Y⊆X,C2为单调性约束,如果C2(X)=False,则C2(Y)=False．引理4的证明和引理3相似．定理1 设X,Y是两序列,Y⊆X,C1和C2分别为反单调性约束和单调性约束．(1)如果C1(Y)=False,则C1(X)∧C2(X)=False．(2)如果C1(Y)=True,则可能存在C1(X)∧C2(X)=True．证明:(1)因为Y⊆X,由引理1可知C1(X)=False,所以C1(X)∧C2(X)=False．(2)因为Y⊆X,如果C1(Y)=True,且C1为反单调性约束,所以可能存在C1(X)=True;又因为C2为单调性约束,也可能存在C2(X)=True,所以可能存在C1(X)∧C2(X)=True．利用定理1可以有效地减少候选序列的产生．定理2 设C1为反单调性约束,对序列X、Y、Z有,如果,则证明:因为Y∪Z⊆X∪Y∪Z,由引理1可知推论1 设C1为反单调性约束,如果,则项集X∪Y∪Z可能满足例如,序列ABC和序列ABD,如果C1(ABC)∧C1(ABD)∧C1(CD)=True,则序列ABCD可能满足C1(ABCD)=True．产生候选序列是本文算法的主要的步骤之一,很多文献对候选序列的产生提出了改进方法．本文采用文献[6]的方法,首先把频繁(k-1)-序列按照字典顺序排序,对2个频繁(k-1)-序列X和Y(X<Y),先判断表达式X[1]=Y[1]∧X[2]=Y[2]∧…∧X[k-1]=Y[k-1]∧X[k]<Y[k]是否成立,如果成立,X和Y能链接,否则X与Y之后的所有(k-1)-序列都不满足链接条件．另外,由推论1可知,如果X和Y能够链接,还必须得满足两个条件:3.2 算法描述基于约束的序列模式关联规则挖掘算法的核心是约束频繁序列的挖掘,其挖掘步骤如下:Step1 产生频繁1-项集．Step2 客户序列转换成序列模式事务数据库．Step3 产生频繁1-序列．Step4 调用算法2产生满足约束C1的候选k-序列．Step5 计算每个候选k-序列的支持度,如果大于最小支持度阈值,则为满足约束C1的频繁k-序列,并入Sk．Step6 把Sk中满足约束C2的k-序列并入SPk中．Step7 跳转到Step4,直到无法产生候选序列为止．Step8 合并SPk得到所有满足约束C1和C2的频繁序列SP．算法1输入:数据库D,最小支持度min-sup,反单调性约束C1:max(S.cost)≤min(S.price),单调性约束C2:total(S.price)≥100．输出:所有同时满足C1和C2的频繁序列．(1)S1=frequent 1-sequences(2)For(k=2;Sk-1≠0;k++)Do begin(3)Ck=Apriori-gen(Sk-1,C1,min-sup)//调用算法2产生候选k-序列(4)For each custormer-sequence t∈D Do begin(5)Ct=subset(Ck,t)(6)For each candidate c∈Ct(7)c.count++(8)End For(9)Sk={c∈Ck|c.count≥min-sup}(10)SPk={s∈Sk|C2(s)=True}//得到满足C1和C2的频繁k-序列(11)End For(12)Answer=UkSPk算法2(1)Function Aprori-gen(Sk-1,C1,min-sup)(2)For each lx∈Sk-1 Do begin(3)For each ly∈Sk-1∧ly>lx Do begin(4)If lx[1]=ly[1]∧lx[2]=ly[2]∧…∧lx[k-2]=ly[k-2]∧lx[k-1]<ly[k-1] Then(5)If C1(lx[k-1]∞ly[k-1])=True Then(6)c=lx∞ly(7)If(C1(c)=True) Then Ck=c∪Ck//lx和ly满足C1,根据推论1仅需判断c是否满足C1．(8)End If(9)else Break//lx与ly后面的序列都不能连接,跳出此次循环．(10)End If(11)End for(12)End for(13)Return Ck;(14)End Function3.3 例题分析以表1提供的数据库为例,反单调性约束C1:max(S.cost)≤min(S.price),单调性约束C2:total(S.price)≥100,最小支持度为20%．(1)求出频繁1-项集．L1={A,B,C,D,E}．(2)产生序列模式事务数据库．以UID为关键字产生用户的序列模式事务数据库SD,表3所示．方括号[]表示序列的一个项,其包含的子项表示在同一时间内产生的事件．比如[(A),(B),(A,B)]表示用户在一次购买中,同时买了A和B．(3)产生频繁1-序列扫描序列模式事务数据库SD得到频繁1-序列S1={(A),(B),(C),(D),(E)}．(4)产生约束频繁2-序列根据S1,求得频繁序列S2={(BC),(BD), (BE),(CD),(CE),(DE)},由于C1(DE)=False,所以删除DE得到S2={(BC),(BD),(BE),(CD),(CE)},其中除BD之外均满足C2,得到满足约束集SC={C1,C2}的约束频繁序列SP2={(BC),(BE),(CD),(CE)}．(5)产生约束频繁3-序列根据S2和推论1,由于C1(DE)=False,所以BD和BE及CD和CE均不满足链接条件,最后得到候选3-序列C3={(BCD), (BCE)},扫描事务数据库,求得频繁序列S3={(BCD),(BCE)},又因为C1(BCD)∧C2(BCD)=True及C1(BCE)∧C2(BCE)=True,所以得到约束频繁3-序列SP3={(BCD),(BCE)}．(6)产生约束频繁4-序列根据S3和推论1,由于C1(DE)=False,所以BCD和BCE不满足链接条件．(7)最后,得到满足约束集SC={C1,C2}的所有约束频繁序列SP={(BC),(BE),(CD),(CE),(BCD),(BCE)}．为了测试算法性能,测试数据选择文献[5]提供的数据,并选择文献[3]中的MCAL算法作为比较对象．在AMDathlon64 8000MHz,2GRAM,WinXP,C#环境下实现了本文算法和MCAL算法．为了表达方便,本文算法用CSAR表示．二者比较如下: 支持度设为20%时,图1显示随着交易数量的增加,两者挖掘时间也随之增加,但CSAR算法要明显优于MCAL算法,因为MCAL算法在频繁项集链接时产生大量候选项集,而且计算频繁项集时多次扫描数据库,浪费了运行时间．而CSAR算法对候选项集进行了有效剪枝,提高了运行效率．图2显示当最小支持度大于32%时,CSAR的运算时间多于MCAL,但当最小支持度小于32%时CSAR的挖掘时间要明显小于MCAL,这是因为随着支持度的减小,频繁项集的数量就会增加,从而会挖掘出大量长项集．因此在长项集挖掘方面CSAR 要优于MCAL．本文给出了约束和序列模式的基本概念,并将两者结合应用在关联规则挖掘过程中,可以根据用约束条件针对性的挖掘数据间之间的因果关联关系．通过实验分析,该算法在运行效率上有较好的性能．但在异构数据,多关系、分布式数据的约束挖掘是今后研究的一个主要方向．【相关文献】[1] Agrawal R, Imielinski T, Swami A. Mining Association Rules between Sets of Items in Large Database[C]//Proceedings of the ACM SIGMOD Conference on Management of Data. Washington, USA: ACM Press, 1993[2] 郭跃斌,翟延富,董祥军,等.基于序列模式的正负关联规则研究[J].山东大学学报(理学版),2007,42 (9): 88-90[3] 李广原,杨炳儒,周如旗.一种基于约束的关联规则挖掘算法[J].计算机科学,2012,39(1):244-247[4] bonchi F,Lucchese C.Trasarti R.Pushing tougher constraints in frequent pattern mining[C]//9th Pacific-Asia Conference on Knowledge Discovery and dataMining.Hanoi,Vietnam,May 2005[5] 吴信东,谢飞,黄咏明,等.带通配符和One-Off条件的序列模式挖掘[J].软件学报,2013,24(8):1804-1815[6] 催贯勋,李梁,王柯柯,等.关联规则挖掘中Apriori算法的研究与改进[J].计算机应用,2010,30(11):2952-2955[7] 宋余庆,朱玉全,孙志挥,等.基于FP-tree的最大频繁项目集挖掘及更新算法[J].软件学报,2003,14(9):1586-1592[8] Anthony J,Lin Wan-chuen.Mining association rules with multi-dimensional constraints[J].The Journal of Systems and Software,2006(79):79-92。

第10章关联规则

4
10.1.1关联规则定义
最小支持度minsup 即用户规定的关联规则必须满最小支持度足的最小支持度, 足的最小支持度,它表示了一组物品集在统计意义上的需满足的最低程度. 上的需满足的最低程度. 最小置信度minconf 即用户规定的关联规则必须满最小置信度足的最小置信度,它反应了关联规则的最低可靠度. 足的最小置信度,它反应了关联规则的最低可靠度.
5
10.1.2关联规则分类
1.基于规则中处理的变量的类别,可以分为布尔 .基于规则中处理的变量的类别, 型和数值型关联规则布尔型关联规则处理的值都是离散的, 布尔型关联规则处理的值都是离散的,种类化它显示了这些变量之间的关系. 的,它显示了这些变量之间的关系. 数值型关联规则处理的是定量数据项(或属性) 数值型关联规则处理的是定量数据项(或属性) 之间的关系, 之间的关系,
I1∧I4→I5 I1∧I5→I4 I4∧I5→I1 I1→I4∧I5 I4→I1∧I5 I5→I1∧I4 confidence=2/2=100% confidence=2/2=100% confidence=2/4=50% confidence=2/2=100% confidence=2/7=28.5% confidence=2/6=33.3%
22
l k ,H1);
if(k>m+1) then begin Hm+1=apriori_gen(Hm) for all hm+1∈ Hm+1 do begin conf=support(
lk
k
)/support(
l k-hm+1);
with
if(conf≥minconf) then l output 规则 -hm+1→hm+1 confidence=conf and lk support=support( );

CH4关联规则挖掘(上课

的所有子集都是频繁的。
2019/8/14
数据挖掘：概念和技术
15
Apriori 够快了吗? — 性能瓶颈
Apriori算法的核心:
用频繁的(k – 1)-项集生成候选的频繁 k-项集
用数据库扫描和模式匹配计算候选集的支持度
Apriori 的瓶颈: 候选集生成
巨大的候选集:
104 个频繁1-项集要生成 107 个候选 2-项集要找尺寸为100的频繁模式，如 {a1, a2, …, a100}, 你
开发一种高效的基于FP-tree的频繁集挖掘算法采用分而治之的方法学：分解数据挖掘任务为小任务避免生成关联规则: 只使用部分数据库!
2019/8/14
数据挖掘：概念和技术
17
用交易数据库建立 FP-tree
TID 100 200 300 400 500
步骤:
Items bought (ordered) frequent items
18
FP-tree 结构的好处
完备: 不会打破交易中的任何模式
包含了序列模式挖掘所需的全部信息
紧密
去除不相关信息—不包含非频繁项支持度降序排列: 支持度高的项在FP-tree中共享
的机会也高
决不会比原数据库大（如果不计算树节点的额外开销)
例子:
2019/8/14
insert into Ck select p.item1, p.item2, …, p.itemk-1, q.itemk-1 from Lk-1 p, Lk-1 q where p.item1=q.item1, …, p.itemk-2=q.itemk-2, p.itemk-1 <

一种基于时态因子约束的关联规则挖掘算法

邵保胜。志青。孟蒋敏
（江工业大学经贸管理学院，江杭州３０２）浙浙１０３
摘要：时间是事物本身固有的性质，掘关联规则的时候把时间因素考虑进去会更符合现实的情挖
况，时态关联规则挖掘是一种考虑带时间约束的关联规则挖掘方法．究如何对关联规则进行时间研上的约束是一个有待解决的问题，用时态因子对关联规则进行时间上的约束是解决问题的一个运
ｐｒｖｉｅａａｅｈｏｎｌｉｔｅｅｉｎｒｓｔｏａｓｉｔｏｒｅｉｇｖｎ．Ｔｈｅｏｄｄｎｄｍｔｏｄｔａａｙｚｎｇｈｅｘｐｒｍｅｔｅｕｌｓｆｓｏｃａｉｎｕｌｓｓｉｅｍｅｈｄｍａｓｔｎｅｅｕｔｒｎｕｔｖ．ｔｏｋｅｈｅｍｉｄｒｓｌｓｍｏｅｉｔｉｉｅ
第４Ｏ卷第１期
２ＮＡＬＯＦＺＨＥＪＡＮＧＩＵＮＩＶＥＲＳＴＹＩＯＦＴＥＣＨＮＣＬＯＧＹＩ
Ｖｏ．ｏ１４０Ｎ．１
ＦｂＯ２ｅ．２１
一
种基于时态因子约束的关联规则挖掘算法
办法，给出时态因子的相关定义后，出基于时态因子的关联规则相关概念，给出了一种基于在提并时态因子约束的关联规则的算法．最后结合实验结果，出了一种关联规则实验结果分析方法，给这
种分析方法使得所挖掘的实际结果更为直观．

第4章关联规则

支持度计数。
Transactions
N
TID
1
2
3
4
5
Items
Bread, Milk
Bread, Diaper, Beer, Eggs
Milk, Diaper, Beer, Coke
Bread, Milk, Diaper, Beer
Bread, Milk, Diaper, Coke
List of
Candidates
大数据应用人才培养系列教材
第四章
关联规则
4.1
关联规则的基本概念
4.2
关联规则的挖掘过程
4.3
关联规则的Apriori算法
4.4
关联规则的 F P - G ro w t h 算法
习题
4.1 关联规则的基本概念
第四章关联规则
关联规则概念最早是由Agrawal等人在1993年首先提出的，最初的
动机是针对购物篮分析问题提出的，其目的是为了发现交易数据库中不
同商品之间的联系规则。具体定义为：从事务数据库、关系数据库和其
他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关
联和相关性。
关联规则挖掘就是从大量的数据中挖掘出描述数据项之间相互联系
的有价值的有关知识。
4.1 关联规则的基本概念
如：项集{面包，尿布}可以用项集{牛奶}扩展，因为“牛奶”
（milk）在字典序下比“面包”（Bread）和“尿布”（
Diapers）都大。
– 尽管这种方法比蛮力方法有明显改进，但是仍然产生大量不
必要的候选。
例如，通过合并{啤酒，尿布}和{牛奶}而得到的候选是不必
要的。因为它的子集{啤酒，牛奶}是非频繁的。

数据挖掘原理算法及应用第3章关联规则挖掘

第3章
关联规则挖掘
图3-1 搜索候选项集和频繁项集过iori算法和它的相关过程的伪代码。
算法3.1
Apriori (发现频繁项目集)
输入：数据集D、最小支持数minsup_count。输出：频繁项目集L。 (1) L1={large 1-itemsets}; //所有支持数不小于 minsup_count 的1
第3章
关联规则挖掘
(1) 发现频繁项目集：通过用户给定的最小支持度，寻找所有频繁项目集，即满足支持度Support不小于 Minsupport的所有项目子集。发现所有的频繁项目集是形成关联规则的基础。 (2) 生成关联规则：通过用户给定的最小可信度，在每个最大频繁项目集中，寻找置信度不小于Minconfidence 的关联规则。
l2 是可连接的，即l1［1］=l2［1］∧l1［2］=l2［2］
∧…∧l1［k-1］<l2［k-1］。条件l1［k-1］<l2［k-1］可以
保证不产生重复，而按照L1，L2， …，Lk-1，Lk， …，Ln
次序寻找频繁项集可以避免对事务数据库中不可能发生的
项集所进行的搜索和统计的工作。连接l1、l2的结果项集是l1 ［1］、l1［2］、 …、 l1［k-1］、l2［k-1］。
第3章
关联规则挖掘
第 3章
3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10
关联规则挖掘
基本概念关联规则挖掘算法 Apriori改进算法不候选产生挖掘频繁项集使用垂直数据格式挖掘频繁项集挖掘闭频繁项集挖掘各种类型的关联规则相关分析基于约束的关联规则矢量空间数据库中关联规则的挖掘
第3章
关联规则挖掘

基于Eclat算法的多种约束关联规则挖掘算法研究

基于Ｅｌ算法的多种约束关联规则挖掘算法研究ｃｔａ
李宏，陈权养，陈建二，私剑峰
（中南大学信息科学与工程学院，湖南长沙４０８）１０３
摘要：在ｃｔＥｌ算法的基础上，将多种约束条件（ａ反单调约束、单调约束、简洁性约束、可转变的约束）整合到关联规则的挖掘过程中，并给出了ＥｌＡＥｌＭ，ｌＳｃｔＡ等相应约束条件下的挖掘算法；实验结果表明所提出的算法是一种十分有效的解决ｃｔ，ａａｃｔＥａ，ａｃｔＥｌＣ基于多种约束条件下的关联规则挖掘算法。关链词：数据挖掘；约束性关联规则；概念格；等价类
ｒｕ
ａｗｍｕｌｉｃｎｓｒｉｔ．一ｉｔ－ｏｔａｎｓｓｔｏｈｐ
ｅｓ
ｒｓｎｅ．ｈｒｓｌｏｅｅｔｄＴｅｕｔｅｆ
０引言
关联规则挖掘是数据挖掘的重要研究内容，首先由Ａｒ－ｇａ
１概念描述
目前基于约束条件的关联规则挖掘所指的通常都是规则约束。规则约束可以分为５：反单调约束、单调约束、简洁性类约束、可转变的约束和不可转变的约束。
定义４可转变的约束（ｏｖｒｂＣｎｔｉ）对于一Ｃｎｅｉｅｓａｔ：ｔｌｏｒｎ
些不属于以上３的约束，如果项集中的项以特定的次序排类列，约束可能成为单调的或反单调的，这类约束称为可转变的约束。可转变的约束包括可转变反单调约束和可转变单调约束。
强可转变约束（ｔｎｌｃｖｒｂｃｎｔｉ）对于一Ｓｏｇｏｅｉｅｓａｔ：ｒｙｔｌｏｒｎｎ
定义３简洁性约束（ｃｎｔｓａｔＳｃｃＣｎｒｎｕｉｏｔｉ）
（）一个项目子集毛１是一个简洁集（ｕｃｃｓｔ，如果ｓｃｎｔ）ｉｅ

第5次课关联规则newppt课件

第5章关联规则关联规则挖掘简介
研究关联规则的目标：发现数据中的规律超市中的什么产品经常会被一起购买；-啤酒与尿布在购买了PC机后，顾客下一步一般购买什么产品；如何自动对WEB文档分类；用户上了CCTV网站后，一般将会去那些其他网站；用户购买了“XXX”书后，一般还会购买什么书; 某一类纳税人在当月未纳税，则其下个月也不纳税的可能性
所有关联规则的数量非常巨大，前面提到5000种商品共有25000 种模式。但可用评分函数的优势，可以将平均运行时间将到一个可以接受的范围。
第5章关联规则
关联规则的基本模型及算法
关于评分函数
注意若P(A=1) ≤Ps，且P(B=1) ≤Ps中任何一个成立。则
P(A=1,B=1) ≤Ps。
因此，可以首先找概率大于Ps的所有单个事件（线性扫描一次）。若事件（或一组事件）大于Ps，则称其为频繁项集（频繁 1项集）。然后，对这些频繁事件所有可能对作为容量为2的候选频繁集合。
项集（itemset）
第5章关联规则关联规则挖掘简介
关于属性值-属性值离散化若数据集的属性都是布尔值，则此数据集中挖掘的关联
规则都是布尔关联规则。其它属性可以进行转换。可以将非布尔值数据转换为布尔数据值。
TID
Age
Salary
1
35
3200
2
43
4600
3
56
3700
4
24
2100
…
…
…
第5章关联规则
关联规则的基本模型及算法
{}
a
b
c
d
e
ab ac ad ae bc bd be
cd ce
de

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 性质:如果模式α在 TDB|f 中是频繁的，则α ∪f 在TDB|f中也一定是频繁的 • 频繁集的生长过程 1.在 TDB|f 中找到相应的频繁项目集β, β 被称为f的条件频繁项目集 2.对于每一个在β中的频繁项目e，找出 TDB|ef 中相应的频繁项目集，这是一个递归的过程
将约束用于频繁集的生成
反单调
no no yes partly no yes partly yes no partly yes no partly yes no partly convertible (yes)
单调
yes yes no partly yes no partly no yes partly no yes partly no yes partly convertible (no)
可转变的约束 1
• 反单调可转变的 1. C(S)既不是单调性约束，也不是反单调性约束； 2.若存在顺序R,使得经R排序后的I具有如下性质：任给 S’∈{suffix_S}, if C(S)=>C(S’) 则C(S)是反单调可转变的
可转变性约束的例子1: Avg(S) V
• 令I为一组以升序排列数值的项目集
• Ca≡Sum(S)<=180 • 使用图表2的交易数据库:support=3 {a,s,b,c,d,e,f}={50,150,10,200,20,80}
Transaction_ID 100 200 300 400 500 Items In Transaction a,e,c,d,,f a,b a,e,c,f a,e,b,c,d,f a,e,b,d
– 如果 S’满足约束 avg(S’) v, 则 S也满足
• {8, 4, 3} satisfies constraint avg(S) 4, so does {9, 8, 4, 3}
简洁性约束
• 一个项目子集Is 是一个简洁集(succinct set), 如果对于某些选择性谓词p,该项目子集能够表示为p(I) ，此处，是一个选择符 • SP2I 是一个强简洁集( succinct power set),如果有一个数目不变的简洁集 I1, …, Ik I, SP 能够用I1, …, Ik 的并、差运算表示出来 be expressed in terms of the strict power sets of I1, …, Ik using union and minus • 约束 Cs 是简洁的假如 SATCs(I)是一个强简洁集
单调/反单调性约束描述
约束规则
vS SV SV SV min(S) v min(S) v min(S) v max(S) v max(S) v max(S) v count(S) v count(S) v count(S) v sum(S) v sum(S) v sum(S) v avg(S) v, { , , } (frequent constraint)
小结
• 常见的4种约束类型 • 规则约束的分类及其性质 I. 单调/反单调 ii. 可转变的 iii.简洁的 • CFG算法及其改进
– 如果 S满足约束 avg(S) v, 则 S’也满足
可转变的约束 2
• 单调可转变的 1. C(S)既不是单调性约束，也不是反单调性约束； 2.若存在顺序R,使得经R排序后的I具有如下性质：任给 S’∈{suffix_S}, if C(S’)=>C(S) 则C(S)是单调可转变的
可转变性约束的例子 2 Avg(S) V
6.6.2 约束的分类
• • • • 单调性约束(monotone constraint) 反单调性约束(anti-monotone constraint) 可转变的约束(convertibale constraint) 简洁性约束(succinct constraint)
约束的有关概念
• • • • 项目集：I={i1,i2,……,im}, 交易：T=<tid,It> 模式S是项目集的子集，S={ij1,ij2,…,ijk} 模式S包含与T,T=<tid,It>,iff S<=It; S’是S的子模式(subpattern)且S 是S’的超模式(superpattern)，if 有S’<=S.
将约束用于挖掘的几种策略
• 去除不满足约束的单个项目 Exam1: Sum(d)=200>180 • 如果α不满足约束，则不必产生α的条件项目集, 也不必产生α的条件数据库TDB | α Exam2: Sum({a,b})=200 • 如果α ∪ β满足约束，则不必对条件数据库 TDB| α 中的其余部分用Ca进行约束检查，此处β是在TDB | α 中的频繁项目集 (No constraint checking in the remaining conditional database TDB| α, if α ∪ β satisfies the constraint.)
几种约束之间的关系
Succinctness Anti-monotonicity Monotonicity
Convertible constraints Inconvertible constraints
频繁数据集应用举例
• 交易数据库TDB如下所示，支持度为 3 频繁项目按照降续排列： a:5; e:4; b:3; c:3; d:3; f:3
– E.g. I={1，3，4，6，8，9, }， R意指升续
• Avg(S) >= v 是反单调可转变的
– 如果 S ’ 是S的一个后缀, 那么avg(S’) >= avg(S)
• {6,8,9} is a suffix of {3,4,6,8,9} • avg({6,8,9})=23/3 avg({3,4,6,8,9})=6
– 兴趣度约束：指定规则兴趣度阈值或统计度量
• 如 (min_support 3%, min_confidence 60%).
• • • • •
假定AllElectronics的一个销售多维数据库有如下关系： Sales(customer_name,item_name,transaction_id) Lives(customer_name,region,city) Items(item_name,category，price) Transaction(transaction_id,day,month,year) (1) mine associations as (2)lives(C,_,”Pudong”)^sales(C,{I},{S})=>sales(C,{J}{T}) (3) from sales (4)where S.year=1999 &&T.year=1999 &&I.category=J.category (5)group by C,I.category (6)having sum(I.price<=100)&&min(J.price)>=500 (7)with support threshold=1% (8)with confidence threshold=50% Lives(C,_,”Pudong”)^Sales(C,”Census_CD”,_)^Sales(C,”MS /Office”,_)=>Sales(C,”MS/SQLSever”,_) [1.5%,65%]
第六章在大型数据库中挖掘关联规则
报告人：张荣祖 2001/11/28
6.6.1 基于约束的挖掘
• 使用约束的必要性 • 在数据挖掘中常使用的几种约束：
– 知识类型约束：指定要挖掘的知识类型如关联规则 – 数据约束：指定与任务相关的数据集
• Find product pairs sold together in Vancouver in Dec.’98.ຫໍສະໝຸດ • 令I为一组以降序排列数值的项目集
– E.g. I={9, 8, 6, 4, 3, 1}， R意指降续
• Avg(S) v 是单调可转变的
– 如果 S ’ 是S的一个后缀, 那么avg(S) avg(S’)
• {8, 4, 3} is a suffix of {9, 8, 4, 3} • avg({9, 8, 4, 3})=6 avg({8, 4, 3})=5
约束的有关概念（续）
• 定义约束: C是作用于项目集I的幂集 (powerset)上的谓词,C(S)=True/False; • 满意模式集(satisfying pattern set) SATc(I)是指那些完全满足约束C的项目集的全体 • 将约束条件用于频繁集的查询无非是找出那些满足C的频繁集
TDB{aecdf,ab,aecf,aebedf,aebd}
Frequent items: a,e,b,c,d,f
f-Conditional database TDB|B {aecd,aed,adbcd} frequent items:a,e,c
TDB|d
TDB|c
TDB|b
TDB|e
频繁集的生长过程
– 维/层次约束:指定所用的维或概念结构中的层
• in relevance to region, price, brand, customer category.
– 规则约束：指定要挖掘的规则形式(如规则模板)
• 单价 (price < $10)的交易项目可能引发购买总额 (sum > $200).
Transaction_ID 100 Items In Transaction a,e,c,d,,f
200 300 400 500
a,b a,e,c,f a,e,b,c,d,f a,e,b,d
频繁数据集应用举例(续)
• 将排序后的每次交易的项目列表的前缀项目映射到条件数据库TDB|f; TDB|d; TDB|c; TDB|b; TDB|e

一种基于关联规则Apriori算法的改进研究

页数:4

基于约束的关联规则

合集下载

基于空间布局约束的拓扑关联规则挖掘

关联规则概念

基于约束的序列模式关联规则挖掘算法

第10章关联规则

CH4关联规则挖掘(上课

一种基于时态因子约束的关联规则挖掘算法

第4章关联规则

数据挖掘原理算法及应用第3章关联规则挖掘

基于Eclat算法的多种约束关联规则挖掘算法研究

第5次课关联规则newppt课件

文档推荐

最新文档

基于约束的关联规则

合集下载

基于空间布局约束的拓扑关联规则挖掘

关联规则概念

基于约束的序列模式关联规则挖掘算法

第10章 关联规则

CH4关联规则挖掘(上课

一种基于时态因子约束的关联规则挖掘算法

第4章 关联规则

数据挖掘原理 算法及应用第3章 关联规则挖掘

基于Eclat算法的多种约束关联规则挖掘算法研究

第5次课关联规则newppt课件

文档推荐

最新文档

第10章关联规则

第4章关联规则

数据挖掘原理算法及应用第3章关联规则挖掘