关联规则与关联分析教学教材
- 格式:ppt
- 大小:4.15 MB
- 文档页数:37
实验⼆Clementine12购物篮分析(关联规则)实验⼆Clementine12购物篮分析(关联规则)⼀、[实验⽬的]设计关联规则分析模型,通过模型演⽰如何对购物篮分析,并根据细分结果对采取不同的营销策略。
体验以数据驱动的模型计算给科学决策带来的先进性。
⼆、[知识要点]1、购物蓝分析概念;2、管来呢规则算法原理;3、购物蓝分析⼯具;4、Clementine12.0关联规则分析流程。
三、[实验要求和内容]1、初步了解使⽤⼯作流的⽅式构建分析模型;2、理解智能数据分析流程,主要是CRISP-DM⼯业标准流程;3、理解关联规则模型原理;4、设计关联规则分流;5、运⾏该流,并将结果可视化展⽰;6、得出模型分析结论7、运⾏结果进⾏相关营销策略设计。
四、[实验条件]Clementine12.0挖掘软件。
五、[实验步骤]1、启动Clementine12.0软件;2、在⼯作区设计管来呢规则挖掘流;3、执⾏模型,分析计算结果;4、撰写实验报告。
六、[思考与练习]1、为什么要进⾏关联规则分析?它是如何⽀持客户营销的?实验内容与步骤⼀、前⾔“啤酒与尿布”的故事是营销届的神话,“啤酒”和“尿布”两个看上去没有关系的商品摆放在⼀起进⾏销售、并获得了很好的销售收益,这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的⽅法就是购物篮分析,购物篮分析曾经是沃尔玛秘⽽不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长!“啤酒与尿布”的故事产⽣于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理⼈员分析销售数据时发现了⼀个令⼈难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫⽆关系的商品会经常出现在同⼀个购物篮中,这种独特的销售现象引起了管理⼈员的注意,经过后续调查发现,这种现象出现在年轻的⽗亲⾝上。
在美国有婴⼉的家庭中,⼀般是母亲在家中照看婴⼉,年轻的⽗亲前去超市购买尿布。
关联规则与关联分析关联规则是形如“X -> Y”的规则,表示当一些事务包含项集X时,很有可能也包含项集Y。
其中,X和Y是不相交的项集,即X∩Y=∅。
关联规则可以利用数据中的频繁项集来发现,频繁项集是指在数据集中经常共同出现的项集。
关联规则中的支持度(Support)和置信度(Confidence)是用来度量关联性强度的指标。
支持度指一些项集在数据集中的出现频率,而置信度指在一个规则“X -> Y”中,项集X和项集Y同时出现的频率。
关联分析是通过计算频繁项集和关联规则来挖掘数据集中的关联关系。
关联分析的过程涉及两个步骤:第一步是找出频繁项集,即在数据集中出现频率超过预设阈值的项集;第二步是根据频繁项集生成关联规则,并计算支持度和置信度。
在关联分析中,常用的算法有Apriori算法和FP-Growth算法。
Apriori算法是一种经典的关联分析算法,它通过迭代扫描数据集来发现频繁项集。
Apriori算法的核心思想是利用“逐层剪枝”的方法,从单个项集开始,依次生成更高层次的频繁项集,直到不能再生成为止。
Apriori算法的效率相对较低,尤其对于大规模数据集来说,但它的思想也被用于其他关联分析算法的改进和优化。
FP-Growth算法是一种基于前缀树(FP-Tree)的关联分析算法,它通过构建FP-Tree来发现频繁项集。
FP-Growth算法的优点是只需要两次扫描数据集,相对于Apriori算法具有更高的效率。
在构建FP-Tree的过程中,FP-Growth算法通过路径压缩等技术来减少内存消耗。
FP-Growth算法的思想已经被广泛应用,并发展出了各种变种算法和优化策略。
关联规则和关联分析在实际应用中有广泛的应用场景,例如市场篮子分析、交叉销售推荐、用户行为分析等。
通过关联规则和关联分析,可以发现数据集中的隐藏规律和关联关系,为决策和推荐提供有价值的信息。