1第五章-挖掘各种类型的关联规则-Jade
- 格式:pptx
- 大小:541.53 KB
- 文档页数:29
数据挖掘复习第五章⼤型数据库中的关联规则挖掘1.什么是关联规则挖掘?从事物数据库,关系数据库和其他信息存储中的⼤量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。
2.为什么要进⾏关联规则挖掘?(动机)发现数据中的规律性。
3.为什么频繁模式挖掘是数据挖掘的基本任务?频繁模式挖掘是许多基本的数据挖掘任务的基础,应⽤⼴泛。
4.⼤型数据库中的关联规则挖掘的过程?①找出所有频繁项集(⼤部分计算集中在这⼀步)②由频繁项集产⽣强关联规则(即满⾜最⼩⽀持度和最⼩置信度的规则) 5.关联规则的分类?①根据规则中所处理的值类型布尔关联规则,量化关联规则②根据规则中设计的数据维单维关联规则,多维关联规则③根据规则集所涉及的抽象层单层关联规则,多层关联规则④根据关联挖掘的各种扩充挖掘最⼤的频繁模式,挖掘频繁闭项集 6.关联规则如何产⽣?(基于Apriori 算法)①对于每个频繁项集l ,产⽣I 的所有⾮空⼦集②对于每个⾮空⼦集s ,如果confs count port l count m in_)(_sup )(_support≥,则输出规则)(s l s -?7.如何提⾼Apriori 算法的有效性?①基于hash 表的项集计数②事务压缩③划分④选样⑤动态项集计数8.Apriori-候选产⽣-检查⽅法优缺点?优:⼤幅度压缩了候选项集的⼤⼩,导致好的性能缺:可能产⽣⼤量的候选项集,可能需要重复扫描数据库,通过模式匹配检查⼀个很⼤的候选集合,对候选项集的⽀持度计算⼗分繁琐 9.FP-树挖掘过程?①为FP 树的每⼀个节点构建条件模式基②从每⼀个条件模式基中构建条件FP 树③递归挖掘条件FP 树,增加频繁模式使其包含两个路径 10.FP 树结构的优点?①完备性:保留了频繁模式挖掘的完整信息;从不打扰任何事务中的⼀个长模式②紧凑性:减少⽆关信息-不频繁项去除;频率的降序排列:更多的频繁项更易被共享;绝不⽐源数据库规模⼤(③分治:根据已经得到的频繁模式划分任务和数据库;导致较⼩的数据库的聚焦的搜索④其他:没有候选产⽣,没有候选测试;压缩数据库;不重复的扫描整个数据库;基本操作-局部频繁项计数和建⽴⼦fp 树结构,没有模式搜索和匹配)填空:1.频繁模式:在数据库中频繁出现的模式(项集,序列等)。
数据挖掘中的关联规则挖掘算法数据挖掘是指通过对数据进行分析、挖掘,从中发现有价值的信息和模式的一种过程。
随着互联网和大数据技术的快速发展,数据挖掘在商业、科学、教育、医疗等各个领域的应用越来越广泛,成为了人们获取宝贵信息的有力武器。
关联规则挖掘算法,作为数据挖掘中的一个重要分支,尤其在电商、超市等领域中被广泛应用。
一、关联规则的定义关联规则是指在一个数据集合中,两种或多种物品之间的共现关系。
在超市购物中,如果一位顾客购买了咖啡,那么他很可能会购买糖和奶精。
那么,这里的“咖啡”、“糖”、“奶精”就是一组关联规则。
二、关联规则挖掘算法关联规则挖掘算法是一种用于自动分析数据集的算法。
它通过对数据集进行扫描,找出其中频繁出现的物品集合,进而挖掘出物品之间的关联规则。
常见的关联规则挖掘算法包括Apriori算法、FP-Growth算法、ECLAT算法等。
1. Apriori算法Apriori算法是一种从大规模数据集中寻找频繁模式的算法。
其基本思想是采用迭代的方式,在每一轮迭代中,都先将数据集中的项按照出现频率排序,再使用前一轮迭代中得到的频繁项集来生成新的候选集。
通过多次迭代筛选,最终获得频繁项集。
2. FP-Growth算法FP-Growth算法(频繁模式增长)是一种高效的关联规则挖掘算法。
其基本思想是利用FP树(一种基于前缀树的数据结构)来挖掘频繁项集,并通过递归来发现所有频繁项集。
3. ECLAT算法ECLAT算法(等价类集合聚类算法)是一种基于垂直数据格式的关联规则挖掘算法。
该算法基于集合间的等价关系,将事务数据集分成若干等价类,进而挖掘频繁项集。
三、关联规则挖掘的应用关联规则挖掘算法在各个领域中均得到了广泛的应用。
例如,在电商中,通过分析购物车中的商品,可以挖掘出商品之间的关联规则,进而为用户推荐相关商品;在超市中,通过分析顾客的购物行为,可以发现商品之间的关联规则,进而进行优惠券发放等等。
四、结语关联规则挖掘算法是数据挖掘中的一种重要的算法分支,其应用场景广泛且成效显著。
(完整版)数据挖掘与知识发现(讲稿5---关联规则挖掘技术)编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望((完整版)数据挖掘与知识发现(讲稿5---关联规则挖掘技术))的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为(完整版)数据挖掘与知识发现(讲稿5---关联规则挖掘技术)的全部内容。
(完整版)数据挖掘与知识发现(讲稿5--—关联规则挖掘技术)编辑整理:张嬗雒老师尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布到文库,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是我们任然希望 (完整版)数据挖掘与知识发现(讲稿5-—-关联规则挖掘技术)这篇文档能够给您的工作和学习带来便利。
同时我们也真诚的希望收到您的建议和反馈到下面的留言区,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请下载收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为〈(完整版)数据挖掘与知识发现(讲稿5-—-关联规则挖掘技术)> 这篇文档的全部内容。
第5章关联规则挖掘技术关联规则概念是由Agrawal、Imielinsk和Swami等人于1993年提出的,用于挖掘顾客数据库中项集间的关联规则问题。
其核心方法是基于频集理论的递推方法。
关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。
关联规则是发现交易数据库中不同商品(项)之间的联系,这些规则找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。
发现这样的规则可以应用商品货架设计、货存安排以及根据购买模式对用户进行分类。