关联规则

格式：docx
大小：32.88 KB
文档页数：6

下载文档原格式

数据挖掘方法——关联规则(自己整理)

6
四、关联规则的分类
按照不同情况，关联规则可以进行分类如下： 1.基于规则中处理的变量的类别，关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的，它显示了这些变量之间的关系；而数值型关联规则可以和多维关联或多层关联规则结合起来，对数值型字段进行处理，将其进行动态的分割，或者直接对原始的数据进行处理，当然数值型关联规则中也可以包含种类变量。例如：性别=“女”=>职业=“秘书” ，是布尔型关联规则；性别=“女”=>avg（收入）= 2300，涉及的收入是数值类型，所以是一个数值型关联规则。 2.基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。在单层的关联规则中，所有的变量都没有考虑到现实的数据是具有多个不同的层次的；而在多层的关联规则中，对数据的多层性已经进行了充分的考虑。例如：IBM台式机=>Sony打印机，是一个细节数据上的单层关联规则；台式机=>Sony打印机，是一个较高层次和细节层次之间的多层关联规则。 3.基于规则中涉及到的数据的维数，关联规则可以分为单维关联规则和多维关联规则。在单维的关联规则中，我们只涉及到数据的一个维，如用户购买的物品；而在多维的关联规则中，要处理的数据将会涉及多个维。换成另一句话，单维关联规则是处理单个属性中的一些关系；多维关联规则是处理各个属性之间的某些关系。例如：啤酒=>尿布，这条规则只涉及到用户的购买的物品；性别=“女”=>职业=“秘书”，这条规则就涉及到两个字段的信息，是两个维上的一条关联规则。
小结：Apriori算法可以分为频繁项集的生成和关联规则的生成两大步骤；FP-Growth算法可以分成FP-Tree的生成，频繁项集的生成和关联规则的生成3大步骤。
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.

简述关联规则算法流程

简述关联规则算法流程摘要：一、关联规则简介二、关联规则算法流程1.数据预处理2.事务数据库的构建3.寻找频繁项集4.生成关联规则5.剪枝与优化三、关联规则应用实例四、关联规则算法的优缺点正文：一、关联规则简介关联规则是数据挖掘中的一种重要方法，主要用于发现数据集中的关联关系。

关联规则的表示形式为：A1 → A2，表示如果事务中包含A1，那么很可能也包含A2。

关联规则算法旨在找出频繁出现在数据集中的项集（即支持度高的项组合），然后根据置信度生成关联规则。

二、关联规则算法流程1.数据预处理：首先对原始数据进行清洗，包括去除重复记录、填补缺失值等，以便后续算法顺利进行。

2.事务数据库的构建：将清洗后的数据组织成事务数据库，其中每个事务由一组项目组成。

3.寻找频繁项集：通过遍历事务数据库，计算每个项集的出现次数，找出支持度大于设定阈值的频繁项集。

这一步可以使用递归、Apriori算法等方法。

4.生成关联规则：对于每个频繁项集，生成满足置信度要求的关联规则。

例如，如果一个频繁项集为{A, B}，且其在事务数据库中的支持度为0.8，那么可以生成如下关联规则：A → B，支持度为0.8。

5.剪枝与优化：为了消除冗余规则和降低规则置信度，可以对生成的关联规则进行剪枝。

剪枝方法包括：前缀剪枝、闭包剪枝等。

此外，还可以通过优化算法提高计算效率，如采用矩阵运算、FP-growth等方法。

三、关联规则应用实例关联规则在许多领域都有广泛应用，如购物篮分析、搜索引擎、信用评估等。

以购物篮分析为例，通过挖掘顾客购买商品的关联关系，可以为顾客推荐相关商品，提高销售额和客户满意度。

四、关联规则算法的优缺点关联规则算法具有较强的可读性和实用性，能够发现数据集中的潜在关联关系。

但同时，它也存在一定的局限性，如对数据量较大、项目较多的情况处理效果不佳，以及生成大量冗余规则等问题。

为了解决这些问题，研究人员不断提出新的关联规则算法，以提高算法的效率和准确性。

数据挖掘方法——关联规则(自己整理)

小结：Apriori算法可以分为频繁项集的生成和关联规则的生成两大步骤；FP-Growth算法可以分成FP-Tree的生成，频繁项集的生成和关联规则的生成3大步骤。
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
9
五、关联规则挖掘的相关算法
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
7
五、关联规则挖掘的相关算法
1.Apriori算法：使用候选项集找频繁项集 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递推的方法。 Apriori算法可以产生相对较小的候选项目集，扫描数据库的次数由最大频繁项目集的项目数决定。因此，该算法适合于最大频繁项目集相对较小的数据集中的关联规则挖掘问题。 Apriori算法的两大缺点:1.可能产生大量的候选集；2.可能需要重复扫描数据库。
关联分析的目的：找出数据库中隐藏的关联网。一般用Support(支持度)和Confidence(可信度)两个阀值来度量关联规则的相关性，引入 lift(提高度或兴趣度）、相关性等参数，使得所挖掘的规则更符合需求。

身边的强关联规则的例子

身边的强关联规则的例子1.天气与服装：在日常生活中，天气与服装之间存在一定的关联规律。

例如，在炎热的夏天，人们通常会选择穿短袖衫、短裤等轻便、透气的服装；而在寒冷的冬天，人们则会穿厚重的外套、长裤等能够保暖的服装。

这种关联规律的存在，使得人们能够根据天气情况来选择合适的服装，增加舒适感。

2.学习时间与成绩：学习时间与成绩之间有着一定的关联规律。

通常来说，学习时间的多少与成绩的好坏呈正相关关系。

也就是说，学习时间越长，成绩往往越好；而学习时间越少，成绩往往越差。

这是因为学习需要时间与精力的投入，只有付出了足够的努力才能获得较好的成绩。

3.睡眠时间与身体健康：睡眠时间与身体健康之间存在着强关联。

充足的睡眠是保持身体健康的重要因素之一、睡眠不足会导致身体疲劳、免疫力下降、情绪不稳定等问题，甚至引发一些慢性疾病。

因此，保持良好的睡眠习惯对于维持身体健康至关重要。

4.饮食与体重：饮食与体重之间存在着一定的关联规律。

不良的饮食习惯，如高脂肪、高糖分的食物摄入过多，会导致体重增加；而合理的饮食结构，如多吃蔬菜水果、控制摄入热量，则有助于维持体重稳定。

饮食与体重之间的关联规律提醒人们养成良好的饮食习惯，以保持健康的体重。

5.锻炼与健康：锻炼与健康之间有着紧密的关联。

适当的锻炼可以促进新陈代谢、增强体质、提高免疫力等，对身体健康有显著的积极影响。

而长期缺乏锻炼则容易导致肌肉萎缩、心血管功能下降、抵抗力下降等健康问题。

出于对健康的考虑，人们应该每天适度锻炼，保持身体的良好状态。

6.阅读与知识积累：阅读与知识积累之间存在着强关联。

阅读是人们获取知识的主要途径之一，通过书籍、报纸、网络等渠道进行广泛的阅读，能够不断扩大知识面，提高自己的见识与思维能力。

相反，不重视阅读，缺乏知识积累的人往往面对问题时难以做出明智的决策，思维能力也相对较低。

7.个人卫生与健康：个人卫生与健康之间存在着紧密的关联。

保持良好的个人卫生习惯，如勤洗手、戴口罩、保持整洁的住宿环境等，能够有效预防疾病的传播，降低感染的风险，维护身体健康。

关联规则的基本概念

关联规则的基本概念
关联规则是关联分析的主要概念，用于揭示数据集中的物品之间的相关关系。

关联规则通常以if-then形式表示，其中if部
分称为前提（Antecedent），表示某些物品的组合，在此条件下，则部分称为结果（Consequent），表示其他物品的组合。

关联规则的基本概念包括以下几个要素：
1. 项（Item）：指数据集中的一个单独的物品，可以是一个商品、一种服务或其他特定的实体。

项可以是单个物品，也可以是物品的集合。

2. 项集（Itemset）：指数据集中的一个或多个项的集合。

项集可以包含单个项或多个项。

3. 支持度（Support）：指项集在数据集中出现的频率。

支持
度可以用来度量一个项集的重要性或常见程度。

4. 可信度（Confidence）：指关联规则的可信程度。

可信度可
以用来度量当前提条件出现时，结果出现的概率。

关联规则可以通过计算项集的支持度和关联规则的可信度来找出频繁项集和强关联规则。

频繁项集是指支持度高于预设阈值的项集，而强关联规则是指可信度高于预设阈值的关联规则。

通过分析频繁项集和强关联规则，可以发现物品之间的相关关系，从而用于市场篮子分析、推荐系统和数据挖掘等应用领域。

关联规则基本概念-Read

关联规则基本概念设I={i 1,i 2,…i m }是项的集合。

设任务相关的数据D 是数据库事务的集合，其中每个事务T 是项的集合，使得I T ⊆。

每个事务有一个标识符，称作TID 。

设A 是一个项集，事务T 包含A 当且仅当T A ⊆。

关联规则是诸如A ⇒B 的蕴涵式，其中I A ⊂，I B ⊂，并且φ=⋂B A 。

（1）支持度与置信度规则的支持度和置信度是两个规则兴趣度量值，它们分别表示发现规则的有用性和确定性。

规则A ⇒B 在事务级中D 中成立，具有支持度s ，其中s 是D 中事务包含B A ⋃（即A 和B 二者）的百分比，它是概率)(B A P ⋃。

规则A ⇒B 在事务集中具有置信度c ，其中D 中包含A 的事务同时也包含B 的百分比是c 。

这是条件概率)(A B P 。

即是)()(sup B A P B A port ⋃=⇒ （7.21）即：关联模式的支持度是模式为真的任务相关的元组（或事务）所占的百分比。

对于关联规则 A ⇒B （其中A 和B 是项目的集合），支持度定义为：元组总数的元组数和包含）支持度（B A =⇒B A )()(A B P B A confidence =⇒ （7.22）即：每个发现模式都应当由一个表示其有效性或“值得信赖性”的确定性度量。

对于关联规则A ⇒B （其中A 和B 是项目的集合），其确定性度量置信度定义为：()的元组数包含的元组数和包含置信度A B A B A =⇒ 同时满足最小支持度阈值（min_sup ）和最小置信度阈值（min_conf ）的规则称作强规则，我们用0%和100%之间的值而不是用0到1之间的值表示支持度和置信度。

如果我们想象全域是商品的集合，则每种商品有一个布尔变量，表示该商品的有无。

每个篮子则可用一个布尔向量表示。

可以分析布尔向量，得到反映商品频繁关联或同时购买的购买模式。

这些模式可以用关联规则的形式表示。

例如，购买计算机也趋向于同时购买财务管理软件可以用以下关联规则表示：computer ⇒financial_management_software[support=2%,confidence=60%]上面关联规则的支持度2%意味分析中的全部事务的2%同时购买计算机和购买财务管理软件，置信度60%以为购买计算机的顾客60%也购买财务管理软件。

关联规则的名词解释

关联规则的名词解释关联规则是数据挖掘领域中一种重要的数据分析方法，被广泛应用于市场营销、推荐系统、生物信息学等多个领域。

它主要用来发现数据集中的特定项之间的关联关系，帮助人们了解和预测数据中的潜在模式和规律。

一、关联规则的定义在关联规则中，数据集被表示为一个包含多个项的集合，每个项有唯一的标识符。

关联规则则表示为一个条件和一个结果的逻辑表达式，表示条件项与结果项之间的关联关系。

例如，一个关联规则可以表示为：{洗发水，牙膏} -> {沐浴露}，其中条件项 {洗发水，牙膏} 表示在购买了洗发水和牙膏的情况下，结果项 {沐浴露} 也会被购买。

关联规则还有两个常用的度量指标，分别是支持度和置信度。

支持度表示规则在整个数据集中出现的频率，置信度则表示条件项出现时结果项同时出现的概率。

通过这两个指标，可以筛选出具有较高支持度和置信度的关联规则，从而得到更有价值的关联关系。

二、关联规则的挖掘方法关联规则的挖掘方法主要包括两个步骤：候选集生成和规则选择。

1. 候选集生成候选集生成即从原始数据集中生成所有可能的候选规则。

在这一步骤中，算法会通过扫描数据集来识别频繁项集，即在数据中频繁出现的项集。

频繁项集是指支持度大于等于预设阈值的项集。

通过找到频繁项集，可以减少候选集的数量，提高挖掘效率。

2. 规则选择规则选择是在候选集中挑选出具有较高置信度的规则。

这一步骤的核心目标是在所有可能的规则中筛选出有意义且能够适应实际需求的规则。

常用的筛选方法包括设置最小支持度和置信度的阈值，以及优化算法的设计，如Apriori算法和FP-Growth算法等。

三、关联规则的应用领域关联规则作为一种有效的数据分析工具，在市场营销、推荐系统、生物信息学等领域都有广泛的应用。

1. 市场营销关联规则在市场营销中被用于分析顾客购买行为和产品关联性。

通过挖掘规则，可以了解顾客购买的偏好、产品之间的关系以及销售策略的优化。

例如，超市可以通过关联规则分析发现购买尿布的顾客会购买啤酒，从而将尿布和啤酒放置在一起，提高销售额。

大数据挖掘中的关联规则分析技术

大数据挖掘中的关联规则分析技术一、概述随着大数据技术的不断发展，越来越多的企业开始注重利用数据进行决策。

而在大数据中，关联规则分析技术具有非常重要的作用，可以帮助企业提高运营效率和市场竞争力。

本文将从什么是关联规则、关联规则算法、关联规则分析的应用场景以及未来的发展趋势等几个方面，来介绍大数据挖掘中的关联规则分析技术。

二、什么是关联规则在商品销售过程中，经常会发现一些消费者会同时购买某些商品，这些商品之间存在一定的规律。

比如，如果消费者购买了牛奶和麦片，那么他们很可能也会购买面包。

这种现象被称为“关联规则”，公式表述如下：A→B其中 A 和 B 均为商品集合或属性集合（也可以是两者的混合），箭头“→”的含义为“蕴含”，表示当集合 A 出现时，集合 B 也很可能出现。

三、关联规则算法Apriori 算法是经典的关联规则分析算法，主要分为以下三个过程：1、生成候选项集；2、计算支持度，得到频繁项集；3、由频繁项集，生成关联规则。

四、关联规则分析的应用场景1、商品推荐通过关联规则，可以挖掘出不同商品之间的关系，建立商品之间的联系，以此推荐相似性高的商品，提高用户购买体验。

2、用户行为分析将用户的行为转化为事务数据集，通过分析用户不同行为之间的关系，可以推测出用户的偏好，针对不同用户，推荐不同的商品和服务。

3、产品定价通过关联规则算出不同产品与价格之间的规律，以此制定合适的价格策略。

五、关联规则分析的未来发展趋势在未来，关联规则分析技术将会面临以下四个方面的发展：1、算法优化关联规则分析算法可以从多个方面进行优化，如数据采样、数据集划分、算法并行化等。

2、可视化展示可视化展示可以提高数据分析的效率，利用图表直观展示数据分析报告，更加便于用户理解和应用。

3、实时性计算与传统离线计算相比，实时计算可以在短时间内给出结果，更加符合企业实际需求。

4、结合其他技术将关联规则分析技术与其他技术结合，如自然语言处理、深度学习等，可以得出更为准确的结果，并且在应用场景上会更加广泛。

关联规则的典型应用

关联规则的典型应用关联规则（AssociationRules）是数据挖掘中常用的一种分析模型，用于发现事务数据库中的频繁项集和关联规则。

它可以帮助我们揭示数据之间的关联关系，并提供有用的业务洞察。

1.超市购物篮分析：在超市购物篮分析中，关联规则可以帮助超市了解顾客购买行为和消费偏好，从而做出相应的市场营销策略。

例如，如果某个超市发现顾客经常购买牛奶和面包的组合，可以将它们放置在相邻的货架上，以促进顾客的购买。

2.电子商务推荐系统：关联规则可以用于电子商务平台的推荐系统，通过分析顾客的购买历史，找出频繁购买的商品组合，然后为顾客推荐相关的商品。

例如，如果一个顾客经常购买手机和手机配件，推荐系统可以向其推荐其他的手机品牌或者手机配件。

3.电影推荐系统：在电影推荐系统中，可以使用关联规则来分析用户的观影历史，找出经常一起观看的电影组合，从而为用户推荐相关的电影。

例如，如果一个用户经常观看科幻电影和超级英雄电影，推荐系统可以向其推荐其他的科幻电影或者超级英雄电影。

4.交通流量优化：在城市交通流量优化中，可以使用关联规则来分析交通数据，找出不同道路之间的关联关系。

例如，如果发现某个时间段内某条道路的流量增加，与之相邻的道路的流量也会增加，交通管理部门可以通过调整信号灯时间等方式来优化交通流量。

5.客户关系管理：在客户关系管理中，关联规则可以帮助企业发现不同产品之间的关联关系，从而为客户提供个性化的服务。

例如，如果发现某个客户购买了某个产品，很可能会对其他相关产品有兴趣，企业可以向该客户推荐相关产品或提供相关的促销活动。

以上是关联规则的一些典型应用场景，通过挖掘数据之间的关联，可以帮助企业做出更加精准的决策，提升业务效益。

频繁项集与关联规则

频繁项集与关联规则
摘要：
一、频繁项集的定义与性质
1.频繁项集的概念
2.频繁项集的性质
3.频繁项集的计算方法
二、关联规则的定义与分类
1.关联规则的概念
2.关联规则的分类
3.关联规则的应用场景
三、关联规则挖掘算法
1.Apriori算法
2.Eclat算法
3.FP-growth算法
正文：
一、频繁项集的定义与性质
频繁项集是关联规则挖掘中的一个重要概念，它表示在数据集中出现频率较高的项的集合。

频繁项集有三个重要的性质：幂等性、无序性和传递性。

计算频繁项集的方法有多种，如基于频数的算法、基于排序的算法和基于哈希的算法等。

二、关联规则的定义与分类
关联规则是指在数据集中，两个或多个项之间存在的关联关系。

关联规则可以分为简单关联规则、时序关联规则和多维关联规则等。

关联规则广泛应用于购物篮分析、网络流量分析和医疗数据分析等领域。

三、关联规则挖掘算法
关联规则挖掘算法是挖掘关联规则的方法，常见的算法有Apriori算法、Eclat算法和FP-growth算法等。

Apriori算法是一种基于频繁项集的算法，它通过迭代计算来寻找所有频繁项集和关联规则。

Eclat算法是一种基于树结构的算法，它通过构建树结构来计算频繁项集和关联规则。

FP-growth算法是一种基于前缀的算法，它通过存储和计算前缀树来快速找到频繁项集和关联规则。

在实际应用中，关联规则挖掘算法可以帮助企业分析客户购买行为，发现潜在的销售机会，提高销售额；也可以帮助医生发现患者的疾病规律，提高医疗水平。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1 引言关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。

它在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。

关联规则挖掘的一个典型例子是购物篮分析。

关联规则研究有助于发现交易数据库中不同商品（项）之间的联系，找出顾客购买行为模式，如购买了某一商品对购买其他商品的影响。

分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。

Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题[AIS93b]，以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。

他们的工作包括对原有的算法进行优化，如引入随机采样、并行的思想等，以提高算法挖掘规则的效率；对关联规则的应用进行推广。

最近也有独立于Agrawal的频集方法的工作[HPY00]，以避免频集方法的一些缺陷，探索挖掘关联规则的新方法。

也有一些工作[KPR98]注重于对挖掘到的模式的价值进行评估，他们提出的模型建议了一些值得考虑的研究方向。

2 基本概念设I={i1,i2,..,i m}是项集，其中i k(k=1,2,…,m)可以是购物篮中的物品，也可以是保险公司的顾客。

设任务相关的数据D是事务集，其中每个事务T是项集，使得T⊆I。

设A是一个项集，且A⊆T。

关联规则是如下形式的逻辑蕴涵：A⇒ B，A⊂I, A⊂I，且A∩B=Φ。

关联规则具有如下两个重要的属性：支持度: P(A∪B)，即A和B这两个项集在事务集D中同时出现的概率。

置信度: P(B｜A)，即在出现项集A的事务集D中，项集B也同时出现的概率。

同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。

给定一个事务集D，挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则，也就是产生强规则的问题。

3 关联规则种类1) 基于规则中处理的变量的类别，关联规则可以分为布尔型和数值型。

布尔型关联规则处理的值都是离散的、种类化的，它显示了这些变量之间的关系。

数值型关联规则可以和多维关联或多层关联规则结合起来，对数值型字段进行处理，将其进行动态的分割，或者直接对原始的数据进行处理，当然数值型关联规则中也可以包含种类变量。

2) 基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。

在单层关联规则中，所有的变量都没有考虑到现实的数据是具有多个不同的层次的。

在多层关联规则中，对数据的多层性已经进行了充分的考虑。

3) 基于规则中涉及到的数据的维数，关联规则可以分为单维的和多维的。

在单维关联规则中，我们只涉及到数据的一个维，如用户购买的物品在多维关联规则中，要处理的数据将会涉及多个维。

4 算法综述4.1 经典的频集算法Agrawal等于1994年提出了一个挖掘顾客交易数据库中项集间的关联规则的重要方法 [AS94a, AS94b]，其核心是基于两阶段频集思想的递推算法。

该关联规则在分类上属于单维、单层、布尔关联规则。

所有支持度大于最小支持度的项集称为频繁项集，简称频集。

4.1.1 算法的基本思想首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。

然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。

挖掘关联规则的总体性能由第一步决定，第二步相对容易实现。

4.1.2 Apriori核心算法分析为了生成所有频集，使用了递推的方法。

其核心思想简要描述如下：(1) L1 = {large 1-itemsets};(2) for (k=2; L k-1≠Φ; k++) do begin(3) C k=apriori-gen(L k-1); //新的候选集(4) for all transactions t∈D do begin(5) C t=subset(C k,t); //事务t中包含的候选集(6) for all candidates c∈ C t do(7) c.count++;(8) end(9) L k={c∈ C k |c.count≥minsup}(10) end(11)Answer=∪k L k;首先产生频繁1-项集L1，然后是频繁2-项集L2，直到有某个r值使得L r为空，这时算法停止。

这里在第k次循环中，过程先产生候选k-项集的集合C k，C k中的每一个项集是对两个只有一个项不同的属于L k-1的频集做一个(k-2)-连接来产生的。

C k中的项集是用来产生频集的候选集，最后的频集L k必须是C k的一个子集。

C k中的每个元素需在交易数据库中进行验证来决定其是否加入L k，这里的验证过程是算法性能的一个瓶颈。

这个方法要求多次扫描可能很大的交易数据库，即如果频集最多包含10个项，那么就需要扫描交易数据库10遍，这需要很大的I/O负载。

可能产生大量的候选集,以及可能需要重复扫描数据库，是Apriori算法的两大缺点。

4.1.3 算法的优化为了提高算法的效率，Mannila等引入了修剪技术来减小候选集C k的大小[MTV94]，由此可以显著地改进生成所有频集算法的性能。

算法中引入的修剪策略基于这样一个性质：一个项集是频集当且仅当它的所有子集都是频集。

那么，如果C k中某个候选项集有一个(k-1)-子集不属于L k-1，则这个项集可以被修剪掉不再被考虑，这个修剪过程可以降低计算所有的候选集的支持度的代价。

关联规则的目的在于在一个数据集中找出项之间的关系，也称之为购物蓝分析(market basket analysis)。

例如，购买鞋的顾客，有10%的可能也会买袜子，60%的买面包的顾客，也会买牛奶。

这其中最有名的例子就是"尿布和啤酒"的故事了。

关联规则的应用场合。

在商业销售上，关联规则可用于交叉销售，以得到更大的收入；在保险业务方面，如果出现了不常见的索赔要求组合，则可能为欺诈，需要作进一步的调查。

在医疗方面，可找出可能的治疗组合；在银行方面，对顾客进行分析，可以推荐感兴趣的服务等等。

Apriori algorithm是关联规则里一项基本算法。

由Rakesh Agrawal 在1994 年提出的，详细的介绍请猛击这里《Fast Algorithms for Mining Association Rules》。

首先我们来看，什么是规则？规则形如"如果…那么…(If…Then…)",前者为条件，后者为结果。

例如一个顾客，如果买了可乐，那么他也会购买果汁。

如何来度量一个规则是否够好？有两个量，置信度(Confidence)和支持度(Support)。

假设有如下表的购买记录。

将上表整理一下，得到如下的一个2维表上表中横栏和纵栏的数字表示同时购买这两种商品的交易条数。

如购买有Orange的交易数为4，而同时购买Orange和Coke的交易数为2。

置信度表示了这条规则有多大程度上值得可信。

设条件的项的集合为A,结果的集合为B。

置信度计算在A中，同时也含有B的概率。

即Confidence(A==>B)=P(B|A)。

例如计算"如果Orange则Coke"的置信度。

由于在含有Orange的4条交易中，仅有2条交易含有Coke.其置信度为0.5。

支持度计算在所有的交易集中，既有A又有B的概率。

例如在5条记录中，既有Orange又有Coke的记录有2条。

则此条规则的支持度为2/5=0.4。

现在这条规则可表述为，如果一个顾客购买了Orange,则有50%的可能购买Coke。

而这样的情况（即买了Orange会再买Coke）会有40%的可能发生。

再来考虑下述情况。

可得到下述规则上述的三条规则，哪一条规则有用呢？对于规则" If B and C then A"，同时购买B和C的人中，有33.33%会购买A。

而单项A 的支持度有0.45，也就是说在所有交易中，会有45%的人购买A.看来使用这条规则来进行推荐，还不如不推荐，随机对顾客进荐好了。

为此引入另外一个量，即提升度(Lift)，以度量此规则是否可用。

描述的是相对于不用规则，使用规则可以提高多少。

有用的规则的提升度大于1。

计算方式为Lift(A==>B)=Confidence(A==>B)/Support(B)=Support(A==>B)/(Support(A)*Support(B))。

在上例中，Lift(If B and C Then A)=0.05/(0.15*0.45)=0.74。

而Lift(If A thenB)=0.25/(0.45*0.42)=1.32。

也就是说对买了A的人进行推荐B,购买概率是随机推荐B的1.32倍。

如何产生规则呢。

可以分两步走。

首先找出频繁集(frequent itemset)。

所谓频繁集指满足最小支持度或置信度的集合。

其次从频繁集中找出强规则(strong rules)。

强规则指既满足最小支持度又满足最小置信度的规则。

我们来看如何产生频繁集。

这其中有一个定理。

即频繁集的子集也一定是频繁集。

比如，如果{A,B,C}是一个3项的频繁集，则其子集{A,B},{B,C},{A,C}也一定是2项的频繁集。

为方便，可以把含有k项的集合称之为k-itemsets.下面以迭代的方式找出频繁集。

首先找出1-itemsets的频繁集，然后使用这个1-itemsets，进行组合，找出2-itemsets的频繁集。

如此下去，直到不再满足最小支持度或置信度的条件为止。

这其中重要的两步骤分别是连接(join)和剪枝(prune).即从(k-1)-itemsets中的项进行组合，产生备选集(Candidate itemsets)。

再从备选集中，将不符合最小支持度或置信度的项删去。

例如==>==>下面我们再来看一个详细的例子。

设最小支持度为2，以C k表示k-itemsets备选集,以L k表示k-itemsets频繁集。

==>C1:==>L1:==>C2对C2进行扫描，计算支持度。

==> L2:==> C3==> L3:对于频繁集中的每一项k-itemset,可以产生非空子集，对每一个子集，可以得到满足最小置信度的规则了。

例如考虑{I1,I2,I5}。

其子集有{I1,I2}, {I1,I5}, {I2,I5}, {I1}, {I2}, {I5}。

可以产生规则，{I1,I2}=> {I5} (50%), {I1,I5} => {I2} (100%), {I2,I5} =>{I1} (100%),{I1}=> {I2,I5} (33%), {I2} =>{I1,I5} (29%), {I5}=>{I1,I2} (100%)。

关联规则

合集下载

数据挖掘方法——关联规则(自己整理)

简述关联规则算法流程

数据挖掘方法——关联规则(自己整理)

身边的强关联规则的例子

关联规则的基本概念

关联规则基本概念-Read

关联规则的名词解释

大数据挖掘中的关联规则分析技术

关联规则的典型应用

频繁项集与关联规则

文档推荐

最新文档