Apriori算法及java实现

格式：docx
大小：75.49 KB
文档页数：11

下载文档原格式

/ 11

十大经典算法之Apriori算法

⼗⼤经典算法之Apriori算法关联分析关联分析是⼀种在⼤规模数据集中寻找有趣关系的任务。

这些关系可以有两种形式:频繁项集（frequent item sets）: 经常出现在⼀块的物品的集合。

关联规则（associational rules）: 暗⽰两种物品之间可能存在很强的关系。

相关术语关联分析（关联规则学习): 从⼤规模数据集中寻找物品间的隐含关系被称作关联分析(associati analysis)或者关联规则学习（association rule learning）。

下⾯是⽤⼀个杂货店例⼦来说明这两个概念，如下图所⽰:频繁项集: {葡萄酒, 尿布, ⾖奶} 就是⼀个频繁项集的例⼦。

关联规则: 尿布 -> 葡萄酒就是⼀个关联规则。

这意味着如果顾客买了尿布，那么他很可能会买葡萄酒。

那么频繁的定义是什么呢？怎么样才算频繁呢？度量它们的⽅法有很多种，这⾥我们来简单的介绍下⽀持度和可信度。

⽀持度: 数据集中包含该项集的记录所占的⽐例。

例如上图中，{⾖奶} 的⽀持度为 4/5。

{⾖奶, 尿布} 的⽀持度为 3/5。

可信度: 针对⼀条诸如 {尿布} -> {葡萄酒} 这样具体的关联规则来定义的。

这条规则的可信度被定义为⽀持度({尿布, 葡萄酒})/⽀持度({尿布})，从图中可以看出⽀持度({尿布, 葡萄酒}) = 3/5，⽀持度({尿布}) = 4/5，所以 {尿布} -> {葡萄酒} 的可信度 = 3/5 / 4/5 = 3/4 = 0.75。

⽀持度和可信度是⽤来量化关联分析是否成功的⼀个⽅法。

假设想找到⽀持度⼤于 0.8 的所有项集，应该如何去做呢？⼀个办法是⽣成⼀个物品所有可能组合的清单，然后对每⼀种组合统计它出现的频繁程度，但是当物品成千上万时，上述做法就⾮常⾮常慢了。

我们需要详细分析下这种情况并讨论下 Apriori 原理，该原理会减少关联规则学习时所需的计算量。

Apriori 原理假设我们⼀共有 4 个商品: 商品0, 商品1, 商品2, 商品3。

关联规则挖掘Apriori算法的优化及Java实现

［键词］关联规则；ｒｒ算法；关ＡｐｉｉｏＵＭＬ；ｖＪａ实现；捷设计原则ａ敏
［中图分类号］Ｔ３１４Ｐ０．
［献标识码］Ａ文
［章编号］１０ —２０（０８０ —０１ —０文０９１２２０ｌ２０９４
，０日、日、＿。、、、
【摘
要］关联规则模型在数据挖掘中被广泛应用．章就关联规则中经典的Ａｒｒ算法、化过程以及采用敏捷文ｐｉｉｏ优
设计原则设计算法的ｕＭＬ类图和Ｊｖａａ实现过程进行了研究．
２Ａｐｉｒ算法及其优化ｏｉｒ
Ａｐｉｉｒｒ算法在发现规则领域具有很大影响力．算法名源于算法使用了频繁项集性质的先验ｏ
（ｒｒ的知识．ｒｒ算法将发现关联规则的过程分为两个步骤：Ｐｉ）ｏＡｐｉｉｏ第一步通过迭代，检索出事务数据库中的所有频繁项集，即支持度不低于用户设定的阀值的项集；二步利用频繁项集构造出满足用户最小第信任度的规则．构成潜在频繁项集所遵循的原则是“ 频繁项集的子集必为频繁项集” 非频繁项集的和“ 超集一定是非频繁的” 具体的实现过程为：．１通过单趟扫描数据库Ｄ计算出各个１项集的支持度，）从而得到频繁１集构成的集合Ｌ。项．２）连接步：为了产生频繁点项集构成的集合Ｌ，先生成一个潜在频繁点集的集合预项

apriori算法原理

apriori算法原理Apriori算法原理Apriori算法是一种常用的关联规则挖掘算法，它的原理是基于频繁项集的挖掘。

频繁项集是指在数据集中经常出现的项集，而关联规则则是指项集之间的关系。

Apriori算法的主要思想是利用频繁项集的性质，从而减少搜索空间，提高算法效率。

Apriori算法的流程如下：1. 扫描数据集，统计每个项的出现次数，得到频繁1项集。

2. 根据频繁1项集，生成候选2项集。

3. 扫描数据集，统计候选2项集的出现次数，得到频繁2项集。

4. 根据频繁2项集，生成候选3项集。

5. 扫描数据集，统计候选3项集的出现次数，得到频繁3项集。

6. 重复上述步骤，直到无法生成新的频繁项集为止。

Apriori算法的核心是利用频繁项集的性质，即如果一个项集是频繁的，那么它的所有子集也一定是频繁的。

这个性质可以用来减少搜索空间，提高算法效率。

例如，在生成候选2项集时，只需要考虑频繁1项集中的项，而不需要考虑所有可能的2项集。

这样可以大大减少搜索空间，提高算法效率。

Apriori算法的优点是简单易懂，容易实现。

但是它也有一些缺点，例如需要多次扫描数据集，对于大规模数据集来说，效率较低。

此外，Apriori算法只能挖掘频繁项集，而不能挖掘其他类型的模式，例如序列模式和时间序列模式。

Apriori算法是一种常用的关联规则挖掘算法，它的原理是基于频繁项集的挖掘。

通过利用频繁项集的性质，可以减少搜索空间，提高算法效率。

虽然Apriori算法有一些缺点，但是它仍然是一种简单易懂、容易实现的算法，对于小规模数据集来说，效果还是不错的。

apriori算法的步骤

apriori算法的步骤
Apriori算法是一种常用于挖掘关联规则的数据挖掘算法。

其基本思想是利用候选项集的先验性质，减少候选项集的数量，从而加快挖掘的速度。

Apriori算法的步骤如下：
1. 频繁项集的生成。

在Apriori算法中，频繁项集是指在所有交易记录中，出现频率达到最小支持度的项集。

算法从单项开始，不断扩展项集的大小，直到无法再生成新的频繁项集为止。

2. 候选规则的生成。

在Apriori算法中，候选规则是指由频繁项集生成的规则集合。

候选规则的生成是通过将频繁项集分解成两个非空子集来实现的，其中一个子集成为规则的前件，另一个子集成为规则的后件。

3. 支持度和置信度的计算。

在Apriori算法中，支持度是指包含规则的所有交易记录的比例。

置信度是指在满足前件的条件下，也同时满足后件的交易记录的比例。

支持度和置信度的计算是用来筛选规则的重要步骤。

4. 规则的评价与筛选。

在Apriori算法中，可以通过设置最小支持度、最小置信度等参数，来筛选出具有一定意义的规则。

对于筛选出的规则，需要进行评价，确定其是否具有实际应用意义。

总的来说，Apriori算法的步骤包括频繁项集的生成、候选规则的生成、支持度和置信度的计算以及规则的评价与筛选。

该算法适用于大规模数据的关联规则挖掘，具有较高的效率和准确性。

apriori算法实验报告

Apriori算法实验报告1实验目的学会用Apriori算法对数据进行频繁项集和关联规则的挖掘，同时适当的改进Apriori算法2 实验环境程序语言：Java 实验数据：数据堂下载的模拟数据8万多条3 算法描述1 .Apriori介绍Apriori算法使用频繁项集的先验知识，使用一种称作逐层搜索的迭代方法，k项集用于探索(k+1)项集。

首先，通过扫描事务（交易）记录，找出所有的频繁1项集，该集合记做L1，然后利用L1找频繁2项集的集合L2，L2找L3，如此下去，直到不能再找到任何频繁k项集。

最后再在所有的频繁集中找出强规则，即产生用户感兴趣的关联规则。

其中，Apriori算法具有这样一条性质：任一频繁项集的所有非空子集也必须是频繁的。

因为假如P(I)< 最小支持度阈值，当有元素A添加到I中时，结果项集（A∩I）不可能比I出现次数更多。

因此A∩I也不是频繁的。

2 连接步和剪枝步在上述的关联规则挖掘过程的两个步骤中，第一步往往是总体性能的瓶颈。

Apriori算法采用连接步和剪枝步两种方式来找出所有的频繁项集。

1）连接步为找出Lk（所有的频繁k项集的集合），通过将Lk-1（所有的频繁k-1项集的集合）与自身连接产生候选k项集的集合。

候选集合记作Ck。

设l1和l2是Lk-1中的成员。

记li[j]表示li中的第j项。

假设Apriori算法对事务或项集中的项按字典次序排序，即对于（k-1）项集li，li*1+<li*2+<……….<li*k-1]。

将Lk-1与自身连接，如果(l1[1]=l2[1])&&( l1[2]=l2*2+)&&……..&& (l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k-1])，那认为l1和l2是可连接。

连接l1和l2 产生的结果是,l1*1+,l1*2+,……,l1*k-1],l2[k-1]}。

Apriori算法

要对数据进行多次扫描会产生大量的候选项集对候选项集的支持度计算非常繁琐
解决思路
减少对数据的扫描次数缩小产生的候选项集改进对候选项集的支持度计算方法
三、提高Apriori算法的有效性
方法1：基于hash表的项集计数
将每个项集通过相应的hash函数映射到hash表中的不同的桶中，这样可以通过将桶中的项集计数跟最小支持计数相比较先淘汰一部分项集
3
{C}
3
{D}
1
{E}
3
Itemset
sup
{A, B}
1
{A, C}
2
{A, E}
1
{B, C}
2
{B, E}
3
{C, E}
2
Itemset
sup
L1
{A}
2
{B}
3
{C}
3
{E}
3
C2 2nd scan
Itemset {A, B} {A, C} {A, E} {B, C} {B, E}
C3 Itemset
Tid
Items
10
A, C, D
20
B, C, E
30
A, B, C, E
40
B, E
Itemset
sup
{B, C, E}
2
分别计算置信度，将满足最小置信度的关联规则保留下来例：对于 confidence(B C,E)=2/3=0.67
三、提高Apriori算法的有效性
Apriori算法主要的挑战
Apriori算法——示例
最小支持计数：2
Database TDB
Tid
Items
10
A, C, D

apriori算法代码java

apriori算法代码java 以下是一个简单的Apriori算法的Java代码实现：java.import java.util.;public class AprioriAlgorithm {。

public static void main(String[] args) {。

// 输入项集列表。

List<Set<String>> transactions = new ArrayList<>();transactions.add(newHashSet<>(Arrays.asList("A", "B", "C", "D")));transactions.add(newHashSet<>(Arrays.asList("B", "C", "E")));transactions.add(newHashSet<>(Arrays.asList("A", "B", "C", "E")));transactions.add(newHashSet<>(Arrays.asList("B", "D", "E")));// 最小支持度阈值。

double minSupport = 0.5;// 生成频繁项集。

List<Set<String>> frequentItemsets = generateFrequentItemsets(transactions, minSupport);// 输出频繁项集。

for (Set<String> itemset : frequentItemsets) {。

apriori算法原理及过程

apriori算法原理及过程一、前言Apriori算法是数据挖掘中常用的频繁项集挖掘算法之一。

它可以发现数据集中的频繁项集，即经常出现在一起的物品或事件。

本文将详细介绍Apriori算法的原理及过程。

二、Apriori算法原理1.支持度和置信度在介绍Apriori算法之前，先了解两个概念：支持度和置信度。

支持度指的是某个项集在所有事务中出现的概率，即该项集的出现次数与总事务数之比。

置信度指的是如果一个事务包含某个项集A，那么它也包含另一个项集B的概率，即包含A和B的事务数与包含A的事务数之比。

2.频繁项集频繁项集指出现次数大于等于最小支持度阈值（min_support）的项集。

例如，如果min_support=0.5，则出现次数占总事务数50%以上的项集为频繁项集。

3.Apriori原理Apriori原理指：如果一个项集是频繁项集，则它的所有子集也一定是频繁项集。

例如，{A,B,C}是频繁项集，则{A,B}、{A,C}、{B,C}都是频繁项集。

基于Apriori原理，可以通过逐层扫描数据集，从而发现所有的频繁项集。

具体过程如下。

三、Apriori算法过程1.生成候选1项集首先扫描数据集，统计每个物品出现的次数，并根据最小支持度阈值生成所有的候选1项集。

2.生成候选k项集根据上一步得到的频繁1项集，构建候选2项集。

具体方法是将两个不同的频繁1项集合并成一个新的2项集。

然后扫描数据集，统计每个2项集出现的次数，并根据最小支持度阈值筛选出频繁2项集。

接着，利用频繁2项集生成候选3项集。

方法与上述类似：将两个不同的频繁2项集合并成一个新的3项集，并根据最小支持度阈值筛选出频繁3项集。

依此类推，直到无法继续生成新的k+1项候选组合为止。

3.剪枝在每一轮生成候选k+1组合之后，需要进行剪枝操作。

即对于每个k+1组合，判断它是否存在非频繁子组合。

如果存在，则该k+1组合也一定不是频繁项集，需要将其删除。

4.重复步骤2和3，直到无法生成新的候选项集重复执行步骤2和3，直到无法继续生成新的k+1项候选组合为止。

简述apriori算法实现过程

简述apriori算法实现过程
Apriori算法是一种挖掘频繁项集的算法，其核心思想是基于候选项集生成候选项集，通过逐层搜索的方式来找出频繁项集。

以下是APRIORI算法的实现过程：
1. 初始化：首先，将数据库中的所有项目组成一个候选项集C1。

2. 生成候选项集：利用C1生成下一个候选项集C2。

在生成C2时，需要检查C1中的每个项集，判断它们是否满足最小支持度阈值。

如果满足，则将该项集加入到C2中。

重复此步骤，直到无法生成更多的候选项集。

3. 剪枝：对于每个候选项集，检查其是否是频繁项集。

不是频繁项集的候选项集将被剪枝。

剪枝过程是通过计算其生成的候选项集的支持度来进行的。

4. 递归调用：重复步骤2和步骤3，直到无法生成更多的候选项集。

5. 输出频繁项集：最后，输出所有找到的频繁项集。

APRIORI算法有一个重要的性质，即“单调性”，这意味着频繁项集
的组合不会产生非频繁项集。

根据这一性质，可以在生成候选项集时进行剪枝，从而提高算法的效率。

需要注意的是，APRIORI算法的时间复杂度较高，尤其是在大规模数据集上。

为了提高效率，可以采用以下优化方法：
1. 利用缓存技术存储频繁项集，减少重复计算。

2. 采用层次搜索策略，如逐层搜索、分组搜索等。

3. 利用并行计算资源，如多核处理器或多台计算机。

4. 使用其他挖掘频繁项集的算法，如FP-growth、ECLAT等，作为预处理步骤，生成候选项集。

apriori关联规则算法步骤

apriori关联规则算法步骤
Apriori关联规则算法是用于挖掘大规模数据集中的频繁项集和关联规则的经典算法。

它的步骤如下：
1. 初始化：设置最小支持度阈值（用于确定频繁项集）和最小置信度阈值（用于确定关联规则）。

2. 扫描数据集：统计每个项的支持度计数。

3. 生成频繁项集：根据最小支持度阈值，从所有项中选择支持度计数大于等于阈值的项作为频繁1项集。

4. 迭代生成候选项集：根据频繁(k-1)项集，生成候选k项集。

5. 剪枝：对候选k项集中的每个项，检查其所有(k-1)项子集是否都是频繁(k-1)项集，如果不满足，则将该项删除。

6. 计算支持度计数：扫描数据集，统计候选k项集的支持度计数。

7. 生成频繁项集：根据最小支持度阈值，从候选k项集中选择支持度计数大于等于阈值的项作为频繁k项集。

8. 重复步骤4-7，直到没有更多频繁项集生成为止。

9. 生成关联规则：对于每个频繁项集，生成其所有非空子集作为规则的前件，将前件和后件的并集作为规则的后件。

10. 计算置信度：计算每个关联规则的置信度。

11. 根据最小置信度阈值，筛选出满足条件的关联规则。

12. 输出频繁项集和关联规则。

数据挖掘apriori算法

数据挖掘apriori算法
Apriori算法是用于频繁项集挖掘的基本算法之一。

其主要思想是基于先验知识，通过递归地生成频繁项集来挖掘潜在的关联规则。

具体地，Apriori算法分为两个步骤：
1. 频繁项集的生成
- 对于给定的数据集，Apriori算法首先生成所有可能的单一项集（也就是数据中出现的所有项都被认为是频繁项集）。

- 接着，算法迭代地生成更复杂的项集（称为候选项集），并检验每个候选项集是否满足频繁项集的要求。

- 对于每个候选项集，算法会扫描整个数据集，记录项集出现的次数，如果次数达到预先设定的阈值，则认为该项集是频繁项集，否则剔除。

2. 关联规则的生成
- 在得到频繁项集后，Apriori算法接着生成关联规则。

对于每个频繁项集，算法会生成它的所有非空子集，称之为项集的关联规则。

- 对每个关联规则，算法会计算其支持度和置信度。

支持度表示所有满足该关联规则的事务占比，置信度表示满足该规则的事务同时满足该规则右侧的项集的概率。

- 针对用户给定的最小支持度和最小置信度，算法会筛选出符合条件的关联规则。

Apriori算法的优点在于其简单易懂、易于实现。

但也存在缺点，主要在于频繁项集的生成需要遍历所有的数据集，时间复杂度较高，对于大规模数据集会有较大的计算开销。

Apriori算法的改进及实例

Apriori算法的改进及实例Apriori算法是最常用的用于发现数据集中频繁项集的数据挖掘算法之一。

它能够通过扫描数据集来找出频繁项集，并且可以进一步生成关联规则。

Apriori算法在处理大规模数据集时，会面临计算复杂度高、性能低等问题。

研究者们一直在不断努力寻找改进Apriori算法的方法，以提高其效率和性能。

本文将探讨Apriori算法的改进方法，并举例说明改进后的算法在实际应用中的效果。

一、Apriori算法的基本原理Apriori算法的基本原理是基于先验性质（也就是Apriori性质）：如果一个项集是频繁的，那么它的所有子集都必须是频繁的。

该算法主要分为两个步骤：第一步是生成频繁项集，第二步是由频繁项集产生关联规则。

算法通过扫描数据集来统计每个项的支持度，即在数据集中出现的频率。

然后，根据设定的最小支持度阈值，将支持度不足的项剔除。

接着，通过组合频繁项，生成更长的候选项集。

这个过程将重复进行，直到生成的项集不再满足最小支持度要求。

根据频繁项集，生成关联规则，计算置信度，并根据设定的阈值筛选出感兴趣的规则。

1. 剪枝策略剪枝策略是Apriori算法改进的重要方向之一。

通过对候选项集的生成和筛选过程进行优化，可以显著减少计算复杂度。

Apriori算法中最常见的剪枝策略包括：Apriori原理的剪枝、单向扩展和双向扩展、约束满足剪枝等。

这些策略都可以在一定程度上减少候选项集的生成和筛选过程中的计算量，提高算法的效率。

2. 基于预处理的改进基于预处理的改进是另一种提高Apriori算法效率的方法。

通过对数据集进行预处理，可以减少对数据的读取次数和存储空间，提高算法的性能。

可以使用压缩技术对数据集进行压缩存储，减少I/O开销；或者对数据集进行排序和索引，提高数据的访问效率；还可以使用采样技术等进行数据集的简化和降维处理。

3. 并行化处理并行化处理是针对大规模数据集的Apriori算法改进的另一种重要方法。

java实现的Apriori关联规则算法

addItem.Add(items1[k]);
}
}
}
}
//更新C的视图
{
this.CResultView.Items.Clear();
this.CResultView.Items.Add("项集\t支持度计数\n");
for (int i = 0; i < C0.Count; i++)
if (step % 2 == 1)
{
//找出频繁1项集L1
if (step == 1)
{
for (int i = 0; i < tData.Count; i++)
{
trans t = (trans)tData[i];
for (int j = 0; j < t.items.Count; j++)
}
}
//更新说明
{
if (C0.Count != 0)
this.Msg.Text = "由L产生C，并扫描D，对每个候选计数";
else
{
this.Msg.Text = "由于C为空，算法终止";
this.Next.Text = "完成（重新开始）";
finish = true;
items.Add(items1[k]);
items.Sort();
int sup = FindItemSup(items);
itemAndSup temp = new itemAndSup();
temp.items = items;

数据挖掘Apriori算法的实现实验报告

实验报告学院：大数据与信息工程学院专业：通信工程班级：据最小支持度从C1中删除不满足的项，从而获得频繁1项集L1。

2.对L1的自身连接生成的集合执行剪枝策略产生候选2项集的集合C2，然后，扫描所有事务，对C2中每个项进行计数。

同样的，根据最小支持度从C2中删除不满足的项，从而获得频繁2项集L2。

3.对L2的自身连接生成的集合执行剪枝策略产生候选3项集的集合C3，然后，扫描所有事务，对C3每个项进行计数。

同样的，根据最小支持度从C3中删除不满足的项，从而获得频繁3项集L3。

4.以此类推，对Lk-1的自身连接生成的集合执行剪枝策略产生候选k项集Ck，然后，扫描所有事务，对Ck中的每个项进行计数。

然后根据最小支持度从Ck中删除不满足的项，从而获得频繁k项集。

实验数据1.由Visual Studio运行得，代码见表格后附件2.由Python运行同上，代码见A3.py实验总结Aprori算法利可以很好的找出关联关系，但是每一次求候选集都需要扫描一次所有数据记录，那么在面临千万级别的数据记录时效率会降低。

在Python运行时解决了会出现numpy包安装等问题。

多次阅读课本，进一步理解了连接步和剪枝步。

指导教师意见签名：年月日附：vc代码：#include<stdio.h>#include<string.h>#include<stdlib.h>#define D 5 /*D数事务的个数*/#define MinSupCount 3 /*最小事务支持度数*/void main(){char a[5][6] = {{ 'M','O','N','K','E','Y' },{ 'D','O','N','K','E','Y' },{ 'M','A','K','E' },{ 'M','U','C','K','Y'},{ 'C','O','O','K','I','E' }};char b[20], d[100], t, b2[100][10], b21[100][10];//b用来保存数据库中的元素int i, j, k, x = 0, flag = 1, c[20] = { 0 }, x1 = 0, i1 = 0, j1, counter = 0, c1[100] = { 0 }, flag1 = 1, j2, u = 0, c2[100] = { 0 }, n[20], v = 1;int count[100], temp;for (i = 0; i<D; i++){for (j = 0; a[i][j] != '\0'; j++){/*这个循环是用来判断之前保存的是否和a[i][j]一样，不一样就保存，一样就不保存*/for (k = 0; k<x; k++){if (b[k] != a[i][j]);//b[k]是已存储的项，已存储的项不等于现在存储的，意味着有新元素。

apriori算法步骤

apriori算法步骤一、什么是Apriori算法？Apriori算法是一种用于发现频繁项集（frequent itemset）的经典算法，它是基于频繁项集的性质，通过构建候选项集（candidate itemset）和剪枝（pruning）来减少搜索空间，从而提高算法的效率。

Apriori算法是数据挖掘中最常用的关联规则挖掘算法之一。

在实际应用中，Apriori算法被广泛应用于超市购物篮分析、网络推荐、医疗诊断等领域。

二、Apriori算法的原理Apriori算法的核心思想是利用频繁项集的性质，通过多次迭代扩展频繁项集，从而挖掘出所有频繁项集。

其步骤如下：1.扫描数据集，统计每个项的支持度（support），即出现的频率。

根据设定的最小支持度阈值，筛选出所有支持度不低于该阈值的项，形成1-项集（1-itemset）。

2.根据1-项集，构建2-项集（2-itemset），即包含2个元素的频繁项集。

具体方法是将1-项集中的每个项与其他项进行组合，得到所有可能的组合，再扫描数据集，统计每个组合的支持度，筛选出所有支持度不低于设定阈值的组合，形成2-项集。

3.根据2-项集，构建3-项集（3-itemset），即包含3个元素的频繁项集。

具体方法是将2-项集中的每个项与其他项进行组合，得到所有可能的组合，再扫描数据集，统计每个组合的支持度，筛选出所有支持度不低于设定阈值的组合，形成3-项集。

4.重复以上步骤，直到无法继续生成新的频繁项集为止。

5.根据频繁项集，生成关联规则（association rule）。

对于一个频繁项集A，将其分为两个非空子集B和C，那么A->B和A->C都是关联规则。

通过计算支持度和置信度（confidence）来评估关联规则的可信度，即可发现具有一定意义的关联规则。

三、Apriori算法的优缺点1.优点：Apriori算法易于实现，且能够挖掘出所有频繁项集，具有较高的准确率和可解释性。

Apriori关联规则原理Java实现

Apriori关联规则原理Java实现关联规则分析用于发现隐藏在大型数据集中的有意义的联系。

在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。

•关联规则挖掘形式化定义：•原始数据描述设I ={i1, i2,…, im}是所有项(item)的集合，若干项的集合，称为项集(Item Sets)。

记T为交易(transaction,事务) t的集合，其中，交易t是项的集合，并且t⊆I 。

设A、C分别是一个I中项的集合，如果A⊆T且C⊆T ，且A∩C=Φ那么称交易T包含A ∪ C。

•目标数据描述所有形如A⇒C 蕴涵式的称为关联规则，这里A⊂I, C⊂I，并且A∩C=Φ。

•为了描述关联规则的有用性和确定性•Ø关联规则的支持度–如果交易集T中s次交易包含A∪C，则称规则A=>C在事务集T上的支持度为s。

–Support(A=>C)=P(A∪C)•Ø关联规则的置信度–如果交易数据库D中，包含A的交易中有c(%)的交易同时也包含C，称规则的置信度为c。

（条件概率）–Confidence(A=>C)=P(C|A) =support({A} ∪{C})/support({A})•支持度, s, 一次交易中包含{A 、C}的可能性•置信度, c, 包含{A}的交易中也包含{C}的条件概率•量化后的目标–查找所有满足最小支持度和可信度的规则A=>C•频繁项集–如果项集满足最小支持度，则称之为频繁项集•例如A={尿布，啤酒} , 支持度=3•如果最小支持度= 3,则A是频繁项集•如果频繁项集中包含K个项，则称为频繁K-项集，A为2-项集•关联规则的挖掘步骤–发现频繁项集–由频繁项集生成满足最小支持度和最小置信度的关联规则Apriori性质–一个频繁项集中的任一非空子集也应是频繁项集。

–如果一项交易包含{牛奶，面包，汽水}，那么它一定包含{牛奶，面包}–{牛奶，面包，汽水}是频繁的=> {牛奶，面包} 一定也是频繁的–即：任何非频繁项集的超集一定也是非频繁的非频繁项集的超集可以不用进行测试，许多项之间的组合可以去掉（不满足频繁条件）算法核心：逐层搜索的迭代方法，寻找最大频繁集。

关联规则算法Apriori的学习与实现

关联规则算法Apriori的学习与实现(2011-07-18 11:28:52)首先我们来看，什么是规则？规则形如”如果…那么…(If…Then…)”,前者为条件，后者为结果。

关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。

关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。

例如购物篮分析。

牛奶⇒面包[支持度：3%，置信度：40%]支持度3%意味3%顾客同时购买牛奶和面包。

置信度40%意味购买牛奶的顾客40%也购买面包。

规则的支持度和置信度是两个规则兴趣度度量，它们分别反映发现规则的有用性和确定性。

关联规则是有趣的，如果它满足最小支持度阈值和最小置信度阈值。

这些阈值可以由用户或领域专家设定。

我们先来认识几个相关的定义：定义1：支持度（support）支持度s是事务数据库D中包含A U B的事务百分比，它是概率P（A U B），即support （A B）=P（A U B），它描述了A和B这两个物品集的并集在所有的事务中出现的概率。

定义2：置信度（confidence）可信度为事务数据库D中包含A的事务中同时也包含B的百分比，它是概率P（B|A），即confidence（A B）=P（B|A）。

定义3：频繁项目集支持度不小于用户给定的最小支持度阈值（minsup）的项集称为频繁项目集（简称频集），或者大项目集。

所有的频繁1-项集记为L1。

假设有如下表的购买记录。

顾客项目1orange juice, coke2milk, orange juice, window cleaner3orange juice, detergent4orange juice, detergent, coke5window cleaner将上表整理一下，得到如下的一个2维表Orange Win Cl Milk Coke DetergentOrange41122WinCl12100Milk11100Coke20021Detergent10002上表中横栏和纵栏的数字表示同时购买这两种商品的交易条数。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1 Apriori介绍Apriori算法使用频繁项集的先验知识，使用一种称作逐层搜索的迭代方法，k项集用于探索(k+1)项集。

最后再在所有的频繁集中找出强规则，即产生用户感兴趣的关联规则。

其中，Apriori算法具有这样一条性质：任一频繁项集的所有非空子集也必须是频繁的。

因为假如P(I)< 最小支持度阈值，当有元素A添加到I中时，结果项集（A∩I）不可能比I 出现次数更多。

因此A∩I也不是频繁的。

2连接步和剪枝步在上述的关联规则挖掘过程的两个步骤中，第一步往往是总体性能的瓶颈。

Apriori算法采用连接步和剪枝步两种方式来找出所有的频繁项集。

1）连接步为找出L k（所有的频繁k项集的集合），通过将L k-1（所有的频繁k-1项集的集合）与自身连接产生候选k项集的集合。

候选集合记作C k。

设l1和l2是L k-1中的成员。

记l i[j]表示l i中的第j项。

假设Apriori算法对事务或项集中的项按字典次序排序，即对于（k-1）项集l i，l i[1]<l i[2]<……….<l i[k-1]。

将L k-1与自身连接，如果(l1[1]=l2[1])&&( l1[2]=l2[2])&&……..&& (l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k-1])，那认为l1和l2是可连接。

连接l1和l2产生的结果是{l1[1],l1[2],……,l1[k-1],l2[k-1]}。

2）剪枝步C K是L K的超集，也就是说，C K的成员可能是也可能不是频繁的。

通过扫描所有的事务（交易），确定C K中每个候选的计数，判断是否小于最小支持度计数，如果不是，则认为该候选是频繁的。

为了压缩C k,可以利用Apriori性质：任一频繁项集的所有非空子集也必须是频繁的，反之，如果某个候选的非空子集不是频繁的，那么该候选肯定不是频繁的，从而可以将其从C K中删除。

（Tip：为什么要压缩C K呢？因为实际情况下事务记录往往是保存在外存储上，比如数据库或者其他格式的文件上，在每次计算候选计数时都需要将候选与所有事务进行比对，众所周知，访问外存的效率往往都比较低，因此Apriori加入了所谓的剪枝步，事先对候选集进行过滤，以减少访问外存的次数。

）3 Apriori算法实例详细介绍下候选3项集的集合C3的产生过程：从连接步，首先C3={{I1,I2,I3}，{I1,I2,I5}，3． Apriori伪代码C k=apriori_gen(L k-1); //产生候选，并剪枝For each事务t in D{ //扫描D进行候选计数C t =subset(C k,t); //得到t的子集For each候选c属于C tc.count++;}L k={c属于C k | c.count>=min_sup}}Return L=所有的频繁集；Procedure apriori_gen(L k-1:frequent(k-1)-itemsets)For each项集l1属于L k-1For each项集l2属于L k-1If((l1[1]=l2[1])&&( l1[2]=l2[2])&&……..&& (l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k-1])) then{ c=l1连接l2 //连接步：产生候选if has_infrequent_subset(c,L k-1) thendelete c; //剪枝步：删除非频繁候选else add c to C k;}Return C k;Procedure has_infrequent_sub(c:candidate k-itemset; L k-1:frequent(k-1)-itemsets)For each(k-1)-subset s of cIf s不属于L k-1 thenReturn true;Return false;4．由频繁项集产生关联规则Confidence(A->B)=P(B|A)=support_count(AB)/support_count(A)关联规则产生步骤如下：1）对于每个频繁项集l，产生其所有非空真子集；2）对于每个非空真子集s,如果support_count(l)/support_count(s)>=min_conf，则输出 s->(l-s)，其中，min_conf是最小置信度阈值。

例如，在上述例子中，针对频繁集{I1，I2，I5}。

可以产生哪些关联规则？该频繁集的非空真子集有{I1，I2}，{I1，I5}，{I2，I5}，{I1 }，{I2}和{I5}，对应置信度如下：I1&&I2->I5 confidence=2/4=50%I1&&I5->I2 confidence=2/2=100%I2&&I5->I1 confidence=2/2=100%I1 ->I2&&I5 confidence=2/6=33%I2 ->I1&&I5 confidence=2/7=29%I5 ->I1&&I2 confidence=2/2=100%如果min_conf=70%,则强规则有I1&&I5->I2，I2&&I5->I1，I5 ->I1&&I2。

5． Apriori Java代码package com.apriori;import java.util.ArrayList;import java.util.Collections;import java.util.HashMap;import java.util.List;import java.util.Map;import java.util.Set;public class Apriori {private final static int SUPPORT = 2; //支持度阈值private final static double CONFIDENCE = 0.7; //置信度阈值private final static String ITEM_SPLIT=";"; //项之间的分隔符private final static String CON="->"; //项之间的分隔符private final static List<String> transList=new ArrayList<String>(); //所有交易static{//初始化交易记录transList.add("1;2;5;");transList.add("2;4;");transList.add("2;3;");transList.add("1;2;4;");transList.add("1;3;");transList.add("2;3;");transList.add("1;3;");transList.add("1;2;3;5;");transList.add("1;2;3;");}public Map<String,Integer> getFC(){Map<String,Integer> frequentCollectionMap=new HashMap<String,Integer>();//所有的频繁集 frequentCollectionMap.putAll(getItem1FC());Map<String,Integer> itemkFcMap=new HashMap<String,Integer>();itemkFcMap.putAll(getItem1FC());while(itemkFcMap!=null&&itemkFcMap.size()!=0){Map<String,Integer> candidateCollection=getCandidateCollection(itemkFcMap);Set<String> ccKeySet=candidateCollection.keySet();//对候选集项进行累加计数for(String trans:transList){for(String candidate:ccKeySet){boolean flag=true;//用来判断交易中是否出现该候选项，如果出现，计数加1String[] candidateItems=candidate.split(ITEM_SPLIT);for(String candidateItem:candidateItems){if(trans.indexOf(candidateItem+ITEM_SPLIT)==-1){flag=false;break;}}if(flag){Integer count=candidateCollection.get(candidate);candidateCollection.put(candidate, count+1);}}}//从候选集中找到符合支持度的频繁集项itemkFcMap.clear();for(String candidate:ccKeySet){Integer count=candidateCollection.get(candidate);if(count>=SUPPORT){itemkFcMap.put(candidate, count);}}//合并所有频繁集frequentCollectionMap.putAll(itemkFcMap);}return frequentCollectionMap;}private Map<String,Integer> getCandidateCollection(Map<String,Integer> itemkFcMap){ Map<String,Integer> candidateCollection=new HashMap<String,Integer>();Set<String> itemkSet1=itemkFcMap.keySet();Set<String> itemkSet2=itemkFcMap.keySet();for(String itemk1:itemkSet1){for(String itemk2:itemkSet2){//进行连接String[] tmp1=itemk1.split(ITEM_SPLIT);String[] tmp2=itemk2.split(ITEM_SPLIT);String c="";if(tmp1.length==1){if(tmp1[0].compareTo(tmp2[0])<0){c=tmp1[0]+ITEM_SPLIT+tmp2[0]+ITEM_SPLIT;}}else{boolean flag=true;for(int i=0;i<tmp1.length-1;i++){if(!tmp1[i].equals(tmp2[i])){flag=false;break;}}if(flag&&(tmp1[tmp1.length-1].compareTo(tmp2[tmp2.length-1])<0)){ c=itemk1+tmp2[tmp2.length-1]+ITEM_SPLIT;}}//进行剪枝boolean hasInfrequentSubSet = false;if (!c.equals("")) {String[] tmpC = c.split(ITEM_SPLIT);for (int i = 0; i < tmpC.length; i++) {String subC = "";for (int j = 0; j < tmpC.length; j++) {if (i != j) {subC = subC+tmpC[j]+ITEM_SPLIT; }}if (itemkFcMap.get(subC) == null) {hasInfrequentSubSet = true;break;}}}else{hasInfrequentSubSet=true;}if(!hasInfrequentSubSet){candidateCollection.put(c, 0);}}}return candidateCollection;}private Map<String,Integer> getItem1FC(){Map<String,Integer> sItem1FcMap=new HashMap<String,Integer>();Map<String,Integer> rItem1FcMap=new HashMap<String,Integer>();//频繁1项集for(String trans:transList){String[] items=trans.split(ITEM_SPLIT);for(String item:items){Integer count=sItem1FcMap.get(item+ITEM_SPLIT);if(count==null){sItem1FcMap.put(item+ITEM_SPLIT, 1);}else{sItem1FcMap.put(item+ITEM_SPLIT, count+1);}}}Set<String> keySet=sItem1FcMap.keySet();for(String key:keySet){Integer count=sItem1FcMap.get(key);if(count>=SUPPORT){rItem1FcMap.put(key, count);}}return rItem1FcMap;}public Map<String,Double> getRelationRules(Map<String,Integer> frequentCollectionMap){Map<String,Double> relationRules=new HashMap<String,Double>(); Set<String> keySet=frequentCollectionMap.keySet();for (String key : keySet) {double countAll=frequentCollectionMap.get(key);String[] keyItems = key.split(ITEM_SPLIT);if(keyItems.length>1){List<String> source=new ArrayList<String>();Collections.addAll(source, keyItems);List<List<String>> result=new ArrayList<List<String>>(); buildSubSet(source,result);//获得source的所有非空子集for(List<String> itemList:result){if(itemList.size()<source.size()){//只处理真子集List<String> otherList=new ArrayList<String>();for(String sourceItem:source){if(!itemList.contains(sourceItem)){otherList.add(sourceItem);}}String reasonStr="";//前置String resultStr="";//结果for(String item:itemList){reasonStr=reasonStr+item+ITEM_SPLIT;}for(String item:otherList){resultStr=resultStr+item+ITEM_SPLIT;}double countReason=frequentCollectionMap.get(reasonStr);double itemConfidence=countAll/countReason;//计算置信度if(itemConfidence>=CONFIDENCE){String rule=reasonStr+CON+resultStr;relationRules.put(rule, itemConfidence);}}}}}return relationRules;}private void buildSubSet(List<String> sourceSet, List<List<String>> result) {//仅有一个元素时，递归终止。