一个高效的关联规则挖掘算法

格式：pdf
大小：214.72 KB
文档页数：3

下载文档原格式

/ 3

关联规则挖掘方法

关联规则挖掘方法一、前言关联规则挖掘是数据挖掘中的一个重要领域，它可以帮助我们发现数据中隐藏的规律和关系，从而为商业决策和市场营销提供支持。

本文将介绍关联规则挖掘的方法和步骤，包括数据预处理、频繁项集生成、关联规则生成和评估等。

二、数据预处理在进行关联规则挖掘之前，我们需要对原始数据进行预处理。

首先，我们需要去除无用的属性和记录，并对缺失值进行处理。

其次，我们需要将离散型数据转换为数值型数据，并对连续型数据进行离散化。

最后，我们需要对异常值进行检测和处理。

三、频繁项集生成频繁项集是指在数据集中经常出现的一组物品集合。

频繁项集生成是关联规则挖掘的第一步，其目的是找到所有满足最小支持度阈值的频繁项集。

1. Apriori算法Apriori算法是最常用的频繁项集生成算法之一。

它基于两个重要性质：单调性和自由子集性质。

Apriori算法分为两个阶段：候选项集生成和剪枝。

2. FP-growth算法FP-growth算法是一种基于树结构的频繁项集生成算法。

它通过构建一棵FP树来发现频繁项集。

FP-growth算法相对于Apriori算法具有更快的速度和更小的空间复杂度。

四、关联规则生成在找到所有频繁项集之后，我们需要从中挖掘出有意义的关联规则。

关联规则是指形如X->Y的规则，其中X和Y都是物品集合，且X∩Y=∅。

1. 关联规则挖掘关联规则挖掘是指从频繁项集中挖掘出满足最小置信度阈值的关联规则。

置信度是指在条件X下出现Y的概率。

2. 关联规则评估关联规则评估是指对挖掘出来的关联规则进行评估和选择。

常用的评价指标包括支持度、置信度、提升度和全置信度等。

五、总结本文介绍了关联规则挖掘的方法和步骤，包括数据预处理、频繁项集生成、关联规则生成和评估等。

在实际应用中，我们需要根据具体情况选择不同的算法和参数，并进行优化和调整。

关联规则挖掘：Apriori算法（基于Groceries数据集）

关联规则挖掘：Apriori算法（基于Groceries数据集）在美国有这样⼀家奇怪的超市，它将啤酒与尿布这样两个奇怪的东西放在⼀起进⾏销售，并且最终让啤酒与尿布这两个看起来没有关联的东西的销量双双增加。

这家超市的名字叫做沃尔玛。

你会不会觉得有些不可思议？虽然事后证明这个案例确实有根据，美国的太太们常叮嘱她们的丈夫下班后为⼩孩买尿布，⽽丈夫们在买尿布后⼜随⼿带回了他们喜欢的啤酒。

但这毕竟是事后分析，我们更应该关注的，是在这样的场景下，如何找出物品之间的关联规则。

接下来就来介绍下如何使⽤Apriori算法，来找到物品之间的关联规则吧。

⼀. 关联分析概述选择物品间的关联规则也就是要寻找物品之间的潜在关系。

要寻找这种关系，有两步，以超市为例找出频繁⼀起出现的物品集的集合，我们称之为频繁项集。

⽐如⼀个超市的频繁项集可能有{{啤酒,尿布},{鸡蛋,⽜奶},{⾹蕉,苹果}}在频繁项集的基础上，使⽤关联规则算法找出其中物品的关联结果。

简单点说，就是先找频繁项集，再根据关联规则找关联物品。

为什么要先找频繁项集呢？还是以超市为例，你想想啊，我们找物品关联规则的⽬的是什么，是为了提⾼物品的销售额。

如果⼀个物品本⾝购买的⼈就不多，那么你再怎么提升，它也不会⾼到哪去。

所以从效率和价值的⾓度来说，肯定是优先找出那些⼈们频繁购买的物品的关联物品。

既然要找出物品的关联规则有两步，那我们也⼀步⼀步来。

我们会先介绍如何⽤Apriori找出物品的频繁项集，然后下⼀篇会在Apriori处理后的频繁项集的基础上，进⾏物品的关联分析。

⼆. Apriori算法基础概念在介绍Apriori算法之前，我们需要先了解⼏个概念，别担⼼，我们会结合下⾯的例⼦来进⾏说明的。

这些是⼀个超市⾥⾯的⼀部分购买商品记录：交易编号购买商品0 ⽜奶,洋葱,⾁⾖蔻,芸⾖,鸡蛋,酸奶1 莳萝,洋葱,⾁⾖蔻,芸⾖,鸡蛋,酸奶2 ⽜奶,苹果,芸⾖,鸡蛋3 ⽜奶,独⾓兽,⽟⽶,芸⾖,酸奶4 ⽟⽶,洋葱,洋葱,芸⾖,冰淇淋,鸡蛋2.1 关联分析的⼏个概念⽀持度（Support）：⽀持度可以理解为物品当前流⾏程度。

关联规则挖掘的一个高效预处理算法

纯牛奶２３５Ｉ．Ｏ．０１５
选数据项的支持数大于用户定义的最小支持数，
那么将该候选数据项确定为二维频繁数据项集．重复以上过程，直到枚举出所有的数据项集．该算法每次都要扫描全部交易，而在现实世界中，原始数据量非常大，但用户常常只对某些数据感兴趣，
这样就可以对原始数据进行预处理．１２改进的算法及其描述．
序Ⅱ慧商名／号。品称
ｌＧＹ０Ｉ０１
２ＧＹ０Ｉ０２３ＧＮｏｌ０１
／
６５．
入视图中；２扫描视图产生一维频繁数据项集ｉ（）
（）３利用一维频繁数据项集对视图进行过滤；４（）
雪碧
乐百氏纯牛奶
３５２８．０．０４４０
维（）中的频繁数据项集对数据库中的属性进
收稿日期：０６０－３２０－３２
作者简介：娄兰芳（９９）女，１６一，山东烟台人，，硕士讲师，主要研究领域为数据挖掘与分析
维普资讯
第１期
娄兰芳，关联规则挖掘的一个高效预处理算法等：
些改进了算法在低层的效率；多的关于Ａｒｒ更ｐｏｉｉ算法的改进可以在文献［，］８９中找到．本文利用频繁数据项集的所有子集是频繁的性质，对处理后的数据再进行压缩．
理，把符合条件的数据和有用的属性放入视图中．
在产生一维频繁数据项集后，根据一维（。和二￡）
实际的应用中，还是存在不令人满意的地方，于是
人们相继提出了一些优化的方法．ａａｒ等… Ｓｖｓｅｅ设计了一个基于划分（ａｉｎ的算法；ａＰｒｔ）ｔｉｏＰｒｋ

一种快速高效的关联规则挖掘算法

１引青．．
在数据挖掘的各种技术中。联规则的提取是其熏蛩的研究课关题。最早的关联规则提取方法是由Ａｒｗｌ出的所谓Ａｒｒ法。ｇａａ提ｐｉ算ｏ其中，别或发现所有频繁项目集的计算量最大，之在该算法的实识加施过程中，由于大量候选集的产生和需要多次重复扫描数据库，而因
ＺｈｕＨｏｇｏｎ
摘要：本文提出了一种从大型数据库中掘关挖联规则的快速算法：该算法以经典的Ａｒｒ算法为基础，ｐｏｉｉ在分析研究优化辱法的各种＿基础
ＡｎＦａｔＡｄｐｅｇｒｔｍｏｉｉｓｃａｉｎＲｕｅｓａｔｄＡｌｏｉｈｆｒＭｎｎｇＡｓｏｉｔｏｌｓ
维普资讯
科技信息
０高校讲台Ｏ
・ＣＥＣＮＯＲＴＯＳＩＮＥＩＦＭＡＩＮ
２００６年
第９期
一
种快速高效的关联规则挖掘算法
周虹
（木斯大学公共计算机教研部佳
黑龙江
佳木ｓｏｘｅｉｍｅｔｌｒｓｌｓｈｗｔｔｔｉｌｏｔｍｓｏｔｐｒｏｍｓＡｐｉｒ．ｈａｈｓａｇｒｈｉｕｅｆｒｒｉｉｏＫｅｗｏｒｓ：ＤａａＭｉｉｇ．ｓｏｉｔｎｒｌｓ，ｐｒｒｔａｉｉｎａ，ｄｐｅｔｐｙｄｔｎｎａｓｃａｉｕｅＡｉｉｒｄｔｏｏｏｌａａｔｄｓｅ
式中：＜ ” 示按四舍五人取整；示步长的适应方向，当有 “＞表ａ表即频繁集产生时ａ＋＋频繁集产生时ａ一：为事务数据集合中取１无取１Ｋ所包古的最大项目的个数；为可变步长的系数．根据大量的实例验证．取值范围一般为０５Ｔ１比较适宜。依据式（）自适应可变其．≤＿．１０＜１，步长ｈ可按以下序列之和收敛到最终正确的频繁模式长度 ∞ 即：就进一步降低了计算速度。为了提高算法的计算效率，相继出现ｒ＜Ｋ＋Ｋ＋０＞＜【＞ … …＋０Ｋ＝【；２＞＜＞＜【Ｋ＋０Ｋ＋＜【＞＇】（）ｌ式中＜Ｋ＝ＩＫ＋０＞ｈ，０＞＜＞ｈ，＜＞＜【Ｋ＝２＜【＋Ｋ＞＜Ｋ＝３＋＞ｈ，些以Ａｆｆ为基础的改进算法，ｐｏｉｉ如基于划分、减少交易个数等。但所＜Ｋ＞＜ＴＫ＞＋０Ｋ＞＋０Ｋ＞＋… … ＋Ｋ＞＋＿１＜【＜【＜＝有上述改进算法的研究成果，妻体现在产生频集的大小与数日或者主对于一个频繁模式长度为【的数据库，ｐｏ算法需要的扫描ｌ】Ａｆｆｉｉ候选集、事务集的大小与数目的优化上，而没有在扫描次数上进行优

关联规则挖掘算法

关联规则挖掘算法关联规则挖掘算法的核心思想是寻找频繁项集和关联规则。

频繁项集是指经常同时出现的物品集合，而关联规则是指物品之间的关联关系。

关联规则通常以“如果...那么...”的形式呈现，表示不同物品之间的逻辑关系。

有多种关联规则挖掘算法可供选择，其中最常见的包括Apriori算法、FP-growth算法和Eclat算法。

Apriori算法是最早也是最著名的关联规则挖掘算法之一、它基于Apriori原理，即如果一个项集是频繁的，那么它的所有子集也一定是频繁的。

该算法首先通过扫描数据集来确定频繁项集，然后使用频繁项集生成关联规则。

FP-growth算法是一种基于分析树结构的快速关联规则挖掘算法。

它通过构建频繁模式树（FP-tree）来发现频繁项集和关联规则。

FP-growth算法相对于Apriori算法具有更高的效率，因为它不需要生成候选集，而是通过对数据集的多次扫描来构建FP-tree。

Eclat算法是一种基于垂直数据表示（vertical data representation）的关联规则挖掘算法。

它将项集表示为其在事务中的出现位置的集合，通过递归地挖掘次数递减的频繁项集来生成关联规则。

Eclat算法更适用于稠密数据集，因为它只需要对数据进行水平扫描。

关联规则挖掘算法的应用非常广泛。

在市场营销中，它可以帮助企业发现产品之间的关联关系，从而进行有针对性的推广和销售。

在电子商务中，它可以通过分析用户的购买记录来推荐相关产品。

在医疗领域中，它可以帮助发现潜在的疾病风险因素。

在社交网络分析中，它可以用于发现用户之间的关联关系和行为模式。

总结来说，关联规则挖掘算法是一种强大的数据分析工具，可以帮助分析人员发现数据中的隐藏模式和规律。

不同的算法有不同的优势和适用场景，选用合适的算法可以提高挖掘效率和准确性，从而为决策提供有价值的参考。

数据分析中的关联规则挖掘和序列模式挖掘

数据分析中的关联规则挖掘和序列模式挖掘数据分析是一个日益重要的领域，在各个行业中被广泛应用。

在数据分析的过程中，关联规则挖掘和序列模式挖掘是两个重要的方法。

本文将分别介绍关联规则挖掘和序列模式挖掘的概念、算法以及应用，并探讨它们在实际问题中的价值和局限性。

一、关联规则挖掘1.概念关联规则挖掘是一种从大规模数据集中发现项集之间有趣关系的技术。

它主要用于发现事物之间的相关性，帮助人们理解数据集中的隐藏模式和规律。

2.算法常见的关联规则挖掘算法有Apriori算法和FP-growth算法。

Apriori算法是一种基于频繁项集的方法，通过迭代生成频繁项集和关联规则。

FP-growth算法则使用了一种更高效的数据结构FP树，可以在不显式生成候选项集的情况下挖掘关联规则。

3.应用关联规则挖掘在市场篮子分析、推荐系统、生物信息学等领域都有广泛的应用。

例如，在市场篮子分析中，关联规则可以帮助店家发现顾客的购买习惯，进而进行商品摆放和促销策略的优化。

二、序列模式挖掘序列模式挖掘是一种从序列数据中发现频繁模式的技术。

序列数据是指按时间顺序记录的事件序列，如购物记录、日志数据等。

序列模式挖掘的目标是找到在序列中频繁出现的模式，以揭示事件之间的关联性和规律。

2.算法常见的序列模式挖掘算法有GSP算法和PrefixSpan算法。

GSP算法是一种基于频繁序列的方法，通过递归地生成频繁子序列和模式。

PrefixSpan算法则利用前缀投影将序列划分为多个较小的子序列，从而减少了搜索空间。

3.应用序列模式挖掘在web点击流分析、用户行为分析、生产过程控制等领域都具有重要意义。

例如，在web点击流分析中，序列模式挖掘可以帮助网站优化用户体验，提高点击率和留存率。

三、关联规则挖掘和序列模式挖掘的比较1.异同点关联规则挖掘和序列模式挖掘都是从大规模数据中挖掘隐藏模式和规律的方法。

它们都可以发现项集之间的关联性，但关联规则挖掘更偏重于静态数据集的挖掘，而序列模式挖掘更适用于动态数据中的模式发现。

机器学习中的关联规则挖掘方法简介

机器学习中的关联规则挖掘方法简介机器学习中的关联规则挖掘是一种用于发现数据集中不同属性之间的关联关系的方法。

这些关联关系可以帮助我们理解属性之间的相互作用，从而能够更好地进行数据分析和决策制定。

在本文中，我们将介绍机器学习中常用的关联规则挖掘方法，包括Apriori算法和FP-growth算法。

1. Apriori算法Apriori算法是一种用于发现频繁项集的经典算法。

频繁项集是指在数据集中经常同时出现的一组项的集合。

Apriori算法基于“先验原理”，即如果一个项集是频繁的，那么它的所有子集也是频繁的。

该算法采用一种逐层的方式，从$k$-项集生成$k+1$-项集，直到不能再生成新的项集为止。

Apriori算法的时间复杂度较高，因为需要多次扫描数据集进行计数。

2. FP-growth算法FP-growth算法是一种用于发现频繁项集的高效算法。

该算法通过构建一个称为FP树的数据结构来实现。

FP树具有压缩数据集的能力，从而减少了扫描数据集的次数。

FP-growth算法的关键步骤包括：构建FP树、挖掘频繁项集和生成条件模式基。

首先，根据事务的频率对数据集进行排序，然后构建FP树，最后通过递归遍历FP树来挖掘频繁项集。

相比于Apriori算法，FP-growth算法的时间复杂度更低。

3. 频繁项集和关联规则在关联规则挖掘中，频繁项集是指在给定最小支持度阈值下出现频率很高的项集。

而关联规则是从频繁项集中通过设置最小置信度阈值而获得的一种形式化表示。

关联规则通常具有“A ⇒ B”的形式，其中A和B都是项集。

关联规则的置信度表示当项集A出现时，项集B同时出现的概率。

4. 关联规则挖掘的应用关联规则挖掘在实际应用中有着广泛的应用。

例如，在市场篮子分析中，关联规则可以帮助商家了解购物者的购买习惯，从而进行商品定价和促销策略的制定。

此外，关联规则挖掘还可以应用于网络流量分析、医学诊断、检测新闻事件等领域。

5. 关联规则挖掘的局限性和挑战尽管关联规则挖掘是一种有用的方法，但也存在一些局限性和挑战。

高效关联规则数据挖掘算法研究

计可以分解为两步：
式，如购买了某一商品对购买其他商品的影响．
下面是一个直观的关联规则的例子：在某一超市
中，０的买面包的顾客同时也买牛奶，所有交８％在
易中，２同时包含面包和牛奶．规则表示为有％面包：＞牛奶（信度８％，持度２）可０支％发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类．
１９９３年首先提出了挖掘顾客交易数据库中项集间的关联规则问题１，发现交易数据库中不同商品２１（）之间的联系，这些规则找出顾客购买行为模项
ＴＥＤ）Ｉ｛ＸＣＴ／Ｉ乃，ＴＥＤ）Ｉ．给定一个交
易集Ｄ，挖掘关联规则问题就是产生支持度和可
信度分别大于用户给定的最小支持度（ｎｕｐｍｉｓｐ）
和最小可信度（ｎｏｆ的关联规则．ｍｉｃｎ）Ａｇｗｌｒａ等人在１９ａ９３年设计了一个基本算法，】提出了挖掘关联规则的一个重要方法，其核心方法是基于频集理论的递推方法．这是一个基于两阶段频集思想的方法，将关联规则挖掘算法的设
摘要：关联规则挖掘是数据挖掘领域的一个重要问题．由于关联规则挖掘通常是基于超大型数据

一种关联规则挖掘的高效更新算法

２ＤｐｒｅｔｆｃｎｉｃＲｓａｈｎｉｅｒｇＣｌｇｆＡＦ．ｅａｔｎｏＳｉｔｅｅｒ，ＥｇｅｎｏｅｅｏＰ，Ｘ’ １０６ｈｎ）ｍｅｆｉｃｎｉｌＣｉｎ７０８，Ｃｉａａ
ＡｂｔａｔＢｏｈｉｃｅｎａｎｅａｉｅｉｃｅｎａｅｄａｅｄｓｕｓｄａｍｉｇａｈｒｂｅｏｎｎｓｏｓｒｃｔｎｒｍｅｔｌａｄｎｇｔｖｎｒｍｅｔｌｆｌｉｃｓｅｉｎｔｔｅｐｏｌｍｆｍｉｉｇａｓ－ｉｒ
其支持度ｓｓ，通过对５，ｓ最小支持度ｓ比较分析，判断项集是否为频繁项集，减少了扫描数据库的次数，和。及。的
提高了更新后的挖掘效率。并通过仿真实验，证明了算法的高效性。关键词关联规则挖掘；高效更新；十字链表；频繁项集
Ｔ１Ｐ８文献标识码Ａ文章编号１０７２（０１１０５— ４０７— ８０２１）０— ８０中图分类号
ＡｎｆｅｔｖｄａｉｇｉｈｏｉｉｓｃａｉｎｌｓＥｆｃｉｅＵｐｔｎｇＡｌｏｒｔｍｆｒＭｎｎｇＡｓｏｉｔｏＲｕｅ
ｏｇｎｌａｄｔｅｃａｇｄｄｔｂｓ．Ａｆｒａａｙｉｇｔｅｒｌｔｎｂｔｅ１２ａｄ，ｗｈｔｅｎｉｅｉｅｕｎｒｉｒｉａｎｈｈｎｅａａａｅｔｎｚｎｈｅａｉｅｗｅｎ，０ｅｌｏｎｅｈｒａｔｍｓｆｑｅｔｏｒ

fp-growth关联规则

fp-growth关联规则
FP-growth算法是一种常用的关联规则挖掘算法，它可以用于发现不同项之间的相关性。

在FP-growth算法中，首先通过构建一颗FP 树来表示数据，然后通过树的遍历来挖掘出频繁项集和关联规则。

具体来说，FP-growth算法的过程如下：
（1）首先扫描数据集，将所有的数据存储到一个项头表中，并按照出现频率从高到低进行排序。

（2）然后根据项头表中的顺序重新对数据集进行排序，并将一个事务的所有项按照项头表中的顺序进行排列，同时删除不满足最小支持度的项。

（3）基于新的数据集构建一颗FP树，节点包括一个项ID和计数值。

每条数据按照项头表中的顺序在树上进行插入，如果已经存在该项，则相应节点的计数值加1，否则创建新的节点并计数值为1。

（4）构建完FP树后，可以通过遍历树来找出频繁项集。

具体来说，从叶子节点开始，向上遍历直到根节点，每个遍历路径都形成一个频繁项集。

如果路径上的节点和它的后代节点构成的集合大于或等于最小支持度，那么该路径对应的频繁项集就是满足要求的。

（5）通过频繁模式树可以直接得出所有的频繁项，如果还需要进一步挖掘出它们之间的关联规则，可以采用递归的方式来完成。

具体来说，从一个频繁项集中任选一个项作为前件，然后根据置信度来筛选满足要求的关联规则。

总的来说，FP-growth算法是一种高效的关联规则挖掘算法，它不仅可以减少 I/O 的消耗，也可以根据 FP 树很快地计算出支持度和置信度等指标。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

通过减少对数据库的扫描次数来减轻Ｉ０负载一直是被关注／的方式。比如由ＳＢｉ人提出的ＤＣ算法［ＨｎｕＴｉｏｅｒｎ等Ｉ３ａｎｏｖｎｎ１，
提出的Ｓｍｐｉｇ算法【。但ＤＣ算法不适合非匀质数据库，ａｌｎ４】Ｉ
Ａｓｒｃ：ＩｈｓｐｐｒｗｒｓｎｅｓｃｔｎｒｌｎｇＡＭ）ａｇｒｈｆＤｈｔｗｌｓａｈｈｌｂｔａｔｎｔｉａｅ，ｅｐｅｅｔａｎｗａｓｉｉｕｅｍｉｉ（ＲｏａｏｎｌｏｔｍｏＳｔａｉｃｎｔｅｗｏｅｉｌ边界
文章编号１０ — ３１（０６１— １２０文献标识码Ａ０２８３一２０）００７ — ３中图分类号Ｔ３１Ｐ０
ｆｒＭｎｎｓｃａｉｎＲｕｅＡｇ－ｅｆｒｎｅＡｌｏｉｈＨｉｈｐｒｏｍａｃｇｒｔｍｏｉｉｇＡｓｏｉｔｏｌｓ
１引言
随着计算机应用的发展和数据库技术的日趋成熟，据库数
中的知识发现已经受到国际以及国内各个行业领域的重视，数据挖掘作为知识发现的一种手段，可以从大量数据中提取或 “ 掘 ” 识。数据挖掘任务主要包括关联规则挖掘、类和聚挖知分类。中关联规则挖掘（ｓｏｉｉｕｅｎｎ，Ｒ因其其ＡｓｃｔｎＲｌＭｉｉＡＭ）ａｏｓｇ应用的广泛性越来越受到人们的重视。关联规则挖掘的一个典
Ｓｍｌｇ算法使用Ａｒｒ算法对样本集进行挖掘，扫描次数ａｐｉｎｐｉｉｏ
较多．响了挖掘的效率。本文将抽样思想和动态项集计数思影
想相结合。设计并实现了一个快速关联规则挖掘算法Ｄ（ｙＳＤ— ｎｍｉｉｍｅｃｕｔｇｗｔＳｍｐｉｇ．实验证明该算法极大ａｃｔｓｔｏｎｉｉａｌ）ｅｎｈｎ
型例子是购物篮分析。过程通过发现超市中顾客放人其购物该篮中不同商品之问的联系。析顾客的购买习惯．分了解哪些商品频繁地被顾客同时购买。以帮助零售制造商制定营销策略。关联规则也有许多其它的应用。比如学生选课时各课程的关
维普资讯
一
个高效的关联规则挖掘算法
柴玉梅李梅花（郑州大学信息工程学院，郑州４０５）５０２
Ｅｍａｌｌ＠ｇ．Ｕｅｕｃ — ｉ：ｍｈｓＺ．ｄ．Ｚｎ
摘
要
运用抽样和动态项集计数的思想，出了一个仅对数据库进行一遍扫描的关联规则挖掘算法Ｄ。Ｓ首先在数提ＳＤ
据库上随机得到一个样本集，然后在样本集上使用动态项集计数方法得到数据库的估计频繁项，后通过对数据库中之
的非样本事务进行一遍扫描得到这些项的实际计数，进而得到数据库的频繁项集。实验证明，Ｓ算法极大地提高了挖掘Ｄ
ｄｔｂｓｏｌｎｅＤＳａｐｉｓｔｅｄａｏａｌｇＡｔｆｓ，ｄａａｄｍｓｍｐｅＳｒｍｄｔｂｓ，ｅｅｈａａａｅｎｙｏｃ．ｐｌｈｉｅｆｓｍｐｉ．ｒｔｉｒｗｓａｒｎｏｅｎｉｔａｌｆｏａａａｅｔｎｇｔｔｅｈｓｅｔｔｄｆｅｕｎｙｉｍｓｔｂｙａｃｔｍｓｔｃｕｔｇｏ．ｉａｌｈｓｉｔｄｆｅｕｎｙｉｍｓｔｒａｉａｅｎｓｍａｅｒｑｅｃｔｅｓｙｄｎｍｉｅｅｏｎｉｎＳＦｎｌｔｅｅｔｉｅｉｎｙｍａｅｒｑｅｃｔｅｓａｅｖｌｔｄｉｅｄ
ｉｕＣｈｉＹｕｅＬｉＭｅｈａａｍｉ
（ｏｅｅｏｎｏｍａｏｎｉｅｒｇＺｅｇｈｕＵｉｒｔ，ｈｎｚｏ５０２ＣｌｇｆＩｆｒｔｎＥｇｎｅｉ，ｈｎｚｏｎｖｓｙＺｅｇｈｕ４０５）ｌｉｎｅｉ
ｃｅｃｆｔｅｍｉｉｇｇｅｔ．ｉｎｙｏｈｎｎｒａｌｙＫｅｗｏｄｙｒｓ：ａｓｃａｉｎｒｌ。ａｌ，ｙａｃｔｍｓｔｃｕｔｇ，ｅａｉｅｂｒｅｓｏｉｔｕｅｓｍｐｅｄｎｍｉｅｅｏｎｉｎｇｔｏｄｒｏｉｎｖ
ａｓｎｌｓａｎｔｅｏｄｄｔｂｓ．ｐｒｍｅｔｏｅｔｎａｄｓｎｈｔａａｅｓｄｍｏｓａｅｔａＤｍｐｏｅｈ侬一ｉｇｅｃｎｏｈｄａａａｅＥｘｅｉｎｓｖｒｓａｄｒｙｔｅｉｄｔｓｔｅｎｔｔｈｔＳｉｒｖｓｔｅｅｃｒ