Apriori算法中频繁项集求法的改进

格式：doc
大小：25.50 KB
文档页数：5

下载文档原格式

/ 5

Apriori算法总结

Apriori ['eɪprɪ'ɔ:rɪ]Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。

而且算法已经被广泛的应用到商业、网络安全等各个领域。

其核心是基于两阶段频集思想的递推算法。

该关联规则在分类上属于单维、单层、布尔关联规则。

在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

经典的关联规则数据挖掘算法Apriori 算法广泛应用于各种领域，通过对数据的关联性进行了分析和挖掘，挖掘出的这些信息在决策制定过程中具有重要的参考价值。

Apriori算法广泛应用于商业中，应用于消费市场价格分析中，它能够很快的求出各种产品之间的价格关系和它们之间的影响。

通过数据挖掘，市场商人可以瞄准目标客户，采用个人股票行市、最新信息、特殊的市场推广活动或其他一些特殊的信息手段，从而极大地减少广告预算和增加收入。

百货商场、超市和一些老字型大小的零售店也在进行数据挖掘，以便猜测这些年来顾客的消费习惯。

Apriori算法应用于网络安全领域，比如网络入侵检测技术中。

早期中大型的电脑系统中都收集审计信息来建立跟踪档，这些审计跟踪的目的多是为了性能测试或计费，因此对攻击检测提供的有用信息比较少。

它通过模式的学习和训练可以发现网络用户的异常行为模式。

采用作用度的Apriori算法削弱了Apriori 算法的挖掘结果规则，是网络入侵检测系统可以快速的发现用户的行为模式，能够快速的锁定攻击者，提高了基于关联规则的入侵检测系统的检测性。

Apriori算法应用于高校管理中。

随着高校贫困生人数的不断增加，学校管理部门资助工作难度也越加增大。

针对这一现象，提出一种基于数据挖掘算法的解决方法。

将关联规则的Apriori算法应用到贫困助学体系中，并且针对经典Apriori挖掘算法存在的不足进行改进，先将事务数据库映射为一个布尔矩阵，用一种逐层递增的思想来动态的分配内存进行存储，再利用向量求"与"运算，寻找频繁项集。

关联规则挖掘中Apriori算法的一种改进

数据挖掘关联规则频繁项集
不会需要多大的系统开销，但是可以使算法在某些情况下运行得更快些。关键词
中图分类号Ｔ３１Ｐ９
１引言
随着信息技术不断的发展和普及，大量的数据信息从各个行业中涌现出来，管信息很多，是尽但由于这些并不是知识，能直接使用，们需要从不人这些浩如烟海的信息中挖掘出有用的知识，因此诞
数据挖掘技术经过不断发展，已经成为一个涉及多个学科的交叉型综合学科，它包括关联规则分析、分类分析、聚类分析、序列分析和时间序列、孤立点分析、工神经网络等。而关联规则分析（ｓｏｉ－人ＡｓｃａｔｎＲｌｎｌｉ）其中一个非常重要的方向。ｉｕｅＡａｙｓ是ｏｓｓ关联规则就是从概率的角度来寻找那些存在频率较高的多个事务之问的相联系，将其视之为规并
Ｃｋ：［］候选ｋ目的集合，项集即潜在的大型项
目集的集合。Ａｒｒ首先对对事务数据库进行第一次遍ｐｉｉｏ历，算每个项目的频繁度，算其相应的大型１计计项集；随后在对其进行遍历分别确定Ｋ项集。求Ｋ项集的过程分为两步：首先，使用在ｋ一１次遍历中所得的大项集Ｌｋ一１和Ａｒｒ—ｇｎ函数产生［］ｐｉｉｅｏ
另外的留下来以供进一步求ｋ＋１大项集。项其具体代码如下所示：

Apriori算法总结

Apriori ['eɪprɪ'ɔ:rɪ]Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。

而且算法已经被广泛的应用到商业、网络安全等各个领域。

其核心是基于两阶段频集思想的递推算法。

该关联规则在分类上属于单维、单层、布尔关联规则。

在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

Apriori算法广泛应用于商业中，应用于消费市场价格分析中，它能够很快的求出各种产品之间的价格关系和它们之间的影响。

百货商场、超市和一些老字型大小的零售店也在进行数据挖掘，以便猜测这些年来顾客的消费习惯。

Apriori算法应用于网络安全领域，比如网络入侵检测技术中。

早期中大型的电脑系统中都收集审计信息来建立跟踪档，这些审计跟踪的目的多是为了性能测试或计费，因此对攻击检测提供的有用信息比较少。

它通过模式的学习和训练可以发现网络用户的异常行为模式。

采用作用度的Apriori算法削弱了Apriori算法的挖掘结果规则，是网络入侵检测系统可以快速的发现用户的行为模式，能够快速的锁定攻击者，提高了基于关联规则的入侵检测系统的检测性。

Apriori算法应用于高校管理中。

随着高校贫困生人数的不断增加，学校管理部门资助工作难度也越加增大。

针对这一现象，提出一种基于数据挖掘算法的解决方法。

一种高效的Apriori算法优化方法

用扫描数据库，直接ｆｍｔｘ．】成ｎｉｍ】ｉａｒｋ＝生ｔｉ眦ｘ［寸。
信息系统工程Ｉ０２１０１３２１．．４２
＜＜
ＡＡＥＩＲＳＡＣ学研ＣＤＭＣＥＥＲＨ术究
ｔＭｎ
少的趋势，因此，增加这一判断条件并不是只针对个别
（）ｒｕｎｆｓ；４ｅｒｌｔａｅ
表１１．一个商场的交易数据
ＩＴＩＤ交易录中嚣的Ｉ列袭Ｄ
其步骤为：假设将ｍｔｘａｉ．ｒ的第ｉ列所代表的项集和第ｊＩ歹Ｊ
所代表的项集进行连接，则将这两列的值进行ａｄ（ｎ逻
Ｈ控．１｝ｊ
ｆ，１｝ｌ５：
４
戗ｌ也簌蛳娥蜒
ｔ｝５．，Ｉｌ１．１ｌ２３
｛２１｝１，４
２
（））８
（）ｒｕｎｋ９ｅｒＣ；ｔ
ｐｏｅｕｅｈｓｉｆｅｕｎｓｂｅｃ１ｒｃｄｒａｎｒｑｅｔｕｓ（，）ｔ．
据库时，生成ｍａｉ［，在后续的叠代过程中，不ｔｘ＝ｍ】ｒ
度的候选形成频繁项集，如此反复扫描事务数据库，耗
费大量的时间。
利用Ａｒｒｐｉｉ：一个频繁项集中任一子集也应是ｏ性质频繁项集。根据其逆反公理：即若一个集合不能通过测
试，该集合所有超集也不能通过同样的测试。也就是说，如果一个ｋ项集的一个（．）．＿ｋ１项子集不是频繁项
蹦Ｉ砸
捎蝣艘

一种改进的Apriori算法的研究

Ｖｏａｉｎｌｎｅｈｉａｌｇ，ａＢｉＨｕ，３００ＣｉａｃｔａｄＴｃｎｃｌｏａＣｏｌｅｅＨｕｉｅＡｎｉ５０，ｈｎ）２
【ｂｔａｔＡｍｒｖｄａｇｒｈａｒｐｓｄ，ｅｉｃｔｅｄ￣ｃｆｆｒａｇｒｈｎａｓｃｔｎｒｌｓｍｉｉｇｈｓａｇｒｈｓｄｓｍｅＡｓｃ］ｎｉｐｏｅｌｏｔｍｗｓｐｏｏｅｓｃｔｅｔｏｉｉｌｏｔｍｉｓｏｉｉｕｅｎｎ．ｉｌｏｔｍｕｅｏｒｉｐｆｏｈｉＡｐｏｉａｏＴｉ
ｃｄｄｔｅｓｔｄｒｃｙｐｄｃｎ，ｄＳｓｔｉｒｖｅｅｉｅｃ６ｈｌｒｈＦｎｌ，ｎｔｅｂｓｆｃｍａｎｏａｏｔｍｓｓｕｃｉｎ．ｎａｉａｅｉｍｅｓｉｔｒｕｉｇａＯａｔｅｌｏｎｏｍｐｏｅｔｆｃｎ￣ｏｅａｇｉｍ．ｉａｙｏａｅｏｏｐｒｇｗｇｒｈｆｉｔｏｔｌｈｉｔｌｉｈ ’ ｆｎｔｏ
ｗｅｖｒｆｅｈｕｅｏｔｆｔｅｉｍｖｄａｇｒｔｍ．ｅｉｄｔｅｓｐｒｒｙｏｍｐｅｏｈｉｉｉｈｌｉ
【ｅｏｄ］ｐｉｇｒｈｓＩｐｖｄｇｒｈ；ｒｕｎｉｍｅ；ｆｉｍｒｓｎＧｏｐｎｑｉｓＫｙｗｒｓＡｒｒａｏｔ；ｍｅｏｔｍＦｅｅｔｔｓｔＡａｓｏｐｅｉ；ｒｉｉｕｅｏｌｉｍｍｉｌａｉｑｅｓｒｃｓｏｕｇｎｒ
【关键词】ｐｉｒ算法；Ａｒｉｏ改进算法；频繁项集；事务压缩；分组查询

对Apriori算法的一种改进

持度的候选项集数量。
维普资讯
第２５卷第２期
２０７年３月０
佛山科学技术学院学报（自然科学版）
ＪｕｎｌｆｏｈｎＵｎｖｒｉＮａｕａｃｅｃｄｔｎｏｒａｏｓａｉｅｓｙ（ｔｒｌｉｎｅＥｉｏ）ＦｔＳｉ
中图分类号：３１１ＴＰ１．３文献标识码：Ａ
单维布尔关联规则挖掘算法是由ＲＡｇａ等人于ｌ９ｒｗＩ９３年提出的，数据挖掘问题中的一个重要是研究内容。掘关联知识的一个典型例子就是“ Ｏ的客户在购买面包和黄油的同时也会购买牛奶 ” 其挖９。他应用还包括附加邮递、目录设计、加销售、追仓储规划以及基于购买模式对客户进行划分等。这些应用
假设，：｛，，＝ｉｉｉ：：
ｉ），不同项目的集合，，是个给定一个交易数据库Ｄ，中每一个交易丁是，其
中一组项目的集合，７，每一个交易丁都与一个惟一的标识符Ｔｄ相联。即 ’ ，ｉ如果对于，中的一个子集Ｘ，ｘ丁，该交易丁包含ｘ。一条关联规则就是一个形如Ｘｙ的蕴涵式，中Ｘ，ｙ，且有则其，，
５５
则挖掘算法。ｒｒ算法使用一种称作逐层搜索的迭代方法，一集用于搜索ｋ１项集。首先找出频Ａｐｉｉｏ是项＋一繁１项集的集合，集合记作厶。用于找频繁２项集的集合Ｌ，厶用于找厶，一该厶一ｚ而如此下去，到频繁直

基于粗糙集的改进Apriori算法研究崔旭

Improved Apriori Algorithm Based on Rough Set
CUI Xu1 ， LIU Xiao － li2
（ 1． College of Science and Engineering，Yanbian University，Yanji Jilin 133002 ，China； 2． School of Automation，University of Science and Technology Beijing，Beijing 100083 ，China） ABSTRACT： Aiming at the defects of the Apriori algorithm，this paper proposed a method for the discovery of frequent item set based on rough set． Firstly，this method uses characteristics attributes reduction algorithm of rough set to find the core of the attribute data，and then uses the improved Apriori algorithm on the data mining of these core data based on the reduction decision table to get frequent item set． The advantage of this method is that it can eliminate unnecessary attributes and reduce the number of attributes on the premise of the same knowledge base classification ability． In terms of generating frequent item set，whether the k － candidate set is generated is determined by the number of k － 1 frequent item set，In this way the number of candidate item set can be reduced． The experiment verifies the validity of the improved algorithm，especially when k is a great number． It can save a lot of computing time， avoid a lot of candidate set，and improve the efficiency of data mining significantly． KEYWORDS： Rough set； Candidate set； Frequent item set

Apriori算法的改进

Ｆｒｅｃ ≠Ｉ ∈Ｌ一１ｄｏａｈＪｉ０Ｉｉ２ｏｅｅｅｎｓｉｎｒｑａｈｎｆ－ｆｔｌｍｅｔｎＩｄＪａｅｅｕｌｅｈａｔ
的关联规则挖掘算法。为了减少候选数据项集的数目。ｐｉｉＡｒｒ算ｏ法使用逐层搜索的方法，过对数据库Ｄ的所有事务数据项扫描通来发现所有的频繁项目集。通过频繁项集的性质知道，有哪些只确认是频繁项的候选集所称成的超级才可能是频繁项集。所以只
Ｋｅｒｓｄｔｎｎ；ｓｏｉｏｕｅｆｑｅｔｔｍ；ｒｒｇｒｈｙｗｏｄ：ａａｍｉｉｇａｓｃａｎｒｌ；ｅｕｎｅＡｐｏａｏｉｍｉｔｒｉｉｉｌｔ
１引言
关联规则挖掘是在数据库挖掘领域中较早提出的一个研究
Ｌ＝ＬＵＬｋ；
Ｃ＋＝ＡｒｆＧｎｋｋｌｐｏ— ｅ（１ｉｉＬ
Ｕｔｋ１＝ ‘ ｎｌＣ＋ｉｐ：
方向，目前该领域的新算法、应用层出不穷，关问题定义和背新相景也不尽相同。关联分析是揭示数据之间相互关系的一项数据挖掘任务，这种关系在数据库中没有表现出来。关联规则就是较而早提出于超市的购物篮的分析．也是数据挖掘领域里最为活跃这

一种改进的Apriori算法

ｃａｎｒｅｄｕｃｅａｌｏｔｏｆｕｓｅｌｅｓｓｃｏｎｎｅｃｔｉｏｎｓ．ｔｈｅｒｅｂｙｉｔｃａｎｒｅｄｕｃｅｔｈｅｎｕｍｂｅｒｏｆｔｈｅｃａｎｄｉｄａｔｅｓｅｔｔｏｂｅｄｅｔｅｒｍｉｎｅｄｉｎｔｈｅｐｒｕｎｉｎｇｓｔｅｐｓ，ａｎｄｉｍｐｒｏｖｅＡｐｒｉｏｒｉａｌｇｏｒｉｔｈｍ．ＥｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｃｏｎｆｉｒｍｔｈａｔｔｈｅｉｍｐｒｏｖｅｄＡｐｒｉｏｒｉａｌｇｏｒｉｔｈｍｉＳｍｏｒｅｔｉｍｅ— ｅｆｆｉｃｉｅｎｔｔｈａｎｔｒａｄｉｔｉｏｎａｌａｌｇｏ — ｒｉｔｈｍｓｗｈｉｌｅｔｈｅｑｕａｌｉｔｙｏｆａｓｓｏｃｉａｔｉｏｎｒｕｌｅｓｉＳｔｈｅｓａｍｅａｓｔｈａｔｏｆｔｒａｄｉｔｉｏｎａｌａｌｇｏｒｉｔｈｍｓ．Ｋｅｙｗｏｒｄｓ：Ａｐｒｉｏｒｉａｌｇｏｒｉｔｈｍ，ａｓｓｏｃｉａｔｉｏｎｒｕｌｅｓ，ｆｒｅｑｕｅｎｔｉｔｅｍｓｅｔｓ，ｄｅｌｅ－７３７８（２Ｏ１３）Ｏ卜００Ｏ１一Ｏ３中图法分类号：ＴＰ３１１文献标识码：Ａ
Ａｂｓｔｒａｃｔ：Ｇｅｎｅｒａｔｉｎｇｆｒｅｑｕｅｎｔｉｔｅｍｓｅｔｓｆｒｏｍａｎｅｗｖｉｅｗｏｆｔｈｅｃｏｎｎｅｃｔｉｏｎａｆｔｅｒｔｈｅｄｅｌｅｔｉｏｎ

数组在apriori算法改进中的应用

数组在apriori算法改进中的应用摘要 apriori算法是经典的关联规则挖掘算法，该算法存在的一个缺陷就是多次扫描数据库需要大量的io操作。

文章提出了应用数组来减少apriori算法的io操作，从而提高apriori算法的效率。

关键词数组；apriori；算法；数据库中图分类号tp392 文献标识码a 文章编号 1674-6708（2013）93-0227-020引言数据挖掘（data mining，简称 dm）就是从大量的、不完全的数据中，提取隐含在其中的有用信息的过程。

数据挖掘的一个重要研究方向就是关联规则挖掘，其目的就是为了发现事务之间的关联关系，并利用发现的关联关系来指导人们工作。

apriori算法是关联规则挖掘中的一个经典算法，该算法是由r.araw等人于1994年提出，并在超市销售活动的购物分析中得到充分应用。

关联规则挖掘涉及到最小支持度和最小置信度两个度量标准，只有关联规则的支持度和置信度都分别大于等于最小支持度和最小置信度时，这样的关联规则才是人们感兴趣的关联规则，也称为强关联规则。

关联规则挖掘分为两个步骤：首先，根据最小支持度标准查找事务数据库中的频繁项集，然后根据最小置信度由频繁项集生成强关联规则，其中的第一个步骤生成频繁项集是关联规则生成的关键步骤，影响关联规则的整体挖掘效率。

apriori算法就是为了发现关联规则挖掘中的频繁项集，因此，对aprior算法进行改进就可以促进关联规则挖掘效率的提高。

1 apriori算法1.1 apriori算法基本思想apriori算法是通过逐层迭代的方法来产生频繁项集，首先扫描数据库，根据最小支持度生成1项频繁项集，然后由1项频繁项集与自身进行连接操作生成2项候选项集，再一次扫描事务数据库，根据最小支持度生成2项频繁项集，然后再由2项频繁项集与自身进行连接操作生成3项候选项集，再进行数据库扫描根据最小支持度来生成3项频繁项集，以此类推，直到生成的候选项集或频繁项集为空，则该算法结束。

Apriori算法的改进及其在物流信息挖掘中的应用

随着数据库技术的不断发展，据挖掘已经被数
则频繁项集的算法．随着挖掘数据库的不断增大，应用Ａｒｒ算法时每次迭代产生候选项目集以统计其ｐｉｉｏ支持度是非常耗时的．了提高算法的效率，ｐｉｒ为Ａｒｉｏ算法的一系列改进算法主要在以下方面进行优化：１减少扫描数据库的次数；）少生成候选项目集）２减的数目Ｅ．２］从Ａｒｒ算法可以看出，法中的每一个候选ｐｉｉｏ算项集都对数据库扫描一次，但是在候选项集中的某些事务已经对频繁项集的生成不产生作用．以减所少数据库中不起作用的事务对于算法来说是很有必
背后隐藏的、对提高企业效率、降低成本有价值的信
息，因此，数据挖掘技术帮助决策者分析和处理采用数据，在物流决策过程中提供科学、确的预测和决准策越来越受到人们的关注．
ＺＨＡＯｕｌｎＣｈｎ— ｉｇ，ＮＩＮＧｎ — ｕＨｏｇｙｎ
（ｈｏｆｏｐｔｃｅｃｎｅｈｏｇ，ｉｊｎｅｓｙｏｅｈｏｇ，ｉｊ０１１ＣｉａｃＳｏｌｍｕｅＳｉｎｅａｄＴｃｎｌｙＴａｉＵｉｒｔｆｃｎｌｏＣｒｏｎｎｖｉＴｏＴａｉ３０９。ｈ）ｙｎｎｎ
Ａｒｒ算法的改进及其在物流信息挖掘中的应用ｐｉｉｏ
赵春玲，宁红云

Apriori算法

Apriori算法改进及其实现内容摘要信息技术的不断推广应用，将企业带入了一个信息爆炸的时代。

如何充分利用这些数据信息为企业决策者提供决策支持成为一个十分迫切的又棘手的问题，人们除了利用现有的关系数据库标准查询语句得到一般的直观的信息以外，必须挖掘其内含的、未知的却又实际存在的数据关系。

著名的Apriori算法是一种挖掘关联规则的算法。

本文通过对参与候选集的元素计数的方法来减少产生候选集的组合和减少数据库的扫描次数来达到要求。

这有利于提高挖掘的速度和减少数据库的I/O 操作时间的开销。

关键字：数据挖掘，关联规则，Apriori算法Apriori Algorithm And Improved Apriori Algorithm Abstract：An information burst age is coming with the various application of Information technology. How to maximize the information is a very important problem for the decision-maker of the companies. Besides getting the regular information from the Database by SQL-query, people still need to mine the data relation which is unclear but really exists.Association rules is one of the data mining methods, the famous algorithm Apriori is a method, which can be used to solute those problems.This article analyzes and studies the improved algorithm Apriori based on the algorithm of mining association rules Apriori. The main idea is to decrease the number of candidate items and to decrease the times of Database scanning. The solution is available. It upgrades the speed of data mining and decreases computer's I/O operation. It's proved to be more efficient than the traditionalKey words: Datamining, association rules, Apriori algorithm,目录1 数据挖掘.................................................................................................................................. - 1 -1.1 技术上的定义及含义.................................................................................................. - 1 -1.2 商业角度的定义.......................................................................................................... - 2 -1.3 数据挖掘与传统分析方法的区别.............................................................................. - 2 -1.4数据挖掘不能干什么................................................................................................... - 3 -2 数据挖掘的几种主要形式:.................................................................................................... -3 -2.1:规则挖掘：.................................................................................................................. - 3 -2.2聚类分析：................................................................................................................... - 4 -3 关于关联规则的讨论.............................................................................................................. -4 -3.1购物篮分析................................................................................................................... - 4 -3.2 关联规则基本问题描述.............................................................................................. - 4 -3.3 关联规则挖掘举例...................................................................................................... - 6 -3.4 关联规则问题的分解.................................................................................................. - 8 -4 Apriori算法的描述............................................................................................................... - 8 -4.1 Apriori算法的说明................................................................................................... - 8 -4.2 Apriori算法的描述................................................................................................... - 9 -4.3 Apriori算法的举例................................................................................................. - 11 -5 一种Apriori的改进算法.................................................................................................... - 14 -5.1算法产生的思路......................................................................................................... - 14 -5.2算法的图例说明......................................................................................................... - 15 -5.3本算法的评价:........................................................................................................... - 15 - 附录1 程序运行图示............................................................................................................... - 18 - 附录2 程序代码....................................................................................................................... - 20 -1 数据挖掘1.1 技术上的定义及含义数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

基于Apriori算法的改进关联规则的算法研究

一
定是非大项集，对经典的Ａｒｒ算法要多次扫面事务数据库的问题，了一些改进，ｐｉｉｏ作并进行仿真计算，结果［关键词】数据挖掘；ｐｉ算法；Ａｒｆｏｉ关联规则
［中图分类号］Ｔ３１１Ｐ１．３［文献标识码］Ａ［文章编号］１７２９（０２００１０６２— ５０２１）３— ００— ３
谢美萍，芮廷先
（上海财经大学信息管理与工程学院，上海２０３）０４３
［摘
要］关联规则是数据挖掘的一个重要研究内容，主要用于从大量数据集中挖掘出有价值的数据项
之间的关联关系．典型案例是超市的购物篮分析，主要对顾客的购买记录数据库进行关联规则挖掘，可以发现顾客的购买行为．本文依据Ａｒｒ算法的两个基本性质，ｐｉｉｏ即任何大项集的子集一定是大项集，大项集的超集非
繁项目集的时候采用数组分组的方法来减少对内存矩阵的扫描．了减少候选集，用从大到小筛选频为采繁项目集的方法，同时把相应的事务从矩阵中删除以减少扫描范围．
２关联规则的定义
设，，，，｝＝ … ｉ为项目集，事务数据库Ｄ＝｛。 … ，｝ｔ，，ｔ是由一系列具有唯一标识ＴＤ的事务ｔＩ组成，每个事务（＝１２ …，）ｉ，，ｎ都对应项目集，上的一个子集．关联规则就是一个蕴涵式，形如ｘｊｙ，其中ｘ∈ ， ∈ ，，ｙ』并且满足ｘｎＹｆ．中是关联规则的条件，是关联规则的结果．＝２其ｊｙ在使用关联规则前，需设定最小支持度（ｉｕｐｒ与最小置信度（ｉｏｆｅｃ）最小支持度的定义是事务集合Ｄ中Ｍｎｐｏ）ｓｔＭｎｎｄｎｅ，ｃｉ包含有和ｌ的百分比．，最小置信度的定义是事务集合Ｄ中同时包含和ｌ的事务占的百分比．，因

基于位集合的Apriori算法的改进

王威，陈梅
（贵州大学计算机科学与信息学院，贵州贵阳５０２）５０５
摘要：经典Ａｒｒ算法运行效率瓶颈问题，位集合占用内存空间少、针对ｐｉｉｏ结合逻辑运算快的特点，出一种基于位集合提
的改进算法ＡＳＢ。该算法通过一次数据库扫描，构建事务集位集合；采用位集合逻辑 “ 运算和位统计操作确定频繁项与” 集；连接和剪枝策略，用位集合的逻辑 “ ” 算，计运算结果重复出现次数，成候选项集。挖掘实例数据库改进采或运统生Ｎｒｗｎ的频繁项集，比Ａｒｒ算法，进算法运行时间明显减少。该算法避免了数据库的重复扫描和繁琐的连接减ｏｈｉｔｄ对ｐｉｉｏ改枝操作，步提高了Ａｒｒ算法的运行效率。进一ｐｏｉｉ
ｒｔｍｏｓｔｔｓｔｎａｔｏａｔｅｙｓａｎｎａｂｅｏｅｔｍｅ，ｓｎｏｉａ ” ｎｉｈｃｎｔｕｅｒｓｃｉｎｌＳｔｂｃｎｉｇｄｔａｎｉａＢｉａｓｉｕｇｌｇｃｉｌａｄ” ｏｅａｉｎｏｔｅｎｄｂｔｏｎｐｏｅｉｏｏａｏ
关键词：数据挖掘；关联规则；频繁项集；位集合；ｏｉ法Ａｒ算中图分类号：Ｐ１．３Ｔ３１１文献标识码：Ａ文章编号：７ — ２Ｘ２１）２０７ —３１３６９（０１１—０００６

基于数组的Apriori算法的改进

】 ≥ｍｉｏｆ）ｎｎｃ
（）２
的关联规则，同时满足条件（）１和条件（）２的关联规则为强关联单维布尔关联规则挖掘算法是由ＲＡｒｗ等人于１９．ｇａｌ９３年提出的，是数据挖掘问题中的一个重要研究内容。挖掘关联知
识的一个典型应用实例就是市场购物分析。根据被放到一个购
２基于数组的Ａｒｒ关联规则算法ｐｉｉｏ
２１关联规则的一些术语【．１
设，ｉ。 … ，｝ ” 维数据项集合；＝｛如，为ｌＤ＝｛，， …，｝，维事务数据库：Ｃ，每一个事务，都有一个全局唯一为Ｔ，＿的标识符ＴＤ；的任一子集称作数据项集，ＶｉＸ均有ｉＩ，若 ∈ ∈ ７则 ∈７称为事务７包含数据项集； ’ ， ’ ， ’ 数据项集的支持度
ｔｅｍｅｒｒｆｃｅｔＡｄ，ｙｕｉｇｄｔｈｍｏｙｍｏｅｅｆｉｎ．ｎｂｓｎａａ—ｄｌｔｅｌｑｅ，ｅＡｇｒｈｉｅｆｂｃｍｅｒｆｃｅｔｉｅｅｅｔｃｍｉｕｔｌｏｉｍｔｌｅｏｓｍｏｅｅｆｉｎ．ｈｔｓｉ
据库。文献［］５提出了一种基于数组描转为对内存数组的扫描，只扫描一次数据库，
节约了存储设备Ｉ０时间，／提高了效率。
法就是根据有关频繁项集特性的先验知识而命名的。该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘：［作。这一循环方法就是利用ｋ项集来产生（＋）ｋ１项集。具体做
２３基于数组的Ａｐｉｒ关联规则算法．ｒｏｉ

基于Apriori算法的改进算法

基于Ａｒｒ算法的改进算法ｐｉｉｏ
郭健美，宋顺林，李世松
（苏大学计算机学院，江苏镇江２２１）江１０３
摘要：关联规则挖掘是数据挖掘研究的一项重要内容。为了快速挖掘关联规则，分析了挖掘关联规则的Ａｆｆ算法，ｐｏｉｉ并在
ＡｂｔａｔＭｉｉｇａｓｃａｉｎｒｌｓｉｎｆｈｓｏｔｎｐｃａｎｎ．Ｉｒｅｎｓｏｉｔｎｒｌｓｕｃｌ，ｔｅｓｒｃ：ｎｎｓｏｉｔｕｅｓｅｏｅｍｏｔｍｐｒａｔｏｉｓｉｄｔｍｉｉｇｎｏｄｒｏｍｉｅａｓｃａｉｕｅｉｋｙｈｏｏｔｉｔｎａｔｏｑＡｐｏｉｌｏｔｍｎｌｚｄａｄｉｉｕｄｔｎｏｅｋｄｏｒｖｄａｇｒｈｒｐｓｄｗｈｃａｌｄＮＡｐｉｒａｇｒｈ．Ｉｉｒｒａｇｒｈｉａａｙｅ，ｎｔｓｏｎａｉｎｉｆｍｐｏｅｌｏｔｉｓｎｈｆｏｎｉｉｍｉｐｏｏｅｉｈｉｃｌｓｓｅｒｏｉｌｏｔｉｍｎ
ｏｄｒｏｍｉｅａｓｃａｉｎｒｌｓｉｕｅｅｕｎｉｍｓｔｏｒｏｇｉｅｔｅｔａｓｃｉｎｄｔｂｓ．Ｉｏｌｅｄｄｔｍｅｆｓａｎｎ，ｒｅｎｓｏｉｔｅ，ｔｓｄｆｑｅｔ１ｔｔｏｕｒｅｅｅｒａｚｎａｔａａａｅｔｎｙｎｅｅｔｎｈｒｏｗｏｔｓｏｎｉｇｉｃａｄｈｄａｏｄｄｔｅｔｄｏｓｃｎｅｔｎｓｅｄｔｅｄｌｔｎｓｅｆｈｒｒａｇｒｈ．ＴｅｅｐｒｎｄｃｔｓｈｔｈｓｔｏａｎａｖｉｅｉｕｏｎｃｉｐａｅｅｉｔｐｏｔｅＡｐｏｌｏｔｍｈｅｏｔｎｈｏｉｉｉｈｘｅｍｅｔｎｉａｅａｉｍｅｈｄｈｓｉｉｔｔ

对Apriori算法的一种改进——基于O-1矩阵处理算法

维普资讯
。
人工智能及识别技术
…
本责编辑：一栏目任唐东
对Ａｒｒ算法的一种改进——基于０１ｐｉｉｏ — 矩阵处理算法
顾琳，敬涛ｚ兴涛ｓ黎，张（．南师范大学计算机与信息工程学院，南昆明６０９；．明理工大学信息工程与自动化学院１云云５０２２昆云南昆明６０５；，５０１３昆明铁路机械学校，南昆明６９９）云５２８
统的运行效率。时还减少了大量的候选集的产生．约了存储空间同节
关键词：繁项集；— 矩阵：ｐｉｒ算法；频０１Ａｒｉｏ支持度记数
中图分类号：Ｐ１Ｔ３１
文献标识码：Ａ
文章编号：０９３４（０７２ — ０１ — ３１０ — ０４２０）１４８４０
ＡｎＩｒｖｍｅｔｏｒｒＡｌｏｉｍ－Ｂａｅｎ０１ＭａｒｒｃｓｉｇＡｌｏｉｍｍｐｏｅｎｆＡｐｉｉｇｒｈ－ｓｄｏ－ｔｘＰｏｅｓｎｇｒｈｏｔｉｔ
ＧＵｉＩｉｇｔｏ，ＨＡＮＧｎ —ｔ。Ｌｎ，ｎ —ａ２ＥＪＺＸｉｇａｏ
摘要：掘频繁项集是关联规则算法中的关键问题．高频繁项集的产生效率是近几年关联规则挖掘领域研究热点之挖提
一
。
该文针对Ａｒｏｉ法的不足，出了一种０ｐｉｒ算提 —１矩阵的改进算法。此改进算法大大减少了访问数据库的次数．高了系提

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Apriori算法中频繁项集求法的改进
摘要：分析传统apriori效率较低的原因，采用0-1矩阵改进数据库事务集的描述，提高apriori中统计匹配的时间效率；分析各频繁项集的计数，改进传统apriori算法完全从低维频繁项集产生高维频繁项集的方式，通过先求出1项频繁集和最大频繁项集，减少中间的频繁项集剪枝数量，从而达到提高算法效率的目的。

关键词：0-1矩阵；统计匹配；剪枝
1 关联规则[1]挖掘及apriori算法概述
一提到关联规则挖掘就会令人联想到“尿布与啤酒”的故事，这是借助数据挖掘技术对大量原始交易数据进行分析揭示的一条规律。

apriori[2]算法是由美国学者r. agrawal等在1993年提出的一种从大规模商业数据中挖掘关联规则的有效方法。

现在已经被广泛用于商业决策、社会科学、科学数据处理等各种各样的数据挖掘领域之中。

使用基于支持度的剪枝技术，系统地控制候选项集指数增长。

其核心是使用候选项集找频繁项集。

算法具体的执行步骤如下：
（1）根据用户的要求确定最小支持度和最小置信度；（2）找出所有的频繁项集：先由数据库读入所有的数据项，得出候选1项集c1，然后根据最小支持度要求确定频繁1项集l1；使用l1与l1自连接产生候选2项集c2，继续对数据库扫描，得出候选2项集c2的支持度，确定频繁2项集l2；继续执行上述的步骤，不断进行连接与剪枝，重复对数据库的扫描，并和最小支持度进行比较，产生
更高层次的频繁项集，直到不再产生新的候选频繁项集为止；（3）根据频繁项集产生强关联规则。

2 apriori算法的缺点及改进方法
apriori算法能够有效地进行数据关联规则挖掘，但该算法存在效率不高的问题。

该算法使用迭代方法，通过低维频繁项集产生高维频繁项集，该算法存在两个比较明显的缺点：一个是可能产生大量的候选集，时间开销和空间开销都很大；另一个是需要多次扫描数据库，需要很大的 i/o开销。

2.1 采用0-1矩阵描述数据库事务集
设i={i1，i2，…，in}是项的集合，d是数据库事务集，其中每个事务t是项的集合，使得t？哿i。

按如下规则用0-1矩阵描述数据库事务集：如果i中某一项ik在事务t中存在，用“1”表示，否则就用“0”表示。

数据库事务集d就转化为m*n矩阵的0-1矩阵，其中m为数据库事务集d的大小，即包含多少个事务，n为集合i的计数。

采用0-1矩阵描述数据库事务集能带来如下好处：
（1）运算简单；便于统计，横向统计“1”的个数就是事务t包含的项数，纵向统计“1”的个数就是1项集的统计数；（2）使用0-1矩阵算法，提高统计项集时候的匹配效率，传统的统计匹配效率正比于n，采用0-1矩阵匹配时间效率正比于n；（3）减少对数据库的扫描，排序后，求频繁k项集的时候，统计项集时不需要扫描数据库，只需要统计包含大于等于k个项目数的事务；（4）易于
对数据库事务集按事务包含的项目数大小降序排序；（5）易于求出最大频繁项集。

2.2 改进后的算法 myapriori描述
要提高apriori算法的效率，一般来说就是要考虑两个方面的问题：一是减少对数据库的扫描，二是在剪枝的时候减少统计项集的次数。

采用0-1矩阵，并排序以后，可以减少对数据库的扫描，在求k项频繁项集时候，只需要扫描包含大于等于k个项目的项集，不需要扫描全部的数据库。

传统apriori算法采用从频繁1项集开始，由频繁k-1项集产生频繁k项集，中间产生大量候选集，对这些候选集要进行统计并剪枝，运算量大；通过多次试验发现：对于1项频繁集，2项频繁集，……，m-1项频繁集，m项频繁集（m项频繁集为最大频繁项集），其数量分布有一定规律，就是两头的数量相对较少，尤其是最大频繁项集数量不多，中间频繁项集的数量较多，数量分布整体呈现为“纺锤状”。

可以先通过统计的方法求出最大频繁项集，然后利用“频繁项集的所有非空子集一定也是频繁的”这一定理，再由k-1项频繁项集产生k项频繁项集时，剔除最大频繁项集的子集的项集，只需要统计分析剩余的项集是否为频繁项集即可，减少了剪枝的运算量，优化算法。

算法myapriori：输入原始数据库事务集矩阵a，输出0-1矩阵fi表示的各项频繁项集。

上述算法的优点：在减少了剪枝的运算量，减少了数据库的扫描次数；缺点是对原始数据库0-1化处理、排序和统计产生最大频繁
maxfi增加了额外开销，其中0-1化处理、排序要对数据库各扫描1次，统计产生最大频繁maxfi也需要对数据库进行扫描；其中0-1化处理、排序增加的开销并不是很大，统计产生最大频繁maxfi可能会带来较大的开销。

总体来说，从时间效率上来讲，改进的算法优于传统的算法，尤其在maxfi比较容易求取的情况下；从空间效率来讲，改进后的算法要用到counta01、cca01、sa01等矩阵，效率会有所降低。

2.3 myapriori算法性能分析与实验
对某关于公积金数据库事务集{{t1：i1，i3，i4，i6}；{t2：i2，i3，i4}；{t3：i1，i2，i3；}；{t4：i2，i6}；{t5：i2，i3，i4，i5}；{t6：i2，i3，i5}；{t7：i1，i2，i3，i4，i6}；{t8：i1，i3，i4，i5，i6}；{t9：i1}；{t10：i1，i5}，令sup=0.3：
采用传统apriori算法，求1项频繁集时，有6个候选频繁项集，每个项集需要与原数据库匹配1次，原始数据库大小为10项，要匹配6*10=60次，得到6个1项频繁集；求2项频繁集时，产生c62=15个候选频繁项集，每个项集需要与原数据库匹配1次，原始数据库大小为10项，要匹配15*10=150次，得2项频繁集有9项；求3
项频繁集时，产生13个候选频繁项集，每个项集需要与原数据库匹配1次，原始数据库大小为10项，要匹配13*10=130次，得3
项频繁集有5项；求4项频繁集时，产生3个候选频繁项集，每个项集需要与原数据库匹配1次，原始数据库大小为10项，要匹配3*10=30次，得4项频繁集有1项，4项频繁集即为最大频繁项集。

在上述过程中，共计需要匹配的次数为：60+150+130+30=370。

采用改进后的算法myapriori算法，求1项频繁项集匹配60次，2项频繁项集匹配96次，3项频繁项集匹配76次，4项频繁项集匹配4次，共计匹配236次，加上扫描2遍数据库，可近似计为2*10次=20次，总计为236+20=256次，小于传统apriori算法的370次；减少了对数据库的扫描和剪枝的运算量。

实验验证：采用matlab编程，2g内存，2.5g双核cpu， windows xp环境；使用gjj数据库，采用传统apriori算法和改进后的myapriori算法各运行10000次，时间分别为0.3440ms和0.2950ms，可以得出改进后的算法更快。

参考文献
[1]jiawei han micheline kamber著.范明，孟小峰.数据挖掘概念与技术（加）[m].机械工业出版社，2008年12月.
[2]agrawal r，imielinskit， swami a.mining association rules between sets of items in large databases. proceedings of acmsigmod conference on management of data，1993：207-216.。

Apriori算法中频繁项集求法的改进

合集下载

Apriori算法总结

关联规则挖掘中Apriori算法的一种改进

Apriori算法总结

一种高效的Apriori算法优化方法

一种改进的Apriori算法的研究

对Apriori算法的一种改进

基于粗糙集的改进Apriori算法研究崔旭

Apriori算法的改进

一种改进的Apriori算法

数组在apriori算法改进中的应用

Apriori算法的改进及其在物流信息挖掘中的应用

Apriori算法

基于Apriori算法的改进关联规则的算法研究

基于位集合的Apriori算法的改进

基于数组的Apriori算法的改进

基于Apriori算法的改进算法

对Apriori算法的一种改进——基于O-1矩阵处理算法

文档推荐

最新文档