基于FIUT结构增量式频繁项集挖掘

格式：pdf
大小：313.78 KB
文档页数：4

下载文档原格式

关联规则中频繁项集高效挖掘的研究

值得注意的是有许多改进算法如文献12对生成的对角矩阵进行深度遍历这样能更好地提高获取最高维频繁项的连接效率但是却不能及时地进行剪枝极有可能会造成许多连接的浪费此外它实际上只生成了候选频繁项集表但并没有对数据库进行第二次扫描对其中的候选项集进行验证这样就很有可能将非频繁示为数据库d1的情况
Computer Engineering and Applications 计算机工程与应用
1
引言
关联分析是数据挖掘的一项重要研究内容，其主பைடு நூலகம்任务
众多改进算法所引用[9-10]，文献[9]通过构建两个支持度矩阵分别挖掘频繁二项集和最大频繁项集，其时间和空间代价较大；文献[10]存在着在由频繁 k 项集连接生成候选 k+1 项集时效率较低，以及会生成错误频繁项的缺点。本文在减少扫描数据库次数的基础上，通过生成二项集支持度矩阵避免了产生无效的二项集，解决了二项集瓶颈问题。同时利用矩阵的优势对连接和剪枝步进行改进，提高了挖掘频繁项的效率。
表 1 数据库 D1
TID item T1 a， b T2 a， b T3 b， c T4 b， c T5 a， c T6 a， c
候选三项集表 C3 。（5）第三次扫描数据库，对 C3 中的三项集进行计数，找出大于最小支持度的三项集，生成频繁三项集表 L3 。这样依次由频繁 k 项集表生成频繁 k+1 项集表，直至不能生成更高维的频繁项集为止。通过对 Apriori 算法的分析可以看出它有以下几个缺点：需要频繁的扫描数据库，这对经常遇到的海量数据库以及平均事务宽度很长的数据库来说， I/O 开销是非常大的；生成了大量的候选二项集，产生了二项集瓶颈问题，其中有许多是无效的二项集，这样不但占用了较多的空间，而且增加了步骤（3）的工作量；在生成的每一个候选三项集时的连接和剪枝阶段，都要多次对 L 2 进行扫描，且搜索空间较大，效率较低。

多谓词约束下基于模式增长的频繁项集挖掘算法

Ｋｅｒ：ｒｑｅｔｔｍｓｔ；ｃｎｓａｎ－ｂｓｄｐｔｍｎｎｍｕｔｍｅｓｏａｓｏｉｔｎｒｌ；Ｆｙｗｏｄｓｆｅｕｎｅｅｓｏｔｉｔａｅａｔｉｒｅｍｉｉｇ；ｌｉｄｉｎｉｎｌａｓｃａｉｕｅＰ—ｔｅｏｒｅ
Ｏ引言
一
ａｅｇ（Ｘ，ｙｕｇ）＾ｂｙ（，Ｃ ” ｂｙ（， ”ｏｎ” ｕｓ ” Ｄ）ｕｓ ”
ｔｐｏ ” ａｔｐ）（）２
般的频繁项集挖掘单值属性，亦即单个谓词，针
对的是事务数据库，而涉及两个或多个谓词的频繁项集被称为多维频繁项集，被挖掘数据通常存于交易数据库中，生成的多维关联规则形如格式：
及模式树进行更新搜索，因此需要开销更多的主存，在更新过程中有更高的效率。理论分析和实验结果都表明了ＭＭ但Ｃ —
ｎ算法的完备性和有效性。
关键词：繁项集；束模式挖掘；维关联规则；繁模式树频约多频
给定交易数据库Ｂ＝Ｂｏ，中Ｂｏ，Ｂ其为交易者的属性数据ห้องสมุดไป่ตู้ ，，同于一般的事务数据库Ｄ，对于记Ｂ等
录集Ａｕ，Ｘ＝Ａｏ，，ＸＸ，ｏＸ在Ｂ中的支持数是指Ｂ
中包含，的记录数，为ｃｕｔ其支持度是记录记ｏｎＢ，数占整个交易数据库的百分比，记为．ｕＢ，ｓｐＸ满足
中图分类号：Ｐ１Ｔ３１文献标识码：Ａ文章编号：７ — ２Ｘ２１）００１－５１３６９（０１１－１６０６

一种基于滑动窗口的数据流频繁项集挖掘算法

一种基于滑动窗口的数据流频繁项集挖掘算法寇香霞;任永功;宋奎勇【期刊名称】《计算机应用与软件》【年(卷),期】2013(030)001【摘要】数据流的流动性与连续性,使得数据流所蕴含的知识会随着时间的推移而发生变化.挖掘数据流中的频繁项集是一项意义重大且具有挑战性的工作.提出一种基于滑动窗口数据流的频繁项集挖掘——FIUT-Stream算法,FIUT-Stream算法分块挖掘数据流,在内存中维持一个滑动窗口数据的概要结构,随着窗口滑动动态更新该存储结构,利用FIUT算法进行频繁项集挖掘.实验表明,该算法能节省内存空间、精确获得频繁项集.%The flowability and continuity of data stream make the knowledge implicated in data streams change as the time passes. To mine frequent itemsets in data streams is a significant and challenging work. A new algorithm of FIUT-Stream, mining the frequent itemsets in data streams over sliding window, is proposed in the article. FIUT-Stream mines the data stream by blocks and maintains in memory an outlined structure of a sliding window data, dynamically updates the storage structure when the window slides, and uses FIUT algorithm to mine the frequent itemsets. Experiments show that this algorithm can save memory space and accurately acquires the frequent itemsets.【总页数】4页(P143-146)【作者】寇香霞;任永功;宋奎勇【作者单位】辽宁师范大学计算机与信息技术学院辽宁大连116029;辽宁师范大学计算机与信息技术学院辽宁大连116029;辽宁师范大学计算机与信息技术学院辽宁大连116029【正文语种】中文【中图分类】TP301【相关文献】1.基于加权滑动窗口的数据流频繁项集挖掘算法 [J], 白川平;杨志翀2.滑动窗口中数据流最大频繁项集挖掘算法研究 [J], 尹绍宏;单坤玉;范桂丹3.基于滑动窗口的不确定性数据流频繁项集挖掘算法 [J], 刘慧婷;周开申;赵鹏4.数据流中一种基于滑动窗口的前K个频繁项集挖掘算法 [J], 张文煜;周满元5.数据流中基于滑动窗口的最大频繁项集挖掘算法 [J], 杨路明;刘立新;毛伊敏;谢东因版权原因，仅展示原文概要，查看原文内容请购买。

基于深度学习的不确定数据频繁项集挖掘系统

定数据频繁挖掘系统能够在短时间内取得有效的挖掘结果，误差小，实用性更强。
关键词：深度学习；频繁项；不确定数据；频繁项集；挖掘系统
中图分类号：TM73
文献标识码：A
DOI：10.14022/j.issn1674-6236.2020.04.007
文章编号：1674-6236（2020）04-0033-04
第 28 卷
Vol.28
第4期
No.4
电子设计工程
Electronic Design Engineering
2020 年 2 月
Feb. 2020
基于深度学习的不确定数据频繁项集挖掘系统
苏韵捷，徐传凯，王金泽
（北京国际关系学院信息科技系，北京 100091）
摘要：传统不确定数据频繁挖掘系统工作过程花费的时间较长，且挖掘结果与真实结果误差较
uncertain data frequent mining system is studied based on deep learning. A deep learning mining model
is established in the hardware structure. The hardware structure is composed of sensors，hidden layer，
大。为了解决上述问题，基于深度学习研究了一种新的不确定数据频繁挖掘系统，在硬件结构中
建立深度学习挖掘模型，通过传感器、隐层、输入层、输出层、中心处理器、存储器和显示器构成硬
件架构，软件流程由发送采集命令、预训练、微调训练、数据检测、判断候选项集是否为频繁项集等
步骤组成。为检测挖掘系统工作性能，与传统挖掘系统进行实验，结果表明，基于深度学习的不确

频繁项集高效挖掘算法研究

邮局订阅号：82-946120元/年技术创新软件时空《PLC 技术应用200例》您的论文得到两院院士关注频繁项集高效挖掘算法研究Study on Efficient Algorithm of Frequent Item-set Mining(常州工学院)刘芝怡常睿LIU Zhi-yi CHANG Rui摘要:为进一步提高频繁项集挖掘算法的可扩展性,对频繁项集的搜索空间以及FP-tree 的操作方法进行了研究。

在此基础上提出了基于frequent-pattern 链表的高效频繁项集挖掘算法FPL-Growth 。

FPL-Growth 运用递增构建候选项集策略和Apri -ori 性质来缩小搜索空间,运用交叉计数方法快速获取频繁项集的支持数。

最后的实验证明了该算法的有效性。

关键词:frequent-pattern 链表;频繁项集;数据挖掘中图分类号:TP311文献标识码:AAbstract:To further improve the scalability of the algorithm for frequent item -set mining,studies on the frequent item -set search space and the FP-tree operation method were made.On this basis,an efficient algorithm for frequent itemset mining based on the fre -quent-pattern list is presented,which employs the strategy of incremental construction of the candidate itemset and Apriori property to reduce the searching space,and gets support-count of the frequent itemset by intersecting stly the algorithm is realized on experiment and is proved to be efficient.Key words:frequent-pattern list;frequent itemset;data mining文章编号:1008-0570(2012)10-0491-03引言自1994年Agrawal 提出算法Apriori 后,频繁项集挖掘算法的发展得到了相当大的关注。

一种基于频繁序列树的增量式序列模式挖掘算法

ＦＴ，ｉｒｅｏｖｈｒｂｅｔａｈｘｓｄｉｃｅｎａｎｎｇｒｈａｏｍａｅｆｌｕｅｏｅｒｓｌｆｈｒｖ— Ｓｎｏｄｒｔｓｌｅｔｅｐｏｌｍｈｔｅｅｉｔｎｒｍｅｔｍｉｉｇａｏｉｍｓｃｎｎｔｋｌｓｆｈｅｕｔｏｅｐｅｉｏｔｅｌｌｔｕｔｓｔ
（ｉｒｒｏＹｎｈｎＵｉｒｔ，Ｑｎｕｎｄｏ０６０ＣｉａＬｂａｙｆａｓａｎｅｓｙｉｈａｇａ６０４，ｈｎ）ｖｉ
ＡｂｔａｔＴｉａｅｒｐｓｓａｎｒｍｅｔｌｍｉｉｇａｇｒｔｍｆｓｑｅｔａｔｒｓｂｓｄｏｓｒｃ：ｈｓｐｐｒｐｏｏｅｎｉｃｅｎａｎｎｌｏｈｏｅｕｎｉｐｔｎａｅｎ￣ｅｕｎｅｕｎｅｔｅ，ｃｌｄＩ — ｉｌａｅｑｅｔｑｅｃｒｅａｅＳｓｌ
ｑｅｅｒｅａｈｔｒｇｔｃｕｅｏｅａｇｒｈｕｎｅｔｅｓｔｅｓａｅｓｒｔｒｆｈｏｉｍ．Ｗｈｎｔｅｄｔｂｓｐａｅ，ＩＦＴｉｄｖｄｄｉｔｉｄｆｉａｉｎｏｕｔｌｔｅｈａａａｅｉｕｄｔｄＳＳＳｉｉｅｏｔｋｎｓｏｔｔｓＳｎｗｏｓｕｏ
刘佳新
（山大学图书馆，燕河北秦皇岛０６０）６０４
摘要：针对目前现有的增量式序列模式挖掘算法没有充分利用先前的挖掘结果，当数据库更新时，需要对数据库进行重

娄兰芳_基于集合运算的频繁集挖掘优化算法

基于集合运算的频繁集挖掘优化算法娄兰芳潘庆先（烟台大学计算机科学技术学院山东省烟台市 264000）E-mail: loulanfang@pqx@中图分类号TP311.132 文献标识码 A摘要挖掘关联规则是数据挖掘中一个重要的课题，产生频繁项目集是其中的一个关键步骤。

本文提出了一种基于集合运算的数据挖掘算法，并将该算法与经典算法进行比较。

该算法只需要对数据库扫描一遍。

实验表明该算法的效率较好。

关键词数据挖掘，关联规则，频繁项目集A Improved Algorithm Based on Sets Operation for Mining Large Item SetsLOU LANFANG PAN QINGXIAN(School of Computer Science and Technology, Yantai Univ. Shandong Yantai 264000)E-mail：loulanfang@pqx@Abstract Mining association rules is an important topic in data mining. Generating large item sets is one of its keys. This paper presents a data mining algorithm based on sets operation and compares it with traditional algorithms. The improved algorithm only needs to scan the database once. Experiment results indicate that the new algorithm has good efficiency.Keywords: data mining, association rules, large item sets1．引言数据挖掘也叫数据库中的知识发现。

有效的不确定数据概率频繁项集挖掘算法

有效的不确定数据概率频繁项集挖掘算法作者：刘浩然刘方爱李旭王记伟来源：《计算机应用》2015年第06期摘要：针对已有概率频繁项集挖掘算法采用模式增长的方式构建树时产生大量树节点，导致内存空间占用较大以及发现概率频繁项集效率低等问题，提出了改进的不确定数据频繁模式增长（PUFPGrowth）算法。

该算法通过逐条读取不确定事务数据库中数据，构造类似频繁模式树（FPTree）的紧凑树结构，同时更新项头表中保存所有尾节点相同项集的期望值的动态数组。

当所有事务数据插入到改进的不确定数据频繁模式树（PUFPTree）中以后，通过遍历数组得到所有的概率频繁项集。

最后通过实验结果和理论分析表明：PUFPGrowth算法可以有效地发现概率频繁项集；与不确定数据频繁模式增长（UFGrowth）算法和压缩的不确定频繁模式挖掘（CUFPMine）算法相比，提出的PUFPGrowth算法能够提高不确定数据概率频繁项集挖掘的效率，并且减少了内存空间的使用。

关键词：数据挖掘；不确定数据；可能世界模型；概率频繁项集；频繁模式中图分类号： TP301.6 文献标志码：A英文摘要Abstract：When using the way of pattern growth to construct tree structure， the exiting algorithms for mining probabilistic frequent itemsets suffer many problems， such as generating large number of tree nodes， occupying large memory space and having low efficiency. In order to solve these problems， a Progressive Uncertain Frequent Pattern Growth algorithm named PUFPGrowth was proposed. By the way of reading data in the uncertain database tuple by tuple， the proposed algorithm constructed tree structure as compact as Frequent Pattern Tree （FPTree） and updated dynamic array of expected value whose header table saved the same itemsets. When all transactions were inserted into the Progressive Uncertain Frequent Pattern tree （PUFPTree）， all the probabilistic frequent itemsets could be mined by traversing the dynamic array. The experimental results and theoretical analysis show that PUFPGrowth algorithm can find the probabilistic frequent itemsets effectively. Compared with the Uncertain Frequent pattern Growth （UFGrowth） algorithm and Compressed Uncertain FrequentPattern Mine （CUFPMine） algorithm， the proposed PUFPGrowth algorithm can improve mining efficiency of probabilistic frequent itemsets on uncertain dataset and reduce memory usage to a certain degree.英文关键词Key words：data mining； uncertain data； possible world model； probabilistic frequent itemset； frequent pattern0 引言随着网络技术的快速发展，网络的实际应用中会产生许多不确定性数据，例如传感器采集的数据[1]、通过全球定位系统（Global Positioning System，GPS）定位获取的地理位置信息[2]、网上商城的商品浏览信息等。

基于FIUT结构增量式频繁项集挖掘

基于FIUT结构增量式频繁项集挖掘寇香霞;任永功;宋奎勇【摘要】增量式频繁项集挖掘是当前研究的热点,基于FP-Growth的Pre-FUFP算法有效处理了频繁模式的更新,但需递归遍历FP-tree,导致效率较低.提出Pre-FIUT算法,引入频繁超度量树结构,提高了获得频繁项集挖掘效率；基于FIUT的Pre-FIUT可通过查看频繁超度量树叶子结点的支持度确定频繁项集,并与次频繁项集概念相结合进行增量式频繁项集挖掘.实验表明,Pre-FIUT算法能快速扫描和更新数据,合理利用内存,精确获得频繁项集.%Incremental mining of frequent itemsets is a focus in current researches. Pre-FUFP algorithm, which is based on FP-Growth, effectively deals with the updates of frequent pattern, but the mining process needs to recursively traverse the FP-tree, which results in low efficiency. In this paper we propose the Pre-FIUT algorithm, introduce the frequent items ultrametric tree structure, have improved the frequent itemsets efficiency; Pre-FIUT is based on FIUT method, it can determine the frequent itemsets by checking the support of leave nodes of frequent ultrametric tree, as well as combines the pre-laTge itemset concept to conduct incremental mining of frequent itemsets. Experimental results show that the proposed approach can scan and update data quickly, use memory much more reasonable, and get the frequent itemsets precisely.【期刊名称】《计算机应用与软件》【年(卷),期】2012(029)007【总页数】4页(P105-108)【关键词】FIUT;数据挖掘;频繁项集;次频繁项集;Pre-FIUT算法【作者】寇香霞;任永功;宋奎勇【作者单位】辽宁师范大学计算机与信息技术学院辽宁大连116029;辽宁师范大学计算机与信息技术学院辽宁大连116029;辽宁师范大学计算机与信息技术学院辽宁大连116029【正文语种】中文【中图分类】TP3010 引言频繁项集挖掘是关联规则最基本也是最重要的问题，近些年来一直是数据挖掘领域的研究热点。

基于矩阵的不确定数据频繁项集快速挖掘算法

基于矩阵的不确定数据频繁项集快速挖掘算法刘芝怡;常睿【摘要】针对CUF-growth算法中项集的期望支持度估算值过大,且挖掘过程中需要反复递归构造条件CUF-tree 导致挖掘效率降低这一问题,提出 UFIM-Matrix ( Uncertain frequent itemset mining-matrix)算法. 该算法不需要建立树结构,而是利用计算项集估算期望支持度的新方法和矩阵结构来产生规模更小候选项集,能在一定程度上减少计算开销,提高挖掘效率. 最后的实验结果也表明了新算法性能更优.%The CUF-growth algorithm gives an upper bound on the expected support of itemsets,but the estimate is too high. It has own bottleneck that needs to build conditional CUF-tree recursively in the mining process for getting candidate itemsets. According to the deficiency of the CUF-growth,the UFIM-Matrix( Uncertain frequent itemset mining-matrix) algorithm is proposed. This algorithm does not need to build a pattern tree while it generates smaller candidate sets by using a matrix structure and an improved method to calculate the upper bound of the expected support of itemsets. It can greatly reduce the cost of computing and improve the mining efficiency. The experimental results indicate the algorithm is more effective and efficient.【期刊名称】《南京理工大学学报（自然科学版）》【年(卷),期】2015(034)004【总页数】6页(P420-425)【关键词】不确定数据;频繁项集;期望支持度;快速挖掘【作者】刘芝怡;常睿【作者单位】常州工学院计算机信息工程学院 ,江苏常州213002;常州工学院计划财务处,江苏常州213002【正文语种】中文【中图分类】TP311随着不确定数据集的不断涌现,不确定性数据挖掘已成为数据挖掘领域中新的研究热点。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ＡｂｔａｔｓｒｃＩｃｅｎａｎｎｆｆｑｅｔｉｍｓｔｉａｆｃｓｉｕｒｎｅｅｒｈｓｒ — ＵＦｌｏｔｍ，ｗｉｈｉａｅｎＦＧｒｗｈ，ｎｒｍｅｔｌｍｉｉｇｏｅｕｎｔｅｓｓｏｕｎｃｒｅｔｒｓａｃｅ．ＰｅＦＰａｇｒｈｒｅｉｈｃｓｂｓｄｏＰ－ｏｔ
０引言
频繁项集挖掘是关联规则最基本也是最重要的问题，近些
构，间效率较低。本文提出基于ＦＵ时ＩＴ增量式算法ＰｅＦＩｒ．ＵＴ，将次频繁项集概念（ｒ— ｒＰｅｌｇａｅ思想）用频繁超度量树（Ｉ．与ＦＵｔｅ结构获得频繁项集方法相结合进行增量式频繁项集挖掘，ｒ）ｅ
Ｒｅｃｎｓａ
＿
ｈｍ：ｅ￥需要重新扫描数据库判断是否频繁的数据
项集。
２２ＰｅＦＵ－ｅ．ｒ・Ｉｔｅ结构描述ｒ
次频繁超度量树由次｜项集（－ｉｍｅｓ构造而成。数据ｊ｝ｋＰｔｓｔ）ｅ
但无论ＦＦＵＰ算法还是ＰｅＦＦｒ．ＵＰ算法都是基于Ｆ — ｒｔＰＧｏｈｗ算法的，以它们都受限于Ｆ — ｒｔ法的瓶颈，所ＰＧｏｈ算ｗ递归地产生大量的条件Ｆ — ｅ，Ｐｔｅ这将耗费大量时间，ｒ为此，通过弓入ＦＵ＿ｌＩＴ６
ｅｆｃｉｅｙｄａｓｗｉｈｐａｅｆｆｑｅｔｐｔｒｆｔｌｅｔｔｅｕｄｔｓｏｅｕｎａｔｎ，ｂｔｔｅｍｉｉｇｐｏｅｓｎｅｓｔｅｕｓｖｌｒｖｒｅｔｅＦ — ｅ，ｗｉｈｒｓｌｎｌｗｅｖｌｈｒｅｕｈｎｎｒｃｓｅｄｏｒｃｒｉｅｙｔａｅｓｈＰｔｅｒｈｃｅｕｔｉｏｓｅｃｅｃ．ＩｈｓｐｐｒｗｅｐｏｏｅｔｅＰｅＦＵｌｏｔｍ，ｉｔｄｃｈｒｑｅｔｉｍｓｕｔｍｅｒｃｔｅｓｒｃｕｅｉｆｉｎｙｎｔｉａｅｒｐｓｈｒ－ＩＴａｇｒｈｉｎｒｕｅｔｅｆｅｕｎｔｌａｔｉｒｔｔｒ，ｈｖｍｐｏｅｈｏｅｒｅｕａｅｉｒｖｄｔｅｆｅｕｎｅｅｓｅｆｉｎｙｒ・ＩＴｉｂｓｄｏＩｔｏｒｑｅｔｔｍｓｔｆｃｅｃ；ＰｅＦＵｓａｅｎＦＵＴｍｅｈｄ，ｉｃｎｄｔｒｎｈｒｑｅｔｉｍｓｔｂｃｅｋｎｈｕｐ￣ｏｅｖｉｉｔａｅｅｍｉｅｔｅｆｅｕｎｔｅｓｈｃｉｇｔｅｓｐｏｅｆｌａｅ
年来一直是数据挖掘领域的研究热点。频繁项集挖掘算法大致可分为两类：一类是基于Ａｒｗｌ出的一种产生候选项集的ｇａ提ａ
Ａｆｆ算法… 。另一类是基于Ｈｎ等提出的无候选项集Ｆ．ｐｏｉｉａＰＧｏｔ算法Ｊｒｗｈ。无论是类Ａｆｆ还是类Ｆ．ｒｈ算法都属ｐｏｉｉＰＧｏｔｗ
已挖掘出来的关联规则，而限制这些算法的应用。针对数据从库频繁更新，一些增量式算法在近些年来被深入研究。目前可
用的增量式算法有ＦＰ、ＵＰｔｅ４ＰｅＦＦ等。ＵＦＦ．ｅｌ及ｒ．ＵＰｒ
当候选项集在新增事务集是频繁的，在原始数据库中是而
算法采用直接检查叶子结点的支持计数进行频繁项集挖掘能减少这一过程消耗的时间。
库进行扫描时，利用次频繁项目的低支持阈值上限Ｓ得到一个，次频繁１集，项接下来进行数据库第二次扫描，剪枝掉每个事务
集中的小项目，将其按字典顺序排列后添加到相应的次ｋ项集
ＤｅｅｅＩｍ：ｌｔｔｓ更新数据库要删除的数据项集；ｅ
＿
ＰｅＦＦｒ—ＵＰ算法在ＦＦＵＰ算法基础上引入次频繁项的概念调整了ＦＦ —ｅ结构，加了次频繁项头表及次频繁项结点。ＵＰｔｅｒ增使用由两个用户自定义阈值确定的次频繁项集，当新增事务到来时，次频繁项集成为由非频繁项集到频繁项集的过渡。当数据库更新后ＰｅＦＦｒ—ＵＰ保持和维护ＦＦ —ｅ构。ＰｅＦＦＵＰｔｅ结ｒｒ．ＵＰ算法把事务集分成三个部分：繁项集，频次频繁项集和小项目集，分别对每一个部分处理，该算法在一定程度上避免了扫描原数据库。
数据库的大小，当候选项集在新增事务集是频繁的而在原始数
据库中是非频繁项目时，ＵＦＰ算法需做必要的数据库扫描。为
非频繁时，ＵＦＰ算法需要扫描原数据库。为了有效处理这部分
候选项集，相关论文提出次频繁项集的概念，当新增事务集较原数据库规模小时可以避免扫描原数据库。把ＦＰ思想应Ｕ用到Ｆ－ｅＰｔｅ的动态更新上就产生了快速更新频繁模式树ｒ
实验表明ＰｅＦＩｒ－ＵＴ算法是有效可行的。
１相关工作
１１增量式算法．
增量式数据挖掘是针对交易数据库频繁更新而被提出的，ＦＰ算法在Ａｒｒ算法的基础上使用ＤＰ算法减少更新后ＵｐｏｉｉＨ
于批量式数据挖掘。传统的批量式算法无法更新、维护和管理
Байду номын сангаас
了有效处理这部分候选项集，有学者提出次频繁项目集的概念，
把一部分在事务数据集更新后极有可能成为频繁项目的事务称
为次频繁项目。ＦＦＵＰ算法是基于Ｆ．ｒｗｈ的，ＦＰ思想应ＰＧｏｔ把Ｕ
收稿日期：０１一Ｏ２１９—２。教育部留学回国人员科研启动基金项９目；辽宁省科技计划项目（０８１０４１辽宁省教育厅高等学校科研基２０２６１：．金项目（２１２９）大连市优秀青年科技人才基金项目（０８２Ｊ１００２；２０Ｊ３Ｈ０６。寇香霞，２）硕士，ＣＣＦ会员（１８Ｇ）主研领域：２２３，数据挖掘。任永
ＫｅｙｗｏｄｓｒＦＵＴＤａａｍｉｎｇＦｅｅｔｉｍｓｔＰｒｌｒｅｉｅＩｔｎｉｒｑｕｎｔｅｅｅａｇｔｍＰｒ — ＵＴｌｏｔｍｅＦＩａｇｒｈｉ
ＰｅＦＦｒ—ＵＰ算法在挖掘频繁项集时需递归遍历ＦＦ．ｅＵＰｔｅ结ｒ
法能快速扫描和更新数据，合理利用内存，精确获得频繁项集。关键词
中图分类号
ＦＵ数据挖掘频繁项集次频繁项集ＩＴ
Ｔ３１Ｐ０文献标识码Ａ
ＰｅＦＵｒ—ＩＴ算法
ＩＲＭＥＡＬＭＩＮＧＲＱＵＥＴＩＥＮＣＥＮＴＮＩＯＦＦＥＮＴＭＳＴＩＥＳＵＳＮＧＩＴＳＲＴＲＦＵＴＵＣＵＥ
第２９卷第７期
２１０２年７月
计算机应用与软件
ＣｍｐｔｒＡｐｌａｉｎｎｏｔｒｏｕｅｐｉｔｓａｄＳｆｃｏｗａｅ
Ｖｏ．９Ｎｏ７１２．
Ｊ１２１ｕ．０２
基于ＦＵＩＴ结构增量式频繁项集挖掘
ＫｏａｇｉＲｅｎｇｎＳｏｇＫｕｙｎｕＸｉｎｘａｎＹｏｇｏｇｎｉｏｇ（ｃｏｌｆＣｍｕｅｎｆｒａｉｅｈｏｏｙＬａｎｎｏｍａｎｖｒｔ，ｌｎ１６２，ｉｏ￣ｇ，ｈｎ）ＳｈｏｏｏｐｔａｄＩｏｍｔｎＴｃｎｌ，ｉｏｉＮｒｌｉｓｙＤａｉ１０９ＬａｒｎＣｉａｒｎｏｇｇＵｅｉａｉ
ｎｄｓｏｏｅｆ￣ｅｕｅｔｕａｔｉｒｅ，ａｌｓｃｍｂｎｓｔｅｐｅ—ａｇｔｍｓｔｃｎｅｔｏｃｎｕｃｎｃｅｅａｉｎｆ￣ｅｕｎｔｔｍｓｔ．ｑｎｈｒｍｅｒｃｔｅｓｗｅｌａｏｉｅｈｒｌｒｅｉｅｅｏｃｐｔｏｄｔｉｒｍｎｌｍｎｉｇｏｌｑｅｉｅｅｓ
Ｅｘｅｉｎａｅｕｔｈｗｔａｈｒｐｓｄａｐｏｃａｃｎａｄｕｄｔａａｑｉｋｙｓｍｏｙｍｕｌｍｏｅｒａｏａｌｐｒｍｅｔｒｓｌｓｏｈｔｔｅｐｏｏｅｐｒａｈｃｎｓａｎｐａｅｄｔｕｃｌ，ｕｅｍｅｒｅｒｅｓｎｂｅ，ａｄｇｔｔｅｌｓｈｎｅｈ￣ｅｕｎｔｍｓｔｒｃｓｌ．ｑｅｔｅｅｓｐｅｉｅｙｉ
发生变化时的增量式频繁项集挖掘算法。
１６０
计算机应用与软件
，：据项；数
２１芏０２．－Ｅ
用到Ｆ —ｅＰｔｅ的动态更新上，ｒ有效地处理事务数据库更新后频繁

基于FIUT结构增量式频繁项集挖掘

合集下载

关联规则中频繁项集高效挖掘的研究

多谓词约束下基于模式增长的频繁项集挖掘算法

一种基于滑动窗口的数据流频繁项集挖掘算法

基于深度学习的不确定数据频繁项集挖掘系统

频繁项集高效挖掘算法研究

一种基于频繁序列树的增量式序列模式挖掘算法

娄兰芳_基于集合运算的频繁集挖掘优化算法

有效的不确定数据概率频繁项集挖掘算法

基于FIUT结构增量式频繁项集挖掘

基于矩阵的不确定数据频繁项集快速挖掘算法

文档推荐

最新文档