分布式全局最大频繁项集更新挖掘算法_杨君锐
- 格式:pdf
- 大小:242.00 KB
- 文档页数:5
基于FSG的最大频繁子图挖掘算法
郭景峰;柴然;张伟
【期刊名称】《计算机应用研究》
【年(卷),期】2010(027)009
【摘要】图挖掘已成为数据挖掘领域研究的热点,然而挖掘全部频繁子图很困难且得到的频繁子图过多,影响结果的理解和应用.可通过挖掘最大频繁子图来解决挖掘结果数量巨大的问题,最大频繁子图挖掘得到的结果数量很少且不丢失信息,节省了空间和以后的分析工作.基于算法FSG提出了最大频繁子图挖掘算法FSG-MaxGraph;结合节点的度、标记及邻接列表来计算规范编码,提出两个定理来减少子图同构判断的次数,并应用改进后的决策树来计算支持度.实验证明,新算法解决了挖掘结果太多理解困难的问题,且提高了挖掘效率.
【总页数】4页(P3303-3306)
【作者】郭景峰;柴然;张伟
【作者单位】燕山大学,信息与工程学院,河北,秦皇岛,066004;燕山大学,信息与工程学院,河北,秦皇岛,066004;燕山大学,信息与工程学院,河北,秦皇岛,066004
【正文语种】中文
【中图分类】TP311
【相关文献】
1.最大频繁子图挖掘算法研究 [J], 李继腾;骆志刚;丁凡;田文颖;赵琦
2.加权最大频繁子图挖掘算法的研究 [J], 王映龙;杨珺;周法国;唐建军
3.改进的最大频繁子图挖掘算法 [J], 柴然;郭彦颖
4.最大频繁子图挖掘算法DMFS [J], 柴然;刘媛媛;郭彦颖
5.一种基于极大完全子图的最大频繁项集并行挖掘算法 [J], 杨仕博;贺彦琨;马志新因版权原因,仅展示原文概要,查看原文内容请购买。
关联规则中改进FP-tree的最大频繁模式挖掘算法
钱雪忠;惠亮
【期刊名称】《计算机工程与设计》
【年(卷),期】2010(031)021
【摘要】关联规则挖掘是数据挖掘领域中重要的研究内容,最大频繁模式挖掘又是关联规则挖掘中的关键问题之一.针对已有的最大频繁模式挖掘算法存在的问题,通过对FP-Growth、FP-Max算法的分析,提出了基于改进FP-tree的最大频繁模式挖掘算法DFP-Max.该算法使用预测、剪枝的策略减少条件FP-tree个数,采用数字集匹配代替项集匹配的方式,减少超集检验的次数,并且避免了中间结果的组合连接,从而使算法达到较高的效率.实验结果表明,在支持度相对较小情况下,DFP-Max 的效率是同类算法的2~5倍.
【总页数】4页(P4635-4638)
【作者】钱雪忠;惠亮
【作者单位】江南大学,信息工程学院,江苏,无锡,214122;江南大学,信息工程学院,江苏,无锡,214122
【正文语种】中文
【中图分类】TP311
【相关文献】
1.基于改进的 FP-tree 最大频繁模式挖掘算法 [J], 宁慧;王素红;崔立刚;郭笑语;徐丽
2.关联规则中FP-tree的最大频繁模式非检验挖掘算法 [J], 惠亮;钱雪忠
3.基于FP-tree最大频繁模式超集挖掘算法 [J], 王君;任永功
4.基于有序FP-tree结构和二维表的最大频繁模式挖掘算法 [J], 王利军; 唐立
5.基于有序FP-tree结构和投影数据库的最大频繁模式挖掘算法 [J], 王利军; 唐立因版权原因,仅展示原文概要,查看原文内容请购买。
第9卷第4期重庆科技学院学报(自然科学版)2007年12月数据挖掘(DM)是数据库知识发现(KDD)过程中的一个关键步骤,它是指从数据库中提取潜在的、有用的、最终可理解的知识的非平凡过程。
数据挖掘可用于决策支持、市场分析、经济预测等领域,已引起相关业界人士的广泛关注,更是当前人工智能、数据库和信息决策研究中的热门课题。
而关联规则(As-so ciation Rules)又是数据挖掘中的一个重要研究分支,它侧重于确定数据库中不同领域间的联系,找出满足给定支持度和置信度的多个域之间的依赖关系。
关联规则的挖掘问题自R.Agrawal等人[1]于1993年提出后,国内外学术界对其进行了大量探讨,特别对发现关联规则的基本方法作了深入的研究,并提出了诸多挖掘算法。
但这些算法大多围绕固定的交易数据库D下的最小支持度和最小置信度的挖掘进行的,而对于已挖掘出的关联规则如何进行更新、维护和管理的问题却研究的相对较少。
本文解决当最小支持度不变,而原交易数据库D的内容增加数据集db时的关联规则的更新问题,着重描述了M-IUA的更新思想和算法,进行算法分析,最后得出总结。
1数据挖掘的基本问题1.1关联规则的形式化描述关联规则的挖掘问题可形式化描述如下:设I= {i1,i2,…,i m}是m个不同项目的集合,D是针对I的交易的集合,每一笔交易包含若干项目i i,i j,…,i k∈I。
关联规则表示为X"Y的蕴含式,其中X#I,Y$I,并且X∩Y=!,X称作规则的前提,Y是结果。
一般把一些项目的集合称为项目集(itemset)。
在项目集中项目的数量叫作项目集的维数或长度。
关联规则X" Y成立的条件是:①它具有支持度sup,即D中至少有sup%的交易包含X∪Y;②它具有置信度conf,即D中包含X的交易至少有conf%同时也包含Y。
关联规则的挖掘问题可以分解成如下两个子问题:①找出存在于D中的所有频繁项目集。
一种最大频繁项集的增量更新算法
杨君锐;刘南艳
【期刊名称】《武汉大学学报:工学版》
【年(卷),期】2007(40)3
【摘要】提出了一种基于最小支持度变化的挖掘最大频繁项集的增量式更新算法MFIU(Maximum Frequent Itemsets Updating).针对最大频繁项集更新时的特性,分别对最小支持度变大和变小提出了两种不同的处理方法,对于最小支持度变大的复杂情况,采取了分块的更新策略,并为减少不必要的候选项集,利用了如果X是一个最大频繁项集,则其所有子集都是频繁项集,但都不可能是最大频繁项集,而进行了独特的剪枝方法.最后通过实例分析了该算法.
【总页数】6页(P109-114)
【关键词】数据挖掘;关联规则;最大频繁项集;最小支持度;增量更新
【作者】杨君锐;刘南艳
【作者单位】西安科技大学计算机系
【正文语种】中文
【中图分类】TP311.13
【相关文献】
1.一种基于M-Bisearch的最大频繁项集挖掘算法研究 [J], 李宝林;周坤;李仕伟
2.分布式数据库全局最大频繁项集增量更新算法 [J], 何波;闫河
3.一种基于FP-tree的频繁项集增量更新算法 [J], 廖仁全;王利华;邱江涛
4.一种基于FP-树的最大频繁模式增量更新挖掘算法 [J], 李忠哗;任春龙;何丕廉
5.一种基于邻接表的最大频繁项集挖掘算法 [J], 殷茗;王文杰;张煊宇;姜继娇因版权原因,仅展示原文概要,查看原文内容请购买。
分布式全局最大频繁项集挖掘算法杨君锐;何洪德;杨莉;李海文;薛萍【期刊名称】《中南大学学报(自然科学版)》【年(卷),期】2012(043)009【摘要】提出一种分布式全局最大频繁项集挖掘算法(DMFI),该算法含局部挖掘与全局挖掘2个阶段.提出一个基于FP-tree的改进频繁模式树(IFP-tree)来存储数据信息.在局部挖掘阶段,先在各站点上分别建立该模式树,并使用有序方式存储频繁项目,然后,通过对各局部数据库的扫描,挖掘出局部最大频繁项集.在全局挖掘阶段,利用各局部数据库生成的最大频繁项集以及利用组通信播报消息的方式,从而挖掘出全局最大频繁项集的集合.对算法的实现以及在多种情况下进行测试.研究结果表明:DMFI算法具有较好的性能.%A new algorithm, named distributed maximal frequent itemsets (DMFI) for mining distributed global maximal frequent itemsets from databases was proposed. DMFI has the tocaS mining phase and the global mining phase. A new frequent pattern tree structure, named improved frequent pattern tree (IFP-tree) based on FP-tree, was developed to facilitate the storage. During the local mining phase, DMFI firstly created the tree on each node and used figure sequence to store frequent itemsets, then it discovered the local maximal frequent itemsets after scanning the local databases. During the global mining phase, DMFI was used to share with all nodes in the local maximal frequent itemsets and broadcasted itemsets information for sets communication, so that the global maximal frequent itemsets was mined. DMFI was implemented toevaluate its performance for various cases. The results demonstrate better performance than other algorithms.【总页数】7页(P3517-3523)【作者】杨君锐;何洪德;杨莉;李海文;薛萍【作者单位】西安科技大学计算机科学与技术学院,陕西西安,710054;西安科技大学计算机科学与技术学院,陕西西安,710054;西安科技大学计算机科学与技术学院,陕西西安,710054;西安科技大学计算机科学与技术学院,陕西西安,710054;西安科技大学计算机科学与技术学院,陕西西安,710054【正文语种】中文【中图分类】TP311.13【相关文献】1.分布式数据库全局最大频繁项集增量更新算法 [J], 何波;闫河2.基于频繁概念直乘分布的全局闭频繁项集挖掘算法 [J], 柴玉梅;张卓;王黎明3.基于FP树的全局最大频繁项集挖掘算法 [J], 王黎明;赵辉4.基于Iceberg概念格叠置半集成的全局闭频繁项集挖掘算法 [J], 张卓;李石君;余伟;田建伟5.基于分布式全局频繁项集挖掘算法的研究 [J], 陈一心;杨磊;杨颖因版权原因,仅展示原文概要,查看原文内容请购买。
快速关联规则挖掘与更新算法
杨明;孙志挥
【期刊名称】《计算机科学》
【年(卷),期】2002(029)008
【摘要】@@ 一、引言rn众所周知,关联规则的挖掘就是发现支持度和信任度分别大于用户指定的最小支持度(mmsup)和最小信任度的规则.支持度不小于minsup的项目集叫频繁项目集;反之,称为非频繁项目集.项目集中项目的数量叫做项目集的维数或长度,项目集X的支持度记作sup(X).有关项目集具有如下性质:(1)如果X是频繁项目集,那么X的任何子集都是频繁项目集;(2)如果X是非频繁项目集,那么X的任何超集都是非频繁项目集.
【总页数】3页(P88-90)
【作者】杨明;孙志挥
【作者单位】东南大学计算机科学与工程系,南京,210096;安徽机电学院计算机科学与工程系,芜湖,241000;东南大学计算机科学与工程系,南京,210096
【正文语种】中文
【中图分类】TP3
【相关文献】
1.一种关联规则挖掘的高效更新算法 [J], 朱红萍;巩青歌
2.关联规则挖掘快速更新算法的研究和实现 [J], 张仁平;卜淮原;胡志宇;张建
3.数据挖掘中基于负边界思想的关联规则增量式更新算法 [J], 王宇杰;乔聪
4.增量更新关联规则挖掘算法研究 [J], 郑文争
5.一种高效的增量更新约束关联规则挖掘算法的研究∗ [J], 徐春;李广原
因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于FP-tree的频繁项集增量更新算法
廖仁全;王利华;邱江涛
【期刊名称】《计算机工程与应用》
【年(卷),期】2007(043)004
【摘要】针对频繁项集增量更新的问题,提出算法FIU.该算法将保存了数据库事务的FP-tree存储在磁盘上,当挖掘新支持度阈值的频繁项集时,只需从磁盘上读入FP-tree,再挖掘新支持度阈值下的频繁项集.当新增数据库事务记录后,首先建立新项目表,然后根据新项目表建立新增事务记录的FP-tree,读入存储在磁盘上的FP-tree,抽取出所有的事务记录,再插入到新FP-tree中,从而得到增量更新后的FP-tree.最后在增量更新后的FP-tree上挖掘频繁项集.实验证明,FIU算法执行时间不随数据库大小变化,与其他算法相比有较好的性能.
【总页数】4页(P176-178,233)
【作者】廖仁全;王利华;邱江涛
【作者单位】西南财经大学,教务处,成都,610074;攀枝花学院,电气信息与工程学院,四川,攀枝花,617000;四川大学,计算机学院,成都,610064
【正文语种】中文
【中图分类】TP311
【相关文献】
1.一种基于裁剪FP-Tree的频繁项集挖掘算法 [J], 罗芳
2.基于有序FP-tree的最大长度频繁项集挖掘算法 [J], 廖福蓉;王成良
3.基于改进FP-Tree的最大频繁项集高效挖掘算法 [J], 纪怀猛
4.基于有序FP-tree的最大频繁项集挖掘算法 [J], 李少华;吕志旺;车德勇;周宁
5.一种最大频繁项集的增量更新算法 [J], 杨君锐;刘南艳
因版权原因,仅展示原文概要,查看原文内容请购买。