基于闭合序列模式的减量挖掘算法

格式：pdf
大小：300.73 KB
文档页数：4

下载文档原格式

基于位置数据的闭合序列模式挖掘算法

ｔｃｎｑｅ，ａｋａｄｕｅ－ａｔｒｏｄｔｎｎｓｍｅｐｓｔｎｌｄｔｏｄｔｎＴｎｕｅｃｒｅｔａｄｃｍｐｃｅｕｔｄｅｈｉｕｓｂｃｗｒｓｐｒｐｔｅｎｃｎｉｏａｄａｏｉｏａａｃｎｉｏ．ｏｅｓｒｏｒｃｎｏａｔｒｓｌｉｉａｉｅ
ｌｔｃｗａｓｍａｉｕａｅｏｓｅｉｏｄｔｎ．ｒｍｈｅｐｒｍｅｔｌｅｓｌ，ｕａｇｒｈａｔｅ，ｅｌｏｉｎｐｌｔｓｍｅｐｃａｃｎｉｏｓｏｌｉＦｔｅｘｅｉｎａｒｕｔｏｒｌｏｔｍｏｔｅｆｒＣｌＳａｉｓｉｕｐｒｏｍｓｏｐｎｎ
序列时，利用由１频繁序列生成的２频繁序列来节省搜索空一一
间。此外，据支持度、束策略和位置信息，用修剪方法减根约利
少多余的搜索．因此它比Ｃｏｐｎ算法更有效。ｌＳａ
ＺｈｎｉｉｏＳａＪｎＨｕＹｉｇｉＪａＹｕｅｇａｇＣｕｘａｈｉｎｘｎｉｆｎ
（ｐｒｅｔｏＣｍｕｅｃｅｃｎｅｈｏｏｙＳｉａｈａｇＲｉａｎｔｕｅＳｉａｈａｇ００４）ＤｅａｔｎｆｏｐｔｒＳｉｅａｄＴｃｎｌｇ，ｈｊｚｕｎａｗｙＩｓｔｔ，ｈｊｚｕｎ５０３ｍｎｉｌｉｉ

序列模式挖掘算法的研究与实现

序列模式挖掘算法的研究与实现序列模式挖掘算法是一种可以从历史数据中发现规律的数据挖掘算法。

它能够帮助我们更好地理解历史数据，并有助于决策和预测未来发展趋势。

本文主要就序列模式挖掘算法进行研究和实现。

一、序列模式挖掘算法研究1.算法框架序列模式挖掘算法主要是通过分析已有的历史数据，来发现有意义的模式和规律。

它的基本构成由3个部分组成：首先，收集有关的数据，然后从数据中抽取有用的信息，最后分析这些信息，从中发现规律和模式。

2.关联规则分析使用关联规则分析来发现序列模式的方法是，首先从多个历史序列中获取大量的事务数据，然后将这些数据转换为易于处理的格式，然后运用关联规则分析来发现有意义的模式。

3.簇划分算法簇划分算法是用来发现序列模式的一种方法，主要是通过迭代的方式，将序列进行划分，最终得到的是一系列的相关的序列，然后从中发现有规律的模式。

4.时间强算法时间强算法是一种基于概率的方法，它可以发现序列中模式出现的频率和预测将来出现模式的可能性。

首先，它会分析出每个序列中出现的模式，然后根据每个模式的出现频率，来预测出未来可能会出现的模式。

二、序列模式挖掘算法实现1.数据集序列模式挖掘算法的实现过程包括：数据集的构建、特征抽取、模式挖掘算法的实现、模式的验证和应用。

首先，需要构建一个合适的数据集，以便实现算法。

2.特征抽取特征抽取是模式挖掘所必须的一部分，因其可以帮助更好地将原始数据转换成易于处理的特征，以提高算法的精度。

主要的抽取方法有：基于属性的抽取、基于时间的抽取、基于空间的抽取。

3.模式挖掘算法实现模式挖掘算法是根据特征抽取出来的特征以及数据集来进行实现的，模式挖掘算法的选择可以因为不同的应用场景而有所不同，如果要对历史数据进行分析，则可以使用关联规则分析算法；如果要对频繁模式进行分析，则可以使用簇划分算法；如果要预测未来模式，则可以使用时间强算法。

4.模式的验证和应用模式有可能是噪声造成的，为此，在实际应用时，需要将模式进行验证，以避免错误的应用。

序列模式挖掘算法

单项间在同一事务内以及事务间旳关系
单项间在同一事务内旳关系
13
二、序列模式挖掘旳应用背景
应用领域： ▪ 客户购置行为模式预测 ▪ Web访问模式预测 ▪ 疾病诊疗 ▪ 自然灾害预测 ▪ DNA序列分析Biblioteka 2024/9/2814
B2C电子商务网站能够根据客户购置纪录来分析客户购置行为模式，从而进行有针对性旳营销策略。
ID User transaction sequence
1
………………………………………………… ………..
2 ………………………………………………
3
………………………………………………… …..
4 ………………………………….
图书交易网站将顾客购物纪录整合成顾客购物序列集合
应用案例1：客户购置有关行商品为推荐：模假如式顾
2024/9/28
35
例：下图演示了怎样从长度为3旳序列模式产生长度为 4旳候选序列模式
Sequential patterns With length 3
<(1,2) 3> <(1,2) 4> <1 (3,4)> <(1,3) 5> <2 (3,4)> <2 3 5>
Candidate 4-Sequences
L1 C2 L2 C3 L3 ……
2024/9/28
29
哈希树
GSP采用哈希树存储候选序列模式。哈希树旳节点分为三类：
1、根节点； 2、内部节点； 3、叶子节点。
2024/9/28
30
哈希树
根节点和内部节点中存储旳是一种哈希表，每个哈希表项指向其他旳节点。而叶子节点内存储旳是一组候选序列模式。

长时间轨迹数据的存储与分析技术研究

长时间轨迹数据的存储与分析技术研究随着互联网和移动互联网的飞速发展，越来越多的数据被产生和收集。

在这些数据中，轨迹数据占据着重要的位置。

如出行轨迹、移动设备定位轨迹等，这些轨迹数据都具有要素丰富、时空关系强的特点，引起了学者和工程师的广泛关注。

因此，在存储和分析长时间轨迹数据方面进行研究具有重要的现实意义。

一、长时间轨迹数据的存储存储是数据处理的重要环节，对于长时间轨迹数据，存储需要解决数据容量大、存储空间昂贵、存取速度慢等问题。

目前，常见的数据存储方式有两种：基于文件和基于数据库。

基于文件存储是指将轨迹数据存储在磁盘文件中，常见的格式有CSV和GPX。

优点是存储成本低、存取速度快，但缺点也比较明显：不支持高效的数据检索和复杂的空间查询。

另一个存储方案是基于数据库。

数据库可以解决文件存储存在的问题，支持高效存取和查询大规模的轨迹数据。

常见的轨迹数据库有PostGIS、Neo4J等，这些数据库支持轨迹的存储、查询和分析。

其中PostGIS是一个基于PostgreSQL的扩展，提供了丰富的空间查询功能，对于轨迹数据的空间关系计算、热力图分析都提供了很好的支持。

二、长时间轨迹数据的分析长时间轨迹数据的分析是利用轨迹数据实现时空分析、轨迹挖掘和异常检测等目的的过程。

常见的轨迹分析方法包括聚类、转换模式挖掘、轨迹相似度计算等。

1. 轨迹聚类轨迹聚类是指根据轨迹的相似度将轨迹归为一类的过程。

聚类的目的是找出不同类型的轨迹，常用于路网研究、交通规划、车辆调度等方面。

轨迹聚类算法包括曼哈顿距离、欧几里得距离、模型距离等，其中曼哈顿距离是基于位置的距离度量，欧几里得距离和模型距离可以度量两个轨迹之间的形状和相对位置。

2. 转换模式挖掘转换模式挖掘是指分析轨迹点的变化情况，从而提取轨迹中发生的变化模式。

这些模式可以用于预测行为、判断异常、评估交通状况等方面。

常见的转换模式挖掘算法有基于频繁项集的挖掘、基于序列模式的挖掘和基于时间序列的挖掘等。

数据分析中的关联规则挖掘和序列模式挖掘

数据分析中的关联规则挖掘和序列模式挖掘数据分析是一个日益重要的领域，在各个行业中被广泛应用。

在数据分析的过程中，关联规则挖掘和序列模式挖掘是两个重要的方法。

本文将分别介绍关联规则挖掘和序列模式挖掘的概念、算法以及应用，并探讨它们在实际问题中的价值和局限性。

一、关联规则挖掘1.概念关联规则挖掘是一种从大规模数据集中发现项集之间有趣关系的技术。

它主要用于发现事物之间的相关性，帮助人们理解数据集中的隐藏模式和规律。

2.算法常见的关联规则挖掘算法有Apriori算法和FP-growth算法。

Apriori算法是一种基于频繁项集的方法，通过迭代生成频繁项集和关联规则。

FP-growth算法则使用了一种更高效的数据结构FP树，可以在不显式生成候选项集的情况下挖掘关联规则。

3.应用关联规则挖掘在市场篮子分析、推荐系统、生物信息学等领域都有广泛的应用。

例如，在市场篮子分析中，关联规则可以帮助店家发现顾客的购买习惯，进而进行商品摆放和促销策略的优化。

二、序列模式挖掘序列模式挖掘是一种从序列数据中发现频繁模式的技术。

序列数据是指按时间顺序记录的事件序列，如购物记录、日志数据等。

序列模式挖掘的目标是找到在序列中频繁出现的模式，以揭示事件之间的关联性和规律。

2.算法常见的序列模式挖掘算法有GSP算法和PrefixSpan算法。

GSP算法是一种基于频繁序列的方法，通过递归地生成频繁子序列和模式。

PrefixSpan算法则利用前缀投影将序列划分为多个较小的子序列，从而减少了搜索空间。

3.应用序列模式挖掘在web点击流分析、用户行为分析、生产过程控制等领域都具有重要意义。

例如，在web点击流分析中，序列模式挖掘可以帮助网站优化用户体验，提高点击率和留存率。

三、关联规则挖掘和序列模式挖掘的比较1.异同点关联规则挖掘和序列模式挖掘都是从大规模数据中挖掘隐藏模式和规律的方法。

它们都可以发现项集之间的关联性，但关联规则挖掘更偏重于静态数据集的挖掘，而序列模式挖掘更适用于动态数据中的模式发现。

序列模式挖掘的两种典型算法及比较

６
７
— ２ — ９一ＮＵＬ５５Ｌ
— ＮＵＬＬ
首先寻找ｓ的第一个元素（，）１２在该数据序列中的第一次出现位置，对应的事务时间为１。由０于最小事务时间间隔ｍｎａ：，ｉｐ５故应在事务时间１ｇ５之后寻找ｓ的下一个元素（）由表２中可以看３。
数据序列中。
表２示例数据序列事务时间事务项表３事务项的事务时间链表事务项
１２３４５ —
事务时间
１０５一ＮＵＬ０Ｌ
１ — ５ — ９＿ＮＵＬ０００＋Ｌ４５６５ＮＵＩＪＬ
— ２ — ９一ＮＵＬ５０Ｌ — ＋ＮＵＬＬ
基本概念和问题描述
相关基本概念见文献［］２。给定序列数据库、最小支持度阈值和时间约束，序列模式挖掘的目标是找出序列数据库中所有的序列模式。
２ＧＰ算法Ｓ
给定一个事务数据库，ＳＧＰ算法需要对事务数据库进行多遍扫描。ＧＰ算法挖掘序列模式的基Ｓ
２１哈希树结构．
ＧＰ算法采用哈希树结构。一棵哈希树的结点可能为叶子节点（ａｎｄ）ＳＪａｌｆｏｅ或内部结点（ｅａｉｅｏｎｄ）叶子节点存放项集列表，ｎｒｒｏｅ；ｔｉ而内部结点存放哈希表。在内部结点中，哈希表的每个桶（即
维普资讯
第２６卷第４期
湖北师范学院学报（然科学版）自
ＪｕａｏｕｅＮｒｌｎｅｓｙ（ａｒｃｅｃ）ｏｒｌｆｂｉｏｍａＵｉｒｔＮｔａＳｉｅｎＨｖｉｕｌｎ

序列模式挖掘算法的分析秦晓薇

摘要：序列模式挖掘是数据挖掘研究的一个重要课题，用于从序列数据库中发现相对时间或者其他顺序所出现的高频率子序列.首先给出序列模式挖掘的相关定义，然后介绍了四种序列模式挖掘算法，并对其特点进行分析总结，最后指出未来的研究方向.
关键词：数据挖掘；序列模式挖掘；挖掘算法中图分类号：TP301.6 文献标识码：A 文章编号：1673- 260X（2012）01- 0034- 03
在 HVSM 算法中，以序列中项集的个数定义为序列的长度，将支持度大于给定最小支持度的序列长度为 k 的序列称为 k 大序列，即频繁 k 序列，项集中项的个数为 k 的一大序列称为一大序列 k 项集，即 k 大项集.
HVSM 算法先横向扩展项集，将挖掘出的所有大项集组成 1 大序列项集，即频繁 1 序列，再纵向扩展序列，将每个 1 大序列项集作为“集成块”，在挖掘频繁 k 序列时重用大项集，并将序列中项集的个数定义为序列长度，从而扩大了序列模式的粒度，提高了挖掘速度.
定义 3 序列（sequence）：项集（itemset）的有序排列.序列 S 可表示为 <s1,s2,…,sn>，其中（1≤j≤n）为项集，也称为序列 S 的元素.
定义 4 序列的包含:给定两个序列 A，B.其中，A=<a1, a2,…An>,B=<b1,b2,…,bm>，如果存在整数 1≤j1<j2<…<jn≤m,
定义 12 后缀：序列 A 关于子序列 B=<a1,a2,…,am-1,a'm> 的投影为 A'=<a1,a2,…,an>（n≥m），则序列 A 关于子序列 B 的后缀为 <a"m,am+1,…,an>，其中 a"m=(am- a'm).例如，序列 A=< (ab)(acd)(cdfe)> 关于子序列 B=<(b)> 的后缀为 <(acd)(cdfe)>.

数据流中基于滑动窗口的闭序列模式挖掘算法

ｉｅｉｎｄｔｅｐｃｏｅｅｕｎｉｌａｔｒｓｎｓｄｎｎｏａｄｒｌｔｎｈｐａｎｅｕｎｉｌａｔｒｓＰｏｅｔｓｆｅｕｎｉｌａ — ｓｓｇｅｋｅｌｓｄｓｑｅｔｔｎｌｉｇｗｉｄｗｎａｉｓｉｍｏｇｓｑｅｔｔｎ．ｒｐｒｉｑｅｔｔｄｏａｐｅｉｉｅｏａｐｅｅｏｓａｐｔｒｓａｄｒｌｔｎｈｐａｎｏｅＴａｅｓｕｉｄｗｈｎｔｅｓｄｎｎｏｉｍｏｅａｅｓｒａｅｎｎｅａｉｓｉｍｏｇｎｄｓｉＣＳｒｔｄｅｅｌｉｇｗｉｄｗｖｄｉｄｔｅｍ．Ｂａｅｎｔｅｅａｌｏｉｍｏｎｈｉｓｎｔｓｄｏｓ，ｎａｇｒｈｈｔ
ＡｂｔａｔｏｎｅｌｓｄｅｕｎｉｌａｔｎａｒａｖｒｌｉｇｎｏｆｃｉｌｒｃｕｅＳ（ｌｓｄｅｕｎｅｒｅｓｃ：ＴｅｈｏｅｑｅｔｔｒｓｎｔｓｅｍｏｅｉｎｄｗｅｅｔｅｙｓｕｔｒＴｃｅｑｅｃｅ）ｒｍｉｔｃｓａｐｅｉｄａｔｓｄｗｉｖ，ａｔＣｏｓｔ
摘要：了能够有效地利用滑动窗口技术来挖掘数据流当中的频繁闭序列模式，过构建ＣＴ树（ｌｓｄｓｑｅｃｅ）保为通Ｓｃｏｅｕｎｅｒｅ来ｅｔ存频繁闭序列模式及其序列之间的关联关系，究了滑动窗口在流数据上滑动时，窗口内序列属性以及ＣＴ树节点相互关研Ｓ系的变化性质，出了基于滑动窗口的数据流闭序列模式挖掘算法ＥＳ（ｆｃｎｃｓｄｓｑｅｔｌａｔｎｎｖｒｔａ提ＣＷｅｉｔｌｅｅｕｎｉｔｒｍｉｉｏｅｓｅｍｉｅｏａｐｅｎｇｒｓｄｎｗｎｏ。ＣＷ充分利用ＣＴ树内节点的相互关系，少了对数据库的扫描，且能够在不借助其他辅助结构的情况ｌｉｇｉｄｗ）ＥＳｉＳ减并下完戍ＣＴ树节点的更新比较了ＥＳ与Ｓｑｔａ在不同实验参数下的挖掘效果，验结果表明，平均闭序列长度不ＳＣＷｅＳｒｍｅ实在长时，ＣＷ有着比Ｓｑｔａ更好的运行效果。ＥＳｅＳｒｍｅ

序列模式挖掘算法综述

序列模式挖掘算法综述序列模式挖掘算法是一种用于从序列数据中发现频繁出现的模式或规律的技术。

序列数据是一种特殊的数据形式，由一系列按照时间顺序排列的事件组成。

序列模式挖掘算法可以应用于许多领域，如市场营销、生物信息学和智能交通等。

序列模式挖掘算法的目标是发现那些在序列数据中频繁出现的模式，这些模式可以帮助我们理解事件之间的关联性和发展趋势。

常见的序列模式包括顺序模式、并行模式和偏序模式等，其中顺序模式指的是事件按照特定顺序排列的模式，而并行模式指的是事件同时发生的模式。

常见的序列模式挖掘算法有多种，下面将对其中一些主要算法进行综述：1. Apriori算法：Apriori算法是一种经典的频繁模式挖掘算法，它逐步生成候选序列，并通过扫描数据库来判断候选序列是否频繁。

Apriori算法的关键思想是利用Apriori性质，即如果一个序列是频繁的，则它的所有子序列也是频繁的。

2. GSP算法：GSP算法是Growth Sequence Pattern Mining的缩写，它通过增长频繁序列的方式来挖掘频繁模式。

GSP算法使用基于前缀和后缀的策略来生成候选序列，并维护一个候选序列树来频繁序列。

3. PrefixSpan算法：PrefixSpan算法是一种递归深度优先算法，它通过增加前缀来生成候选序列。

PrefixSpan算法使用投影方式来减小空间，并通过递归实现频繁模式的挖掘。

4. SPADE算法：SPADE算法是一种基于投影的频繁序列挖掘算法，它通过投影运算将序列数据转换成项目数据，并利用Apriori原理来挖掘频繁模式。

SPADE算法具有高效的内存和时间性能，在大规模序列数据上表现优秀。

5. MaxSP模式挖掘算法：MaxSP算法是一种用于挖掘最频繁、最长的顺序模式的算法，它通过枚举先导模式来生成候选模式，并利用候选模式的投影特性进行剪枝。

6.SPADE-H算法：SPADE-H算法是SPADE算法的改进版本，通过引入顺序模式的分层索引来加速模式挖掘过程。

面向网络管理知识获取的一种序列模式挖掘新算法

第９第５期卷２０年１０８Ｏ月
解放军理工大学学报（然科学版）自
ＪｕｎｌｆＰｏｒａＬＡｎｖｒｉｙｏｃｅｃｎｃｎｌｇｏＵｉｅｓｔｆＳｉｎｅａｄＴｅｈｏｏｙ
Ｖｏ．９ＮＯ１．５０Ｃ．０８ｔ２０
ｕｉｈｏａｔｏｎｄｘｏｈｅｉｅｎｔｅｓｑｕｎｔａａａａｅｓｎｇｔｅｌｃｉｎｉｅｆｔｔｍｓｉｈｅｅｉｌｄｔｂｓ．Ｔｈｘｒｍｅａｅｕｌｓｉｉａｅｔａｈｅｅｅｐｅｉｎｔｌｒｓｔｎｄｃｔｈｔｔ
ｄｘｐｏｅｔｄｓｑｅｔｌａｔｒｎｎ（ｉｐｎａｒｐｓｄａｅｎｔｅｐｔｒ～ｒｗｔｎｉｉｅｅ — ｒｊｃｅｅｕｎｉｔｎｍｉｉｇＩＳａ）ｗｓｐｏｏｅ．Ｂｓｄｏｈａｔｎｇｏｈａｄｄｖｄ — ａｐｅｅ
用的网络管理知识提供了手段，在一定程度上解决
了网络管理知识获取难的问题。利用数据挖掘技术
是缓变的和长期的，网络故障发生前就表现出多在
种征兆，网络链路流量突然增加、如网络设备接口丢
对告警数据库进行分析，有助于获取隐含在大量将历史告警事件数据背后的降低网络性能和可靠性的
（ｃｏｌｆＣｍｐｔｒＳｉｎｅａｄＥｎｉｅｒｎＳｈｏｏｕｅｃｅｃｎｇｎｅｉｇ，ＳｕｈａｔＵｎｖｒｉｙｏｏｔｅｓｉｅｓｔ，Ｎａｊｇ２０９ｎｉ１０６，Ｃｈｎ）ｎｉａ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ＬＩＹｉＮｎｇ（ｔｆｏｆｍｐｔ，ｙｉｅｓｔ，ｙｓａ５３０ＣｉａＳａＲｏｍｏＣｏｕｅＷｕｉｖｒｙＷｕｉｈｎ３４０，ｈｎ）ｒＵｎｉ
［ｂｔａｔｍｉｇａｔｅｒｂｅｏｎｎｐｔｉｎｉｅｒｍｅｔｌｎｎ，ａｅｎｃｏｅｅｕｎｉｌａｔｒｏＤ，ｅｒｍｅｔｌｌｏｉｍＡｓｒｃ］ＡｉｎｔｈｏｌｍｆｉｇｒｅｔｄｃｅｎａｍｉｉｇｂｓｄｏｌｓｄｓｑｅｔｔｎＰｓａｃｅｎａａｒｈｐｍｉｅｉｏｎａｐｅｄｇｔ
颖（９８，女，１７一）讲师，主研方向：据挖掘，数网络
收藕日期：２１— ・Ｅｍａ：ｌ —ｎ９＠１３ｏ０１６１００－ｉｉｙｇ７６．ｒｌｎｉｃｎ
第３卷７
第２期２
林
颖：基于闭合序列模式的减量挖掘算法
６５
频繁２序列是由频繁１序列生成，以，１列频繁变化后，－一所一序
当ｄｌ时，ｌ＝一序列ＳＰ的末尾位置：Ｐ—ｌ在；
掘的基础上，根据事务数据库的最小支持数的２种情况进行减量更新，如表２所示。
表２减量后的事务数据库Ｄ ’ Ｂ
［ｅ－１＊－是模式Ｐ中长度为Ｐ一１的子序列，
当ｄｌ时，１＞一序列ＳＰ的中间位置：在
频繁和非频繁闭合序列集合之间的数据，在原有挖掘结果上直接进行更新，减少挖掘的时间。实验结果证明，在减量过程中该算法的时间效率与ＰｓｏＤ相比有所提高。
关键词：数据挖掘；序列模式；闭合序列模式挖掘；减量挖掘；增量挖掘；数据更新
ＤｅｒｍｅｔｌｉｉｇＡｌｏｉｍｓｄ０ｏｅｅｕｎｉｌｔｅｎｃｅｎａｎｎｇｒｔＭｈＢａｅｎＣｌｓｄＳｑｅｔａｔｒＰａ
表１事务数据库ＤＢ
（）１１序列的ｓｐ最小支持数，４￣果一１ｕ＜那么该１序列加入至 Ⅳ１，否则该１序列加入至Ｆ１中，同时更新Ｆ２中相匹配一Ｓ’ Ｓ’ 的频繁２序列的位置时间信息。一（） Ⅳ１中的每个１序列，扫描Ｆ２，将与该１序列匹５对一Ｓ’ 一配的频繁２序列移至Ｎ２Ｃ ’ ２。一Ｆ，ＦＳ＝ ’ （） Ⅳｌ中的每个１列Ｓ６对一序，重复以下操作，直至 Ⅳ１
基金项目：武夷学院校科研科技基金资助项目ｘ００９（１１０）２作者简介：林
安全
定义５闭合频繁序列（）如果一个序列没有支持度与之相
同的超序列，且是频繁，那么此序列是一个闭合频繁序列，或称闭合序列模式，记为ｃ，即Ｃ＝ａａＳＳ｛ｌｅＦ，不存在 ∈
ＤＯＩ１．９９．ｓ．０ —４８２１．２１：０３６０ｉｎ１０３２．０２．８ｓ０１０
１概述
序列模式挖掘是文献【】出的一种重要数据挖掘方法，１提有着广泛的应用，常见的算法有ＳＡＥＰｅｘｐｎ１ＰＤｒｆＳａ［ｉ３等。闭合序列模式挖掘则是对具有与完整频繁序列相同表达能力的更精简的序列模式进行挖掘，常见的算法有Ｃｏｐｎ１ｌＳａ［等。４由于事务数据库的不断变动，给经典的闭合序列模式挖掘算法挖掘动态数据时带来很大问题，因此人们开始研究闭合序列模式的更新挖掘算法，但大多数的研究只是针对增量挖掘更新算法。在这种现状下，本文从事务数据库进行减量操作的角度出发，提出一种基于闭合序列模式的减量挖掘算法ＤｅｏＤ。该算法通过对减量数据库的扫描，在已有的Ｐｓ挖掘结果上直接进行减量更新，避免事务数据库中相同内容的重复挖掘。除此之外，该算法以闭合序列模式算法Ｐｓ６ｏＤ｝Ｊ的更新算法Ｐｓ为基础，用频繁２序列去更新已有的挖ｏＤ一
１一序列的位置时间信息。
（）Ｂ中的频繁序列仍是Ｄ ’ ２ＤＢ中的频繁序列，如表１中
的＜ａ＞（）等。（）、＜ｂ＞
—
（）３若存在记录减量操作，重新计算最小支持数＝记录数×
ｍｉｓｐ。ｎｕ
（）Ｂ中不频繁的序列变为Ｄ ’ ３ＤＢ中的频繁序列，如表ｌ中的＜ｅ＞，２序列也是一样，假设ｍｉｓｐ６％。（）等一ｎｕ＝０ —
有３种操作方式：项减量，记录减量和混合减量。
３频繁序列的变化情况．２
在最小支持阈值不变的情况下，３种减量操作带来的频繁序列变化如下：（）１项减量最小支持数不变，减量ｌ序列的支持数减少，当其支持一数小于最小支持数时，就出现了频繁到不频繁的变化。
为空。（）ＦＳ中的每个频繁闭合序列模式尸重复以下操作：）一序列Ｓ相同的序列。若存ＤＰｓ算法主要是在事务数据库Ｄ用ＰｓｅｏＤ＊ＢｏＤ算法挖在，则记录ｌ序列ＳＰ中的长度位置ｄ一在，并删除序列Ｓ，更新序列模式为：
掘结果。
３相关问题
３减量问题．１在实际生活中，事务数据库中的数据随着时间的变化而
不断发生变化，有新的数据出现，也有旧的数据要删除。假
设事务数据库Ｄ，除了中的数据，生成新的事务数据Ｂ删库Ｄ’ Ｂ，这个过程就是一个数据库减量过程。其中，Ｄ ’ Ｂ＝Ｄ－ｄ，这里称为减量数据库。事务数据库的减量操作Ｂ－ｂ
ｏＰｏＤｉｒｓｎｔｄｆＤｅｓｓｐｅｅｅ，ｗｈｃａｔｒｔｍｅｅｃｅｃ．ｉｌｏｉｈｇｔｈｅｒｓｌｂｖｎｈｔｅｗｅｎｔｅｆｅｕｎｎｏ－ｉｈｈｓｂｅｔｉｆｉｎｙＴｈｓａｇｒｔｍｅｓｔｅｎｗｅｕｔｙｍｏｉｇｔｅｄａａｂｔｅｈｒｑｅｔａｄｎｎｅｉｆｅｕｎｌｓｄｓｑｕｎｅｄｒｃｌｅｒａｉｇａｄｕｄｔｎｒｇｎａｎｎｅｕｔＴｕａｅｉ，ｒｑｅｔｏｅｅｅｃ，ｉｅｔｄｃｅｓｎｎｑａｉｇｔｏｉｉｌｃｙｈｅｍｉｉｇｒｓｌ．ｈｓｉｓｖｓｔｔｍｅｗｈｉｈｈｓｐｏｅｙｔｅｅｐｒｍｅ．ｃａｒｖｎｂｘｅｉｎｔｈ
２序列的频繁变化也由此更新。一
列集合Ｆ２非频繁１列集合 ⅣＦ，Ｓ，一序１非频繁２序列集合２一输出ＤＢ的频繁闭合序列集合ＦＳ ’ Ｃ’
ｆ）Ｓ ’ Ｆ２１２＝Ｓ。Ｆ
由上述可知，事务数据库在做减量操作的过程中，１一序
（）录减量２记
２相关概念
定义１（事务数据库减量）事务数据库删除自身旧的无效
数据的操作。
减量记录中的各１一序列的支持数减少。最小支持数不变时，当减量的各频繁１序列支持数小于最小支持数时，为频一
繁到不频繁的变化；最小支持数改变时，通过最小支持数＝记录数ｘｉｓｍｎｕ — ｐ计算新的最小支持数，数据库中各１一的序列支持数与新的最小支持数比较。若支持数从大于变为小于最
① 检查由项一组成的２序列是否存在于Ｆ２中，ｄ一Ｓ ’ 若不存在执行第③步。 ② 若存在，调用Ｐｓ尸一ｄＤＢ小ｍｎｓｐＦＳ）ｏＤ（， ’ Ｉｉ—ｕ，Ｃ ’，判断Ｐ —ｄ子序列能否用该２序列进行扩展，若能则返回。一 ③ 更新为Ｐ—ｄ和 —ｉ２ｌ１一 … ２个模式。ｄ／ｉｄ＊ — 指长度位置在Ｐ—ｄ的项ｉ同；ｐ，ｉＰ—ｄ是模式Ｐ
Ｆ，，ｕｐｒａ＝ｕｐｒｆ）Ｓｃｓｐｏｔ）ｓｐｏｔ）。（（１
定义６间窗口（）ｗ＜ｓｅ，（时ｗ）＝Ｕ，＞指交易的有效时间，Ｕ即事件只有在一个时问窗Ｉ内发生才被认为是有意义的。Ｚｔ
如：时间窗Ｉ可以用一天、一分钟等一段时间来表示。：１
中分号Ｔ３・圈类：Ｐ０６１
基于闭合序列模式的减量挖掘算法
林颖
（武夷学院计算机教研室，福建武夷山３４０）５３０
摘
要：针对数据库减量时不断重复挖掘的问题，已有闭合序列模式算法Ｐｓ＊在ｏＤ的基础上，提出一种减量挖掘算法ＤＰｓ通过移动ｅｏＤ。
列和２序列的频繁情况会出现３种变化：一（）Ｂ中的频繁序列变为Ｄ中的非频繁序列，如表１１ＤＢ’
中的＜ｆ和＜ｈ＞（＞（）。）
（）２用中的每个单项，扫描频繁ｌ序列集合ｌ一，发现相同项，则该频繁１序列的支持数ｓｐｓｐ，更新对应一ｕ＝ｕ－１
［ｙｗｒｓａａｍｉｉｇｓｑｅｔｌａｅ；ｌｓｄｓｑｅｔｌａｅｎｍｉｉｇｄｃｅｎａｎｎ；ｎｒｍｅｔｌｎｎ；ａａｕｄｔＫｅｏｄｄｔｎｎ；ｅｕｎｉｔｒｃｏｅｕｎｉｔｒｎｎ；ｅｒｍｅｔｌｉｇｉｃｅｎａｍｉｉｇｄｔｐａＩａｐｔｎｅａｐｔｍｉｅ