序列模式挖掘算法的分析秦晓薇
- 格式:pdf
- 大小:87.69 KB
- 文档页数:3
序列模式挖掘算法的研究与实现序列模式挖掘算法是一种可以从历史数据中发现规律的数据挖掘算法。
它能够帮助我们更好地理解历史数据,并有助于决策和预测未来发展趋势。
本文主要就序列模式挖掘算法进行研究和实现。
一、序列模式挖掘算法研究1.算法框架序列模式挖掘算法主要是通过分析已有的历史数据,来发现有意义的模式和规律。
它的基本构成由3个部分组成:首先,收集有关的数据,然后从数据中抽取有用的信息,最后分析这些信息,从中发现规律和模式。
2.关联规则分析使用关联规则分析来发现序列模式的方法是,首先从多个历史序列中获取大量的事务数据,然后将这些数据转换为易于处理的格式,然后运用关联规则分析来发现有意义的模式。
3.簇划分算法簇划分算法是用来发现序列模式的一种方法,主要是通过迭代的方式,将序列进行划分,最终得到的是一系列的相关的序列,然后从中发现有规律的模式。
4.时间强算法时间强算法是一种基于概率的方法,它可以发现序列中模式出现的频率和预测将来出现模式的可能性。
首先,它会分析出每个序列中出现的模式,然后根据每个模式的出现频率,来预测出未来可能会出现的模式。
二、序列模式挖掘算法实现1.数据集序列模式挖掘算法的实现过程包括:数据集的构建、特征抽取、模式挖掘算法的实现、模式的验证和应用。
首先,需要构建一个合适的数据集,以便实现算法。
2.特征抽取特征抽取是模式挖掘所必须的一部分,因其可以帮助更好地将原始数据转换成易于处理的特征,以提高算法的精度。
主要的抽取方法有:基于属性的抽取、基于时间的抽取、基于空间的抽取。
3.模式挖掘算法实现模式挖掘算法是根据特征抽取出来的特征以及数据集来进行实现的,模式挖掘算法的选择可以因为不同的应用场景而有所不同,如果要对历史数据进行分析,则可以使用关联规则分析算法;如果要对频繁模式进行分析,则可以使用簇划分算法;如果要预测未来模式,则可以使用时间强算法。
4.模式的验证和应用模式有可能是噪声造成的,为此,在实际应用时,需要将模式进行验证,以避免错误的应用。
序列模式挖掘算法的研究与实现序列模式挖掘是计算机科学领域中一种重要的技术。
它可以从大量的序列数据中找出有价值的模式,帮助人们更好地理解和利用这些数据。
因此,现在有越来越多的学者投入到序列模式挖掘算法的研究与实现中。
一、序列模式挖掘的研究序列模式挖掘是一种复杂的统计技术,其主要任务是从不同的序列中发现有价值的模式关系。
研究人员对序列模式挖掘技术进行了系统的研究,以便最大限度地满足应用需求。
(1)首先,研究人员构建了基本的序列模式挖掘模型,并利用这个模型去查找有价值的模式关系。
研究人员还改进了现有的序列模式挖掘模型,以提高模式挖掘的准确性和效率。
(2)其次,研究人员还研究了序列模式挖掘算法的可扩展性。
在内存不够用时,可以使用分布式计算来加快模式挖掘的处理速度。
(3)最后,研究人员还考虑到序列模式挖掘过程中可能出现的噪声和冗余问题,改进了现有的模式挖掘算法,以减少这些问题的影响。
二、序列模式挖掘的实现序列模式挖掘的实现主要分为使用现有的模式挖掘软件和使用自己编写的软件两部分。
使用现有的模式挖掘软件可以节省开发时间,在某些情况下可以大大降低开发成本,因此越来越多的学者选择使用现有的模式挖掘软件来实现序列模式挖掘的功能。
另外,也有学者编写自己的序列模式挖掘算法。
根据应用场景,研究者可以根据需要改进现有的序列模式挖掘算法。
例如,在实现序列模式挖掘的任务时,研究者可以结合深度学习技术,借助深度神经网络来提高模式挖掘的准确率。
此外,研究者还可以利用机器学习技术来提高模式挖掘的准确度和效率。
三、总结序列模式挖掘是一项重要的技术,可以有效地从大量的序列数据中发现有价值的信息,有助于我们更好地利用数据。
随着时代的发展,越来越多的学者参与到序列模式挖掘的研究与实现中,不断改进模式挖掘的算法,提高模式挖掘的准确性和效率。
序列模式挖掘算法综述序列模式挖掘算法是一种用于从序列数据中发现频繁出现的模式或规律的技术。
序列数据是一种特殊的数据形式,由一系列按照时间顺序排列的事件组成。
序列模式挖掘算法可以应用于许多领域,如市场营销、生物信息学和智能交通等。
序列模式挖掘算法的目标是发现那些在序列数据中频繁出现的模式,这些模式可以帮助我们理解事件之间的关联性和发展趋势。
常见的序列模式包括顺序模式、并行模式和偏序模式等,其中顺序模式指的是事件按照特定顺序排列的模式,而并行模式指的是事件同时发生的模式。
常见的序列模式挖掘算法有多种,下面将对其中一些主要算法进行综述:1. Apriori算法:Apriori算法是一种经典的频繁模式挖掘算法,它逐步生成候选序列,并通过扫描数据库来判断候选序列是否频繁。
Apriori算法的关键思想是利用Apriori性质,即如果一个序列是频繁的,则它的所有子序列也是频繁的。
2. GSP算法:GSP算法是Growth Sequence Pattern Mining的缩写,它通过增长频繁序列的方式来挖掘频繁模式。
GSP算法使用基于前缀和后缀的策略来生成候选序列,并维护一个候选序列树来频繁序列。
3. PrefixSpan算法:PrefixSpan算法是一种递归深度优先算法,它通过增加前缀来生成候选序列。
PrefixSpan算法使用投影方式来减小空间,并通过递归实现频繁模式的挖掘。
4. SPADE算法:SPADE算法是一种基于投影的频繁序列挖掘算法,它通过投影运算将序列数据转换成项目数据,并利用Apriori原理来挖掘频繁模式。
SPADE算法具有高效的内存和时间性能,在大规模序列数据上表现优秀。
5. MaxSP模式挖掘算法:MaxSP算法是一种用于挖掘最频繁、最长的顺序模式的算法,它通过枚举先导模式来生成候选模式,并利用候选模式的投影特性进行剪枝。
6.SPADE-H算法:SPADE-H算法是SPADE算法的改进版本,通过引入顺序模式的分层索引来加速模式挖掘过程。
数据挖掘中的序列模式挖掘算法数据挖掘是一门研究如何从大量数据中获取有价值信息的学科,其中序列模式挖掘算法是常用的一种算法。
序列模式挖掘算法是指从序列数据库中挖掘频繁出现的序列模式的算法。
序列数据库是指记录序列数据的数据库,序列数据是一个有序的事件集合,如消费记录、交通出行等。
序列模式是指在序列中经常出现的子序列。
序列模式挖掘算法的过程是从序列数据库中找出所有频繁出现的序列模式,这些序列模式可以用于预测未来的行为、分析消费习惯以及判断产品的市场竞争力等方面。
一般来说,序列模式挖掘算法可以分为两步:第一步是求出所有出现次数大于等于最小支持度的序列模式,这个过程称作频繁模式挖掘;第二步是对求出的频繁序列模式进行后处理,提取出一些有用的模式。
频繁模式挖掘的过程中,有两种方法:基于前缀树的方法和基于投影的方法。
基于前缀树的方法是一种可以有效挖掘大规模数据的方法,它利用了序列模式中的公共前缀,将这些公共前缀存储在一颗前缀树中,并采用深度优先搜索的方式,从前缀树的根节点开始递归搜索。
基于投影的方法则采用了投影技术,将数据集分为多个子集,不断地递归处理子集,从而提高算法效率。
这两种方法各有优劣,可以选择根据实际应用需求和数据集规模选择合适的方法。
频繁模式挖掘的结果是频繁序列模式,这些序列模式可以用于后续分析和处理,如序列组合、关联规则挖掘等。
对于挖掘出来的频繁序列模式,还需要进行后处理,以提取有用信息。
后处理的方法有多种,如序列聚类、序列拉伸等,每种方法都会从不同的角度进行序列模式挖掘的分析。
总之,序列模式挖掘算法广泛应用于数据分析、市场分析、金融风险分析、医疗诊断分析等领域,能够为各类数据应用场景提供重要支持和帮助。
随着数据量和维度的不断增长,序列模式挖掘算法的优化和改进也是未来的研究方向之一。
用Python实现的序列模式识别算法研究序列模式识别是一种重要的数据挖掘技术,它在时间序列分析、生物信息学、金融市场预测等领域有着广泛的应用。
本文将重点探讨使用Python编程语言实现的序列模式识别算法,并对其进行深入研究和分析。
什么是序列模式识别算法序列模式识别算法是一种用于发现数据序列中重复出现的模式或规律的技术。
在时间序列分析中,我们常常需要从历史数据中找出一些规律性的模式,以便进行未来的预测和决策。
序列模式识别算法就是为了解决这类问题而设计的。
序列模式识别算法的应用领域序列模式识别算法在各个领域都有着广泛的应用。
在生物信息学中,科研人员可以利用序列模式识别算法来发现DNA或蛋白质序列中的重要模式,从而推断它们的功能和结构。
在金融市场中,投资者可以利用序列模式识别算法来分析股票价格走势,制定交易策略。
此外,在工业生产、医疗健康等领域,序列模式识别算法也被广泛应用。
Python在序列模式识别中的优势Python作为一种简洁、易学、功能强大的编程语言,在数据科学和机器学习领域有着广泛的应用。
在序列模式识别算法的实现过程中,Python具有以下几点优势:丰富的库支持:Python拥有众多优秀的数据处理和机器学习库,如NumPy、Pandas、Scikit-learn等,这些库提供了丰富的工具和函数,方便开发者进行数据处理和模型构建。
易读易写:Python语法简洁清晰,代码易读易写,适合快速原型开发和实验。
社区活跃:Python拥有庞大而活跃的开发者社区,用户可以方便地获取到各种资源和支持。
常见的序列模式识别算法1. Apriori算法Apriori算法是一种经典的关联规则挖掘算法,常用于发现频繁项集。
通过扫描数据集多次来发现频繁项集,并生成关联规则。
2. PrefixSpan算法PrefixSpan算法是一种基于前缀投影的序列模式挖掘算法,适用于挖掘序列数据库中频繁出现的子序列。
3. SPAM算法SPAM(Sequential Pattern Mining)算法是一种用于挖掘时间序列数据中频繁出现的子序列模式的算法。
频繁序列模式挖掘算法pbwl算法频繁序列模式挖掘算法(Pattern Based Weighted Largely algorithm,简称PBWL算法)是一种用于挖掘序列数据中频繁模式的算法。
它在挖掘序列数据中具有重要的应用,可以帮助人们了解序列数据的结构并发现其中隐藏的规律。
在现实生活中,我们经常遇到需要分析序列数据的情况。
比如,我们可以将购物清单看作是一系列的购买序列,我们可能希望挖掘出经常一起购买的商品组合,以便给客户推荐相关商品。
再比如,将市场股票的交易记录看作是一系列的交易序列,我们可能希望挖掘出常见的交易模式,用来预测股票走势。
频繁序列模式挖掘算法可以帮助我们从海量的序列数据中挖掘出这些有用的信息。
PBWL算法的工作原理如下:首先,它将输入的序列数据进行预处理,将每个序列根据其相似性划分为若干个子序列。
然后,算法会将每个子序列表示成一棵序列树的形式,其中每个节点表示一个序列的片段。
接下来,PBWL算法通过计算每个节点的频繁度得分,并进行剪枝操作去除低频的序列片段。
最后,算法将频繁序列模式按照频繁度进行排序,并输出挖掘结果。
PBWL算法的特点在于它能够考虑序列数据中序列片段的权重。
在实际应用中,我们经常会遇到一些序列片段比其他片段更重要的情况。
比如,在股票交易数据中,我们可能会关注某种特定交易模式的频率,而忽略其他不重要的模式。
PBWL算法通过引入权重因子,可以在挖掘过程中更加灵活地对序列片段进行建模和评估,从而得到更精确的挖掘结果。
除了考虑权重因素,PBWL算法还具有高效和可扩展性的特点。
它采用了一系列的优化策略和数据结构,可以在大规模序列数据上进行高效的挖掘操作。
另外,PBWL算法还可以通过增量式的方式进行更新和处理新增的序列数据,使其适用于在线更新情况。
总之,PBWL算法作为一种频繁序列模式挖掘算法,具有较好的性能和灵活性。
它可以帮助人们发现序列数据中的规律和模式,为实际应用提供有价值的信息。
序列模式挖掘研究吴孔玲;缪裕青;苏杰;张晓华【摘要】为了更好地分析购物篮数据,挖掘出潜在客户,序列模式挖掘应运而生.序列模式挖掘是数据挖掘一个重要研究内容,近年来在很多领域得到广泛运用.概述序列模式挖掘的发展现状,研究基本挖掘框架的经典挖掘算法与扩展模型挖掘算法,特别针对近年来出现的新数据形式序列模式挖掘,以及基于零压缩二叉决策图(ZBDD)结构的挖掘算法做了阐述,最后对序列模式挖掘发展趋势进行了展望.%In order to analysis shopping basket data better, mine potential customers, sequential pattern minging emerged.Sequential pattern mining is an important research content of data mining and has been widely used in many fields in recent years. We summary sequential pattern mining development situation at present, research classical algorithm based on basic mining framework and algorithm based on extension model, Especially describe the new data form sequential pattern mining appeared in recent years and the algorithm based on zero compression binary decision figure (ZBDD), Finally prospect the sequential pattern mining development trend.【期刊名称】《计算机系统应用》【年(卷),期】2012(021)006【总页数】9页(P263-271)【关键词】序列模式挖掘;模式增长;投影数据库;零压缩二叉决策图【作者】吴孔玲;缪裕青;苏杰;张晓华【作者单位】桂林电子科技大学计算机科学与工程学院,桂林541004;桂林电子科技大学计算机科学与工程学院,桂林541004;桂林电子科技大学计算机科学与工程学院,桂林541004;桂林电子科技大学计算机科学与工程学院,桂林541004【正文语种】中文序列模式挖掘最早由R. Agrawal和R. Srikant在1995年提出[1],是数据挖掘一个重要的研究领域。
并发序列模式挖掘在学生成绩分析中的应用王翠青;杨晓彤;陈未如【摘要】将并发序列模式挖掘应用于学生成绩分析,可以帮助高校调整教学内容,预测学生学习效果,从而促进学生的学习和教学质量的提高.以学生各学期科目成绩为数据源,设计实现算法BV,在挖掘得到序列模式的基础上,计算每个客户序列的分支向量,并以此为基础进行并发序列模式挖掘.通过实验可以看出,在时间效率上,改进算法优于支持向量的并发序列模式挖掘算法;课程成绩并发序列模式随着并发度和支持度的不断增大,在某一取值处,达到峰值,然后逐渐减少;算法在高校学生科目成绩上进行实验,得到了有指导意义的并发集.【期刊名称】《沈阳化工大学学报》【年(卷),期】2018(032)002【总页数】6页(P187-192)【关键词】并发关系;并发度;并发序列模式;学生成绩分析;序列模式【作者】王翠青;杨晓彤;陈未如【作者单位】沈阳化工大学计算机科学与技术学院,辽宁沈阳110142;沈阳化工大学计算机科学与技术学院,辽宁沈阳110142;沈阳化工大学计算机科学与技术学院,辽宁沈阳110142【正文语种】中文【中图分类】TP311序列模式挖掘是数据挖掘研究中的一个重要部分,在许多领域有着广泛的应用,如顾客购物习惯、Web访问模式、科学实验过程分析、自然灾害预测、疾病治疗、药物检验以及DNA分析等[1-4].结构关系模式是以序列模式挖掘为基础,进一步找出序列模式之间关系的一种挖掘方法[5].这种方法将序列模式之间的关系进一步进行分解、细化,整合,形成由并发、互斥、重复及串行关系组成的复合模式[5-7].目前对并发序列模式的研究已经取得阶段性的成果,文献[8]主要介绍了基于支持向量的序列模式挖掘算法,该算法的主要特点是在时间上效率较高,并且避免了庞大的客户序列数据库对具体序列间关系的影响,不再丢失出现概率较小而相互联系密切的关系模式,保证了挖掘出的结果更完整,但该算法产生的中间结果太多,并且序列长度不合理;文献[9]介绍了应用于生物信息的并发序列模式挖掘算法,该算法主要是寻找蛋白质序列之间的并发关系,并且要求输入项必须是单项的.当前对于学生成绩的分析,相关工作主要集中在关联规则的挖掘[10-13],一般方法是对学生成绩数据源进行预处理,改进数据的质量,从而帮助提高挖掘的精度和性能;给出最小支持度和最小置信度,采用类Apriori算法进行挖掘,从而发现课程之间的相关性.该类研究的优点是可以从挖掘结果中找出哪些课程适合先开设,哪些课程适合后开设等指导制定教学计划的一些建议.但是对原始数据进行离散化处理,得到的挖掘结果可能会产生误差.本文主要是研究适应于学生成绩挖掘的并发序列模式算法,并且挖掘学生课程学习效果之间的并发关系.1 并发序列模式挖掘方法1.1 基本概念定义1 并发关系.若序列c同时包含序列α1,α2,…,αn,则称各序列α1,α2,…,αn相对于该序列c满足并发关系,表示为[α1+α2+…+αn ]c.特别地,对于序列α和β,若它们相对于序列c满足并发关系,表示为[α+β]c.数据源由学生每学期科目分级组成,一个学生的成绩为一条序列数据,每个学期的科目成绩构成一个项目.例1: M、N、O、P、Q、X、Y、Z分别表示不同的科目,a、b分别表示科目对应的等级.表1为科目成绩构成的数据源.表1 数据源示例Table 1 The example of data source编号序列1(Ma Na)(Oa Qb)(Xa Yb) 2(Ma Nb)(Oa Pb)(Xb Zb) 3(Ma Nb)(Oa Qb)(Xa Ya Zb)4(Ma Nb)(Ob Qb)(Xb Zb)由表1可以看出,序列(Ma)(Oa)(Xa)和(Na)(Qb)(Yb)同时出现在序列1中,所以有:[(Ma)(Oa)(Xa)+(Na)(Qb)(Yb)]1.定义2 并发度.序列模式集SP中的序列模式α与β的并发度可以定义为所有包含α或β的客户序列中使α与β满足并发关系的客户序列的频度,即:Concurrence(α,β)=定义3 并发序列模式.如果α和β是序列模式并且Concurrence(α,β) ≤mincon,其中mincon是客户指定的最小并发度,则称α和β组成并发序列模式.并发序列模式可以表示为[α+β].例1中,序列模式最小支持度为70 %时,挖掘序列模式得到的长度≥2的序列模式结果如表2所示.若客户给定最小并发度mincon=50 %,sp3出现在客户序列2、3、4中,sp4出现在客户序列1、2、3中,则Concurrence(sp3,sp4)=2/4=50 %≥mincon,所以[sp3+sp4].序列模式结果如表2所示.表2 序列模式结果Table 2 The result of sequence parttens序列模式编号序列模式序列模式编号序列模式1(Ma Nb)4(Ma)(Qb)2(MaNb)(Zb)5(Ma)(Zb)3(Ma)(Oa)6(Nb)(Zb)设CSDB={c1,c2,…,cn} 为客户序列数据库,SP={sp1,sp2,…,spm}是序列模式挖掘阶段在给定的最小支持度minsup下得到的序列模式集合.定义4 分支向量.每个客户序列cj的分支向量BVj的定义为:其中:1≤j≤n,1≤i≤m,(这里n为客户序列个数,m为满足一定支持度的序列模式个数),若编号为i的序列模式在客户序列cj中出现,则bvij=1,否则bvij=0.若两个客户序列的分支向量同一位置k都为1,则表示序列模式spk同时出现在这两个客户序列中.因此,通过对分支向量进行“与”运算,便可方便得到序列模式同时出现次数.例1中,在最小并发度mincon=75 %时,每个客户序列的分支向量如表3所示. 表3 客户序列对应的分支向量举例Table 3 The example of branch vector编号序列分支向量1(Ma Na)(Oa Qb)(Xa Yb) 0011002(Ma Nb)(Oa Pb)(Xb Zb) 1110113(Ma Nb)(Oa Qb)(Xa Ya Zb)1111114(Ma Nb)(Ob Qb)(Xb Zb) 110111 1.2 并发序列模式挖掘的改进算法文献[12]中的并发序列模式挖掘算法以支持向量为基础进行,为每个序列模式计算支持向量,此算法适用于数据源规模巨大,序列模式集规模相对较少时的并发序列模式挖掘.本研究中将每个学生的科目成绩作为数据源,数据源规模较小,而首先进行的序列模式挖掘得到结果较大.因此,为每个数据源计算其分支向量,进一步挖掘并发序列模式.算法描述:输入:学生科目成绩数据源CSDB={c1,c2,…,cn },序列模式最小支持度minsup,最小并发度mincon.输出:并发序列模式全集.(1) 用传统的PrefixSpan算法对数据源进行序列模式挖掘,得到学生成绩的序列模式全集SP={sp1,sp2,…,spm}.(2) 计算每个客户序列的ck(1≤k≤n)的分支向量CBVk.(3) 调用BVCON(1),求得并发集.若Count(BV)表示计算分支向量BV中1的个数,BVCON算法:void BVCON(int k){if(c>=n*mincon){newCon(BV);//产生新的并发集return;}BV=BV & BVk;//当前分支向量与第k条客户序列分支向量求与c++;if(Count(BV)>=2)//若同时存在两个序列模式BVCON(k+1);c--;if(c+n-k>=n*mincon)BVCON(k+1);}(4) 对得到的并发集进行分析整理,去除冗余信息.例1中mincon=50 %时,根据算法得到的并发集如表4所示.表4 并发集(mincon=50 %)Table 4 The set of concurrence(mincon=50 %)客户序列BV并发序列模式c1,c3001100sp3,sp4c2,c3111011sp1,sp2,sp3,sp5,sp6c2,c4110011sp1,sp2,sp 5,sp6c3,c4110111sp1,sp2,sp4,sp5,sp6客户序列c1,c2的分支向量BV1&BV2=001000,其中仅共同包含一个序列模式,所以不予考虑.c1,c4同理.根据序列模式的包含特征,经过分析整理,例1客户序列当minsup=50 %,mincon=70 %时,得到并发集如表5所示.从该例可以看出:在科目M得a级,科目N得b,科目Z得b的同时也伴随着科目O得a以及科目Q得b.通过并发序列模式挖掘可以发现学生在学习过程中各科目成绩间的内在联系,对分析预测学生学习效果有很大的帮助.表5 并发集(minsup=50 %,mincon=70 %)Table 5 The set ofconcurrence(minsup=50 %, mincon=70 %)序号并发集1[(MaNb)(Zb)+(Ma)(Oa)]2[(Ma Nb)(Zb)+(Ma)(Qb)]3[(Ma)(Oa)+(Ma)(Qb)]1.3 算法验证为了验证算法的正确性,使用Visual Studio工具,在内存为8 GB,CPU 为2.40 GHz Core i7,操作系统为Windows10的PC机上实现了该算法.实验数据由IBM数据生成器生成数据源,用该数据源生成程序,以产生实验所需的测试数据,测试数据源的有关参数如表6所示.表6 参数描述Table 6 The description of parameter参数含义D客户序列的个数C每个客户序列包含的平均事物数T每个事物包含的平均项数S最大序列模式的平均长度N不同项目个数鉴于成绩数据的特点,将生成数据参数设置如下:| C |=20,| T |=30,| S |=4,|N|=1 000,|D |=1 000.在不同最小支持度minsup和最小并发度mincon下,采用相同数据源,BV算法与支持向量的并发序列模式挖掘算法[12]的时间效率进行对比,结果如图1所示.从实验结果可以看出,BV算法消耗的时间相对较少,效率优于支持向量算法.图1 BV算法与支持向量算法的时间效率对比Fig.1 The chart of time comparison between convect and BV with different minsup2 学生成绩的挖掘实验2.1 数据的预处理2.1.1 数据采集实验选择沈阳化工大学计算机科学与技术学院2011级全体学生4个学年的学业成绩作为数据源,将不同专业分别考虑.2.1.2 数据标准化数据标准化是预处理工作中最重要的部分,因为绝对成绩并不能准确说明整体数据的特点,并且各个学科考试题的题量、难度和区别度是不相同的或者不完全相同的,评分标准也不统一,因而会出现有的科目考分偏高,有的科目考分又偏低.只有把绝对成绩转换成相对成绩,以各学科相对成绩总分或均分排序才是合理的.相对成绩的科学性、合理性已经逐渐被大多数人认可.正态分布:学生成绩是否符合正态分布规律是考试中比较科学的参考指标.本文中每班每科目的学生成绩呈正态分布,可使数据分布更合理,更科学,挖掘结果更具说服力.每个专业的学生成绩按照不同的班级进行等级划分,等级划分如表7所示.表7 成绩等级划分Table 7 The hierarchy of results级制各级设置比例/%ABCDEF二级制5050三级制304030五级制1025302510六级制52025252010源数据:1条源数据由1个学生每个学期所修课程成绩组成.即1条记录有8个元素.每一列数据代表1个同学8个学期的所有课程.2.2 算法应用与结果分析不同专业的学生在不同的最小支持度minsup和最小并发度mincon下(本实验中minsup=mincon),挖掘不同成绩等级下的并发序列模式结果曲线如图2所示.从图2可以看出:不同专业的学生,在不同的并发度和支持度下,挖掘得到的课程成绩并发序列模式的并发趋势大体相同,随着并发度和支持度的不断增大,在某一取值处达到峰值,然后逐渐减少.在并发度较小时,序列模式挖掘得到的序列模式数比较多;当并发度较大时,由于序列模式挖掘阶段得到序列模式数相对减少,变化趋势减弱.从图2(d)可以看出,信息专业的学生成绩按三级制分级时,在并发度为0.2处取得峰值,在并发度为0.4处再次取得峰值.这是因为在此支持度下,序列模式挖掘得到的序列模式数比较多,从而导致再次出现峰值.软件专业共111人,在最小支持度minsup=0.2,最小并发度 mincon=0.2,成绩等级五级制时,挖掘得到的并发序列模式数相对较多,结果比较有代表性,挖掘结果如图3所示,这些并发序列模式揭示了不同科目取得成绩之间的关系.图2 不同专业的并发序列模式数变化曲线Fig.2 The CPS chart of different specialty图3 软件专业成绩并发关系Fig.3 The concurrent relation of software上述实验结果说明,日常教学活动中BV算法在学生成绩中的应用可以得到有指导意义的结论,即提高学生成绩应该采用以下教学措施:(1) 计算机网络和操作系统安排在同一学期,计算机组成原理安排在二者之后,或者计算机网络和计算机组成原理安排在前,操作系统安排在后.这是因为在计算机网络得B,操作系统得B时,会同时出现计算机组成原理得B.(2) 同理可知,数据结构、C语言程序设计和C语言实践应该安排在同一学期,JAVA语言和J2EE安排在后面的学期,或者数据结构、JAVA语言和J2EE安排在同一学期,C语言程序设计安排在后一学期.(3) 大学外语3和编译原理安排在同一学期,离散数学安排在后一学期,或者大学外语3和离散数学安排在同一学期,编译原理安排在后一学期.(4) 高数2和离散数学安排在同一学期,组件技术安排在后一学期,或者高数2和组件技术安排在同一学期,离散数学安排在后一学期.(5) 高数2和计算机科学导论安排在同一学期,C语言程序设计和C语言实践安排在后一学期,或者C语言程序设计和C语言实践安排在同一学期,高数2和计算机科学导论后一学期.3 结束语并发性是研究系统行为的重要特性,本研究将并发序列模式挖掘应用于高校学生成绩分析,有助于发现学生成绩背后所隐藏的有价值信息,从而进一步深化教学改革.同时,研究出了BV并发算法,与现有算法相比,在算法效率上有了更进一步的提高,并且找到学生课程学习效果之间的并发关系,更加完善了成绩预测模型.【相关文献】[1] 肖扬.序列挖掘算法研究及其在用户行为分析中的作用[D].北京:北京邮电大学,2014:13-25.[2] 朱扬勇,熊赟.DNA序列数据挖掘技术[J].软件学报,2007,18(11):2766-2781.[3] 符保龙.基于规则提取量的Web日志关联规则挖掘方法[J].计算机应用研究,2010,27(2):500-502.[4] 孙海.滨海城市自然灾害风险评估与控制方法的基础研究[D].青岛:中国海洋大学,2013:9-15.[5] 吕静,王晓峰,ADJEI O,等.序列模式图及其构造算法[J].计算机学报,2004,27(6):782-788.[6] 张洋,陈未如,纪元.互斥关系模式挖掘算法研究[J].计算机工程与设计,2008,29(22):5776-5779.[7] 彭弗楠,陈未如,黄宁.结构关系模式挖掘中的重复序列模式挖掘[J].甘肃科技,2008,24(8):20-22.[8] 张洋,陈未如,陈珊珊.并发序列模式挖掘方法研究[J].计算机应用,2009,29(11):3096-3099.[9] WANG Cuiqing,LÜ Jing,KEECH M.Applications of Concurrent Sequential Patterns in Protein Data Mining[J].Lecture Notes in Computer Science,2014,8556(97):243-257.[10] 白玲.数据挖掘在高校学生成绩分析中的应用[D].上海:华东师范大学,2011:25-40.[11] 李海峰.数据挖掘技术在学生成绩分析中的应用研究[D].河北:河北大学,2009:19-35.[12] 严的兵.基于数据挖掘的学生成绩分析[D].安徽:安徽大学,2011:10-26.[13] 李杰.数据挖掘技术在学生成绩分析中的应用研究[D].陕西:西安石油大学,2010:8-17.。
一种基于单序列的序列模式挖掘方法研究
陈未如;吴玲玲;王翠青
【期刊名称】《沈阳化工大学学报》
【年(卷),期】2012(026)003
【摘要】在前期研究工作的基础上,研究在单序列中序列模式的概念,讨论了相关的性质,这些概念和性质与多序列情况有很大的不同.在此基础上给出了在单序列中基于滑动窗口概念挖掘序列模式的方法及相关算法,为进一步研究序列模式及其挖掘算法提供了一定的理论基础.
【总页数】6页(P264-269)
【作者】陈未如;吴玲玲;王翠青
【作者单位】沈阳化工大学计算机科学与技术学院,辽宁沈阳110142
【正文语种】中文
【中图分类】TP311
【相关文献】
1.一种基于单序列的序列模式挖掘方法研究
2.一种基于频繁序列树的增量式序列模式挖掘算法
3.一种基于序列末项位置信息的序列模式挖掘算法
4.基于二维数组的序列模式挖掘方法研究
5.一种基于MDL的日志序列模式挖掘算法
因版权原因,仅展示原文概要,查看原文内容请购买。