当前位置:文档之家› 时间序列特征表示与聚类算法研究

时间序列特征表示与聚类算法研究

江苏大学硕士学位论文

目录

摘要.................................................................................................................................I Abstract....................................................................................................................... I II 目录............................................................................................................................... V 第一章绪论.. (1)

1.1研究背景和意义 (1)

1.1.1研究背景 (1)

1.1.2研究意义 (2)

1.2国内外研究现状 (3)

1.2.1时间序列特征表示 (3)

1.2.2时间序列聚类算法 (6)

1.2.3音乐数据挖掘 (8)

1.3研究内容及论文结构 (9)

1.3.1研究内容 (9)

1.3.2论文结构 (10)

第二章时间序列数据的特征表示与聚类相关研究基础 (11)

2.1时间序列 (11)

2.1.1时间序列概念 (11)

2.1.2时间序列度量方法 (12)

2.1.3时间序列挖掘问题分析 (12)

2.2时间序列特征表示 (13)

2.2.1分段聚合近似表示方法 (13)

2.2.2符号聚合近似表示方法 (15)

2.3 时间序列聚类 (17)

2.3.1 K-Means聚类算法 (18)

2.3.2时间序列聚类问题分析 (18)

2.4本章小结 (19)

第三章基于始末距离的时间序列符号聚合近似表示 (20)

3.1时间序列近似表示方法SAX_SM (20)

3.1.1近似表示 (21)

时间序列特征表示与聚类算法研究

3.1.2距离度量 (21)

3.1.3距离度量下界性证明 (23)

3.2数值实验 (24)

3.2.1实验环境和实验数据 (24)

3.2.2分类准确率 (25)

3.2.3算法运行时间 (26)

3.3本章小结 (29)

第四章基于内部簇心调整的时间序列聚类 (31)

4.1时间序列聚类算法K-Center (31)

4.1.1内部簇心调整 (31)

4.1.2 K-Center算法 (32)

4.1.3时间复杂度分析 (36)

4.2数值实验 (36)

4.2.1实验环境和实验数据 (37)

4.2.2实验结果分析 (37)

4.3本章小结 (37)

第五章SAX_SM方法及K-Center算法在音乐数据中的应用 (41)

5.1音乐时间序列的背景介绍 (41)

5.2音乐时间序列的分析预测 (43)

5.2.1近似表示 (43)

5.2.2聚类分析 (44)

5.2.3流行度预测 (46)

5.3本章小结 (48)

第六章总结与展望 (49)

6.1本文总结 (49)

6.2研究展望 (50)

参考文献 (52)

致谢 (56)

硕士期间研究成果 (57)

江苏大学硕士学位论文

第一章绪论

1.1研究背景和意义

1.1.1研究背景

互联网技术的快速发展以及多媒体技术的普及,使得网络数据正在以爆炸式的速度增长。与此同时,关于数据的收集、整理以及存储的技术也在飞速向前发展。这种大趋势带来的直接好处就是,各种组织机构都可以迅速地积累和获取海量数据。海量数据中往往隐藏着大量有价值的模式和信息,这些模式和信息对相关事务的决策起着十分重要的作用。因此,处于大数据时代的人们对如何充分基于数据挖掘技术去挖掘庞大数据背后的模式信息非常关注。

数据挖掘作为一种处理数据的技术,近几年在信息产业界获得了极大的关注。通过结合传统的数据统计、数据分析与复杂的机器学习算法,既可以从海量数据中发现潜在的有价值的信息,也可以预测未来可能出现的信息。很多企业经营者可以根据数据挖掘技术得到的模式信息和预测结果及时调整对商品的生产和销售方法以及企业活动中各项事务的处理方式[1,2]。数据挖掘技术是一个结合多个学科且不断处于发展上升期的研究领域,不同学科的研究者们通过用不同角度对不同领域的数据进行挖掘来推进数据挖掘技术的发展,其中包括金融学、医学、管理学和计算机科学等领域。这便说明人类经济和社会发展越来越离不开数据挖掘研究。数据挖掘研究中的重点和难点是根据数据类型,需要转变相应的数据挖掘技术。因为不同类型的数据涉及到的理论方法都不相同。

时间序列是一类非常常见且广泛分布在人们生活中的数据,也是数据挖掘领域中主要的研究对象,时间序列由一组序列数据组成,这些数据一般是针对某个潜在过程通过在相同的时间间隔进行采样选值来得到的。在现实生活中,时间序列数据就是在一系列时间点上选取数据进行观测时的一个普遍现象[3]。比如一段时间内金融领域中的股票价格[4]、一段时间内医疗领域中的脑电波心电图[5,6]、一段时间内气象领域中的气温变化[7,8]等等数据。因此,当前数据挖掘领域的研究方向之一就是挖掘海量时间序列数据中隐藏的有价值的信息[9]。时间序列数据挖掘可以发现隐藏在时间序列数据中并与时间相关的有趣知识,揭示出隐含的规律,并将其挖掘结果应用于社会生产实践中。这和传统的数据挖掘去揭示静态数据中隐含的规律一致。

相关主题
文本预览
相关文档 最新文档