时序数据上的数据挖掘

格式：pdf
大小：224.60 KB
文档页数：8

下载文档原格式

/ 8

数据挖掘中的时序数据分析方法研究与比较分析

数据挖掘中的时序数据分析方法研究与比较分析时序数据是指按时间顺序排列的数据，例如股票价格、天气变化、交通流量等。

由于时序数据具有时间相关性和序列性，因此在数据挖掘中的应用非常广泛。

本文将研究和比较常用的时序数据分析方法，包括时间序列分析、回归分析和神经网络模型。

时间序列分析是一种用于预测和分析时序数据的方法。

它基于时序数据的历史信息，通过统计学方法建立数学模型并进行预测。

常用的时间序列分析方法包括自回归移动平均模型（ARMA）、自回归积分移动平均模型（ARIMA）和季节性自回归积分移动平均模型（SARIMA）。

这些模型通过查看数据序列的自相关性和偏相关性函数，确定最佳的模型参数，并进行预测。

时间序列分析方法适用于具有稳定趋势和季节性的数据，例如销售额、股票价格等。

回归分析是一种常用的统计方法，它通过建立一个数学公式来描述因变量与自变量之间的关系。

在时序数据分析中，回归分析可以用于探索时序数据与其他变量之间的关联。

例如，可以使用多元线性回归来研究股票价格与利率、就业率等宏观经济变量之间的关系。

此外，还可以使用非线性回归模型，例如多项式回归、指数回归等，来拟合时序数据中的非线性关系。

回归分析方法适用于时序数据与其他变量之间存在明确的因果关系的情况。

神经网络模型是一种机器学习方法，通过模拟人类神经元的工作原理来进行模型训练和预测。

在时序数据分析中，循环神经网络（RNN）和长短时记忆网络（LSTM）是常用的神经网络模型。

RNN模型具有记忆功能，可以处理序列的依赖关系，适用于长期依赖关系较强的时序数据。

而LSTM模型在RNN的基础上引入了门控机制，可以更好地捕捉时序数据中的长期依赖关系，更准确地进行预测。

神经网络模型适用于时序数据的非线性建模和预测，例如语音识别、自然语言处理等领域。

对比上述三种方法，时间序列分析方法是一种传统的统计方法，对于具有稳定趋势和季节性的数据有较好的效果。

回归分析方法适用于探索时序数据与其他变量之间的关联，可以帮助进一步理解时序数据的驱动因素。

时间序列数据挖掘方法及其应用研究

时间序列数据挖掘方法及其应用研究随着信息技术的不断发展，数据成为了社会生产和生活中不可或缺的一部分。

时间序列数据统计学是数据处理领域中的关键技术之一，它涉及到的领域非常广泛，如经济、气象学、医学、物流、环保等各个方面。

时间序列数据挖掘方法不仅可以用于数据具体应用研究，而且可以提高数据预测和分析的能力，因此受到了越来越多人的关注。

本文将从时间序列数据挖掘方法的概念、应用领域和具体方法几个方面来进行相关探讨。

一、概念时间序列数据挖掘方法（Time Series Data Mining，TSDM）是指从时间序列数据中提取信息和知识，利用这些信息和知识来预测、诊断和控制未来发展趋势的一种技术。

时间序列数据是一种特殊的数据形式，它是指按照时间顺序排列的一系列数据，其中的每个值都对应一个确定的时间点。

时间序列数据挖掘与所需挖掘内容密切相关，包括常见的趋势、周期、随机因素等。

二、应用领域时间序列数据挖掘方法在各个领域都有广泛的应用。

如下面几个领域。

1、经济学：时间序列数据挖掘方法可以用于预测GDP、物价、就业率、零售销售额等经济指标，帮助政府和企业在经济方面做出更为科学的决策。

2、气象学：时间序列数据挖掘方法可以用于预测气温、降雨量、风速、风向等自然现象，帮助人们提前做好准备或者采取相应的措施防止灾害发生。

3、医学：时间序列数据挖掘方法可以用于医学领域，如预测某种疾病的发生率、死亡率等，帮助人们更好地保护自己的健康。

4、物流：时间序列数据挖掘方法可以用于预测订单、发货量等，帮助企业提前制定合理的物流计划。

5、环保：在环保领域，时间序列数据挖掘方法可以用于预测空气质量、水质等，帮助人们保持绿色环境。

三、具体方法时间序列数据挖掘方法具体分为以下几种：1、时间序列的平稳性检验对于大多数时间序列，其表现出来的数据是一定的时间变化规律的，就是随时间的变化增长或减少。

这样的时间序列数据很可能不平稳，这是时序分析中面临的主要问题之一。

时间序列数据挖掘方法和应用

时间序列数据挖掘方法和应用时间序列数据是指按时间顺序排列的一系列数据点组成的数据集合。

它在许多领域中都具有重要的应用，包括金融、气象预测、股票市场分析、交通流量预测等。

时间序列数据挖掘是指通过使用各种方法和技术，从时间序列数据中发现隐藏的模式、趋势和关联性，以便做出准确的预测和决策。

时间序列数据挖掘方法包括了一系列的技术和算法，这些方法可以帮助我们进行数据分析、预测和决策制定。

以下是一些常用的时间序列数据挖掘方法：1. 平滑方法：平滑方法是通过滤波器等技术来剔除时间序列中的噪声，使得数据更加平滑和可预测。

常用的平滑方法包括移动平均法和指数平滑法。

2. 季节性分解方法：季节性分解方法是将时间序列数据分解为趋势、周期和残差几个部分，以便更好地理解数据的结构和变化规律。

常用的季节性分解方法包括STL分解和X-12-ARIMA分解。

3. 自回归移动平均模型(ARIMA)：ARIMA模型是一种广泛应用于时间序列数据建模和预测的方法。

它通过将时间序列数据转化为平稳序列，然后利用自回归和移动平均模型对数据进行建模和预测。

4. 自回归条件异方差模型(ARCH)：ARCH模型是一种用于建模时间序列数据中存在的波动变化程度的方法。

它能够对数据的方差进行建模，进而对未来的风险进行预测。

5. 长短期记忆网络(LSTM)：LSTM是一种递归神经网络模型，特别适用于分析具有长期依赖性的时间序列数据。

LSTM能够捕捉到数据中的长期记忆，并用于预测和分类任务。

除了上述方法之外，时间序列数据挖掘还可以结合其他数据挖掘技术，如聚类分析、关联规则挖掘和分类与回归等方法。

这些方法可以帮助我们更好地理解和利用时间序列数据。

在应用方面，时间序列数据挖掘具有广泛的应用前景。

首先，金融领域可以利用时间序列数据挖掘方法进行股票市场分析和预测。

通过分析股票市场的历史数据，可以挖掘出股票价格的变化趋势和重要驱动因素，从而帮助投资者做出更明智的投资决策。

小波变换对时序数据挖掘的特征提取方法

小波变换对时序数据挖掘的特征提取方法小波变换是一种广泛应用于信号处理和数据挖掘领域的数学工具，它在时序数据挖掘中具有独特的特征提取能力。

本文将介绍小波变换的基本原理、特点以及在时序数据挖掘中的应用。

一、小波变换的基本原理小波变换是一种基于函数空间的变换方法，它通过将信号分解成不同频率和尺度的小波基函数，来描述信号的时频特性。

小波基函数是一组平滑且局部化的函数，可以在时域和频域上进行精确表示。

小波变换的基本原理可以用数学公式表示为：\[W(a,b) = \int_{-\infty}^{\infty}x(t)\psi^{*}(\frac{t-b}{a})dt\]其中，$W(a,b)$表示小波系数，$x(t)$表示原始信号，$\psi^{*}(\frac{t-b}{a})$表示小波基函数，$a$和$b$分别表示尺度和平移参数。

二、小波变换的特点相比于传统的傅里叶变换和离散余弦变换等方法，小波变换具有以下几个特点：1. 多尺度分析：小波变换可以将信号分解成不同尺度的频率成分，从而更好地描述信号的局部特征。

这使得小波变换在时序数据挖掘中能够提取出更多的有用信息。

2. 局部化特性：小波基函数在时域上具有局部化的特性，可以更准确地描述信号的瞬时特征。

相比之下，傅里叶变换等方法在时域上是全局性的，无法有效捕捉信号的瞬时变化。

3. 时频分析：小波变换将信号分解成时频域上的小波系数，可以同时描述信号的时域和频域特性。

这使得小波变换在时序数据挖掘中能够更全面地分析信号的特征。

三、小波变换在时序数据挖掘中的应用小波变换在时序数据挖掘中有广泛的应用，主要包括特征提取、信号去噪和模式识别等方面。

1. 特征提取：小波变换可以将时序数据分解成不同尺度的小波系数，每个尺度对应不同频率的成分。

通过分析小波系数的幅值和相位信息，可以提取出信号的局部特征，如峰值、谷值、上升沿和下降沿等。

这些特征可以用于时序数据的分类、聚类和预测等任务。

时间序列数据挖掘方法

时间序列数据挖掘方法时间序列数据是指按照时间顺序收集的数据，例如气温变化、股票价格、人口增长等。

这些数据具有时间依赖性和序列性，因此时间序列数据挖掘成为了一门重要的方法。

时间序列数据挖掘被广泛应用于天气预测、股票价格预测、销售预测等领域。

本文将介绍几种常用的时间序列数据挖掘方法。

一、传统时间序列分析方法1. 平滑方法平滑方法是时间序列分析中最常见的方法之一。

它通过对数据进行平均或移动平均等操作来消除噪声和季节性变动，使得数据趋于平稳。

常见的平滑方法包括简单平均法、加权平均法和指数平滑法等。

2. 拆解方法拆解方法是将时间序列数据分解为趋势、季节性和残差三个部分。

趋势表示数据的长期变动趋势，季节性表示数据的周期性变动，残差表示无法被趋势和季节性解释的部分。

拆解方法常用的有加法模型和乘法模型。

3. ARIMA模型ARIMA模型是一种常用的时间序列预测方法，它基于自回归（AR）、移动平均（MA）和差分（I）的方法。

ARIMA模型可以用于对拥有趋势和季节性的数据进行建模和预测。

二、机器学习方法传统的时间序列分析方法在处理复杂的时间序列数据时可能存在局限性。

因此，近年来，越来越多的研究者开始将机器学习方法应用于时间序列数据挖掘中。

1. 循环神经网络（RNN）循环神经网络是一种特殊的神经网络，它能够处理序列数据。

通过添加循环连接，RNN能够在处理每一个数据点时，利用前面所有数据的信息。

RNN在时间序列数据挖掘中应用广泛，尤其在预测和分类任务中表现出色。

2. 卷积神经网络（CNN）卷积神经网络是一种对图像处理非常有效的神经网络。

虽然CNN主要应用于图像处理，但近年来被证明也适用于一维时间序列数据的特征提取。

通过卷积和池化等操作，CNN可以捕捉时间序列数据的局部和全局特征，从而实现有效的时间序列数据挖掘。

3. 长短时记忆网络（LSTM）长短时记忆网络是一种常用的循环神经网络架构，专门用于处理和预测时间序列数据。

LSTM通过引入记忆单元，能够更好地捕捉序列数据中的长期依赖关系。

数据挖掘中的时序数据分析方法

数据挖掘中的时序数据分析方法近年来，随着大数据时代的到来，时序数据的分析和挖掘成为了数据科学领域的热门话题。

时序数据是按照时间顺序排列的数据集合，它可以是连续的，也可以是离散的。

时序数据分析的目标是从数据中提取出有用的信息，揭示数据背后的规律和趋势。

本文将介绍一些常用的时序数据分析方法。

首先，时序数据的可视化是数据分析的重要步骤。

通过可视化，我们可以直观地观察到数据的变化规律。

常见的时序数据可视化方法有折线图、散点图和热力图等。

折线图可以展示数据随时间变化的趋势，散点图可以展示数据的分布情况，而热力图可以展示数据的密度和相关性。

通过这些图表，我们可以更好地理解时序数据的特征和规律。

其次，时序数据的平稳性检验是时序数据分析的重要环节。

平稳性是指数据的均值和方差不随时间变化而变化。

平稳性检验可以通过统计方法和图形方法进行。

统计方法包括ADF检验和KPSS检验等，它们通过检验数据序列的单位根和趋势来判断数据的平稳性。

图形方法包括自相关图和偏自相关图等，它们通过观察数据序列的相关性来判断数据的平稳性。

平稳性检验的目的是为了确保数据满足建模的基本假设，从而提高模型的准确性和可靠性。

然后，时序数据的特征提取是时序数据分析的关键步骤。

时序数据通常包含趋势、季节性和周期性等特征。

趋势是指数据随时间变化的总体趋势，可以通过移动平均法和指数平滑法等方法进行提取。

季节性是指数据在一定时间周期内的重复变化模式，可以通过季节分解法和周期分解法等方法进行提取。

周期性是指数据在较长时间周期内的重复变化模式，可以通过傅里叶分析和小波分析等方法进行提取。

特征提取的目的是为了减少数据的维度和复杂度，从而更好地进行模型建立和预测。

最后，时序数据的预测和建模是时序数据分析的最终目标。

预测是指根据已有的历史数据，推断未来数据的变化趋势和取值范围。

常见的时序数据预测方法有回归分析、ARIMA模型和神经网络模型等。

建模是指根据已有的历史数据，构建数学模型来描述数据的变化规律和趋势。

频繁模式挖掘技术在时序数据分析中的应用

频繁模式挖掘技术在时序数据分析中的应用时序数据是在不同时间点上收集到的数据信息，它的特点是具有时间关联性和顺序性。

在许多领域，如金融、交通、医疗等，时序数据的分析对于预测趋势、异常检测以及决策制定具有重要意义。

频繁模式挖掘技术是一种有效的方法，可以从时序数据中发现重复出现的模式，帮助我们理解数据的内在规律以及进行有意义的分析。

频繁模式挖掘技术是一种基于统计的数据挖掘方法，旨在发现数据集中频繁出现的模式。

在时序数据分析中，频繁模式挖掘技术可以用于发现重复出现的时间序列模式，通过对模式的分析，我们可以了解数据的周期性、趋势和规律。

首先，频繁模式挖掘技术可以帮助我们发现时序数据中的周期性模式。

周期性模式是指在一定时间跨度内，数据重复出现相似的模式。

例如，在股市数据中，我们可能会发现每个星期五的股价变化模式相似，或者在每年的节假日期间，销售数据呈现周期性的波动。

通过频繁模式挖掘技术，我们可以自动发现这些周期性模式，帮助我们预测未来的走势，合理决策。

其次，频繁模式挖掘技术还可以发现时序数据中的趋势模式。

趋势模式是指数据在某个时间段内呈现增长或减少的规律。

例如，在气象数据中，我们可能会发现温度在夏季逐渐升高，在冬季逐渐降低。

通过频繁模式挖掘技术，我们可以自动发现这些趋势模式，帮助我们理解数据的变化规律，做出相应的决策。

另外，频繁模式挖掘技术还可以用于时序数据中的异常检测。

异常检测是指发现与正常模式不符的数据点或时间序列。

在许多领域，如网络安全、信用卡欺诈检测等，异常检测是非常关键的。

通过频繁模式挖掘技术，我们可以识别出与正常模式不符的频繁模式，从而帮助我们及时发现潜在的异常情况，采取相应的措施。

频繁模式挖掘技术在时序数据分析中的应用已经得到了广泛的应用。

以下是一些具体的应用案例：1. 股票市场预测在股票市场中，频繁模式挖掘技术可以用于预测股价的走势。

通过分析历史数据中的频繁模式，我们可以发现股价的周期性和趋势性规律，从而预测未来的股价变化。

数据挖掘中的时序数据挖掘方法

数据挖掘中的时序数据挖掘方法数据挖掘是一项利用计算机技术从大量数据中提取有用信息的过程。

在数据挖掘的领域中，时序数据挖掘方法是一种重要的技术，它能够对时间序列数据进行分析和预测，从而帮助我们了解数据的趋势和模式。

时序数据是按照时间顺序排列的数据，例如股票价格、气温变化、交通流量等。

时序数据挖掘方法的目标是通过对这些数据的分析，揭示出数据背后的规律和趋势。

下面将介绍几种常见的时序数据挖掘方法。

首先，时间序列预测是时序数据挖掘中的重要任务之一。

它通过对历史数据的分析，预测未来一段时间内的数值变化。

常见的时间序列预测方法包括自回归移动平均模型（ARMA）、自回归积分移动平均模型（ARIMA）和指数平滑法等。

这些方法基于历史数据的模式和趋势进行预测，可以应用于股票市场的预测、气象预报等领域。

其次，时间序列聚类是将相似的时序数据归为一类的方法。

通过对时间序列数据的相似性度量，可以将数据划分为不同的类别。

常用的时间序列聚类方法包括k-means聚类算法和基于密度的聚类算法。

这些方法可以帮助我们对大量的时序数据进行分类和分组，从而更好地理解数据的结构和特征。

另外，时间序列关联规则挖掘是一种挖掘时序数据中关联规则的方法。

关联规则是指数据中的项之间存在的关联关系，例如购物篮分析中的“如果购买了牛奶，则很可能购买面包”。

时间序列关联规则挖掘可以帮助我们发现时序数据中的关联关系，从而可以进行更精准的预测和推荐。

常用的时间序列关联规则挖掘方法包括序列模式挖掘和频繁模式挖掘等。

此外，时间序列异常检测是一种用于检测异常值的方法。

在时序数据中，异常值往往表示数据中的异常事件或错误。

通过对时序数据的分析和建模，可以识别出异常值并进行处理。

常见的时间序列异常检测方法包括基于统计的方法和基于机器学习的方法。

这些方法可以帮助我们发现数据中的异常情况，从而及时采取措施进行调整和修正。

综上所述，时序数据挖掘方法在大数据时代具有重要的应用价值。

数据挖掘中的时序数据挖掘算法研究

数据挖掘中的时序数据挖掘算法研究时序数据是按照时间顺序排列的数据集合，广泛应用于各个领域，如金融、交通、医疗等。

时序数据挖掘算法的研究旨在从时序数据中提取有价值的信息、发现潜在规律，为决策和预测提供支持。

本文将着重介绍几种常见的时序数据挖掘算法。

一、ARIMA模型ARIMA模型是一种常用的时序数据分析方法，广泛应用于时间序列的预测。

ARIMA模型根据时间序列的自回归、差分和滑动平均的特性来对数据进行建模和预测。

首先，AR自回归模型使用过去观测值对未来值进行预测。

通过观察序列自相关性，确定合适的滞后阶数（p值），从而建立AR模型。

其次，差分模型通过对序列进行差分，将非平稳序列转化为平稳序列。

最后，滑动平均模型通过计算多个滞后期的平均值来预测未来值。

ARIMA模型的建立需要对数据序列进行平稳性检验和白噪声检验，以确定建模所需的差分阶数和AR、MA的阶数。

然后使用最小二乘法对模型参数进行估计，并进行模型检验和预测。

二、SARIMA模型SARIMA模型是ARIMA模型的拓展，能够处理带有季节性的时序数据。

SARIMA模型在ARIMA模型的基础上增加了一个季节性分量，用于建模和预测季节性变化。

SARIMA模型的建立与ARIMA模型类似，首先识别序列的季节性分量，然后根据季节性分量的自回归、差分和滑动平均的特性进行建模和预测。

SARIMA模型的参数估计和模型检验方法与ARIMA模型相似。

SARIMA模型在处理具有明显季节性的数据时，能够更准确地进行预测和分析，具有较高的可靠性和准确性。

三、LSTM神经网络LSTM（长短期记忆）神经网络是一种特殊类型的循环神经网络，专门用于处理时序数据。

LSTM网络能够有效地处理时序数据的长程依赖关系，提高预测准确性。

LSTM神经网络中的记忆单元能够保留和更新之前的状态信息，从而能够捕捉时序数据中的长期依赖关系。

通过将时序数据转化为序列输入，并设置适当的网络结构和参数，可以训练出一个强大的模型用于时序数据的挖掘和预测。

数据挖掘中适用于分类的时序数据特征提取方法

ｇｉｅｉｅｆｃｏｓｎｇｓｉｂｌａｕｅｅｔａｔｏｐｒａｈｉｕｇｓｅｕｄｌｓｏｈｏｉｕｔｅｆｔｘｒｃｉｎａｐｏｃｓｓｇｅｔｄ．ｎａｅ
Ｋｅｒｓｔｒｓｃａｓｃｔｎｆａｕｅｅｔａｔｎｙｗｏｄ：ｉｓｉ；ｌｓｉａｉ；ｅｔｒｘｒｃｉｍｅｅｅｉｆｏｏ
计算机系统应用
ｈｔ：ｗｗ．Ｓ．ｇＩｔ／ｗｃ－ｏ．＂ｐ／ — ａｒＣ１
２１０２年第２卷第ｌ期ｌＯ
数据挖掘中适用于分类的时序数据特征提取方法①
林珠。邢延
（广东省计算中心，广州５０３）１０３（广东工业大学自动化学院，广州５００）１０６
类的特征提取方法，进一步研究了它相应的分类方法和它在时间序列数据中的应用邻域．
关键词：时序数据；分类；特征提取
ＳｕｖｙｏａｕｒｔａｔｏｐｒａｈｅｏｍｅＳｅｉｓＣｌｓｉｃｔｏｒｅｆＦｅｔｅＥｘｒｃｉｎＡｐｏｃｓｆｒＴｉｒｅａｓｆａｉｎｉ
ＬＩＺｈＸＩＮｕ，ＮＧＹａ２ｈ
（ｕｎｄｎｏｕｅＣｎｅ，ｕｎｚｏ１０３ＣｉａＯａｇｏｇＣｍｐｔｅｔＧａｇｈｕ５０３，ｈｎ）ｒｒ（ｕｎｄｎｉｒｉｆｅｈｏｏｙＧａｇｈｕ５００，ｈａＯａｇｏｇｖｓｙｏＴｃｎｌｇ，ｕｎｚｏ１０６Ｃｉ）Ｕｎｅｔｎ
ＡｓａｔＴｅｍｉｃｎｒｕｉｓｆｈｓａｅｒ．）ｈｉｆａｒｘｒｔｎａｐｏｃｅｒｌｓｅｔｕｂｔｃ：ｈａｏｔｂｔｎｉｐｐｒｅ１Ｔｅｎｅｔｅｔｃｉｐｒａｈｓｅｃｓｆｄｉｏｆｒｒｎｉｏｏｔａ＂ｍａｕｅａｏａａｉｉｎｏ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

V ol.15, No.1 ©2004 Journal of Software 软件学报 1000-9825/2004/15(01)0000 时序数据上的数据挖掘∗ 黄书剑1+1(南京大学计算机科学与技术系江苏南京 210093)Data Mining on Time-series DataHUANG Shu-Jian 1+1(Department of Computer Science and technology, Nanjing University, Nanjing 210093, China)+ Corresponding author: Phn +86-**-****-****, Fax +86-**-****-****, E-mail: ****, http://****Abstract : Data mining has been developing rapidly in the recent years. Since time related data occurs frequently in various areas, there has been “an explosion” of interest in mining time-series data, which is a popular branch of data mining. In this paper we present an overview of the major research areas and tasks in mining time-series data, such as preprocessing, representation, segmentation, similarity, classification, clustering, anomaly detection, rule discovery, etc. Some solutions of several tasks are also included in this paper.Key words : data mining; time-series摘要: 近年来数据挖掘得到了蓬勃的发展。

由于越来越多的数据都与时间有着密切的关系，时序数据的挖掘作为数据挖掘的一个分支，正在受到越来越高的重视。

本文概述了时序数据上的数据挖掘这个领域内的主要研究方向和课题，包括数据预处理、数据表示、分割、相似度度量、分类、聚类、异常检测、规则识别等。

并对部分课题的主要解决方案进行了一些介绍。

关键词: 数据挖掘;时序数据挖掘中图法分类号: **** 文献标识码: A1 引言近几十年来，计算机运算存储能力不断提高，数据产生和采集的速度也越来越快，因而数据量越来越大；而与此同时，人们面对巨量数据，能够直接获得的信息量却越来越有限。

单纯的人力已经很难胜任对这样巨量的数据进行分析并提取出相关信息的任务。

为了解决这种数据与信息之间的矛盾，数据挖掘应运而生。

所谓数据挖掘，即从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程[1]。

数据挖掘的目的就在于找出巨量数据中的潜在规律，以对未来的分析和决策提供支持，其在分析处理中的优势以∗ Supported by the **** Foundation of China under Grant No.****, **** (基金中文完整名称); the **** Foundation of Chinaunder Grant No.****, **** (基金中文完整名称)作者简介: 黄书剑(1984),男,江苏盐城人,硕士生,主要研究领域为自然语言处理.2 Journal of Software软件学报 2004,15(1)及结论的正确性、有效性已经被越来越多的实践所证明。

数据挖掘可以处理各种各样形式的数据，包括关系数据库、数据仓库、事务数据库中的数据，面向对象数据库、对象关系数据库以及空间数据库、时序数据库、文本数据库和多媒体数据库等面向应用的专用数据库中的数据，以及普通文本，互联网中的数据在内的各种数据都可以作为数据挖掘的对象[2]。

本文着重讨论与时序数据的数据挖掘相关的一些内容。

简单的说，时序数据就是和时间相关的数据。

在数据挖掘的实际应用中，很多的数据都是与时间相关的，比如股票市场的交易数据，传感器网络收集到的状态数据，商店的消费统计数据，电话通信量统计数据等等。

这些数据中往往都蕴含着一些跟时间相关的现象甚至规律。

研究这些数据对分析问题的现状(如分析股票交易情况、发现异常交易，总结顾客消费规律等)，以及预测问题将来的发展(如销售决策，传感器分布调整等)，都有很大的帮助[3][4][5]。

时序数据的数据挖掘就是对这些与时间相关的数据进行分析并从中获取相关的信息的过程[4][6]。

本文的后续部分组织如下：第二部分是对时序数据挖掘的目的和过程的进一步介绍；第三部分主要介绍了时序数据挖掘中的主要研究方向和课题，并对部分课题的解决方案及算法进行了一些介绍；第四部分是对时序数据挖掘的一个简单讨论；第五部分是本文的总结。

2 时序数据挖掘概述2.1 时序数据挖掘的概念时序数据广义上是指所有与时间相关，或者说含有时间信息的数据。

但在具体的应用中，时序数据往往是指用数字或符号表示的时间序列[6]，但有的时候特指由连续的实值数据元素组成的序列[4]。

当然连续的实值数据元素在实际处理时可以通过一定的离散化手段，转换成离散的值数据再进行处理。

在大部分情况下，时序数据一般都以时间为基准呈序列状排列，因而，对时序数据的挖掘也可以看作一种比较特殊的序列数据挖掘(Sequence Data Mining)。

2.2 时序数据挖掘的目的时序数据是随着时间连续变化的数据，因而其反映的大都是某个待观察过程在一定时期内的状态或表现。

其研究的目的主要是以下两个方面：其一是学习待观察过程过去的行为特征，比如顾客的消费习惯等；其二是预测未来该过程的可能状态或表现，比如顾客是否会在短时间内进行大规模购物等。

这两个目的直接带来了时序数据挖掘中的一个重要的问题：查找相似的行为模式(Rule Discovery)。

另一个相关的问题就是异常活动检测(Outlier Detection or Anomaly Detection)。

关于这两个问题的详细阐述请参见第三部分。

3 时序数据挖掘中的主要课题时序数据挖掘中的课题，涉及从处理初始数据开始，到通过各种方法分析数据，直至得到所需要的信息的整个过程。

本部分以下内容将介绍时序数据挖掘中的如下几个主要任务：数据预处理(Preprocessing)，时序数据表示(Time-series Representation)，分割(Segmentation)，相似度度量(Similarity)，分类(Classification)，聚类(Clustering)，异常检测(Anomaly detection)，规则识别(Rule Discovery)等。

其他一些时序数据挖掘中的任务，如文献[6][7][8]中提到的：子序列匹配(subsequence matching)，内容查询(retrieval by content)等，限于篇幅，本文不作介绍。

3.1 数据预处理数据预处理泛指对得到的原始数据进行一定的加工处理，使之能够为其他数据挖掘方法所用的过程。

和其他类型的数据挖掘一样，时序数据在进行处理前往往要先进行一些数据预处理，例如去除噪音，填补缺失数值等。

去除噪音可以在数域或频域上采用一定的阈值过滤来完成，而缺失数值则通常可以采用插值的方法进行估计和填补。

这些操作的目的就在于保证数据的可靠性和完整性，在进行进一步分析时，不会因为一些明显不合理的噪音而影响整体结果，也不会因为存在数值确实而影响一些学习方法的正常执行。

作者名等:题目 3数据预处理要涉及的另一个可能的任务就是重新采样(Re-sampling)。

一些研究工作中，并不把时序数据中的时间信息作为主要的研究对象，而是仅要求这些数据按照时间序排列，甚至有的时候要求按照等时间间隔排列，这就涉及到在原数据基础上进行重新采样的问题。

3.2 时序数据表示对时序数据采取有别于原来实值序列的表示方法的原因是：希望能新的表示形式能更好、更简洁的表达出原有数据的主要性质。

有些情况下，研究者会采取特征(feature)的形式来描述时序数据，这就牵涉到特征提取(Feature Extraction)的问题，同时，对于特征数量较为庞大的时候，往往还会通过一些方法来进行维数约简，来提高特征表达能力，并减少特征数量。

常用的方法有奇异值分解(Singular Value Decomposition SVD)、离散傅立叶变换(Discrete Fourier Transform DFT)、离散小波变换(Discrete Wavelet Transform DWT)。

Keogh等人提出了一种称为Piece-wise Aggregate Approximation(PAA)的方法，是一种基于对时序数据进行等距离分割，并在分割内求均值的降维方法，取得了一定的效果[8]。

常见的时序数据表示分为如下几类：Model-Based Representation、Non-Data-adaptive Representation、Data-adaptive Representation以及Data-dictated Representation.3.2.1 Model-Based Representation基于模型的数据表示假设时序数据是由某个模型生成的。

模型被用来与数据拟和，并计算出相应的模型参数，这些参数也会在之后的数据挖掘过程中起到重要的作用。

常用的模型有隐马尔科夫模型(Hidden Markov Model HMM)[9][10]、ARMA(Auto Regressive Moving Average)等。

3.2.2 Non-Data-adaptive RepresentationNon-Data-adaptive Representation是指用和数据独立的转换方法和系数选择，把时序数据转换到一个不同的空间之中表示的方法[8]。

这一工作在很大程度上是为了对数据的进行进一步的降维，在本节开头中提到的几种降维方法如DFT、DWT、PAA等都是基于相应的non-data-adaptive representation的。

此外，文献[11][12]中还使用了一种称为的随机投影(Random projection)的方法进行了时序数据的表示。