CN43—1258/TPISSN1007-130X
计算机工程与科学
COMPUTERENGINEERING&SCIENCE
2009年第31卷第9期
V01.31,No.9,2009
文章编号:1007-130X(2009)09-0115-04
基于SAX方法的股票时间序列数据
相似性度量方法研究。
ResearchontheStockTimeSeries
DataSimilarityBasedonSAX
刘威1。邵良杉2。曾繁慧1,王江1。付巍巍1
LIUWei!。SHAOLiang-shan2,ZENGFan-huil,WANGJian一,FUWei-weil
(1.辽宁工程技术大学理学院,辽宁阜新123000;2.辽宁工程技术大学系统工程研究所。辽宁阜新123000)
11.SchoolofScience.LiaoningTechnicalUniversityIFuxin123000;
2.InstituteofSystemEl唱.m的ring。LiaoningTechnicalUniversity,Fuxin123000,China)
摘要:特定数据集上高效的相似性度量方法是目前时间序列数据挖掘领域研究的重点内容之一。针对经过SAX方法降维后的股票数据在相似性度量中缺乏趋势变化的动态信息这一问题。本文提出了一种融合了点距离与模式距离优点的新型相似性度量函数——复合距离函数,并通过实证分析验证了该距离函数在相似性度量中的有效性,为揭示股票数据间相互依赖的规律以及时间序列相似性问题的进一步研究提供了新思路。
Abstract:Researchofefficientsimilaritymeasurementmethodsonspecificdatasetsisoneofthekeyresearchcontentsintimeseriesdatamining.Tosolvetheproblemthatstockdatalackthedynamicinformationoftrendafterreducingthedi—memionbyusingthesAxmethod,thispaperpresentsanewsimilaritymeasurementfunction,theComplex-Distance-Func—tion,whichjoinsthepoint-distanceadvantagesandthemodel-distanceadvantagestogether.ThroughtheexperimentsofSAXwithdifferentdistancefunctions,weprovethattheComplex-Distance-Functionisusefulandprovidesnewideastore-vealingtheinterdependencebetweenstockdataandsolvetheproblemoftimeseriessimilarity.
关键词:时间序列;相似性;符号集合近似方法;股票数据;复合距离函数
Keywolds:timeseries;similarity;sAx;stockdata,complex-distance-function
doi:10.3969/j.issn.1007—130X.2009.09.037
中图分类号:TPl8文献标识码:A
1引言
时间序列相似性是时间序列数据挖掘领域的基础理论问题,几乎所有的数据挖掘算法都涉及到计算序列间的相似性。对时间序列数据进行数据挖掘,主要是研究各序列之间的相互关系,即以某种度量来表征两个序列之间的相似程度‘¨。
以最为常见的离散数值型时间序列为例,其相似性问题大致可以分为三类:基于模型的相似性、基于压缩的相似性和基于形态的相似性。相比较而言,基于形态的相似性具有普适性,在一定条件下可以获得和基于模型的相似性以及基于压缩的相似性相同的度量结果。在基于形态的相似性研究中,国内外的很多学者做了大量的研究工作,比较有代表性的有KeoghE等人提出的分段累积近似(PAA)、分段线性表示(PLR)和符号集合近似(SAX)[2。3等方法,通过最短边界距离来度量分段近似得到的符号序列间的相似性;PerngChang-Shing提出的界标模型(LM)Hj,利用反映序列特征的重要的点,如极值点、最值点和拐点等构成的界标序列代替原始序列,并通过比例特征度量相似性;另外董晓莉等提出了七元模式集合[53;兰秋军等提出了主观偏好模型及其系数估计的“锚点”方法【63,王达等提出了时间序
?收稿日期:2009-04-13;修订日期:2009--07一10’
基金项目:国家自然科学基金资助项目(70572070)
作者简介:刘威(1977一),男,辽宁阜新人。硕士。讲师,CCF会员(E200013134M),研究方向为数据挖掘理论及应用、时间序歹!1分析;邵良杉,教授,博士生导师,研究方向为系统工程、数据挖掘理论及应用。
通讯地址:123000辽宁省阜新市辽宁工程技术大学理学院;Tel:15004180429;E-mail:Iv8218218@126.toni
Address:SchoolofScience,LiaoningTechnicalUniversity,Fuxin,Liaoning123000。P.RChina
115
基于SAX方法的股票时间序列数据相似性度量方法研究
作者:刘威, 邵良杉, 曾繁慧, 王江, 付巍巍, LIU Wei, SHAO Liang-shan, ZENG Fan-hui, WANG Jiang, FU Wei-wei
作者单位:刘威,曾繁慧,王江,付巍巍,LIU Wei,ZENG Fan-hui,WANG Jiang,FU Wei-wei(辽宁工程技术大学理学院,辽宁,阜新,123000), 邵良杉,SHAO Liang-shan(辽宁工程技术大学系统工程研
究所,辽宁,阜新,123000)
刊名:
计算机工程与科学
英文刊名:COMPUTER ENGINEERING AND SCIENCE
年,卷(期):2009,31(9)
参考文献(9条)
1.刘世元.江浩面向相似性搜索的时间序列表示方法述评[期刊论文]-计算机工程与应用 2004(27)
2.Keogh E.Lin J.Fu A HOT SAX:Efficiently Finding the Most Unusual Time Series Subsequence 2005
3.Keogh E.Chakrabarti K.Pazzani M Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases 2001
4.Perng Chang-Shing.Wang Haixun.Zhang S R Landmarks:a New Model for Similarity-Based Pattern Querying in Time Series Databases 2000
5.董晓莉.顾成奎.王正欧基于形态的时间序列相似性度量研究[期刊论文]-电子与信息学报 2007(05)
6.兰秋军.马超群时序相似度的主观偏好模型及其系数估计的"锚点"方法[期刊论文]-系统工程 2006(09)
7.王达.荣刚时间序列的模式距离[期刊论文]-浙江大学学报(工学版) 2004(07)
8.Lin J.Keogh E.Lonardi S A Symbolic Representation of Time Series,with Implications for Streaming Algorithms 2003
9.刘懿.鲍德沛.杨泽红新型时间序列相似性度量方法研究[期刊论文]-计算机应用研究 2007(05)
本文链接:https://www.doczj.com/doc/9e4785337.html,/Periodical_jsjgcykx200909037.aspx