股票信息数据挖掘实验报告
- 格式:doc
- 大小:296.00 KB
- 文档页数:7
广东外语外贸大学信息科学技术学院股票信息数据挖掘实验报告
日期:2011-1-7
一、摘要
数据挖掘是数据库应用和研究的一个新领域,其目标是通过对历史数据的分析统计得出用户感兴趣的结果。在股票交易事务处理中,每天有以交易信息为主的大量数据汇入数据仓库,这些数据无疑对股民了解股市的走势,做出正确的投资决策;经济学家分析不同层次用户的投资行为和各种股票之间的关系,以及及时发现股市中的非正常行为;各上市公司和政府部门出台新的方案等诸多方面具有重要的参考价值。
作为市场经济重要特征的股票市场,从诞生的那天起就牵挂着数以千万投资者的心。高风险高回报是股票市场的特征,因此投资者们时刻在关心股市、分析股市、试图预测股市的发展趋势。一百多年来,一些分析方法随着股市的产生和发展逐步完善起来,如:道氏分析法、K线图分析法、柱状图分析法、点数图分析法、移动平均法,还有形态分析法、趋势分析法、角度分析法、神秘级数与黄金分割比螺旋历法、四度空间法等,随着计算机技术在证券分析领域的普及与应用,不断推出新的指标分析法。然而,严格讲这些方法仅仅是分析手段,还不能直接预测股市的动态。此外,人们也试图用回归分析等统计手段建立模型来预测股市。然而,利用传统的预测技术进行股市预测有一个最根本的困难,那就是待处理的数据量非常巨大。由于股市的行情受到政治、经济等多方面因素的影响,其内部规律非常复杂,某些变化规律的周期可能是一年甚至是几年,因此需要通过对大量数据的分析才能得到,而传统的预测技术预测效果并不理想。
近十年间,数据挖掘技术的研究工作取得了很大的进展,各种数据挖掘技术的应用极大地推动了人们分析、处理大量数据信息的能力,并为人们带来了很好的经济效益,因此可以预见数据挖掘技术在股市预测中将会有很大的潜力。
二、研究内容
本实验以数据挖掘技术为基础,对股票的走势进行分析预测。目标为使用数据挖掘中的几种常用方法建立预测模型,通过对预测过程及预测结果的分析,来寻求数据挖掘算法与股票预测的结合点。通过对近四年的股票全景与个股的分析,经过预处理后用weka对数据进行分类与关联的进一步挖掘,实地体验数据挖掘在股票预测领域起的作用。
三、数据挖掘过程
数据挖掘是一个反复的过程,包含多个相互联系的步骤,如定义和分析主题、数据预处理、选取算法、提取规则、评价和解释结果、将模式构成知识,最后是应用。
1.问题定义
进行数据挖掘前,首先要分析股票领域,了解股票领域的有关情况,熟悉背景知识。在确定需求后,对现有资源如已有的历史数据进行评估,确定是否能够通过数据挖掘技术来满足需求,然后将进一步确定数据挖掘的目标和制定数据挖掘计划。
2.数据准备
数据挖掘所处理的数据集通常不仅具有海量数据,而且可能存在大量的噪声
数据、冗余数据、稀疏数据或不完全数据等。数据准备包括数据抽取、清洗、转换、和加载,具体包括数据的清洗、集成、选择、变换、规约,以及数据的质量分析等步骤。
3.建立模型
数据挖掘中的建模实际上就是利用己知的数据和知识建立一种模型,这种模型可以有效地描述已知的数据和知识,希望该模型能有效地应用到未知的数据或相似情况中。在数据挖掘中,可以使用许多不同的模型:关联规则模型、决策树模型、神经网络模型、粗糙集模型、数理统计模型、时间序列分析模型。4.评价模型
数据挖掘得到的模式有可能是没有实际意义或没有实用价值的,也有可能不能准确反映数据真实意义,甚至在某些情况下是与事实相反的,因此对于数据挖掘的结果需要进行评估。确定数据挖掘是否存在偏差,挖掘结果是否正确,确定哪些是有效的、有用的模式,是否能满足需求。
5.评估
评估的方法一种是直接使用原先建立的挖掘数据库中的数据来进行检验,也可以另找新的测试数据并对其进行检验,另一种办法是使用实际运行环境中的当前数据进行检验。
四、挖掘成果
1.用分类C4.5算法挖掘股票全景数据集(2010.12.28-2011.01.04)
(1)原始数据集
日期代码名称涨幅%% 现价日涨跌买入价卖出价……20101227 000001 深发展A-2.25 16.07 -0.37 16.07 16.08 20101227 000002 万科A-2.89 8.75 -0.26 8.74 8.75 20101227 000004 ST国农 -2.99 11.7 -0.36 11.7 11.72
20101227 000005 世纪星源-3.58 3.77 -0.14 3.77 3.78 20101227 000006 深振业A-4.71 7.28 -0.36 7.27 7.28 20101227 000007 ST零七 -1.83 8.58 -0.16 8.58 8.59
20101227 000008 ST宝利来-2 11.78 -0.24 11.77 11.79
20101227 000009 中国宝安-4.44 16.15 -0.75 16.14 16.15
……
共12047条记录,20维属性。经过多次数据预处理,得到数据集如下:
日期换手%% 今开/昨
收
最高价比
收盘
最低价
比收盘
市盈
(动)
振
幅%% 涨跌
20101231 85.68 1.2270 higher lower 166.84 20.7 1 20110104 2.55 0.9954 same lower 54.56 12.79 1 20101229 6.92 0.9928 higher lower 235.83 12.86 1 20110104 5.91 1.0061 same lower 33.41 12.44 1 20101229 6.89 0.9963 same lower 71.31 12.2 1 20101230 17.79 0.9859 higher lower 48.09 12.48 1 20101227 55.62 1.0322 higher lower 65.01 13.34 1 20101230 2.47 0.9977 higher lower 892.36 12.15 1 ……