股票信息数据挖掘实验报告
- 格式:doc
- 大小:296.00 KB
- 文档页数:7
数据挖掘技术在股票市场中的应用研究随着全球经济的不断发展,股票市场的成为了人们投资、赚钱的一个重要渠道。
但是股市的波动性很大,投资者很难在不断变化的市场中取得长期的成功。
因此,许多投资者开始探索股票市场中的数据挖掘技术。
数据挖掘技术结合股票市场分析可以帮助投资者更好地理解市场,并获得更好的投资回报。
一、股票市场的特点股票市场是一个高度复杂的市场,其运作受到许多因素的影响。
这些因素包括公司的财务状况、商业环境、经济氛围、政策等等。
这些因素构成了股市的动态市场,影响股市的走势。
投资者需要对这些因素进行研究来做出正确的投资决策。
二、数据挖掘技术的介绍数据挖掘是从大量的数据中提取隐含的、之前未知的关系、模式和规律的过程。
它是一项涉及处理大量未经加工数据的技术,通过挖掘和分析这些数据来揭示问题的本质,从而解决实际应用问题。
数据挖掘主要包括分类、聚类、关联规则挖掘、异常检测等技术。
三、数据挖掘技术在股票市场中的应用基于数据挖掘技术的股票市场分析可以帮助投资者更加全面和准确地预测和分析股市的趋势。
下面我们列举几种数据挖掘技术在股票市场中的应用:1. 聚类分析聚类分析是指数据挖掘技术通过对股票市场中各个板块、行业、公司进行分组,让同一组内的股票有相似的特征,不同组之间有区别。
聚类分析可以让投资者更好地理解股票市场,从而更准确地进行投资。
2. 关联规则挖掘关联规则挖掘是一种主要用于发掘数据之间的"强关联"或"弱关联"的技术,可以帮助投资者识别出不同行业、板块之间的联系和关联。
投资者可以根据关联规则发掘出来的结果做出更加科学的投资决策。
3. 时间序列分析时间序列分析是一种量化分析方法,可以为股票市场提供更全面和精确的预测与分析工具。
该技术主要用于预测股票价格的走势,并向投资者提供更加具体的投资建议。
4. 大数据分析技术大数据分析技术是指通过数据处理、数据挖掘和人工智能等技术对大规模、复杂和多样化的数据进行整理和分析,从而得出股市的走势。
股票实验报告目录1. 引言1.1 背景1.2 目的1.3 研究问题2. 研究方法2.1 数据收集2.2 数据分析3. 结果展示3.1 股票走势分析3.2 投资建议4. 讨论与分析4.1 股票市场预测4.2 风险评估5. 结论6. 参考文献1. 引言1.1 背景股票市场一直是吸引投资者关注的热点之一,投资者关心股票的涨跌情况,希望通过分析和预测股票走势来获取投资收益。
1.2 目的本文旨在通过对股票的数据收集和分析,探讨股票市场走势及提出投资建议,帮助投资者更好地把握投资机会。
1.3 研究问题- 股票走势分析- 投资建议2. 研究方法2.1 数据收集通过股票交易平台获取股票的历史交易数据,包括开盘价、收盘价、最高价、最低价等数据。
2.2 数据分析利用数据分析工具对股票数据进行统计分析和趋势预测,探索股票市场的规律和特点。
3. 结果展示3.1 股票走势分析根据数据分析结果,展示股票的历史走势图和未来预测走势图,分析股票的涨跌规律和趋势。
3.2 投资建议结合股票走势分析,提出针对不同股票的投资建议,包括买入、持有、卖出等建议。
4. 讨论与分析4.1 股票市场预测根据对股票走势的分析,讨论股票市场的预测情况,分析市场的风险和机会。
4.2 风险评估对股票投资的风险进行评估分析,提出风险防范和控制的建议,帮助投资者更好地管理风险。
5. 结论通过本文对股票走势分析和投资建议的研究,得出结论,并提出未来股票市场研究的展望。
6. 参考文献列出本文所引用的参考文献,包括相关研究论文、书籍等。
股票分析实验报告股票分析实验报告引言:股票市场是一个充满风险和机遇的地方,对于投资者来说,了解和掌握股票分析方法是至关重要的。
本文通过一系列的实验,对股票分析方法进行了探索和研究,旨在提供一些有益的参考和指导。
一、基本面分析基本面分析是一种通过研究公司的财务状况、经营业绩和行业前景等因素来评估股票价值的方法。
在实验中,我们选择了几家知名公司进行了基本面分析。
通过分析公司的财务报表,我们可以了解到公司的盈利能力、偿债能力和成长潜力等关键指标。
同时,我们还关注了行业的竞争态势和宏观经济环境对公司的影响。
基于这些分析,我们可以对股票的投资价值做出初步的判断。
二、技术分析技术分析是一种通过研究股票的历史价格和交易量等因素来预测未来走势的方法。
在实验中,我们运用了常见的技术分析指标,如移动平均线、相对强弱指标和MACD等,对股票的走势进行了分析。
通过观察股票价格的图表形态和指标的变化,我们可以寻找到一些规律和趋势,从而做出相应的投资决策。
三、市场情绪分析市场情绪分析是一种通过研究投资者的情绪和心理状态来判断市场走势的方法。
在实验中,我们使用了一些市场情绪指标,如投资者信心指数和波动率指数等,来评估市场的风险和机会。
通过观察这些指标的变化,我们可以了解到市场参与者的情绪和预期,从而判断市场的热度和趋势。
四、实验结果与分析通过一系列实验,我们得出了一些结论和观察。
首先,基本面分析是股票分析的重要组成部分,可以帮助我们了解公司的价值和潜力。
其次,技术分析是一种有效的短期交易工具,可以帮助我们捕捉股票价格的波动。
最后,市场情绪分析可以提供一些参考和预警,但并不能完全预测市场走势。
结论:股票分析是一门复杂而有挑战性的学问,需要不断学习和实践。
通过本次实验,我们对基本面分析、技术分析和市场情绪分析等方法有了更深入的了解。
然而,需要强调的是,股票市场存在着风险,投资者在进行股票分析时需要谨慎,并结合自身的风险承受能力和投资目标做出明智的决策。
第1篇一、实验概述本次数据挖掘实验以Apriori算法为核心,通过对GutenBerg和DBLP两个数据集进行关联规则挖掘,旨在探讨数据挖掘技术在知识发现中的应用。
实验过程中,我们遵循数据挖掘的一般流程,包括数据预处理、关联规则挖掘、结果分析和可视化等步骤。
二、实验结果分析1. 数据预处理在实验开始之前,我们对GutenBerg和DBLP数据集进行了预处理,包括数据清洗、数据集成和数据变换等。
通过对数据集的分析,我们发现了以下问题:(1)数据缺失:部分数据集存在缺失值,需要通过插补或删除缺失数据的方法进行处理。
(2)数据不一致:数据集中存在不同格式的数据,需要进行统一处理。
(3)数据噪声:数据集中存在一些异常值,需要通过滤波或聚类等方法进行处理。
2. 关联规则挖掘在数据预处理完成后,我们使用Apriori算法对数据集进行关联规则挖掘。
实验中,我们设置了不同的最小支持度和最小置信度阈值,以挖掘出不同粒度的关联规则。
以下是实验结果分析:(1)GutenBerg数据集在GutenBerg数据集中,我们以句子为篮子粒度,挖掘了林肯演讲集的关联规则。
通过分析挖掘结果,我们发现:- 单词“the”和“of”在句子中频繁出现,表明这两个词在林肯演讲中具有较高的出现频率。
- “and”和“to”等连接词也具有较高的出现频率,说明林肯演讲中句子结构较为复杂。
- 部分单词组合具有较高的置信度,如“war”和“soldier”,表明在林肯演讲中提到“war”时,很可能同时提到“soldier”。
(2)DBLP数据集在DBLP数据集中,我们以作者为单位,挖掘了作者之间的合作关系。
实验结果表明:- 部分作者之间存在较强的合作关系,如同一研究领域内的作者。
- 部分作者在多个研究领域均有合作关系,表明他们在不同领域具有一定的学术影响力。
3. 结果分析和可视化为了更好地展示实验结果,我们对挖掘出的关联规则进行了可视化处理。
通过可视化,我们可以直观地看出以下信息:(1)频繁项集的分布情况:通过柱状图展示频繁项集的分布情况,便于分析不同项集的出现频率。
数据挖掘实验报告数据挖掘是一门涉及发现、提取和分析大量数据的技术和过程,它可以揭示出隐藏在数据背后的模式、关系和趋势,对决策和预测具有重要的价值。
本文将介绍我在数据挖掘实验中的一些主要收获和心得体会。
实验一:数据预处理在数据挖掘的整个过程中,最重要的一环就是数据预处理。
数据预处理包括数据清洗、数据集成、数据转换和数据规约等步骤,目的是为了提高数据的质量和可用性。
首先,我对所使用的数据集进行了初步的观察和探索。
发现数据集中存在着一些缺失值和异常值。
为此,我使用了一些常见的缺失值处理方法,如均值替代、中值替代和删除等。
对于异常值,我采用了离群值检测和修正等方法,使得数据在后续的分析过程中更加真实可信。
其次,我进行了数据集成的工作。
数据集合并是为了整合多个来源的数据,从而得到更全面和综合的信息。
在这个过程中,我需要考虑数据的一致性和冗余情况。
通过采用数据压缩和去重等技术,我成功地完成了数据集成的工作。
接着,我进行了数据转换的处理。
数据转换是为了将原始的数据转换成适合数据挖掘算法处理的形式。
在这个实验中,我采用了数据标准化和归一化等方法,使得不同属性之间具备了可比性和可计算性,从而便于后续的分析过程。
最后,我进行了数据规约的操作。
数据规约的目的在于减少数据的维数和复杂度,以提高数据挖掘的效果。
在这个阶段,我采用了主成分分析和属性筛选等方法,通过压缩数据集的维度和减少冗余属性,成功地简化了数据结构,提高了挖掘效率。
实验二:关联规则挖掘关联规则挖掘是数据挖掘中常用的一种方法,它用于发现数据集中项集之间的关联关系。
在这个实验中,我使用了Apriori算法来进行关联规则的挖掘。
首先,我对数据进行了预处理,包括数据清洗和转换。
然后,我选择了适当的最小支持度和最小置信度阈值,通过对数据集的扫描和频繁项集生成,找出了数据集中的频繁项集。
接着,我使用了关联规则挖掘算法,从频繁项集中挖掘出了具有一定置信度的关联规则。
在实验过程中,我发现挖掘出的关联规则具有一定的实用性和可行性。
股票分析实验报告【篇一:个股分析-证券投资技术分析实验报告】本科学生设计性实验报告一、实验目的与要求1. 实验目的在我国沪深股市中自主选择某只个股,灵活运用所学知识,探究其价格走势的规律,以达到提高解决实际问题能力、创新能力以及组织管理能力的目的。
2. 实验要求(1) 根据实验目的及指导教师的具体要求,通过小组讨论的方式,确定实验具体对象、设计实验思路与步骤,用文字、图表、流程图、表格等形式记录分析过程,写出实验结论。
最后总结本实验的成功和不足之处,并提出改进的建议。
提倡和鼓励学生提出创新性见解,不可照搬教材或教师课堂讲授的内容。
(2) 截取价格走势图时,请将技术分析软件的配色改为“绿白”等浅色方案,并根据需要灵活选择使用“分时走势线使用粗线、分时重播、复权处理、显隐主图指标、窗口个数、分析周期、叠加股票、画线工具”等功能。
建议利用技术分析软件或windows 的“画图”软件在走势图中添加一些文字、箭头、方框或线条后再粘贴到实验报告文档中。
(3) 正文使用黑色小四号宋体、1.5 倍行距。
在规定的时间内完成,并提交电子稿(注意按规范进行命名)和打印稿(用a3 纸双面打印中缝装订,或a4 纸双面打印左侧装订,不需彩色打印)。
二、实验设备与软件1. 实验设备:联接互联网的计算机2. 实验软件:证券投资技术分析软件三、实验思路与步骤( 确定实验分析对象,写出具体的分析思路和步骤) 个股价格走势分析即以图表为主要手段对个股在市场上的表现进行研究,以预测市场未来的价格变化趋势。
研究对象:市场行为。
市场行为是指市场的实际交易行为,主要包括价格、成交量、价和量的变化幅度以及完成这些变化所经历的时间。
实验的分析思路和步骤大致如下:一、选定某只股票,了解该公司的基本信息二、对该股进行分时图分析1、内盘与外盘2 、量比3 、委差与委比三、对该股进行 k 线分析:1 、对单根 k 线的分析2 、对两根 k 线的分析3 、对三根 k 线的分析四、对该股进行切线分析:1 、支撑线或者压力线2 、趋势线3 、交叉线4 、扇形线5 、轨道线6 、黄金分割线、甘氏线五、对该股进行形态分析: 对该股形成的符合要求的形态进行分析六、对该股进行指标分析,选取几个较熟悉的指标: 1、、趋势类指标: ma ; 2 、摆动类指标: kdj ;3 、成交量类指标: obv ;4 、路径类指标: boll ;七、对该股进行综合分析,得出实验分析结论四、实验分析与结论( 用文字、图表、流程图、表格等形式记录分析过程,最后写出实验 结论 )(一)分析过程一、选定股票: 600085 同仁堂 基本信息:上海证券交易所 a 股;行业:医药制造业 公司背景:北京同仁堂是全国中药行业著名的老字号。
股票分析实验报告一、实验目的本次股票分析实验的主要目的是通过对特定股票的深入研究和分析,掌握基本的股票分析方法和技巧,提高对股票市场的理解和投资决策能力。
同时,通过实际操作和数据观察,验证不同分析方法的有效性和可靠性,为未来的投资活动提供有益的参考和经验。
二、实验对象在本次实验中,选择了股票代码股票作为分析对象。
该股票属于所属行业行业,具有一定的市场代表性和关注度。
三、实验数据来源为了进行全面准确的股票分析,实验数据主要来源于以下几个方面:1、证券交易所官方网站:获取股票的交易数据、公司公告等权威信息。
2、金融资讯平台:收集市场研究报告、行业动态和分析师观点。
3、公司年报和季报:了解公司的财务状况、经营业绩和发展战略。
四、基本面分析1、公司概况公司名称成立于成立年份,是一家专注于主营业务的企业。
经过多年的发展,公司在行业内已具有一定的规模和市场份额,并拥有多项核心技术和专利。
2、财务状况(1)营收与利润过去三年,公司的营业收入呈现出增长/下降的趋势,分别为具体金额 1、具体金额 2和具体金额 3。
净利润方面,也有相应的增长/下降表现,分别为具体金额 4、具体金额 5和具体金额 6。
(2)资产负债表公司的资产负债率保持在较为合理的水平,截至最近报告期,资产总额为具体金额 7,负债总额为具体金额 8。
流动资产中,货币资金较为充裕,应收账款和存货的占比较为稳定。
(3)现金流经营活动现金流净额持续为正,表明公司的主营业务具有较强的造血能力。
投资活动现金流反映了公司在扩大生产、研发投入等方面的支出情况。
筹资活动现金流则显示了公司的融资策略和资金来源。
3、行业分析(1)行业发展趋势所属行业行业近年来呈现出增长/萎缩的态势,主要受到宏观经济因素/技术创新/政策法规等的影响。
预计未来几年,行业将继续保持增长/稳定/下降的趋势。
(2)竞争格局行业内竞争激烈,主要竞争对手包括竞争对手 1、竞争对手 2等。
公司在技术研发、市场渠道、品牌影响力等方面具有一定的竞争优势,但也面临着来自竞争对手的挑战。
数据挖掘实验报告一、实验背景。
数据挖掘是指从大量的数据中发现隐藏的、有价值的信息的过程。
在当今信息爆炸的时代,数据挖掘技术越来越受到重视,被广泛应用于商业、科研、医疗等领域。
本次实验旨在通过数据挖掘技术,对给定的数据集进行分析和挖掘,从中发现有用的信息并进行分析。
二、实验目的。
本次实验的目的是通过数据挖掘技术,对给定的数据集进行分析和挖掘,包括数据的预处理、特征选择、模型建立等步骤,最终得出有用的信息并进行分析。
三、实验内容。
1. 数据预处理。
在本次实验中,首先对给定的数据集进行数据预处理。
数据预处理是数据挖掘过程中非常重要的一步,包括数据清洗、数据变换、数据规约等。
通过数据预处理,可以提高数据的质量,为后续的分析和挖掘奠定基础。
2. 特征选择。
在数据挖掘过程中,特征选择是非常关键的一步。
通过特征选择,可以筛选出对挖掘目标有用的特征,减少数据维度,提高挖掘效率。
本次实验将对数据集进行特征选择,并分析选取的特征对挖掘结果的影响。
3. 模型建立。
在数据挖掘过程中,模型的建立是非常重要的一步。
通过建立合适的模型,可以更好地挖掘数据中的信息。
本次实验将尝试不同的数据挖掘模型,比较它们的效果,并选取最优的模型进行进一步分析。
4. 数据挖掘分析。
最终,本次实验将对挖掘得到的信息进行分析,包括数据的趋势、规律、异常等。
通过数据挖掘分析,可以为实际问题的决策提供有力的支持。
四、实验结果。
经过数据预处理、特征选择、模型建立和数据挖掘分析,我们得到了如下实验结果:1. 数据预处理的结果表明,经过数据清洗和变换后,数据质量得到了显著提高,为后续的分析和挖掘奠定了基础。
2. 特征选择的结果表明,选取的特征对挖掘结果有着重要的影响,不同的特征组合会对挖掘效果产生不同的影响。
3. 模型建立的结果表明,经过比较和分析,我们选取了最优的数据挖掘模型,并对数据集进行了进一步的挖掘。
4. 数据挖掘分析的结果表明,我们发现了数据中的一些有意义的趋势和规律,这些信息对实际问题的决策具有重要的参考价值。
第1篇一、实验背景随着大数据时代的到来,数据挖掘技术逐渐成为各个行业的重要工具。
数据挖掘是指从大量数据中提取有价值的信息和知识的过程。
本实验旨在通过数据挖掘技术,对某个具体领域的数据进行挖掘,分析数据中的规律和趋势,为相关决策提供支持。
二、实验目标1. 熟悉数据挖掘的基本流程,包括数据预处理、特征选择、模型选择、模型训练和模型评估等步骤。
2. 掌握常用的数据挖掘算法,如决策树、支持向量机、聚类、关联规则等。
3. 应用数据挖掘技术解决实际问题,提高数据分析和处理能力。
4. 实验结束后,提交一份完整的实验报告,包括实验过程、结果分析及总结。
三、实验环境1. 操作系统:Windows 102. 编程语言:Python3. 数据挖掘库:pandas、numpy、scikit-learn、matplotlib四、实验数据本实验选取了某电商平台用户购买行为数据作为实验数据。
数据包括用户ID、商品ID、购买时间、价格、商品类别、用户年龄、性别、职业等。
五、实验步骤1. 数据预处理(1)数据清洗:剔除缺失值、异常值等无效数据。
(2)数据转换:将分类变量转换为数值变量,如年龄、性别等。
(3)数据归一化:将不同特征的范围统一到相同的尺度,便于模型训练。
2. 特征选择(1)相关性分析:计算特征之间的相关系数,剔除冗余特征。
(2)信息增益:根据特征的信息增益选择特征。
3. 模型选择(1)决策树:采用CART决策树算法。
(2)支持向量机:采用线性核函数。
(3)聚类:采用K-Means算法。
(4)关联规则:采用Apriori算法。
4. 模型训练使用训练集对各个模型进行训练。
5. 模型评估使用测试集对各个模型进行评估,比较不同模型的性能。
六、实验结果与分析1. 数据预处理经过数据清洗,剔除缺失值和异常值后,剩余数据量为10000条。
2. 特征选择通过相关性分析和信息增益,选取以下特征:用户ID、商品ID、购买时间、价格、商品类别、用户年龄、性别、职业。
数据挖掘实验报告一、实验背景随着信息技术的快速发展,数据量呈爆炸式增长,如何从海量的数据中提取有价值的信息成为了一个重要的研究课题。
数据挖掘作为一种从大量数据中发现潜在模式和知识的技术,已经在众多领域得到了广泛的应用,如市场营销、金融风险预测、医疗诊断等。
本次实验旨在通过对实际数据的挖掘和分析,深入理解数据挖掘的基本流程和方法,并探索其在解决实际问题中的应用。
二、实验目的1、熟悉数据挖掘的基本流程,包括数据预处理、数据探索、模型选择与训练、模型评估等。
2、掌握常见的数据挖掘算法,如决策树、聚类分析、关联规则挖掘等,并能够根据实际问题选择合适的算法。
3、通过实际数据的挖掘实验,提高对数据的分析和处理能力,培养解决实际问题的思维和方法。
三、实验数据本次实验使用了一份关于客户消费行为的数据集,包含了客户的基本信息(如年龄、性别、职业等)、消费记录(如购买的商品类别、购买金额、购买时间等)以及客户的满意度评价等。
数据总量为 10000 条,数据格式为 CSV 格式。
四、实验环境操作系统:Windows 10编程语言:Python 37主要库:Pandas、NumPy、Scikitlearn、Matplotlib 等五、实验步骤1、数据预处理数据清洗:首先,对数据进行清洗,处理缺失值和异常值。
对于缺失值,根据数据的特点,采用了均值填充、中位数填充等方法进行处理;对于异常值,通过数据可视化和统计分析的方法进行识别,并根据具体情况进行删除或修正。
数据转换:将数据中的分类变量进行编码,如将性别(男、女)转换为 0、1 编码,将职业(教师、医生、工程师等)转换为独热编码。
数据标准化:对数据进行标准化处理,使得不同特征之间具有可比性,采用了 Zscore 标准化方法。
2、数据探索数据可视化:通过绘制柱状图、箱线图、散点图等,对数据的分布、特征之间的关系进行可视化分析,以便更好地理解数据。
统计分析:计算数据的均值、中位数、标准差、相关系数等统计量,对数据的基本特征进行分析。
广东外语外贸大学信息科学技术学院股票信息数据挖掘实验报告日期:2011-1-7一、摘要数据挖掘是数据库应用和研究的一个新领域,其目标是通过对历史数据的分析统计得出用户感兴趣的结果。
在股票交易事务处理中,每天有以交易信息为主的大量数据汇入数据仓库,这些数据无疑对股民了解股市的走势,做出正确的投资决策;经济学家分析不同层次用户的投资行为和各种股票之间的关系,以及及时发现股市中的非正常行为;各上市公司和政府部门出台新的方案等诸多方面具有重要的参考价值。
作为市场经济重要特征的股票市场,从诞生的那天起就牵挂着数以千万投资者的心。
高风险高回报是股票市场的特征,因此投资者们时刻在关心股市、分析股市、试图预测股市的发展趋势。
一百多年来,一些分析方法随着股市的产生和发展逐步完善起来,如:道氏分析法、K线图分析法、柱状图分析法、点数图分析法、移动平均法,还有形态分析法、趋势分析法、角度分析法、神秘级数与黄金分割比螺旋历法、四度空间法等,随着计算机技术在证券分析领域的普及与应用,不断推出新的指标分析法。
然而,严格讲这些方法仅仅是分析手段,还不能直接预测股市的动态。
此外,人们也试图用回归分析等统计手段建立模型来预测股市。
然而,利用传统的预测技术进行股市预测有一个最根本的困难,那就是待处理的数据量非常巨大。
由于股市的行情受到政治、经济等多方面因素的影响,其内部规律非常复杂,某些变化规律的周期可能是一年甚至是几年,因此需要通过对大量数据的分析才能得到,而传统的预测技术预测效果并不理想。
近十年间,数据挖掘技术的研究工作取得了很大的进展,各种数据挖掘技术的应用极大地推动了人们分析、处理大量数据信息的能力,并为人们带来了很好的经济效益,因此可以预见数据挖掘技术在股市预测中将会有很大的潜力。
二、研究内容本实验以数据挖掘技术为基础,对股票的走势进行分析预测。
目标为使用数据挖掘中的几种常用方法建立预测模型,通过对预测过程及预测结果的分析,来寻求数据挖掘算法与股票预测的结合点。
通过对近四年的股票全景与个股的分析,经过预处理后用weka对数据进行分类与关联的进一步挖掘,实地体验数据挖掘在股票预测领域起的作用。
三、数据挖掘过程数据挖掘是一个反复的过程,包含多个相互联系的步骤,如定义和分析主题、数据预处理、选取算法、提取规则、评价和解释结果、将模式构成知识,最后是应用。
1.问题定义进行数据挖掘前,首先要分析股票领域,了解股票领域的有关情况,熟悉背景知识。
在确定需求后,对现有资源如已有的历史数据进行评估,确定是否能够通过数据挖掘技术来满足需求,然后将进一步确定数据挖掘的目标和制定数据挖掘计划。
2.数据准备数据挖掘所处理的数据集通常不仅具有海量数据,而且可能存在大量的噪声数据、冗余数据、稀疏数据或不完全数据等。
数据准备包括数据抽取、清洗、转换、和加载,具体包括数据的清洗、集成、选择、变换、规约,以及数据的质量分析等步骤。
3.建立模型数据挖掘中的建模实际上就是利用己知的数据和知识建立一种模型,这种模型可以有效地描述已知的数据和知识,希望该模型能有效地应用到未知的数据或相似情况中。
在数据挖掘中,可以使用许多不同的模型:关联规则模型、决策树模型、神经网络模型、粗糙集模型、数理统计模型、时间序列分析模型。
4.评价模型数据挖掘得到的模式有可能是没有实际意义或没有实用价值的,也有可能不能准确反映数据真实意义,甚至在某些情况下是与事实相反的,因此对于数据挖掘的结果需要进行评估。
确定数据挖掘是否存在偏差,挖掘结果是否正确,确定哪些是有效的、有用的模式,是否能满足需求。
5.评估评估的方法一种是直接使用原先建立的挖掘数据库中的数据来进行检验,也可以另找新的测试数据并对其进行检验,另一种办法是使用实际运行环境中的当前数据进行检验。
四、挖掘成果1.用分类C4.5算法挖掘股票全景数据集(2010.12.28-2011.01.04)(1)原始数据集日期代码名称涨幅%% 现价日涨跌买入价卖出价……20101227 000001 深发展A-2.25 16.07 -0.37 16.07 16.08 20101227 000002 万科A-2.89 8.75 -0.26 8.74 8.75 20101227 000004 ST国农 -2.99 11.7 -0.36 11.7 11.7220101227 000005 世纪星源-3.58 3.77 -0.14 3.77 3.78 20101227 000006 深振业A-4.71 7.28 -0.36 7.27 7.28 20101227 000007 ST零七 -1.83 8.58 -0.16 8.58 8.5920101227 000008 ST宝利来-2 11.78 -0.24 11.77 11.7920101227 000009 中国宝安-4.44 16.15 -0.75 16.14 16.15……共12047条记录,20维属性。
经过多次数据预处理,得到数据集如下:日期换手%% 今开/昨收最高价比收盘最低价比收盘市盈(动)振幅%% 涨跌20101231 85.68 1.2270 higher lower 166.84 20.7 1 20110104 2.55 0.9954 same lower 54.56 12.79 1 20101229 6.92 0.9928 higher lower 235.83 12.86 1 20110104 5.91 1.0061 same lower 33.41 12.44 1 20101229 6.89 0.9963 same lower 71.31 12.2 1 20101230 17.79 0.9859 higher lower 48.09 12.48 1 20101227 55.62 1.0322 higher lower 65.01 13.34 1 20101230 2.47 0.9977 higher lower 892.36 12.15 1 ……共11632条记录,8维属性。
挖掘结果如下:置信因数取0.1Number of Leaves : 26Size of the tree : 47准确率85%取置信因数1.0E-4Number of Leaves : 13Size of the tree : 21准确率约85%,并且当置信因数继续往小取时,分支数不再改变。
2.用聚类Apriori算法挖掘个股000005世纪星源(2006.01.12-2010.12.24)(1)原始数据集日期开盘最高最低收盘成交量成交额2006-1-11 1.03 1.04 1.02 1.03 3372554 5725193.5 2006-1-12 1.02 1.04 1.01 1.04 4091492 6919504 2006-1-13 1.04 1.05 1.02 1.03 3262149 5545958.5 2006-1-16 1.04 1.04 1.01 1.02 3196712 5400217 2006-1-17 1.01 1.05 1 1.04 4720177 80446882006-1-18 1.04 1.05 1.03 1.04 5126617 8774786 ……共1106条记录,7维属性。
经过多次数据预处理,得到数据集如下:年份是否高开昨最高=昨收盘昨最低=昨收盘成交量增长成交额增长开盘比前五天均价收盘比前五天均价涨跌2006 -1 0 0 1 1 -1 1 1 2006 0 1 0 0 0 1 -1 -1 2006 1 0 0 0 0 1 -1 -1 2006 -1 0 0 1 1 -1 1 1 2006 0 0 0 1 1 1 1 0 2006 0 0 0 0 0 1 1 0 2006 0 0 0 1 1 1 -1 -1 ……共1105条记录,9维属性。
挖掘结果如下:最小支持度取0.48,最小置信度取0.8。
.五、结论用分类C4.5算法挖掘股票全景数据集,经过多次数据预处理后,20维属性缩小到8维,但是对于一万多条数据的庞大且混乱的数据集来说,依然没什么特别的结果。
这与我们的知识相吻合,股票的涨跌并不能用简单的规律挖掘就能得出结果。
用聚类Apriori算法挖掘个股000005世纪星源,个股对全领域的代表性有限,但是我们依然有一些小小的发现。
成交额与成交量基本上是共同升降(98%、98%)的;大部分股票的收盘价都不是当天的最高价或最低价(92%、87%);成交量下降的股票,前一天不会在最低价收盘(92%),对成交额亦然(91%);开盘价创近五天均价新高,则前一天不会在最低价收盘(96%),对收盘价亦然(95%)。
这些数据对股票预测也许没有决定性的影响,但也算是我们实验的一个小发现。
六、课程体会数据挖掘是一门很有前景的学科,其预测、分类等功能广泛应用在各个领域。
通过这一学期的学习,我们基本掌握了数据挖掘的基础技术,了解了数据挖掘的基本原理,并学会用weka进行简单的数据挖掘实验。
但是实际操作并不如想象中那么简单,一个原始数据集,要从数据预处理开始一点一点地添加删减,拼造出可供挖掘的数据集,需要比较漫长的过程以及细心地调试。
有时候一个很混乱或者高维的数据集不见得会挖出可观的结论。
对于数据挖掘领域,我们需要学习的东西还有很多。
感谢李霞老师一个学期以来的指导。
七、分工及自评实验基本上合作完成,分工略有侧重。
:主要负责数据处理与实验,评分:95。
:主要负责前期资料收集整理,评分:95。
:主要负责后期文档编纂,评分:95。