当前位置：文档之家› 我国生姜价格波动特征及短期预测研究_基于生姜价格时间序列数据的分析

我国生姜价格波动特征及短期预测研究_基于生姜价格时间序列数据的分析

近年来，我国生姜价格波动频率较大，引起了业界的广泛关注。生姜价格的大幅波动加剧了生姜种植户和经销商的经营风险。因此，研究生姜价格波动的特征和规律具有重要的现实意义。鉴于此，本文尝试对生姜价格时间序列数据进行分析，根据其价格波动的内在联系，从中找出其波动规律和周期，并以此为基础，对价格波动作出短期预测。文中所用数据来源于商务部市场监测的农副产品价格，样本区间范围是２００４年１月到２０１２年１０月。

一、当前我国生姜价格波动的周期性特征

据商务部市场监测数据显示：生姜批发价格在２０１０年１１月份达到１０．７元／公斤历史高位之后，价格就一路下跌。到２０１１年１１月份，价格暴跌至３．９３元／公斤，同比下降５８．６％，价格下降幅度之大、下降速度之快超过预期。进入２０１２年后，尽管生姜价格波动并不剧烈，但是价格依然持续下跌，跌破了２０１１年的均价。２０１２年１２月份达到最低的３．５９元／公斤的价位。

与此同时，生姜产地价格也是持续低迷，由２０１０年最高价位的９．６元／公斤，暴跌至２０１１年的０．７元／公斤；２０１２年一些地区生姜收购价格低至０．６元／公斤的价位，甚至有些生姜主产区价格更低。而生姜的生产成本至少要达到０．８元／斤，此价格尚不包括人工费用在内。持续低迷的价格导致平均每亩生姜损失１５００元以上，农民陷入了“越卖越赔”、“不卖更赔”的困境。

为了从总体上更为详细地分析生姜价格波动特征，按照波谷——

—波峰——

—波谷的方法来划分一个完整的周期，具体观察生姜价格在不同周期的规律波动情况。从２００４年开始，将生姜价格波动划分为四个周期：第一个周期为２００４年１月

到２００５年６月；第二个周期为２００５年７月到２００７

年６月；第三个周期为２００７年７月到２００９年３月；

第四个周期为２００９年４月到２０１２年１０月，具体划

分结果如表１所示。

由表１所知，生姜价格波动周期跨度长短不一、波动幅度各异、波形的对称性较差。生姜价格波动在

四个周期的分布均是偏度Ｓ＞０，呈右偏态分布。生姜价格波动在第一个周期的时间跨度最短，达到１８个月，第四个周期的时间跨度最长，为４３个月，其他两个周期为２４个月和２１个月。第一个和第四个周期波动的走势均是陡升陡降，均价都在５．６元／公斤以上。但是，第四个周期价格波动剧烈程度远远超过第一个周期，最高与最低价差达到最大的６．６６元／公斤，标准差也达到最大的２．０２元／公斤。这表明相对于其他几个价格波动周期，市场投机炒作因素在第四个价格波动周期中所起作用更为明显。价格波动最为平稳的是第三个周期，价格走势是缓升缓降，同时波动幅度也最弱。

第四轮生姜价格暴跌持续时间较长，下降幅度较大，对于生姜产业的发展和农民收入的提高产生较为不利的影响。总体来说，这一轮价格暴跌虽受多方面因素影响，但是背后的主要原因还是市场供给：其中，产量暴增是影响生姜价格下跌的首要因素，而产量上升的原因主要是种植面积盲目扩大。２０１２年主产区农民种植生姜的积极性不减反增，全国生姜种植面积比２０１１年增加了１０％以上；其次，产地库存较大，流通环节出现问题是导致生姜价格暴跌的重要因素。生姜产大于销，导致各地库存居高不下，短期难以消化。此外，由于农民组织化能力不强、信息滞后、决策分散、种植结构单一，导致出现小农户大市场的局面。同时，生姜产业发展滞后，加工能力不强，龙头企业带动能力不足，不能有效缓解市场价格下跌，也是生姜价格暴跌的原因。

二、生姜价格波动的短期预测

ＡＲＩＭＡ模型是时间序列预测方法中一种常用且有效的方法，是用变量自身的滞后项作为解释变量。这一方法得到广泛的应用，是因为其预测的成功，尤其是在短期预测方面的成功。本文接下来对经过季节弱化和取对数之后的生姜价格ＤＬＮＪＩＡＮＧ时间序列建立基于ＡＲＩＭＡ模型的价格波动模型，并

邱书钦

我国生姜价格波动特征及短期预测研究

——

—基于生姜价格时间序列数据的分析

内容提要：生姜既是是传统大宗药材，也是蔬菜和调味品，其价格

波动直接关系民生。本文通过生姜价格数据序列的走势和周期进行划

分，可以发现生姜价格波动具有一定的周期性，但是周期长短不一，波

动幅度大小不一，价格涨跌特征不同。同时，本文利用A R(1)模型，对其

价格的短期走势做出预测分析，并提出相应的政策建议。

关键词：生姜价格波动A R模型

表１生姜价格波动周期划分

表２生姜价格平稳性检验

注：检验形式（ｃ，ｔ，ｐ）表示单位根检验方程里面包含常数项、趋势项和滞后阶数。

分析篇

2013年第2期·总第344期

对价格走势进行短期预测。首先对生姜价格数据进行平稳性

检验，检验结果如表２所示。

从检验结果可以看出，ＤＬＮＪＩＡＮＧ是平稳的，接下来对ＤＬ－ＮＪＩＡＮＧ分析其自相关和偏自相关系数，由图１可以看出，自相关系数和偏自相关系数都是滞后一阶截尾。

分别按照ＡＲ（１）模型和ＭＡ（１）模型估计，通过比较两个模

型ｔ检验和Ｑ检验的结果，ＡＲ（１）模型估计结果较为合理，最终对ＤＬＮＪＩＡＮ建立ＡＲ（１）模型，模型估计结果如表３：

建立的ＡＲ（１）方程为：

为了检验模型的有效性，首先对２０１２年５月到２０１２年

１０月生姜价格进行检验。

通过ＡＲ（１）模型可以直接计算２０１２年５月到１０月ＤＬＮＪＩＡＮＧ的数值，然后将差分数据加上上一期的数据得到预测数据。接下来对预测数据进行对数和季节性弱化整理的逆向计算，得到生姜预测结果如表４。

从以上对于生姜价格的检验可以看出，模型预测最大误差均不超过３％，说明预测效果良好，可以用该模型对生姜价格进行短期预测。

接下来对于生姜价格近期变动趋势进行预测，通过ＡＲ（１）模型预测２０１２年１１月到２０１３年２月ＤＬＮＪＩＡＮＧ的数值，然后将差分数据加上上一期的的价格数据，最后对预测数据进行取对数和季节性弱化的逆向计算，得到生姜价格最终预测数据，结果如表５所示。

通过２００４年１月至２０１２年１０月生姜价格月度数据的分析可以看出，生姜价格的波动呈现出明显的周期性，尤其是２００９年４月之后，价格呈现出陡升陡降的剧烈波动，显示出明

显的投机与炒作迹象。同时，生姜价格波动在短期具有一定的

趋势性，前一期价格对当期价格的影响较为显著。

三、结论及建议

从上述生姜价格波动的轨迹和走势可以看出，生姜价格的波动始终没有走出暴涨暴跌的怪圈。这给农民、消费者和中间商带来巨大的损失。如何尽可能防止生姜价格暴涨暴跌，减缓其价格波动幅度，需要政府标本兼治，从多个方面入手进行治理，为此本文提出稳定生姜价格的几点建议：

1.稳定生姜种植面积和产量。政府部门要加强对生姜发展的合理产业规划引导。同时，对面向生姜主产区农民开发的生姜保险品种给予财政资金扶持，从而减少价格波动风险、尤其是价格下跌给农民带来的利益损失。由于生姜的生长过程受到多种自然因素的影响，为了稳定产量，需要政府加大财政资金投入，改善基础设施，提高生姜抵抗自然灾害的能力。同时，政府部门应在生姜主产区开展生姜的

储备工作。

2.发布权威信息、建立价格预警机制。由于政府在信息采集、发布方面具有优势，建立全国统一的生姜信息平台就显得尤为重要，这样政府就能采集较为准确、权威、及时的生姜信息，借助于现代的通信网络优势，及时地多渠道发布权威统一信息。

统一权威的信息从根源上杜绝了中间商散布虚假信息，从而解决需求和供求过度脱节这一棘手问题。

3.提高农民的组织化程度。目前我国生姜的种植是一家一户的分散种植模式。在议价和谈判方面，小农户个体面对信息充分、资金充裕的经纪人和中间商，总处于被动和弱势地位。结果本来属于农民的利益通过流通领域被中间商拿走。通过农民合作组织的参与，就可以发挥其规模优势，让农民更多保留生姜种植环节利益，增加农民收入。

4.延长生姜产业链，发展深加工。在生姜市场价格较低的时候，加大生姜加工的力度和规模，开发新的品种，提高生姜衍生品的附加值，提升整个产业的竞争力和水平，减缓价格的下跌，从而起到价格波动的“蓄水池”作用。同时，通过扶持生姜产业龙头企业的发展，保证中小企业实现农业产业化经营，形成农户与企业更加紧密的连接机制，从而降低农民的经营风险。

5.严格监管市场投机炒作行为。生姜市场上存在投机商恶

意囤积、相互串通、操纵价格、垄断货源的行为，直接导致了近年来生姜价格剧烈波动。因此，建议政府制定相应的市场交易法律法规，加大对恶意炒作行为的惩罚力度。

参考文献：

[1]张利庠，张喜才.游资对农产品价格波动有影响吗—基于大蒜价格波动案例研究[J].农业技术经济，2010（12）

[2]陈灿煌.我国小宗农产品价格大幅波动的原因、影响及对策[J].价格理论与实践,2010（9）

[3]付俊文.小农产品价格非常规上涨与构建我国农产品价格稳定长效机制研究[J].中央财经大学学报，2011（2）

[4]陈明均.我国大蒜市场形式及稳定大蒜价格的建议[J].中国蔬菜,2012（13）

（作者单位：中南财经政法大学工商管理学院）

图１ＤＪＩＡＮＧ相关图和偏自相关图

表３ＡＲ（１）估计结果

表５生姜价格趋势预测值（单位：元／公斤）

表４２０１２年５－１０月生姜价格预测值与实际值比较结果（单位：元／公斤）

·分析预测·

时间序列分析——最经典的

【时间简“识”】说明：本文摘自于经管之家(原人大经济论坛) 作者：胖胖小龟宝。原版请到经管之家(原人大经济论坛) 查看。 1.带你看看时间序列的简史现在前面的话—— 时间序列作为一门统计学，经济学相结合的学科，在我们论坛，特别是五区计量经济学中是热门讨论话题。本月楼主推出新的系列专题——时间简“识”，旨在对时间序列方面进行知识扫盲（扫盲，仅仅扫盲而已……），同时也想借此吸引一些专业人士能够协助讨论和帮助大家解疑答惑。在统计学的必修课里，时间序列估计是遭吐槽的重点科目了，其理论性强，虽然应用领域十分广泛，但往往在实际操作中会遇到很多“令人发指”的问题。所以本帖就从基础开始，为大家絮叨絮叨那些关于“时间”的故事！ Long long ago，有多long估计大概7000年前吧，古埃及人把尼罗河涨落的情况逐天记录下来，这一记录也就被我们称作所谓的时间序列。记录这个河流涨落有什么意义当时的人们并不是随手一记，而是对这个时间序列进行了长期的观察。结果，他们发现尼罗河的涨落非常有规律。掌握了尼罗河泛滥的规律，这帮助了古埃及对农耕和居所有了规划，使农业迅速发展，从而创建了埃及灿烂的史前文明。

好~~从上面那个故事我们看到了 1、时间序列的定义——按照时间的顺序把随机事件变化发展的过程记录下来就构成了一个时间序列。 2、时间序列分析的定义——对时间序列进行观察、研究，找寻它变化发展的规律，预测它将来的走势就是时间序列分析。既然有了序列，那怎么拿来分析呢时间序列分析方法分为描述性时序分析和统计时序分析。 1、描述性时序分析——通过直观的数据比较或绘图观测，寻找序列中蕴含的发展规律，这种分析方法就称为描述性时序分析描述性时序分析方法具有操作简单、直观有效的特点，它通常是人们进行统计时序分析的第一步。 2、统计时序分析（1）频域分析方法原理：假设任何一种无趋势的时间序列都可以分解成若干不同频率的周期波动发展过程： 1）早期的频域分析方法借助富里埃分析从频率的角度揭示时间序列的规律 2）后来借助了傅里叶变换，用正弦、余弦项之和来逼近某个函数 3）20世纪60年代，引入最大熵谱估计理论，进入现代谱分析阶段特点：非常有用的动态数据分析方法，但是由于分析方法复杂，结果抽象，有一定的使用局限性（2）时域分析方法

股票价格波动的研究

股票价格波动的研究 I、问题重述股票市场已经成为中国市场经济体系重要组成部分，股票市场能否健康发展是中国经济稳定发展的重要基础。股票市场在资源配置、信息传导等方面一直发挥着其独特的作用，具有重要的研究意义。人们对股票市场进行了深入的研究，认为，股票的价格是随机波动的，这种随机波动是有规律的，而规律是变化的。纵观股票市场的走势，价格总是呈现剧烈的波动，交替出现波峰波谷、往来反复的特性。比如上海证券交易所的上证指数从2005年6月6日的998点一直上升到2007年10月16日的6124点形成波峰，之后一路下跌到2008年10月28日的1664点之后才转入上升，形成波谷。股票价格呈现上升-下跌-上升-下跌的周期循环走势。一、试建立数学模型讨论股票价格的涨跌的周期性问题，可以选择中国证券市场任何一种股票价格指数（如上证指数、深证成指、创业板指，中证50等）进行讨论。二、研究表明，股票价格的涨跌受到许多因素的影响，比如国家的政策（经济、财经等）、国家宏观经济状况、上市公司经营情况、交易者的交易行为、心理等。试建立数学模型分析上述因素对股票价格波动的影响。三、传统经济学认为：商品的价格围绕价值波动。试抽取5只上海证券交易所或深圳证券交易所的股票，结合一、二两问，建立数学模型讨论这种波动，比如价值、波幅、周期、影响波动的因素等。四、根据上述研究，写一篇短文，给新入市交易的交易者提供建议。 II、问题分析 2.1 股票市场价格及其波动性研究意义作为反映市场所有信息的股票价格是研究的核心，尤其是对股票波动特征的研究，对于衍生工具定价、市场监管、价格预测及风险控制等一系列金融市场中的重要课题都占据了举足轻重的地位。由于我国股票市场的发展历史较短，且一直表现出极大的不稳定性。管理层、投资者等各方均对我国股票市场价格波动程度及其变化规律的研究越来越感兴趣。目前我国股票市场价格波动的研究成果数量较少且多停留在定性的层面。即使有部分研究者采用数量模型，也局限于单一方面，未形成系统性。因此，选取具有代表性的股票市场作为研究对象，并从理论到实证，单个模型至多个模型的对比分析，进行深入全面地系统研究，为更好地均衡股票市场格局、引导投资者理性入市、股票市场促进国家宏观经济健康发展、扶正政府在股票市场管理的功能定位以进行有效管理，具有现实的应用价值。 2.2 问题分析问题一：股票的价格受到经济环境、国家政策等多方面因素的影响，具有很大的波动性，通过对过去20年的股价进行汇总，可以发现股价呈现峰谷交替的周期性变动。拟选定一种股票价格指数（如上证指数），建立适当模型研究股票价格涨跌的周期性问题；初步判断由于股价的相对不确定性，股价指数具有一定程度上的马氏性，可以选择建立马氏链模型，来对周期有一个判断，之后通过小

时间序列分析与建模简介

第五章时间序列分析与建模简介时间序列建模（ Modelling via time series ）。时间序列分析与建模是数理统计的重要分支，其主要学术贡献人是Box 和 Jenkins。本章扼要介绍吴宪民和 Pandit的工作，仅要求一般了解当前时间序列分析与建模的一些主要结果。参考书：“时间序列及系统分析与应用（美）吴宪民，机械工业出版社（1988）TP13/66。引言根据对系统观测得出的按照时间顺序排列的数据，通过曲线拟合和参数估计或者谱分析，建立数学模型的理论与方法，理论基础是数理统计。有时域和频域两类建模方法，这里概括介绍时域方法，即基于曲线拟合与参数估计（如最小二乘法）的方法。常用于经济系统建模（如市场预测、经济规划）、气象与水文预报、环境与地震信号处理和天文等学科的信号处理等等。 §5—1 ARMA模型分析一、模型类把具有相关性的观测数据组成的时间序列{ x k }视为以正态同分布白噪声序列{ a k }为输入的动态系统的输出。用差分模型ARMA (n,m) 为(z-1) x k = (z-1) a k 式（5-1-1）其中： (z-1) = 1- 1 z-1-…- n z-n (z-1) = 1- 1 z-1-…- m z-m

离散传函式（5-1-2）为与参考书符号一致，以下用B表示时间后移算子即： B x k = x k-1 B即z-1，B2即z-2… (B)=0的根为系统的极点，若全部落在单位园内则系统稳定；(B)=0的根为系统的零点，若全部在单位园内则系统逆稳定。二、关于格林函数和时间序列的稳定性 1．格林函数G i 格林函数G i 用以把x t 表示成a t 及a t 既往值的线性组合。式（5-1-3） G I 可以由下式用长除法求得：例1．AR(1): x t - 1 x t-1 = a t 即： G j = 1 j（显示）例2．ARMA (1,1): x t - 1 x t-1 = a t - 1 a t G 0= 1 ; G j =( 1 - 1 ) 1 j-1 ,j 1 （显示） ∑∞=- = j j t j t a G x

股价波动模型的研究

股价波动模型的研究 2015年4月14日

1.基础背景 1.1.我国股市的诞生 1984年，当时中国人民银行研究生部20多名研究生发表了轰动一时的《中国金融改革战略探讨》，其中第一次谈到了在中国建立证券市场的构想。 1984年11月18日，中国第一个公开发行的股票——飞乐音响向社会发行1万股，在海外引起比国内更大的反响，被誉为中国改革开放的一个信号。 1986年9月26日清晨，南京西路1806号门口被围得水泄不通，投资者蜂拥而至。当时在柜台交易的股票只有2家，飞乐音响公司总股本50万元，延中实业公司总股本500万元，总共只有550万元。开市第一天交易到16时30分收盘，共成交股票1540股，成交金额85280元。这一天对于中国资本市场来说是一个重要的日子，中国第一个证券交易柜台——静安证券业务部开张，标志着新中国从此有了股票交易。从静安证券交易柜台到上海证券交易所，中国的股市就此已经走了20年。 1990年11月20日，上海证券交易所成立，同年12月19日正式营业。 1990年12月1日，深圳证券交易所成立，且当日开业，为保险起见，前面加一“试”，又叫试营业。1991年7月3日，举行正式开业典礼。当时的一位设计者的评论说道：“历史在为未来奋斗的时候总是高尚和纯洁的，当年设计者所构想的证券市场只有一个榜样——欧美，欧美股市是完全市场化的结果，是最精明的商人之间的活动，而中国的历史现实却决定了中国的股市一开始就带着太多的政府色彩。”这为后来的政策市以及国企圈钱埋下了伏笔。 1991年8月，中国证券业协会在北京成立。 1992年5月21日，上海股市交易价格限制全部取消，股市交易价格开始尝试由市场引导。仅仅3天，股票价格就一飞冲天，暴涨570%！其中，5只新股市价面值竟狂升2500%至3000%！ 1992年10月12日，国务院证券委员会及其执行机构中国证券监督管理委员会成立。全国人大也开始讨论要不要制定《证券法》。管理层开始实施以“打压”为主的监管。

从大数据到大分析

从大数据到大分析 From Big Data to HPA
Dr. Sunstone Zhang (张磊博士) Principal Consultant, SAS China Sunstone.Zhang@https://www.doczj.com/doc/4f15464804.html,
Copyright ? 2012, SAS Institute Inc. All rights reserved.

?
大数据与高性能分析电信网络分析与优化成功案例
议程
? ?
Copyright ? 2012, SAS Institute Inc. All rights reserved.

多变量时间序列最大李雅普诺夫指数的计算

多变量时间序列最大李雅普诺夫指数的计算作者：卢山，王海燕， Lu Shan， Wang Hai-Yan 作者单位：东南大学经济管理学院,南京,210096 刊名：物理学报英文刊名：ACTA PHYSICA SINICA 年，卷(期)：2006,55(2) 被引用次数：5次参考文献(14条) 1.Liu W D;Ren K F;Meunier S查看详情 2003 2.徐莉梅;胡岗;史朋亮查看详情 2000 3.游荣义;陈忠;徐慎初基于小波变换的混沌信号相空间重构研究[期刊论文]-物理学报 2004(9) 4.肖方红;阎桂荣;韩宇航混沌时序相空间重构参数确定的信息论方法[期刊论文]-物理学报 2005(2) 5.Cao L Y;Mees A;Judd K查看详情 1998 6.Boccaletti S;Valladares D L;Louis M查看详情 2002 7.Zhang H;Ma X K;Yang Y查看详情[期刊论文]-Chin Phys 2005 8.Rosenblum M G;Pikovsky A S;Kurths J查看详情 1996 9.王海燕;盛昭瀚;张进多变量时间序列复杂系统的相空间重构[期刊论文]-东南大学学报(自然科学版) 2003(1) 10.杨绍清;贾传荧两种实用的相空间重构方法[期刊论文]-物理学报 2002(11) 11.Rosenstei MT;Collins J J;De L C J查看详情 1993 12.Zou Y L;ZhuJ;Chen G R查看详情[期刊论文]-Chin Phys 2005 13.谢勇;徐健学;杨红军皮层脑电时间序列的相空间重构及非线性特征量的提取[期刊论文]-物理学报 2002(2) 14.Abarbanel H Analysis of Observed Chaotic Data 1996 引证文献(5条) 1.聂春燕.王祝文.李泽.崔炳民储集层测井信号的非线性混沌特性[期刊论文]-吉林大学学报（地球科学版）2011(1) 2.刘立霞.苗海峰多变量时间序列最大Lyapunov指数的噪声估计[期刊论文]-计算机工程与应用 2010(22) 3.徐威.郭静波混沌直扩信号检测的最大Lyapunov指数方法[期刊论文]-应用科学学报 2009(2) 4.刘志平.何秀凤.何习平基于多变量最大Lyapunov指数高边坡稳定分区研究[期刊论文]-岩石力学与工程学报2008(z2) 5.赵敏.FAN Yin-hai.孙辉电力推进船舶电力负荷的多变量混沌局部预测[期刊论文]-系统仿真学报 2008(11)本文链接：https://www.doczj.com/doc/4f15464804.html,/Periodical_wlxb200602018.aspx

R语言时间序列函数整理_光环大数据培训

https://www.doczj.com/doc/4f15464804.html, R语言时间序列函数整理_光环大数据培训【包】 library(zoo) #时间格式预处理 library(xts) #同上 library(timeSeires) #同上 library(urca) #进行单位根检验 library(tseries) #arma模型 library(fUnitRoots) #进行单位根检验 library(FinTS) #调用其中的自回归检验函数 library(fGarch) #GARCH模型 library(nlme) #调用其中的gls函数 library(fArma) #进行拟合和检验【基本函数】数学函数 abs，sqrt：绝对值，平方根 log, log10, log2 , exp：对数与指数函数 sin，cos，tan，asin，acos，atan，atan2：三角函数 sinh，cosh，tanh，asinh，acosh，atanh：双曲函数简单统计量 sum, mean, var, sd, min, max, range, median, IQR（四分位间距）等为统计量，sort，order，rank与排序有关，其它还有ave，fivenum，mad，quantile，stem等。

https://www.doczj.com/doc/4f15464804.html, #具体说明见文档1 #转成时间序列类型 x = rnorm(2) charvec = c(“2010-01-01”,”2010-02-01”) zoo(x,as.Date(charvec)) #包zoo xts(x, as.Date(charvec)) #包xts timeSeries(x,as.Date(charvec)) #包timeSeries #规则的时间序列，数据在规定的时间间隔内出现 tm = ts(x,start = c(2010,1), frequency=12 ) #12为按月份，4为按季度，1为按年度 zm = zooreg(x,start = c(2010,1), frequency=12 ) #包zoo xm = as.xts(tm) #包xts sm = as.timeSeries(tm) #包timeSeries #判断是否为规则时间序列 is.regular(x) #排序 zoo()和xts()会强制变换为正序（按照时间名称） timeSeries不会强制排序；其结果可以根据sort函数排序，也可以采用rev()函数进行逆序；参数recordIDs，可以给每个元素（行）标记一个ID，从而可以找回原来的顺序 #预设的时间有重复的时间点时

改建模培训-对股票价格波动的研究

对股票价格波动的研究摘要本文研究了股票价格波动的问题，根据查阅的资料，运用MATLAB 拟合并构建艾略特波浪模型研究了股票价格的涨跌的周期性问题，运用层次分析法分析了题目所给因素对股票价格波动的影响，而后选取了几支股票并分析其各种特征，最后根据前文给出入股市者提出了建议。针对问题一，选取上证指数作为分析对象，在网上查阅并统计了上证指数的历史数据，分析其各种指数，用MATLAB 对开收盘价进行拟合，根据其大致趋势，查阅资料后，构建了艾略特波浪模型，并根据模型分析了股票价格涨跌的周期性问题。经检验，该模型是合理的。针对问题二，经过分析，我们了解到股票价格的涨跌受到许多因素的影响，如国家的政策（经济、财经等）、国家宏观经济状况、上市公司经营情况、交易者的交易行为、心理等。采用线性回归模型，通过SPSS 分别判断股票价格与国家的政策（经济、财经等）、国家宏观经济状况、上市公司经营情况、交易者的交易行为、心理关系。因此我们得到线性函数关系式： 4321852x 00.2210.845-1.033 ++=x x x y ，即股票价格与上述因素均成线性关系。针对问题三，在上海证券交易所各种股票中选取了5支股票，并查阅了其历史数据，通过Excel 绘制成折线图，用MATLAB 进行拟合，通过拟合结果计算其周期，波幅，并运用问题二的结果对影响这5支股票价格的因素进行了分析。针对问题四，我们根据以上三个问题的结果，以及我们对股市的了解，给新入市交易的交易者提供了一些建议。最后，我们总结了模型的优缺点，并提出了改进方法并对这些模型进行了推广和应用。关键词：上证指数 MATLAB 拟合艾略特波浪 SPSS

影响我国股票市场价格波动的因素分析.

毕业论文影响我国股票市场价格波动的因素分析学院：商学院专业：金融学班别: 金融1103 学生姓名: 侯永祥指导教师: 侯娜二〇一五年四月一日至二〇一五年六月三十日共十三周

摘要随着改革开放进程的加快和加深，我国的资本市场开始发生深刻的变革，个票价格出现大幅度波动，这些波动不仅直接影响了经济的发展还直接关系到投资者的利益，影响人们的生产生活，所以说，探究影响我国股票市场价格变动的因素，并针对这些因素提出防范措施就显得尤为重要。本文研究的是影响我国股票市场价格波动的因素分析，全文共分五章，主要研究内容如下：第一章，绪论。交代了研究的背景、目的、意义、方法和主要研究内容。第二章，相关理论概述。介绍了股票价格和股票市场理论，并探究了我国股票市场的发展沿革和股票市场价格波动的特征分析。第三章，股票市场价格波动影响因素分析。从经济和非经济的角度看，介绍了微观经济、宏观经济和股票市场三个方面的因素；从市场参与主体角度介绍了上市公司行为活动、投资者行为活动和政府行为活动对股市价格的影响。第四章，对策与建议。针对上一章中影响股市价格变动的因素，提出了稳定股市价格的对策和建议。第五章，结论与展望。总结了文章研究的结论，并对未来的研究方向进行了展望。关键词：股票市场；价格波动；影响因素 Abstract With the process of reform and opening up, with the rapid development of China's capital market volatility represented by stock asset price fluctuations, not only affects the smooth running of the economy, but also directly related to the interests of investors, affect people's production and life, therefore, study on the influence factors of China's stock market price change, in view of these factors and put forward preventive measures is particularly important. This paper is to analyze the impact factors of price volatility in the stock market of our country, the thesis consists of five chapters, the main contents are as follows: Chapter one, introduction. Introduces the research background, purpose, significance, methods and main contents. I

横截面大数据、时间序列大数据、面板大数据

横截面数据、时间序列数据、面板数据横截面数据：（时间固定）横截面数据是在同一时间，不同统计单位相同统计指标组成的数据列。横截面数据是按照统计单位排列的。因此，横截面数据不要求统计对象及其范围相同，但要求统计的时间相同。也就是说必须是同一时间截面上的数据。如：时间序列数据：(横坐标为t,纵坐标为y) 在不同时间点上收集到的数据，这类数据反映某一事物、现象等随时间的变化状态或程度。如：面板数据：(横坐标为t,斜坐标为y,纵坐标为z) 是截面数据与时间序列数据综合起来的一种数据类型。其有时间序列和截面两个维度，当这类数据按两个维度排列时，是排在一个平面上，与只有一个维度的数据排

在一条线上有着明显的不同，整个表格像是一个面板,所以把panel data译作“面板数据”。举例：如：城市名：北京、上海、重庆、天津的GDP分别为10、11、9、8（单位亿元）。这就是截面数据，在一个时间点处切开，看各个城市的不同就是截面数据。如：2000、2001、2002、2003、2004各年的北京市GDP分别为8、9、10、11、12（单位亿元）。这就是时间序列，选一个城市，看各个样本时间点的不同就是时间序列。如：2000、2001、2002、2003、2004各年中国所有直辖市的GDP分别为：北京市分别为8、9、10、11、12；上海市分别为9、10、11、12、13；天津市分别为5、6、7、8、9；重庆市分别为7、8、9、10、11（单位亿元）。这就是面板数据。关于面板数据的统计分析

启动Stata11.0，Stata界面有4个组成部分，Review（在左上角）、Variables （左下角）、输出窗口（在右上角）、Command（右下角）。首先定义变量，可以输入命令，也可以通过点击Data----Create new Variable or change variable。特别注意，这里要定义的变量除了因素1、因素2、……因素6、盈余管理影响程度等，还要定义年份和公司名称两个变量，这两个变量的数据类型（Type）最好设置为int（整型），公司名称不要使用中文名称或者字母等，用数字代替。定义好变量之后可以输入数据了。数据可以直接导入（File-Import），也可以手工录入或者复制粘贴（Data-Data Edit(Browse)），手工录入数据和在excel中的操作一样。以上面说的为例，定义变量 year、 company、 factor1、 factor2、 factor3、factor4、 factor5、 factor6、 DA。

数据分析-时间序列的趋势分析

数据分析-时间序列的趋势分析无论是网站分析工具、BI报表或者数据的报告,我们很难看到数据以孤立的点单独地出现，通常数据是以序列、分组等形式存在,理由其实很简单,我们没法从单一的数据中发现什么，用于分析的数据必须包含上下文（Context)。数据的上下文就像为每个指标设定了一个或者一些参考系，通过这些参照和比较的过程来分析数据的优劣,就像中学物理上的例子，如果我们不以地面作为参照物,我们无法区分火车是静止的还是行进的，朝北开还是朝南开。在实际看数据中,我们可能已经在不经意间使用数据的上下文了,趋势分析、比例分析、细分与分布等都是我们在为数据设置合适的参照环境。所以这边通过一个专题——数据的上下文，来总结和整理我们在日常的数据分析中可以使用的数据参考系,前面几篇主要是基于内部基准线(Intｅrｎal Benｃhmark)的制定的，后面会涉及外部基准线(External Benchmaｒk）的制定。今天这篇是第一篇,主要介绍基于时间序列的趋势分析，重提下同比和环比，之前在网站新老用户分析这篇文章，已经使用同比和环比举过简单应用的例子。同比和环比的定义定义这个东西在这里还是再唠叨几句,因为不了解定义就无法应用，熟悉的朋友可以跳过。同比:为了消除数据周期性波动的影响,将本周期内的数据与之前周期中相同时间点的数据进行比较。早期的应用是销售业等受季节等影响较严重，为了消除趋势分析中季节性的影响,引入了同比的概念，所以较多地就是当年的季度数据或者月数据与上一年度同期的比较，计算同比增长率。环比：反应的是数据连续变化的趋势，将本期的数据与上一周期的数据进行对比。最常见的是这个月的数据与上个月数据的比较，计算环比增长率,因为数据都是与之前最近一个周期的数据比较，所以是用于观察数据持续变化的情况。买二送一,再赠送一个概念——定基比（其实是百度百科里附带的)：将所有的数据都与某个基准线的数据进行对比。通常这个基准线是公司或者产品发展的一个里程碑或者重要数据点,将之后的数据与这个基准线进行比较,从而反映公司在跨越这个重要的是基点后的发展状况。同比和环比的应用环境

时间序列分析

3.3时间序列分析 3.3.1时间序列概述 1.基本概念 (1)一般概念：系统中某一变量的观测值按时间顺序（时间间隔相同）排列成一个数值序列，展示研究对象在一定时期内的变动过程，从中寻找和分析事物的变化特征、发展趋势和规律。它是系统中某一变量受其它各种因素影响的总结果。 (2)研究实质：通过处理预测目标本身的时间序列数据，获得事物随时间过程的演变特性与规律，进而预测事物的未来发展。它不研究事物之间相互依存的因果关系。 (3)假设基础：惯性原则。即在一定条件下，被预测事物的过去变化趋势会延续到未来。暗示着历史数据存在着某些信息，利用它们可以解释与预测时间序列的现在和未来。近大远小原理（时间越近的数据影响力越大）和无季节性、无趋势性、线性、常数方差等。 (4)研究意义：许多经济、金融、商业等方面的数据都是时间序列数据。时间序列的预测和评估技术相对完善，其预测情景相对明确。尤其关注预测目标可用数据的数量和质量，即时间序列的长度和预测的频率。 2.变动特点 (1)趋势性：某个变量随着时间进展或自变量变化，呈现一种比较缓慢而长期的持续上升、下降、停留的同性质变动趋向，但变动幅度可能不等。

(2)周期性：某因素由于外部影响随着自然季节的交替出现高峰与低谷的规律。 (3)随机性：个别为随机变动，整体呈统计规律。 (4)综合性：实际变化情况一般是几种变动的叠加或组合。预测时一般设法过滤除去不规则变动，突出反映趋势性和周期性变动。 3.特征识别认识时间序列所具有的变动特征，以便在系统预测时选择采用不同的方法。(1)随机性：均匀分布、无规则分布，可能符合某统计分布。(用因变量的散点图和直方图及其包含的正态分布检验随机性，大多数服从正态分布。) (2)平稳性：样本序列的自相关函数在某一固定水平线附近摆动，即方差和数学期望稳定为常数。样本序列的自相关函数只是时间间隔的函数，与时间起点无关。其具有对称性，能反映平稳序列的周期性变化。特征识别利用自相关函数ACF：ρ k =γ k /γ 其中γk是y t 的k阶自协方差，且ρ0=1、-1<ρk<1。平稳过程的自相关系数和偏自相关系数都会以某种方式衰减趋近于0，前者测度当前序列与先前序列之间简单和常规的相关程度，后者是在控制其它先前序列的影响后，测度当前序列与某一先前序列之间的相关程度。实际上，预测模型大都难以满足这些条件，现实的经济、金融、商业等序列都是非稳定的，但通过数据处理可以变换为平稳的。 4.预测类型 (1)点预测：确定唯一的最好预测数值，其给出了时间序列未来发展趋势的一个

大数据分析的流程浅析

数据采集，就是使用某种技术或手段，将数据收集起来并存储在某种设备上，这种设备可以是磁盘或磁带。区别于普通的数据分析，大数据分析的数据采集在数据收集和存储技术上都是不同的。具体情况如下： 1.大数据收集过程在收集阶段，大数据分析在时空两个方面都有显著的不同。在时间维度上，为了获取更多的数据，大数据收集的时间频度大一些，有时也叫数据采集的深度。在空间维度上，为了获取更准确的数据，数据采集点设置得会更密一些。以收集一个面积为100平方米的葡萄园的平均温度为例。小数据时代，由于成本的原因，葡萄园主只能在葡萄园的中央设置一个温度计用来计算温度，而且每一小时观测一次，这样一天就只有24个数据。而在大数据时代，在空间维度上，可以设置100个温度计，即每个1平方米一个温度计；在时间维度上，每隔1分钟就观测一次，这样一天就有144000个数据，是原来的6000倍。有了大量的数据，我们就可以更准确地知道葡萄园的平均温度，如果加上时间刻度的话，还可以得出一个时间序列的曲线，结果看起来使人很神往。 2.大数据的存储技术通过增加数据采集的深度和广度，数据量越来越大，数据存储问题就凸现。原来1TB的数据，可以使用一块硬盘就可以实现数据的存储，而现在变成了6000TB，也就是需要6000块硬盘来存放数据，而且这个数据是每天都是增加的。这个时候计算机技术中的分布式计算开始发挥优势，它可以将6000台甚至更多的计算机组合在一起，让它们的硬盘组合成一块巨大的硬盘，这样人们就不用再害怕大数据了，大数据再大，增加计算机就可以了。实现分布式计算的软件有很多，名气最大的，目前市场上应用最广的，就是hadoop技术了，更精确地说应该是叫hadoop框架。 hadoop框架由多种功能性软件组成，其自身只是搭建一个和操作系统打交道的平台。其中最核心的软件有两个，一个是hdfs分布式文件系统,另一个是mapreduce分布式计算。hdfs分布式文件系统完成的功能就是将6000台计算机组合在一起，使它们的硬盘组合成一块巨大的硬盘，至于数据如何在硬盘上存放和读取，这件事由hadoop和hdfs共同完成，不用我们操心，这就如我们在使用一台计算机时只管往硬盘上存放数据，而数据存放在硬盘上的哪个磁道，我们是不用关心的。 mapredce分布式计算则就实现让6000台计算机一起协同工作起来，hadoop 在设计mapredce时，最基本的思想就是让分析师不用操心程序设计问题，这些问题需要和最底层的程序打交道的，且只有优秀的程序员才能解决的，而是让大数据分析师专注于业务流程进行简单的mapredce程序编写，也就是说大数据分

时间序列分析简介与模型

第二篇预测方法与模型预测是研究客观事物未来发展方向与趋势的一门科学。统计预测是以统计调查资料为依据，以经济、社会、科学技术理论为基础，以数学模型为主要手段，对客观事物未来发展所作的定量推断和估计。根据社会、经济、科技的预测结论，人们可以调整发展战略，制定管理措施，平衡市场供求，进行各种各样的决策。预测也是制定政策，编制规划、计划，具体组织生产经营活动的科学基础。20世纪三四十年代以来，随着人类社会生产力水平的不断提高和科学技术的迅猛发展，特别是近年来以计算机为主的信息技术的飞速发展，更进一步推动了预测技术在国民经济、社会发展和科学技术各个领域的应用。预测包含定性预测法、因果关系预测法和时间序列预测法三类。本篇对定性预测法不加以介绍，对后两类方法选择以下几种介绍方法的原理、模型的建立和实际应用，分别为：时间序列分析、微分方程模型、灰色预测模型、人工神经网络。第五章时间序列分析在预测实践中，预测者们发现和总结了许多行之有效的预测理论和方法，但以概率统计理论为基础的预测方法目前仍然是最基本和最常用的方法。本章介绍其中的时间序列分析预测法。此方法是根据预测对象过去的统计数据找到其随时间变化的规律，建立时间序列模型，以推断未来数值的预测方法。时间序列分析在微观经济计量模型、宏观经济计量模型以及经济控制论中有广泛的应用。第一节时间序列简介所谓时间序列是指将同一现象在不同时间的观测值，按时间先后顺序排列所形成的数列。时间序列一般用 ,,,,21n y y y 来表示，可以简记为}{t y 。它的时间单位可以是分钟、时、日、周、旬、月、季、年等。

一、时间序列预测法时间序列预测法就是通过编制和分析时间序列，根据时间序列所反应出来的发展过程、方向和趋势，进行类推或延伸，借以预测下一段时间或以后若干年可能达到的水平。其容包括:收集与整理某种社会现象的历史资料；将这些资料进行检查鉴别，排成数列；分析时间序列，从中寻找该社会现象随时间变化而变化的规律，得出一定的模型，以此模型去预测该社会现象将来的情况。二、时间序列数据的特点通常，时间序列经过合理的函数变换后都可以看作是由三个部分叠加而成，这三个部分是趋势项部分、周期项部分和随机项部分。 1. 趋势性许多序列的一个最主要的特征就是存在趋势。这种趋势可能是向下的也可能是向上的，也许比较陡，也许比较平缓，或者是指数增长，或者近似线性。总之，时间序列的趋势性是依据时间序列进行预测的本质所在。 2. 季节性/周期性当数据按照月或季观测时，通常的情况是这样的:时间序列会呈现出明显的季节性。对季节性也不存在一个非常精确的定义。通常，当某个季节的观测值具有与其它季节的观测值明显不同的特征时，就称之为季节性。 3. 异常观测值异常观测值指那些严重偏离趋势围的特殊点。异常观测值的出现往往是由于某些不可抗 1958 年自然灾害和1966年左右“文化大革命”对我国经拒的外部条件的影响。如1960 济的影响，造成经济指标陡然下降现象；1992年，我国银行紧缩政策造成的房地产业泡沫破灭，而使得房地产业的经济数据发生突然变化的例子等等。 4. 条件异方差性所谓条件异方差性，表现出来就是异常数据观测值成群地出现，故也称为“波动积聚性”。由于方差是风险的测度，因此波动存在的积聚性的预测对于评估投资决策是很有用的，对于期权和其它金融衍生产品的买卖决策也是有益的。 5. 非线性对非线性的最好定义就是“线性以外的一切”。非线性常常表现为“机制转换”(regime witches)或者“状态依赖”(State pendence)。其中状态依赖意味着时间序列的特征依赖于其现时的状态;不同的时刻，其特征不一样。当时间序列的特征在所有的离散状态都不一样时，就成为机制转换特性。三、时间序列的分类 1. 按研究的对象的多少可分为单变量时间序列和多变量时间序列。如果所研究的对象是一个变量，如某个国家的国生产总值，即为单变量时间序列。果所研究的对象是多个变量，如按年、月顺序排列的气温、气压、雨量数据，为多变量时间序列。多变量时间序列不仅描述了各个变量的变化规律，而且还表示了各变量间相互依存关系的动态规律性。 2. 按时间的连续性可将时间序列分为离散时间序列和连续时间序列。如果某一序列中的每一个序列值所对应的时间参数为间断点，则该序列就是一个离散时间序列。如果某一序列中的每个序列值所对应的时间参数为连续函数，则该序列就是一个连续时间序列。 3. 按序列的统计特性可分为平稳时间序列和非平稳时间序列两类。

太阳黑子数时间序列分析资料报告大数据

Re:【求助】请问谁有太阳黑子数据只有1700-1987年的年份黑子数： 1700 5.0 1701 11.0 1702 16.0 1703 23.0 1704 36.0 1705 58.0 1706 29.0 1707 20.0 1708 10.0 1709 8.0 1710 3.0 1711 0.0 1712 0.0 1713 2.0 1714 11.0 1715 27.0 1716 47.0 1717 63.0 1718 60.0 1719 39.0 1720 28.0 1721 26.0 1722 22.0 1723 11.0 1724 21.0 1725 40.0 1726 78.0 1727 122.0 1728 103.0 1729 73.0 1730 47.0 1731 35.0

1733 5.0 1734 16.0 1735 34.0 1736 70.0 1737 81.0 1738 111.0 1739 101.0 1740 73.0 1741 40.0 1742 20.0 1743 16.0 1744 5.0 1745 11.0 1746 22.0 1747 40.0 1748 60.0 1749 80.9 1750 83.4 1751 47.7 1752 47.8 1753 30.7 1754 12.2 1755 9.6 1756 10.2 1757 32.4 1758 47.6 1759 54.0 1760 62.9 1761 85.9 1762 61.2 1763 45.1 1764 36.4 1765 20.9 1766 11.4 1767 37.8

【原创】sas季节性时间序列ARIMA建模报告论文

季节性时间序列ARIMA 建模摘要：研究随机数据序列的统计规律性，可以预测其发展，解决实际问题。时间序列理论在处理动态数据的问题上已经很成熟，无论是金融方面的数据，还是生活生产中的数据，只要是带有时间变量的数据，时间序列在处理上都具有无可比拟的优越性。关键词：季节性时间序列 ARMA 模型 SARMA 模型季节效应分析在现实生活中，很多事物都呈现出季节变动规律，如购买火车票的数量，每年的1月或者2月就会出现购票的最高峰，因为这个季节就到了春季返乡高峰时间，这就是季节变动规律的。通过时序图，构造季节指数从而就可以用季节效应分析对所收集的数据进行季节效应分析。季节变动：季节变动是指事物发展规律随着季节的转变发生周期性的波动，这种周期可以是一年，一个季度，一个月，一周，甚至是一天，一小时等。季节变动是有规律性的，它的每个周期都会重复出现，具体表现为相邻周期内每个时间段的变化方向和趋势大致相同。具有季节变动的时间序列可以很容易从时间序列的时间走势图上看出。在现实生活中，很多事物都具有季节变动规律，如购买机票的数值，每年的1月或2月就会出现购买机票的最高峰，也是机票价格的最高峰，因为这个季节就到了春节返乡高峰，这是呈现季节规律的。若在分析时间序列的过程中，对季节变化的规律现象不进行分析和研究，就会使预测的结果不够准确，也不能正确反映事物的正常发展趋势，从而也就丧失了预测其中的作用。季节指数：季节指数是指经济行为或经济现象在某一特定季节（观察时域）观测值的平均值与总体平均值的比率，用来测度季节变动的大小，主要适用于定量数据，不适用与定性数据。季节模型在经济学领域使用的比较广泛，很多概念都是以经济学学位背景来定义的，它也适用与别的领域，不仅仅只有经济领域。季节指数概念中提到的某一特定季节，不一定就是真正意义上的四季，它可以是一年，一个季度，也可以是一个月，一周，一天等，它广义的指代一个观察周期。季节指数能定量显示季节变动的大小，季节指数越大表示同季平均变动越大，反之，若季节指数小则同季平均变动越小。季节指数的计算分为三步： ① 计算周期内各期平均指数，得到长期以来该时期的平均水平。根据公式：假定序列的数据结构为m 期为一周期，共有n 个周期。则m k n x x n i k k ,,2,1,1 =∑== ② 计算总平均数根据公式： nm x x n i m k ik ∑∑=== 11 ③ 用时期平均数除以总平均数就可以得到各时期的季节指数,..)3,2,1(=k S k 。

计量经济学--时间序列数据分析

时间序列数据的计量分析方法 1.时间序列平稳性问题及处理方案 1.1序列平稳性的定义从平稳时间序列中任取一个随机变量集，并把这个序列向前移动h 个时期，那么其联合概率分布仍然保持不变。平稳时间序列要求所有序列间任何相邻两项之间的相关关系有相同的性质。 1.2不平稳序列的后果可能两个变量本身不存在关系而仅仅因为有相似的时间趋势而得出它有关系，也就是出现伪回归；破坏回归分析的假设条件，使得回归结果和各种检验结果不可信。 1.3平稳性检验方法：ADF 检验 1.3.1ADF 检验的假设：辅助回归方程：11t t i t i t i Y Y t Y ραργβμ--==+++?+∑（是否有截距和时间趋势项在做检验时要做选择）原假设：H 0：p=0,存在单位根备择假设：H 1：P<0，不存在单位根结果识别方法：ADF Test Statistic 值小于显著性水平的临界值，或者P 值小于显著性水平则拒绝原假设并得出结论：所检测序列不存在单位根，即序列是平稳序列。 1.3.2实例对1978年2008年的中国GDP 数据进行ADF 检验，结果如表一。表一 ADF 检验结果 Augmented Dickey-Fuller test statistic t-Statistic Prob.* 3.063621 1 Test critical values: 1% level -3.699871 5% level -2.976263 10% level -2.62742 从结果可以看出，ADF 的t 统计量值大于10%显著性水平上的临界值，P 值为１，接受原假设，说明所检测的GDP 数据是不平稳序列。 1.4不平稳序列的处理方法 1.4.1方法如果所要分析的数据是不平稳序列，可以对序列进行差分使其变成平稳序列，但是这样做的后果是使新得出的数据丧失了许多原序列的特征，我们能从数据中得到的信息会变少，通常差分的次数不能超过两次。经验表明，存量数据是二阶单整，做二次差分可以使其平稳，流量数据是一阶单整，做一次差分可以使其平稳，增量数据通常就是平稳序列。 1.4.2实例

大大数据建模和算法特征

零售银行为了给客户提供更加优质的服务，需要通过分析银行系统本身数据库所保留的客户资料信息，对客户进行分类管理。近年来，大数据已成为科技界和企业界关注的热点，越来越多的企业和研究者正在关注大数据的应用。大数据的分析与挖掘技术在科学界正在如火如荼的展开，各种大数据的新算法被开发研究出来，例如近年来发展比较完善的一种数据分析挖掘算法支持向量机。与此同时，大数据分析在商业中的运用受到人们的追捧，各种大数据在商业中成功运用的案例层出不穷，比如美国大型零售商target公司的广告精准推送。本文将对大数据分析技术以及大数据分析技术在零售银行行业的作用进行一番探讨。什么是大数据 2011年，麦肯锡在题为《海量数据，创新、竞争和提高生成率的下一个新领域》的研究报告中首次提出大数据的概念。报告认为数据已经渗透到每一个行业和业务职能领域，数据中蕴含着巨大的价值，这些价值将导致数据成为重要的生产因素。2012年《纽约时报》的一篇专栏中写到，“大数据”时代已经降临，在商业、经济及其他领域中，最终决策将日益基于数据和分析而作出，而并非基于经验和直觉。2012年3月，美国奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”，这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为大数据是“未来的新石油”，将“大数据研究”上升为国家意志，对未来的科技与经济发展必将带来深远影响。进入21世纪，互联网的兴起促成了数据量的大规模增长。互联网时代，几乎全民都在制造数据，与此同时，数据的形成也极其丰富。一方面，既有社交网络、多媒体、协同创造、虚拟服务等应用所主动产生的数据;另一方面，又有搜索引擎、网页浏览过程中被记录、被收集的数据。该阶段数据的特点是用户原创、主动、交互。根据国际数据公司(IDC)的研究报告，2011年全球被创建和被复制的数据总量为1.8ZB(数据存储单位，泽字节，等于 1024艾字节或270个字节)，且增长趋势遵循新摩尔定律，预计到2020年，全球数据量大约每两年翻一番，全球将拥有35ZB 的数据量。正是由于信息技术的发展，大数据才能生成和发展。大数据技术正是从海量的、多样化的数据中，快速获得有价值信息的能力。