中国汽车保有量及年产量预测模型研究
- 格式:pdf
- 大小:83.43 KB
- 文档页数:4
沈中元急速增长的中国汽车保有量不仅和收入水平的上升有关本文以对数正态分布曲线作为收入分布曲线构建了中国汽车保有量的预测模型2030年家用汽车保有量将达到1.47亿辆本文也利用了预测模型易于扩展的特点考察了影响汽车普及的几个主要因素对数正态分布曲线;收入分布曲线;逻辑曲线;基尼系数;汽车保有量;家用汽车中图分类号: F407.471 文献标识码:A 文章编号:1003-2355(2006)08-0011-05Abstract: The quick increase of vehicle ownership in China is not only stimulated by the increasingincome level, but also affected by the enlarged inequality of income. To analyze these two important factors atthe same time, this paper uses the Lognormal distribution curve as the income distribution curve to establish avehicle ownership forecast model. The forecast results show that in 2030, the household passenger vehicleownership will increase to 14.743 Million units, and the total vehicle ownership will increase to 22.789 Mil-lion units. The increasing number of vehicles reveals the growing importance of energy saving and environmen-tal protection in China. By utilizing the easy-expansion characteristics of this model, the paper conducts foursensitive analyses to analyze some important factors.Key words: Lognormal distribution curve; income distribution curve; Logistic curve; Gini coefficient;vehicle ownership; household passenger vehicles收稿日期财团法人日本能源经济研究所主任研究员曾于2003年至2005年受邀以高级访问学者的身份工作于国家发展和改革委员会能源研究所客车的发展速度要快于货车,而在1998年上升到了50私有客车占客车的比例在20世纪80年代初期几乎是0,而2002年则超过了50随着经济的继续发展除了有收入水平的提高外本文利用收入分布曲线构建以下家用汽车的预测模型元y(x)-收入分布曲线辆/户;p-总人口万辆1对数正态分布曲线如式(2)所示-方差收入差距以中国4800户家庭作为分析对象的研究验证了人均收入的分布在5Aitchison和Brown可也就是说取决于u和(x22211+ ),21一个参数决定只要平均收入和基尼系数确定了而且数据也比较容易获得为整个预测模型的计算带来了方便本文利用中国国家统计局公布的农村居民家庭人均纯收入中国国情国力2005年1993年,巴西是0.59252000年首先使得基尼系数被低估的可G)也就是说2分布曲线的概率密度累积到F( 这里例如市场报的计算结果显示比国家统计局0.386高出18%基尼系数以及社会保障体系的构建中国经济报告的报告则显示全国1999年的基尼系数是0.437就是说本文综合考虑了国家统计局的权威性和社会实际情况1.2 汽车普及曲线的确定本文把汽车普及曲线确定为逻辑曲线a -不同收入组之间的最大普及率的差此曲线可以先进行线性变换按收入等级分城镇居民家庭平均每人可支配收入所用数据P(x)参照了文献1的数据本文用城市的汽车普及曲线替代了农村的汽车普及曲线辆/户1.3 户均人口曲线户均人口曲线也和收入水平有很大关系,从2003年的城市情况可以看出城市最低收入组的户均人口数是3.4人,而最高收入组的人口数是2.76人h8.3439-0.54831og(x)即收入分布曲线为了检验模型的预测精度实际家用汽车保有量为430.4万辆按照统计局而且各条曲线的确定也得到了比较好的模拟预测将来的汽车保有量需要设定3个参数城市采用可支配收入1990得出人均收入和GDP的弹性系数是城市0.9426,农村0.7753,利用此弹性系数可以通过设定GDP的增长率来确定人均收入但是考虑到中国农村问题得到政府的不断的重视另外中国2030年能源供需预测2004年而之后将逐渐缩小人口的假定参考了同研究所的研究报告,如表1所示万人元/人1.10.321.10.35万辆0.312.507.1614.8保有量辆/100人1891782637214743普及率低7个点2030年基尼系数变动幅度为0.30相当于现在的日本水平到拉美国家水平2030年汽车保有费用比基准情景高3013781153111222516556万辆万辆2030年预测结果如表2所示,城市家用汽车在2030年将达到1.378亿辆,农村将达到963万辆,全国为1.47亿万辆这主要有2个原因二是城市和农村收入差距虽然假定得到一定的遏制家用汽车拥有量的年均增长率虽然将从期间的243 利用模型特点进行敏感度分析因为预测模型使用了概率密度函数但是实际上操作很简单包括Excel数据文件和Rich Text程序文件www.geocities.jp/webyear/处下载进行如表3所示的4种不同情景的敏感度分析序号1城市化率降低情景(序号2)利用了预测模型中人口P考察了中国的城市化率对汽车保有量的影响下降到55如果城市化率降低1个百分点相当于约200万辆汽车收入差距变化情景(序号3)通过表示收入差距的假定城市基尼系数的变化范围是从0.187到0.506通过重叠城市和农村的收入分布曲线如表3所示城市的汽车保有量将增加,而农村将减少在收入水平较低的情况下而在收入水平上升到较高的时候另外所以总的家用汽车保有量将增加那么城市保有量将减少而农村将增加,全国合计将减少收入差距的变化在2010年如图1所示两者的影响效果正好相反收入差距的扩大有增加保有量的效果却带来减少的效果收入差距的扩大在一定程度上有增加的效果但是2030年的家用汽车的保有量也将达到1.25亿辆汽车费用上升情景(序号4)利用了模型容易扩展的特性进行的价格敏感度分析财税即使在现在,原油价格的大幅度上涨,已经给中国的汽车市场带来了很大影响油税如果正式开征,也将会有很大影响,因此,扩展此预测模型从而使它能够分析价格变化的影响在预测模型中引入价格弹性系数曲线式中也就是说这条正态分布曲线是以4万元为峰值而向两边减少的曲线汽车价格和普及率的关系反应不断增大这个随着收入水平增加而反应不断加大的现象只观察到人均收入1.5万元的高收入组之后将逐渐减少计算结果显示4 汽车化进程的总体情况和家用汽车的重要性表4描述了包括家用汽车摩托车和农用车在内的整个机动车的普及预测的结果结果显示,2030年中国机动车的保有量将达到3.82万辆摩托车和农用车的合计要远多于汽车的数量,三者合计在2000年是9464万辆,而汽车所占比例只有17但是随着汽车数量,而2020年将上升到54.55结论本文利用对数正态分布曲线作为收入分布曲线构建了家用汽车保有量的预测模型同时模型具有计算精度比较高因此,汽车领域中的节能和石油替代,以及环境保护问题将越来越突出,和汽车产业下转第46页辆/100人汽车占机动车的比例(万辆 注:1.货车RT价格为2000年价格CM和不变价GDP作为说明变量的回归结果作为预测公式的,具体是:Log(CM/POP)=-4.62048+1.71481 Log(GDP/POP); 3.摩托车的预测参照了家用汽车的预测方法0.827198.8651LogP1.85258.8651LogPN(40000,10000))(3)P(x)1+e-a(x-b)k`的价格水平6月份全国流通环节原煤价格指数和上月持平比年初上涨1.21个百分点比年初上涨1.21个百分点;无烟煤价格指数比2005年同期提高0.61个百分点秦皇岛地区市场煤的交易价格出现下滑态势在秦皇岛港的平仓价格由4月上旬的425降至415也从4月上旬的460跌至4555月下旬开始6月中下旬这段时间电煤供应形势整体比较平稳其他地区电厂煤炭库存基本都在安全警戒线以上截至5月底,直供电厂累计进煤21102万t,日均进煤139.8万t,同比增加3.4万t,增幅2.55%;累计耗煤21060万t,日均耗煤139.5万t,同比增加8.8万t,增幅6.7%;库存2466万t目前日均进煤量略大于日均耗煤量,直供电厂煤炭库存呈上升趋势3万t船舶的煤炭运价,稳定在55元/t左右;秦皇岛至广州方向3万进入5月份后总体来看,2006年煤炭市场价格没有因为运输因素而出现上涨行情煤炭市场价格保持高位从四五月份开始价格开始小幅回落到6月份煤炭市场的价格基本保持在2005年末以及1月份热量5500kcal/kg和发热量6000kcal/kg以上的山西优混煤和大同优混煤420元4 未来几个月煤炭市场的走势预测未来几个月国家宏观调控的力度和措施,气候条件及其所决定的电力需求和水电出力状况五六月份,我国煤炭市场处于夏季用煤高峰期之前的平稳过渡阶段,电力产需处于淡季,七八月份由于季节因素的影响,电力产需将逐渐进入旺季,进而有望带动整个煤炭市场需求再次回暖2006年煤炭供需不会出现全面紧张的状况,受国家宏观调控政策个别时段短暂失衡的态势原煤烟煤无烟煤比上月100.00100.00100.00比2005年同期100.50100.46100.61比年初101.21101.21101.21比2005年同期100.26100.20100.45比年初101.36101.36101.36当月 累计表3 2006年6月流通环节煤炭价格指数单位前景中[1]参考文献各年版2000,(3).Aitchison & Brown.The LognormalDistribution[M].Cambridge: Cam-bridge Univ. Press,1957.[2][3][4][5]熊华文刘志平和姜克隽的很多帮助,特此表示感谢。
我国汽车市场发展及人均汽车保有量和GDP的关系我国汽车市场的形成和发展分析从 20世纪50年代以来,中国汽车市场的形成和发展可分为三个时期。
第一时期,改革开放以前(1950—1978年)。
在这一时期,销售产品单一,主要为中型载货车,销售对象也单一,基本上由单位以公款购买。
市场处于封闭状态,市场规模小,增长缓慢。
到1978年即经历了28年,市场销售汽车才达到17万辆,平均每年仅增加约5000辆汽车。
第二时期,缓慢增长期。
(改革开放以后时期1979--1990年)。
在这一时期,与第一时期相比,汽车市场变化不是很大。
由于受经济发展的影响,曾出现了1981、1986、1990三年产销量下降的现象。
第三时期,快速增长期(1990年以来),在这一时期,汽车市场发生了很大变化。
汽车市场规模不断扩大。
从1990年到2001年,汽车总产量从---万辆增加到----万辆,十一年内增加了---倍,平均增长率----%。
从1991年到1993年,由于这时控办撤消,政策比较宽松,被压制的公款购车需求释放出来,加之这时私人购车需求增加,汽车呈现超速增长,年增长率分别达---%和--%,年产量由---万辆增到---万辆。
汽车品牌不断增多。
为了适应不同用户各种用途的需求,汽车市场销售的汽车品种愈来愈多,尤其是近两年。
我国汽车市场不仅有中型载货车,也有重型、轻型、微型载货车,有大型、中型、小型、微型客车,有各种排量等级的轿车,有各种改装车、SUV、MPV、RV等等,车型品种达数千种,彻底改变了过去车型品种单一的状况。
私人购车比重迅速增加。
从有关资料表明,私人购车是从80年代初期开始的,发展之快是人们未料想道的。
私人购车数量占汽车总销量的比重,由1990年的14.8%上升到2001年的43%。
私人购车正在成为汽车市场的主体。
轿车所占比重逐步提高。
改革开放以前,我国轿车销售量很少,不足汽车总销量的2%,改革开放以来,对轿车的需求不断增加,轿车销量占总销量的比重不断提高。
我国乘用车保有量现状与发展趋势分析摘要汽车保有量的预测具有一定程度的不确定性。
对2020及2030年我国的汽车保有量进行科学预测,是确定我国公路交通长短期发展规划,制定环保与能源等方面相关政策的关键。
通过对全国乘用车保有量现状和影响因素的研究,建立了保有量模型,对模型进行了仿真分析,检验模型的可靠性,并对中国未来几年的乘用车保有量进行了预测分析。
模型仿真结果显示,中国乘用车保有量在2020年和2030年将分别达到2.5-2.9亿辆和4-5.2亿辆。
在2030年之前,中国乘用车保有率将快速提高,但是相比发达国家将始终有较大差距。
关键词汽车保有量;不确定性;保有量模型;仿真分析;乘用车保有量中图分类号:F 407.471文献标识码:AAnalysis of Current Situation and Forecast of PassengerCar'sStocks in ChinaAbstract To some extent, there are some uncertainties in forecasting automobile inventory. The scientific forecast of China'sautomobile in the years of 2020, and 2030 is a key to make long-term development plans of the nation's highway transportation, and the relevant policies of environmental protection and energy-saving.By maintaining the amount of status and influence factors of the vehicle, a quantity model, simulates the model analysis, test the reliability of the model, and the Chinese over the next few years the number of motor vehicles has carried on the forecast analysis.The simulation results show, Chinese vehicle fleet in 2020 and 2030 will reach 252-292 million, 398-423 million. Before 2030, China vehicle rate will increase rapidly, but compared with the developed countries will always have a larger gap. Keywords Vehicle stocks; Uncertainty; Inventory model; Simulation analysis; Passenger car's stocks0引言随着经济的快速发展,中国汽车保有量也在不断提高,从1985年的321.1万辆增加到2010年的7802万辆,年增长率达到13.6%,汽车保有量的快速增加给中国的能源安全、污染物排放以及环境保护等方面都造成了巨大的影响,2007年中国约有一半的石油用于道路交通,汽车消耗占主要部分。
中国汽车保有量数据测算方法1.引言1.1 概述中国汽车保有量是指在中国境内登记和运行的所有汽车的数量。
随着中国经济的快速发展和人们生活水平的提高,汽车已经成为人们日常出行的重要工具。
汽车保有量数据的准确测算对于制定交通规划、优化道路资源利用、制定环保政策等方面具有重要意义。
为了准确测算中国汽车保有量,需要收集和整理大量的数据,并运用合适的方法进行处理和分析。
首先,数据来源包括政府部门、行业协会、汽车制造商、汽车经销商等多个渠道,这些数据涵盖了汽车车辆登记信息、销售数据、报废报废数据等。
通过收集这些数据,可以全面了解到中国汽车市场的发展状况,从而有效进行保有量的测算。
在数据处理方法方面,可以采用多种方法进行汽车保有量的测算。
常见的方法包括统计法、抽样调查法、模型估计法等。
统计法是根据全国范围内的汽车登记数据进行统计分析,借助数学模型和统计学方法来估算全国汽车保有量。
抽样调查法则是通过选择一定数量的样本来进行调查,然后根据样本的特征和统计学原理推算得出全国范围内的保有量。
模型估计法是建立数学模型,通过输入相关的变量和参数进行计算,从而得出汽车保有量的估计结果。
本文将介绍中国汽车保有量数据的测算方法,包括数据来源和处理方法。
通过对这些方法的分析和比较,可以对不同方法的优劣进行评价,并得出相应的结论。
同时,文章还将对测算结果进行分析,以便更好地理解中国汽车市场的发展趋势,并为相关领域的决策提供科学依据。
综上所述,中国汽车保有量数据测算方法是一个复杂而又重要的问题。
通过深入了解数据的来源和处理方法,可以更准确地计算出中国汽车保有量的数据,为各个领域的决策提供有力支持。
本文将在接下来的章节中详细介绍相关内容,并分析探讨不同方法的优劣,以期得出准确可靠的测算结果。
1.2文章结构1.2 文章结构本文主要介绍了中国汽车保有量数据的测算方法,文章结构如下:1. 引言1.1 概述1.2 文章结构1.3 目的2. 正文2.1 数据来源2.2 数据处理方法3. 结论3.1 结果分析3.2 方法优劣评价在引言部分,我们将对中国汽车保有量的重要性进行概述,以及说明本文的目的和对应的章节结构。
私家车保有量的预测与控制摘要本文研究的是私家车保有量的增长及如何控制的问题. 寻找私家车保有量烦人增长规律,对于确预测私人汽车保有量,对制定经济政策和进行经济宏观调控、保证社会经济和谐发展有重要的作用. 因此本文就该问题进行分析与探讨.对于问题一,我们首先通过作图先初步影响私家车保有量的因素进行分析,得到噪声对汽车保有量的影响不大,接着我们用数学中的分类思想首先建立了聚类模型,深入地分析了影响私人汽车保有量的各个因素,最终确定运营公交车辆数、公交车营运总里程、汽油(93号)年均价和公交营运总数这四个指标是影响汽车保有量的主要因素. 在对类聚模型改进的基础上建立了主成分分析模型,确定出了三个主要成分,再利用多元线性回归预测出了2010年的某地区汽车保有量为136.7788万辆. 在此基础上,我们又建立了灰色预测模型并进行了绝对残差和相对残差验证、关联度检验和后验差检验,预测得出2010年汽车保有量为188.7183万辆. 为了验证预测值是否准确,我们又建立BP神经网络模型并其进行预测,得出2010汽车保有量为163.8847万辆. 最后我们通过相对误差值这个指标对所建立模型进行了比较,得出模型的预测值相对更为准确.对于问题二,我们根据问题一中所建立的模型预测出某地区某年私家车的数量,再根据汽车废气排放量不超过国III排放标准的原则,并结合影响废弃排放的各个因素间的关系建立了调控模型,()得到私家车总量与公家车的最大比例为15.92%. 在此基础上,(我们又用数学中线性规划知识建立了线性规划模型,并定性的由该地区的汽车尾气的排放情况得出应该增加公交车的数量限制私人汽车保有量的调控措施. )最后,我们还对所建立的模型进行了客观的评价,所建立的模型通过适当的图表对问题进行分析,直观明了,但在分析影响汽车保有量问题中只分析了题中所给出的几个因素,结果与实际值存在一定的偏差.在本文的最后,我们对模型进行了改进,我们结合了基因表达式编程思想,应用GEP技术对私家车保有量进行预测,其优点是简单、预测精度高,同时避免了在建立上述模型中确定参数的主观性. 改进后的模型结合GEP的时间序列模型能够在数据挖掘领域得到了广泛应用,同时也能运用到组合优化,聚类,关联规则,时间序列预测等领域.关键词:聚类主成分分析灰色预测BP神经网络调控模型线性规划我国经济的快速发展为私人汽车提供了巨大的发展空间. 据中国汽车工业协会估算,截止到2006年底,中国私人汽车保有量约为2650万辆,占全国汽车保有量的60%左右. 在2006年,我国汽车销量为710多万辆,私人购买比例超过77%,中国已经成为仅次于美国的全球第二大新车市场.据世界银行的研究,汽车保有量(尤其是私人汽车)与人均国民收入成正比. 2003年,我国国内人均GDP首次突破1000美元,这预示着中国汽车开始进入家庭消费阶段. 而事实表明,随着中国人均GDP的稳健增长,近年来,我国的家用汽车销量以两位数的增速急剧扩大. 汽车特别是用于消费的私人汽车保有量的多少,与经济发展程度、居民收入以及道路建设等有着密切的联系. 随着私人汽车消费时代的到来,汽车保有量上升的一个重要因素就是国内汽车消费的快速增长. 消费者购买力的增强和个体私营经济的快速发展,也带动了私人汽车的大发展. 私人汽车保有量与一个国家或地区的社会经济发展的有关数据有着密切关系. 附表提供了我国某一经济发达地区的一些相关统计数据.然而,当我们快速迈进以私人汽车为主体的汽车社会的时候,也面临着新的考验,除了能源紧缺、燃油价格上涨、土地资源有限等诸多不利因素对汽车发展带来巨大的压力外,目前,交通产生的尾气已经成为城市环境的最主要污染源,如果对小汽车这种快速增长不从战略的高度加以科学引导和调整,它将不再单纯体现经济建设成就,巨大的负面效应也将成为社会法杖的阻碍因素. 我国于上世纪1999年对生产的小汽车废气CO、HC、NOX和PM允许排放量制订了国家标准(相当于欧洲标准). 规定生产的汽车从2000年1月1日起实施国Ⅰ排放标准,从2005年1月1日起实施国Ⅱ排放标准,从2007年7月1日起实施国Ⅲ排放标准,从2010年1月1日起实施国Ⅳ和国Ⅴ排放标准(实现基本与欧洲标准同步). 据有关资料介绍,在城市交通中,小汽车与公共汽车相比,单位小汽车排放的污染物比公共汽车高9倍.请研究下述问题:1、根据附表中的相关数据建立数学模型,分析影响该地区私人汽车保有量的因素,并预测到2010年该地区私人汽车保有量有多少?2、假设私人汽车的年运行公里数是公交车年运行公里数的五分之一. 按照汽车废气国III排放标准(欧III)(要求CO排放量每公里不超过2.3克,HC+NOX 排放量每公里不超过0.56克,PM排放量每公里不超过0.05克), 如何根据该地区的汽车废气的排放情况,来调控公交车和私人汽车保有量?●汽车保有量和对影响其的有利因素都是对时间的函数.●假定除居民人均可支配收入和居民储蓄款余额对私人汽车保有量有影响外,其他变量为一定值.●在问题一中汽车保有量只与给出的因素有关,我们选取了其中的一部份而与其它的部分没有关系.●所给的数据完全可靠,是实际情况的真实反映;●由于数据分析中发现城市干线噪声均值变化极小,所以在问题求解中忽略了噪声对私家车保有量的影响●汽车排放的废气主要为碳氢化合物(HC),氮氧化合物(NO),一氧化碳x (CO),微粒(PM),其他废气成份质量忽略不计.●社会是稳定的,发展是平稳的,不考虑因突发事件而导致保有量的突变;●各因素之间相互独立,不存在一个因素的变化而导致其他因素的剧烈变化●私人汽车的年运行公理数是公交车年运行公里数的五分之一●题中给出的单位小汽车排放量的污染物比公交车高9倍,这一比例保持不变,即小汽车每一种排放的污染物都是公交车的10倍三、符号说明3.1问题一符号说明y调整利率前的私家车保有量ix影响私人汽车保有量的个因素iβ回归系数矩阵x第j个指标的样本的均值js第j个指标的样本的方差jR相关矩阵系数λ第i个特征值iμ第i个特征值的特征向量ip a p 个指标变量的总累计贡献率i z第i 个主成分3.2问题二符号说明1y 私家车总量 2y公交车总量m 一辆私家车行驶1公里排放的污染物总量 c m 一辆私家车行驶1公里的CO 排放量 H m一辆私家车行驶1公里的x HC NO + m ρ一辆私家车行驶1公里的PM 排放量 n 一辆公共汽车行驶1公里排放的气体总量 c n 一辆公交车行驶1公里的CO 排放量 H n一辆公交车行驶1公里的x HC NO + n ρ 一辆公交车行驶1公里的PM 排放量 0S 一辆私家车年运行的公里数 1S 一辆公交车年运行的公里数C M 所有私家车行驶0S 公里的CO 排放量 H M所有私家车行驶0S 公里的x HC NO +排放量 M ρ 所有私家车行驶0S 公里的PM 排放量 C N 所有公交车行驶0S 公里的CO 排放量 H N所有公交车行驶0S 公里的x HC NO +排放量 N ρ所有公交车行驶0S 公里的PM 排放量四、问题一分析、模型建立与求解4.1 问题一的分析保有量指得就是一个地区拥有车辆的数量,一般是指在当地登记的车. CPI 消费者物价指数(Consumer Price Index),英文缩写为CPI,是反映与居民生活有关的商品及劳务价格统计出来的物价变动指标,通常作为观察通货膨胀水平的重要指标. 我们都知道从紧的货币政策,如加息、提高人民币存款准备金等等. 对该地区私人汽车保有量有抑制作用. 因为首先假如购买汽车需要贷款的话,由于利息提高,还贷额增加;其次,对居民来说,同样用于购买汽车的20w现金,由于加息,存在银行里获取的利息变高了,而汽车是贬值品,此消彼长这样老百姓的购车欲望就会下降.通过对题意可知问题一要求我们根据附表中的相关数据建立数学模型,分析影响该地区私人汽车保有量的因素,并预测到2010年该地区私人汽车保有量. 首先我们根据题中所提供的影响汽车保有量的各项因素,通过1996年至2008年近13年间的各项指标的数据,分析各项指标与汽车保有量之间的关系,同时也对各个指标间的相关性作了分析,并得到了一下几个潜在信息:(1)该地区人均国内生产总值,由题中“汽车保有量与人均国民收入成正比”知,其促进私人汽车保有量的增加;(2)全社会固定资产投资总额的增长,由于汽车消费占有重要份额,所以其与私人汽车保有量的增加有密切关系;(3)道路总长的增多为居民的交通带来了方便,因而也推动了对汽车的购买;(4)居民人均可支配收入高低和居民储蓄款余额的水平对汽车的购买有直接影响;(5)汽油年均价从1996-2008年持续提升,在一定程度上加大了居民承担汽车消费的压力,是不利因素.以上只是根据题中所提供的数据进行了简单的主观上的分析,并没有很好地对问题一进行细致分析,于是我们借助MATLAB画出了各个因素与汽车保有量之间的相关性散点图,具体如下所示:以上所绘制的图很直观地展现出了各个指标在汽车保有量之间的关系,4.2类聚模型4.2.1类聚模型的思想聚类分析又称为群分析或者类分析,它是依据某种准则或算法对个体(样本或变量)进行分类的一种多元统计分析技术. 通俗地讲,聚类分析就是多元统计分析中研究所谓“物以类聚”现象的方法,其职能就是对一批样本或者变量,按照其在性质上的亲疏程度进行分类. 例如,对不同省市区故居GDP 、人均收入、通货膨胀率等指标进行分类,对居民消费习惯按照习惯按照其消费支出结构进行分类等.4.2.2类聚模型的建立根据题目中所给数据,我们我们取以上10类指标:它们分别为:1x 为人均国内生产总值;2x 为全社会消费品零售总额;3x 为全社会固定资产投资总额;4x 为运营公交车辆数;5x 为公交营运总数;6x 为公交车营运总里程;7x 为道路总长8x ;为居民人均可支配收入;9x 为居民储蓄款余额;10x 为汽油(93号)年均价.(一)距离和相似系数距离设有n 个样本,每个样本观测p 个变量,数据结构为⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡np n n p p x x x x x x x x x ...... (2)12222111211, 其中,x ij 是第i 个样本第j 个指标的观测值. 因为每个样本点有p 个变量,我们可以将每个样本点看作p 维空间中的一个点,那么各样本点间的接近程度可以用距离来度量. 以d ij 为第i 样本点与第j 样本点间的距离长度,距离越短,表明两样本点间相似程度高. 最常见的距离指标有: 绝对距离:∑-=jk ik ij x x d欧氏距离:()∑=-=pk jk ikij x xd 12切比雪夫距离:jk ik pk ij x x d -=≤≤1max马氏距离:[]211)()(j i j i ij X X S X X d -'-=-,其中. 相似系数对于p 维总体,由于它是由p 个变量构成的,而且变量之间一般都存在内在联系,因此往往可用相似系数来度量各变量间的相似程度. 相似系数介于-1至1之间,绝对值越接近于1,表明变量间的相似程度越高. 常见的相似系数有:夹角余弦:cos ,1,,nki kj ij xxi j p ϑ==∑相关系数:n i x x x X ip i i i ,...,2,1),...,,(21==,S 是样本数据矩阵相应的样本协方差矩阵,即S 的元素11()()1nij ki i kj j k s x x x x n ==---∑()(),1,,nkii kj j ij xx x x r i j p --==∑我们选择的十个指标很具有很强的相似性,所以我们采用相似系数中的相关系数来评判这十个指标的相似性.(二)聚类方法系统聚类分析是聚类分析中应用最广泛的一种方法,凡是具有数值特征的变量和样本都可以采用系统聚类法. 选择适当的距离和聚类方法,可以获得满意的聚类结果.分类的形成先将所有的样本各自算作一类,将最近的两个样本点首先聚类 ,再将这个类和其他类中最靠近的结合,这样继续合并,直到所有的样本合并为一类为止. 若在聚类过程中,距离的最小值不唯一,则将相关的类同时进行合并.类与类间的距离系统聚类方法的不同取决于类与类间距离的选择,由于类与类间距离的定义有许多种,例如定义类与类间距离为最近距离、最远距离或两类的重心之间的距离等,所以不同的选择就会产生不同的聚类方法. 常见的有:最短距离法、最长距离法、重心距离法、类平均法、离差平方和法等.设两个类l G ,m G ,分别含有n 1和n 2个样本点, 最短距离法:{}m j l i ij lm G X G X d d ∈∈=,,min最长距离法:{}m j l i ij lm G X G X d d ∈∈=,,max 重心法:两类的重心分别为m l x x ,,则21x x lm d d =类平均法:∑∑∈∈=i i jj G X G X ijlm dn n d 211离差平方和法:首先将所有的样本自成为一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使整个类内离差平方和增加最小的两类合并,直到所有的样本归为一类为止.其中我们采用最长距离法来对这十个指标进行分类. 4.2.3聚类模型的求解定性考察反映汽车保有量的十项评价指标,可以看出,某些指标之间可能存在较强的相关性. 比如人均国内生产总值、全社会消费品零售总额与居民储蓄款余额可能存在较强的相关性, 运营公交车辆数和公交车营运总里程之间可能存在较强的相关性. 为了验证这种想法,运用MATLAB 软件计算十个指标之间的表格 1 十个指标之间的相关系数矩阵可以看出某些指标之间确实存在很强的相关性,因此可以考虑从这些指标中选取几个有代表性的指标进行聚类分析. 为此,把十个指标根据其相关性进行R 类,再从每个类中选取代表性的指标. 通过MATLAB软件,我们得到聚类树型图(见图1),也直观的说明了上述聚类的全过程.图 1 聚类树形图表格2各个指标的分类由上表作出如下分析:第一类:运营公交车辆数、公交车营运总里程、汽油年均价、公交营运总数呈密切的关系,汽油价格影响公交营运总里程和运营的公交车数量,而运营的公交车数量又对公交运营总数有影响.第二类:人均国内生产总值、居民储蓄存款余额、道路总长、全社会消费品零售总额、人均可支配配收入有密切关系,除道路总长外都属于经济指标,而些经济指标又会对社会建设产生影响,因此归为一类.第三类:全社会固定资产投资总额与上述的两类没有很大的联系,因此单独归为一类.4.3主成分分析模型 4.3.1主成分分析模型分析本文采用了主成分分析方法的原因是因为主成分分析方法在各个变量之间相关关系的研究基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多变量所反映的信息,进而尽量用这几个较少的变量来刻画个体的一种方法,是一种降维处理方法,我们通过对所给数据的分析,得出本题目恰好符合主成分分析的条件,能够运用主成分分析法来解决题中的问题一.对主成分分析模型的补充假设:题中所给的历史数据并没有明确地指出影响该地区的私人汽车保有量的因素,因此,基于主成分分析法是建立在各个变量相关的基础上,我们通过对题目中所提供的十一个变量进行相关性分析,得到以下结论:除城市交通干线噪音均值这一因素与其他相关性为负外,其余的变量之间存在着较强的相关性. 所以在这一模型中我们忽略了这一因素对私家车保有量的影响,即假定影响私家车保有量的只有十个因素.4.3.2主成分分析模型的建立在聚类中我们从各个变量之间的相关系数中,我们只采用的是题中所给的数据,并没有再另外收集数据,由于数据收集过窄,造成某些变量之间似乎存在有相同或相反变化趋势的假象,因此我们考虑运用主成分分析,选出几个主要成分对汽车保有量进行预测,避免了多重共性而造成预测偏差的弊端.根据本文所提供的影响汽车保有量的因素有人均国内生产值,全社会消费零售总额,居民人均可支配收入等十个因素. 针对题中所给的1996—2008年的数据,利用主成分分析法进行建模分析,具体步骤如下: 1、对各个影响因素的原始数据进行标准化处理设影响汽车保有量的因素分别为12310,,,,x x x x ⋅⋅⋅,由于各个指标属于不同的数量级,没有统一的标准,所以在进行主成分分析之前,需要对指标数据进行标准化处理,消除量纲,以使得每一个变量的均值都为0,方差为1. 具体处理方法如下:,(1,2,13;1,2,10)ij j ijjx x x i j s -==⋅⋅⋅=⋅⋅⋅ 其中21111()(1,2,10;13)1n nj ij j ij j i i x x s x x j n n n ====-=⋅⋅⋅=-∑∑ 即,j j x s 分别为第j 个指标的样本的均值和样本方差 2、利用标准化后的数据计算相关系数矩阵R()()()(),1,2,,10ij nkiikijij R r xx xx r i j ⨯=--==⋅⋅⋅∑10103、计算相关系数矩R 特征值和特征向量,确定主成分 具体求解过程:令E-R =0λ,可以求得10个特征值(1,2,,10)i i λ=⋅⋅⋅,它是主成分的方差,对其从小到大进行排列为123100λλλλ≥≥≥⋅⋅⋅≥≥其对应的特征向量为()()1231012,,,,,1,2,10Tj j j nj u u u u u u u u j ⋅⋅⋅=⋅⋅⋅=⋅⋅⋅ 其中则第i 主成分的表达式为:11221010+1,2,10i i i i i Y u X u X u X u X i ==+⋅⋅⋅=⋅⋅⋅,其中各个主成分确定指标:所有线性组合中的方差最大原则(方差越大,数据离散程度越大,代表原始数据包含的信息量越大,因而分析越准确)由上述原则确定出1Y 为第一主成分,2Y 为第二主成分,3Y 为第三主成分,以此类推4、选择P(P M)≤个主成分,计算综合评价值① 计算题特征值()1,2,j j m λ=⋅⋅⋅的信息贡献率和累积信息贡献率 主成分j Y 的信息贡献率: ()11,2,31010jj mkk b j m λλ===⋅⋅⋅=∑则112101,,,pkk p mkk a Y Y Y λλ===⋅⋅⋅∑∑为主成分的累积贡献率当p a 值接近于1(0.85,0.90.0.95)时,则选择前p 个指标变量12,,,p Y Y Y ⋅⋅⋅作为主成分,来代替原来的指标变量. 累计贡献率p a 的值越大,表明j Y 综合12,,p x x x ⋅⋅⋅信息能力越强,因此我们把k y 称为x 的主成分. 取主成分的排序时按特征根12,,,p u u u ⋅⋅⋅取值的大小顺序排列. 在本文中的应用中,取m 个主成分,m p <,且使得累计贡献率尽量高. ② 计算综合得分1pj j j j j Z b y b j y ==∑(为第个主成分的信息贡献率,为第j 主成分)在主成分分析的基础上,我们得出了几个主要成分,将原来的12个指标转化成了少量几个指标来预测2010年的汽车保有量. 我们将得出的几个主要成分作为因变量,与最终的汽车保有量间建立多元回归方程,并通过其来预测2010年汽车保有量.01122k k y x x x ββββ=++++ ,最小二乘法估计0ˆβ,1ˆβ….. ˆk β使残差平方和22011ˆˆˆˆ()(...)i i i k kQ y y y x x βββ=-=----∑∑最小. 由此可以得到求解0ˆβ,1ˆβ….. ˆk β的标准方程为:00ˆ0ˆ00,1,2,...,i iQQ i kββββββ==⎧∂=⎪∂⎪⎨∂⎪==⎪∂⎩借助SPSS 计算出0ˆβ,1ˆβ….. ˆk β 最终得到2010年汽车保有量预测值y分析得到我们只有1996年至2008年间的影响汽车保有量因素的各项指标值,但要预测2010年的汽车保有量,我们必须得到2009和2010年影响汽车保有量因素的各个指标值,因此我们建立差值拟合模型,通过其拟合出光滑曲线求得2009年和2010年的各项指标值.根据上述所得的2009年和2010年的影响汽车保有量因素的各个指标值,我们就能够预测出题意要求的2010年汽车保有量. 4.3.3主成分分析模型的求解我们首先借助MATLAB 对十个影响因素进行了标准化,将题中所给的原始数据标准化为如下表数据:年份 变量1 变量2 变量3 变量4 变量5 变量6 变量7 变量8 变量9 变量10 1996 -1.31 -1.16 -1.44 -0.96 -0.97 -0.97 -1.26 -1.69 -1.17 -1.1999 1997 -1.11 -1.12 -1.26 -0.91 -0.84 -0.91 -1.2 -1.21 -1.07 -0.91963 1998 -0.96 -0.96 -1.01 -0.89 -1.09 -0.88 -1.07 -0.94 -0.95 -0.88462000 -0.54 -0.78 -0.59 -0.83 -0.58 -0.8 -0.7 -0.58 -0.77 -0.5255 2001 -0.41 -0.31 -0.39 -0.56 -0.45 -0.57 -0.5 -0.17 -0.55 -0.38537 2002 -0.26 -0.14 -0.09 -0.56 -0.31 -0.56 -0.07 0.121 -0.24 -0.44668 2003 0.165 0.103 0.444 0.09 -0.29 -0.03 0.406 0.33 0.106 -0.21896 2004 0.46 0.349 0.808 0.32 -0.2 0.295 0.668 0.469 0.441 0.201443 2005 0.747 0.645 1.053 0.657 0.803 0.712 0.896 0.868 0.917 0.569296 2006 1.081 1.015 1.34 1.227 1.16 1.357 1.035 1.107 1.323 1.445137 2007 1.553 1.385 1.55 1.565 1.523 1.572 1.261 1.199 1.361 1.550238 2008 1.53 1.864 0.321 1.708 1.912 1.607 1.464 1.376 1.486 1.64658表格 3 1996年--2008年各指标变量标准化后的值将原始数据进行了标准化处理之后,各指标之间有个统一的标准,既可以通过标准化后的数据分析其主成分.根据上表标准化后的数据计算相关系数矩阵如下表所示:变量变量1 变量2 变量3 变量4 变量5 变量6 变量7 变量8 变量9 变量10变量1 1 0.988 0.919 0.981 0.955 0.979 0.987 0.976 0.99 0.98变量2 0.988 1 0.868 0.982 0.967 0.976 0.979 0.966 0.984 0.975变量3 0.919 0.868 1 0.868 0.807 0.878 0.932 0.932 0.922 0.869变量4 0.981 0.982 0.868 1 0.971 0.998 0.96 0.929 0.985 0.985变量5 0.955 0.967 0.807 0.971 1 0.973 0.922 0.908 0.957 0.978变量6 0.979 0.976 0.878 0.998 0.973 1 0.957 0.928 0.987 0.99变量7 0.987 0.979 0.932 0.96 0.922 0.957 1 0.982 0.987 0.945变量8 0.976 0.966 0.932 0.929 0.908 0.928 0.982 1 0.969 0.938变量9 0.99 0.984 0.922 0.985 0.957 0.987 0.987 0.969 1 0.978变量10 0.98 0.975 0.869 0.985 0.978 0.99 0.945 0.938 0.978 1表格 4 标准化后的数据相关系数矩阵根据以上求得的相关系数矩阵计算其特征值和特征向量,并将其从大到小进行排列,确定其主成分. 结果如表所示:主成分特征值方差贡献率% 累计贡献率%1 9.582392563 95.82392563 95.823925632 0.270496163 2.704961626 98.528887263 0.077287887 0.772878868 99.301766134 0.037115353 0.371153531 99.672919665 0.017305818 0.173058182 99.845977846 0.008374608 0.08374608 99.929723927 0.003953462 0.039534624 99.969258558 0.002356264 0.023562644 99.9928211919 0.000709541 0.00709541 99.999916610 8.34E-06 8.34E-05 100表格 5 相关系数矩阵的特征值和特征向量由上表可以知道,第一,第二,第三主成分的累计贡献率已高达99.3%,说明前三个主成分提供了原始数据的足够信息,通过检验,提取前三个主成分. 故只需要求出第一、第二、第三主成分123,,z z z 即可.计算三个特征值的特征向量123,,u u u ,再求出各个变量12310,,,,x x x x ⋅⋅⋅在主成分123,,z z z 上的载荷.0.32200.0394-0.09570.3198-0.1364-0.38680.2966 0.7107 -0.4858 0.3189 -0.2272 0.22920.3117 -0.4400 -0.00400.3192 -0.2088 0.35840.3185 0.2109 -0.30z = 010.3144 0.2969 -0.53370.3221 0.0275 0.06080.3182 0.2295 0.2135⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦1123456789102123456780.33200.31980.29660.31890.31170.13920.31850.31440.32210.31820.03940.13640.71070.22720.44000.20880.21090.2969z x x x x x x x x x x z x x x x x x x x =+++++++++=-+---+++ 第一主成分第二主成分9103123456789100.02750.22950.09570.38680.48580.22920.00400.35840.30010.53370.06080.2135x x z x x x x x x x x x x +=--++-+--++ 第三主成分因为这三个主要成分的特征值之和所占的比例(累计贡献率)达到了0.993,所以我们可以忽略其他成分,直接将这三个主要成分来评估所有影响汽车保有量的因素.要预测2010年的汽车保有量,必须知道2009年影响汽车保有量各个指标的数据,我们用差值拟合法拟合出了一条比较光滑的曲线,并且运用MATLAB 预年份人均国内生产总值(元) 全社会消费品零售总额(亿元) 定资产投资总额(亿元) 运营公交车辆数(辆) 公交营运总数(亿人次) 城市交通干线噪音均值(分贝)2009 83276.89 2570.939 1380.567 8319.383 22.56544 69.7 2010 87906.79 2967.504 1460.905 8837.24 24.72267 70年份 公交车营运总里程(万公里) 道路总长(公里) 居民人均可支配收入(元) 居民储蓄款余额(亿元) 汽油(93号)年均价 (元/升) 私人汽车保有量(万辆)2009 73077.8 3111.074 32021.82 4293.801 5.309565 201078274.043236.44633028.914612.1335.472174表格 6 2009年和2010年各项指标值从上表中我们可以得到2009年和2010年的各个指标值,但是这些指标值没有统一的标准很难作出准确的预测,因此,我们对其同样采用数据标准化,得到如下标准化后的数据:年份 变量1 变量2 变量3 变量4 变量5 变量6 变量7 变量8 变量9 变量10 2009年 1.413 1.454 1.507 1.346 1.441 1.308 1.178 1.191 1.289 0.965 2010年 1.631 1.849 1.709 1.557 1.711 1.516 1.284 1.282 1.496 0.965表格 7 2009年和2010年各项标准化后的指标值由上表我们得到了2009年和2010年的影响汽车保有量的各个指标值,根据β的主成分估计: () () () ()11211112211221,0,,,=0Ta Q Q Q a a Q Q Q a a a Q Q Q a a Q a a a β⎛⎫== ⎪ ⎪⎝⎭⎛⎫== ⎪⎝⎭⎛⎫⎪⎝⎭ 和是分别对和分块后所得的矩阵其中为标准化正交矩阵,为的主成分估计值可以算出主成分估计值,我们借助MATLAB 计算得到了回归方程的各个系数分别为:012345678910172.7572,0.0002,0.0139,0.511,0.0049, 3.4085,0.00050.0019,0.009,0.0026,8.8787βββββββββββ=-===-====-=-==由此得到如下成分回归方程:12345678910172.75720.00020.01390.5110.0049 3.40850.00050.00190.0090.00268.8787y x x x x x x x x x x =-++-+++--++根据表2中2009年和2010年影响汽车保有量的各个指标值,我们就将这些数据直接代入到上述式子中,就直接求得200920102011121.2928136.7788152.2558y y y === 即我们得出2009年的汽车保有量为121.2928万辆,2010年汽车保有量为136.7788万辆4.4灰色预测模型4.4.1灰色预测模型的理论思想:GM(1,1)模型是基于灰色系统的理论思想,将离散变量连续化,用微分方程代替差分方程,按时间累加后所形成的新的时间序列呈现的规律可用一阶线性微分方程的解来逼近,用生成数序列代替原始时间序列,弱化原始时间序列的随机性,这样可以对变化过程作较长时间的描述,进而建立微分方程形式的模型. 其建模的实质是建立微分方程的系数,将时间序列转化为微分方程,通过灰色微分方程可以建立抽象系统的发展模型. 4.4.2灰色预测模型的建立一、数据的检验与处理首先,为了保证建模方法的可行性,需要对已知数据列做必要的检验处理. 设参考数据为))(,),2(),1(()0()0()0()0(n x x x x =,计算数列的级比()()()()()001,2,3,x k k k n x k λ-==⋅⋅⋅ 如果所有的级比()k λ都落在可容覆盖2211,n n e e -++⎛⎫⎪⎝⎭内,则数列(0)x 可以作为模型)1,1(GM 的数据进行灰色预测. 否则,需要对数列(0)x 做必要的交换处理,使其落在可容范围内. 即取适当的常c ,作平移交换()()()()00,1,2,y k x k c k n =+=⋅⋅⋅则使数列()()()()()()()()00001,2,y y y y n =⋅⋅⋅的级比()()()()()001,2,3,,y y k k X k n y k λ-=∈=⋅⋅⋅ 二、建立过程:GM(1,1)模型是指一阶,一个变量的微分方案预测模型,是一阶单序列的线性动态模型,用于时间序列预测的离散形式的微分方程模型.设时间序列()0X 有n 个观察值,()()()()()()(){}00001,2,,X x x x n = ,为了使其成为有规律的时间序列数据,对其作一次累加生成运算,即令()()()()101tn xt x n ==∑。
我国私人汽车拥有量的计量经济模型研究摘要:改革开放以来,我国经济飞速发展,人们生活水平稳步提高,汽车开始大规模地进入普通家庭。
但是随着汽车数量的不断增加,一些社会问题例如交通堵塞、环境污染等等由此衍生。
因此,本文对我国私人汽车拥有量的计量经济模型研究,并进行相关的分析。
分析过程中,本文消除了模型的多重共线性和自相关性,检验了模型的异方差性,最后得到与我国私人汽车拥有量相关程度很高的变量有国民总收入、全国汽车产量、关税、进口汽车数量、公路里程。
且主要因素为全国汽车产量和国民总收入。
关键词: 私人汽车拥有量计量经济模型多重共线性自相关性一、引言我国经济迅速发展,为汽车产业提供了很大的发展空间。
2002年以来,私人购车占整个市场的份额迅速提升,进入私人购车阶段。
但是,汽车产业的蓬勃发展,也带来了一些社会问题。
汽车保有量增速和道路增加速度严重不匹配,预示着今后交通瘫痪会频繁发生,将造成物流费用大增、工作效率下降、企业运营成本提高、城市投资环境变差、人们不满情绪上升、影响中国经济增速等一系列连锁后果。
因此,研究我国私人汽车拥有量的计量经济模型具有重要的意义。
二、理论模型与数据通过综合分析各方面的影响因素,将我国私人汽车拥有量(万辆)作为因变量,国民总收入GNI(本文用GNI指标反映居民收入情况)、国公路里程(以此来反映私人汽车的使用条件)、全国汽车产量、关税、以与进口汽车产量为自变量,以此建立计量经济模型。
运用该模型,对影响我国私人汽车拥有量的因素进行分析,并预测未来我国私人汽车拥有量的变化情况。
数据来源:《中国统计年鉴1999-2013》三、建模过程由图1可以看出,我国私人汽车拥有量随年份的增加逐渐增长,且没有异常点。
图1我国私人汽车拥有量随时间变化趋势图打开Eviews7.0限定时间段为1998-2012年:图2 数据的起止终止年份将Excel中的数据复制到Eviews中,如图:图3 我国汽车私有量为估计模型参数,根据已收集到的统计数据,利用最小二乘回归方程,得到如下结果(图2):键入:LS Y C GNI X1 X2 X3 X4图4 模拟回归方程输出结果由此可见,该模型的,,可决系数很高,F检验值224.4207,概率P值为0.0000,明显显著。