计量经济学数据
- 格式:doc
- 大小:634.00 KB
- 文档页数:20
名词解释1、 因果效应:在理想化随机对照实验中得到的,某一给定的行为或处理对结果的影响2、 实验数据:来源于为评价某种处理(某项政策)抑或某种因果效应而设计的实验3、 观测数据:通过观察实验之外的实际行为而获得的数据4、 截面数据:对不同个体如工人、消费者、公司或政府机关等在某一特定时间段内收集到的数据5、 时间序列数据:对同一个体(个人、公司、国家等)在多个时期内收集到的数据6、 面板数据:即纵向数据,是多个个体分别在两个或多个时期内观测到的数据7、 离散型随机变量:一些随机变量是离散的连续型随机变量:一些随机变量是连续的8、 期望值:随机变量经过多次重复实验出现的长期平均值,记作E (Y )9、 期望:Y 的长期平均值,记作μY10、方差:是Y 距离其均值的偏差平方的期望值,记作var (Y )11、标准差:方差的平方根来表示偏差程度,记作σY12、独立性:两个随机变量X 和Y 中的一个变量无法提供另一个变量的相关信息13、标准正态分布:指那些均值102==σμ、方差的正态分布,记作N (0,1)14、简单随机抽样:n 个对象从总体中抽取,且总体中的每一个个体都有相等的可能性被选入样本15、独立分布:两个随机变量X 和Y 中的一个变量无法提供另一个变量的相关信息,那么这两个变量X 和Y 独立分布 16、偏差:设Y Y E Y Y μμμμ-ˆˆ)(为的一个估计量,则偏差是; 一致性:当样本容量增大时,Y μˆ落入真实值Y μ的微小领域区间内的概率接近于1,即Y Y μμ与ˆ是一致的 有效性:如果Y μˆ的方差比Y μ~更小,那么可以说Y Y μμ~ˆ比更有效 17、最小二乘估计量:21)(m ini -Y ∑=最小化误差m -i Y 平方和的估计量m 18、P 值:即显著性概率,指原假设为真的情况下,抽取到的统计量与原假设之间的差异程度至少等于样本计算值与 原假设之间差异程度的概率19、第一类错误:拒绝了实际上为真的原假设20、一元线性回归模型:i i 10i μββ+X +=Y ;1β代表1X 变化一个单位所导致Y 的变化量21、普通最小二乘(OLS )估:选择使得估计的回归线与观测数据尽可能接近的回归系数,其中近似程度用给定X 时预 测Y 的误差的平方和来度量22、回归2R :可以由i X 解释(或预测)的i Y 样本方差的比例,即TSSSSR TSS ESS R -==12 23、最小二乘假设:①给定i X 时误差项i μ的条件均值为零:0)(i i =X μE ;②从联合总体中抽取的,,,,),,(n ...21i i i =Y X 满足独立同分布;③大异常值不存在:即i i Y X 和具有非零有限的四阶距24、1β置信区间:以95%的概率包含1β真值的区间,即在所有可能随机抽取的样本中有95%包含了1β的真值25、同方差:若对于任意i=1,2,...,n ,给定)(条件分布的方差时χμμ=X X i i i i var 为常数且不依赖于χ,则 称误差项i μ是同方差26、异方差:若对于任意i=1,2,...,n ,给定)(条件分布的方差时χμμ=X X i i i i var 为常数且依赖于χ,则称 误差项i μ是异方差27、遗漏变量偏差:指OLS 估计量中存在的偏差,它是在回归变量X 与遗漏变量相关时产生的28、多元回归模型:n ...1i ...i k i k i 22i 110i ,,,=+X ++X +X +=Y μββββ;1β代表在其他影响Y 的因素2X 不变的 前提下,1X 变化一个单位所导致Y 的变化量29、调整2R (2R ):是2R 的一种修正形式,由于加入新变量后2R 不一定增大,即22ˆ211-k -n 1-n 1Y s s TSS SSR R μ-=⨯-= 30、虚拟变量陷阱:如果有G 个二元变量,且每个观测都只属于其中一类,又如果回归中包含截距项以及所有G 个二 元变量,则会因为完全多重共线性而无法进行回归31、控制变量:回归中保持某些因素不变的回归量32、二次回归模型:i 2i 2i 10i ncome ncome core est μβββ+++=I I S T 33、非线性回归函数:i k i i 2i 1i ...f μ+X X X =),,,(Y ,i=1,...,n ;其中f (k i i 2i 1...X X X ,,,)为非线性回归函数 34、多项式回归模型:i r i r 2i 2i 10i ...μββββ+X ++X +X +=Y35、双对数模型:i i 10i ln ln μββ+X +=Y )()(填空题1、 计量经济学提供了利用观测数据(而非实验数据)或者来自现实世界不太完美的实验数据估计因果效应的方法2、 截面数据 是多个个体在同一时间点上收集到的数据;时间序列数据是一个个体在多个时间点上收集到的数据;面板数据 是多个个体分别在多个时间点上收集到的数据3、 随机变量Y 的期望值(也可称为均值,μY )记作E (Y ),是变量的概率加权平均值;Y 的方差为[]2)(2Y Y E μσ-=Y ,Y 的标准差是方差的平方根4、 两个随机变量X 和Y 的联合概率由它们的联合概率分布所表示;给定X=χ下Y 的条件概率分布是指给定X 取值为χ的条件时,Y 的概率分布5、 正态分布随机变量具有钟形概率密度;若要计算有关正态随机变量的概率,首先需要对其标准化,然后再查阅附录表1的标准正态累积分布表6、 简单随机抽样可以产生n 个随机观测值1Y ,...,n Y ,它们是独立分布的7、 样本均值n 1...Y Y Y Y ,,的估计量;当是总体均值μ为独立分布时,有: ①Y 的抽样分布均值为n 22Y=Y Y σσμ,方差为;②Y 是无偏的;③根据大数定律,Y 是一致的; ④根据中心极限定理,当样本容量较大时,Y 的抽样分布是近似正态的8、 t 统计量可以用来计算和原假设相关的p 值;较小的p 值意味着原假设是错误的9、 Y μ的95%置信区间是指在95%全部可能样本中包含Y μ真值的区间10、样本相关系数是总体相关系数的估计量,它度量了两个变量之间的线性关系—它们的散点图究竟有多近似于一条直线11、总体回归线X X +是10ββ的函数,表示Y 的均值:斜率1β表示X 变化一个单位时对应Y 的预期变化;截距0β决定了回归线的水平(或高低)12、利用样本观测数据(i i Y X ,),i=1,2,... ,n 使用普通最小二乘法可以估计总体回归线;回归截距和斜率的OLS 估计量分别记为10ˆˆββ和 13、2R 和回归标准误差(SER )度量了i Y 与总体回归线的接近程度;其中2R 的取值范围为0到1;2R 取值较大表明i Y 接近总体回归线;回归标准误差是回归误差的标准差的估计量14、线性回归模型中有三个重要假设:①给定i X 时误差项i μ的条件均值为零:0)(i i =X μE ; ②从联合总体中抽取的,,,,),,(n ...21i i i =Y X 满足独立同分布;③大异常值不存在:即i i Y X 和具有非零有限的四阶距;若这些假设成立,则OLS 估计量10ˆˆββ和是①无偏的②一致的③大样本时服从正态分布 15、对回归系数的假设检验类似于对总体均值的假设检验,都是利用t 统计量来计算p 值,从而确定是接受还是拒绝 原假设;类似于总体均值的置信区间,回归系数的95%置信区间为估计量±1.96标准误差16、如果三个最小二乘假设成立,回归误差同方差并且服从正态分布,则利用同方差适用标准误差计算的t 统计量在原假设下服从学生t 分布;当样本容量足够大时,学生t 分布和正态分布之间的差异可忽略不计17、若遗漏变量(1)与回归中的回归变量相关;(2)是Y 的决定因素之一,则会产生遗漏变量偏差(同时满足)18、多元回归模型是包含多个回归变量的线性回归模型,,,k 21...X X X ,每个回归变量都对应一个回归系数 ,,,,k 21...βββ其中系数1β表示在其他回归变量不变的情况下,1X 变化一个单位时Y 的预期变化,其他回归系数的解释与之类似19、可通过OLS 估计多元回归中的系数;当满足四个最小二乘假设时,OLS 估计量是无偏一致估计量,并且在i 大样本 下服从正态分布①给定i k i i 2i 1...μ时,,,X X X 的条件均值为零,即0...k i i 2i 1i =X X X ),,,(μE ;②从联合分布中抽取的i Y ),...i k i i 2i 1,,,,(X X X =1,...,n 满足独立同分布; ③不存在大异常值,即具有及,,i k i i 1...Y X X 非零有限四阶距; ④不存在完全多重共线性20、在多元回归中,当某个回归变量是其他回归变量的完全线性组合时就产生了完全多重共线性,通常是有选择回归变量时的错误引起的,因此处理完全多重共线性的方法是改变回归变量集21、回归标准误差、22R R 及都表示多元回归模型的拟合优度22、当系数涉及多个约束时的假设称为联合假设,可利用F 统计量进行检验23、在非线性回归中,总体回归函数的斜率依赖于一个或多个解释变量的取值24、两个变量的乘积项称为交互项,在回归中加入交互项可以使其中一个变量的回归斜率依赖于另一个变量的取值计算题P41 2.2 使用表2-2中的概率密度计算E(Y)和E(X)Pr(X=0)=0.30 Pr(X=1)=0.70Pr(Y=0)=0.20 Pr(Y=1)=0.78E(X)=0*0.30+1*0.70=0.70E(Y)=0*0.22+1*0.78=0.782.6下面的表格给出了基于2008年美国适龄人口从业状况和接受大学教育的联合分布(1)E(Y)=0*0.046+1*0.954=0.954(2)失业率=Pr(Y=0)=0.046(3)E(Y丨X=1)=0*Pr(Y=0丨X=1)+1*Pr(Y=1丨X=1)=0.332/0.341=0.9736E(Y丨X=0)=0*Pr(Y=0丨X=0)+1*Pr(Y=1丨X=0)=0.622/0.659=0.94385(4)大学毕业生的失业率=1-E(Y丨X=1)=1-0.9736=0.0264非大学毕业生的失业率=1-E(Y丨X=0)=1-0.94385=0.5615(5)Pr(X=1丨Y=0)=0.009/0.046=0.196Pr(X=0丨Y=0)=0.037/0.046=0.804(6)P(X=Xi,Y=Yi)=P(X=Xi)*P(Y=Yi)独立反之不独立P71 3.8对1000个随机抽取的高三学生安排一项新版的SAT测试。
《计量经济学》各章数据第4章异方差性例4.3.1我国制造工业利润函数。
表4.3.1列出了1998年我国主要制造工业销售收入与销售利润的统计资料(单位:亿元)。
表4.3.1 我国制造工业1998年销售利润与销售收入情况4.5 案例分析——中国农村居民人均消费函数中国农村居民人均消费支出主要由人均纯收入来决定。
农村人均纯收入除了从事农业经营的收入外,还包括非农经营收入,即从事其他产业的经营性收入及工资性收入、财产收入和转移支付收入等。
试根据表4.5.1数据,建立我国农村居民人均消费函数(采用对数模型):u X b X b b Y +++=22110ln ln ln其中,Y 表示农村人均消费支出,1X 表示从事农业经营的收入,2X 表示其他收入。
表4.5.1 中国2001年各地区农村居民家庭人均纯收入与消费支出(单位:元)资料来源:《中国农村住户调查年鉴》(2002),《中国统计年鉴》(2002)思考与练习10.建立住房支出模型:t t t u x b b y ++=10,样本数据如表1下(其中:y 是住房支出,x 是收入,单位:千美元):表1 住房支出与收入数据(1)用最小二乘法估计10,b b 的估计值、标准差、拟合优度。
(2)用Goldfeld-Quandt 检验异方差性(假设分组时不去掉任何样本值),取05.0=α。
(3)如果存在异方差性,假设222t t x σσ=,用加权最小二乘法重新估计10,b b 的估计值、标准差、拟合优度。
11.试根据表2中消费(y )与收入(x )的数据完成以下问题:(1)估计回归模型:t t t u x b b y ++=10;(2)检验异方差性(可用怀特检验、戈德菲尔德——匡特检验);(3)选用适当的方法修正异方差性。
表2 消费与收入数据12.考虑表3中的数据。
(1)估计OLS 回归方程:t t t u x b b y ++=10表3 样本数据(2)估计:tttttttu x b b y σσσσ++=11分析两个回归方程的结果。
《计量经济学》各章数据第3章 多元线性回归模型例3.1.1 经过研究,发现家庭书刊消费水平受家庭收入及户主受教育年数的影响。
现对某地区的家庭进行抽样调查,得到样本数据如表3.1.1所示,其中y 表示家庭书刊消费水平(元/年),x 表示家庭收入(元/月),T 表示户主受教育年数。
下面我们估计家庭书刊消费水平同家庭收入、户主受教育年数之间的线性关系。
回归模型设定如下: t t t t u T b x b b y +++=210(t =1,2, …)表3.1.1 某地区家庭书刊消费水平及影响因素的调查数据表例3.4.1根据表3.4.1给出的中国1980-2003年间总产出(用国内生产总值GDP度量,单位:亿元),劳动投入L(用从业人员度量,单位为万人),以及资本投入K(用全社会固定投资度量,单位:亿元),试建立我国的柯布——道格拉斯生产函数。
表3.4.1 1980-2003年中国GDP、劳动投入与资本投入数据例3.4.2 某硫酸厂生产的硫酸透明度一直达不到优质要求,经分析透明度低与硫酸中金属杂质的含量太高有关。
影响透明度的主要金属杂质是铁、钙、铅、镁等。
通过正交试验的方法发现铁是影响硫酸透明度的最主要原因。
测量了47组样本值,数据见表3.4.3。
试建立硫酸透明度(y)与铁杂质含量(x)的回归模型。
表3.4.3 硫酸透明度(y)与铁杂质含量(x)数据例3.4.3假设某企业在15年中每年的产量Y(件)和总成本X(元)的统计资料表3.4.7所示,试估计该企业的总成本函数模型。
表3.4.7 某企业15年中每年总产量与总成本统计资料3.6.1 案例1——中国经济增长影响因素分析根据表3.6.1给出的1980-2003年间总产出(用国内生产总值GDP度量,单位:亿元),最终消费CS(单位:亿元),投资总额I(用固定资产投资总额度量,单位:亿元),出口总额(单位:亿元)统计数据,试对中国经济增长影响因素进行回归分析。
计量经济学〔第4版〕数据表表某社区家庭每个月收入与花费支出统计表每个月家庭可支配收入X〔元〕800110014001700200023002600290032003500每5616388691023125414081650196920902299月5947489131100130914521738199121342321家6278149241144136415511749204621782530庭6388479791155139715951804206822662629消93510121210140816501848210123542860费96810451243147416721881218924862871支1078125414961683192522332552出1122129814961716196922442585Y1155133115621749202122992640〔元〕11881364157317712035231012101408160618042101143016501870211214851716194722002002合计242049501149516445193052387025025214502128515510表参数预计的计算表1800638-1350-94512756151822500892836640000407044 21100935-1050-64868029511025004197741210000874225 314001155-750-42832092556250018309819600001334025417001254-450-32914800520250010817528900001572516520001408-150-175262352250030590400000019824646230016501506710065225004502529000027225007260019254503421539452025001170326760000370562582900206875048536382556250023532284100004276624932002266105068371725511025004666265134756 10350025301350947127858518225008969986400900乞降2150015829497475074250003354955均匀21501583表中国各地域居民家庭人均整年可支配收入与人均整年花费性支出〔元〕地域可支配收入花费支出地域可支配收入花费支出X Y X Y北京湖北天津湖南河北广东山西广西内蒙古海南辽宁重庆吉林四川黑龙江贵州上海云南江苏西藏浙江陕西安徽甘肃福建青海江西宁夏山东新疆河南资料根源:?中国统计年鉴?〔2021〕。
计量经济学数据计量经济学是经济学的一个重要分支,主要研究经济现象的量化分析和经济模型的构建。
在计量经济学研究中,数据是至关重要的,它提供了对经济现象进行分析和验证的基础。
本文将介绍计量经济学数据的标准格式和一些常用的数据类型。
一、计量经济学数据的标准格式计量经济学数据通常以表格的形式呈现,其中包括以下几个主要部份:1. 变量名称:表格的第一行通常是变量名称,用于标识每一列数据所代表的经济变量。
例如,可以包括GDP(国内生产总值)、CPI(消费者物价指数)、投资等。
2. 时间序列:表格的第一列通常是时间序列,用于标识每一行数据所对应的时间点。
时间序列可以按照不同的频率进行分类,如年度数据、季度数据、月度数据等。
3. 数据值:表格的其他单元格中填写了相应的数据值,代表了每一个变量在不同时间点上的观测值。
数据可以是实数,也可以是离散的分类变量。
4. 单位:表格的第一列下方通常注明了数据的单位,用于说明数据所代表的具体含义,如货币单位、百分比等。
5. 数据来源:表格的最底部通常注明了数据的来源,包括调查机构、统计局等。
这有助于保证数据的可信度和可重复性。
二、常用的计量经济学数据类型在计量经济学研究中,常用的数据类型包括以下几种:1. 时间序列数据:时间序列数据是按照时间顺序罗列的一系列观测值,用于分析经济变量随时间的变化趋势和周期性。
例如,GDP的年度数据就是一种时间序列数据。
2. 截面数据:截面数据是在某一特定时间点上对不同个体进行观测得到的数据,用于分析不同个体之间的差异和关系。
例如,不同地区的失业率数据就是一种截面数据。
3. 面板数据:面板数据是时间序列数据和截面数据的结合,既包括对不同个体的多次观测,也包括对同一时间点的多个个体观测。
面板数据可以用于分析个体特征和时间效应对经济变量的影响。
4. 横截面时间序列数据:横截面时间序列数据是对多个个体在多个时间点上的观测数据,既包括截面数据的横截面特征,也包括时间序列数据的时间特征。
计量经济学数据类型
“计量经济学”是指利用经济学理论和数学统计方法来研究实际的经济问题。
数据是计量经济学研究的重要基础,计量经济学中常见的数据类型如下:
1. 时间序列数据:时间序列数据是按时间顺序排列的数据,例如经济指标、股票价格、汇率等。
应用:基于时间序列数据进行趋势预测和时间序列分析,例如预测未来的经济增长率、通货膨胀率、利率等。
2. 横截面数据:横截面数据是在相同时间点上针对不同个体所收集的数据,例如收入、教育程度、职业等。
应用:基于横截面数据进行个体变量的比较分析,例如探讨收入水平与教育程度的关系、职业类型与收入的关系等。
3. 面板数据:面板数据是同时包含时间序列和横截面数据的数据,例如企业的经济数据、家庭调查数据等。
应用:基于面板数据进行个体和时间变量的研究,例如探讨企业投资和利润的关系、家庭收支变化的影响因素等。
4. 实验数据:实验数据是通过对特定因素进行控制来获取的数据,例如经济政策的实验数据、招聘决策的实验数据等。
应用:基于实验数据进行因果关系的分析,例如探讨各种政策对实体经济的影响、探讨招聘流程中不同因素对应聘者选择和工作表现的影响等。
以上数据类型及其应用是计量经济学研究中常见的基础。
在实际应用中,根据实际问题和数据可用性,研究者可以将不同类型的数据进行组合分析,以获取更深入的结论。
1、截面数据:截面数据是许多不同的观察对象在同一时间点上的取值的统计数据集合,可理解为对一个随机变量重复抽样获得的数据。
2、时间序列数据:时间序列数据是同一观察对象在不同时间点上的取值的统计序列,可理解为随时间变化而生成的数据。
3、虚变量数据:虚拟变量数据是人为设定的虚拟变量的取值。
是表征政策、条件等影响研究对象的定性因素的人工变量,其取值一般只取“0”或“1”。
4、内生变量与外生变量:内生变量是由模型系统决定同时可能也对模型系统产生影响的变量,是具有某种概率分布的随机变量,外生变量是不由模型系统决定但对模型系统产生影响的变量,是确定性的变量。
5、总体回归函数:是指在给定X i 下Y 分布的总体均值与X i 所形成的函数关系(或者说将 总体被解释变量的条件期望表示为解释变量的某种函数)6、最大似然估计法(ML ): 又叫最大或然法,指用产生该样本概率最大的原则去确定样本 回归函数的方法。
7、OLS 估计法:指根据使估计的剩余平方和最小的原则来确定样本回归函数的方法。
8、残差平方和:用RSS 表示,用以度量实际值与拟合值之间的差异,是由除解释变量之外 的其他因素引起的被解释变量变化的部分。
9、拟合优度检验:指检验模型对样本观测值的拟合程度,用2R 表示,该值越接近1表示拟合程度越好。
10、多元线性回归模型:在现实经济活动中往往存在一个变量受到其他多个变量影响的现象,表现在线性回归模型中有多个解释变量,这样的模型被称做多元线性回归模型,多元是指多个解释变量。
11、调整的可决系数:又叫调整的决定系数,是一个用于描述多个解释变量对被解释变量的联合影响程度的统计量,克服了2R 随解释变量的增加而增大的缺陷,与2R 的关系为2211(1)1n R R n k -=----。
12、偏回归系数:在多元回归模型中,每一个解释变量前的参数即为偏回归系数,它测度了当其他解释变量保持不变时,该变量增加1单位对被解释变量带来的平均影响程度。
数据集概述:计量经济学导论伍德里奇数据集是一个包含了多个经济指标的样本数据集,用于开展计量经济学研究和统计推断。
该数据集是经济计量学领域中常用的数据集之一,可用于分析各种经济现象之间的相互关系和影响。
本篇文章将介绍数据集的基本情况、样本选择的原因和意义,以及数据预处理和结果分析的方法。
数据集特点:计量经济学导论伍德里奇数据集包含了多个经济指标的时间序列数据,包括国内生产总值、失业率、消费支出、投资额等。
这些指标涵盖了宏观经济领域的多个方面,可以用于分析各种经济现象之间的相互关系和影响。
数据集的时间跨度较长,包含了多个年份的数据,为研究经济变化提供了丰富的样本。
此外,数据集还提供了不同年份的季节调整数据,方便了对经济指标进行更准确的统计分析。
样本选择原因和意义:本篇文章选择计量经济学导论伍德里奇数据集作为研究样本的原因和意义在于,该数据集包含了多个重要的宏观经济指标,可以用于分析宏观经济现象之间的相互关系和影响。
通过对该数据集进行深入分析和挖掘,可以更好地了解经济运行规律和趋势,为政策制定和预测提供更有价值的参考依据。
此外,该数据集还可以用于检验计量经济学模型的准确性和适用性,为经济学的理论研究和应用提供有力的支持。
数据预处理:在进行数据分析之前,需要对数据进行预处理,包括缺失值填充、异常值处理和数据清洗等。
在本篇文章中,我们采用了以下方法进行数据预处理:1. 缺失值填充:对于缺失的数据,我们采用了均值插补的方法进行了填充。
2. 异常值处理:通过对数据进行箱型图观察,剔除了明显异常的数据点。
3. 数据清洗:对不符合要求的数据进行了清洗,如去除无效样本和不符合研究目的的数据。
结果分析:通过对预处理后的数据进行统计分析,我们发现了一些有趣的结论:1. 国内生产总值和失业率之间存在负相关关系,即当失业率上升时,国内生产总值也相应下降。
这可能是由于失业率上升时,消费者和投资者的信心受到影响,导致需求下降,进而影响到经济增长。
计量经济学数据引言:计量经济学是经济学中的一个分支,它运用数理统计学和经济学的原理,通过收集和分析经济数据来研究经济现象和经济政策的影响。
在计量经济学中,数据的质量和准确性对于研究结果的可靠性至关重要。
本文将介绍计量经济学中常用的数据类型、数据来源、数据处理和数据分析方法。
一、数据类型在计量经济学中,数据可以分为两种类型:横截面数据和时间序列数据。
1. 横截面数据:横截面数据是在某个特定时间点上对不同个体进行观察和测量的数据。
例如,我们可以通过调查收集到某一年份不同家庭的收入、教育水平、家庭规模等信息。
2. 时间序列数据:时间序列数据是在一段时间内对同一事物进行观察和测量的数据。
例如,我们可以通过统计机构的报告获得过去几年某个国家的GDP增长率、失业率等信息。
二、数据来源计量经济学的数据可以从多个来源获取,常见的数据来源包括:1. 统计机构:各国的统计机构通常会发布各种经济指标和统计数据,如国内生产总值(GDP)、劳动力市场数据、物价指数等。
这些数据通常经过严格的调查和统计,具有较高的可靠性。
2. 调查数据:研究人员可以通过设计并实施调查来收集经济数据。
例如,通过问卷调查收集企业的生产成本、消费者的购买意愿等数据。
调查数据的质量和准确性取决于样本的选择和问卷设计等因素。
3. 学术研究:研究人员在进行学术研究时,通常会使用已有的学术文献和研究成果中的数据。
这些数据通常经过严格的检验和验证,具有较高的可信度。
三、数据处理在计量经济学中,数据处理是非常重要的一步,它包括数据清洗、数据转换和数据标准化等过程。
1. 数据清洗:数据清洗是指对收集到的原始数据进行筛选和清理,去除异常值、缺失值和错误值等。
这样可以提高数据的质量和准确性,确保后续分析的可靠性。
2. 数据转换:数据转换是指对原始数据进行变换,使其符合模型假设和分析的要求。
常见的数据转换包括对数转换、差分运算等。
3. 数据标准化:数据标准化是指将不同尺度和单位的数据转化为统一的尺度和单位,以便进行比较和分析。
例1.3序列T和H分别表示某地区1997年1月至2000年12月的气温和绝对湿度的月平均值序列,数据见表1.2。
要求绘制序列H的经验累计分布函数图和它与序列T的QQ 图。
例2.1表2.1是1950—1987年间美国机动车汽油消费量和影响消费量的变量数值。
其中各变量表示:qmg—机动车汽油消费量(单位:千加仑);car—汽车保有量;pmg—机动汽油零售价格;pop—人口数;rgnp—按1982年美圆计算的gnp(单位:十亿美圆);pgnp —gnp指数(以1982年为100)。
以汽油量为因变量,其他变量为自变量,建立一个回归模型。
ls car c pmg pop rgnp pgnp
ls qmg c car pmg pop rgnp pgnp
ls car c pmg pop rgnp pgnp
scalar vifcar=1/(1-eqcar.@r2)
eq01.testdrop car
Ls qmg-qmg(-1) car-car(-1) pmg-pmg(-1) pop-pop(-1) rgnp-rgnp(-1) pgnp-pgnp(-1)
Ls qmg-qmg(-1) car-car(-1)
Ls qmg c qmg(-1) car car(-1) pmg pmg(-1) pop pop(-1) rgnp rgnp(-1) pgnp pgnp(-1)
Ls qmg c qmg(-1) car pmg pmg(-1) pop pop(-1) rgnp rgnp(-1) pgnp
Ls qmg c qmg(-1) car pmg pmg(-1) pop pop(-1) rgnp(-1) pgnp Ls qmg c qmg(-1) car pmg pmg(-1) pop pop(-1) rgnp(-1)
Eq01.testdrop pgnp
Ls qmg c qmg(-1) car pmg pmg(-1) pop pop(-1) rgnp(-1)
pgnp(-2)
Ls c
Scalar beta0=eq04.@
Dependent Variable: QMG
Method: Least Squares
Date: 10/16/12 Time: 19:02
Sample: 1950 1987
Included observations: 38
Variable Coefficient Std. Error t-Statistic Prob.
C 68497350 13416155 5.105587 0.0000
CAR 1.587677 0.137742 11.52646 0.0000
PMG -10375410 3346338. -3.100526 0.0040
POP -462.2931 108.0825 -4.277224 0.0002
RGNP -12666.47 5248.346 -2.413421 0.0217
PGNP -579453.0 59259.84 -9.778173 0.0000
R-squared 0.991878 Mean dependent var 80901846
Adjusted R-squared 0.990608 S.D. dependent var 22972717
S.E. of regression 2226295. Akaike info criterion 32.21351
Sum squared resid 1.59E+14 Schwarz criterion 32.47208
Log likelihood -606.0568 Hannan-Quinn criter. 32.30551
F-statistic 781.5361 Durbin-Watson stat 0.869418
Prob(F-statistic) 0.000000
例2.2为研究采取某项保险革新措施的速度y与保险公司的规模x1和保险公司类型的关系,选取下列数据:y—一个公司提出该项革新直至革新被采纳间隔的月数,x1—公司的资产总额(单位:百万元),x2—定性变量,表示公司类型:其中1表示股份制公司,0表示互助公司。
数据资料见表2.5。
表2.5 (0205)保险公司革新数据
要建立的模型:
i i i i x x y εβββ+++=22110
得到模型为
y=33.87407-0.101742*x1+8.055469*x2
差分回归方程:
t t x y ∇=∇*65.0
即
1165.065.0---=-t t t t x x y y
即
1165.065.0---+=t t t t x x y y
消除自相关的模型:
qmg=75541509.38+1.4390*car-10354749*pmg-503.50*pop-5290.80*rgnp-565089.4*pgnp
求:
1. Y 关于X1、X2、X3、X4和X5的回归方程;
2. 对回归方程和解释变量做显著性检验;
3. 当X1=4,X2=8,X3=7,X4=36%,X5=8时,对楼盘的均价进行预测。
例3.1表3.3是某企业在16个月度的产品产量和单位成本资料,研究二者关系。
表3.3 (0301)某企业某产品产量和单位成本资料
月度序号obs 产量(台)x 单机位成本(元/台)y
1 4300 346.23
2 4004 343.34
3 4300 327.46
4 5016 313.27
5 5511 310.75
6 5648 307.61
7 5876 314.56
8 6651 305.72
9 6024 310.82
10 6194 306.83
11 7558 305.11
12 7381 300.71
13 6950 306.84
14 6471 303.44
15 6354 298.03
16 8000 296.21
为了明确产量和单机成本是何种关系,先绘制散点图。
双曲线模型:y=a+b/x
对数曲线模型:y=a+blnx
双对数曲线模型:lny=a+lnx
在自变量个数K=1,样本量n=16,在显著性水平 =0.01下,d L=0.84,d u=1.00,此时有D.W=1.151568
D.W=1.115981
D.W=1.156127
均有d u=1.0≤D.W=1.151568≤4- d u=3
说明三种模型来描述x与y的关系都比较好。
例3.2 根据例3.1中数据,用非线性最小二乘法建立成本函数模型
例3.3粮食产量通常由粮食生产劳动力(L)、化肥施用量(K)等因素决定。
表3.8是我国粮食生产的有关数据(由于粮食生产劳动力不易统计,假定它在农业劳动力中的比例是一定的,故用农业劳动力的数据代替),研究其间关系,建立Cobb—Douglas生产函数模型。
生产的产出量与投入要素之间并不简单地满足线性关系,通常讨论的生产函数,都是以非线性的形式出现。
Cobb—Douglas生产函数模型为
Y=aL b K1-b(3.2.4)
例4.1我国轿车保有量资料见表4.1
例4.6我国民航客运量数据的季节调整。
有关数据见表4.6
例5.4序列Pt是某国1960年至1993年GNP平减指数的季度时间序列。
例5.6表5.4是我国1990年1月至1997年12月工业总产值的月度资料(1990年不变价格),记作IP t,共有96个观测值,对序列IP t建立ARMA模型。
表5.4 1990年1月至1997年12月我国工业总产值单位:亿元
例5.6 表5.4是我国1990年1月至1997年12月工业总产值2资料(1990年不变价格),记作ipt,共有96个观测值,对序列ipt建立ARMA模型。
例6.1表6.1是某水库1998年至2000年各旬的流量、降水量数据。
试对其建立多项式分布滞后模型。
整的中国城镇居民月人均可支配收入和人均生活费支出时间序列,现以人均生活费支出Zt 为因变量,建立自回归分布滞后模型。
表6.6 城镇居民月人均人均生活费支出和可支配收入调整时间序列单位:元
例7.1 表7.1是美国各州和地方政府费用支出数据。
其中,GOV为政府开支,AID为联邦政府拨款额,INC为各州收入的自然对数,POP为各州人口总数,PS为小学与中学在
校人数。
欲建立如下联立方程模型:
0123GOV AID INC POP ααααε=++++ (7.1.10) 012AID GOV PS βββν
=+++ (7.1.11)
例7.4 序列Y1、Y2和Y3分别表示我国1952年至1988年工业部门、交通运输部门和商务部门的产出指数序列,见表7.7。
试建立V AR模型。
表7.7 我国三部门产出指数序列单位:%
例8.1序列S t和X t分别代表1951年至1998年我国商品零售物价指数和居民消费价格指数,见表8.1。