第4章 回归模型中的随机误差项问题
- 格式:ppt
- 大小:1.11 MB
- 文档页数:76
第四章 多元线性回归模型在一元线性回归模型中,解释变量只有一个。
但在实际问题中,影响因变量的变量可能不止一个,比如根据经济学理论,人们对某种商品的需求不仅受该商品市场价格的影响,而且受其它商品价格以及人们可支配收入水平的制约;影响劳动力劳动供给意愿(用劳动参与率度量)的因素不仅包括经济形势(用失业率度量),而且包括劳动实际工资;根据凯恩斯的流动性偏好理论,影响人们货币需求的因素不仅包括人们的收入水平,而且包括利率水平等。
当解释变量的个数由一个扩展到两个或两个以上时,一元线性回归模型就扩展为多元线性回归模型。
本章在理论分析中以二元线性回归模型为例进行。
一、预备知识(一)相关概念对于一个三变量总体,若由基础理论,变量21,x x 和变量y 之间存在因果关系,或21,x x 的变异可用来解释y 的变异。
为检验变量21,x x 和变量y 之间因果关系是否存在、度量变量21,x x 对变量y 影响的强弱与显著性、以及利用解释变量21,x x 去预测因变量y ,引入多元回归分析这一工具。
将给定i i x x 21,条件下i y 的均值i i i i i x x x x y E 2211021),|(βββ++= (4.1) 定义为总体回归函数(Population Regression Function,PRF )。
定义),|(21i i i i x x y E y -为误差项(error term ),记为i μ,即),|(21i i i i i x x y E y -=μ,这样i i i i i x x y E y μ+=),|(21,或i i i i x x y μβββ+++=22110 (4.2)(4.2)式称为总体回归模型或者随机总体回归函数。
其中,21,x x 称为解释变量(explanatory variable )或自变量(independent variable );y 称为被解释变量(explained variable )或因变量(dependent variable );误差项μ解释了因变量的变动中不能完全被自变量所解释的部分。
第4章违背基本假设的情况思考与练习参考答案4.1 试举例说明产生异方差的原因。
答:例4.1:截面资料下研究居民家庭的储蓄行为Y i=β0+β1X i+εi其中:Y i表示第i个家庭的储蓄额,X i表示第i个家庭的可支配收入。
由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以εi的方差呈现单调递增型变化。
例4.2:以某一行业的企业为样本建立企业生产函数模型Y i=A iβ1K iβ2L iβ3eεi被解释变量:产出量Y,解释变量:资本K、劳动L、技术A,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。
由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。
这时,随机误差项ε的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。
4.2 异方差带来的后果有哪些?答:回归模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果:1、参数估计量非有效2、变量的显著性检验失去意义3、回归方程的应用效果极不理想总的来说,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。
4.3 简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。
答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。
其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。
在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。
然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。
由OLS 求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。
所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。
第一章 绪论思考题1.1怎样理解产生于西方国家的计量经济学能够在中国的经济理论研究和现代化建设中发挥重要作用?答:计量经济学的产生源于对经济问题的定量研究,这是社会经济发展到一定阶段的客观需要。
计量经济学的发展是与现代科学技术成就结合在一起的,它反映了社会化大生产对各种经济因素和经济活动进行数量分析的客观要求。
经济学从定性研究向定量分析的发展,是经济学逐步向更加精密、更加科学发展的表现。
我们只要坚持以科学的经济理论为指导,紧密结合中国经济的实际,就能够使计量经济学的理论与方法在中国的经济理论研究和现代化建设中发挥重要作用。
1.2理论计量经济学和应用计量经济学的区别和联系是什么?答:计量经济学不仅要寻求经济计量分析的方法,而且要对实际经济问题加以研究,分为理论计量经济学和应用计量经济学两个方面。
理论计量经济学是以计量经济学理论与方法技术为研究内容,目的在于为应用计量经济学提供方法论。
所谓计量经济学理论与方法技术的研究,实质上是指研究如何运用、改造和发展数理统计方法,使之成为适合测定随机经济关系的特殊方法。
应用计量经济学是在一定的经济理论的指导下,以反映经济事实的统计数据为依据,用计量经济方法技术研究计量经济模型的实用化或探索实证经济规律、分析经济现象和预测经济行为以及对经济政策作定量评价。
1.3怎样理解计量经济学与理论经济学、经济统计学的关系?答:1、计量经济学与经济学的关系。
联系:计量经济学研究的主体—经济现象和经济关系的数量规律;计量经济学必须以经济学提供的理论原则和经济运行规律为依据;经济计量分析的结果:对经济理论确定的原则加以验证、充实、完善。
区别:经济理论重在定性分析,并不对经济关系提供数量上的具体度量;计量经济学对经济关系要作出定量的估计,对经济理论提出经验的内容。
2、计量经济学与经济统计学的关系。
联系:经济统计侧重于对社会经济现象的描述性计量;经济统计提供的数据是计量经济学据以估计参数、验证经济理论的基本依据;经济现象不能作实验,只能被动地观测客观经济现象变动的既成事实,只能依赖于经济统计数据。
第四章 方差分量线性回归模型本章考虑的线性模型不仅有固定效应、随机误差,而且有随机效应。
我们先从随机效应角度理解回归概念,导出方差分量模型,然后研究模型三种主要解法。
最后本章介绍关于方差分量模型的两个前沿研究成果,是作者近期在《应用数学学报》与国际数学杂志《Communications in Statistics 》上发表的。
第一节 随机效应与方差分量模型一、随机效应回归模型前面所介绍的回归模型不仅都是线性的,而且自变量看作是固定效应。
我们从资料对npi i i X X Y 11},,{ 出发建立回归模型,过去一直是把Y 看作随机的,X 1,…,X p 看作非随机的。
但是实际上,自变量也经常是随机的,而并不是我们可以事先设计好的设计矩阵。
我们把自变量也是随机变量的回归模型称为随机效应回归模型。
究竟一个回归模型的自变量是随机的还是非随机的,要视具体情况而定。
比如一般情况下消费函数可写为)(0T X b C C(4.1.1)这里X 是居民收入,T 是税收,C 0是生存基本消费,b 是待估系数。
加上随机扰动项,就是一元线性回归模型)(0T X b C C(4.1.2)那么自变量到底是固定效应还是随机效应?那要看你采样情况。
如果你是按一定收入的家庭去调查他的消费,那是取设计矩阵,固定效应。
如果你是随机抽取一些家庭,不管他收入如何都登记他的收入与消费,那就是随机效应。
对于随机效应的回归模型,我们可以从条件期望的角度推导出与最小二乘法则等价的回归函数。
我们希望通过X 预测Y ,也就是要寻找一个函数),,()(1p X X M X M Y ,当X 的观察值为x 时,这个预测的误差平均起来应达到最小,即22)]([min )]([X L Y E X M Y E L(4.1.3)这里min 是对一切X 的可测函数L(X)取极小。
由于当)|()(X Y E X M(4.1.4)时,容易证明0)]()()][([ X L X M X M Y E(4.1.5)故当)|()(X Y E X M 时,222)]()([)]([)]([X L X M E X M Y E X L Y E(4.1.6)要使上式左边极小,只有取)|()()(X Y E X M X L 。
第一章绪论一、填空题:1.计量经济学是以揭示经济活动中客观存在的__________为内容的分支学科,挪威经济学家弗里希,将计量经济学定义为__________、__________、__________三者的结合。
2.数理经济模型揭示经济活动中各个因素之间的__________关系,用__________性的数学方程加以描述,计量经济模型揭示经济活动中各因素之间__________的关系,用__________性的数学方程加以描述。
3.经济数学模型是用__________描述经济活动。
4.计量经济学根据研究对象和内容侧重面不同,可以分为__________计量经济学和__________计量经济学。
5.计量经济学模型包括__________和__________两大类。
6.建模过程中理论模型的设计主要包括三部分工作,即__________、____________________、____________________。
7.确定理论模型中所包含的变量,主要指确定__________。
8.可以作为解释变量的几类变量有__________变量、__________变量、__________变量和__________变量。
9.选择模型数学形式的主要依据是__________。
10.研究经济问题时,一般要处理三种类型的数据:__________数据、__________数据和__________数据。
11.样本数据的质量包括四个方面__________、__________、__________、__________。
12.模型参数的估计包括__________、__________和软件的应用等内容。
13.计量经济学模型用于预测前必须通过的检验分别是__________检验、__________检验、__________检验和__________检验。
14.计量经济模型的计量经济检验通常包括随机误差项的__________检验、__________检验、解释变量的__________检验。
© 陈强,2015年,《计量经济学及Stata应用》,高等教育出版社。
第4章一元线性回归4.1 一元线性回归模型为什么在青少年时期要选择上学?除了满足好奇心、求知欲及个人成长外,一个重要原因是教育能提高未来的收入水平。
如何从理论上解释教育投资的回报率(returns to schooling)?12Mincer (1958)提出基于效用最大化的理性选择模型:个体选择多上一年学,则需推迟一年挣钱(另需交学费);为弥补其损失,市场均衡条件要求给予受教育多者更高的未来收入。
由此可得工资对数与教育年限的线性关系:ln w s αβ=+ (4.1)ln w 为工资对数,s 为教育年限(schooling),而α与β为参数。
α为截距项,表示当教育年限为0时的工资对数水平,因为ln 0w αβα=+⋅=。
3β为斜率,表示教育年限对工资对数的边际效应,即每增加一年教育,将使工资增加百分之几,因为对方程(4.1)两边求导可得ln dw wd w w w ds ds sβ∆==≈∆ (4.2)教育年限只是影响工资的因素之一。
严格来说,方程(4.1)应为ln w s αβ=++其他因素 (4.3)将其他因素记为ε,则有ln w s αβε=++(4.4)方程(4.4)即劳动经济学(labor economics)中著名的明瑟方程(the Mincer equation)的基本形式(Mincer, 1974)。
但多上一年学,究竟能使未来收入提高百分之几?这取决于参数β的取值。
明瑟模型并未提供关于α与β具体取值的信息。
对于这种定量问题(quantitative question),只有通过数据才能给出定量回答(quantitative answer)。
需要用计量经济学方法,通过样本数据来估计未知参数α与β。
4明瑟模型推断工资对数与教育年限为线性关系,此预言是否与现实数据相符?使用数据集grilic.dta来考察,此数据集包括758位美国年轻男子的教育投资回报率数据。
4.9 1)由上表可知,普通最小二乘法所建立的回归方程为831.0004.0ˆ-=x y残差散点图为(1)诊断该问题是否存在异方差。
第一步,由残差图可以知道,残差图中53个散点并不是随机的,残差e 随y 值得增大而增大,具有明显的规律,所以可以认为模型的随机误差项i ε的方差是非齐性的,可以初步认为该问题中存在异方差。
第二步,用等级相关系数法进一步的检验首先,用Excel 计算出残差绝对值|i e |,然后利用SPSS 软件,用斯皮尔曼等级相关法进行计算与i x 的等级相关系数,输出结果如表:可以得到等级相关系数为0.318,p=0.021所以可以认为残差绝对值与i x 之间相关,存在异方差。
综上两种方法,可以知道,该问题存在异方差。
(2)如果存在异方差,用幂指数型的权函数建立加权最小二乘回归方程。
由SPSS 软件中的权重估计可以得到当m=1.5,似然函数的值达到最大,由系数表可以知道,此时,加权最小二乘幂指数m 的最优取值为1.5的时候的,回归方程为:683.0004.0ˆ-=x y(3)用方差稳定变换y y =’消除异方差。
首先计算:用Excel 计算出y y =’,然后用SPSS 软件计算出结果中系数表为:由系数表可以知道此时回归方程为582.0001.0ˆ+=x y下面将普通最小二乘估计与做变换后的结果进行比较:首先,由残差图可以知由上图可知道,此时,残差图完全随机分布在0的上方。
另外,由SPSS计算出此时的残差绝对值与x的等级相关系数表如下:此时等级相关系数为0.318,P值为0.021此时说明已消除了异方差的影响,但由于此时的决定系数R方为0.648小于最小二乘估计的R方0.705。
说明此时回归效果并不比最小二乘估计有效。
4.13(1)由普通最小二乘法建立y与x的回归方程。
由上表可知y与x的回归方程为:435.1176.0ˆ-=xy由回归系数的显著性知道,t=107.928 p=0说明自变量对因变量的线性显著影响。