第七章 多重共线性
- 格式:doc
- 大小:50.50 KB
- 文档页数:2
第七章 多重共线性习题与答案1、多重共线性产生的原因是什么?2、检验多重共线性的方法思路是什么?有哪些克服方法?3、考虑一下模型:Y t =β1+β2X t +β3X 1-t +4βX 2-t +5βX 3-t +6βX 4-t +u t其中Y =消费,X =收入,t =时间。
上述模型假定了时间t 的消费支出不仅是时间t 的收入,而且是以前多期的收入的函数。
例如,1976年第一季度的消费支出是同季度收入合1975年的四个季度收入的函数。
这类模型叫做分布滞后模型(distributed lag models )。
我们将在以后的一掌中加以讨论。
(1) 你预期在这类模型中有多重共线性吗?为什么?(2)如果预期有多重共线性,你会怎么样解决这个问题?4、已知回归模型μβα++=N E ,式中E 为某类公司一名新员工的起始薪金(元),N 为所受教育水平(年)。
随机扰动项μ的分布未知,其他所有假设都满足。
(1)从直观及经济角度解释α和β。
(2)OLS 估计量αˆ和βˆ满足线性性、无偏性及有效性吗?简单陈述理由。
(3)对参数的假设检验还能进行吗?简单陈述理由。
5、根据1899—1922年在美国制造业部门的年度数据,多尔蒂(Dougherty )获得如下回归结果:LogY=2.81 - 0.53logK+ 0.91logL + 0.047tSe =(1.38)(0.34) (0.14) (0.021)R 2=0.97 F=189.8其中Y =实际产生指数,K=实际资本投入指数,L=实际劳力投入指数,t =时间或趋势。
利用同样数据,他又获得一下回归:(1)回归中有没有多重共线性?你怎么知道?(2)在回归(1)中,logK 的先验符号是什么?结果是否与预期的一致?为什么或为什么不?(3)你怎样替回归的函数形式(1)做辩护:(提示:柯柏—道格拉斯生产函数。
)(4)解释回归(1)在此回归中趋势变量的作用为何?(5)估计回归(2)的道理何在?(6)如果原先的回归(1)有多重共线性,是否已被回归(2)减弱?你怎样知道?(7)如果回归(2)被别看作回归(1)的一个受约束形式,作者施加的约束是什么呢?(提示:规模报酬)你怎样知道这个约束是否正确?你在哪一种检验?说明你的计算。
第七章多重共线性第七章多重共线性若线性模型不满⾜假定6,就称模型有多重共线性。
§7.1 多重共线性的概念⼀. 基本概念:假定6 ()1k r X k n =+<,是指模型中所有⾃变量12,,,,k x x x 1线性⽆关,也可理解为矩阵X 的列向量线性⽆关。
若不满⾜该假定,即 ()1k r X k <+,则称12,,,,k x x x 1存在完全多重共线性,12,,,,k x x x 1存在严格的线性关系,这是⼀种极端情况;若12,,,,k x x x 1之间的线性关系不是严格的,⽽是⼀种近似的线性关系,则称⾼度相关或存在不完全多重共线性。
如,01122i i i i y x x u βββ=+++ 若12,λλ?不全为零,使11220i i x x λλ+=,完全多重共线性11220i i i x x v λλ++= 不完全多重共线性完全多重共线性和不完全多重共线性统称为多重共线性。
解释变量(⾃变量)之间的线性关系可⽤拟合优度2i R 描述,2i R 表⽰i x 对其它解释变量的拟合优度,21i R = 完全 21i R ≈⾼度 20i R = ⽆⼆. 产⽣的原因:在实际经济问题中主要是不完全多重共线性。
其产⽣的主要原因是:1. 两个解释变量具有相同或相反的变化趋势;(家庭能耗与住房⾯积、⼈⼝)⽣产、需求.......2. 数据收集的范围过窄,造成解释变量之间有相同或相反变化的假象;3. 某些解释变量之间存在某种近似的线性关系;(各解释变量有相同的时间趋势)4. ⼀个变量是另⼀个变量的滞后值;供给5. 解释变量的选择不当也可能引起变量间的多重共线性。
6. 过度决定模型。
(观测值个数少于参数个数)对于正确设置的模型,多重共线性基本上是⼀种样本现象。
§7.2 多重共线性的后果⼀. 完全多重共线性当模型具有完全多重共线性时,⽆法进⾏参数的OLS 估计;设模型 Y XB U =+,若有完全多重共线性,即()1k r X k <+,则()1T r X X k <+ 1()T X X -?不存在1()T TB X X X Y ∧-?=不存在,同样 21()()Tj u jj V X X βσ∧-=也不存在,显著性检验和预测都⽆法进⾏。
第七章 多重共线性及其处理第一部分 学习辅导一、本章学习目的与要求1.理解多重共线性的概念;2.掌握多重共线性存在的主要原因;3.理解多重共线性可能造成的后果;4.掌握多重共线性的检验与修正的方法。
二、本章内容提要本章主要介绍计量经济模型的计量经济检验。
即多重共线性问题。
多重共线性是多元回归模型可能存在的一类现象,分为完全共线与近似共线两类。
模型的多个解释变量间出现完全共线性时,模型的参数无法估计。
更多的情况则是近似共线性,这时,由于并不违背所有的基本假定,模型参数的估计仍是无偏、一致且有效的,但估计的参数的标准差往往较大,从而使得t 统计值减小,参数的显著性下降,导致某些本应存在于模型中的变量被排除,甚至出现参数正负号方面的一些混乱。
显然,近似多重共线性使得模型偏回归系数的特征不再明显,从而很难对单个系数的经济含义进行解释。
多重共线性的检验包括检验多重共线性是否存在以及估计多重共线性的范围两层递进的检验。
而解决多重共线性的办法通常有逐步回归法、差分法以及使用额外信息、增大样本容量等方法。
(一)多重共线性及其产生的原因当我们利用统计数据进行分析时,解释变量之间经常会出现高度多重共线性的情况。
1.多重共线性的基本概念多重共线性(Multicollinearity )一词由弗里希(Frish )于1934年在其撰写的《借助于完全回归系统的统计合流分析》中首次提出。
它的原义是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系。
如果在经典回归模型Y X βε=+中,经典假定(5)遭到破坏,则有()1R X k <+,此时称解释变量k X X X ,,,21 间存在完全多重共线性。
解释变量的完全多重共线性,也就是解释变量之间存在严格的线性关系,即数据矩阵X 的列向量线性相关。
因此,必有一个列向量可由其余列向量线性表示。
同时还有另外一种情况,即解释变量之间虽然不存在严格的线性关系,但是却有近似的线性关系,即解释变量之间高度相关。
第7章 多重共线性习 题一、单项选择题1.如果回归模型中解释变量之间存在完全的多重共线性,则最小二乘估计量( )A.不确定,方差无限大B.确定,方差无限大C.不确定,方差最小D.确定,方差最小2.多元线性回归模型中,发现各参数估计量的t 值都不显著,但模型的F 值确很显著,这说明模型存在( )A .多重共线性B .异方差C .自相关D .设定偏误 3.逐步回归法既检验又修正了( )A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性4.如果模型中的解释变量存在完全的多重共线性,参数的最小二乘估计量是( )A .无偏的 B. 有偏的 C. 不确定 D. 确定的 5.设线性回归模型为,下列表明变量之间具有完全多重共线性的是( )A .B .C .D .其中v 为随机误差项6.简单相关系数矩阵方法主要用于检验( )A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性 7.设为解释变量,则完全多重共线性是( )8.下列说法不正确的是( )A. 多重共线性产生的原因有模型中大量采用滞后变量,)(22很大或R R 01122i i i iY X X u βββ=+++1202*0*0i i X X ++=1202*0*0i i X X v +++=1200*0*0i i X X ++=1200*0*0i i X X v +++=21,x x 221211211.0.021.0(.02x x A x x B x e C x x v v D x e +==++=+=为随机误差项)B. 多重共线性是样本现象C. 检验多重共线性的方法有DW检验法D. 修正多重共线性的方法有增加样本容量二、多项选择题1.能够检验多重共线性的方法有()A. 简单相关系数矩阵法B. t检验与F检验综合判断法C. DW检验法D. ARCH检验法E. White 检验2.如果模型中解释变量之间存在共线性,则会引起如下后果()A. 参数估计值确定B. 参数估计值不确定C. 参数估计值的方差趋于无限大D. 参数的经济意义不正确E. DW统计量落在了不能判定的区域3.能够检验多重共线性的方法有()A. 简单相关系数矩阵法B. DW检验法C. t检验与F检验综合判断法D. ARCH检验法E. 辅助回归法(又待定系数法)三、判断题1.多重共线性问题是随机扰动项违背古典假定引起的。
第七章 多重共线性Multi-Collinearity多重共线性 一、多重共线性的概念 二、多重共线性的检验 三、克服多重共线性的方法 四、案例一、多重共线性的概念 对于模型 Yi=β0+β1X1i+β2X2i+…+βkXki+μi i=1,2,…,n 其基本假设之一是解释变量是互相独立的。
如果某两个或多个解释变量之间出现了相 关性,则称为多重共线性。
如果存在 c1X1i+c2X2i+…+ckXki=0 性。
如果存在 c1X1i+c2X2i+…+ckXki+vi=0 性或交互相关。
i=1,2,…,n其中: ci不全为0,则称为解释变量间存在完全共线i=1,2,…,n其中ci不全为0,vi为随机误差项,则称为 近似共线注意: 完全共线性的情况并不多见,一般出现的是 近似共线性。
二、多重共线性的检验(1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说 明两变量存在较强的多重共线性。
(2)对多个解释变量的模型,采用经验检验法 模型特征:R2与F值较大,但t检验值较小,三、克服多重共线性的方法(◆)逐步回归法以Y为被解释变量,逐个引入解释变量,构 成回归模型,进行模型估计。
根据拟合优度的变化决定新引入的变量是否 独立。
如果拟合优度变化显著,则说明新引入的变 量是一个独立解释变量; 如果拟合优度变化很不显著,则说明新引入 的变量与其它变量之间存在共线性关系。
四、案例根据理论和经验分析,影响粮食生产(Y)的 主要因素有: 农业化肥施用量(X1);粮食播种面积(X2) 成灾面积(X3); 农业机械总动力(X4); 农业劳动力(X5) 已知中国粮食生产的相关数据,建立中国粮食 生产函数: Y=β0+β1 X1 +β2 X2 +β3 X3 +β4 X4 +β4 X5 +μ年份粮食产量表 4.3.3 中国粮食生产与相关投入资料 受灾面积 粮食播种面 农业机械总 农业化肥施 用量 X 1 (万公斤) 1659.8 1739.8 1775.8 1930.6 1999.3 2141.5 2357.1 2590.3 2806.1 2930.2 3151.9 3317.9 3593.7 3827.9 3980.7 4083.7 4124.3 4146.4 积 X2 (千公顷) 114047 112884 108845 110933 111268 110123 112205 113466 112314 110560 110509 109544 110060 112548 112912 113787 113161 108463Y1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 (万吨) 38728 40731 37911 39151 40208 39408 40755 44624 43529 44264 45649 44510 46662 50454 49417 51230 50839 46218X3(公顷) 16209.3 15264.0 22705.3 23656.0 20392.7 23944.7 24448.7 17819.3 27814.0 25894.7 23133.0 31383.0 22267.0 21233.0 30309.0 25181.0 26731.0 34374.0动力 X 4 (万千瓦) 18022 19497 20913 22950 24836 26575 28067 28708 29389 30308 31817 33802 36118 38547 42016 45208 48996 52574农业劳动 力X5 (万人) 31645.1 31685.0 30351.5 30467.0 30870.0 31455.7 32440.5 33330.4 34186.3 34037.0 33258.2 32690.3 32334.5 32260.4 32434.9 32626.4 32911.8 32797.51、用OLS法估计上述模型:ˆ = −12816.44 + 6.213 X + 0.421X − 0.166 X − 0.098 X − 0.028 X Y 1 2 3 4 5(-0.91)(8.39)(3.32)(-2.81)(-1.45)(-0.14)R2接近于1; 给定α=5%,得F临界值 F0.05(5,12)=3.11 F=638.4 > 15.19, 故认上述粮食生产的总体线性关系显著成立。
第七章 多重共线模型案例导入:根据理论与经验分析,影响居民服装需求d C 的主要因素有可支配收入Y 、流动资产拥有量L 、服装类价格指数Pc 和总物价指数0P 。
下表给出了某地10年间有关统计资料。
服装需求函数有关统计资料年份d C (百万元) Y (百万元) L (百万元) 服装类价格指数Pc 物价总指数0P 19988.4 82.9 17.1 92 94 19999.6 88.0 21.3 93 96 200010.4 99.9 25.1 96 97 200111.4 105.3 29.0 94 97 200212.2 117.7 34.0 100 100 200314.2 131.0 40.0 101 101 200415.8 148.0 44.0 105 104 200517.9 161.8 49.0 112 109 200619.3 174.2 51.0 112 111 2007 20.8 184.7 53.0 112 111 背景知识:在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,即解释变量1X ,2X ,……,k X 中的任何一个都不能是其他解释变量的线性组合。
如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。
在经济现象中,经济变量之间常常因为存在具有相同方向的变化趋势、存在较密切关系、采用滞后变量作为解释变量、数据收集范围过窄等原因而造成存在多重共线性。
较高程度的多重共线性可能对最小二乘估计产生如下严重后果:增大最小二乘估计量的方差;参数估计值不稳定,对样本变化敏感;检验可靠性降低,产生弃真的错误。
由于参数估计量方差增大,在进行显著性检验时,t 检验值将会变小,可能使某些本该参数显著的检验结果变得不显著,从而将重要变量舍弃。
多重共线性是较为普通存在的现象,在运用最小二乘法进行多元线性回归时,不但要检验解释变量间是否存在多重共线性,还要检验多重共线性的严重程度。
第七章 多重共线性“多重共线性”一词由R. Frisch 1934年提出,它原指模型的解释变量间存在线性关系。
7.1多重共线性及产生的原因 7.1.1.非多重共线性假定111211212221121111k k T T Tk x x xx xx X x x x ---=如果rk (X 'X ) = rk (X ) < k 或`0X X =称解释变量是完全共线性相关。
在实际经济问题中,完全多重共线性和完全无多重共线性两种极端情况都是极少的,大多数情况是解释变量存在不完全的多重共线性,或者近似的多重共线性,可一表示为:1122110k k x x x u λλλ--++++= 7.1.2.多重共线性的经济解释(1)经济变量在时间上有共同变化的趋势。
如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。
当这些变量同时进入模型后就会带来多重共线性问题。
0.E+001.E+112.E+113.E+114.E+11808284868890929496980002GDPCONS0.E +001.E +112.E +113.E +114.E +110.0E +005.0E +101.0E +111.5E +112.0E +112.5E +11C O N SG D P o f H o n g K o n g(2)解释变量与其滞后变量同作解释变量。
滞后变量与原因变量在经济意义上没有本质区别,只是时间上的差异,原因变量与解释变量有相关关系,滞后变量也会有相关关系。
(见下图) (3)解释变量之间往往存在密切的关联度。
对同一经济现象的解释变量,往往存在密切的相关关系,如生产函数,资本大,需投入的劳动力也应趆多。
0.E+001.E+112.E+113.E+114.E+11GDP0.E+001.E+112.E+113.E+114.E+110.E+001.E+112.E+113.E+114.E+11GDP(-1)GDP7.2.多重共线性的后果(1) 当 `0X X =,X 为降秩矩阵,则 (X 'X ) -1不存在,βˆ= (X 'X )-1 X 'Y 不可计算。
第七章 多重共线性
基本概念
(1)多重共线性; (2)完全多重共线性;
(3)不完全多重共线性;
练习题
1、什么是变量之间的多重共线性?举例说明。
3、完全多重共线性和不完全多重共线性之间的区别是什么?
4、产生多重共线性的经济背景是什么?
5、多重共线性的危害是什么?为什么会造成这些危害?检验多重共线性的方法思路是什么?有哪些克服方法?
6、考虑下列一组数据
Y
-10 -8 -6 -4 -2 0 2 4 6 8 10 2X 1 2 3 4 5 6 7 8 9 10 11 3X
1
3
5
7
9
11
13
15
17
19
21
现在我们进行如下的回归分析:
12233i i Y X X u βββ=+++
请回答如下问题:
(1)你能估计出该模型的参数吗?为什么? (2)如果不能,你能估计哪一参数或参数组合? 7、将下列函数用适当的方法消除多重共线性: (1)消费函数为
012C W P u βββ=+++
其中C 、W 、P 分别表示消费、工资收入和非工资收入,W 和P 可能高度相关,但研究表明
1
22ββ=。
(2)需求函数为
0123s Q Y P P u ββββ=++++
其中Q 、Y 、P 和s P 分别为需求量、收入水平、该商品价格水平及其替代品价格水平,P 和s P
可能高度相关。
基本概念解释
(1)多重共线性指两个或两个以上解释变量之间存在某种线性相关关系。
(2)完全多重共线性指,在有多个解释变量模型中,解释变量之间的线性关系是准确的。
在此情况下,不能估计解释变量各自对被解释变量的影响。
(3)不完全多重共线性指,在实际经济活动中,多个解释变量之间存在多重共线性问题,但解释变量之间的线性关系是近似的,而不是完全的。
练习题答案
1、如果在经典回归模型Y X U β=+中,如果基本假定6遭到破坏,则有()1k r x k <+,此时称解释变量之间存在完全多重共线性。
解释变量之间的完全多重共线性也就是,解释变量之间存在严格的线性关系。
在实际中还有另外一种情况,即解释变量之间虽然不存在严格的线性关系,却有近似的线性关系,即指解释变量之间高度相关,这种解释变量之间高度相关称之为不完全多重共线性。
完全多重共线性和不完全重共线性,统称为多重共线性。
3、完全多重共线性指的是变量之间的线性关系是准确的,而不完全多重共线性指的是变量之间的线性关系是近似的。
4、在现实经济运行中,许多经济变量在随时间的变化过程中往往存在共同的变化趋势,使之产生多重共现性;使用截面数据建立回归模型时,根据研究的具体问题选择的解释变量常常从经济意义上存在着密切的关联度;在建模过程中由于认识上的局限造成变量选择不当,从而引起变量之间的多重共线性;在模型中大量采用滞后变量也容易产生多重共线性。
5、对于模型01122i i i k ki i Y X X X ββββμ=+++++()1,2,,i n =,如果某两个或多个解释变量之间出现了相关性,则称为模型存在多重共线性。
多重共线性的危害有几个方面:一是在完全共线性下参数估计量不存在,理由是()
1
'X X -不存在;二是近似共线性下OLS 参数估计量非有效,理由是参数估计量的方差将可能变得很大;三是参数估计量经济意义不合理,如当2X 与3X 存在线性关系时,2X 与3X 前的参数并不能反映各自与被解释变量之间的结构关系:四是变量的显著性检验失去意义,因为无论是t 检验还是F 检验,都与参数估计量的方差有关;五是模型的预测功能失效。
检验多重共线性的方法思路:用统计上求相关系数的原理,如果变量之间的相关系数较大则认为它们之间存在多重共线性。
克服多重共线性的方法主要有:排除引起共线性的变量,差分法,减少参数估计量的方差,利用先验信息改变参数的约束形式,增加样本容量,岭回归法等。
6、(1)不能,因为模型存在多重共线性的问题,即3X =22X -1,所以不能得到参数的唯一估计值。
(2)我们可以估计出来(31ββ-)和(322ββ+)。
7、(1)将先验信息1
22ββ=代入到模型中,然后估计(W+P/2)对消费的影响。
(2)可以考虑对模型中的变量取对数,然后进行回归。