第七章 多重共线性
- 格式:doc
- 大小:500.50 KB
- 文档页数:9
第七章 多重共线性习题与答案1、多重共线性产生的原因是什么?2、检验多重共线性的方法思路是什么?有哪些克服方法?3、考虑一下模型:Y t =β1+β2X t +β3X 1-t +4βX 2-t +5βX 3-t +6βX 4-t +u t其中Y =消费,X =收入,t =时间。
上述模型假定了时间t 的消费支出不仅是时间t 的收入,而且是以前多期的收入的函数。
例如,1976年第一季度的消费支出是同季度收入合1975年的四个季度收入的函数。
这类模型叫做分布滞后模型(distributed lag models )。
我们将在以后的一掌中加以讨论。
(1) 你预期在这类模型中有多重共线性吗?为什么?(2)如果预期有多重共线性,你会怎么样解决这个问题?4、已知回归模型μβα++=N E ,式中E 为某类公司一名新员工的起始薪金(元),N 为所受教育水平(年)。
随机扰动项μ的分布未知,其他所有假设都满足。
(1)从直观及经济角度解释α和β。
(2)OLS 估计量αˆ和βˆ满足线性性、无偏性及有效性吗?简单陈述理由。
(3)对参数的假设检验还能进行吗?简单陈述理由。
5、根据1899—1922年在美国制造业部门的年度数据,多尔蒂(Dougherty )获得如下回归结果:LogY=2.81 - 0.53logK+ 0.91logL + 0.047tSe =(1.38)(0.34) (0.14) (0.021)R 2=0.97 F=189.8其中Y =实际产生指数,K=实际资本投入指数,L=实际劳力投入指数,t =时间或趋势。
利用同样数据,他又获得一下回归:(1)回归中有没有多重共线性?你怎么知道?(2)在回归(1)中,logK 的先验符号是什么?结果是否与预期的一致?为什么或为什么不?(3)你怎样替回归的函数形式(1)做辩护:(提示:柯柏—道格拉斯生产函数。
)(4)解释回归(1)在此回归中趋势变量的作用为何?(5)估计回归(2)的道理何在?(6)如果原先的回归(1)有多重共线性,是否已被回归(2)减弱?你怎样知道?(7)如果回归(2)被别看作回归(1)的一个受约束形式,作者施加的约束是什么呢?(提示:规模报酬)你怎样知道这个约束是否正确?你在哪一种检验?说明你的计算。
第七章多重共线性第七章多重共线性若线性模型不满⾜假定6,就称模型有多重共线性。
§7.1 多重共线性的概念⼀. 基本概念:假定6 ()1k r X k n =+<,是指模型中所有⾃变量12,,,,k x x x 1线性⽆关,也可理解为矩阵X 的列向量线性⽆关。
若不满⾜该假定,即 ()1k r X k <+,则称12,,,,k x x x 1存在完全多重共线性,12,,,,k x x x 1存在严格的线性关系,这是⼀种极端情况;若12,,,,k x x x 1之间的线性关系不是严格的,⽽是⼀种近似的线性关系,则称⾼度相关或存在不完全多重共线性。
如,01122i i i i y x x u βββ=+++ 若12,λλ?不全为零,使11220i i x x λλ+=,完全多重共线性11220i i i x x v λλ++= 不完全多重共线性完全多重共线性和不完全多重共线性统称为多重共线性。
解释变量(⾃变量)之间的线性关系可⽤拟合优度2i R 描述,2i R 表⽰i x 对其它解释变量的拟合优度,21i R = 完全 21i R ≈⾼度 20i R = ⽆⼆. 产⽣的原因:在实际经济问题中主要是不完全多重共线性。
其产⽣的主要原因是:1. 两个解释变量具有相同或相反的变化趋势;(家庭能耗与住房⾯积、⼈⼝)⽣产、需求.......2. 数据收集的范围过窄,造成解释变量之间有相同或相反变化的假象;3. 某些解释变量之间存在某种近似的线性关系;(各解释变量有相同的时间趋势)4. ⼀个变量是另⼀个变量的滞后值;供给5. 解释变量的选择不当也可能引起变量间的多重共线性。
6. 过度决定模型。
(观测值个数少于参数个数)对于正确设置的模型,多重共线性基本上是⼀种样本现象。
§7.2 多重共线性的后果⼀. 完全多重共线性当模型具有完全多重共线性时,⽆法进⾏参数的OLS 估计;设模型 Y XB U =+,若有完全多重共线性,即()1k r X k <+,则()1T r X X k <+ 1()T X X -?不存在1()T TB X X X Y ∧-?=不存在,同样 21()()Tj u jj V X X βσ∧-=也不存在,显著性检验和预测都⽆法进⾏。
第七章 多重共线性及其处理第一部分 学习辅导一、本章学习目的与要求1.理解多重共线性的概念;2.掌握多重共线性存在的主要原因;3.理解多重共线性可能造成的后果;4.掌握多重共线性的检验与修正的方法。
二、本章内容提要本章主要介绍计量经济模型的计量经济检验。
即多重共线性问题。
多重共线性是多元回归模型可能存在的一类现象,分为完全共线与近似共线两类。
模型的多个解释变量间出现完全共线性时,模型的参数无法估计。
更多的情况则是近似共线性,这时,由于并不违背所有的基本假定,模型参数的估计仍是无偏、一致且有效的,但估计的参数的标准差往往较大,从而使得t 统计值减小,参数的显著性下降,导致某些本应存在于模型中的变量被排除,甚至出现参数正负号方面的一些混乱。
显然,近似多重共线性使得模型偏回归系数的特征不再明显,从而很难对单个系数的经济含义进行解释。
多重共线性的检验包括检验多重共线性是否存在以及估计多重共线性的范围两层递进的检验。
而解决多重共线性的办法通常有逐步回归法、差分法以及使用额外信息、增大样本容量等方法。
(一)多重共线性及其产生的原因当我们利用统计数据进行分析时,解释变量之间经常会出现高度多重共线性的情况。
1.多重共线性的基本概念多重共线性(Multicollinearity )一词由弗里希(Frish )于1934年在其撰写的《借助于完全回归系统的统计合流分析》中首次提出。
它的原义是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系。
如果在经典回归模型Y X βε=+中,经典假定(5)遭到破坏,则有()1R X k <+,此时称解释变量k X X X ,,,21 间存在完全多重共线性。
解释变量的完全多重共线性,也就是解释变量之间存在严格的线性关系,即数据矩阵X 的列向量线性相关。
因此,必有一个列向量可由其余列向量线性表示。
同时还有另外一种情况,即解释变量之间虽然不存在严格的线性关系,但是却有近似的线性关系,即解释变量之间高度相关。
第7章 多重共线性习 题一、单项选择题1.如果回归模型中解释变量之间存在完全的多重共线性,则最小二乘估计量( )A.不确定,方差无限大B.确定,方差无限大C.不确定,方差最小D.确定,方差最小2.多元线性回归模型中,发现各参数估计量的t 值都不显著,但模型的F 值确很显著,这说明模型存在( )A .多重共线性B .异方差C .自相关D .设定偏误 3.逐步回归法既检验又修正了( )A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性4.如果模型中的解释变量存在完全的多重共线性,参数的最小二乘估计量是( )A .无偏的 B. 有偏的 C. 不确定 D. 确定的 5.设线性回归模型为,下列表明变量之间具有完全多重共线性的是( )A .B .C .D .其中v 为随机误差项6.简单相关系数矩阵方法主要用于检验( )A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性 7.设为解释变量,则完全多重共线性是( )8.下列说法不正确的是( )A. 多重共线性产生的原因有模型中大量采用滞后变量,)(22很大或R R 01122i i i iY X X u βββ=+++1202*0*0i i X X ++=1202*0*0i i X X v +++=1200*0*0i i X X ++=1200*0*0i i X X v +++=21,x x 221211211.0.021.0(.02x x A x x B x e C x x v v D x e +==++=+=为随机误差项)B. 多重共线性是样本现象C. 检验多重共线性的方法有DW检验法D. 修正多重共线性的方法有增加样本容量二、多项选择题1.能够检验多重共线性的方法有()A. 简单相关系数矩阵法B. t检验与F检验综合判断法C. DW检验法D. ARCH检验法E. White 检验2.如果模型中解释变量之间存在共线性,则会引起如下后果()A. 参数估计值确定B. 参数估计值不确定C. 参数估计值的方差趋于无限大D. 参数的经济意义不正确E. DW统计量落在了不能判定的区域3.能够检验多重共线性的方法有()A. 简单相关系数矩阵法B. DW检验法C. t检验与F检验综合判断法D. ARCH检验法E. 辅助回归法(又待定系数法)三、判断题1.多重共线性问题是随机扰动项违背古典假定引起的。
第七章 多重共线性Multi-Collinearity多重共线性 一、多重共线性的概念 二、多重共线性的检验 三、克服多重共线性的方法 四、案例一、多重共线性的概念 对于模型 Yi=β0+β1X1i+β2X2i+…+βkXki+μi i=1,2,…,n 其基本假设之一是解释变量是互相独立的。
如果某两个或多个解释变量之间出现了相 关性,则称为多重共线性。
如果存在 c1X1i+c2X2i+…+ckXki=0 性。
如果存在 c1X1i+c2X2i+…+ckXki+vi=0 性或交互相关。
i=1,2,…,n其中: ci不全为0,则称为解释变量间存在完全共线i=1,2,…,n其中ci不全为0,vi为随机误差项,则称为 近似共线注意: 完全共线性的情况并不多见,一般出现的是 近似共线性。
二、多重共线性的检验(1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说 明两变量存在较强的多重共线性。
(2)对多个解释变量的模型,采用经验检验法 模型特征:R2与F值较大,但t检验值较小,三、克服多重共线性的方法(◆)逐步回归法以Y为被解释变量,逐个引入解释变量,构 成回归模型,进行模型估计。
根据拟合优度的变化决定新引入的变量是否 独立。
如果拟合优度变化显著,则说明新引入的变 量是一个独立解释变量; 如果拟合优度变化很不显著,则说明新引入 的变量与其它变量之间存在共线性关系。
四、案例根据理论和经验分析,影响粮食生产(Y)的 主要因素有: 农业化肥施用量(X1);粮食播种面积(X2) 成灾面积(X3); 农业机械总动力(X4); 农业劳动力(X5) 已知中国粮食生产的相关数据,建立中国粮食 生产函数: Y=β0+β1 X1 +β2 X2 +β3 X3 +β4 X4 +β4 X5 +μ年份粮食产量表 4.3.3 中国粮食生产与相关投入资料 受灾面积 粮食播种面 农业机械总 农业化肥施 用量 X 1 (万公斤) 1659.8 1739.8 1775.8 1930.6 1999.3 2141.5 2357.1 2590.3 2806.1 2930.2 3151.9 3317.9 3593.7 3827.9 3980.7 4083.7 4124.3 4146.4 积 X2 (千公顷) 114047 112884 108845 110933 111268 110123 112205 113466 112314 110560 110509 109544 110060 112548 112912 113787 113161 108463Y1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 (万吨) 38728 40731 37911 39151 40208 39408 40755 44624 43529 44264 45649 44510 46662 50454 49417 51230 50839 46218X3(公顷) 16209.3 15264.0 22705.3 23656.0 20392.7 23944.7 24448.7 17819.3 27814.0 25894.7 23133.0 31383.0 22267.0 21233.0 30309.0 25181.0 26731.0 34374.0动力 X 4 (万千瓦) 18022 19497 20913 22950 24836 26575 28067 28708 29389 30308 31817 33802 36118 38547 42016 45208 48996 52574农业劳动 力X5 (万人) 31645.1 31685.0 30351.5 30467.0 30870.0 31455.7 32440.5 33330.4 34186.3 34037.0 33258.2 32690.3 32334.5 32260.4 32434.9 32626.4 32911.8 32797.51、用OLS法估计上述模型:ˆ = −12816.44 + 6.213 X + 0.421X − 0.166 X − 0.098 X − 0.028 X Y 1 2 3 4 5(-0.91)(8.39)(3.32)(-2.81)(-1.45)(-0.14)R2接近于1; 给定α=5%,得F临界值 F0.05(5,12)=3.11 F=638.4 > 15.19, 故认上述粮食生产的总体线性关系显著成立。
第七章 多重共线模型案例导入:根据理论与经验分析,影响居民服装需求d C 的主要因素有可支配收入Y 、流动资产拥有量L 、服装类价格指数Pc 和总物价指数0P 。
下表给出了某地10年间有关统计资料。
服装需求函数有关统计资料年份d C (百万元) Y (百万元) L (百万元) 服装类价格指数Pc 物价总指数0P 19988.4 82.9 17.1 92 94 19999.6 88.0 21.3 93 96 200010.4 99.9 25.1 96 97 200111.4 105.3 29.0 94 97 200212.2 117.7 34.0 100 100 200314.2 131.0 40.0 101 101 200415.8 148.0 44.0 105 104 200517.9 161.8 49.0 112 109 200619.3 174.2 51.0 112 111 2007 20.8 184.7 53.0 112 111 背景知识:在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,即解释变量1X ,2X ,……,k X 中的任何一个都不能是其他解释变量的线性组合。
如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。
在经济现象中,经济变量之间常常因为存在具有相同方向的变化趋势、存在较密切关系、采用滞后变量作为解释变量、数据收集范围过窄等原因而造成存在多重共线性。
较高程度的多重共线性可能对最小二乘估计产生如下严重后果:增大最小二乘估计量的方差;参数估计值不稳定,对样本变化敏感;检验可靠性降低,产生弃真的错误。
由于参数估计量方差增大,在进行显著性检验时,t 检验值将会变小,可能使某些本该参数显著的检验结果变得不显著,从而将重要变量舍弃。
多重共线性是较为普通存在的现象,在运用最小二乘法进行多元线性回归时,不但要检验解释变量间是否存在多重共线性,还要检验多重共线性的严重程度。
第七章 多重共线性“多重共线性”一词由R. Frisch 1934年提出,它原指模型的解释变量间存在线性关系。
7.1多重共线性及产生的原因 7.1.1.非多重共线性假定111211212221121111k k T T Tk x x xx xx X x x x ---=如果rk (X 'X ) = rk (X ) < k 或`0X X =称解释变量是完全共线性相关。
在实际经济问题中,完全多重共线性和完全无多重共线性两种极端情况都是极少的,大多数情况是解释变量存在不完全的多重共线性,或者近似的多重共线性,可一表示为:1122110k k x x x u λλλ--++++= 7.1.2.多重共线性的经济解释(1)经济变量在时间上有共同变化的趋势。
如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。
当这些变量同时进入模型后就会带来多重共线性问题。
0.E+001.E+112.E+113.E+114.E+11808284868890929496980002GDPCONS0.E +001.E +112.E +113.E +114.E +110.0E +005.0E +101.0E +111.5E +112.0E +112.5E +11C O N SG D P o f H o n g K o n g(2)解释变量与其滞后变量同作解释变量。
滞后变量与原因变量在经济意义上没有本质区别,只是时间上的差异,原因变量与解释变量有相关关系,滞后变量也会有相关关系。
(见下图) (3)解释变量之间往往存在密切的关联度。
对同一经济现象的解释变量,往往存在密切的相关关系,如生产函数,资本大,需投入的劳动力也应趆多。
0.E+001.E+112.E+113.E+114.E+11GDP0.E+001.E+112.E+113.E+114.E+110.E+001.E+112.E+113.E+114.E+11GDP(-1)GDP7.2.多重共线性的后果(1) 当 `0X X =,X 为降秩矩阵,则 (X 'X ) -1不存在,βˆ= (X 'X )-1 X 'Y 不可计算。
第七章 多重共线性若线性模型不满足假定6,就称模型有多重共线性。
§7.1 多重共线性的概念一. 基本概念:假定6 ()1k r X k n =+<,是指模型中所有自变量12,,,,k x x x ⋅⋅⋅⋅⋅⋅1线性无关,也可理解为矩阵X 的列向量线性无关。
若不满足该假定,即 ()1k r X k <+, 则称12,,,,k x x x ⋅⋅⋅⋅⋅⋅1存在完全多重共线性,12,,,,k x x x ⋅⋅⋅⋅⋅⋅1存在严格的线性关系,这是一种极端情况;若12,,,,k x x x ⋅⋅⋅⋅⋅⋅1之间的线性关系不是严格的,而是一种近似的线性关系,则称高度相关或存在不完全多重共线性。
如,01122i i i i y x x u βββ=+++ 若12,λλ∃不全为零, 使11220i i x x λλ+=, 完全多重共线性11220i i i x x v λλ++= 不完全多重共线性完全多重共线性和不完全多重共线性统称为多重共线性。
解释变量(自变量)之间的线性关系可用拟合优度2i R 描述,2i R 表示i x 对其它解释变量的拟合优度,21i R = 完全 21i R ≈ 高度 20i R = 无 二. 产生的原因:在实际经济问题中主要是不完全多重共线性。
其产生的主要原因是:1. 两个解释变量具有相同或相反的变化趋势;(家庭能耗与住房面积、人口) 生产、需求.......2. 数据收集的范围过窄,造成解释变量之间有相同或相反变化的假象;3. 某些解释变量之间存在某种近似的线性关系;(各解释变量有相同的时间趋势)4. 一个变量是另一个变量的滞后值;供给5. 解释变量的选择不当也可能引起变量间的多重共线性。
6. 过度决定模型。
(观测值个数少于参数个数)对于正确设置的模型,多重共线性基本上是一种样本现象。
§7.2 多重共线性的后果一. 完全多重共线性当模型具有完全多重共线性时,无法进行参数的OLS 估计; 设模型 Y XB U =+,若有完全多重共线性,即()1k r X k <+,则()1T r X X k <+ 1()T X X -⇒不存在1()T TB X X X Y ∧-⇒=不存在,同样 21()()Tj u jj V X X βσ∧-=也不存在,显著性检验和预测都无法进行。
二. 不完全多重共线性设模型为 01122i i i i y x x u βββ=+++ 有不完全多重共线性,即 102i i i x x v λλ=++, 其中0λ≠,i v 可视为残差。
为叙述方便,可用中心化形式12i i i x x v λ∙∙=+(0iv =∑,20ii xv ∙=∑),1121122212nn x x x x X x x ∙∙∙∙∙∙∙⎛⎫ ⎪ ⎪ ⎪= ⎪⋅⋅⋅⋅⋅⋅ ⎪ ⎪⎝⎭,211211212211n ni i i i i T n n i i i i i x x x X X x x x ∙∙∙∙∙==∙∙∙==⎛⎫ ⎪ ⎪= ⎪ ⎪⎝⎭∑∑∑∑222222111222211n nni i ii i i nni ii i x v x x xλλλ∙∙===∙∙==⎛⎫+ ⎪⎪= ⎪ ⎪⎝⎭∑∑∑∑∑则有 22211nn Ti ii i X X x v∙∙∙===∑∑这样 222211122222222211111()1()nni iT i i T n nn n n T i i i i i i i i i i x xX X X X x v X X x x v λλλ∙∙∙∙*∙∙==-∙∙∙∙∙=====⎛⎫- ⎪⎪== ⎪-+ ⎪⎝⎭∑∑∑∑∑∑∑2212212111ni n i n i i i i v v x λλλ=∙==-⎛⎫ ⎪⎪=⎪-+ ⎪⎪ ⎪⎝⎭∑∑∑21212212111()nT T T i n i n i i i i v X X X Y X Y v x λβλλ∙∙∙∧∙∙∙-=∙==-⎛⎫⎪⎪== ⎪-+ ⎪ ⎪⎪⎝⎭∑∑∑210nii v=≠∑是显然的,所以可确定β∧。
但i v 是残差,依赖于样本,因此21ni i v =∑很不稳定,且0TX X ∙∙≈,使()V β∧21()Tujj X X σ∙∙-=很大,其后果⑴使β∧很不稳定,对样本非常敏感; ⑵()V β∧很大,β∧的估计精度很难控制;⑶统计量T β∧=增大接受“0:0j H β=”的可能性(即j β不显著),但2R 仍可能是显著的,⑷使预测的精度大大降低。
例7.2.1 书179页§7.3 多重共线性的检验由于在经济问题研究中,多重共线性是普遍存在的,当多重共线性程度较高时,会带来严重后果,因此检验多重共线性时希望达到如下目的: ⑴是否存在多重共线性; ⑵多重共线性的程度;⑶多重共线性的形式或性质。
一. 不显著系数法:利用参数的显著性判断是否有多重共线性,有以下情况时可判断有多重共线性:⑴若2R 显著(2R 0.8>),但全部参数或部分参数不显著(不能通过显著性检验); 12()()()TTTTTTT T RSS B X Y X Y X X X Y R TSSY Y Y Y∧∙∙∙∙∙∙∙∙-∙∙∙∙==== 由于有多重共线性,所以行列式会TX X ∙∙很小,1()TX X ∙∙-就会较大。
⑵若按相关经济理论知解释变量i x 对y 有重要影响,但i β却不显著;⑶如果添加新自变量x '后,原有参数的估计值的方差明显增大,则自变量(含x ')之间可能有多重共线性。
二.利用解释变量之间所构成的回归方程的拟合优度2j R 检验:设有k 个自变量 12,,,k x x x ⋅⋅⋅⋅⋅⋅,则可构成k 个辅助线性回归方程 102233,,k k x x x x αααα=+++⋅⋅⋅⋅⋅⋅+ 其拟合优度为21R ,201133,,k k x x x x αααα=+++⋅⋅⋅⋅⋅⋅+ 22R ,⋅⋅⋅⋅⋅⋅0111111j j j j j k k x x x x x ααααα--++=++⋅⋅⋅+++⋅⋅⋅+ 2j R ⋅⋅⋅⋅⋅⋅0112211k k k x x x x αααα--=+++⋅⋅⋅⋅⋅⋅+ 2k R若其中一个2j R 接近1,则j x 与其余一个或几个自变量有高度相关。
当模型中只有两个解释变量时,可用它们之间的相关系数的平方212r 来检验。
三. 利用去除某个自变量后模型的拟合优度2j R *与2R 比较:原模型为01122k k y x x x u ββββ=+++⋅⋅⋅⋅⋅⋅++ 拟合优度为2R ,去掉一个变量后得 02233k k y x x x u ββββ=+++⋅⋅⋅⋅⋅⋅++ 拟合优度为 21R *01133k k y x x x u ββββ=+++⋅⋅⋅⋅⋅⋅++ 22R *⋅⋅⋅⋅⋅⋅0111111j j j j k k y x x x x u βββββ--++=++⋅⋅⋅+++⋅⋅⋅++ 2j R * ⋅⋅⋅⋅⋅⋅0112211k k y x x x u ββββ--=+++⋅⋅⋅⋅⋅⋅++ 2k R *若2j R *是最大的且与2R 很接近,则j x 对y 的影响不明显,其作用可由其它自变量替代,这说明j x 与其它自变量有近似线性相关关系,因此可认为j x 的多重共线性严重。
四. 相关矩阵法:模型为 01122t t t k kt t y x x x u ββββ=+++⋅⋅⋅⋅⋅⋅++,计算其相关矩阵111212122212k k k k kk r r r r r r R r r r ⋅⋅⋅⎛⎫⎪⋅⋅⋅ ⎪=⎪⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⎪⋅⋅⋅⎝⎭其中,ij xx r ∙∙=, 是简单相关系数;12112212111k k k k r r r r r r ⋅⋅⋅⎛⎫⎪⋅⋅⋅⎪= ⎪⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⎪⋅⋅⋅⎝⎭且1ij ji r r ⎧=⎨⎩ i ji j =≠ 若某个ij r 较大(一般认为0.8ij r >时),表明i x 与j x 有较强的多重共线性。
需要说明的是相关矩阵法只适用于两个解释变量之间存在多重共线性的情况,它是存在多重共线性的充分条件而非必要条件,即若ij r 较小未必说明无多重共线性。
五. 方差膨胀因子利用方差膨胀因子不仅可以检验多重共线性,还可用来衡量多重共线性的强度。
(一)标准化变量变量x ,其一组观测值为12(,,......,)Tn x x x ,则相应的标准化变量~x 的观测值为~j x x x x -∙-==1,2,......,j n =;其中,1i x x n -=∑,x S = 标准化后,变量有~0x -=且~21ix=∑。
这样定义的标准化变量与通常意义的标准化稍有差别。
显然,变量标准化后不受坐标平移和计量单位的影响,且一个线性模型也可以用标准化变量表示。
设线性模型为01122j j j k kj j y x x x u ββββ=+++⋅⋅⋅⋅⋅⋅++,1,2,,j n =⋅⋅⋅⋅⋅⋅ 先中心化,有1212j j kj j k j y x x x u βββ∙∙∙∙∙=++⋅⋅⋅⋅⋅⋅++,1,2,,j n =⋅⋅⋅⋅⋅⋅ (其中,j j u u u ∙-=-,1j u u n-=∑ )y ,模型变为12j j kj y x x x ∙∙∙∙∙=1,2,,j n =⋅⋅⋅⋅⋅⋅ 最后用i ix x S S 去乘上式右侧的对应项,并令~ix i i yS sββ=,1,2,,j n =⋅⋅⋅⋅⋅⋅~~~2ky βββ∙∙∙∙∙=+,1,2,,j n =⋅⋅⋅⋅⋅⋅ 模型被表示成标准化变量的形式~~~~~~~'1212j j kj k j j y x x x u βββ=++⋅⋅⋅⋅⋅⋅++,1,2,,j n =⋅⋅⋅⋅⋅⋅其矩阵形式 ~Y X B U =+ (二)膨胀因子对上式用OLS 进行估计,其参数~i β的OLS 估计量的方差为 ~21()()Ti u ii V X X βσ-=,1,2,,i k =⋅⋅⋅⋅⋅⋅可用来度量估计精度。
其中2u σ为常数,则参数估计量取决于1()T ii X X -的大小,1()Tii X X -称为~i β的方差膨胀因子,用i VIF 表示1()T i iiVIF X X -=。
可以证明 21(1)i iVIF R -=-,2iR 为~i x 对其余自变量做回归的拟合优度,1i VIF ≥。
显然i VIF 越大(此时2iR 也大),说明~i x 被其他自变量解释的程度越高,多重共线性越严重; i VIF 越小(此时2iR 也小),说明~i x 被其他自变量解释的程度越低,多重共线性程度越轻。