第7章 多重共线性
- 格式:docx
- 大小:31.29 KB
- 文档页数:4
第7章岭回归分析岭回归分析是一种用于解决多重共线性问题的回归方法。
在多重共线性问题中,自变量之间存在高度相关性,这会导致传统的最小二乘法线性回归产生不稳定的估计结果。
岭回归通过对系数进行约束,来减小估计值的方差,从而提高回归模型的稳定性。
本章将介绍岭回归的原理、步骤和应用。
一、岭回归的原理岭回归是对普通最小二乘法进行修正的一种方法。
其基本思想是通过对最小二乘法中的残差平方和添加一个惩罚项来控制系数的大小,从而减小方差。
岭回归的目标是找到一个最优的系数向量,使得残差平方和和正则化项的加权和最小化。
在岭回归中,通过引入一个正则化参数λ(也称为岭参数),目标函数变为最小二乘法的残差平方和加上λ乘以系数向量的平方和。
正则项的引入使得系数向量的估计值在其中一种程度上受到限制,使回归模型更加稳定。
通过调整正则化参数λ的值,可以控制估计值的偏差和方差之间的权衡。
二、岭回归的步骤岭回归的步骤如下:1.数据准备:将数据集划分为自变量矩阵X和因变量向量y。
2.数据标准化:对X和y进行标准化,使得均值为0,方差为1、这一步骤是为了使得不同变量之间的尺度一致。
3.构建岭回归模型:通过求解最小二乘法,得到系数估计值。
岭回归的系数估计值计算公式为:β^=(X^T*X+λI)^(-1)*X^T*y。
其中,X^T为X的转置矩阵,I为单位矩阵,λ为正则化参数。
4.选择合适的λ:通过交叉验证等方法,选择合适的正则化参数λ。
5.模型评估:使用选择的正则化参数λ对模型进行评估,计算均方误差等指标。
三、岭回归的应用岭回归在实际应用中具有广泛的用途,主要包括以下几个方面:1.多重共线性问题:当自变量之间存在高度相关性时,使用岭回归可以解决多重共线性问题,减小估计值的方差,提高回归模型的稳定性。
2.特征选择:岭回归通过惩罚项的引入,可以压缩系数向量,从而减小不重要的特征对模型的影响,实现特征的选择。
3.数据挖掘:岭回归可以用于数据挖掘任务,如预测、分类等。
7.1多重共线性的概念及产生原因
多重共线性是指在一个多元回归模型中,多个解释变量之间存在高度相关性,导致回
归方程中的参数无法估计或估计不准确的现象。
因此,多重共线性会对回归结果的解释和
预测产生负面影响。
多重共线性的产生原因可以归纳为以下几点:
1. 变量选择不当:如果在选择解释变量时,没有考虑它们之间可能存在的相关性,
就会出现多重共线性。
2. 数据处理不当:在数据处理中,如果对变量进行过度的转换和调整,或者使用过
于宽泛的指标,也可能导致多重共线性问题。
3. 数据收集不当:如果数据样本不足或者数据来源中存在重复的信息,就可能出现
多重共线性。
4. 特征工程不当:特征工程是指对原始数据进行预处理,提取出更有利于建模的特征。
如果特征工程不当,就可能导致多重共线性的问题。
如,过多的特征选择等。
5. 非线性关系:多重共线性不仅存在于线性模型中,也可能存在于非线性模型中,
如决策树模型、KNN模型等。
6. 误差项相关:当自变量中存在测量误差时,误差会通过模型的回归系数来影响因
变量,导致自变量之间的相关性,从而产生多重共线性。
7. 时间趋势:在同一时间段内,多个自变量具有相似的趋势也可能导致多重共线性。
例如,时间序列中常常出现的季节性变化等。
综上所述,多重共线性是在多元回归模型中常见的问题,它会对模型的稳定性、可靠
性和准确性产生重要影响。
因此,在进行回归分析时,需要注意避免多重共线性的问题。
第七章多重共线性第七章多重共线性若线性模型不满⾜假定6,就称模型有多重共线性。
§7.1 多重共线性的概念⼀. 基本概念:假定6 ()1k r X k n =+<,是指模型中所有⾃变量12,,,,k x x x 1线性⽆关,也可理解为矩阵X 的列向量线性⽆关。
若不满⾜该假定,即 ()1k r X k <+,则称12,,,,k x x x 1存在完全多重共线性,12,,,,k x x x 1存在严格的线性关系,这是⼀种极端情况;若12,,,,k x x x 1之间的线性关系不是严格的,⽽是⼀种近似的线性关系,则称⾼度相关或存在不完全多重共线性。
如,01122i i i i y x x u βββ=+++ 若12,λλ?不全为零,使11220i i x x λλ+=,完全多重共线性11220i i i x x v λλ++= 不完全多重共线性完全多重共线性和不完全多重共线性统称为多重共线性。
解释变量(⾃变量)之间的线性关系可⽤拟合优度2i R 描述,2i R 表⽰i x 对其它解释变量的拟合优度,21i R = 完全 21i R ≈⾼度 20i R = ⽆⼆. 产⽣的原因:在实际经济问题中主要是不完全多重共线性。
其产⽣的主要原因是:1. 两个解释变量具有相同或相反的变化趋势;(家庭能耗与住房⾯积、⼈⼝)⽣产、需求.......2. 数据收集的范围过窄,造成解释变量之间有相同或相反变化的假象;3. 某些解释变量之间存在某种近似的线性关系;(各解释变量有相同的时间趋势)4. ⼀个变量是另⼀个变量的滞后值;供给5. 解释变量的选择不当也可能引起变量间的多重共线性。
6. 过度决定模型。
(观测值个数少于参数个数)对于正确设置的模型,多重共线性基本上是⼀种样本现象。
§7.2 多重共线性的后果⼀. 完全多重共线性当模型具有完全多重共线性时,⽆法进⾏参数的OLS 估计;设模型 Y XB U =+,若有完全多重共线性,即()1k r X k <+,则()1T r X X k <+ 1()T X X -?不存在1()T TB X X X Y ∧-?=不存在,同样 21()()Tj u jj V X X βσ∧-=也不存在,显著性检验和预测都⽆法进⾏。
第7章 多重共线性
习 题
一、单项选择题
1.如果回归模型中解释变量之间存在完全的多重共线性,则最小二乘估计量(A )
A.不确定,方差无限大
B.确定,方差无限大
C.不确定,方差最小
D.确定,方差最小 2.多元线性回归模型中,发现各参数估计量的t 值都不显著,但模型的
F 值确很显著,这说明模型存在( A )
A .多重共线性
B .异方差
C .自相关
D .设定偏误 3.逐步回归法既检验又修正了( D )
A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性 4.如果模型中的解释变量存在完全的多重共线性,参数的最小二乘估计量是( C )
A .无偏的 B. 有偏的 C. 不确定 D. 确定的 5.设线性回归模型为
,下列表明变量之间具有完全多
重共线性的是( A )
A .
B .
C .
D .
其中v 为随机误差项
6.简单相关系数矩阵方法主要用于检验( D )
A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性 7.设为解释变量,则完全多重共线性是( A )
8.下列说法不正确的是( C )
A. 多重共线性产生的原因有模型中大量采用滞后变量
B. 多重共线性是样本现象
,)(22很大或R R 01122i i i i
Y X X u βββ=+++1202*0*0i i X X ++=1202*0*0i i X X v +++=1200*0*0
i i X X ++=1200*0*0
i i X X v +++=21,x x 221211211
.0.0
21
.
0(.0
2x x A x x B x e C x x v v D x e +==++=+=为随机误差项)
C. 检验多重共线性的方法有DW检验法
D. 修正多重共线性的方法有增加样本容量
二、多项选择题
1.能够检验多重共线性的方法有( AB )
A. 简单相关系数矩阵法
B. t检验与F检验综合判断法
C. DW检验法
D. ARCH检验法
E. White 检验
2.如果模型中解释变量之间存在共线性,则会引起如下后果( BCD )
A. 参数估计值确定
B. 参数估计值不确定
C. 参数估计值的方差趋于无限大
D. 参数的经济意义不
正确
E. DW统计量落在了不能判定的区域
3.能够检验多重共线性的方法有( ACE)
A. 简单相关系数矩阵法
B. DW检
验法
C. t检验与F检验综合判断法
D. ARCH检验法
E. 辅助回归法(又待定系数法)
三、判断题
1.多重共线性问题是随机扰动项违背古典假定引起的。
F
2.解释变量与随机误差项相关,是产生多重共线性的主要原因。
F
3.在模型中引入解释变量的多个滞后项容易产生多重共线性。
T
四、问答题
1.下面结果是利用某地财政收入对该地第一、二、三产业增加值的回归结果。
根据这一结果试判断该模型是否存在多重共线性,说明你的理由。
Dependent Variable: REV
Method: Least Squares
Sample: 1 10
Included observations: 10
Variable Coefficient Std. Error t-Statistic Prob.
C 17414.63 14135.10 1.232013 0.2640
GDP1 -0.277510 0.146541 -1.893743 0.1071 GDP2 0.084857 0.093532 0.907252 0.3992 GDP3
0.190517 0.151680
1.256048
0.2558 R-squared
0.993798 Mean dependent var 63244.00 Adjusted R-squared 0.990697 S.D. dependent var 54281.99 S.E. of regression 5235.544 Akaike info criterion 20.25350 Sum squared resid 1.64E+08 Schwarz criterion 20.37454 Log likelihood -97.26752 F-statistic 320.4848 Durbin-Watson stat
1.208127 Prob(F-statistic)
0.000001
2.克莱因与戈德伯格曾用1921-1950年(1942-1944年战争期间略去)美国国内消费Y 和工资收入X1、非工资—非农业收入X2、农业收入X3的时间序列资料,利用OLSE 估计得出了下列回归方程(括号中的数据为相应参数估计量的标准误):
试对上述模型进行评析,指出其中存在的问题。
习题答案
一、单项选择题
1.A 2.A 3.D 4.C 5.A 6.D 7.A 8.C
二、多项选择题
1. AB 2. BCD 3.ACE
三、判断题
1. 答:错误。
应该是解释变量之间高度相关引起的。
2.答:错误。
产生多重共线性的主要原因是:(1)许多经济变量在时间上有共同变动的趋势;(2)解释变量的滞后值作为解释变量在模型中使用。
3.答:正确。
在分布滞后模型里多引进解释变量的滞后项,由于变量的经济意义一样,只是时间不一致,所以很容易引起多重共线性。
四、问答题
1.答:存在严重多重共线性。
因为方程整体非常显著,表明三次产业GDP 对财
2ˆ8.133 1.05910.45220.1213 (8.92) (0.17) (0.66) (1.09) 0.95 107.37Y
X X X R F =+++==
政收入的解释能力非常强,但是每个个别解释变量均不显著,且存在负系数,与理论矛盾,原因是存在严重共线性。
2.答:从模型拟合结果可知,样本观测个数为27,消费模型的判定系数,
F 统计量为107.37,在0.05置信水平下查分子自由度为3,分母自由度为23的F 临界值为3.03,计算的F 值远大于临界值,表明回归方程是显著的。
模型整体拟合程度较高。
依据参数估计量及其标准误,可计算出各回归系数估计量的t 统计量值:
除外,其余的
值都很小。
工资收入X1的系数的t 检验值虽然显著,但
该系数的估计值过大,该值为工资收入对消费边际效应,因为它为1.059,意味着工资收入每增加一美元,消费支出的增长平均将超过一美元,这与经济理论和常识不符。
另外,理论上非工资—非农业收入与农业收入也是消费行为的重要解释变量,但两者的t 检验都没有通过。
这些迹象表明,模型中存在严重的多重共线性,不同收入部分之间的相互关系,掩盖了各个部分对解释消费行为的单独影响。
95.02
=R 01238.133
1.059
0.91, 6.23,8.920.170.4520.1210.68,
0.11
0.66 1.09t t t t =
==
=====1t j
t。