第八章(多重共线性)
- 格式:doc
- 大小:130.50 KB
- 文档页数:6
多重共线性的检验方法
多重共线性(multicollinearity)是指在回归模型中,自变量之间存在高度相关或线性相关的情况。
由于存在多重共线性,导致模型的解释能力降低,预测结果不可靠。
因此,需要对回归模型中自变量之间的关系进行检验和分析。
下面介绍几种多重共线性的检验方法。
1. 相关系数矩阵法。
计算自变量之间的相关系数矩阵,判断是否存在较高的相关系数。
相关系数矩阵主要分为Pearson 相关系数和Spearman 相关系数,其中Pearson 相关系数适用于连续变量之间的关系,Spearman 相关系数适用于序数类或等距类别的变量之间的关系。
2. 变量膨胀因子(VIF)法。
VIF 是判断某个自变量对其他自变量的回归系数影响的程度。
如果某个自变量的VIF 值超过10,就表示需要对其进行检验和分析。
3. 特征值检验法。
通过计算相关系数矩阵的特征值和特征向量,判断模型是否存在多重共线性。
如果某个特征值较小,就表示存在多重共线性。
4. 条件数检验法。
条件数是相邻特征值之比的平方根。
如果条件数大于30,就表示模型存在多重共线性。
综上所述,多重共线性的检验方法有多种,不同的检验方法可以互相验证,得到更加准确的判断结果。
在实际应用中,可以根据具体情况选择合适的方法进行多重共线性的检验。
多重共线性多重共线性(multicollinearity )的特征● 多重共线性是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系:0...2211=+++k k X X X λλλ其中k λλλ,...,,21为常数,但不同时为零。
● 0...2211≈+++k k X X X λλλ, 近似的多重共线性● 通过巴伦坦图做简单的描述。
共线性部分可用两圆圈的重叠部分来衡量。
重叠部分越大,共线性程度越高。
● 我们定义的多重共线性仅对X 变量之间的线性关系而言,它们之间的非线性关系并不违反无多重共线性的假设i i i i u X X Y +++=2210βββ多重共线性的后果●如果多重共线性是完全的,诸X变量的回归系数将是不正确的,并且它们的标准误差为无穷大●如果多重共线性是不完全的,那末,虽然回归系数可以确定,却有较大的标准误差,意思是,系数不能以很高的精确或准精确加以估计,这会导致:-参数估计不精确,也不稳定-参数估计量的标准差较大,影响系数的显著性检验●多重共线性产生的后果具有一定的不确定性●在近似的多重共线性的情况下,只要模型满足CLRM 假定,回归系数就为BLUE,但特定的样本估计量并不一定等于真值。
多重共线性的来源(1)许多经济变量在时间上由共同变动的趋势,如:收入,投资,消费(2)把一些经济变量的滞后值也作为解释变量在模型中使用,而解释变量和滞后变量通常相关,如:消费和过去的收入多重共线性一般与时间序列有关,但在横截面数据中也经常出现多重共线性的检验● 多重共线性是普遍存在的,造成的后果也比较复杂,对多重共线性的检验缺少统一的准则- 对有两个解释变量的模型,作散点图,或相 关系数,或拟和优度R平方。
- 对有多个解释变量的模型,分别用一个解释 变量对其它解释变量进行线性回归,计算拟 和优度22221,...,,k R R R- 考察参数估计值的符号,符不符合理论 - 增加或减少解释变量,考察参数估计值的变 化- 对比拟和优度和t检验值多重共线性的修正方法● 增加样本观测值,如果多重共线性是由样本引起的,可以通过收集更多的观测值增加样本容量。
试述多重共线性(统计累赘)的概念、特征及其测量方式和处理方式。
1、概念多重共线性是指自变量之间存在线性相关关。
倘若其中两个自变项的关系特别强,则在相互控制后就会使每者的效果减弱,而其他的变相的效果就会因此而增大。
2、特征3、产生原因产生多重相关性的原因主要包括四方面。
一是没有足够多的样本数据; 二是选取的自变量之间客观上就有共线性的关系; 还可能由其它因素导致, 如数据采集所用的方法, 模型设定, 一个过度决定的模型等。
但多数研究者认为共线性本质上是由于样本数据不足引起的。
4、测量方式(1)经验式的诊断方法通过观察,得到一些多重相关性严重存在的迹象。
①在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。
②回归系数的代数符号与专业知识或一般经验相反;或者该自变量与因变量的简单相关系数符号相反。
③对重要自变量的回归系数进行t 检验,其结果不显著。
特别是当F 检验能在高精度下通过,测定系数R 2的值也很大,但自变量的t 检验却全都不显著,这时多重相关性的可能将会很大。
④如果增加或删除一个变量,或者增加或删除一个观测值,回归系数发生了明显的变化。
⑤重要自变量的回归系数置信区别明显过大。
⑥在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。
⑦对于一般的观测数据,如果样本点的个数过少,比如接近于变量的个数或者少于变量的个数,样本数据中的多重相关性就会经常存在。
(2)统计检验方法共线性的诊断方法是基于对自变量的观测数据构成的矩阵X ’X 进行分析,使用各种反映自变量间相关性的指标。
共线性诊断常用的统计量有方差膨胀因子VIF 或容限TOL 、条件指数和方差比例等。
方差膨胀因子VIF 是指回归系数的估计量由于自变量的共线性使其方差增加的一个相对度量。
对于第i 个回归系数,它的方差膨胀因子定义为:VIF=1/1-R 2=1/TOL i 其中R2i 是自变量Xi 对模型中其余自变量线性回归模型的R 平方。
多重共线性基本概念(1)多重共线性; (2)完全多重共线性;(3)不完全多重共线性;练习题1、什么是变量之间的多重共线性?举例说明。
2、判断题:(1)存在完全多重共线性时,模型参数无法估计;(2)存在多重共线性时,一定会使参数估计值的方差增大,从而造成估计效率的损失; 3、完全多重共线性和不完全多重共线性之间的区别是什么? 4、产生多重共线性的经济背景是什么?5、多重共线性的危害是什么?为什么会造成这些危害?检验多重共线性的方法思路是什么?有哪些克服方法?6、考虑下列一组数据Y-10 -8 -6 -4 -2 0 2 4 6 8 10 2X 1 2 3 4 5 6 7 8 9 10 11 3X13579111315171921现在我们进行如下的回归分析:12233i i Y X X u βββ=+++请回答如下问题:(1)你能估计出该模型的参数吗?为什么? (2)如果不能,你能估计哪一参数或参数组合? 7、将下列函数用适当的方法消除多重共线性: (1)消费函数为012C W P u βββ=+++其中C 、W 、P 分别表示消费、工资收入和非工资收入,W 和P 可能高度相关,但研究表明122ββ=。
(2)需求函数为0123s Q Y P P u ββββ=++++其中Q 、Y 、P 和s P 分别为需求量、收入水平、该商品价格水平及其替代品价格水平,P 和s P可能高度相关。
基本概念解释(1)多重共线性指两个或两个以上解释变量之间存在某种线性相关关系。
(2)完全多重共线性指,在有多个解释变量模型中,解释变量之间的线性关系是准确的。
在此情况下,不能估计解释变量各自对被解释变量的影响。
(3)不完全多重共线性指,在实际经济活动中,多个解释变量之间存在多重共线性问题,但解释变量之间的线性关系是近似的,而不是完全的。
练习题答案1、如果在经典回归模型Y X U β=+中,如果基本假定6遭到破坏,则有()1k r x k <+,此时称解释变量之间存在完全多重共线性。
多重共线性解决方法
多重共线性是指在回归模型中,自变量之间存在高度相关性的情况,这会导致模型的解释能力下降,系数估计不准确,模型的稳定性受到影响。
以下是一些解决多重共线性问题的方法:
1.增加样本量:通过增加样本量可以减少模型中的抽样误差,从而减轻多重共线性的影响。
2.删除冗余变量:通过剔除高度相关的自变量,可以降低共线性的程度。
可以使用相关性矩阵或者变量膨胀因子(VIF)来判断哪些自变量之间存在高相关性,并选择保留一个或几个相关性较为弱的变量。
3.主成分分析(PCA):主成分分析可以将高度相关的自变量转换成一组无关的主成分,从而降低共线性的影响。
可以选择保留其中的几个主成分作为新的自变量,代替原始的自变量。
4.岭回归(Ridge Regression):岭回归是在普通最小二乘法的基础上加入一个正则化项,通过缩小系数估计的幅度,减少共线性对系数估计的影响。
岭回归可以通过交叉验证选择合适的正则化参数。
5.套索回归(Lasso Regression):套索回归也是在普通最小二乘法的基础上加入一个正则化项,不同的是套索回归使用L1范数作为正则化项,可以将一些系
数估计缩减为零,从而实现变量选择的效果。
6.弹性网回归(Elastic Net Regression):弹性网回归是岭回归和套索回归的结合,同时使用L1和L2范数作为正则化项,可以在预测准确性和变量选择之间进行权衡。
以上方法可以根据具体问题的特点和需求选择合适的方法来解决多重共线性问题。
回归分析中的多重共线性问题及解决方法回归分析是统计学中常用的一种方法,用于研究自变量和因变量之间的关系。
然而,在实际应用中,我们经常会遇到多重共线性的问题,这会对回归系数的估计和模型的解释产生不良影响。
本文将就多重共线性问题及其解决方法展开探讨。
多重共线性指的是在回归模型中,自变量之间存在高度相关性的情况。
当自变量之间存在共线性时,回归系数的估计会变得不稳定,标准误差会增大,系数的显著性检验结果可能出现错误,同时模型的解释性也会受到影响。
因此,多重共线性是需要引起我们高度关注的问题。
多重共线性的存在主要有两个方面的原因。
一方面是样本误差的影响,当样本容量较小或者存在异常值时,容易导致自变量之间的相关性增强。
另一方面是自变量之间本身存在的相关性,这可能是由于自变量的选择不当或者研究对象的特性所致。
无论是哪一种原因,我们都需要采取相应的方法来解决多重共线性问题。
解决多重共线性问题的方法有多种途径,下面将分别从数据清洗、变量选择、正则化方法和主成分回归等方面进行探讨。
首先,对于数据清洗来说,我们需要对样本中的异常值进行识别和处理。
异常值的存在会扰乱自变量之间的关系,导致多重共线性的加剧。
因此,在进行回归分析之前,我们需要对数据进行严格的清洗,排除掉异常值对模型的影响。
其次,变量选择也是解决多重共线性问题的有效手段。
在回归分析中,不是所有的自变量都对因变量有显著的解释作用,因此我们可以通过逐步回归、岭回归等方法来筛选出对模型影响较大的自变量,从而减少多重共线性的影响。
另外,正则化方法也是解决多重共线性问题的重要途径。
岭回归、Lasso回归等方法可以通过对回归系数进行惩罚,来减少自变量之间的相关性对模型的影响。
这些方法在实际应用中得到了广泛的应用。
最后,主成分回归是另一种解决多重共线性的有效方法。
主成分回归通过将自变量进行主成分分解,从而减少自变量之间的相关性,提高回归模型的稳定性。
综上所述,回归分析中的多重共线性问题是一个不容忽视的难题,但是我们可以通过数据清洗、变量选择、正则化方法和主成分回归等多种手段来解决这一问题。
多重共线性问题的几种解决方法在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,X k中的任何一个都不能是其他解释变量的线性组合。
如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。
多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。
这里,我们总结了8个处理多重共线性问题的可用方法,大家在遇到多重共线性问题时可作参考:1、保留重要解释变量,去掉次要或可替代解释变量2、用相对数变量替代绝对数变量3、差分法4、逐步回归分析5、主成份分析6、偏最小二乘回归7、岭回归8、增加样本容量这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。
逐步回归分析方法的基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣,从而得到最优回归方程。
具体方法分为两步:第一步,先将被解释变量y对每个解释变量作简单回归:对每一个回归方程进行统计检验分析(相关系数r、拟合优度R2和标准误差),并结合经济理论分析选出最优回归方程,也称为基本回归方程。
第二步,将其他解释变量逐一引入到基本回归方程中,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别:1.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。
2.如果新引进的解释变量对R2改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。
3.如果新引进的解释变量不仅改变了R2,而且对其他回归系数的数值或符号具有明显影响,则认为该解释变量为不利变量,引进后会使回归模型出现多重共线性问题。
不利变量未必是多余的,如果它可能对被解释变量是不可缺少的,则不能简单舍弃,而是应研究改善模型的形式,寻找更符合实际的模型,重新进行估计。
回归分析是统计学中的重要方法之一,它用来研究自变量与因变量之间的关系。
然而,在进行回归分析时,研究人员往往会遇到多重共线性的问题。
多重共线性是指自变量之间存在高度相关性的情况,这会导致回归系数估计不准确,甚至失去解释力。
本文将探讨回归分析中的多重共线性问题及解决方法。
1. 多重共线性问题的影响多重共线性问题会造成回归系数的估计不准确,导致参数估计的标准误较大,t统计量较小,从而影响回归模型的显著性检验。
此外,多重共线性还会导致回归系数的符号与理论预期相悖,使得模型的解释能力大大减弱。
2. 多重共线性问题的诊断为了解决回归分析中的多重共线性问题,首先需要进行诊断。
常用的诊断方法包括:方差膨胀因子(VIF)、特征根分析、条件数等。
其中,VIF是应用最为广泛的一种方法,它通过计算自变量之间的相关系数来判断是否存在多重共线性问题。
一般来说,如果自变量之间的相关系数较高(大于),则可以认为存在多重共线性问题。
3. 解决多重共线性的方法一旦发现回归分析中存在多重共线性问题,就需要采取相应的解决方法。
常用的解决方法包括:删除相关性较高的自变量、合并相关自变量、使用主成分回归等。
其中,删除相关自变量是最为直接的方法,但需要谨慎选择,以免丢失重要信息。
合并相关自变量则是将相关自变量进行线性组合,从而减少共线性的影响。
主成分回归则是通过将相关自变量进行主成分提取,来解决多重共线性问题。
这些方法各有优劣,需要根据具体情况来选择合适的方法。
4. 实例分析为了更好地理解多重共线性问题及解决方法,我们可以通过一个实例来进行分析。
假设我们要研究一个人的身高与体重之间的关系,我们选择了身高、体重和BMI指数作为自变量,而体脂率作为因变量。
通过回归分析,我们发现身高、体重和BMI指数之间存在较高的相关性,从而导致回归系数的估计不准确。
为了解决这一问题,我们可以采取合并相关自变量或主成分回归的方法,从而得到更为准确的回归系数估计。
第八章
多重共线性
一、多重共线性及其产生原因 定义:对于多元线性回归模型:
01122...i i i k ki i y x x x u ββββ=+++++
如果模型的解释变量之间存在着较强的线性相关关系,或者说,存在一组不全为零的常数12,,....,k λλλ,使得: 1122...0i i k ki i x x x v λλλ+++=,i v 是随机误差项。
则称模型存在着多重..共线性,如果0i v =,则称存在完全的多重共线性。
?直观地看,多重共线性是不是造成了冗余变量,这里的冗余的含义是什么? 思考:只有一个解释变量会出现多重共线性吗?
产生原因:
1.经济变量的内在联系,这是根本原因,这导致多重共线性无法克服。
2.经济变量变化趋势的“共向性”。
3.解释变量中含有滞后变量。
二、多重共线性的影响
古典回归模型要求模型不存在完全的多重共线性。
所以,即使存在严重的多重共线性,OLS 估计仍然是最佳线性无偏估计(BLUE )。
但会产生以下问题:
(一) 增大OLS 估计的方差 设模型为二元线性,
01122i i i i y x x u βββ=+++
可以证明,
2
12
21112
1
()()1i
D x
x r σβ=
∙
--∑
VIF 被称为方差膨胀因子。
分别计算12r 分别等于0,0.5,0.9时的方差膨胀因子。
?方差变得过大,有什么不好??
(二) 难以区分每个解释变量的独立影响 对于多元线性回归模型,回归系数为
i i
y
x β∂=
∂,根据偏导数的概念,i β的经济含义是什么?
(三) T 检验的可靠性降低
可能使T 检验失效,原来显著的T 值变成不显著的,从而将有重要影响的变量剔除出模型。
思考:比较一下和模型存在异方差及自相关时对T 检验的影响有何不同?
(四) 回归模型缺乏稳定性
参数估计值对样本的变化比较敏感,这实际上也是OLS 估计方差较大的另一个表现。
例子来说明: 见表一
如果改成:
再重新进行回归,看会发生什么情况?
一个理念:多重共线性不可避免。
三、多重共线性的检验
外在症兆:R-平方很高,但只有极个别或少数几个解释变量前的系数显著(T 值偏小)。
1.相关系数检验
利用相关系数可以分析解释变量之间的两两相关情况。
例:服装需求函数。
根据理论和经验分析,影响居民服装需求的主要因素有:可支配收入X ,流动资产拥有量K ,服装类价格指数P1和总物价指数P0。
下表给出了有关统计资料。
表 服装需求函数有关统计资料
2.方差膨胀因子检验(辅助方程) VIF 大于10时,或者是容许度。
仍以上例为例。
四、多重共线性的解决方法
明确两点
1 如果建立模型的目的是为了预测,只要模型的拟合优度较高,可以忽略多重共线性的问题;但是,如果目的是进行结构分析或政策评价,即利用系数分析,比较各个解释变量的单独影响,则需要消除多重共线性的影响。
2 引起多重共线性的原因是模型中存在相关的解释变量,消除多重共线性的根本方法只能是从模型中剔除这些变量。
但直接剔除变量可能会带来以下问题: 模型的经济意义不合理,可能会使模型出现异方差性或自相关性。
可以考虑增加样本容量。
(一)直接剔除次要或可替代的变量 (二)间接剔除重要的解释变量 1.利用附加信息
以规模报酬不变的C-D 生产函数为例。
以工业能源需求函数为例。
01122y x x βββε=+++ 2.变换模型的形式 如投资函数,
0121t t t t I Y Y u βββ-=+++
可以变换成: 0121
t t t t I Y Y u
βββ-=++∆+ 又比如,需求函数是:012031Q Y P P u ββββ=++++ 为了反映自价格与互价格对需求量的影响,将需求函数设成:
0121
(
)P Q Y u P βββ=+++
3.综合使用时序数据与横截面数据
如果能同时获得变量的时序数据和横截面数据,则先利用某类数据估计出模型中的部分参数,再利用另一类数据估计模型的其余参数。
例如,
设某类商品的需求函数为,
012ln ln ln y x p u βββ=+++,其中,时序数据中X 与P 高度相关。
为此,
(1) 收集最近一年该商品的销售量和居民收入的统计资料,将需求函数取成: 01ln ln y a a x u =++, 可以得到需求的收入弹性1a 。
(2) 将原模型变换成:
01ln t t t y P u ββ*=++,其中,1ln ln t t t y y a x *
=-
, 可以用时序数据估计模型,得
到0β 和1β
,从而在消除多重共线性的情况下,估计出了各参数值。
(四)逐步回归 具体步骤为:
1. 利用相关系数从所有解释变量中选取相关性最强的变量建立一元回归模型。
2. 在一元回归模型中分别引入第二个变量,共建立K-1个二元回归模型,从这些模型
中再选取一个较优的模型。
选择时要求:模型中每个解释变量影响显著,参数符号正确,调整后的R-平方有所提高或下降极小。
3. 在选取的二元回归模型中以同样方式引入第三个变量,如此下去,直至无法引入新
的变量时为止。
以上例来说明逐步回归的过程。
作业:
1. 古典回归模型是否要求模型不存在多重共线性?多重共线性是否会影响OLS 估计的无
偏性和有效性?具体产生哪些不利影响?
2. 试述产生多重共线性的原因和解决多重共线性的基本思路。
3. 建立生产函数
Y AL K αβ=时,
(1) 若K ,L 高度相关,用OLS 方法估计模型时会出现什么问题?
(2) 若已知该生产过程的规模报酬不变(即1αβ+=),应该如何估计模型?写出具体步骤。
4. 表3是1978——1997年我国钢材产量Y (万吨)、生铁产量X1(万吨),发电量X2(亿
千瓦小时),固定资产投资X3(亿元),国内生产总值X4(亿元),铁路运输量X5(万吨)的统计资料。
(1) 计算各个变量之间的相关系数,分析多重共线性的可能类型。
(2) 根据逐步回归原理,建立我国钢产量预测模型。