8第八章:多重共线性及其改进方法
- 格式:pptx
- 大小:544.76 KB
- 文档页数:31
多元回归分析中的多重共线性及其解决方法在多元回归分析中,多重共线性是一个常见的问题,特别是在自变量之间存在高度相关性的情况下。
多重共线性指的是自变量之间存在线性相关性,这会造成回归模型的稳定性和可靠性下降,使得解释变量的效果难以准确估计。
本文将介绍多重共线性的原因及其解决方法。
一、多重共线性的原因多重共线性常常发生在自变量之间存在高度相关性的情况下,其主要原因有以下几点:1. 样本数据的问题:样本数据中可能存在过多的冗余信息,或者样本数据的分布不均匀,导致变量之间的相关性增加。
2. 选择自变量的问题:在构建回归模型时,选择了过多具有相似解释作用的自变量,这会增加自变量之间的相关性。
3. 数据采集的问题:数据采集过程中可能存在误差或者不完整数据,导致变量之间的相关性增加。
二、多重共线性的影响多重共线性会对多元回归模型的解释变量产生不良影响,主要表现在以下几个方面:1. 回归系数的不稳定性:多重共线性使得回归系数的估计不稳定,难以准确反映各个自变量对因变量的影响。
2. 系数估计值的无效性:多重共线性会导致回归系数估计偏离其真实值,使得对因变量的解释变得不可靠。
3. 预测的不准确性:多重共线性使得模型的解释能力下降,导致对未知数据的预测不准确。
三、多重共线性的解决方法针对多重共线性问题,我们可以采取以下几种方法来解决:1. 剔除相关变量:通过计算自变量之间的相关系数,发现高度相关的变量,选择其中一个作为代表,将其他相关变量剔除。
2. 主成分分析:主成分分析是一种降维技术,可以通过线性变换将原始自变量转化为一组互不相关的主成分,从而降低多重共线性造成的影响。
3. 岭回归:岭回归是一种改良的最小二乘法估计方法,通过在回归模型中加入一个惩罚项,使得回归系数的估计更加稳定。
4. 方差膨胀因子(VIF):VIF可以用来检测自变量之间的相关性程度,若某个自变量的VIF值大于10,则表明该自变量存在较高的共线性,需要进行处理。
多重共线性问题及解决方法概念所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。
后果参数估计失去其意义检验与检验目前常用的多重共线性诊断方法有:1.自变量的相关系数矩阵R诊断法:研究变量的两两相关分析,如果自变量间的二元相关系数值很大,则认为存在多重共线性。
但无确定的标准判断相关系数的大小与共线性的关系。
有时,相关系数值不大,也不能排除多重共线性的可能。
2.方差膨胀因子(the variance inflation factor,VIF)诊断法:方差膨胀因子表达式为:VIFi=1/(1-R2i)。
其中Ri为自变量xi对其余自变量作回归分析的复相关系数。
当VIFi很大时,表明自变量间存在多重共线性。
该诊断方法也存在临界值不易确定的问题,在应用时须慎重。
3.容忍值(Tolerance,简记为Tol)法:容忍值实际上是VIF的倒数,即Tol=1/VIF。
其取值在0~1之间,Tol越接近1,说明自变量间的共线性越弱。
在应用时一般先预先指定一个T ol值,容忍值小于指定值的变量不能进入方程,从而保证进入方程的变量的相关系数矩阵为非奇异阵,计算结果具有稳定性。
但是,有的自变量即使通过了容忍性检验进入方程,仍可导致结果的不稳定。
4.多元决定系数值诊断法:假定多元回归模型p个自变量,其多元决定系数为R2y(X1,X2,…,Xp)。
分别构成不含其中某个自变量(Xi,i=1,2,…,p)的p个回归模型,并应用最小二乘法准则拟合回归方程,求出它们各自的决定系数R2i(i=1,2,…,p)。
如果其中最大的一个R2k与R2Y很接近,就表明该自变量在模型中对多元决定系数的影响不大,说明该变量对Y总变异的解释能力可由其他自变量代替。
它很有可能是其他自变量的线性组合。
多重共线性的判断与修正一、多重共线性的判断1. 综合统计检验法LS Y C X1 X2 对模型进行OLS, 得到参数估计表(1) 当2,R F 很大,而回归系数的t 检验值小于临界值时,可判定该模型存在多重共线性。
(2) 当完全共线性存在时,模型的OLS 无法进行,Eviews 会提示:矩阵的逆(1()T X X -)不存在。
2. 简单相关系数检验法LS Y C X1 X2 对模型进行OLS, 得到参数估计表中的2R .点击:Quick/Group Statistics/Correlation在对话框中输入:X1 X2 , 点击OK, 即可得到简单相关系数矩阵检验:若存在 i j x x r 接近于1, 或 22,i j x x r R >,则说明,i j x x 之间存在着严重的相关性。
3. 辅助回归法(方差扩大因子法)设 121112...(1)(1)...j j k Xj X X X j X j Xk V ααααα-+=+++-+++++ (j ) LS Xj X1 X2…Xk 对(j) 进行OLS, 得到参数估计表检验:若表中 (2,1)F F k n k α>--+, 则可确定存在多重共线性。
或者(方差扩大因子法):计算211j jVIF R =-, (2j R 为以上方程的可决系数), 若10j VIF ≥, 则可确定存在多重共线性。
4. 逐步回归法1) 首先计算被解释变量对每个解释变量的回归方程,得到基本回归方程:LS Y C Xi OLS ,得到基本回归方程(i), i = 1,2,…,k2) 从这些基本回归方程中选出最合理的方程, 即,2R 取值最大,且t 检验显著。
比方说,0j Y Xj ββ=+3) 在这个选出的方程中增加新的解释变量, 再进行OLS 分析:LS Y C Xj Xi ( i= 1,2,…,j-1, j+1,…k)判断: 如果新加入的解释变量对2R 改进最大, 且每个系数又是t 统计显著,则保留这个新的解释变量。
修正多重共线性的方法
修正多重共线性的方法有以下几种:
1. 增加样本量:多重共线性通常在样本量较少时更容易出现。
通过增加样本量,可以减少多重共线性的问题。
2. 将相关性较高的变量进行合并或删除:通过合并相关性较高的变量,可以在一定程度上减少多重共线性的问题。
如果相关性非常高,可以考虑删除其中一个变量。
3. 使用正交化方法:正交化方法可以将相关性较高的变量进行正交化,从而减少它们之间的共线性。
常见的正交化方法包括主成分分析(PCA)和典型相关分析(CCA)。
4. 使用稳定的估计方法:一些稳定的估计方法,如岭回归和套索回归,可以在存在多重共线性的情况下获得更稳健的估计结果。
5. 引入先验知识或理论:通过引入先验知识或理论,可以帮助剔除冗余变量或选取更具解释性的变量,从而减少多重共线性的问题。
6. 对变量进行标准化或归一化:将变量进行标准化或归一化,可以减少多重共线性的问题。
7. 利用交互项或多项式项:通过引入交互项或多项式项,可以增加变量之间的非线性关系,从而减少多重共线性的问题。
8. 重新评估模型的目标和解释变量:重新审视模型的目标和解释变量,确保它们与研究问题相关,并且尽量避免多重共线性的问题。
上述方法可以根据具体情况选择其中一种或多种方法进行修正,以减少多重共线性对模型结果的影响。
第七章 多重共线性教学目的及要求:1、重点理解多重共线性在经济现象中的表现及产生的原因和后果2、掌握检验和处理多重共线性问题的方法3、学会灵活运用Eviews 软件解决多重共线性的实际问题。
第一节 多重共线性的产生及后果一、多重共线性的含义1、含义在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X 1,X 2,……,X k 中的任何一个都不能是其他解释变量的线性组合。
如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。
多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。
2、类型多重共线性包含完全多重共线性和不完全多重共线性两种类型。
(1)完全多重共线性完全多重共线性是指线性回归模型中至少有一个解释变量可以被其他解释变量线性表示,存在严格的线性关系。
如对于多元线性回归模型i ki k i i i X X X Y μββββ+++++= 22110 (7-1)存在不全为零的数k λλλ,,,21 ,使得下式成立:0X X X 2211=+++ki k i i λλλ (7-2)则可以说解释变量k X ,,X ,X 21 之间存在完全的线性相关关系,即存在完全多重共线性。
从矩阵形式来看,就是0'=X X , 即1)(-<k X rank ,观测值矩阵是降秩的,表明在向量X中至少有一个列向量可以由其他列向量线性表示。
(2)不完全多重共线性不完全多重共线性是指线性回归模型中解释变量间存在不严格的线性关系,即近似线性关系。
如对于多元线性回归模型(7-1)存在不全为零的数k λλλ,,,21 ,使得下式成立:0X X X 2211=++++i ki k i i u λλλ (7-3)其中i u 为随机误差项,则可以说解释变量k X ,,X ,X 21 之间存在不完全多重共线性。
多重共线性问题的几种解决方法在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,X k中的任何一个都不能是其他解释变量的线性组合。
如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。
多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。
这里,我们总结了8个处理多重共线性问题的可用方法,大家在遇到多重共线性问题时可作参考:1、保留重要解释变量,去掉次要或可替代解释变量2、用相对数变量替代绝对数变量3、差分法4、逐步回归分析5、主成份分析6、偏最小二乘回归7、岭回归8、增加样本容量这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。
逐步回归分析方法的基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣,从而得到最优回归方程。
具体方法分为两步:第一步,先将被解释变量y对每个解释变量作简单回归:对每一个回归方程进行统计检验分析(相关系数r、拟合优度R2和标准误差),并结合经济理论分析选出最优回归方程,也称为基本回归方程。
第二步,将其他解释变量逐一引入到基本回归方程中,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别:1.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。
2.如果新引进的解释变量对R2改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。
3.如果新引进的解释变量不仅改变了R2,而且对其他回归系数的数值或符号具有明显影响,则认为该解释变量为不利变量,引进后会使回归模型出现多重共线性问题。
不利变量未必是多余的,如果它可能对被解释变量是不可缺少的,则不能简单舍弃,而是应研究改善模型的形式,寻找更符合实际的模型,重新进行估计。
多重共线性问题的定义和影响多重共线性问题的检验和解决方法多重共线性问题的定义和影响,多重共线性问题的检验和解决方法多重共线性问题是指在统计分析中,使用多个解释变量来预测一个响应变量时,这些解释变量之间存在高度相关性的情况。
共线性是指两个或多个自变量之间存在线性相关性,而多重共线性则是指两个或多个自变量之间存在高度的线性相关性。
多重共线性问题会给数据分析带来一系列影响。
首先,多重共线性会导致统计分析不准确。
在回归分析中,多重共线性会降低解释变量的显著性和稳定性,使得回归系数估计的标准误差变大,从而降低模型的准确性。
其次,多重共线性会使得解释变量的效果被混淆。
如果多个解释变量之间存在高度的线性相关性,那么无法确定每个解释变量对响应变量的独立贡献,从而使得解释变量之间的效果被混淆。
此外,多重共线性还会导致解释变量的解释力度下降。
当解释变量之间存在高度的线性相关性时,其中一个解释变量的变化可以通过其他相关的解释变量来解释,从而降低了该解释变量对响应变量的独立解释力度。
为了检验和解决多重共线性问题,有几种方法可以采用。
首先,可以通过方差膨胀因子(VIF)来判断解释变量之间的相关性。
VIF是用来度量解释变量之间线性相关性强度的指标,其计算公式为:VIFi = 1 / (1 - R2i)其中,VIFi代表第i个解释变量的方差膨胀因子,R2i代表模型中除去第i个解释变量后,其他解释变量对第i个解释变量的线性回归拟合优度。
根据VIF的大小,可以判断解释变量之间是否存在多重共线性。
通常来说,如果某个解释变量的VIF大于10或15,那么可以认为该解释变量与其他解释变量存在显著的多重共线性问题。
其次,可以通过主成分分析(PCA)来降低多重共线性的影响。
PCA是一种降维技术,可以将高维的解释变量压缩成低维的主成分,从而减少解释变量之间的相关性。
通过PCA,可以得到一组新的解释变量,这些新的解释变量之间无相关性,并且能够保留原始解释变量的主要信息。
多重共线性和非线性回归的问题(1)多重共线性问题我们都知道在进行多元回归的时候,特别是进行经济上指标回归的时候,很多变量存在共同趋势相关性,让我们得不到希望的回归模型。
这里经常用到的有三种方法,而不同的方法有不同的目的,我们分别来看看:第一个,是最熟悉也是最方便的——逐步回归法。
逐步回归法是根据自变量与因变量相关性的大小,将自变量一个一个选入方法中,并且每选入一个自变量都进行一次检验。
最终留在模型里的自变量是对因变量有最大显著性的,而剔除的自变量是与因变量无显著线性相关性的,以及与其他自变量存在共线性的。
用逐步回归法做的多元回归分析,通常自变量不宜太多,一般十几个以下,而且你的数据量要是变量个数3倍以上才可以,不然做出来的回归模型误差较大。
比如说你有10个变量,数据只有15组,然后做拟合回归,得到9个自变量的系数,虽然可以得到,但是精度不高。
这个方法我们不仅可以找到对因变量影响显著的几个自变量,还可以得到一个精确的预测模型,进行预测,这个非常重要的。
而往往通过逐步回归只能得到几个自变量进入方程中,有时甚至只有一两个,令我们非常失望,这是因为自变量很多都存在共线性,被剔除了,这时可以通过第二个方法来做回归。
第二个,通过因子分析(或主成分分析)再进行回归。
这种方法用的也很多,而且可以很好的解决自变量间的多重共线性。
首先通过因子分析将几个存在共线性的自变量合为一个因子,再用因子分析得到的几个因子和因变量做回归分析,这里的因子之间没有显著的线性相关性,根本谈不上共线性的问题。
通过这种方法可以得到哪个因子对因变量存在显著的相关性,哪个因子没有显著的相关性,再从因子中的变量对因子的载荷来看,得知哪个变量对因变量的影响大小关系。
而这个方法只能得到这些信息,第一它不是得到一个精确的,可以预测的回归模型;第二这种方法不知道有显著影响的因子中每个变量是不是都对因变量有显著的影响,比如说因子分析得到三个因子,用这三个因子和因变量做回归分析,得到第一和第二个因子对因变量有显著的影响,而在第一个因子中有4个变量组成,第二个因子有3个变量组成,这里就不知道这7个变量是否都对因变量存在显著的影响;第三它不能得到每个变量对因变量准确的影响大小关系,而我们可以通过逐步回归法直观的看到自变量前面的系数大小,从而判断自变量对因变量影响的大小。
回归分析是统计学中的重要方法之一,它用来研究自变量与因变量之间的关系。
然而,在进行回归分析时,研究人员往往会遇到多重共线性的问题。
多重共线性是指自变量之间存在高度相关性的情况,这会导致回归系数估计不准确,甚至失去解释力。
本文将探讨回归分析中的多重共线性问题及解决方法。
1. 多重共线性问题的影响多重共线性问题会造成回归系数的估计不准确,导致参数估计的标准误较大,t统计量较小,从而影响回归模型的显著性检验。
此外,多重共线性还会导致回归系数的符号与理论预期相悖,使得模型的解释能力大大减弱。
2. 多重共线性问题的诊断为了解决回归分析中的多重共线性问题,首先需要进行诊断。
常用的诊断方法包括:方差膨胀因子(VIF)、特征根分析、条件数等。
其中,VIF是应用最为广泛的一种方法,它通过计算自变量之间的相关系数来判断是否存在多重共线性问题。
一般来说,如果自变量之间的相关系数较高(大于),则可以认为存在多重共线性问题。
3. 解决多重共线性的方法一旦发现回归分析中存在多重共线性问题,就需要采取相应的解决方法。
常用的解决方法包括:删除相关性较高的自变量、合并相关自变量、使用主成分回归等。
其中,删除相关自变量是最为直接的方法,但需要谨慎选择,以免丢失重要信息。
合并相关自变量则是将相关自变量进行线性组合,从而减少共线性的影响。
主成分回归则是通过将相关自变量进行主成分提取,来解决多重共线性问题。
这些方法各有优劣,需要根据具体情况来选择合适的方法。
4. 实例分析为了更好地理解多重共线性问题及解决方法,我们可以通过一个实例来进行分析。
假设我们要研究一个人的身高与体重之间的关系,我们选择了身高、体重和BMI指数作为自变量,而体脂率作为因变量。
通过回归分析,我们发现身高、体重和BMI指数之间存在较高的相关性,从而导致回归系数的估计不准确。
为了解决这一问题,我们可以采取合并相关自变量或主成分回归的方法,从而得到更为准确的回归系数估计。