第5章多重共线性
- 格式:ppt
- 大小:606.00 KB
- 文档页数:55
什么是多重共线性如何进行多重共线性的检验多重共线性是指在统计模型中,独立变量之间存在高度相关性或者线性依赖关系,从而给模型的解释和结果带来不确定性。
在回归分析中,多重共线性可能导致系数估计不准确、标准误差过大、模型的解释变得复杂等问题。
因此,对于多重共线性的检验和处理是非常重要的。
一、多重共线性的检验多重共线性的检验可以通过以下几种方式进行:1. 相关系数矩阵:可以通过计算独立变量之间的相关系数,判断它们之间的关系强度。
当相关系数超过0.8或-0.8时,可以视为存在高度相关性,即可能存在多重共线性问题。
2. 方差扩大因子(VIF):VIF是用来检验自变量之间是否存在共线性的指标。
计算每一个自变量的VIF值,当VIF值大于10或者更高时,可以视为存在多重共线性。
3. 条件数(Condition index):条件数也是一种用来检验多重共线性的指标。
它度量了回归矩阵的奇异性或者相对不稳定性。
当条件数超过30时,可以视为存在多重共线性。
4. 特征值(Eigenvalues):通过计算特征值,可以判断回归矩阵的奇异性。
如果存在特征值接近于零的情况,可能存在多重共线性。
以上是常用的多重共线性检验方法,可以根据实际情况选择合适的方法进行检验。
二、多重共线性的处理在检测到存在多重共线性问题后,可以采取以下几种方式进行处理:1. 去除相关性强的变量:在存在高度相关变量的情况下,可以选择去除其中一个或多个相关性较强的变量。
2. 聚合相关变量:将相关性强的变量进行加权平均,得到一个新的变量来替代原来的变量。
3. 主成分分析(PCA):主成分分析是一种降维技术,可以将相关性强的多个变量合并成为一个或多个无关的主成分。
4. 岭回归(Ridge Regression):岭回归是一种缓解多重共线性的方法,通过加入一个正则化项,来使得共线性变量的系数估计更加稳定。
5. Lasso回归(Lasso Regression):Lasso回归也是一种缓解多重共线性的方法,通过对系数进行稀疏化,来选择重要的变量。
试述多重共线性(统计累赘)的概念、特征及其测量方式和处理方式。
1、概念多重共线性是指自变量之间存在线性相关关。
倘若其中两个自变项的关系特别强,则在相互控制后就会使每者的效果减弱,而其他的变相的效果就会因此而增大。
2、特征3、产生原因产生多重相关性的原因主要包括四方面。
一是没有足够多的样本数据; 二是选取的自变量之间客观上就有共线性的关系; 还可能由其它因素导致, 如数据采集所用的方法, 模型设定, 一个过度决定的模型等。
但多数研究者认为共线性本质上是由于样本数据不足引起的。
4、测量方式(1)经验式的诊断方法通过观察,得到一些多重相关性严重存在的迹象。
①在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。
②回归系数的代数符号与专业知识或一般经验相反;或者该自变量与因变量的简单相关系数符号相反。
③对重要自变量的回归系数进行t 检验,其结果不显著。
特别是当F 检验能在高精度下通过,测定系数R 2的值也很大,但自变量的t 检验却全都不显著,这时多重相关性的可能将会很大。
④如果增加或删除一个变量,或者增加或删除一个观测值,回归系数发生了明显的变化。
⑤重要自变量的回归系数置信区别明显过大。
⑥在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。
⑦对于一般的观测数据,如果样本点的个数过少,比如接近于变量的个数或者少于变量的个数,样本数据中的多重相关性就会经常存在。
(2)统计检验方法共线性的诊断方法是基于对自变量的观测数据构成的矩阵X ’X 进行分析,使用各种反映自变量间相关性的指标。
共线性诊断常用的统计量有方差膨胀因子VIF 或容限TOL 、条件指数和方差比例等。
方差膨胀因子VIF 是指回归系数的估计量由于自变量的共线性使其方差增加的一个相对度量。
对于第i 个回归系数,它的方差膨胀因子定义为:VIF=1/1-R 2=1/TOL i 其中R2i 是自变量Xi 对模型中其余自变量线性回归模型的R 平方。
第5章 多重共线性1、所谓不完全多重共线性是指存在不全为零的数kλλλ,,,21 ,有( )是随机误差项式中v e v x x x .D e v x x x .C x x x .B v x x x .A k x x k k xk k k k k k ⎰∑=++++=++++=+++=++++ 122112212211221100λλλλλλλλλλλλ2、设21,x x 为解释变量,则完全多重共线性是( ).(021.0.021.22121121=+=++==+x x ex D v v x x C ex B x x A 为随机误差项)3.设线性回归模型为ii i i u x x y +++=33221βββ,下列表明变量之间具有完全多重共线性的是( )(其中v 为随机误差项)000.0000.0020.0020.321321321321=+*+*+*=*+*+*=+*++*=*++*v x x x D x x x C v x x x B x x x A4.设线性回归模型为ii i i u x x y +++=33221βββ,下列表明变量之间具有不完全多重共线性的是( )(其中v 为随机误差项)000.0000.0020.0020.321321321321=+*+*+*=*+*+*=+*++*=*++*v x x x D x x x C v x x x B x x x A5.如果模型中的解释变量存在完全的多重共线性,参数的最小二乘估计量是( )A .无偏的 B. 有偏的 C. 不确定 D. 确定的 6.下列说法不正确的是( )A.多重共线性产生的原因有模型中大量采用滞后变量B.多重共线性是样本现象C.检验多重共线性的方法有DW 检验法D.修正多重共线性的方法有增加样本容量7.在线性回归模型中,若解释变量1x 和2x 的观测值成比例,即有i2i 1kxx =,其中k 为非零常数,则表明模型中存在( )A. 异方差B. 多重共线性C. 序列自相关D. 设定误差 8.多重共线性是一种( )A .样本现象 B.随机误差现象 C .被解释变量现象 D.总体现象 9.逐步回归法既检验又修正了( )A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性 二、多项选择1、设线性回归模型为ii i i u x x y +++=33221βββ,下列表明变量之间具有多重共线性的是( )(其中v 为随机误差项)31.031.0000.0000.0020.0020.3232321321321321=++=+=+*+*+*=*+*+*=+*++*=*++*v x x F x x E v x x x D x x x C v x x x B x x x A2.下列说法正确的是( )A. 多重共线性分为完全和不完全B. 多重共线性是一种样本现象C. 在共线性程度不严重的时候可进行预测分析D. 多重共线性的存在是难以避免的 3.能够检验多重共线性的方法有( )A.简单相关系数矩阵法B. DW 检验法C. 逐步回归法D.ARCH 检验法E.辅助回归法(又待定系数法)F. t 检验与F 检验综合判断法 4.能够修正多重共线性的方法有( )A.增加样本容量B. 数据的结合C.变换模型的函数形式D.逐步回归法E.差分模型 三、判断(见习题集)四、计算分析:在研究生产函数时,得到如下两个模型估计式:(1)LnL LnK Q Ln 893.0887.004.5ˆ++-=se=(1.40)(0.087)(0.137)21,878.02==n R(2)LnL LnK t QLn 285.1460.00272.057.8ˆ+++-=se=(2.99)(0.0204)(0.333)(0.324)21,889.02==n R其中,Q=产量,K=资本,L=劳动时间(技术指标),n=样本容量。