第7章 多重共线性
- 格式:ppt
- 大小:125.50 KB
- 文档页数:20
试述多重共线性(统计累赘)的概念、特征及其测量方式和处理方式。
1、概念多重共线性是指自变量之间存在线性相关关。
倘若其中两个自变项的关系特别强,则在相互控制后就会使每者的效果减弱,而其他的变相的效果就会因此而增大。
2、特征3、产生原因产生多重相关性的原因主要包括四方面。
一是没有足够多的样本数据; 二是选取的自变量之间客观上就有共线性的关系; 还可能由其它因素导致, 如数据采集所用的方法, 模型设定, 一个过度决定的模型等。
但多数研究者认为共线性本质上是由于样本数据不足引起的。
4、测量方式(1)经验式的诊断方法通过观察,得到一些多重相关性严重存在的迹象。
①在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。
②回归系数的代数符号与专业知识或一般经验相反;或者该自变量与因变量的简单相关系数符号相反。
③对重要自变量的回归系数进行t 检验,其结果不显著。
特别是当F 检验能在高精度下通过,测定系数R 2的值也很大,但自变量的t 检验却全都不显著,这时多重相关性的可能将会很大。
④如果增加或删除一个变量,或者增加或删除一个观测值,回归系数发生了明显的变化。
⑤重要自变量的回归系数置信区别明显过大。
⑥在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。
⑦对于一般的观测数据,如果样本点的个数过少,比如接近于变量的个数或者少于变量的个数,样本数据中的多重相关性就会经常存在。
(2)统计检验方法共线性的诊断方法是基于对自变量的观测数据构成的矩阵X ’X 进行分析,使用各种反映自变量间相关性的指标。
共线性诊断常用的统计量有方差膨胀因子VIF 或容限TOL 、条件指数和方差比例等。
方差膨胀因子VIF 是指回归系数的估计量由于自变量的共线性使其方差增加的一个相对度量。
对于第i 个回归系数,它的方差膨胀因子定义为:VIF=1/1-R 2=1/TOL i 其中R2i 是自变量Xi 对模型中其余自变量线性回归模型的R 平方。
7.1多重共线性的概念及产生原因
多重共线性是指在一个多元回归模型中,多个解释变量之间存在高度相关性,导致回
归方程中的参数无法估计或估计不准确的现象。
因此,多重共线性会对回归结果的解释和
预测产生负面影响。
多重共线性的产生原因可以归纳为以下几点:
1. 变量选择不当:如果在选择解释变量时,没有考虑它们之间可能存在的相关性,
就会出现多重共线性。
2. 数据处理不当:在数据处理中,如果对变量进行过度的转换和调整,或者使用过
于宽泛的指标,也可能导致多重共线性问题。
3. 数据收集不当:如果数据样本不足或者数据来源中存在重复的信息,就可能出现
多重共线性。
4. 特征工程不当:特征工程是指对原始数据进行预处理,提取出更有利于建模的特征。
如果特征工程不当,就可能导致多重共线性的问题。
如,过多的特征选择等。
5. 非线性关系:多重共线性不仅存在于线性模型中,也可能存在于非线性模型中,
如决策树模型、KNN模型等。
6. 误差项相关:当自变量中存在测量误差时,误差会通过模型的回归系数来影响因
变量,导致自变量之间的相关性,从而产生多重共线性。
7. 时间趋势:在同一时间段内,多个自变量具有相似的趋势也可能导致多重共线性。
例如,时间序列中常常出现的季节性变化等。
综上所述,多重共线性是在多元回归模型中常见的问题,它会对模型的稳定性、可靠
性和准确性产生重要影响。
因此,在进行回归分析时,需要注意避免多重共线性的问题。
第七章多重共线性第七章多重共线性若线性模型不满⾜假定6,就称模型有多重共线性。
§7.1 多重共线性的概念⼀. 基本概念:假定6 ()1k r X k n =+<,是指模型中所有⾃变量12,,,,k x x x 1线性⽆关,也可理解为矩阵X 的列向量线性⽆关。
若不满⾜该假定,即 ()1k r X k <+,则称12,,,,k x x x 1存在完全多重共线性,12,,,,k x x x 1存在严格的线性关系,这是⼀种极端情况;若12,,,,k x x x 1之间的线性关系不是严格的,⽽是⼀种近似的线性关系,则称⾼度相关或存在不完全多重共线性。
如,01122i i i i y x x u βββ=+++ 若12,λλ?不全为零,使11220i i x x λλ+=,完全多重共线性11220i i i x x v λλ++= 不完全多重共线性完全多重共线性和不完全多重共线性统称为多重共线性。
解释变量(⾃变量)之间的线性关系可⽤拟合优度2i R 描述,2i R 表⽰i x 对其它解释变量的拟合优度,21i R = 完全 21i R ≈⾼度 20i R = ⽆⼆. 产⽣的原因:在实际经济问题中主要是不完全多重共线性。
其产⽣的主要原因是:1. 两个解释变量具有相同或相反的变化趋势;(家庭能耗与住房⾯积、⼈⼝)⽣产、需求.......2. 数据收集的范围过窄,造成解释变量之间有相同或相反变化的假象;3. 某些解释变量之间存在某种近似的线性关系;(各解释变量有相同的时间趋势)4. ⼀个变量是另⼀个变量的滞后值;供给5. 解释变量的选择不当也可能引起变量间的多重共线性。
6. 过度决定模型。
(观测值个数少于参数个数)对于正确设置的模型,多重共线性基本上是⼀种样本现象。
§7.2 多重共线性的后果⼀. 完全多重共线性当模型具有完全多重共线性时,⽆法进⾏参数的OLS 估计;设模型 Y XB U =+,若有完全多重共线性,即()1k r X k <+,则()1T r X X k <+ 1()T X X -?不存在1()T TB X X X Y ∧-?=不存在,同样 21()()Tj u jj V X X βσ∧-=也不存在,显著性检验和预测都⽆法进⾏。
第七章 多重共线性及其处理第一部分 学习辅导一、本章学习目的与要求1.理解多重共线性的概念;2.掌握多重共线性存在的主要原因;3.理解多重共线性可能造成的后果;4.掌握多重共线性的检验与修正的方法。
二、本章内容提要本章主要介绍计量经济模型的计量经济检验。
即多重共线性问题。
多重共线性是多元回归模型可能存在的一类现象,分为完全共线与近似共线两类。
模型的多个解释变量间出现完全共线性时,模型的参数无法估计。
更多的情况则是近似共线性,这时,由于并不违背所有的基本假定,模型参数的估计仍是无偏、一致且有效的,但估计的参数的标准差往往较大,从而使得t 统计值减小,参数的显著性下降,导致某些本应存在于模型中的变量被排除,甚至出现参数正负号方面的一些混乱。
显然,近似多重共线性使得模型偏回归系数的特征不再明显,从而很难对单个系数的经济含义进行解释。
多重共线性的检验包括检验多重共线性是否存在以及估计多重共线性的范围两层递进的检验。
而解决多重共线性的办法通常有逐步回归法、差分法以及使用额外信息、增大样本容量等方法。
(一)多重共线性及其产生的原因当我们利用统计数据进行分析时,解释变量之间经常会出现高度多重共线性的情况。
1.多重共线性的基本概念多重共线性(Multicollinearity )一词由弗里希(Frish )于1934年在其撰写的《借助于完全回归系统的统计合流分析》中首次提出。
它的原义是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系。
如果在经典回归模型Y X βε=+中,经典假定(5)遭到破坏,则有()1R X k <+,此时称解释变量k X X X ,,,21 间存在完全多重共线性。
解释变量的完全多重共线性,也就是解释变量之间存在严格的线性关系,即数据矩阵X 的列向量线性相关。
因此,必有一个列向量可由其余列向量线性表示。
同时还有另外一种情况,即解释变量之间虽然不存在严格的线性关系,但是却有近似的线性关系,即解释变量之间高度相关。
第7章 多重共线性习 题一、单项选择题1.如果回归模型中解释变量之间存在完全的多重共线性,则最小二乘估计量( )A.不确定,方差无限大B.确定,方差无限大C.不确定,方差最小D.确定,方差最小2.多元线性回归模型中,发现各参数估计量的t 值都不显著,但模型的F 值确很显著,这说明模型存在( )A .多重共线性B .异方差C .自相关D .设定偏误 3.逐步回归法既检验又修正了( )A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性4.如果模型中的解释变量存在完全的多重共线性,参数的最小二乘估计量是( )A .无偏的 B. 有偏的 C. 不确定 D. 确定的 5.设线性回归模型为,下列表明变量之间具有完全多重共线性的是( )A .B .C .D .其中v 为随机误差项6.简单相关系数矩阵方法主要用于检验( )A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性 7.设为解释变量,则完全多重共线性是( )8.下列说法不正确的是( )A. 多重共线性产生的原因有模型中大量采用滞后变量,)(22很大或R R 01122i i i iY X X u βββ=+++1202*0*0i i X X ++=1202*0*0i i X X v +++=1200*0*0i i X X ++=1200*0*0i i X X v +++=21,x x 221211211.0.021.0(.02x x A x x B x e C x x v v D x e +==++=+=为随机误差项)B. 多重共线性是样本现象C. 检验多重共线性的方法有DW检验法D. 修正多重共线性的方法有增加样本容量二、多项选择题1.能够检验多重共线性的方法有()A. 简单相关系数矩阵法B. t检验与F检验综合判断法C. DW检验法D. ARCH检验法E. White 检验2.如果模型中解释变量之间存在共线性,则会引起如下后果()A. 参数估计值确定B. 参数估计值不确定C. 参数估计值的方差趋于无限大D. 参数的经济意义不正确E. DW统计量落在了不能判定的区域3.能够检验多重共线性的方法有()A. 简单相关系数矩阵法B. DW检验法C. t检验与F检验综合判断法D. ARCH检验法E. 辅助回归法(又待定系数法)三、判断题1.多重共线性问题是随机扰动项违背古典假定引起的。