当前位置:文档之家› 岭回归解决多重共线性

岭回归解决多重共线性

岭回归解决多重共线性
岭回归解决多重共线性

一、引言

回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用,但是经典的最小二乘估计,必需满足一些假设条件,多重共线性就是其中的一种。实际上,解释变量间完全不相关的情形是非常少见的,大多数变量都在某种程度上存在着一定的共线性,而存在着共线性会给模型带来许多不确定性的结果。

二、认识多重共线性

(一)多重共线性的定义

设回归模型01122p p y x x x ββββε=+++?++如果矩阵X 的列向量存在一组不全

为零的数012,,p k k k k ?使得011220i i p i p k k x k x k x +++?+=, i =1,2,…n ,则称其存在完全共线性,如果022110≈+?+++p i p i i x k x k x k k , i =1,2,…n ,则称其存在

近似的多重共线性。

(二)多重共线性的后果

1.理论后果

对于多元线性回归来讲,大多数学者都关注其估计精度不高,但是多重共线性不可

能完全消除,而是要用一定的方法来减少变量之间的相关程度。多重共线性其实是由样本容量太小所造成的后果,在理论上称作“微数缺测性”,所以当样本容量n 很小的时候,多重共线性才是非常严重的。

多重共线性的理论后果有以下几点:

(1)保持OLS 估计量的BLUE 性质;

(2) 戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的

情况。所以多重共线性并不是简单的自变量之间存在的相关性,也包括样本容量的大小问题。

(3)近似的多重共线性中,OLS 估计仍然是无偏估计。无偏性是一种多维样本或重复抽样

的性质;如果X 变量的取值固定情况下,反复对样本进行取样,并对每个样本计算OLS 估计量,随着样本个数的增加,估计量的样本值的均值将收敛于真实值。

(4)多重共线性是由于样本引起的。即使总体中每一个X 之间都没有线性关系,但在具体

取样时仍存在样本间的共线性。 2.现实后果

(1)虽然存在多重共线性的情况下,得到的OLS 估计是BLUE 的,但有较大的方差和协方差,

估计精度不高;

(2)置信区间比原本宽,使得接受0H 假设的概率更大;

(3)t 统计量不显著;

(4)拟合优度2

R 的平方会很大;

(5)OLS 估计量及其标准误对数据微小的变化也会很敏感。

(三)多重共线性产生的原因

1.模型参数的选用不当,在我们建立模型时如果变量之间存在着高度的 相关性,我们又没有进行处理建立的模型就有可能存在着共线性。

2. 由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共线性。例如当经济繁荣时,反映经济情况的指标有可能按着某种比例关系增长

3. 滞后变量。滞后变量的引入也会产生多重共线行,例如本期的消费水平除了受本期的收入影响之外,还有可能受前期的收入影响,建立模型时,本期的收入水平就有可能和前期的收入水平存在着共线性。

(四) 多重共线性的识别

1.直观的判断方法

(1)在自变量 的相关系数矩阵中,有某些自变量的相关系数值比较大。 (2)回归系数的符号与专业知识或一般经验相反

(3)对重要的自变量的回归系数进行t 检验,其结果不显著,但是F 检验确得到了显著的

通过

(4)如果增加一个变量或删除一个变量,回归系数的估计值发生了很大的变化 (5)重要变量的回归系数置信区间明显过大 2.方差扩大因子法(VIF )

定义j VIF =1

2)1(--j R 其中2j R 是以j X 为因变量时对其他自变量的复测定系数。一般认为如果最大的j VIF 超过10,常常表示存在多重共线性。事实上j VIF =1

2)1(--j R >10这说明

21j R -<0.1即2j R >0.9。

3.特征根判定法

根据矩阵行列式的性质,矩阵行列式的值等于其特征根的连乘积。因此,当行列式|X X '

|≈0时,至少有一个特征根为零,反过来,可以证明矩阵至少有一个特征根近似为零时,X 的列向量必存在多重共线性,同样也可证明X X '

有多少个特征根近似为零矩阵,X

就有多少个多重共线性。根据条件数, 其中m λ为最大的特征根,i λ为其他的特征根,通常认为010存在着多重共线性。

(五)多重共线性的处理方法

1.增加样本容量

当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本,而不存在于总体

i

K m i

λλ=

时,通过增加样本容量可以减少或是避免线性重合,但是在现实的生活中,由于受到各种条件的限制增加样本容量有时又是不现实的。

2.剔除法

对于一些不重要的解释变量进行剔除,主要有向前法和后退法,逐步回归法。理论上这三种方法都是针对不相关的的数据而言的,在多重共线性很严重的情况下,结论的可靠性受到影响,在一些经济模型中,要求一些很重要变量必须包含在里面,这时如果贸然的删除就不符合现实的经济意义。

3.主成分法

当自变量间有较强的线性相关性时,利用p 个变量的主成分,所具有的性质,如果他们是互不相关的,可由前m 个主成12,,m Z Z Z ?来建立回归模型。

由原始变量的观测数据计算前m 个主成分的得分值,将其作为主成分的观测值,建立Y 与主成分的回归模型即得回归方程。这时p 元降为m 元,这样既简化了回归方程的结构,且消除了变量间相关性带来的影响

4.PLS (偏最小二乘法)

H.Wold 在1975年提出的 偏最小二乘法近年来引起广泛的关注,在解决多重共线性方面,它与主成分回归法,岭回归法一样都能很好的达到目的,但偏最小二乘又与前者又有较大的区别,偏最小二乘法集中了最小二乘法、主成分分析法和典型相关分析的的优点克服了两种方法的缺点。偏最小二乘法吸取了主成分回归提取主成分的思想,但不同的是主成分回归只是从自变量中去寻找主成分与因变量无关,因而主成分与因变量在算法上关系不密切,从而导致最后主成分在实际应用中无法更好的进一步拟合因变量,偏最小二乘法则是从因变量出发,选择与因变量相关性较强而又能方便运算的自变量的线性组合。

5.岭回归法.

岭回归分析是1962年由Heer 首先提出的,1970年后他与肯纳德合作,进一步发展了该方法,在多元线性回归模型的矩阵形式Y X βε=+,参数β的普通最小二乘估计为

β=1')(-X X 'X Y , 岭回归当自变量存在多重共线性|X X '|≈0时,给矩阵加上一个正常

系数矩阵kI ,那么β=1

'

)(-+kI X X 'X Y ,当时就是普通最小二乘估计。

三、实际的应用

我们对于重庆市1987至2010年的统计数据做一个回归预测模型,选取工业总产值为因变量,固定投资总额、货物周转量、财政支出、能源消耗总量四个变量为自变量。

设模型为εβββββ+++++=443322110X X X X Y (3.1)

(一) 普通的最小二乘法

对模型进行最小二乘估计得到如下的结果:

调整的可决系数2

R 为0.995,F=1198,在置信水平为95%,自由度4,方程通过了显著性的检验,从这里我们可以看出从整体上来说方程得到了很好的拟合, 但是各个系数的检验却并没有通过,而且能源消费的系数为负,这于经济学的原理相反,我们初步断定回归的方程可能存在着多重共线性。

根据方差扩大因子1VIF =455.510, 2VIF =68.694, 3VIF =224.271, 4VIF =37.372.均大于10说明存在多重共线性。

此外我们还可以根据共线性的诊断,来判断多重共线性的存在。为此,利用SPSS 软件进行相关处理可以得到下表:

从特征值我们可以看到有两个接近于零,条件数我们可以看到最大条件数为71.989,说明存在着共线性,以上的分析说明因变量间存在着多重共线性。

(二)运用岭回归解决多重共线性

用SPSS软件的岭回归功能的语法实现岭回归,做出的结果如下:

表3.5:岭参数K值表

K RSQ X1 X2 X3 X4

.00000 .99605 .486610 .187544 .349141 -.022974

.05000 .99450 .298761 .231025 .351029 .109212

.10000 .99286 .279395 .234139 .315824 .148780

.15000 .99135 .268288 .234093 .295846 .168122

.20000 .98984 .260456 .232912 .282446 .178951

.25000 .98824 .254302 .231210 .272489 .185418

.30000 .98652 .249140 .229240 .264570 .189368

.35000 .98466 .244625 .227127 .257967 .191744

.40000 .98265 .240562 .224938 .252270 .193079

.45000 .98050 .236833 .222713 .247230 .193695

.50000 .97822 .233363 .220477 .242684 .193798

.55000 .97581 .230101 .218244 .238524 .193528

.60000 .97327 .227009 .216026 .234672 .192980

.65000 .97062 .224062 .213829 .231075 .192222

.70000 .96786 .221240 .211658 .227690 .191305

.75000 .96501 .218527 .209517 .224485 .190265

.80000 .96206 .215912 .207406 .221437 .189132

.85000 .95903 .213385 .205328 .218526 .187927

.90000 .95591 .210938 .203284 .215736 .186667

.95000 .95273 .208564 .201273 .213056 .185366

1.0000 .94948 .206258 .199296 .210473 .184034

图3.1 岭迹图

从岭迹图上看,最小二乘的稳定性很差,当k 稍微增大时,系数有较大的变化。对各个

变量分别来看,当k =0, 1X 、2X 和3X 对于变量有显著性正的影响,4X 对于变量有负的影响,从岭回归的角度来看,变量1X 和3X 随着k 的增大其系数值迅速减小最终趋于稳定,

2X 随着k 的增加变化不大,对于4X 讲,当k 逐渐增大时,由负的影响变为正的影响。

由于1X 和4X 的岭参数都迅速减少,两者之和比较稳定。从岭回归的角度看,1X 和4

X 只要保留一个就可以了。2X 和3X 的岭回归系数相对稳定。通过分析,决定剔除4X ,对剩下的三个变量进行岭回归。把岭参数步长改为0.02,范围缩小到0.2,在SPSS 中用命令生成得到如下结果:

表3.6 :步长为0.02时的岭参数值表

K RSQ X1 X2 X3 .00000 .99604 .436166 .179183 .385799 .02000 .99584 .351867 .262568 .380494 .04000 .99560 .342222 .282832 .363342 .06000 .99531 .336854 .291961 .353101 .08000 .99497 .332900 .296644 .345962 .10000 .99457 .329612 .299105 .340458 .12000 .99410 .326701 .300300 .335921 .14000 .99357 .324028 .300709 .332010 .16000 .99297 .321521 .300600 .328527 .18000 .99231 .319135 .300137 .325355 .20000 .99159 .316844 .299420 .322417

由上表可以看到,剔除了4X 后岭回归系数变化幅度减小,从岭迹图看岭参数在0.12到0.20之间时,岭参数已基本稳定,当k =0.16时,2

R 0.99297仍然很大,因而可以选取k =0.16

岭参数。然后给定,重新作岭回归,计算结果如下:

表3.7: k = 0.16时的岭回归

Mult R .9964780 RSquare .9929685 Adj RSqu .9919137 SE 210.6252025:

表3.8: 方差分析表

df SS MS F value Sin F Regress 3.000 125295417 41765139 941.44 .000000 Residual 20.000 887259.52 44362.976

表3.9:方程中的变量

B SE(B) Beta B/SE(B) X1 .4110191 .0098800 .3215208 41.6010169 X2 .0399873 .0017557 .3006004 22.7755604 X3 1.1311326 .0405681 .3285272 27.8823490 Constant -451.7066055 69.6480613 .0000000 -6.4855589

得到对Y 对123,X X X 和的标准化岭回归方程为:

123

?0.32150.30060.3285Y X X X =++ (3.2) (41.601) (22.776) (27.882 )

2R =0.993 F =941.44

普通最小二乘法得到的回归方程为

1234

?0.4870.1880.3490.023Y X X X X =++- (3.3) (1.582 ) (1.570) (1.617) ( -0.261)

标准化岭回归得到的T 统计量都比OLS 估计显著,因此岭回归得到预期的效果。

(三) 主成分分析法

同样利用SPSS 软件中的Analyze 下拉菜单进行主成分分析。可以得到如下结果:

由上表可以知道,四个主成分的特征值的最大值为3.927,最小值为0.001;前两个因子的累积贡献率已经达到99.657%,故只需要保留前两个主成分。

利用SPSS 的主成分分析进入变量计算。对前两主成分作普通最小二乘法: 第一主成分112340.2540.2530.2520.250T X X X X =+++ (3.4) 第二主成分212341.0140.315 2.408 3.137T X X X X =-+-+ (3.5)

用Y 对1T 、2T 做普通最小二乘法,得如下回归方程为

12

?0.9950.08Y T T =- (3.6) 因此,可以得出主成分回归方程为

1234

?0.33390.27690.44340.012Y X X X X =++- (3.7) 回归方程的的修正的可决系数为 0.996。

由上面的分析我们看到岭回归和主成分的所得到的结果比较接近,各个系数解释也更加的合理,符合现实意义。

五、结论

主成分法和岭回归所估计的参数,都已经不是无偏的估计,主成分分析法作为多元统计分析的一种常用方法在处理多变量问题时具有其一定的优越性,其降维的优势是明显的,主成分回归方法对于一般的多重共线性问题还是适用的,尤其是对共线性较强的变量之间.岭回归估计是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救多重共线性的方法,采用它可以通过允许小的误差而换取高于无偏估计量的精度, 因此它接近真实值的可能性较大。灵活运用岭回归法, 可以对分析各变量之间的作用和关系带来独特而有效的帮助。作为统计方法,每种方法都有其适用范围, 我们应该比较其效果而选用而不是断然否定一种方法。

参考文献

[1]何晓群.应用回归分析[M].中国人民统计大学出版社:2007,(13).

[2] 钱晓莉. 基于特征值的多重共线性处理方法[J]. 统计与决策:2004,(10).

[3] 白雪梅, 赵松山. 更深入地认识多重共线性[J]. 东北财经大学学报:2005,(02).

[4] 赵松山, 白雪梅. 关于多重共线性检验方法的研究[J]. 中国煤炭经济学院学报:2001,(04).

[5]高辉. 多重共线性的诊断方法[J]. 统计与信息论坛:2003,(01).

[6]达摩达尔.N.古扎拉蒂.计量经济学[M].中国人民大学出版社:2004,(6).

[ 7] 薛薇.SPSS统计分析方法及应用[M].电子工业出版社:2009,(1).

[8] 秦红兵. 多元回归分析中多重共线性的探讨与实证[J]. 科技信息:2007,(31).

[9] 柳丽,魏庆钲.回归分析中多重共线性的诊断与处理[J].中国卫生统计:1994,(11).

[10] John S. Y. Chiu . A Simulation Study of Effects of Multicollinearity and Autocorrelation on

Estimates of Parameters[J]. The Journal of Financial and Quantitative Analysis:1996,(6). [11]Mark Z. Fabrycy.Multicollinearity caused by Specification Errors[J]. Applied

Statistics:1975,(4).

[12] Nityananda sarkar.Mean square error matrix comparision of some estmators in linear

regressions with muillinearity[J].Statistics and Probability letters:1996,(10).

PLS回归在消除多重共线性中的作用

PL S回归在消除多重共线性中的作用 王惠文 朱韵华 (北京航空航天大学管理学院,北京,100083) 摘 要 本文详细阐述了解释变量的多重共线性在回归建模与分析中的危害作用,并指出目前常用的几种消除多重线性影响的方法,以及它们的不足之处。本文结合实证研究指出:利用一种新的建模思路 PLS回归,可以更好地消除多重共线性对建模准确性与可靠性所带来的影响。 关键词:多重共线性 PLS回归 一、引 言 在多元回归的建模与分析中,解释变量之间存在高度相关性的现象十分普遍。在这种情况下,要很好地解释模型中某个自变量对因变量的效应,是非常困难的。然而,在从事建模工作过程中,为了更完备地描述系统,尽可能不遗漏一些举足轻重的系统特征,分析人员往往倾向于尽可能周到地选取有关指标,在这样构成的多变量系统中必然经常出现变量多重相关的现象。事实上,许多社会、经济及技术指标都有同步增长的趋势,因此,在多元回归建模实施过程中,变量多重相关的现象是很难避免的。 二、多重共线性在回归建模中的危害作用 1.危害性讨论 多重共线性的现象是由Fr isch.A.K在其著名论著 完全回归体系的统计合流分析 中首次提出的,用数学语言来描述,它是指变量之间存在着线性关系。在多重共线性现象存在的情况下,对多元回归分析会产生如下影响: (1)如果变量之间存在完全的多重共线性,那么将无法估计变量的回归系数。而由于各个自变量的回归系数无法估计,所以也就无法估计各个自变量单独对因变量的影响,自然也就无法判断自变量对因变量的效应,即使自变量之间不存在完全的多重共线性,但是当自变量有较高度的相关关系时,一个自变量的回归系数,在模型中只反映这个自变量对因变量边际的或部分的效应,因而所得到的回归模型是不准确的。 (2)回归系数的估计方差为无穷大。例如在一个简单的多元回归中,自变量X1和X2之间 收稿日期:1996年2月9日 *本文系国家自然科学基金资助项目

多元线性回归模型的案例分析

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/千 克 X/ 元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/千克 X/元 P 1/(元/ 千克) P 2/(元/ 千克) P 3/(元/千克) 1980 2.78 397 4.22 5.07 7.83 1992 4.18 911 3.97 7.91 11.40 1981 2.99 413 3.81 5.20 7.92 1993 4.04 931 5.21 9.54 12.41 1982 2.98 439 4.03 5.40 7.92 1994 4.07 1021 4.89 9.42 12.76 1983 3.08 459 3.95 5.53 7.92 1995 4.01 1165 5.83 12.35 14.29 1984 3.12 492 3.73 5.47 7.74 1996 4.27 1349 5.79 12.99 14.36 1985 3.33 528 3.81 6.37 8.02 1997 4.41 1449 5.67 11.76 13.92 1986 3.56 560 3.93 6.98 8.04 1998 4.67 1575 6.37 13.09 16.55 1987 3.64 624 3.78 6.59 8.39 1999 5.06 1759 6.16 12.98 20.33 1988 3.67 666 3.84 6.45 8.55 2000 5.01 1994 5.89 12.80 21.96 1989 3.84 717 4.01 7.00 9.37 2001 5.17 2258 6.64 14.10 22.16 1990 4.04 768 3.86 7.32 10.61 2002 5.29 2478 7.04 16.82 23.26 1991 4.03 843 3.98 6.78 10.48 (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下: 输出结果如下:

主成分回归多重共线性

实验八:主成分回归 实验题目:对例5、5的Hald水泥问题用主成分方法建立模型,并与其她方法的结果进行比较。例5、5如下:本例为回归经典的Hald水泥问题。某种水泥在凝固时放出的热量y(卡/克,cal/g)与水泥中的四种化学成分的含量(%)有关,这四种化学成分分别就是x1铝酸三钙(3CaO、Al2O3),x2硅酸三钙(3CaO、SiO2),x3铁铝酸四钙(4CaO、Al2O3、Fe2O3),x4硅酸三钙(2CaO、SiO2)。现观测到13组数据,如表5-3所示。 实验目的: SPSS输出结果及答案: 一、主成分法: 多重共线性诊断:

N 13 13 13 13 13 **、在、01 水平(双侧)上显著相关。 由表可知,x1,x2,x4的相关性都比较大,较接近,所以存在多重共线性 主成分回归: 解释的总方差 成份 初始特征值提取平方与载入 合计方差的 % 累积 % 合计方差的 % 累积 % 1 2、236 55、893 55、893 2、236 55、893 55、893 2 1、576 39、402 95、294 1、576 39、402 95、294 3 、187 4、665 99、959 、187 4、665 99、959 4 、002 、041 100、000 、002 、041 100、000 提取方法:主成份分析。 输出结果显示有四个特征根,最大的就是λ1=2、236,最小的就是λ4=0、002。 方差百分比显示第一个主成分Factor1的方差百分比近56%的信息量;前两个主成 分累计包含近95、3%的信息量。因此取两个主成分就已经足够。 由于前两个主成分的方差累计已经达到95、3%,故只保留前两个主成分。 成份矩阵a 成份 1 2 3 4 x1 、712 -、639 、292 、010 x2 、843 、520 -、136 、026 x3 -、589 、759 、275 、011 x4 -、819 -、566 -、084 、027 提取方法:主成分 a.已提取了 4 个成份。 由解释的总方差表中累计贡献性知,f1与f2的累计贡献性就在85%~95%之间。所以主成分取f1,f2。 得到因子得分的数值,并对其进行处理:sqrt(2、236)* FAD1_1, sqrt(1、576)* FAD2_1可以得出主成分表(f1 f2)。

多元线性回归中多重共线问题的解决方法综述

多元线性回归中多重共线问题的解决方法综述 摘 要 在回归分析中,当自变量之间出现多重共线性现象时,常会严重影响到参数估计,扩大模型误差,并破坏模型的稳健性,因此消除多重共线性成为回归分析中参数估计的一个重要环节。现在常用的解决多元线性回归中多重共线性的回归模型有岭回归(Ridge Regression )、主成分回归(Principal Component Regression 简记为PCR)和偏最小二乘回归(Partial Least Square Regression 简记为PLS)。 关键词:多重共线性;岭回归;主成分回归;偏最小二乘回归 引言 在多元线性回归分析中,变量的多重相关性会严重影响到参数估计,增大模型误差,并破坏模型的稳健性 由于多重共线性问题在实际应用中普遍存在,并且危害严重,因此设法消除多重性的不良影响无疑具有巨大的价值常用的解决多元线性回归中多重共线问题的回归模型主要有主成分回归岭回归以及偏最小二乘回归。 1、 多元线性回归模型 1.1 回归模型的建立 设Y 是一个可观测的随机变量,它受m 个非随机因素X 1,X 2,…,X p-1和随机因素ε的影响, 若有如下线性关系 我们对变量进行了n 次观察,得到n 组观察数据(如下),对回归系数 进行估计 一般要求n>P 。于是回归关系可写为 采用矩阵形式来表示 0112211p p Y X X X ββββε--=+++++n i X X X Y p i i i i ,,1,,,,)1(2,1???=???-1011121211(1)1 2012122212(1)2 011221(1)p p p p n n n p n p n Y X X X Y X X X Y X X X ββββεββββεββββε------=+++++??=+++++?? ? ?=+++++?11121,(1)121222,(1)212,(1)111, 1 p p n n n n p n n p X X X Y X X X Y Y X Y X X X ---??????????????==??????????????)1(10,,,p -???βββ

多重共线性问题的几种解决方法

多重共线性问题的几种解决方法 在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释 变量之间不存在线性关系,也就是说,解释变量X 1,X 2 ,……,X k 中的任何一个 都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。 这里,我们总结了8个处理多重共线性问题的可用方法,大家在遇到多重共线性问题时可作参考: 1、保留重要解释变量,去掉次要或可替代解释变量 2、用相对数变量替代绝对数变量 3、差分法 4、逐步回归分析 5、主成份分析 6、偏最小二乘回归 7、岭回归 8、增加样本容量 这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。 逐步回归分析方法的基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣,从而得到最优回归方程。具体方法分为两步: 第一步,先将被解释变量y对每个解释变量作简单回归: 对每一个回归方程进行统计检验分析(相关系数r、拟合优度R2和标准误差),并结合经济理论分析选出最优回归方程,也称为基本回归方程。

第二步,将其他解释变量逐一引入到基本回归方程中,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别: 1.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。 2.如果新引进的解释变量对R2改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。 3.如果新引进的解释变量不仅改变了R2,而且对其他回归系数的数值或符号具有明显影响,则认为该解释变量为不利变量,引进后会使回归模型出现多重共线性问题。不利变量未必是多余的,如果它可能对被解释变量是不可缺少的,则不能简单舍弃,而是应研究改善模型的形式,寻找更符合实际的模型,重新进行估计。如果通过检验证明回归模型存在明显线性相关的两个解释变量中的其中一个可以被另一个很好地解释,则可略去其中对被解释变量影响较小的那个变量,模型中保留影响较大的那个变量。 下边我们通过实例来说明逐步回归分析方法在解决多重共线性问题上的具体应用过程。 具体实例 例1设某地10年间有关服装消费、可支配收入、流动资产、服装类物价指数、总物价指数的调查数据如表1,请建立需求函数模型。 表1 服装消费及相关变量调查数据

多元线性回归模型案例分析

多元线性回归模型案例分析 ——中国人口自然增长分析一·研究目的要求 中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的降到1980年,接近世代更替水平。此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。 影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。 二·模型设定 为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。 从《中国统计年鉴》收集到以下数据(见表1): 表1 中国人口增长率及相关数据

, 设定的线性回归模型为: 1222334t t t t t Y X X X u ββββ=++++ 三、估计参数 利用EViews 估计模型的参数,方法是: 1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对 话框“Workfile Range ”。在“Workfile frequency ”中选择“Annual ” (年 年份 @ 人口自然增长率 (%。) 国民总收入 (亿元) 居民消费价格指数增长 率(CPI )% 人均GDP (元) 1988 15037 1366 1989 … 17001 18 1519 1990 18718 1644 1991 【 21826 1893 1992 26937 2311 1993 . 35260 2998 1994 48108 4044 1995 — 59811 5046 1996 70142 5846 1997 ~ 78061 6420 1998 83024 6796 1999 【 88479 7159 2000 98000 7858 2001 [ 108068 8622 2002 119096 9398 2003 : 135174 10542 2004 159587 12336 2005 、 184089 14040 2006 213132 16024

计量经济学多元线性回归、多重共线性、异方差实验报告记录

计量经济学多元线性回归、多重共线性、异方差实验报告记录

————————————————————————————————作者:————————————————————————————————日期:

计量经济学实验报告

多元线性回归、多重共线性、异方差实验报告 一、研究目的和要求: 随着经济的发展,人们生活水平的提高,旅游业已经成为中国社会新的经济增长点。旅游产业是一个关联性很强的综合产业,一次完整的旅游活动包括吃、住、行、游、购、娱六大要素,旅游产业的发展可以直接或者间接推动第三产业、第二产业和第一产业的发展。尤其是假日旅游,有力刺激了居民消费而拉动内需。2012年,我国全年国内旅游人数达到亿人次,同比增长%,国内旅游收入万亿元,同比增长%。旅游业的发展不仅对增加就业和扩大内需起到重要的推动作用,优化产业结构,而且可以增加国家外汇收入,促进国际收支平衡,加强国家、地区间的文化交流。为了研究影响旅游景区收入增长的主要原因,分析旅游收入增长规律,需要建立计量经济模型。 影响旅游业发展的因素很多,但据分析主要因素可能有国内和国际两个方面,因此在进行旅游景区收入分析模型设定时,引入城镇居民可支配收入和旅游外汇收入为解释变量。旅游业很大程度上受其产业本身的发展水平和从业人数影响,固定资产和从业人数体现了旅游产业发展规模的内在影响因素,因此引入旅游景区固定资产和旅游业从业人数作为解释变量。因此选取我国31个省市地区的旅游业相关数据进行定量分析我国旅游业发展的影响因素。 二、模型设定 根据以上的分析,建立以下模型 Y=β 0+β 1 X 1 +β 2 X 2 +β 3 X 3 +β 4 X 4 +Ut 参数说明: Y ——旅游景区营业收入/万元 X 1 ——旅游业从业人员/人 X 2 ——旅游景区固定资产/万元 X 3 ——旅游外汇收入/万美元 X 4 ——城镇居民可支配收入/元

多元线性回归模型公式().docx

二、多元线性回归模型 在多要素的地理环境系统中,多个(多于两个)要素之间也存在着相互影响、相互关联的情况。因此,多元地理回归模型更带有普遍性的意义。 (一)多元线性回归模型的建立 假设某一因变量 y 受 k 个自变量 x 1, x 2 ,..., x k 的影响,其 n 组观测值为( y a , x 1 a , x 2 a ,..., x ka ), a 1,2,..., n 。那么,多元线性回归模型的结构形式为: y a 0 1 x 1a 2 x 2 a ... k x ka a () 式中: 0 , 1 ,..., k 为待定参数; a 为随机变量。 如果 b 0 , b 1 ,..., b k 分别为 0 , 1 , 2 ..., k 的拟合值,则回归方程为 ?= b 0 b 1x 1 b 2 x 2 ... b k x k () 式中: b 0 为常数; b 1, b 2 ,..., b k 称为偏回归系数。 偏回归系数 b i ( i 1,2,..., k )的意义是,当其他自变量 x j ( j i )都固定时,自变量 x i 每变 化一个单位而使因变量 y 平均改变的数值。 根据最小二乘法原理, i ( i 0,1,2,..., k )的估计值 b i ( i 0,1,2,..., k )应该使 n 2 n 2 Q y a y a y a b 0 b 1 x 1a b 2 x 2a ... b k x ka min () a 1 a 1 有求极值的必要条件得 Q n 2 y a y a b 0 a 1 () Q n 2 y a y a x ja 0( j 1,2,..., k) b j a 1 将方程组()式展开整理后得:

岭回归解决多重共线性

一、引言 回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用,但是经典的最小二乘估计,必需满足一些假设条件,多重共线性就是其中的一种。实际上,解释变量间完全不相关的情形是非常少见的,大多数变量都在某种程度上存在着一定的共线性,而存在着共线性会给模型带来许多不确定性的结果。 二、认识多重共线性 (一)多重共线性的定义 设回归模型01122p p y x x x ββββε=+++?++如果矩阵X 的列向量存在一组不全 为零的数012,,p k k k k ?使得011220i i p i p k k x k x k x +++?+=, i =1,2,…n ,则称其存在完全共线性,如果022110≈+?+++p i p i i x k x k x k k , i =1,2,…n ,则称其存在 近似的多重共线性。 (二)多重共线性的后果 1.理论后果 对于多元线性回归来讲,大多数学者都关注其估计精度不高,但是多重共线性不可 能完全消除,而是要用一定的方法来减少变量之间的相关程度。多重共线性其实是由样本容量太小所造成的后果,在理论上称作“微数缺测性”,所以当样本容量n 很小的时候,多重共线性才是非常严重的。 多重共线性的理论后果有以下几点: (1)保持OLS 估计量的BLUE 性质; (2) 戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的 情况。所以多重共线性并不是简单的自变量之间存在的相关性,也包括样本容量的大小问题。 (3)近似的多重共线性中,OLS 估计仍然是无偏估计。无偏性是一种多维样本或重复抽样 的性质;如果X 变量的取值固定情况下,反复对样本进行取样,并对每个样本计算OLS 估计量,随着样本个数的增加,估计量的样本值的均值将收敛于真实值。 (4)多重共线性是由于样本引起的。即使总体中每一个X 之间都没有线性关系,但在具体 取样时仍存在样本间的共线性。 2.现实后果 (1)虽然存在多重共线性的情况下,得到的OLS 估计是BLUE 的,但有较大的方差和协方差, 估计精度不高; (2)置信区间比原本宽,使得接受0H 假设的概率更大;

实验六-多元线性回归和多重共线性

实验六-多元线性回归和多重共线性

实验六多元线性回归和多重共线性 姓名:何健华 学号:201330110203 班级:13金融数学2班 一 实验目的: 掌握多元线性回归模型的估计方法、掌握多重共线性模型的识别和修正。 二 实验要求: 应用教材P140例子4.3.1案例做多元线性回归模型,并识别和修正多重共线性。 三 实验原理: 普通最小二乘法、简单相关系数检验法、综合判断法、逐步回归法。 四 预备知识: 最小二乘法估计的原理、t 检验、F 检验、R 2值。 五 实验步骤: 有关的研究分析表明,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出外,还可能与基础设施有关。因此考虑影响国内旅游收入Y (单位为亿元)的以下几个因素:国内旅游人数X1、城镇居民人均旅游支出X2(单位为元)、农村居民人均旅游支出X3(单位为元)、并以公路里程X4(单位为万公里)和铁路里程X5(单位为万公里)作为相关设施的代表,根据这些变量建立如下的计量经济模型: 01122334455y x x x x x ββββββμ=++++++ 为了估计上述模型,从《中国统计年鉴》收集到1994年到2003年的有关统计数据。 Year Y X1 X2 X3 X4 X5 1994 1023.5 52400 414.7 54.9 111.78 5.9 1995 1375.7 62900 464 61.5 115.7 5.97 1996 1638.4 63900 534.1 70.5 118.58 6.49 1997 2112.7 64400 599.8 145.7 122.64 6.6 1998 2391.2 69450 607 197 127.85 6.64

主成分回归多重共线性

实验八:主成分回归 实验题目:对例5.5的Hald水泥问题用主成分方法建立模型,并与其他方法的结果进行比较。 例5.5如下:本例为回归经典的Hald水泥问题。某种水泥在凝固时放出的热量y(卡/克,cal/g)与水泥中的四种化学成分的含量(%)有关,这四种化学成分分别是x1铝酸三钙(3CaO.Al2O3),x2硅酸三钙(3CaO.SiO2),x3铁铝酸四钙(4CaO.Al2O3.Fe2O3),x4硅酸三钙(2CaO.SiO2)。现观测到13组数据,如表5-3所示。 表5-3 实验目的: SPSS输出结果及答案: 一、主成分法: 多重共线性诊断:

已提取了 4 个成份。 由解释的总方差表中累计贡献性知,f1和f2的累计贡献性就在85%~95%之间。所以主成分取f1,f2。

得到因子得分的数值,并对其进行处理:sqrt(2.236)*FAD1_1,sqrt(1.576)*FAD2_1可以得出 主成分表(f1 f2)。 对f1 f2进行普通最小二乘线性回归 f1=-0.643+0.081x1+0.036x2-0.062x3-0.033x4 对f2和x1x2x3x4进行回归 模型非标准化系数标准系数 t Sig. B 标准误差试用版 1 (常量) -.938 .000 -1119037.661 .000 x1 -.087 .000 -.405 -9710099.545 .000 x2 .027 .000 .330 3071727.057 .000 x3 .094 .000 .482 10459854.955 .000 x4 -.027 .000 -.359 -3177724.589 .000 a.因变量: f2 f2=-0.938-0.087x1+0.027x2+0.094x3-0.027x4

多元线性回归模型的各种检验方法

对多元线性回归模型的各种检验方法 对于形如 u X X X Y k k +++++=ββββ 22110 (1) 的回归模型,我们可能需要对其实施如下的检验中的一种或几种检验: 一、 对单个总体参数的假设检验:t 检验 在这种检验中,我们需要对模型中的某个(总体)参数是否满足虚拟假设0 H :j j a =β,做出具有统计意义(即带有一定的置信度)的检验,其中j a 为某个给定的已知数。特别是,当j a =0时,称为参数的(狭义意义上的)显著性检验。如果拒绝0H ,说明解释变量j X 对 被解释变量Y 具有显著的线性影响,估计值j β?才敢使 用;反之,说明解释变量j X 对被解释变量Y 不具有显 著的线性影响,估计值j β?对我们就没有意义。具体检验 方法如下: (1) 给定虚拟假设 0H :j j a =β;

(2) 计算统计量 )?(?)?()(?j j j j j j Se a Se E t βββββ-=-= 的数值; 11?)?(++-==j j jj jj j C C Se 1T X)(X ,其中σβ (3) 在给定的显著水平α下(α不能大于1.0即 10%,也即我们不能在置信度小于90%以下的前提下做结论),查出双尾t (1--k n )分布的临界值2/αt ; (4) 如果出现 2/αt t >的情况,检验结论为拒绝 0H ;反之,无法拒绝0H 。 t 检验方法的关键是统计量 )?(?j j j Se t βββ-=必须服从已 知的t 分布函数。什么情况或条件下才会这样呢?这需要我们建立的模型满足如下的条件(或假定): (1) 随机抽样性。我们有一个含n 次观测的随机样(){}n i Y X X X i ik i i ,,2,1:,,,,21 =。这保证了误差u 自身的随机性,即无自相关性,

第11章多重线性回归分析案例辨析及参考答案

第11章多重线性回归分析 案例辨析及参考答案 案例11-1预测人体吸入氧气的效率。为了解和预测人体吸入氧气的效率,某人收集了31名中年男 性的健康调查资料。一共调查了 7个指标,分别是吸氧效率(Y , %)、年龄(X1,岁)、体重(X2, kg )、 跑1.5 km所需时间(X3, min )、休息时的心跳频率(X4,次/min )、跑步时的心跳频率(X5,次/min) 和最高心跳频率(X6,次/min )(教材表11-9)。试用多重线性回归方法建立预测人体吸氧效率的模型。 教材表11 -9 吸氧效率调查数据 Y X1 X2X3 X4 X5 X6 Y X1 X2X3 X4 X5 X6 44.609 44 89.47 11.37 62 178 182 40.836 51 69.63 10.95 57 168 172 45.313 40 75.07 10.07 62 185 185 46.672 51 77.91 10.00 48 162 168 54.297 44 85.84 8.65 45 156 168 46.774 48 91.63 10.25 48 162 164 59.571 42 68.15 8.17 40 166 172 50.388 49 73.37 10.08 67 168 168 49.874 38 89.02 9.22 55 178 180 39.407 57 73.37 12.63 58 174 176 44.811 47 77.45 11.63 58 176 176 46.080 54 79.38 11.17 62 156 165 45.681 40 75.98 11.95 70 176 180 45.441 56 76.32 9.63 48 164 166 49.091 43 81.19 10.85 64 162 170 54.625 50 70.87 8.92 48 146 155 39.442 44 81.42 13.08 63 174 176 45.118 51 67.25 11.08 48 172 172 60.055 38 81.87 8.63 48 170 186 39.203 54 91.63 12.88 44 168 172 50.541 44 73.03 10.13 45 168 168 45.790 51 73.71 10.47 59 186 188 37.388 45 87.66 14.03 56 186 192 50.545 57 59.08 9.93 49 148 155 44.754 45 66.45 11.12 51 176 176 48.673 49 76.32 9.40 56 186 188 47.273 47 79.15 10.60 47 162 164 47.920 48 61.24 11.50 52 170 176 51.855 54 83.12 10.33 50 166 170 47.467 52 82.78 10.50 53 170 172 49.156 49 81.42 8.95 44 180 185 资料来自:张家放主编?医用多元统计方法?武汉:华中科技大学出版社,2002。 该研究员采用后退法对自变量进行筛选,最后得到结果如教材表11-10所示。 教材表11-10 多重线性回归模型的参数估计 Table 11-10 Parameter estimati on of regressi on model Variable Un sta ndardized Coefficie nts Stan dardized Coefficie nts t P B Std. Error In tercept 100.079 11.577 8.644 0.000 X1 -0.213 0.091 -0.214 -2.337 0.027 X3 -2.768 0.331 -0.721 -8.354 0.000 X5 -0.339 0.116 -0.653 -2.939 0.007 X6 0.255 0.132 0.439 1.936 0.064

岭回归分析

岭回归分析 一、普通最小二乘估计带来的问题 当设计矩阵X 呈病态时,X 的列向量之间有较强的线性相关性,即解释变量间出现严重的多重共线性,在这种情况下,用普通最小二乘法估计模型参数,往往参 数估计的方差太大,即jj jj j L C 2)?var(σβ=很大,j β?就很不稳定,在具体取值上与真值有较大的偏差,有时会出现与实际经济意义不符的正负号。下面看一个例子,可以说明这一点。 假设已知1x ,2x 与y 的关系服从线性回归模型:ε+++=213210x x y ,给定1x ,2x 的10个值,如下表1,2行所示: 表7.1 然后用模拟的方法产生10个正态随机数,作为误差项ε,见表第3行。然后再由回归模型i i i i x x y ε+++=213210计算出10个i y 值,见表第4行。现在假设回归系数与误差项是未知的,用普通最小二乘法求回归系数的估计得:0 ?β=11.292,1?β=11.307,2 ?β=-6.591,而原模型的参数0β=10,1β=2,2β=3看来相差太大。计算1x ,2x 的样本相关系数得12r =0.986,表明1x 与2x 之间高度相关。通过这个例子可以看到解释变量之间高度相关时,普通最小二乘估计明显变坏。 二、岭回归的定义 当自变量间存在多重共线性,|X X '|≈0时,设想给X X '加上一个正常数矩阵kI (k>0)那么X X '+kI 接近奇异的程度就会比X X '接近奇异的程度小得多。考虑到变量的量纲问题,先要对数据标准化,标准化后的设计矩阵仍用X 表示,定义y X kI X X k '+'=-1)()(?β称为β的岭回归估计,其中,k 称为岭参数。由于假设X 已经标准化,所以X X '就是自变量样本相关阵。y 可以标准化也可以未标准化, 如果y 也经过标准化,那么计算的实际是标准化岭回归估计。)(?k β 作为β的估计应比最小二乘估计β ?稳定,当k=0时的岭回归估计)0(?β就是普通的最小二乘估计。因为岭参数k 不是唯一确定的,所以得到的岭回归估计)(?k β 实际是回归参数β的一个估计族。

多重共线性和非线性回归及解决方法

多重共线性和非线性回归的问题 (1)多重共线性问题 我们都知道在进行多元回归的时候,特别是进行经济上指标回归的时候,很多变量存在共同趋势相关性,让我们得不到希望的回归模型。这里经常用到的有三种方法,而不同的方法有不同的目的,我们分别来看看: 第一个,是最熟悉也是最方便的——逐步回归法。 逐步回归法是根据自变量与因变量相关性的大小,将自变量一个一个选入方法中,并且每选入一个自变量都进行一次检验。最终留在模型里的自变量是对因变量有最大显著性的,而剔除的自变量是与因变量无显著线性相关性的,以及与其他自变量存在共线性的。用逐步回归法做的多元回归分析,通常自变量不宜太多,一般十几个以下,而且你的数据量要是变量个数3倍以上才可以,不然做出来的回归模型误差较大。比如说你有10个变量,数据只有15组,然后做拟合回归,得到9个自变量的系数,虽然可以得到,但是精度不高。这个方法我们不仅可以找到对因变量影响显著的几个自变量,还可以得到一个精确的预测模型,进行预测,这个非常重要的。而往往通过逐步回归只能得到几个自变量进入方程中,有时甚至只有一两个,令我们非常失望,这是因为自变量很多都存在共线性,被剔除了,这时可以通过第二个方法来做回归。 第二个,通过因子分析(或主成分分析)再进行回归。 这种方法用的也很多,而且可以很好的解决自变量间的多重共线性。首先通过因子分析将几个存在共线性的自变量合为一个因子,再用因子分析得到的几个因子和因变量做回归分析,这里的因子之间没有显著的线性相关性,根本谈不上共线性的问题。通过这种方法可以得到哪个因子对因变量存在显著的相关性,哪个因子没有显著的相关性,再从因子中的变量对因子的载荷来看,得知哪个变量对因变量的影响大小关系。而这个方法只能得到这些信息,第一它不是得到一个精确的,可以预测的回归模型;第二这种方法不知道有显著影响的因子中每个变量是不是都对因变量有显著的影响,比如说因子分析得到三个因子,用这三个因子和因变量做回归分析,得到第一和第二个因子对因变量有显著的影响,而在第一个因子中有4个变量组成,第二个因子有3个变量组成,这里就不知道这7个变量是否都对因变量存在显著的影响;第三它不能得到每个变量对因变量准确的影响大小关系,而我们可以通过逐步回归法直观的看到自变量前面的系数大小,从而判断自变量对因变量影响的大小。 第三个,岭回归。 通过逐步回归时,我们可能得到几个自变量进入方程中,但是有时会出现自变量影响的方向出现错误,比如第一产业的产值对国民收入是正效应,而可能方程中的系数为负的,这种肯定是由于共线性导致出现了拟合失真的结果,而这样的结果我们只能通过自己的经验去判断。通常我们在做影响因素判断的时候,不仅希望得到各个因素对因变量真实的影响关系,还希望知道准确的影响大小,就是每个自变量系数的大小,这个时候,我们就可以通过岭回归的方法。 岭回归是在自变量信息矩阵的主对角线元素上人为地加入一个非负因子k,从而使回归系数的估计稍有偏差、而估计的稳定性却可能明显提高的一种回归分析方法,它是最小二乘法的一种补充,岭回归可以修复病态矩阵,达到较好的效果。在SPSS中没有提供岭回归的模块,可以直接点击使用,只能通过编程来实现,当然在SAS、Matlab中也可以实现。做岭回归的时候,需要进行多次调试,选择适当的k值,才能得到比较满意的方程,现在这个方法应用

多重线性回归分析

一、作业 教材P214 三。 二、自我练习 (一)教材P213 一。 (二)是非题 1.当一组资料的自变量为分类变量时,对这组资料不能做多重线性回归分析。( ) 2.若多重线性方程模型有意义.则各个偏回归系数也均有统计学意义。〔) 3.回归模型变量的正确选择在根本上依赖于所研究问题本身的专业知识。() 4.从各自变量偏回归系数的大小.可以反映出各自变量对应变量单位变化贡献的大小。( ) 5.在多元回归中,若对某个自变量的值都增加一个常数,则相应的偏回归系数不变。( ) (三)选择题 1. 多重线性回归分析中,共线性是指(),导致的某一自变量对Y的作用可以由其他自变量的线性函数表示。 A. 自变量相互之间存在高度相关关系 B. 因变量与各个自变量的相关系数相同 C. 因变量与自变量间有较高的复相关关系 D. 因变量与各个自变量之间的回归系数相同

2. 多重线性回归和Logistic 回归都可应用于()。 A. 预测自变量 B. 预测因变量Y 取某个值的概率π C. 预测风险函数h D. 筛选影响因素(自变量) 3.在多重回归中,若对某个自变量的值都增加一个常数,则相应的偏回归系数: A.不变 B.增加相同的常数 C.减少相同的常数 D.增加但数值不定 4.在多元回归中,若对某个自变量的值都乘以一个相同的常数k,则: A.该偏回归系数不变 B.该偏回归系数变为原来的 1/k倍 C.所有偏回归系数均发生改变 D.该偏回归系数改变,但数值不定 5.作多重线性回归分析时,若降低进入的F 界值,则进入方程的变量一般会: A.增多 B.减少 C.不变 D.可增多也可减少(四)筒答题 1.为什么要做多重线性回归分析?

实验六多元线性回归和多重共线性

实验六多元线性回归和多重共线性 姓名:何健华 学号:201330110203 班级:13金融数学2班 一 实验目的: 掌握多元线性回归模型的估计方法、掌握多重共线性模型的识别和修正。 二 实验要求: 应用教材P140例子4.3.1案例做多元线性回归模型,并识别和修正多重共线性。 三 实验原理: 普通最小二乘法、简单相关系数检验法、综合判断法、逐步回归法。 四 预备知识: 最小二乘法估计的原理、t 检验、F 检验、R 2值。 五 实验步骤: 有关的研究分析表明,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出外,还可能与基础设施有关。因此考虑影响国内旅游收入Y (单位为亿元)的以下几个因素:国内旅游人数X1、城镇居民人均旅游支出X2(单位为元)、农村居民人均旅游支出X3(单位为元)、并以公路里程X4(单位为万公里)和铁路里程X5(单位为万公里)作为相关设施的代表,根据这些变量建立如下的计量经济模型: 01122334455y x x x x x ββββββμ=++++++ 为了估计上述模型,从《中国统计年鉴》收集到1994年到2003年的有关统计数据。 Year Y X1 X2 X3 X4 X5 1994 1023.5 52400 414.7 54.9 111.78 5.9 1995 1375.7 62900 464 61.5 115.7 5.97 1996 1638.4 63900 534.1 70.5 118.58 6.49 1997 2112.7 64400 599.8 145.7 122.64 6.6 1998 2391.2 69450 607 197 127.85 6.64 1999 2831.9 71900 614.8 249.5 135.17 6.74 2000 3175.5 74400 678.6 226.6 140.27 6.87 2001 3522.4 78400 708.3 212.7 169.8 7.01 2002 3878.4 87800 739.7 209.1 176.52 7.19 2003 3442.3 87000 684.9 200 180.98 7.3 1、 请用普通最小二乘方法估计模型参数; 2、 检验模型是否存在多重共线性,如果存在共线性,试采用适当的方法消除共线性。

解决多重共线性之岭回归分析

解决多重共线性之岭回归分析 展开全文 上篇文章,我们介绍了几种处理共线性的方法。比如逐步回归法、手动剔除变量法是最常使用的方法,但是往往使用这类方法会剔除掉我们想要研究的自变量,导致自己希望研究的变量无法得到研究。因而,此时就需要使用更为科学的处理方法即岭回归。 岭回归岭回归分析(Ridge Regression)是一种改良的最小二乘法,其通过放弃最小二乘法的无偏性,以损失部分信息为代价来寻找效果稍差但回归系数更符合实际情况的模型方程。

简单来说,当方程变量中存在共线性时,一个变量的变化也会导致其他变量改变。岭回归就是在原方程的基础上加入了一个会产生偏差,但可以保证回归系数稳定的正常数矩阵KI。虽然会导致信息丢失,但可以换来回归模型的合理估计。分析步骤岭回归分析步骤共为2步:(1)结合岭迹图寻找最佳K值;(2)输入K值进行回归建模。 第一步:拖入数据,生成岭迹图,寻找最合适的K值。 SPSSAU岭迹图 K值的选择原则是各个自变量的标准化回归系数趋于稳定时的最小K值。K值越小则偏差越小,当K值为0时则为普通线性OLS回归;SPSSAU提供K值智能建议,也可通过主观识别判断选择K值。 第二步:对于K值,其越小越好,通常建议小于1;确定好K值后,即可输入K值,得出岭回归模型估计,查看分析结果。 岭回归分析案例(1)背景 现测得胎儿身高、头围、体重和胎儿受精周龄数据,希望建立胎儿身高、头围、体重去和胎儿受精周龄间的回归模型。根据医学常识情况(同时结合普通线性最小二乘法OLS回归测量),发现三个自变量之间有着很强的共线性,VIF值高于200;可知胎儿身高、体重之间肯定有着很强的正相关关系,

多重共线性和非线性回归的问题

多重共线性和非线性回归的问题 前几天她和我说,在百度里有个人连续追着我的回答,三次说我的回答错了。当时非常惊讶,赶紧找到那个回答的问题,看看那个人是怎么说。最终发现他是说多重共线性和非线性回归的问题,他认为多个自变量进行不能直接回归,存在共线性的问题,需要进行因子分析(或主成分分析);说非线性回归不能转换成线性回归的方法,这里我详细说说这两方面的问题到底是怎么回事(根据我的理解),我发现很多人很怕这个多重共线性的问题,听到非线性回归,脑袋就更大了。。。 (1)多重共线性问题 我们都知道在进行多元回归的时候,特别是进行经济上指标回归的时候,很多变量存在共同趋势相关性,让我们得不到希望的回归模型。这里经常用到的有三种方法,而不同的方法有不同的目的,我们分别来看看: 第一个,是最熟悉也是最方便的——逐步回归法。 逐步回归法是根据自变量与因变量相关性的大小,将自变量一个一个选入方法中,并且每选入一个自变量都进行一次检验。最终留在模型里的自变量是对因变量有最大显著性的,而剔除的自变量是与因变量无显著线性相关性的,以及与其他自变量存在共线性的。用逐步回归法做的多元回归分析,通常自变量不宜太多,一般十几个以下,而且你的数据量要是变量个数3倍以上才可以,不然做出来的回归模型误差较大。比如说你有10个变量,数据只有15组,然后做拟合回归,得到9个自变量的系数,虽然可以得到,但是精度不高。这个方法我们不仅可以找到对因变量影响显著的几个自变量,还可以得到一个精确的预测模型,进行预测,这个非常重要的。而往往通过逐步回归只能得到几个自变量进入方程中,有时甚至只有一两个,令我们非常失望,这是因为自变量很多都存在共线性,被剔除了,这时可以通过第二个方法来做回归。 第二个,通过因子分析(或主成分分析)再进行回归。 这种方法用的也很多,而且可以很好的解决自变量间的多重共线性。首先通过因子分析将几个存在共线性的自变量合为一个因子,再用因子分析得到的几个因子和因变量做回归分析,这里的因子之间没有显著的线性相关性,根本谈不上共线性的问题。通过这种方法可以得到哪个因子对因变量存在显著的相关性,哪个因子没有显著的相关性,再从因子中的变量对因子的载荷来看,得知哪个变量对因变量的影响大小关系。而这个方法只能得到这些信息,第一它不是得到一个精确的,可以预测的回归模型;第二这种方法不知道有显著影响的因子中每个变量是不是都对因变量有显著的影响,比如说因子分析得到三个因子,用这三个因子和因变量做回归分析,得到第一和第二个因子对因变量有显著的影响,而在第一个因子中有4个变量组成,第二个因子有3个变量组成,这里就不知道这7个变量是否都对因变量存在显著的影响;第三它不能得到每个变量对因变量准确的影响大小关系,而我们可以通过逐步回归法直观的看到自变量前面的系数大小,从而判断自变量对因变量影响的大小。 第三个,岭回归。 通过逐步回归时,我们可能得到几个自变量进入方程中,但是有时会出现自变量影响的方向出现错误,比如第一产业的产值对国民收入是正效应,而可能方程中的系数为负的,这种肯定是由于共线性导致出现了拟合失真的结果,而这样的结果我们只能通过自己的经验去判断。通常我们在做影响因素判断的时候,不仅希望得到各个因素对因变量真实的影响关系,还希望知道准确的影响大小,就是每个自变量系数的大小,这个时候,我们就可以通过岭回归的方法。

相关主题
文本预览
相关文档 最新文档