应用回归分析,第7章课后习题参考答案
- 格式:doc
- 大小:218.00 KB
- 文档页数:21
第7章岭回归
思考与练习参考答案
7.1 岭回归估计是在什么情况下提出的?
答:当自变量间存在复共线性时,|X’X|≈0,回归系数估计的方差就很大,估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。
7.2岭回归的定义及统计思想是什么?
答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X’X)-1为奇异时,给X’X加上一个正常数矩阵
D, 那么X’X+D接近奇异的程度就会比X′X接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足blue。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。
7.3 选择岭参数k有哪几种方法?
答:最优
是依赖于未知参数
和
的,几种常见的选择方法是:
岭迹法:选择
的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多;
方差扩大因子法:
,其对角线元
是岭估计的方差扩大因子。要让
;
残差平方和:满足
成立的最大的
值。
7.4 用岭回归方法选择自变量应遵循哪些基本原则?
答:岭回归选择变量通常的原则是:
1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;
2. 当k值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k的增加迅速趋近于零。像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除;
3. 去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。
7.5 对第5章习题9的数据,逐步回归的结果只保留了三个变量x1,x2,
x5,用y对这三个自变量作岭回归分析?
答:附5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),x2为工业增加值(亿元),x3为建筑业增加值(亿元),x4为人口数(万人),x5为社会消费总额(亿元),x6为受灾面积(万公顷)。据《中国统计年鉴》获得1978—1998年共21个年份的统计数据,见表5.4(P167)。
解:(1)逐步回归法
回归方程为:
y=865.929—0.601x1-0.361x2+0.639x5
但是回归系数的解释不合理。
从经济意义上讲,x1(农业增加值)、x2(工业增加值)的增加应该对y (财政收入)有正方向的影响,然而回归方程中两个自变量的系数均为负值,明显与实际的经济意义不相符。同时,三个自变量的VIF值均远大于10,说明回归方
程仍然存在较强的多重共线性,逐步回归的方法并没有消除自变量之间的多重共线性。
(2)岭回归法:
依题意,对逐步回归法所保留的三个自变量做岭回归分析。
程序为:
include'C:\Program Files\SPSSEVAL\Ridge regression.sps'.
ridgereg dep=y/enter x1 x2 x5
/start=0.0/stop=1/inc=0.01.
岭迹图如下:
计算结果为:
可以看到,变量x1、x2迅速由负变正,x5迅速减小,在0.01-0.1之间各回归系数的岭估计基本稳定,重新做岭回归。岭迹图如下:
先取k=0.08:
语法命令如下:
include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5
/k=0.08.
运行结果如下:
得到回归方程为:
再取k=0.01:
语法命令如下:
include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5
/k=0.01.
运行结果:
****** Ridge Regression with k = 0.01 ******
Mult R .9931857
RSquare .9864179
Adj RSqu .9840210
SE 329.6916494
ANOVA table
df SS MS
Regress 3.000 134201841 44733947
Residual 17.000 1847841.9 108696.58
F value Sig F
411.5487845 .0000000
--------------Variables in the Equation---------------- B SE(B) Beta B/SE(B)
x1 .0556780 .0615651 .0981355 .9043751
x2 .0796395 .0218437 .3291293
3.6458814
x5 .1014400 .0108941 .5621088
9.3114792
Constant 753.3058478 121.7381256 .0000000 6.187920 5
回归方程为: y=753.3058—0.05568x1-0.0796x2+0.1014x5
从上表可看出,方程通过F检验,R检验,经查表,所有自变量均通过t检验,说明回归方程通过检验。
从经济意义上讲,x1(农业增加值)、x2(工业增加值)x5(社会消费总额)的增加应该对y(财政收入)有正方向的影响,岭回归方程中三个自变量的系数均为正值,与实际的经济意义相符。比逐步回归法得到的方程有合理解释。
(3)主成分回归
对原所有自变量做主成分回归,结果如下: