第5章逐步回归与自变量选择。

格式：ppt
大小：621.00 KB
文档页数：20

下载文档原格式

《应用回归分析》自变量选择与逐步回归实验报告三

《应用回归分析》自变量选择与逐步回归实验报告二、实验步骤：（只需关键步骤）步骤1：建立全模型；步骤2：用前进法选择自变量；步骤3：用后退法选择自变量；步骤4：用逐步回归法选择自变量。

三、实验结果分析：（提供关键结果截图和分析）1.建立全模型回归方程；2.用前进法选择自变量；由图可知，依次引出x5,x1,x2。

由图可知：最有回归模型为有y^=874.583-0.611x1-0.353x2+0.637x5。

由图可知：最优模型的复决定系数R^2=0.996.调整后的复决定系数R a2=0.995. 最优模型的复决定系数R^2=0.989.调整后的复决定系数R a2=0.988. 最优模型的复决定系数R^2=0.992.调整后的复决定系数R a2=0.991.3.用后退法选择自变量；从图上可以看出：依次剔除变量x4,x3,x6。

从上图可知：最优回归模型为y^=874.583-0.611x1-0.353x2+0.637x5。

最优模型的复决定系数R2=0.996; 调整后的复决定系数R2=0.995。

4.用逐步回归法选择自变量；从右图上可以看出：先依次引入变量x6,x3,x4,x1,x5,x2b, 后又剔除了变量x4 X3,x6, 最终得到只包含两个变量x1,x5,x2b的最优模型。

由图知最有回归模型为，y^=874.53-0.611x1-0.353x2+0.637x5。

最优模型的复决定系数R2=0.996; 调整后的复决定系数R2=0.995。

5.根据以上结果分三种方法的差异。

前进法的特点是：自变量一旦被选入，就永远保留在模型中；前进法的缺点：不能反映自变量选进模型后的变化情况。

后退法的特点是：自变量一旦被剔除，就不能再选入模型；后退法的缺点：开始把全部自变量都引入模型，计算量大。

逐步回归的基本思想是有进出的。

具体做法是将变量一个一个的引入，每引入一个自变量后，对已选入的变量要进行逐个检验，当原引入的变量由于后面变量的引入而变得不再显著时要将其剔除引入一个变量或从回归方程中剔除一个变量，为逐步回归的一步，每一步都要进行F检验，以确保每次引入新的变量之前回归方程中只包含显著的变量。

变量选择与逐步回归

变量选择与逐步回归
1在建立回归模型时，对自变量进行筛选
2选择自变量的原则是对统计量进行显著性检验
（1）将一个或一个以上的自变量引入到回归模型中时，是否使得残差平方和(SSE)有显著地减少。

如果增加一个自变量使SSE的减少是显著的，则说明有必要将这个自变量引入回归模型，否则，就没有必要将这个自变量引入回归模型
确定引入自变量是否使SSE有显著减少的方法，就是使用F统计量的值作为一个标准，以此来确定是在模型中增加一个自变量，还是从模型中剔除一个自变量
3逐步回归：将向前选择和向后剔除两种方法结合起来筛选自变量。

在增加了一个自变量后，它会对模型中所有的变量进行考察，看看有没有可能剔除某个自变量；如果在增加了一个自变量后，前面增加的某个自变量对模型的贡献变得不显著，这个变量就会被剔除；按照方法不停地增加变量并考虑剔除以前增加的变量的可能性，直至增加变量已经不能导致SSE显著减少；在前面步骤中增加的自变量在后面的步骤中有可能被剔除，而在前面步骤中剔除的自变量在后面的步骤中也可能重新进入到模型中。

根据利用spss、筛选出水资源短缺风险敏感因子，见表，从表1中可以看出水资源总量、工业用水、农业用水量、生活用水是资源短缺风险敏感因子。

表1 敏感因子筛选。

回归变量的选择与逐步回归

回归变量的选择与逐步回归1 变量选择问题在实际问题中，影响因变量的因素（自变量）很多，人们希望从中挑选出影响显著的自变量来建立回归关系式，这就涉及自变量选择的问题。

在回归方程中若漏掉对因变量影响显著的自变量，那么建立的回归式用于预测时将会产生较大的偏差。

但回归式若包含的变量太多，且其中有些对因变量影响不大，显然这样的回归式不仅使用不方便，而且反而会影响预测的精度。

因而选择合适的变量用于建立一个“最优”的回归方程是十分重要的问题。

选择“最优”子集的变量筛选法包括逐步回归法(Stepwise)、向前引入法(Forward)和向后剔除法。

向前引入法是从回归方程仅包括常数项开始，把自变量逐个引入回归方程。

具体地说，首先，从零模型开始——只含有截距，但不含有预测变量的模型。

然后，在m个自变量中选择一个与因变量线性关系最密切的变量，记为x i，在剩余的m-1个自变量中选择一个变量x i，使得{x i,x i}联合起来二元回归效果最好，在剩下的m-2个自变量中选择一个变量x i，使得{x i,x i,x i}联合起来回归效果最好，如此下去，直至得到“最优”回归方程为止。

向前引入法中的终止条件为：给定显著性水平α，当对某一个将被引入变量的回归系数做显著性检查时，若p-value≥α，则引入变量的过程结束，所得方程为“最优”回归方程。

向前引入法有一个明显的缺点，它是一种贪婪的方法。

就是由于各自变量可能存在着相互关系，因此后续变量的选入可能会使前面已选入的自变量变得不重要。

这样最后得到的“最优”回归方程可能包含一些对因变量影响不大的自变量。

向后剔除法与向前引入法正好相反，首先将全部m个自变量引入回归方程，然后逐个剔除对因变量作用不显著的自变量。

具体地说，首先从回归式m个自变量中选择一个对因变量贡献最小的自变量，如x j，将它从回归方程中剔除；然后重新计算因变量与剩下的m-1个自变量的回归方程，再剔除一个贡献最小的自变量，如x j，依次下去，直到得到“最优”回归方程为止。

自变量选择与逐回归

自变量选择与逐回归————————————————————————————————作者：————————————————————————————————日期：自变量选择与逐步回归一、全模型和选模型设研究某一实际问题，涉及对因变量有影响的因素共有m 个，由因变量y 和m 个自变量构成的回归模型εββββ+++++=m m x x x y Λ22110称为全模型。

如果从可供选择的m 个变量中选出p 个，由选出的p 个自变量组成的回归模型p pp pp p p p x x x y εββββ+++++=Λ22110称为选模型。

二、自变量选择对预测的影响自变量选择对预测的影响可以分为两种情况考虑，第一种情况是全模型正确而误用了选模型；第二种情况是选模型正确而无用了全模型。

以下是这两种情况对回归的影响。

1、全模型正确而误用选模型的情况性质1，在j x 与m p x x ,,1Λ+的相关系数不全为0时，选模型回归系数的最小二乘估计是全模型相应参数的有偏估计，即jjp jp E βββ≠=)ˆ(（p j ,,2,1Λ=）性质2，选模型的预测是有偏的。

性质3，选模型的参数估计有较小的方差。

性质4，选模型的预测残差有较小的方差。

性质5，选模型的均方误差比全模型预测的方差更小。

性质1和性质2表明，当全模型正确时，而舍去了m-p 个自变量，用剩下的p 个自变量去建立选模型，参数估计值是全模型相应参数的有偏估计，用其做预测，预测值也是有偏的。

这是误用选模型产生的弊端。

性质3和性质4表明，用选模型去作预测，残差的方差比用全模型去作预测的方差小，尽管用选模型所作的预测是有偏的，但得到的预测残差的方差下降了，这说明尽管全模型正确，误用选模型是有弊也有利的。

性质5说明，即使全模型正确，但如果其中有一些自变量对因变量影响很小或回归系数方差过大，丢掉这些变量之后，用选模型去预测，可以提高预测的精度。

由此可见，如果模型中包含了一些不必要的自变量，模型的预测精度就会下降。

应用回归分析,第5章课后习题参考答案

第5章自变量选择与逐步回归思考与练习参考答案自变量选择对回归参数的估计有何影响答：回归自变量的选择是建立回归模型得一个极为重要的问题。

如果模型中丢掉了重要的自变量, 出现模型的设定偏误，这样模型容易出现异方差或自相关性，影响回归的效果；如果模型中增加了不必要的自变量, 或者数据质量很差的自变量, 不仅使得建模计算量增大, 自变量之间信息有重叠，而且得到的模型稳定性较差，影响回归模型的应用。

自变量选择对回归预测有何影响答：当全模型（m元）正确采用选模型（p元）时，我们舍弃了m-p个自变量，回归系数的最小二乘估计是全模型相应参数的有偏估计，使得用选模型的预测是有偏的，但由于选模型的参数估计、预测残差和预测均方误差具有较小的方差，所以全模型正确而误用选模型有利有弊。

当选模型（p元）正确采用全模型（m 元）时，全模型回归系数的最小二乘估计是相应参数的有偏估计，使得用模型的预测是有偏的，并且全模型的参数估计、预测残差和预测均方误差的方差都比选模型的大，所以回归自变量的选择应少而精。

如果所建模型主要用于预测，应该用哪个准则来衡量回归方程的优劣C统计量达到最小的准则来衡量回答：如果所建模型主要用于预测，则应使用p归方程的优劣。

试述前进法的思想方法。

答：前进法的基本思想方法是：首先因变量Y对全部的自变量x1,x2,...,xm建立m 个一元线性回归方程, 并计算F检验值，选择偏回归平方和显着的变量（F值最大且大于临界值）进入回归方程。

每一步只引入一个变量，同时建立m－1个二元线性回归方程，计算它们的F检验值，选择偏回归平方和显着的两变量变量（F 值最大且大于临界值）进入回归方程。

在确定引入的两个自变量以后，再引入一个变量，建立m－2个三元线性回归方程，计算它们的F检验值，选择偏回归平方和显着的三个变量（F值最大）进入回归方程。

不断重复这一过程，直到无法再引入新的自变量时，即所有未被引入的自变量的F检验值均小于F检验临界值Fα(1,n-p-1)，回归过程结束。

自变量选择与逐步回归

Model Summary Model 1 2 3 4 5 R 0.741 0.835 0.860 0.885 0.908 R Square Adjusted R Square Std. Error of the Estimate 0.549 0.533 455.928 0.697 0.675 380.440 0.739 0.710 359.335 0.783 0.749 334.044 0.824 0.789 306.839
1 ˆ SSEm n m 1
2
SSEP CP (n m 1) n 2p SSEm
22
三逐步回归
在多元线性回归分析中，并不是所有自变量对因变量有显著的影响。
问题：如何挑选出对因变量有显著影响的自变量？变量的所有可能子集构成个回归方程，当自变量个数较多时，要求出所有可能的回归方程是 2m 1 非常困难的。
y 0 p 1 p x1 2 p x2
pp x p p
(5.2)
4
相对全模型而言，称(5.2)式为选模型自变量的选择问题可以看成是对一个实际问题
是用(5.1)式全模型还是用(5.2)式选模型去描述。
模型选择不当会给参数估计和预测带来不良影响。为了方便，把模型(5.1)式的参数向量 β 和 2 记为
2 j
F (1, n p 1)
则Xj进入方程
直到所有未引入方程的自变量F值均小于为止。
26
例题分析
输出结果5.3
Model 1 Regression Residual Total 2 Regression Residual Total 3 Regression Residual Total 4 Regression Residual Total 5 Regression Residual Total ANOVA(f) Sum of Squares df Mean Square 7,329,802.206 1 7,329,802.206 6,028,236.504 29 207,870.224 13,358,038.710 30 9,305,460.272 2 4,652,730.136 4,052,578.438 28 144,734.944 13,358,038.710 30 9,871,760.154 3 3,290,586.718 3,486,278.556 27 129,121.428 13,358,038.710 30 10,456,819.795 4 2,614,204.949 2,901,218.915 26 111,585.343 13,358,038.710 30 11,004,290.499 5 2,200,858.100 2,353,748.211 25 94,149.928 13,358,038.710 30 F 35.261 Sig. 0.000

(整理)自变量选择与逐步回归

自变量选择与逐步回归一、全模型和选模型设研究某一实际问题，涉及对因变量有影响的因素共有m 个，由因变量y 和m 个自变量构成的回归模型εββββ+++++=m m x x x y 22110称为全模型。

如果从可供选择的m 个变量中选出p 个，由选出的p 个自变量组成的回归模型p pp pp p p p x x x y εββββ+++++= 22110称为选模型。

以下是这两种情况对回归的影响。

1、全模型正确而误用选模型的情况性质1，在j x 与m p x x ,,1 +的相关系数不全为0时，选模型回归系数的最小二乘估计是全模型相应参数的有偏估计，即jjp jp E βββ≠=)ˆ(（p j ,,2,1 =）性质2，选模型的预测是有偏的。

性质3，选模型的参数估计有较小的方差。

性质4，选模型的预测残差有较小的方差。

性质5，选模型的均方误差比全模型预测的方差更小。

这是误用选模型产生的弊端。

由此可见，如果模型中包含了一些不必要的自变量，模型的预测精度就会下降。

2、选模型正确而误用全模型的情况全模型的预测值是有偏估计；选模型的预测方差小于全模型的预测方差；全模型的预测误差将更大。

第五章自变量选择与逐步回归

（4）选模型的预测残差有较小的方差，即
D(e0 p ) D(e0m )
记(
X
X
)1
X X
p q
X X
p p
X
p
X
q
1
X
q
X
q
(
X
p
X
p
)1
ADA
B
B
D
ˆ 的前p 1个分量记为ˆp ,则
cov(ˆp ) 2 (( X p X p )1 ADA)
又 cov( p ) 2 ( X p X p )1, ADA 0
（3）依上法继续进行，到第 s 步，所有的 F ms j F (1, n m s) 为止，则第 s 1 步得到
的方程为最终方程。
三．逐步回归法
前进法与后退法都有各自的不足之处。前进法的问题是不能反映引进新的自变量后的变化情况。如某个自变量开始可能是显著的，当引入其他变量后他变得不显著了，但没有机会将其剔除。这种只考虑引进，不考虑剔除的方法是不全面的。
X p ( p ( X p X p )1 X p X q q )
X p p X p ( X p X p )1 X p X q q
而
E(Yˆ)
E
(
X
ˆ
)
(
X
p
,
X
q
)(
p q
)
X pp Xqq
（3）选模型的参数估计有较小的方差，即
D(ˆ jp ) D(ˆ jm ), j 0,1,..., p
y 7.8 8.4 8.7 9 9.6 10.3 10.6 10.9 11.3 12.3 13.5 14.2 14.9 15.9 18.5 19.5 19.9 20.5

应用回归分析_第5章答案

第5章参考答案5.1 自变量选择对回归参数的估计有何影响？答：回归自变量的选择是建立回归模型得一个极为重要的问题。

5.2自变量选择对回归预测有何影响？答：当全模型（m元）正确采用选模型（p元）时，我们舍弃了m-p个自变量，回归系数的最小二乘估计是全模型相应参数的有偏估计，使得用选模型的预测是有偏的，但由于选模型的参数估计、预测残差和预测均方误差具有较小的方差，所以全模型正确而误用选模型有利有弊。

5.3 如果所建模型主要用于预测，应该用哪个准则来衡量回归方程的优劣？C统计量达到最小的准则来衡量回答：如果所建模型主要用于预测，则应使用p归方程的优劣。

5.4 试述前进法的思想方法。

答：前进法的基本思想方法是：首先因变量Y对全部的自变量x1,x2,...,xm建立m个一元线性回归方程, 并计算F检验值，选择偏回归平方和显著的变量（F值最大且大于临界值）进入回归方程。

每一步只引入一个变量，同时建立m－1个二元线性回归方程，计算它们的F检验值，选择偏回归平方和显著的两变量变量（F值最大且大于临界值）进入回归方程。

在确定引入的两个自变量以后，再引入一个变量，建立m－2个三元线性回归方程，计算它们的F检验值，选择偏回归平方和显著的三个变量（F值最大）进入回归方程。

不断重复这一过程，直到无法再引入新的自变量时，即所有未被引入的自变量的F检验值均小于F检验临界值Fα(1,n-p-1)，回归过程结束。

应用回归分析-第5章课后习题参考答案

第5章自变量选择与逐步回归思考与练习参考答案5.1 自变量选择对回归参数的估计有何影响？答：回归自变量的选择是建立回归模型得一个极为重要的问题。

5.2自变量选择对回归预测有何影响？答：当全模型〔m元〕正确采用选模型〔p元〕时，我们舍弃了m-p个自变量，回归系数的最小二乘估计是全模型相应参数的有偏估计，使得用选模型的预测是有偏的，但由于选模型的参数估计、预测残差和预测均方误差具有较小的方差，所以全模型正确而误用选模型有利有弊。

当选模型〔p元〕正确采用全模型〔m 元〕时，全模型回归系数的最小二乘估计是相应参数的有偏估计，使得用模型的预测是有偏的，并且全模型的参数估计、预测残差和预测均方误差的方差都比选模型的大，所以回归自变量的选择应少而精。

5.4 试述前进法的思想方法。

答：前进法的基本思想方法是：首先因变量Y对全部的自变量x1,x2,...,xm建立m个一元线性回归方程, 并计算F检验值，选择偏回归平方和显著的变量〔F值最大且大于临界值〕进入回归方程。

每一步只引入一个变量，同时建立m－1个二元线性回归方程，计算它们的F检验值，选择偏回归平方和显著的两变量变量〔F值最大且大于临界值〕进入回归方程。

在确定引入的两个自变量以后，再引入一个变量，建立m－2个三元线性回归方程，计算它们的F检验值，选择偏回归平方和显著的三个变量〔F值最大〕进入回归方程。

不断重复这一过程，直到无法再引入新的自变量时，即所有未被引入的自变量的F检验值均小于F检验临界值Fα(1,n-p-1)，回归过程结束。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

R2随着自变量的增加并不一定增大 !
由上式知：尽管1－R2随着变量的增加而减少，但由于其前面的系数 n -1 起到制衡作用，
n -p -1 才使R 2随着自变量的增加并不一定增大。当所增加的自变量对回归的贡献很小时， R 2反而可能减少。
浙江财经学院倪伟才
11
准则2：回归的标准误
回归误差项方差? 2的无偏估计为：??2＝ 1 SSR n-p-1
引入自变量显著性水平记为： ? 进
剔除自变量显著性水平记为：? 出
要使用逐步回归法的前提： ? 进<? 出
Spss中默认的? 进 =0.05
? 出=0.1
例：用逐步回归法建立例3.1回归方程
练习课本例5.5关于香港股市的研究
练习课本152页的习题浙5江.9财经学院倪伟才
Stata ,SPSS结果一致(课本例5.1)
④直到未被引入方程的p值>0.05为止。
例：用前进法建立例3.1的回归方程
浙江财经学院倪伟才
二、后退法
后退法（ backwad ）的基本思想：首先用全部的 p个自变量建立一个回归方程，然后将最不重要的自变量一个一个地删除。
具体步骤：①作 y对全部的p个自变x1,x2,….,xp 的回归②在回归方程中，将 x1,x2,….,xp 对y的影响最小（最不重要或 p值最大）的自变量剔除，不妨令 x1；③在② 中的回归方程（已没有 x1 ），将x2,….,xp 对y的影响最小（最不重要或p值最大）的自变量剔除，④直到回归方程中，自变量对 y的影响都重要为止。例：用后退法建立例 3.1回归方程
的增加，SSR能够快速减少，虽然作为除数的
惩罚因子n-p-1也随之减少，但由于SSR减小的速度
更快，因而??2是趋于减少的。当自变量个数增加到一定程度，应该
说重要的自变量基本上都已选上了，这是再增加自变量，
SSR减少不多，以致抵消不了n-p-1的减少，最终导致??2增加。
浙江财经学院倪伟才
12
用平均残差平方和 ??2作为自变量选元准则是合理的。实际上， ??2和R 2这两个准则是等价的。 R 2 ? 1 ? n-1 ??2
此无偏估计式中加入了惩罚因子n-p-1,
??2实际上就是用自由度n-p-1作平均的平均残差平方和。
当自变量个数从0开始增加时，SSR逐渐减少，作为
除数的惩罚因子n-p-1也随之减少。
一般而言，当自变量个数从0开始增加时，??2先是开始
下降，而后开始稳定下来，当自变量个数增加到一定数量后，
??2又开始增加。这是因为刚开始时，随着自变量个数
在一个实际问题的多元回归模型的建模过程中 ,有p 个可供选择的变量 x1,x2,…,xp.
这样，y关于这些自变量的所有可能的回归方程就有 2p个,(此时把回归模型只包含常数项的情况包含在内)。（请说出为什么是 2p个的理由？）
若把回归模型只包含常数项的情况排除在外，可能的回归方程就有 2p－1个。
第五章逐步回归法
浙江财经学院倪伟才
一、前进法
前进法（forward）的思想：自变量由少到多，每次增加1个，直到没有可引入的变量为止。
具体步骤：①将x1,x2,….,xp 中的一个变量引入回归方
程，作p个一元线性回归方程；选取与y关系最密切
（相关性最强）（或p值最小的）解释变量引入。不妨
设为x1. ②回归方程中已有x1 ，再引入一个变量。
浙江财经学院倪伟才
9
准则1：调整复决定系数
R2 ? 1? SSR
SST
SSR
R2 ? 1?
n? p?1
SST
n?1
? 1? n ? 1 SSR n ? p ? 1 SST
? 1? 1? R2 (n ? 1)
n? p?1
浙江财经学院倪伟才
10
调整复决定系数
R 2 ? 1 ? n ? 1 (1? R 2 ) n? p?1
步骤：将变量一个一个引入，当引入一个新的变量时，不仅对新变量进行检验，而且对已引进的自变量也要检验。若已引进的变量由于后面的变量引进而变地不显著时，将其剔除（有进有出），直到不再有显著的变量引入回归方程，也不再有不显著的变量从回归方程中剔除。（通俗的说：方程中的自变量都是显著的，方程外的自变量都是不显著的）
1:Stepwise:
sw reg y x1 x2 x3 , pe(.05) pr(.1) forward
与SPSS的输出结果完全相同!
2:forward:
sw regress y x1 x2 x3 , pe(.05)
3:backward:
sw regress y x1 x2 x3 , pr(.1)
浙江财经学院倪伟才
三.前进法、后退法的缺点
前进法：终身制。
前面引进的自变量是显著的，但后面引进其它变量后变地不显著了，此时再也无法将其剔除。
后退法：一棍子打死。
一旦某个自变量被剔除后，它再也没有机会重新进入回归方程。
浙江财经学院倪伟才
四.逐步回归法
思想：有进有出，在前进法的基础上，结合后退法。
4:区别sw reg y x1 x2 x3 , pe(.05) pr(.1) forward
begin with empty model
sw reg y x*,pe(0.05) pr(0.1)
begin with full model
浙江财经学院倪伟才
6
自变量选择的准则
浙江财经学院倪伟才
7
所有子集回归
对于有p个自变量的回归模型问题，一切可能的回归子集有2p个，在这些回归子集中如何选择一个最优的回归子集，衡量最优子集的标准是什么？
浙江财经学院倪伟才
8
复习残差平方和与复决定系数
1：OLSE的基本思想：使残差平方和达到最小。
思考：能用残差平方和来选择一个最优的回归子集吗？理由？
2：能用复决定系数来选择一个最优的回归子集吗？理由？
SST 由于SST 是与回归无关的固定值，
因而??2和R 2是等价的。
作p-1个二元线性回归方程；选取x2,….,xp 中与y关系最密切（相关性源自强）（或p值最小的）解释变量引入。
不妨设为x2.
③回归方程中已有x1 ， x2，再引
入一个变量。作p-2个三元线性回归方程；选取
x3,….,xp 中与y关系最密切（相关性最强）（或p值最
小的）解释变量引入。不妨设为x3.
。。。。。。。

第5章逐步回归与自变量选择。

合集下载

《应用回归分析》自变量选择与逐步回归实验报告三

变量选择与逐步回归

回归变量的选择与逐步回归

自变量选择与逐回归

应用回归分析,第5章课后习题参考答案

自变量选择与逐步回归

(整理)自变量选择与逐步回归

第五章自变量选择与逐步回归

应用回归分析_第5章答案

应用回归分析-第5章课后习题参考答案

文档推荐

最新文档