现代统计分析方法与应用课件 第七章 自变量选择与逐步回归
- 格式:ppt
- 大小:1.24 MB
- 文档页数:64
回归变量的选择与逐步回归1 变量选择问题在实际问题中,影响因变量的因素(自变量)很多,人们希望从中挑选出影响显著的自变量来建立回归关系式,这就涉及自变量选择的问题。
在回归方程中若漏掉对因变量影响显著的自变量,那么建立的回归式用于预测时将会产生较大的偏差。
但回归式若包含的变量太多,且其中有些对因变量影响不大,显然这样的回归式不仅使用不方便,而且反而会影响预测的精度。
因而选择合适的变量用于建立一个“最优”的回归方程是十分重要的问题。
选择“最优”子集的变量筛选法包括逐步回归法(Stepwise)、向前引入法(Forward)和向后剔除法。
向前引入法是从回归方程仅包括常数项开始,把自变量逐个引入回归方程。
具体地说,首先,从零模型开始——只含有截距,但不含有预测变量的模型。
然后,在m个自变量中选择一个与因变量线性关系最密切的变量,记为x i,在剩余的m-1个自变量中选择一个变量x i,使得{x i,x i}联合起来二元回归效果最好,在剩下的m-2个自变量中选择一个变量x i,使得{x i,x i,x i}联合起来回归效果最好,如此下去,直至得到“最优”回归方程为止。
向前引入法中的终止条件为:给定显著性水平α,当对某一个将被引入变量的回归系数做显著性检查时,若p-value≥α,则引入变量的过程结束,所得方程为“最优”回归方程。
向前引入法有一个明显的缺点,它是一种贪婪的方法。
就是由于各自变量可能存在着相互关系,因此后续变量的选入可能会使前面已选入的自变量变得不重要。
这样最后得到的“最优”回归方程可能包含一些对因变量影响不大的自变量。
向后剔除法与向前引入法正好相反,首先将全部m个自变量引入回归方程,然后逐个剔除对因变量作用不显著的自变量。
具体地说,首先从回归式m个自变量中选择一个对因变量贡献最小的自变量,如x j,将它从回归方程中剔除;然后重新计算因变量与剩下的m-1个自变量的回归方程,再剔除一个贡献最小的自变量,如x j,依次下去,直到得到“最优”回归方程为止。
自变量选择与逐步回归一、全模型和选模型设研究某一实际问题,涉及对因变量有影响的因素共有m 个,由因变量y 和m 个自变量构成的回归模型εββββ+++++=m m x x x y 22110称为全模型。
如果从可供选择的m 个变量中选出p 个,由选出的p 个自变量组成的回归模型p pp pp p p p x x x y εββββ+++++= 22110称为选模型。
二、自变量选择对预测的影响自变量选择对预测的影响可以分为两种情况考虑,第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而无用了全模型。
以下是这两种情况对回归的影响。
1、全模型正确而误用选模型的情况性质1,在j x 与m p x x ,,1 +的相关系数不全为0时,选模型回归系数的最小二乘估计是全模型相应参数的有偏估计,即jjp jp E βββ≠=)ˆ((p j ,,2,1 =) 性质2,选模型的预测是有偏的。
性质3,选模型的参数估计有较小的方差。
性质4,选模型的预测残差有较小的方差。
性质5,选模型的均方误差比全模型预测的方差更小。
性质1和性质2表明,当全模型正确时,而舍去了m-p 个自变量,用剩下的p 个自变量去建立选模型,参数估计值是全模型相应参数的有偏估计,用其做预测,预测值也是有偏的。
这是误用选模型产生的弊端。
性质3和性质4表明,用选模型去作预测,残差的方差比用全模型去作预测的方差小,尽管用选模型所作的预测是有偏的,但得到的预测残差的方差下降了,这说明尽管全模型正确,误用选模型是有弊也有利的。
性质5说明,即使全模型正确,但如果其中有一些自变量对因变量影响很小或回归系数方差过大,丢掉这些变量之后,用选模型去预测,可以提高预测的精度。
由此可见,如果模型中包含了一些不必要的自变量,模型的预测精度就会下降。
2、选模型正确而误用全模型的情况全模型的预测值是有偏估计;选模型的预测方差小于全模型的预测方差;全模型的预测误差将更大。
自变量选择与逐步回归一、全模型和选模型设研究某一实际问题,涉及对因变量有影响的因素共有m 个,由因变量y 和m 个自变量构成的回归模型εββββ+++++=m m x x x y 22110称为全模型。
如果从可供选择的m 个变量中选出p 个,由选出的p 个自变量组成的回归模型p pp pp p p p x x x y εββββ+++++= 22110称为选模型。
二、自变量选择对预测的影响自变量选择对预测的影响可以分为两种情况考虑,第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而无用了全模型。
以下是这两种情况对回归的影响。
1、全模型正确而误用选模型的情况性质1,在j x 与m p x x ,,1 +的相关系数不全为0时,选模型回归系数的最小二乘估计是全模型相应参数的有偏估计,即jjp jp E βββ≠=)ˆ((p j ,,2,1 =) 性质2,选模型的预测是有偏的。
性质3,选模型的参数估计有较小的方差。
性质4,选模型的预测残差有较小的方差。
性质5,选模型的均方误差比全模型预测的方差更小。
性质1和性质2表明,当全模型正确时,而舍去了m-p 个自变量,用剩下的p 个自变量去建立选模型,参数估计值是全模型相应参数的有偏估计,用其做预测,预测值也是有偏的。
这是误用选模型产生的弊端。
性质3和性质4表明,用选模型去作预测,残差的方差比用全模型去作预测的方差小,尽管用选模型所作的预测是有偏的,但得到的预测残差的方差下降了,这说明尽管全模型正确,误用选模型是有弊也有利的。
性质5说明,即使全模型正确,但如果其中有一些自变量对因变量影响很小或回归系数方差过大,丢掉这些变量之后,用选模型去预测,可以提高预测的精度。
由此可见,如果模型中包含了一些不必要的自变量,模型的预测精度就会下降。
2、选模型正确而误用全模型的情况全模型的预测值是有偏估计;选模型的预测方差小于全模型的预测方差;全模型的预测误差将更大。