5.8 第五章 回归分析
- 格式:ppt
- 大小:1.16 MB
- 文档页数:51
第5章自变量选择与逐步回归思考与练习参考答案5.1 自变量选择对回归参数的估计有何影响?答:回归自变量的选择是建立回归模型得一个极为重要的问题。
如果模型中丢掉了重要的自变量, 出现模型的设定偏误,这样模型容易出现异方差或自相关性,影响回归的效果;如果模型中增加了不必要的自变量, 或者数据质量很差的自变量, 不仅使得建模计算量增大, 自变量之间信息有重叠,而且得到的模型稳定性较差,影响回归模型的应用。
5.2自变量选择对回归预测有何影响?答:当全模型(m元)正确采用选模型(p元)时,我们舍弃了m-p个自变量,回归系数的最小二乘估计是全模型相应参数的有偏估计,使得用选模型的预测是有偏的,但由于选模型的参数估计、预测残差和预测均方误差具有较小的方差,所以全模型正确而误用选模型有利有弊。
当选模型(p元)正确采用全模型(m 元)时,全模型回归系数的最小二乘估计是相应参数的有偏估计,使得用模型的预测是有偏的,并且全模型的参数估计、预测残差和预测均方误差的方差都比选模型的大,所以回归自变量的选择应少而精。
5.3 如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣?C统计量达到最小的准则来衡量回答:如果所建模型主要用于预测,则应使用p归方程的优劣。
5.4 试述前进法的思想方法。
答:前进法的基本思想方法是:首先因变量Y对全部的自变量x1,x2,...,xm建立m个一元线性回归方程, 并计算F检验值,选择偏回归平方和显著的变量(F值最大且大于临界值)进入回归方程。
每一步只引入一个变量,同时建立m-1个二元线性回归方程,计算它们的F检验值,选择偏回归平方和显著的两变量变量(F值最大且大于临界值)进入回归方程。
在确定引入的两个自变量以后,再引入一个变量,建立m-2个三元线性回归方程,计算它们的F检验值,选择偏回归平方和显著的三个变量(F值最大)进入回归方程。
不断重复这一过程,直到无法再引入新的自变量时,即所有未被引入的自变量的F检验值均小于F检验临界值Fα(1,n-p-1),回归过程结束。
第五章相关分析和回归分析5.1有人研究了黏虫孵化历期平均温度(x,℃)与历期天数(y,d)之间关系,试验资料如下表,试求黏虫孵化历期平均温度(x,℃)与历期天数(y,d)的简单相关系数。
并建立孵化历期平均温度(x,℃)与历期天数(y,d)之间的一元线性回归方程(要求给出检验结果并描述)。
表5.1 黏虫孵化历期平均温度与历期天数资料5.2 下表为某县1960-1971年的1月份雨量(x1,mm)、3月上旬平均温度(x2,℃)、3月中旬平均温度(x3,℃)、2月份雨量(x4,mm)和第一代三化螟蛾高峰期(y,以4月30日为0)的测定结果。
试计算1月份雨量(x1,mm)、3月上旬平均温度(x2,℃)分别与第一代三化螟蛾高峰期(y)的偏相关系数。
5.3 下表为观测的七个不同高度的风速资料,试建立风速随高度变化的曲线方程。
并确定最合理的是什么样的曲线类型(要求写出曲线方程)。
表5.3 观测的不同高度的风速资料5.4根据多年的大豆分期播种资料,建立大豆产量(y)与生育期降水量(x i)之间的多元线性回归方程。
表5.4 大豆不同生育期降水量与产量数据产量(kg/ha)y生育期降水量(mm)播种-出苗x1出苗-第三叶x2第三叶-开花x3开花-结荚x4结荚-成熟x53982 52 132 180 219 206 3397 25 132 198 201 206 2915 29 170 149 190 202 2142 25 207 111 192 204 1874 43 167 188 111 205 1934 40 85 216 64 189 1692 4 107 192 64 194 1532 18 46 138 165 301 1203 15 49 149 153 299 1200 32 30 137 233 248 1168 7 112 168 158 225 1160 0 111 181 145 225 887 14 104 199 138 208 1124 22 34 26 50 156 927 22 35 25 50 156 870 9 33 25 50 154 979 16 28 22 50 156 924 32 12 37 30 154 1071 33 13 52 20 149 1056 29 15 50 20 149 1124 1 14 50 20 149 924 3 12 50 20 149 1374 11 34 30 8 1635.5根据表5.2的数据试应用逐步回归方法求预报第一代三化螟蛾高峰期的最优线性回归方程(要求给出方程和系数的检验结果)。