第一讲 逐步回归分析讲解
- 格式:ppt
- 大小:785.00 KB
- 文档页数:22
逐步回归分析引言逐步回归分析是一种回归分析的方法,它通过逐步加入和删除自变量,来选择最佳的自变量子集,以建立最佳的回归模型。
在统计学和数据分析中广泛应用,尤其在多变量分析中,逐步回归可以帮助我们确定对目标变量有较强预测能力的自变量。
逐步回归的基本原理在逐步回归中,我们首先选择一个自变量作为基础模型,并对其进行回归分析。
然后,我们逐步地加入剩余的自变量,并根据一定的准则来评估加入自变量后模型的性能。
如果加入自变量后模型的性能显著提升,那么就将该自变量加入模型中。
反之,如果加入自变量后模型的性能没有显著提升,那么就将该自变量排除在外。
这样反复进行,直到所有可能的自变量都被考虑过,得到最佳的回归模型。
逐步回归的基本原理可以用以下步骤总结:1.初始化一个基础模型,选定第一个自变量。
2.对基础模型进行回归分析并评估其性能。
3.遍历剩余的自变量,依次加入到基础模型中,并评估加入自变量后模型的性能。
4.根据一定准则(如F统计量、AIC、BIC等)来判断加入自变量后模型的性能是否显著提升。
5.如果加入自变量后模型的性能显著提升,那么将该自变量加入模型中。
6.反之,如果加入自变量后模型的性能没有显著提升,那么将该自变量排除在外。
7.重复步骤3-6,直到所有可能的自变量都被考虑过,得到最佳的回归模型。
逐步回归的优缺点逐步回归作为一种特定的变量选择方法,具有以下优点:•可以帮助我们快速确定对目标变量有较强预测能力的自变量,避免了将所有自变量都加入模型中的复杂性和冗余性。
•可以降低模型的复杂度,减少过拟合的可能性。
•可以提高模型的解释能力,筛选出与目标变量相关性高的自变量。
然而,逐步回归也存在一些缺点:•过于依赖于原始数据的初始情况,可能导致不同初始情况下得到不同的最终模型。
•不能保证得到全局最优解,只能得到局部最优解。
•在特征空间较大的情况下,计算复杂度较高。
逐步回归的应用场景逐步回归适用于以下情况:1.当自变量较多时,希望从中选出对目标变量有较强预测能力的子集。
逐步回归分析1、逐步回归分析的主要思路在实际问题中, 人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量, 应用多元回归分析的方法建立“最优”回归方程以便对因变量进行预报或控制。
所谓“最优”回归方程, 主要是指希望在回归方程中包含所有对因变量影响显著的自变量而不包含对影响不显著的自变量的回归方程。
逐步回归分析正是根据这种原则提出来的一种回归分析方法。
它的主要思路是在考虑的全部自变量中按其对的作用大小, 显著程度大小或者说贡献大小, 由大到小地逐个引入回归方程, 而对那些对作用不显著的变量可能始终不被引人回归方程。
另外, 己被引人回归方程的变量在引入新变量后也可能失去重要性, 而需要从回归方程中剔除出去。
引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步, 每一步都要进行检验, 以保证在引人新变量前回归方程中只含有对影响显著的变量, 而不显著的变量已被剔除。
逐步回归分析的实施过程是每一步都要对已引入回归方程的变量计算其偏回归平方和(即贡献), 然后选一个偏回归平方和最小的变量, 在预先给定的水平下进行显著性检验, 如果显著则该变量不必从回归方程中剔除, 这时方程中其它的几个变量也都不需要剔除(因为其它的几个变量的偏回归平方和都大于最小的一个更不需要剔除)。
相反, 如果不显著, 则该变量要剔除, 然后按偏回归平方和由小到大地依次对方程中其它变量进行检验。
将对影响不显著的变量全部剔除, 保留的都是显著的。
接着再对未引人回归方程中的变量分别计算其偏回归平方和, 并选其中偏回归平方和最大的一个变量, 同样在给定水平下作显著性检验, 如果显著则将该变量引入回归方程, 这一过程一直继续下去, 直到在回归方程中的变量都不能剔除而又无新变量可以引入时为止, 这时逐步回归过程结束。
2、逐步回归分析的主要计算步骤(1) 确定检验值在进行逐步回归计算前要确定检验每个变量是否显若的检验水平, 以作为引人或剔除变量的标准。
逐步回归分析在自变量很多时,其中有的因素可能对应变量的影响不是很大,而且x之间可能不完全相互独立的,可能有种种互作关系。
在这种情况下可用逐步回归分析,进行x因子的筛选,这样建立的多元回归模型预测效果会更较好。
逐步回归分析,首先要建立因变量y与自变量x之间的总回归方程,再对总的方程及每—个自变量进行假设检验。
当总的方程不显著时,表明该多元回归方程线性关系不成立;而当某—个自变量对y影响不显著时,应该把它剔除,重新建立不包含该因子的多元回归方程。
筛选出有显著影响的因子作为自变量,并建立“最优”回归方程。
回归方程包含的自变量越多,回归平方和越大,剩余的平方和越小,剩余均方也随之较小,预测值的误差也愈小,模拟的效果愈好。
但是方程中的变量过多,预报工作量就会越大,其中有些相关性不显著的预报因子会影响预测的效果。
因此在多元回归模型中,选择适宜的变量数目尤为重要。
逐步回归在病虫预报中的应用实例:以陕西省长武地区1984~1995年的烟蚜传毒病情资料、相关虫情和气象资料为例(数据见DATA6.xls),建立蚜传病毒病情指数的逐步回归模型,说明逐步回归分析的具体步骤。
影响蚜传病毒病情指数的虫情因子和气象因子一共有21个,通过逐步回归,从中选出对病情指数影响显著的因子,从而建立相应的模型。
对1984~1995年的病情指数进行回检,然后对1996~1998年的病情进行预报,再检验预报的效果。
变量说明如下:y:历年病情指数x1:前年冬季油菜越冬时的蚜量(头/株)x11:5月份均温 x12:5月份降水量 x13:6月份均温 x14:6月份降水量x2:前年冬季极端气温 x3:5月份最高气温x4:5月份最低气温x5:3~5月份降水量x6:4~6月份降水量x7:3~5月份均温x8:4~6月份均温x9:4月份降水量x10:4月份均温x15:第一次蚜迁高峰期百株烟草有翅蚜量 x16:5月份油菜百株蚜量x17:7月份降水量x18:8月份降水量x19:7月份均温x20:8月份均温x21:元月均温1)准备分析数据在SPSS数据编辑窗口中,用“File→Open→Data”命令,打开“DATA6.xls”数据文件。
第6节逐步回归分析逐步回归分析实质上就是建立最优的多元线性回归方程,显然既实用而应用又最广泛。
6.1逐步回归分析概述1 概念逐步回归模型是以已知地理数据序列为基础,根据多元回归分析法和求解求逆紧凑变换法及双检验法而建立的能够反映地理要素之间变化关系的最优回归模型。
逐步回归分析是指在多元线性回归分析中,利用求解求逆紧奏变换法和双检验法,来研究和建立最优回归方程的并用于地理分析和地理决策的多元线性回归分析。
它实质上就是多元线性回归分析的基础上派生出一种研究和建立最优多元线性回归方程的算法技巧。
主要含义如下:1)逐步回归分析的理论基础是多元线性回归分析法;2)逐步回归分析的算法技巧是求解求逆紧奏变换法;3)逐步回归分析的方法技巧是双检验法,即引进和剔除检验法;4)逐步回归分析的核心任务是建立最优回归方程;5)逐步回归分析的主要作用是降维。
11主要用途:主要用于因果关系分析、聚类分析、区域规划、综合评价等等。
2 最优回归模型1)概念最优回归模型是指仅包含对因变量有显著影响的自变量的回归方程。
逐步回归分析就是解决如何建立最优回归方程的问题。
2)最优回归模型的含义最优回归模型的含义有两点:(1)自变量个数自变量个数要尽可能多,因为通过筛选自变量的办法,选取自变量的个数越多,回归平方和越大,剩余平方和越小,则回归分析效果就越好,这也是提高回归模型分析效果的重要条件。
(2)自变量显著性自变量对因变量y 有显著影响,建立最优回归模型的目的主要是用于预测和分析,自然要求自变量个数尽可能少,且对因变量y 有显著影响。
若自变量个数越多,一方面预测计算量大,另一方面因n 固定,所以Q S k n Q →--1增大,即造成剩余标准差增大,故要求自变量个数要适中。
且引入和剔除自变量时都要进行显著性检验,使之达到最优化状态,所以此回归方程又称为优化模型。
3 最优回归模型的选择方法最优回归模型的选择方法是一种经验性发展方法,主要有以下四种:(1)组合优选法组合优选法是指从变量组合而建立的所有回归方程中选取最优着。
第三十三课 逐步回归分析一、 逐步回归分析在一个多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。
这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。
在可能自变量的整个集合有40到60个,甚至更多的自变量的那些情况下,使用“最优”子集算法可能并不行得通。
那么,逐步产生回归模型要含有的X 变量子集的自动搜索方法,可能是有效的。
逐步回归方法可能是应用最广泛的自动搜索方法。
这是在求适度“好”的自变量子集时,同所有可能回归的方法比较,为节省计算工作量而产生的。
本质上说,这种方法在每一步增加或剔除一个X 变量时,产生一系列回归模型。
增加或剔除一个X 变量的准则,可以等价地用误差平方和缩减量、偏相关系数或F 统计量来表示。
无疑选择自变量要靠有关专业知识,但是作为起参谋作用的数学工具,往往是不容轻视的。
通常在多元线性模型中,我们首先从有关专业角度选择有关的为数众多的因子,然后用数学方法从中选择适当的子集。
本节介绍的逐步回归法就是人们在实际问题中常用的,并且行之有效的方法。
逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。
这样经若干步以后便得“最优”变量子集。
逐步回归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回归模型中剔除。
Efroymoson (1966)编的程序中,有两个F 水平,记作F in 和F out ,在每一步时,只有一个回归因子,比如说X i ,如果剔除它可能引起RSS 的减少不超过残差均方MSE (即ESS/(N-k-1))的F out 倍,则将它剔除;这就是在当前的回归模型中,用来检验 βi =0的F 比=MSE x x x RSS x x x x RSS i i i /)),,(),,,((121121---ΛΛ是小于或等于F out 。