逐步回归分析(教材)
- 格式:doc
- 大小:876.00 KB
- 文档页数:39
第6节逐步回归分析逐步回归分析实质上就是建立最优的多元线性回归方程,显然既实用而应用又最广泛。
6.1逐步回归分析概述1 概念逐步回归模型是以已知地理数据序列为基础,根据多元回归分析法和求解求逆紧凑变换法及双检验法而建立的能够反映地理要素之间变化关系的最优回归模型。
逐步回归分析是指在多元线性回归分析中,利用求解求逆紧奏变换法和双检验法,来研究和建立最优回归方程的并用于地理分析和地理决策的多元线性回归分析。
它实质上就是多元线性回归分析的基础上派生出一种研究和建立最优多元线性回归方程的算法技巧。
主要含义如下:1)逐步回归分析的理论基础是多元线性回归分析法;2)逐步回归分析的算法技巧是求解求逆紧奏变换法;3)逐步回归分析的方法技巧是双检验法,即引进和剔除检验法;4)逐步回归分析的核心任务是建立最优回归方程;5)逐步回归分析的主要作用是降维。
主要用途:主要用于因果关系分析、聚类分析、区域规划、综合评价等等。
2 最优回归模型1)概念最优回归模型是指仅包含对因变量有显著影响的自变量的回归方程。
逐步回归分析就是解决如何建立最优回归方程的问题。
2)最优回归模型的含义 最优回归模型的含义有两点: (1)自变量个数自变量个数要尽可能多,因为通过筛选自变量的办法,选取自变量的个数越多,回归平方和越大,剩余平方和越小,则回归分析效果就越好,这也是提高回归模型分析效果的重要条件。
(2)自变量显著性自变量对因变量y 有显著影响,建立最优回归模型的目的主要是用于预测和分析,自然要求自变量个数尽可能少,且对因变量y 有显著影响。
若自变量个数越多,一方面预测计算量大,另一方面因n 固定,所以Q S k n Q→--1增大,即造成剩余标准差增大,故要求自变量个数要适中。
且引入和剔除自变量时都要进行显著性检验,使之达到最优化状态,所以此回归方程又称为优化模型。
3 最优回归模型的选择方法最优回归模型的选择方法是一种经验性发展方法,主要有以下四种:(1)组合优选法组合优选法是指从变量组合而建立的所有回归方程中选取最优着。
第三十三课 逐步回归分析一、 逐步回归分析在一个多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。
这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。
在可能自变量的整个集合有40到60个,甚至更多的自变量的那些情况下,使用“最优”子集算法可能并不行得通。
那么,逐步产生回归模型要含有的X 变量子集的自动搜索方法,可能是有效的。
逐步回归方法可能是应用最广泛的自动搜索方法。
这是在求适度“好”的自变量子集时,同所有可能回归的方法比较,为节省计算工作量而产生的。
本质上说,这种方法在每一步增加或剔除一个X 变量时,产生一系列回归模型。
增加或剔除一个X 变量的准则,可以等价地用误差平方和缩减量、偏相关系数或F 统计量来表示。
无疑选择自变量要靠有关专业知识,但是作为起参谋作用的数学工具,往往是不容轻视的。
通常在多元线性模型中,我们首先从有关专业角度选择有关的为数众多的因子,然后用数学方法从中选择适当的子集。
本节介绍的逐步回归法就是人们在实际问题中常用的,并且行之有效的方法。
逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。
这样经若干步以后便得“最优”变量子集。
逐步回归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回归模型中剔除。
Efroymoson (1966)编的程序中,有两个F 水平,记作F in 和F out ,在每一步时,只有一个回归因子,比如说X i ,如果剔除它可能引起RSS 的减少不超过残差均方MSE (即ESS/(N-k-1))的F out 倍,则将它剔除;这就是在当前的回归模型中,用来检验 βi =0的F 比=MSE x x x RSS x x x x RSS i i i /)),,(),,,((121121--- 是小于或等于F out 。
第6节逐步回归分析逐步回归分析实质上就是建立最优的多元线性回归方程,显然既实用而应用又最广泛。
6.1逐步回归分析概述1 概念逐步回归模型是以已知地理数据序列为基础,根据多元回归分析法和求解求逆紧凑变换法及双检验法而建立的能够反映地理要素之间变化关系的最优回归模型。
逐步回归分析是指在多元线性回归分析中,利用求解求逆紧奏变换法和双检验法,来研究和建立最优回归方程的并用于地理分析和地理决策的多元线性回归分析。
它实质上就是多元线性回归分析的基础上派生出一种研究和建立最优多元线性回归方程的算法技巧。
主要含义如下: 1)逐步回归分析的理论基础是多元线性回归分析法;2)逐步回归分析的算法技巧是求解求逆紧奏变换法;3)逐步回归分析的方法技巧是双检验法,即引进和剔除检验法; 4)逐步回归分析的核心任务是建立最优回归方程;5)逐步回归分析的主要作用是降维。
主要用途:主要用于因果关系分析、聚类分析、区域规划、综合评价等等。
2 最优回归模型1)概念最优回归模型是指仅包含对因变量有显著影响的自变量的回归方程。
逐步回归分析就是解决如何建立最优回归方程的问题。
2)最优回归模型的含义 最优回归模型的含义有两点: (1)自变量个数自变量个数要尽可能多,因为通过筛选自变量的办法,选取自变量的个数越多,回归平方和越大,剩余平方和越小,则回归分析效果就越好,这也是提高回归模型分析效果的重要条件。
(2)自变量显著性自变量对因变量y 有显著影响,建立最优回归模型的目的主要是用于预测和分析,自然要求自变量个数尽可能少,且对因变量y 有显著影响。
若自变量个数越多,一方面预测计算量大,另一方面因n 固定,所以Q S k n Q→--1增大,即造成剩余标准差增大,故要求自变量个数要适中。
且引入和剔除自变量时都要进行显著性检验,使之达到最优化状态,所以此回归方程又称为优化模型。
3 最优回归模型的选择方法最优回归模型的选择方法是一种经验性发展方法,主要有以下四种:(1)组合优选法组合优选法是指从变量组合而建立的所有回归方程中选取最优着。
其具体过程是:(1)建立变量组合的所有回归方程(2)优选回归方程首先对每一个方程及自变量均作显著性检验,优选原则:自变量全部显著,剩余标准差较小,既可选得最优回归方程。
2)剔除优选法剔除优选法适指从包含全部自变量的回归方程中逐个剔除不显著自变量而求得最优回归方程的优选方法。
其具体过程是:(1)建立多元回归方程(2)优选回归方程剔除自变量的原则是先求取偏回归平方和最小者并作显著性检验,若不显著则剔除。
终止原则是直至不显著自变量剔除完为至,而仅保留对因变量y有显著影响的自变量。
3)引入优选法引入优选法是指将所有自变量经显著性检验而逐个引入对因变量有显著影响的自变量的优选方法。
其具体过程是:(1)建立一元回归方程(2)优选回归方程引入原则是偏相关系数绝对值最大者,引入后并进行显著性检验,若显著则继续引进自变量,直至再无显著自变量引进为止。
4)逐步回归分析法逐步回归分析法是指运用回归分析原理采用双检验原则,逐步引入和剔除自变量而建立最优回归方程的优选方法。
具体含义是:(1)每步有二个过程 即引进变量和剔除变量,且引进变量和剔除变量均需作F 检验后方可继续进行,故又称为双重检验回归分析法。
(2)引入变量 引入变量的原则是未引进变量中偏回归平方和最大者并经F 显著性检验,若显著则引进,否则终止。
(3)剔除变量 剔除原则是在引进的自变量中偏回归平方和最小者,并经F 检验不显著,则剔除。
(4)终止条件 即最优条件,再无显著自变量引进,也没有不显著自变量可以剔除,这也是最优回归方程的实质。
由此可知,它并没新的理论,只是多元回归分析基础上派生出的一种算法技巧。
现在就来介绍逐步回归分析的具体建模原理和方法步骤。
6.2逐步回归分析的数学模型逐步回归分析的数学模型是指仅包含对因变量Y 有显著影响自变量的多元线性回归方程。
为了利于变换求算和上机计算,将对其变量进行重新编号并对原始数据进行标准化处理。
6.2.1 变量重新编号 1 新编号数学模型令k x y αα=,自变量个数为k-1,则其数学模型为:113322110...--+++++=k k k x x x x x αααααβββββ式中,α=1,2,3,… ,n n :样本个数 其中:∑-=2)(k k x x S α∑-=2)ˆ(k k U x xS α ∑-=-=2)ˆ(k k U Q xx S S S α j x 的偏回归平方和为:jjj Uc b S ='k x :为k x α的算术平均值 j b :j x 的偏回归系数jj c :为逆矩阵1-L 对角线对应元素 2 回归数学模型新编号的回归数学模型为:113322110...ˆ--+++++=k k k x b x b x b x b b x6.2.2 标准化数学模型标准化回归数学模型是指将原始数据进行标准化处理后而建立的回归数学模型,即实质上是每个原始数据减去平均值后再除以离差平方和的方根。
1 标准化回归数学模型 令 jjj j S x x z -=αα j=1,2,3,… ,k其中: ∑==nj j x n x 11αα∑-==2)(j jjj j x x l S α!为离差平方和的方根注意:j j j j j j S S l l ,,,2它们之间的区别,即离差平方和,离差平方和的方根,方差,标准差。
则回归数学模型为:113322110...ˆ--'++'+'+'+'=k k k z z z z zαααααβββββ 2 标准化回归数学模型的正规方程组标准化回归数学模型正规方程组的一般形式为:()()()()()()()()()()()()()()()()()()()()()()()()⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧='++'+'+'+'='++'+'+'+'='++'+'+'+'='++'+'+'+'='++'+'+'+'∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑---------------k k k k k k k k kk k kk k kk k k k k z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z n αααααααααααααααααααααααααααααααααααααααααααααβββββββββββββββββββββββββ112131321211101311332323213103211233222212102111133122112101113322110.............................................................................................................................................................. 因为,0)(=-=∑∑jj j S x x z αα , j i ji j j i ij i r S S x x x x z =--=∑∑))((αα所以上述正规方程组可变为:⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧='++'+'+'+='++'+'+'+='++'+'+'+='++'+'+'+=+++++'-------------k k k k k k k k kk k k k k k k k r r r r r r r r r r r r r r r rr r r r n 11113312211113113333232131211232322212111113132121110...0.................................................................0...0...000...000βββββββββββββββββ这样,数据标准化处理后的估计值0,并令,则可得数据标准化处理后的回归方程数学模型的正规方程组的一般形式为:⎪⎪⎪⎩⎪⎪⎪⎨⎧='++'+'+'='++'+'+'='++'+'+'='++'+'+'-------------k k k k k k k k k k k kk k k k k r r r r r r r r r r r r r r r r r r r r 1111331221111311333323213121123232221211111313212111........................................................................ββββββββββββββββ这样,数据标准化后0β'的估计值应为0,并j j d ='β令,则可得:⎪⎪⎪⎩⎪⎪⎪⎨⎧=++++=++++=++++=++++-------------k k k k k k k k k k k kk k k k k r d r d r d r d r r d r d r d r d r r d r d r d r d r r d r d r d r d r 1111331221111311333323213121123232221211111313212111........................................................................其中:⎪⎪⎪⎪⎪⎭⎫⎝⎛=------112111122221111211.....................k k k k k k r r r r r r r r R 称为相关系数矩阵。
⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=-k k k k r r r B 121解此方程组,即可求出1321,,,,-k d d d d ,故可得标准化后的回归模型为:112211...ˆ--+++=k k k z d z d z d z标准化的回归模型的矩阵形式:⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣⎡------------=------------1112221111113223211311112222211211111221211111111k k k n n n k k k k k k k k k S x x S x x S x x S x x S x x S x x S x x S x x S x x S x x S x x S x x X⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣⎡----=k k nk k k k k k kkk k S x x S x x S x x S x x Y 321⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡='=------Rnr r r r r r r r rn X X A k k k k k k 000000001121111222211112116.2.3 标准化前后回归模型的关系 1标准化前后的回归模型 1)标准化前后回归模型为:113322110...ˆ--+++++=k k k x b x b x b x b b x2)标准化后回归模型为:112211...ˆ--+++=k k k z d z d z d z2 标准化前后的偏回归系数标准化前后偏回归系数的关系可从变化过程反演得知: 令jjj j S x x z -=代入标准化前的回归模型可得:111122221111...ˆ-----++-+-=-k k k k k k k S x x d S x x d S x x d S x x 整理后得:111222111111222111)(ˆ------++++----=k k k k k k k k k k k k k k x d S Sx d S S x d S S x d S Sx d S S x d S S x x113322110...ˆ--+++++=k k k x b x b x b x b b x将上式与标准化前的回归模型作比较,由待定系数法可知标准化前后回归模型的偏回归系数的关系为:∑-=-==110k j jj k j jkj x b x b d S S b j=1,2,3,…k-1于是,只要求出j d ,即可求出j b ,今后仅讨论标准化后的回归模型。