第九章 线性回归与方差分析
- 格式:ppt
- 大小:1.60 MB
- 文档页数:112
第九章 回归分析教学要求 1.一元线性回归及线性相关显着性的检验法,利用线性回归方程进行预测.2.可线性化的非线性回归问题及简单的多元线性回归.本章重点:理解线性模型,回归模型的概念,掌握线性模型中参数估计的最小二乘法估计法.教学手段:讲练结合 课时分配:6课时§ 一元线性回归回归分析是研究变量之间相关关系的一种统计推断法.例如,人的血压y 与年龄x 有关,这里x 是一个普通变量,y 是随机变量.Y 与x 之间的相依关系fx 受随机误差ε的干扰使之不能完全确定,故可设有:ε+=)(x f y 式中fx 称作回归函数,ε为随机误差或随机干扰,它是一个分布与x 无关的随机变量,我们常假定它是均值为0的正态变量.为估计未知的回归函数fx,我们通过n 次独立观测,得x 与y 的n 对实测数据x i ,y i i=1,……,n,对fx 作估计.实际中常遇到的是多个自变量的情形.例如 在考察某化学反应时,发现反应速度y 与催化剂用量x 1,反应温度x 2,所加压力x 3等等多种因素有关.这里x 1,x 2,……都是可控制的普通变量,y 是随机变量,y 与诸x i 间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有:ε+=),,,(21k x x x f y 这里ε是不可观察的随机误差,它是分布与x 1,……,x k 无关的随机变量,一般设其均值为0,这里的多元函数fx 1,……,x k 称为回归函数,为了估计未知的回归函数,同样可作n 次独立观察,基于观测值去估计fx 1,……,x k .以下的讨论中我们总称自变量x 1,x 2,……,x k 为控制变量,y 为响应变量,不难想象,如对回归函数fx 1,……,x k 的形式不作任何假设,问题过于一般,将难以处理,所以本章将主要讨论y 和控制变量x 1,x 2,……,x k 呈现线性相关关系的情形,即假定fx 1,……,x k =b 0+b 1x 1+……+b k x k.并称由它确定的模型 k=1及为线性回归模型,对于线性回归模型,估计回归函数fx 1,……,x k 就转化为估计系数b 0、b i i=1,……,k .当线性回归模型只有一个控制变量时,称为一元线性回归模型,有多个控制变量时称为多元线性回归模型,本着由浅入深的原则,我们重点讨论一元的,在此基础上简单介绍多元的.§9.1.1 一元线性回归一、一元线性回归的数学模型前面我们曾提到,在一元线性回归中,有两个变量,其中x 是可观测、可控制的普通变量,常称它为自变量或控制变量,y 为随机变量,常称其为因变量或响应变量.通过散点图或计算相关系数判定y 与x 之间存在着显着的线性相关关系,即y 与x 之间存在如下关系:y=a+bx+ε 通常认为 ε~N 0,σ2且假设σ2与x 无关.将观测数据x i ,y i i=1,……,n 代入再注意样本为简单随机样本得:),0(,),,1(21σεεεN n i bx a y n i i i 独立同分布 =++=称或又称为数据结构式所确定的模型为一元正态线性回归模型.对其进行统计分析称为一元线性回归分析.不难理解 模型中EY=a+bx,若记y=EY,则y=a+bx,就是所谓的一元线性回归方程,其图象就是回归直线,b 为回归系数,a 称为回归常数,有时也通称a 、b 为回归系数.我们对一元线性回归模型主要讨论如下的三项问题:1 对参数a,b 和σ2进行点估计,估计量b aˆ,ˆ称为样本回归系数或经验回归系数,而x b a yˆˆˆ+=称为经验回归直线方程,其图形相应地称为经验回归直线.2 在模型下检验y 与x 之间是否线性相关.3 利用求得的经验回归直线,通过x 对y 进行预测或控制. 二、a 、b 的最小二乘估计、经验公式现讨论如何根据观测值x i ,y i ,i=1,2,……,n 估计模型中回归函数fx=a+bx 中的回归系数.采用最小二乘法,记平方和∑=--=nt t t bx a y b a 12)(),(Q找使Q 达到最小的a 、b 作为其估计,即),(min )ˆ,ˆ(b a b aQ Q = 为此,令⎪⎪⎪⎩⎪⎪⎪⎨⎧=--==--=∑∑==0)(220][2211n t t t t nt t t x bx a y bx a y a 2b Q 2Q化简得如教材所示的方程组称为模型的正规方程解得⎪⎪⎩⎪⎪⎨⎧===x b y aL L b xxxy ˆˆˆ所示的b aˆ,ˆ分别称为a 、b 的最小二乘估计,式中()∑∑∑===-=-=ni ni ni i ii xx x n x x x L 112122)(1∑∑∑∑==-=--=n i ni ni ni i i i i xy y x n y x y y x x L 1111))((1))((称x b a yˆˆˆ+=为经验回归直线方程,或经验公式. 例1 某种合成纤维的强度与其拉伸倍数有关.下表是24个纤维样品的强度与相应的拉伸倍数的实测记录.试求这两个变量间的经验公式.将观察值x i ,y i ,i=1,……,24在平面直角坐标系下用点标出,所得的图称为散点图.从本例的散点图看出,强度y 与拉伸倍数x 之间大致呈现线性相关关系,一元线性回归模型是适用y 与x 的.现用公式求b aˆ,ˆ,这里n=24 946.1171.11324193.650756.1301.1135.1272416.731266.1525.12724161.8296.731,93.650,61.8291.113,5.1272222=⨯-==⨯⨯-==⨯-======∑∑∑∑∑yy xy xx iiiii i L L L yx y xy x∴15.0ˆˆ859.0ˆ=-===x b y aL L b xx xy 由此得强度y 与拉伸倍数x 之间的经验公式为 x y859.015.0ˆ+= 三、最小二乘估计b aˆ,ˆ的基本性质 定理 一元线性回归模型中,a 、b 的最小二乘估计b a ˆ,ˆ满足: 1 b bE a a E ==ˆ,ˆ2 2221)ˆ(,)1()ˆ(σσxxxxL bD L x n a D =+= 3 2)ˆ,ˆcov(σxxL x b a-= 证:1 注意到对任意i=1,2,……,n 有a xb x b a b E x y E aE bLxxx x b y y x x E Lxx b E x x b y E Ey y y E Dy x b a y E bx a Ey ni i ni i i i i i i i i =-+=-==-=--=-=-=-=+=+=∑∑==ˆˆ)())((1ˆ)()(,,,12122于是σ2利用∑==-ni i x x 10)(,将b 、aˆˆ表示为: ∑∑==-=--=ni i i n i i i y x x Lxx y y x x Lxx b 11)(1))((1ˆ∑∑==--=-=ni i i n i i y Lxx x x x n b x y n a 11])(1[ˆ1ˆ 由于y 1,y 2,……,y n 相互独立,有2221222212221222)1(])(1[])(1[)ˆ()(1)ˆ(σσσσσxxn i xx i ni i ni i xxL xn L x x x n Lxx x x x n a D Lxxx x L b D +=-+=--==-=∑∑∑=== 221221222)(])(1[)()ˆ,ˆcov(σσσxx ni xx i n i xx i xx i L x L x x x L x x x n L x x b a -=--=---=∑∑== 定理表明,a 、b 的最小二乘估计b 、aˆˆ是无偏的,从,还知道它们又是线性的,因此所示的最小二乘估计b 、aˆˆ分别是a 、b 的线性无偏估计.§9.1.2 建立回归方程后进一步的统计分析一、σ2的无偏估计由于σ2是误差εi i=1,……,n 的方差,如果εi 能观测,自然想到用∑ii n 21ε来估计σ,然而εi 是观测不到的,能观测的是y i..由i i i y x b a y E ˆˆˆˆ=+= 即Ey i 的估计,就应用残差i i yy ˆ-来估计i ε,因此,想到用∑∑===--=-n i ii n i i i b a Q nx b a y n y y n 1212)ˆ,ˆ(1)ˆˆ(1)ˆ(1 来估计σ2,我们希望得到无偏估计,为此需求残差平方和)ˆ,ˆ(b aQ 的数学期望,由定理可推出 2)2()]ˆ,ˆ([σ-=n b aQ E 学员自验 于是得∑=--=-=n i ii y y n n b a Q 122)ˆ(212)ˆ,ˆ(ˆσ为σ2的无偏估计,例如§例1中2545.0ˆ=σ即有 定理 令2)ˆ,ˆ(ˆ2-=n b a Q σ,则22ˆσσ=E . 我们称2)ˆ,ˆ(ˆ-=n b aQ σ为标准误差,它反映回归直线拟合的程度.具体计算时可用)1()1(ˆ)ˆ,ˆ(222r L L L L L L b L b a Q yy yyxx xy yyxx yy -=-=-=. 二、预测与控制 1、预测问题对于一元线性回归模型⎪⎩⎪⎨⎧++=),0(~2σεεN bx a y我们根据观测数据x i ,y i ,i=1,…,n,得到经验回归方程x b a yˆˆˆ+=,当控制变量x 取值x 0x 0≠x i ,i=1,…,n,如何估计或预测相应的y 0呢这就是所谓的预测问题,自然我们想到用经验公式,取00ˆˆˆx b a y +=来估计实际的000ε++=bx a y ,并称0ˆy为0y 点估计或点预测.在实际应用中,若响应变量y 比较难观测,而控制变量x 却比较容易观察或测量,那么根据观测资料得到经验公式后,只要观测x 就能求得y 的估计和预测值,这是回归分析最重要的应用之一,例如在§例1中,拉伸倍数x 0=,则可预测强度59.65.7859.015.0ˆ0=⨯+=y但是,上面这样的估计用来预测y 究竟好不好呢它的精度如何我们希望知道误差,于是就有考虑给出一个类似于置信区间的预测区间的想法.定理 对于一元正态线性模型⎩⎨⎧=++=),(独立同分布2210,,),,1(σεεεN n i bx a y ii i 有 1 )ˆ,ˆ(b a服从二元正态分布. 2 )2(~ˆ)2()ˆ,ˆ(2222--=n x n b a Q σσσ3 2ˆˆσb y 是相互独立的随机变量. 证明:略又,我们知道y 0是,且与y 1,y 2,……,y n 相互独立,由定理及定理知,.),.(~ˆˆˆ00N x b a y += 且,ˆˆˆ0bx a b E x a E yE +=+= 2200200])(1[)ˆ,ˆcov(2)ˆ()ˆ(ˆσxxL x x n b a x b D x a D y D -+=++=由于y 0与0ˆy相互独立0ˆy 只与y 1,……,y n 有关,且y 0~Na+bx 0,σ2 ∴)])(11[,0(~ˆ22000σxxL x x n N yy -++-由定理知,00ˆyy -与22ˆ)2(σσ-n 独立,故 T=)2(~])(11[ˆˆ(202)00--++-n t L x x n yy xxσ 对于给定的置信水平1-α,查自由度为n-2的T 分布表可得满足αα-=<1)(t T P 的临界值αt ta根据不等式的恒等变形可得0y 的置信度为1-α的置信区间为:)])(11[ˆˆ],)(11[ˆˆ(20202020xxxxL x x n t yL x x n t y-+++-++-σσαα这就是0y 的置信度为1-α的预测区间,它是以0ˆy为中心,长度为)(2x t δα的区间,记])(11[ˆ)(202xxL x x n x -++=σδ,区间的中点00ˆˆˆx b a y +=随x 0而线性变化,它的长度在x x =0处最短,x 0越远离x ,预测区间的长度就越长.预则区间的上限与下限落在关于经验回归直线对称的两条曲线上,并是喇叭形.当n 较大,L xx 充分大时, 1)(1120≈-++xx L x x n可得y 0的近似预测区间:)ˆˆ,ˆˆ(00σσααt y t y+- 上式说明预测区间的长度,即预测的精度主要由σˆ确定,因此在预测中,σˆ是一个基本而重要的量.2、控制问题在实际应用中往往还需要考虑预测的反问题,即要以不小于1-α的概率将y 0控制在y 1,y 2内,也就是使α-≥<<1)(201y y y P相应的x 0应控制在什么范围内.这类问题称为控制问题.根据前一段的讨论,若x 0满足 ),())(ˆ))(ˆ(2100y y x t yx t y ⊂+-δδαα, 则可有α-≥<<1)(201y y y P因此控制问题一般是找满足的x 0的范围.但求解很麻烦.一种近似的处理法是:由),(~200σbx a N y +将a,b,σ2分别用其无偏估计2ˆ,ˆ,ˆσb a代, 有),ˆ,ˆ()ˆ,ˆˆ(~20200σσy N x b aN y =+近似从而)1.0(~ˆˆ00N y y 近似σ- 根据ασα-=-1)ˆˆ(00u yy P 查N 分布表确定αu ,于是y 0的置信度1-α的预测区间可近似认为是)ˆˆ,ˆˆ(00σσa a u y u y+-要解决前述问题可以从满足: )ˆˆ,ˆˆ(00σσααu yu y +-),(21y y ⊂的x 0去寻找x 0的控制范围.显然,当12ˆ2y y u ->σα时,问题无解,否则方程组 ⎪⎩⎪⎨⎧++=-+=σσααˆ''ˆˆˆ'ˆˆ21u x b ay u x b a y 有解x x ''', 由此得x 0的控制范围是min x x ''',,max x x ''',三、线性相关的检验前面的讨论都是在假定y 与x 呈现线性相关关系的前提下进行的,若这个假定不成立,则我们建立的经验回归直线方程也失去意义,为此必须对y 与x 之间的线性相关关系作检验,为解决这个问题,先作手:1、偏差平方和分解记∑=-=ni i y y L 12)(,称它为总偏差平方和,它反映数据y i 的总波动,易得L有如下分解式:∑∑∑==∆=+=-+-=-+-=n i n i ni i i i i i i U Qe y y y y y y y y L 111222)ˆ()ˆ()ˆ(其中)ˆ,ˆ(b a Q Q e =就是前面提到的残差平方和,∑=-=N I i y y U 12)ˆ(称为回归平方和,上式右边的交叉项:∑=--ni i i i y y y y 1)ˆ)(ˆ(2∑=-++-=ni ii i y x b a x b a y 1]ˆˆ)][ˆˆ([2 ∑=----=ni ii i x x b x x b y y 1)](ˆ)][(ˆ)[(2 ])(ˆ))(([ˆ2112∑∑==----=n i ni i ii x x b x x y y b 0)ˆ(ˆ2=-=xxxy L b L b 由上可知,U 越大,Qe 就越小,x 与y 间线性关系就越显着;反之,x 与y 之间的线性关系越不显着.于是,自然地考虑到检验回归方程是否有显着意义是考察U/Q 的大小,其比值大,则L 中U 占的比重大,回归方程有显着意义,反之,无显着意义.2、线性相关的F 检验根据上段的思想来构造检验统计量,先看下面的定理.定理 当H 0:b=0 成立时 U/σ2~2χ1,且Q 与U 相互独立.证:当H 0成立时,由及知,),0(~ˆ2xxL N b σ∴)1.0(~ˆN L b xxσ于是)1(~ˆ2222χσσxxL b U=由定理,我们还知)2(~ˆ)2(2222-=-n Q n e χσσσ,且Q 与b ˆ相互独立,从而Q 与U=xxL b 2ˆ独立,由上面的定理及F 分布的构造性定理知: )21(~ˆˆ2/022-=-=,n F L b n Q u F H xx真σ因此可选它作检验H 0:b=0 的检验统计量,当H 0为真时F 的值不应太大,故对选定的水平α>0,由P α-≥1F F =α查F1,n-2分布表确定临界值F 1-α分位数,当观测数据代入式算出的F 值合F ≥F 1-α时,不能接受H 0,认为建立的回归方程有显着意义.检验H 0:经验公式无显着意义α=选用)221(~)2(0,F QU n F H 真-=由{}αα=>F F P 查表得F α= 现计算F 值 由L =L yy =35.112266.152859.0ˆ22=⨯== xxL b U Q=L-U =得375.4416.535.11222=⨯=F因F >F α,所以拒绝H 0,认为所得的经验回归方程有显着意义. 四、相关与回归的区别与联系 1、联系由前面的讨论,有:222ˆr LyyLxx Lxx Lxy Lyy Lxx b L U =⎪⎭⎫ ⎝⎛== 得回归平方和U=r 2L残差平方和 )1()ˆ,ˆ(2r L b aQ Q -== 可见r 2反映了回归平方和在总偏差平方和中占的比重,该比重越大,误差平方和在总偏差平方和中占的份量就越小.通常称r 2为拟合优度系数.r 就是变量x 与y 的积差相关系数,另方面由2222)1)2(()1()2()2(rn r L r Lr n Q U n F --=--=-=看出,在检验y 与x 是否显着线性相关时,F 检验法与相关系数T 检验法等效.2、区别相关关系不表明因果关系,是双向对称的,在相关分析中,对所讨论的两个变量或多个变量是平等对待的,相关系数r 反映数据x i ,y i 所描述的散点对直线的靠拢程度.回归分析中,变量在研究中地位不同,要求因变量响应变量y 是随机变量,自变量一般是可控制的普通变量当然也可以是随机的.在回归方程中,回归系数只反映回归直线的陡度,且它不是双向对称的.§9.1.3 一元非线性回归前面讨论的线性回归问题,是在回归模型为线性这一基本假定下给出的,然而在实用中还经常碰到非线性回归的情形,这里我们只讨论可以化为线性回归的非线性回归问题,仅通过对某些常见的可化为线性回归问题的讨论来阐明解决这类问题的基本思想和方法.一、曲线改直例1 炼纲过程中用来盛钢水的钢包,由于受钢水的浸蚀作用,容积会不断扩大.下表给出了使用次数和容积增大量的15对试验数据:解:首先要知道Y 关于x 的回归函数是什么类型,我们先作散点图.见教材从图上看,开始浸蚀速度较快,然后逐渐减缓,变化趋势呈双曲线状. 因此可选取双曲线:设y 与x 之间具有如下双曲线关系xb a y 11+= 作为回归函数的类型,即假设y 与x 满足:ε++=xb a y 11 令yx 1,1==ηξ,则变成2,0,σξεεξη==++=D E b a . 这是一种非线性回归,先由x 、y 的数据取倒数,可得η,ξ的数据,,……,,对得到的15对新数据,用最小二乘法可得:线性回归方程 0823.01312.0ˆ+=ξη后,代回原变量得xx x y 0823.01312.00823.011312.01+=+= ∴1312.00823.0ˆ+=x xy 为y 关于x 的经验公式回归方程 在例1中,假设了y 与x 之间满足双曲线回归模型,显然这是一种主观判断,因此所求得的回归曲线不一定是最佳的拟合曲线.在实用中,往往是选用不同的几种曲线进行拟合,然后分别计算相应的残差平方和σˆ)ˆ(2或∑-=ii i e yy Q 标准误差进行比较Q e 或σˆ最小者为最优拟合. 二、常见可改直的曲线下面简介一些可通过变量替换化为线性回归的曲线回归模型. 1、双曲线x b a y +=1 作变换xx y y 1',1'== 则回归函数化为:y’=a+bx’2、幂函数y=ax b 或y=ax -b b >0 对幂函数两边取对数nx b na ny +=,作变换na a nx x ny y ===',',' 则有 x b a y ''±='3、指数函数y=ae bx 或y=ae -bx b >0两边取对数bx na y n ±= 令 bx y n ny y ±'='='='ααα有 ,4、倒指数函数xb ae y -=或xb ae y = b >0,a >0 两边取对数后作变换n y ='y, na a xx ='=',1,则有 x b a y ''±'='5、对数函数,y=a+b n x作变换n x ='x,则有y=a+b x '.另外还有一些可化为线性回归的曲线回归,将在用“spss ”作实习操作时一并介绍.例1续由例1的散点图看出,除双曲线拟合外,本例还可选择倒指数拟合:y=ae b/x两边取对数得:na xb ny +⋅=1 令xny 1',=='ξη ,变为如下的回归问题: εξη++=''B A利用最小二乘法求得:Bˆ=,A ˆ= 因此回归直线为: 4578.2'1107.1+-='ξη代回原变量得:x e y/1107.16489.11ˆ-= 经计算双曲线拟合时 Q= σˆ=,倒指数拟合时σˆ=,故倒指数拟合效果更好些.§ 多元线性回归实际应用中,很多情况要用到多元回归的方法才能更好地描述变量间的关系,因此有必要在本节对多元线性回归做一简单介绍,就方法的实质来说,处理多元的方法与处理一元的方法基本相同,只是多元线性回归的方法复杂些,计算量也大得多,一般都用计算机进行处理.一、数学模型和回归方程的求法. 1、多元线性回归的模型.设因变量y 与自变量x 1,x 2,……,x k 之间有关系式: ),0(~...2110σεεN x b x b b y k k ++++=抽样得n 组观测数据:y 1;x 11,x 21,……,x k1y 2;x 12,x 22,……x k2 …………………… y n ;x 1n ,x 2n ,……x kn其中x ij 是自变量x i 的第j 个观测值,y j 是因变量y 的第j 个值,代入得模型的数据结构式:⎪⎪⎪⎩⎪⎪⎪⎨⎧+++++=+++++=+++++=),N (x b x b x b b y x b x b x b b y x b x b x b b y n nkn k n n n k k k k 22122110222211210211212111010...,.....................σεεεεεε独立同分布 我们称或为k 元正态线性回归模型,其中b 0,b 1,……,b k 及σ2都是未知待估的参数,对k 元线性模型,需讨论的问题与一元时相同.需要说明的几点见教材 2、未知参数的估计与一元时一样,采用最小二乘法估计回归系数 b 0,b 1,……,b k . 称使21221101,0])...([ˆ),...,(∑=++++-=nt kt k t t t k x b x b x b b y b b b Q 达到最小的k b b b ˆ,...,ˆ,ˆ10为参数b 0,b 1,……,b k 的最小二乘估计,利用微积分知识,最小二乘估计就是如下方程组的解:⎪⎪⎪⎩⎪⎪⎪⎨⎧+++-==+++=+++=+++kk kyk kk k k y k k y k k x b x b x b y b Lb l b l b l L b l b l b l L b l b l b l ............ (221)022112222212111212111 其中 ),...,2,1(1,111k i x n x y n y nt it i n t t ===∑∑==),...,2,1,()()(11k j i L x x x x n L ji j jt nt i it ij ==--=∑=),...,2,1()(,)(11k i y y x x n L t nt i it iy =--=∑=通常称方程组为正规方程组,其中前k 个方程的系数矩阵记为,)(*k k ij l L ⨯=当L 可逆时,正规方程组有解,便可得b 0,b 1,……b k 的最小二乘估计 kb b bˆ,,ˆ,ˆ1即k k y k y k x b x b y b L L L b b ---=⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎭⎫ ⎝⎛-...ˆˆ,*)(ˆˆ110111 代入模型,略去随机项得经验回归方程为:kk x b x b b y ˆ...ˆˆˆ110+++= 类似一元可以证明 i b ˆ都是相应的b i i=0,1,……,k 的无偏估计,且σ2’的无偏估计为:1)ˆ,...,ˆ,ˆ(ˆ102--=k n b b b Q kσ·二、回归方程的显着性检验与一元的情形一样,上面的讨论是在y 与x 1,……,x k 之间呈现线性相关的前提下进行的,所求的经验方程是否有显着意义,还需对y 与诸x i 间是否存在线性相关关系作显着性假设检验,与一元类似,对kk x b x b b y ˆ...ˆˆˆ110+++=是否有显着意义,可通过检验H 0:b 1=b 2=…=b k =0为了找检验H 0的检验统计量,也需将总偏差平方和L yy 作分解:UQ y y y y y y yy y y L e tt tt t nt t t t t nt t +=-+-=-+-=-=∑∑∑∑== 222121)ˆ()ˆ()ˆˆ()(即L =U+Q e 其中L =L yy ,22)ˆ(,)ˆ(∑∑-=-=tt t e tt yy Q y y U 这里ktk t t x b x b b y ˆ...ˆˆˆ110+++=. 分别称Q e,U 为残差平方和、回归平方和,可以证明:∑=∆=+++=kj jy j ky k y y l b l b l b l b U 12211ˆˆ...ˆˆ利用柯赫伦定理可以证明:在H 0成立下,)1(~)(~2222--k n ,k UeχσχσQ 且U与Q e 相互独立,所以有)1,(~)1/(/0----=k n k F k n kU F H 真Q这里记 Q e 为Q,下同取F 作H 0的检验计量,对给定的水平α,查Fk, n-k-1分布表可得满足αα=≥)(F F p 的临介值αF ,由样本观测值代入算出统计量F 的观测值,若F≥αF ,则不能接受H 0,认为所建的回归方程有显着意义.通过F 检验得到回归方程有显着意义,只能说明y 与x 1,x 2,……,x k 之间存在显着的线性相关关系,衡量经验回归方程与观测值之间拟合好坏的常用统计量有复相关系数R 及拟合优度系数R 2.仿一元线性回归的情况,定义:LQL U R -==12 LQR -=1||可以证明R 就是观测值y 1,……,y n 与回归值的n y y yˆ,...,ˆ,ˆ21的相关系数. 实用中,为消除自由度的影响,又定义:)1/()1/(12---==n L k n Q R为修正的似合优度系数.三、偏回归平方和与因素主次的判别本段内容是多元回归与一元回归有本质差异的部分.前一节所作的检验H 0:b 1=b 2=……=b k =0被拒绝,并不能说明所有的自变量都对因变量y 有显着影响,我们希望从回归方程中剔除那些可有可无的自变量,重新建立更为简单的线性回归方程,这就需要对每个自变量x j 做显着性检验.于是考虑H 0j :b j =0的检验方法.从原有的k 个自变量中剔除x j ,余下的k-1个自变量对y 的线性影响也可由相应的偏差平方和分解式中的回归平方和U j 反映出来,即)()()(j j j Q U L +=记 )()(j j U U U +=∆则△U j 反映了变量x j 在回归方程中对y 的线性影响,常称它为x j 的偏回归平方和,可以证明 jjj c b U j 2)(ˆ=∆其中C jj 是矩阵 L =L ij p ×p 的逆矩阵对角线上的第j 个元素,对于H 0j :b j =0选用统计量 )1,1(~1/ˆˆ022)(----=∆=k n F k n Q C b U F j H e jjj j j 真σ对给定的水平α,由αα=≥)(F F P j ,查F1,n-k-1分布表确定临介值αF ,将观测值代入算出的F j 值与αF 比较,若F j ≥αF 则拒绝H 0,认为x j 对y 的线性影响显着,否则不显着,应剔除.但在实用中,多元回归中剔除变量的问题比上例我们做的讨论要复杂得多,因为有些变量单个讨论时,对因变量的作用很小,但它与某些自变量联合起来,共同对因变量的作用却很大,因此在剔除变量时,还应考虑变量交互作用对y 的影响,对这一问题的深入讨论太花时间,有兴趣的同志可参见有关“多元统计分析”教材.此外,关于多元性回归的预测和控制问题,类似一元不再赘述.。
1线性回归要研究最大积雪深度X与灌溉面积y之间的关系,测试得到近10年的数据如下表:使用线性回归的方法可以估计x与y之间的线性关系。
线性回归方程式:对应的估计方程式为线性回归完成的任务是,依据观测数据集仗l,yl),仗2,y2),...,仗n,yn)使用线性拟合估计回归方程中的参数a和b。
a,b都为估计结果,原方程中的真实值一般用a 和P表示。
为什么要做这种拟合呢?答案是:为了预测。
比如根据前期的股票数据拟合得到股票的变化趋势C、勺然股票的变化可就不是这么简单的线性关系了)。
线性回归的拟合过程使用最小二乘法,最小二乘法的原理是:选择a,b的值,使得残差的平方和最小。
为什么是平方和最小,不是绝对值的和?答案是,绝对值也可以,但是,绝对值进行代数运算没有平方那样的方便,4次方乂显得太复杂,数学中这种“转化化归”的思路表现得是那么的优美!残差平方和Q ,求最小,方法有很多。
代数方法是求导,还有一些运筹学优化的方法(梯度下降、牛顿法),这里只需要使用求导就0K 了,为表示方便,引入一些符号,最终估计参数a与b的结果是:自此,针对前•面的例子,只要将观测数据带入上面表达式即可汁算得到拟合之后的d和b。
不妨试一试?从线性函数的角度,b表示的拟合直线的斜率,不考虑数学的严谨性,从应用的角度,结果的b可以看成是离散点的斜率,表示变化趋势,b的绝对值越大,表示数据的变化越快。
线性回归的估计方法存在误差,误差的大小通过Q衡量。
1 -2误差分析考虑获取观测数据的实验中存在其它的影响因素,将这些因素全部考虑到e~N(0QA2)中,回归方程重写为y = a + bx + e由此汁算估计量a与b的方差结果为,a与b的方差不仅与6和x的波动大小有关,而且还与观察数据的个数有关。
在设计观测实验时,x的取值越分散,佔汁ab的误差就越小,数据量越大,佔计量b的效果越好。
这也许能为设计实验搜集数据提供某些指导。
1.3拟合优度检验及统计量拟合优度检验模型对样本观测值的拟合程度,其方法是构造一个可以表征拟合程度的指标,称为统汁量,统讣量是样本的函数。