当前位置:文档之家› 方差分析及回归分析

方差分析及回归分析

方差分析及回归分析
方差分析及回归分析

第九章 回归分析

教学要求 1.一元线性回归及线性相关显著性的检验法,利用线性回归方程进行预测。 2.可线性化的非线性回归问题及简单的多元线性回归。 ? 本章重点:理解线性模型,回归模型的概念,掌握线性模型中参数估计的最小二乘法估计法。

? 教学手段:讲练结合 ? 课时分配:6课时

§9.1 一元线性回归

回归分析是研究变量之间相关关系的一种统计推断法。

例如,人的血压y 与年龄x 有关,这里x 是一个普通变量,y 是随机变量。Y 与x 之间的相依关系f(x)受随机误差ε的干扰使之不能完全确定,故可设有:

ε+=)(x f y (9.1) 式中f(x)称作回归函数,ε为随机误差或随机干扰,它是一个分布与x 无关的随机变量,我们常假定它是均值为0的正态变量。为估计未知的回归函数f(x),我们通过n 次独立观测,得x 与y 的n 对实测数据(x i ,y i )i=1,……,n ,对f(x)作估计。

实际中常遇到的是多个自变量的情形。

例如 在考察某化学反应时,发现反应速度y 与催化剂用量x 1,反应温度x 2,所加压力x 3等等多种因素有关。这里x 1,x 2,……都是可控制的普通变量,y 是随机变量,y 与诸x i 间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有:

ε+=),,,(21k x x x f y (9.2) 这里ε是不可观察的随机误差,它是分布与x 1,……,x k 无关的随机变量,一般设其均值为0,这里的多元函数f(x 1,……,x k )称为回归函数,为了估计未知的回归函数,同样可作n 次独立观察,基于观测值去估计f(x 1,……,x k )。

以下的讨论中我们总称自变量x 1,x 2,……,x k 为控制变量,y 为响应变量,不难想象,如对回归函数f(x 1,……,x k )的形式不作任何假设,问题过于一般,将难以处理,所以本章将主要讨论y 和控制变量x 1,x 2,……,x k 呈现线性相关关系的情形,即假定

f(x 1,……,x k )=b 0+b 1x 1+……+b k x k 。

并称由它确定的模型 (9.1) (k=1)及(9.2)为线性回归模型,对于线性回归模型,估计回归函数f(x 1,……,x k )就转化为估计系数b 0、b i (i=1,……,k) 。

当线性回归模型只有一个控制变量时,称为一元线性回归模型,有多个控制变量时称为多元线性回归模型,本着由浅入深的原则,我们重点讨论一元的,在此基础上简单介绍多元的。

§9.1.1 一元线性回归

一、一元线性回归的数学模型

前面我们曾提到,在一元线性回归中,有两个变量,其中x 是可观测、可控制的普通变量,常称它为自变量或控制变量,y 为随机变量,常称其为因变量或响应变量。通过散点图或计算相关系数判定y 与x 之间存在着显著的线性相关关系,即y 与x 之间存在如下关系:

y=a+bx+ε (9.3) 通常认为 ε~N (0,σ2)且假设σ2与x 无关。将观测数据(x i ,y i )(i=1,……,n)代入(9.3)再注意样本为简单随机样本得:

)

,0(,)

,,1(21σεεεN n i bx a y n i i i 独立同分布 =++= (9.4)

称(9.3)或(9.4)(又称为数据结构式)所确定的模型为一元(正态)线性回归模型。对其进行统计分析称为一元线性回归分析。

不难理解 模型(9.4)中EY=a+bx ,若记y=E(Y),则y=a+bx,就是所谓的一元线性回归方程,其图象就是回归直线,b 为回归系数,a 称为回归常数,有时也通称a 、b 为回归系数。

我们对一元线性回归模型主要讨论如下的三项问题:

(1) 对参数a ,b 和σ2进行点估计,估计量b a

?,?称为样本回归系数或经验回归系数,而x b a y

???+=称为经验回归直线方程,其图形相应地称为经验回归直线。 (2) 在模型(9.3)下检验y 与x 之间是否线性相关。

(3) 利用求得的经验回归直线,通过x 对y 进行预测或控制。 二、a 、b 的最小二乘估计、经验公式

现讨论如何根据观测值(x i ,y i ),i=1,2,……,n 估计模型(9.2)中回归函数f(x)=a+bx 中的回归系数。

采用最小二乘法,记平方和

∑=--=n

t t t bx a y b a 12)(),(Q (9.5)

找使Q(a.b)达到最小的a 、b 作为其估计,即

),(min )?,?(b a b a

Q Q = 为此,令????

?????=--==--=∑∑==0)(220

][2211

n t t t t n t t t x bx a y bx a y a 2b Q 2Q

化简得如教材所示的方程组(称为模型的正规方程) 解得???????===x b y a

L L b xx

xy ??? (9.6)

(9.6)所示的b a

?,?分别称为a 、b 的最小二乘估计,式中 ()

∑∑∑===-=-=n i n

i n i i i i xx x n x x x L 11

212

2)(1

a.b

∑∑∑∑==-=--=n i n

i n

i n

i i i i i xy y x n y x y y x x L 111

1))((1))((

称x b a y

???+=为经验回归(直线方程),或经验公式。 例1 某种合成纤维的强度与其拉伸倍数有关。下表是24个纤维样品的强度与相应的拉伸倍数的实测记录。试求这两个变量间的经验公式。

将观察值(x i ,y i ),i=1,……,24在平面直角坐标系下用点标出,所得的图称为散点图。从本例的散点图看出,强度y 与拉伸倍数x 之间大致呈现线性相关关系,

一元线性回归模型是适用y 与x 的。现用公式(9.6)求b a

?,?,这里n=24 946

.1171.11324

1

93.650756

.1301.1135.127241

6.731266.1525.127241

61.8296

.731,

93.650,

61.8291.113,5.1272222=?-==??-==?-

======∑∑∑∑∑yy xy xx i

i

i

i

i i L L L y

x y x

y x

∴15.0??859.0?=-===x b y a

L L b xx

xy 由此得强度y 与拉伸倍数x 之间的经验公式为 x y

859.015.0?+= 三、最小二乘估计b a ?,?的基本性质 定理9.1 一元线性回归模型(9.4)中,a 、b 的最小二乘估计b a

?,?满足:

(1) b b

E a a

E ==?,? (2) 222

1)?(,)1()?(σσxx

xx L b

D L x n a

D =+= (3) 2)?,?cov(σxx

L x b a

-= 证:(1) 注意到对任意i=1,2,……,n 有

a x

b x b a b E x y E a

E b

Lxx

x x b y y x x E Lxx b E x x b y E Ey y y E Dy x b a y E bx a Ey n

i i n

i i i i i i i i i =-+=-==-=--=-=-=-=+=+=∑∑==??)())((1?)()(,,

,12

1

2

2于是σ

(2)利用∑==-n

i i x x 1

0)(,将b 、a

??表示为: ∑∑==-=--=n

i i i n

i i i y x x Lxx y y x x Lxx b 1

1)(1))((1? (9.7)

∑∑==--=-=n

i i i n i i y L x x x x x n b x y n a 1

1])(1[?1? (9.8) 由于y 1,y 2,……,y n 相互独立,有

2

22122

2212

221222)1(])(1[])(1[)?()(1)?(σσσ

σσxx

n i xx i n

i i n

i i xx L x

n L x x x n Lxx x x x n a D Lxx x x L b D +=-+=--==-=∑∑∑=== 2

21

221

222)(])(1[)()?,?cov(σσσxx n

i xx i n

i xx i xx i L x L x x x L x x x n L x x b a -=--=---=∑∑== 定理9.1表明,a 、b 的最小二乘估计b 、a

??是无偏的,从(9.7),(9.8)还知道它们又是线性的,因此(9.5)所示的最小二乘估计b 、a ??分别是a 、b 的线性无偏估计。

§9.1.2 建立回归方程后进一步的统计分析

一、σ2的无偏估计

由于σ2是误差εi (i=1,……,n)的方差,如果εi 能观测,自然想到用

∑i

i n 2

1ε来估计σ,然而εi 是观测不到的,能观测的是y i.。由i i i y x b a y E

????=+= (即Ey i 的估计),就应用残差i i y

y ?-来估计i ε,因此,想到用∑∑===--=-n i i

i n i i i b a Q n

x b a y n y y n 1212)?,?(1)??(1)?(1 来估计σ2,我们希望得到无偏估计,为此需求残差平方和)?,?(b a

Q 的数学期望,由定理9.2可推出 2)2()]?,?([σ-=n b a

Q E (学员自验) 于是得∑=--=-=n i i i y y n n b a Q 1

22

)?(212)?,?(?σ为σ2的无偏估计,例如§9.1例1中2545.0?=σ

即有 定理9.2 令2)?,?(?2

-=n b a Q σ,则22?σσ

=E 。 我们称2

)?,?(?-=n b a

Q σ为标准误差,它反映回归直线拟合的程度。

具体计算时可用)1()1(?)?,?(222r L L L L L L b L b a Q yy yy

xx xy yy

xx yy -=-=-=。 二、预测与控制 1、预测问题

对于一元线性回归模型?????++=)

,0(~2

σεε

N bx a y (9.9)

我们根据观测数据(x i ,y i ),i=1,…,n ,得到经验回归方程x b a y

???+=,当控制变量x 取值x 0(x 0≠x i ,i=1,…,n ),如何估计或预测相应的y 0呢?这就是所谓的预测问题,自然

我们想到用经验公式,取0

???x b a y +=来估计实际的0

ε++=bx a y ,并称0

?y

为0

y 点估计或点预测。在实际应用中,若响应变量y 比较难观测,而控制变量x 却比

较容易观察或测量,那么根据观测资料得到经验公式后,只要观测x 就能求得y 的估计和预测值,这是回归分析最重要的应用之一,例如在§9.1例1中,拉伸

倍数x 0=7.5,则可预测强度59.65.7859.015.0?0=?+=y

但是,上面这样的估计用来预测y 究竟好不好呢?它的精度如何?我们希望

知道误差,于是就有考虑给出一个类似于置信区间的预测区间的想法。

定理9.3 对于一元(正态)线性模型

???=++=),(独立同分布221

0,,),,1(σεεεN n i bx a y i

i i (9.10)有 (1) )?,?(b a 服从二元正态分布。 (2) )2(~?)2()?,?(2

2

22

--=n x n b a Q σσσ

(3) 2??σb

y

是相互独立的随机变量。

证明:略

又,我们知道y 0是r.v,且与y 1,y 2,……,y n 相互独立,由定理9.3及定理9.2知,

.),.(~???0

0N x b a y += 且,???0

bx a b E x a E y

E +=+= 2

200

200])(1[)?,?cov(2)?()?(?σxx

L x x n b a x b D x a D y D -+=++= 由于y 0与0?y

相互独立(0?y 只与y 1,……,y n 有关),且y 0~N(a+bx 0,σ2) ∴)])(11[,0(~?2

2000σxx

L x x n N y

y -++-

由定理9.3知,00?y

y -与22?)2(σσ

-n 独立,故 T=)2(~])(11[??(2

02

)00--++-n t L x x n y

y xx

σ (9.11)

对于给定的置信水平1-α,查自由度为n-2的T 分布表可得满足

αα-=<1)(t T P 的临界值αt ta

根据不等式的恒等变形可得0y 的置信度为1-α的置信区间为:

)])(11[??],

)(11[??(2

02

02

02

0xx

xx

L x x n t y

L x x n t y

-+++-++-σσαα

这就是0y 的置信度为1-α的预测区间,它是以0?y 为中心,长度为)(2x t δα的区间,

(记])(11[?)(2

02

xx

L x x n x -++=σδ),区间的中点0

0???x b a y +=随x 0而线性变化,它的长度在x x =0处最短,x 0越远离x ,预测区间的长度就越长。预则区间的上限与下限落在关于经验回归直线对称的两条曲线上,并是喇叭形。

当n 较大,L xx 充分大时, 1)(112

0≈-++xx L x x n

可得y 0的近似预测区间:)??,??(00σσααt y

t y +- (9.12) 上式说明预测区间的长度,即预测的精度主要由σ

?确定,因此在预测中,σ?是一个基本而重要的量。

2、控制问题

在实际应用中往往还需要考虑预测的反问题,即要以不小于1-α的概率将y 0控制在(y 1,y 2)内,也就是使

α-≥<<1)(201y y y P 相应的x 0应控制在什么范围内。这类问题称为控制问题。根据前一段的讨论,若x 0满足

),())(?))(?(2100y y x t y x t y

?+-δδαα, (9.13) 则可有α-≥<<1)(201y y y P

因此控制问题一般是找满足(9.13)的x 0的范围。但求解很麻烦。一种近似的处理法是:

由),(~200σbx a N y +

将a ,b ,σ2分别用其无偏估计2?,?,?σb a

代, 有),?,?()?,??(~20200σσy N x b a

N y =+近似

从而)1.0(~??00N y y 近似σ

- 根据ασ

α-=-1)??(00u y

y P 查N(0.1)分布表确定αu ,

于是y 0的置信度1-α的预测区间可近似认为是)??,??(00σσa a u y

u y +-要解决前述问题可以从满足: )??,??(00σσααu y

u y +-),(21y y ?的x 0去寻找x 0的控制范围。显然,当12?2y y u ->σ

α时,问题无解,否则方程组 ????

?++=-+=σσαα?''???

'??21u x b a

y u x b a y 有解x x ''', 由此得x 0的控制范围是(min(x x ''',),max(x x ''',))

三、线性相关的检验

前面的讨论都是在假定y 与x 呈现线性相关关系的前提下进行的,若这个假定不成立,则我们建立的经验回归直线方程也失去意义,为此必须对y 与x 之间的线性相关关系作检验,为解决这个问题,先作手:

1、偏差平方和分解

记∑=-=n

i i y y L 12)(,称它为总偏差平方和,它反映数据y i 的总波动,易得L 有

如下分解式:∑∑∑==?

=+=-+-=-+-=n i n i n

i i i i i i i U Qe y y y y y y y y L 1

1

1

22

2

)?()?()?(

其中)?,?(b a Q Q e =就是前面提到的残差平方和,∑=-=N I i y y U 1

2)?(称为回归平方和,上

式右边的交叉项:∑=--n

i i i i y y y y 1

)?)(?(2

∑=-++-=n

i i

i i y x b a x b a y 1

]??)][??([2 ∑=----=n

i i

i i x x b x x b y y 1

)](?)][(?)[(2 ])(?))(([?21

1

2∑∑==----=n i n

i i i

i x x b x x y y b 0)?(?2=-=xx

xy L b L b 由上可知,U 越大,Qe 就越小,x 与y 间线性关系就越显著;反之,x 与y 之间的线性关系越不显著。于是,自然地考虑到检验回归方程是否有显著意义是考察U/Q 的大小,其比值大,则L 中U 占的比重大,回归方程有显著意义,反之,无显著意义。

2、线性相关的F 检验

根据上段的思想来构造检验统计量,先看下面的定理。

定理9.4 当H 0:b=0 成立时 U/σ2~2χ(1),且Q 与U 相互独立。

证:当H 0成立时,由Th2.1-1及Th2.2-2知,),0(~?2

xx

L N b

σ ∴)1.0(~?N L b xx σ

于是)1(~?22

22χσσxx L b U = 由定理9.4,我们还知)2(~?)2(2222-=-n Q n e χσ

σσ,且Q 与b ?相互独立,从而Q 与U=xx

L b 2?独立,由上面的定理及F 分布的构造性定理知: )21(~??2/02

2-=-=,n F L b n Q u F H xx

真σ

(9.14) 因此可选它作检验H 0:b=0 的检验统计量,当H 0为真时F 的值不应太大,故对选定的水平

α>0,由P(α-≥1F F )=α查F(1,n-2)分布表确定临界值F 1-α分位数,当观测数据代入(9.14)式算出的F 值合F ≥F 1-α时,不能接受H 0,认为建立的回归方程有显著意义。

检验H 0:经验公式无显著意义(α=0.05)

选用)221(~)2(0,F Q

U n F H 真

-=

由{}αα=>F F P 查表得F α=4.30

现计算F 值 由L =L yy =117.95

35.112266.152859.0?22=?== xx

L b U

Q=L-U =5.6

得375.4416

.535

.11222=?=

F

因F >F α,所以拒绝H 0,认为所得的经验回归方程有显著意义。 四、相关与回归的区别与联系 1、联系

由前面的讨论,有:

222?r Lyy Lxx Lxx Lxy Lyy Lxx b L U =??? ??== 得回归平方和U=r 2L

残差平方和 )1()?,?(2r L b a

Q Q -== 可见r 2反映了回归平方和在总偏差平方和中占的比重,该比重越大,误差平方和在总偏差平方和中占的份量就越小。通常称r 2为拟合优度系数。r 就是变量

x 与y 的积差相关系数,另方面由 2222)1)2(()1()2()2(r

n r L r L

r n Q U n F --=--=-= 看出,在检验y 与x 是否显著线性相关时,F 检验法与相关系数T 检验法等效。

2、区别

相关关系不表明因果关系,是双向对称的,在相关分析中,对所讨论的两个

变量或多个变量是平等对待的,相关系数r 反映数据(x i ,y i )所描述的散点对直线的靠拢程度。

回归分析中,变量在研究中地位不同,要求因变量(响应变量)y 是随机变量,自变量一般是可控制的普通变量(当然也可以是随机的)。在回归方程中,回归系数只反映回归直线的陡度,且它不是双向对称的。

§9.1.3 一元非线性回归

前面讨论的线性回归问题,是在回归模型为线性这一基本假定下给出的,然而在实用中还经常碰到非线性回归的情形,这里我们只讨论可以化为线性回归的非线性回归问题,仅通过对某些常见的可化为线性回归问题的讨论来阐明解决这类问题的基本思想和方法。

一、曲线改直

例1 炼纲过程中用来盛钢水的钢包,由于受钢水的浸蚀作用,容积会不断扩大。下表给出了使用次数和容积增大量的15对试验数据:

解:首先要知道Y 关于x 的回归函数是什么类型,我们先作散点图。(见教材)

从图上看,开始浸蚀速度较快,然后逐渐减缓,变化趋势呈双曲线状。 因此可选取双曲线:(设y 与x 之间具有如下双曲线关系) x

b a y 1

1+= (9.15) 作为回归函数的类型,即假设y 与x 满足: ε++=x

b a y 1

1 (9.16)

令y

x 1

,1==ηξ,则(9.15)变成2,0,σξεεξη==++=D E b a . 这是一种非线性回归,先由x 、y 的数据取倒数,可得η,ξ的数据(0.5000,0.1558),……(0.0625,0.0929),对得到的15对新数据,用最小二乘法可得:

线性回归方程 0823

.01312.0?+=ξη后,代回原变量得

x

x

x y 0823.01312.00823.011312.01+=

+= ∴1312.00823.0?+=x x

y 为y 关于x 的经验公式(回归方程) 在例1中,假设了y 与x 之间满足双曲线回归模型,显然这是一种主观判断,因此所求得的回归曲线不一定是最佳的拟合曲线。在实用中,往往是选用不同的

几种曲线进行拟合,然后分别计算相应的残差平方和σ?)?(2或∑-=i

i i e y

y Q (标准误差)进行比较Q e (或σ

?)最小者为最优拟合。 二、常见可改直的曲线

下面简介一些可通过变量替换化为线性回归的曲线回归模型。

1、双曲线x b a y +=1 作变换x

x y y 1

',1'== 则回归函数化为:y’=a+bx’

2、幂函数y=ax b (或y=ax -b ) (b >0) 对幂函数两边取对数nx b na ny +=,作变换na a nx x ny y ===',',' 则有 x b a y ''±='

3、指数函数y=ae bx 或y=ae -bx (b >0)

两边取对数bx na y n ±= 令 bx y n ny y ±'='='='αα

α有 , 4、倒指数函数x b

ae y -

=或x

b ae y = (b >0,a >0)

两边取对数后作变换n y ='y, na a x

x ='=',1

,

则有 x b a y ''±'='

5、对数函数,y=a+b n x

作变换n x ='x,则有y=a+b x '.

另外还有一些可化为线性回归的曲线回归,将在用“spss ”作实习操作时一并介绍。

例1(续)由例1的散点图看出,除双曲线拟合外,本例还可选择倒指数拟合:

y=ae b/x

两边取对数得:na x b ny +?=1

令x

ny 1

',

=='ξη ,变为如下的回归问题: εξη++=''B A

利用最小二乘法求得:B

?=-1.1107,A ?=2.4578 因此回归直线为: 4578.2'1107.1+-='ξη

代回原变量得:x e y /1107.16489.11?-=

经计算双曲线拟合时 Q=1.4396 σ

?=0.3328,倒指数拟合时σ?=0.2168,故倒指数拟合效果更好些。

§9.2 多元线性回归

实际应用中,很多情况要用到多元回归的方法才能更好地描述变量间的关系,因此有必要在本节对多元线性回归做一简单介绍,就方法的实质来说,处理多元的方法与处理一元的方法基本相同,只是多元线性回归的方法复杂些,计算量也大得多,一般都用计算机进行处理。

一、数学模型和回归方程的求法。 1、多元线性回归的模型。

设因变量y 与自变量x 1,x 2,……,x k 之间有关系式: )

,0(~ (2)

110σεε

N x b x b b y k k ++++= (9.17) 抽样得n 组观测数据:(y 1;x 11,x 21,……,x k1)

(y 2;x 12,x 22,……x k2) …………………… (y n ;x 1n ,x 2n ,……x kn )

其中x ij 是自变量x i 的第j 个观测值,y j 是因变量y 的第j 个值,代入(9.17)得模型的数据结构式:

?????

??

??+++++=+++++=+++++=)

,N (x b x b x b b y x b x b x b b y x b x b x b b y n n

kn k n n n

k k k k 2

2122110222211210211212111010...,...............

......σεεεε

εε独立同分布 (9.18) 我们称(9.17)或(9.18)为k 元正态线性回归模型,其中b 0,b 1,……,b k 及σ2都是未知待估的参数,对k 元线性模型,需讨论的问题与一元时相同。

需要说明的几点见教材 2、未知参数的估计

与一元时一样,采用最小二乘法估计回归系数 b 0,b 1,……,b k . 称使

21

221101,0])...([?),...,(∑=++++-=n

t kt k t t t k x b x b x b b y b b b Q 达到最小的k b b b ?,...,?,?10为参数

(b 0,b 1,……,b k )的最小二乘估计,利用微积分知识,最小二乘估计就是如下方程

组的解:

?????

??

??+++-==+++=+++=+++k

k ky

k kk k k y k k y k k x b x b x b y b L

b l b l b l L b l b l b l L b l b l b l ............

(221)

02

2112222212111212111 (9.19) 其中 ),...,2,1(1,11

1k i x n x y n y n

t it i n t t ===∑∑==

),...,2,1,()()(11k j i L x x x x n L ji j jt n

t i it ij ==--=∑=

),...,2,1()(,)(11

k i y y x x n L t n

t i it iy =--=∑=

通常称方程组(9.19)为正规方程组,其中前k 个方程的系数矩阵记为,)(*k k ij l L ?=当

L *可逆时,正规方程组(9.19)有解,便可得b 0,b 1,……b k 的最小二乘估计 k

b b b

?,,?,?1

即k k y k y k x b x b y b L L L b b ---=????

??

??=?

????

? ??-...??,*)(??11

0111 代入模型(9.18),略去随机项得经验回归方程为:

k

k x b x b b y

?...???1

10

+++= (9.20)类似一元可以证明 i

b ?都是相应的b i (i=0,1,……,k )的无偏估计,且σ2’的无偏估计为:

1

)?,...,?,?(?102--=k n b b b Q k

σ

〃 二、回归方程的显著性检验

与一元的情形一样,上面的讨论是在y 与x 1,……,x k 之间呈现线性相关的前提下进行的,所求的经验方程是否有显著意义,还需对y 与诸x i 间是否存在线

性相关关系作显著性假设检验,与一元类似,对k

k x b x b b y

?...???1

10

+++=是否有显著意义,可通过检验H 0:b 1=b 2=…=b k =0

为了找检验H 0的检验统计量,也需将总偏差平方和L yy 作分解:

U

Q y y y y y y y

y y y L e t

t t

t t n

t t t t t n t t +=-+-=-+-=-=∑∑∑∑== 2221

2

1

)?()?()??()( (9.21)

即L =U+Q e 其中L =L yy ,2

2

)?(,)?(∑∑-=-=t

t t e t

t y

y Q y y U 这里kt k t t x b x b b y ?...???110+++=. 分别称Q e ,U 为残差平方和、回归平方和,可以证明:

∑=?=+++=k

j jy j ky k y y l b l b l b l b U 1

2211??...??

利用柯赫伦定理可以证明:在H 0成立下,

)1(~)(~2222

--k n ,k U

e

χσ

χσQ 且U 与

Q e 相互独立,所以有

)1,(~)

1/(/0----=k n k F k n k

U F H 真

Q (9.22)

(这里记 Q e 为Q,下同)

取F 作H 0的检验计量,对给定的水平α,查F(k, n-k-1)分布表可得满足αα=≥)(F F p 的临介值αF ,由样本观测值代入(9.22)算出统计量F 的观测值,若

F ≥αF ,则不能接受H 0,认为所建的回归方程有显著意义。

通过F 检验得到回归方程有显著意义,只能说明y 与x 1,x 2,……,x k 之间存在显著的线性相关关系,衡量经验回归方程与观测值之间拟合好坏的常用统计量有复相关系数R 及拟合优度系数R 2。仿一元线性回归的情况,定义:

L

Q

L U R -==12 (9.23)

L

Q

R -

=1|| (9.23)可以证明R 就是观测值y 1,……,y n 与回归值的n y y y

?,...,?,?21的相关系数。 实用中,为消除自由度的影响,又定义:

)

1/()

1/(12---=

=n L k n Q R (9.24) 为修正的似合优度系数。

三、偏回归平方和与因素主次的判别

本段内容是多元回归与一元回归有本质差异的部分。 前一节所作的检验H 0:b 1=b 2=……=b k =0被拒绝,并不能说明所有的自变量都对因变量y 有显著影响,我们希望从回归方程中剔除那些可有可无的自变量,重新建立更为简单的线性回归方程,这就需要对每个自变量x j 做显著性检验。于是考虑H 0j :b j =0的检验方法。从原有的k 个自变量中剔除x j ,余下的k-1个自变量对y 的线性影响也可由相应的偏差平方和分解式中的回归平方和U (j)反映出来,即)()()(j j j Q U L +=

记 )()(j j U U U +=?

则△U (j)反映了变量x j 在回归方程中对y 的线性影响,常称它为x j 的偏回归平方和,

可以证明 jj j c b

U j 2)(?=? (9.25)

其中C jj 是矩阵 L *=(L ij )p ×p 的逆矩阵对角线上的第j 个元素,对于H 0j :b j =0

选用统计量 )1,1(~1/??022)(----=?=k n F k n Q C b U F j H e jj

j j j 真

σ (9.26) 对给定的水平α,由αα=≥)(F F P j ,查F(1,n-k-1)分布表确定临介值αF ,将观测值代入(9.26)算出的F j 值与αF 比较,若F j ≥αF 则拒绝H 0,认为x j 对y 的线性影响显著,否则不显著,应剔除。

但在实用中,多元回归中剔除变量的问题比上例我们做的讨论要复杂得多,因为有些变量单个讨论时,对因变量的作用很小,但它与某些自变量联合起来,共同对因变量的作用却很大,因此在剔除变量时,还应考虑变量交互作用对y 的影响,对这一问题的深入讨论太花时间,有兴趣的同志可参见有关“多元统计分析”教材。此外,关于多元性回归的预测和控制问题,类似一元不再赘述。

第9章方差分析与回归分析习题答案

第九章 方差分析与回归分析习题参考答案 1. 为研究不同品种对某种果树产量的影响,进行试验,得试验结果(产量)如下表,试分析果树品种对产量是否有显着影响. (0.05(2,9) 4.26F =,0.01(2,9) 8.02F =) 34 2 11 1310ij i j x ===∑∑ 解:r=3, 12444n n 321=++=++=n n , T=120 ,120012 1202 2===n T C 3 4 2 211 131********(1)1110110T ij T i j SS x C S n s ===-=-==-=?=∑∑或S 322.1112721200724(31)429724A i A A i SS T C S s ==-=-==-=??=∑或S 3872110=-=-=A T e SS SS SS 计算统计值722 8.53, 389 A A A e e SS f F SS f = =≈…… 方差分析表 结论:由于0.018.53(2,9)8.02, A F F ≈>=故果树品种对产量有特别显着影响. 2. ..180x = 43 2 11 2804ij i j x ===∑∑ 解:22..4,3,12,180122700l m n lm C x n =======

43 2211 28042700104(1)119.45 104T ij T i j S x C S n s ===-=-==-=?≈∑∑&&或 422 .1 12790270090(1)331090 3A i A A i S x C S m l s ==-=-==-≈??=∑或322 .1 12710.5270010.5(1)8 1.312510.5 4B j B B j S x C S l m s ==-=-==-≈?=∑或1049010.5 3.5e T A B S S S S =--=--= 计算统计值90310.52 51.43,93.56 3.56 A A B B A B e e e e S f S f F F S f S f = =≈==≈ 结论: 由以上方差分析知,进器对火箭的射程有特别显着影响;燃料对火箭的射程有显着影响. 31,58,147,112,410.5,i i i i i i x y x y x y =====(1)求需求量Y 与价格x 之间 的线性回归方程; (2)计算样本相关系数; (3)用F 检验法作线性回归关系显着性检验. ??? ? ??====56.10)9,1(,26.11)8,1(12.5)9,1(,32.5)8,1(01.001.005.005.0F F F F 解:引入记号 10, 3.1, 5.8n x y === ()()14710 3.1 5.832.8xy i i i i l x x y y x y nx y =--=-=-??=-∑∑ 2 222()11210 3.115.9xx i i l x x x nx =-=-=-?=∑∑ 22 ()(1)9 1.766715.9xx i x l x x n s =-=-≈?≈∑或 2 222()410.510 5.874.1yy i i l y y y ny =-=-=-?=∑∑ 22()(1)98.233374.1yy i y l y y n s =-=-≈?≈∑或 ?(1) b Q 32.8??2.06, 5.8 2.06 3.112.1915.9xy xx l a y bx l -==≈-=-≈+?≈ ∴需求量Y 与价格x 之间的线性回归方程为 ?y ??12.19 2.06a bx x =+≈-

方差分析及回归分析

第九章 回归分析 教学要求 1.一元线性回归及线性相关显著性的检验法,利用线性回归方程进行预测。 2.可线性化的非线性回归问题及简单的多元线性回归。 ? 本章重点:理解线性模型,回归模型的概念,掌握线性模型中参数估计的最小二乘法估计法。 ? 教学手段:讲练结合 ? 课时分配:6课时 §9.1 一元线性回归 回归分析是研究变量之间相关关系的一种统计推断法。 例如,人的血压y 与年龄x 有关,这里x 是一个普通变量,y 是随机变量。Y 与x 之间的相依关系f(x)受随机误差ε的干扰使之不能完全确定,故可设有: ε+=)(x f y (9.1) 式中f(x)称作回归函数,ε为随机误差或随机干扰,它是一个分布与x 无关的随机变量,我们常假定它是均值为0的正态变量。为估计未知的回归函数f(x),我们通过n 次独立观测,得x 与y 的n 对实测数据(x i ,y i )i=1,……,n ,对f(x)作估计。 实际中常遇到的是多个自变量的情形。 例如 在考察某化学反应时,发现反应速度y 与催化剂用量x 1,反应温度x 2,所加压力x 3等等多种因素有关。这里x 1,x 2,……都是可控制的普通变量,y 是随机变量,y 与诸x i 间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有: ε+=),,,(21k x x x f y Λ (9.2) 这里ε是不可观察的随机误差,它是分布与x 1,……,x k 无关的随机变量,一般设其均值为0,这里的多元函数f(x 1,……,x k )称为回归函数,为了估计未知的回归函数,同样可作n 次独立观察,基于观测值去估计f(x 1,……,x k )。 以下的讨论中我们总称自变量x 1,x 2,……,x k 为控制变量,y 为响应变量,不难想象,如对回归函数f(x 1,……,x k )的形式不作任何假设,问题过于一般,将难以处理,所以本章将主要讨论y 和控制变量x 1,x 2,……,x k 呈现线性相关关系的情形,即假定 f(x 1,……,x k )=b 0+b 1x 1+……+b k x k 。 并称由它确定的模型 (9.1) (k=1)及(9.2)为线性回归模型,对于线性回归模型,估计回归函数f(x 1,……,x k )就转化为估计系数b 0、b i (i=1,……,k) 。 当线性回归模型只有一个控制变量时,称为一元线性回归模型,有多个控制变量时称为多元线性回归模型,本着由浅入深的原则,我们重点讨论一元的,在此基础上简单介绍多元的。 §9.1.1 一元线性回归 一、一元线性回归的数学模型

方差分析和回归分析的区别与联系

一、方差分析和回归分析的区别与联系?(以双变量为例) 联系: 1、概念上的相似性 回归分析是为了分析变量间的因果关系,研究自变量X取不同值时,因变量平均值丫的变化。运用回归分析方法,可以从变量的总偏差平方和中分解出已被自变量解释掉的误差(解释掉误差)和未被解释掉的误差(剩余误差); 方差分析是为了分析或检验总体间的均值是否有所不同。通过对样本中自变量X取不同值时 所对应的因变量丫均值的比较,推论到总体变量间是否存在关系。运用方差分析,也可以从变量的总离差平方和中分解出已被自变量解释掉的误差和未被自变量解释掉的误差。因此两种分析在概念上所具有的相似性是显而易见的。 2、统计分析步骤的相似性 回归分析在确定自变量X是否为因变量丫的影响因素时,从分析步骤上先对X和丫进行相关分析,然后建立变量间的回归模型。最后再进行参数的统计显着性检验或对回归模型的统计显着性进行检验。 方差分析在确定X是否是丫的影响因素时,是先从样本所的数据的分析入手,然后考察数据模型,最后对样本均值是否相等进行显着性检验。二者在分析步骤上也具有相似性。 3、假设条件具有一定的相似性 回归分析有五个基本假定,分别是:自变量可以是随机变量也可以是非随机变量;X与丫之 间存在的非确定性的相关关系,要求丫的所有子总体,其方差都相等;子总体均值在一条直线上;随机变量丫是统计独立的,即丫1的数值不影响丫2的数值,各丫值之间都没有关系;丫值的每一个子总体都满足正态分布。 方差分析的基本假定有:等方差性(总体中自变量的每一取值所对应因变量丫的分布都具有 相同方差);丫的分布为正态分布。 二者在假设条件上存在着相同。 4、在总离差平方和中的分解形式和逻辑上的相似性 回归分析中,TSS=RSS+RS,S而在方差分析中,TSS=RSS+BS二者均是以已解释掉的误差与未被解释掉的误差之和为总离差平方和。 5、确定影响因素上的相似性 为简化分析起见,我们假设只有一个自变量X影响因变量丫。在回归分析中,要确定X是否是丫的影响因素,就要看当X已知时,对丫的总偏差有无影响。如果X不是影响丫的因素,等同于只 知变数丫的数据列一样,此时用丫去估计每个丫的值,所犯的错误(即偏差)为最小。如果因素X 是影响丫的因素,那么当已知X值后 6、在统计显着性检验上具有相似性 回归分析的总显着性检验,是一种用R2测量回归的全部解释功效的检验。检验RSSR*(N-2) /RS,S 方差分析的显着性检验是一种根据样本数据提取信息所进行的显着性检验。它也是通过F 检 验进行的。 区别: 1、研究变量的分析点不同 回归分析法既研究变量丫又研究变量X并在此基础上集中研究变量丫与X的函数关系,得到的是在不独立的情况下自变量与因变量之间的更加精确的回归函数式,也即判断相关关系的类 型,因此需建立模型并估计参数。方差分析法集中研究变量丫的值及其变差而变量X值仅用 来把丫值划分为子群或组,得到的是自变量(因素)对总量Y是否具有显着影响的整体判断,因

案例库 项目八假设检验 回归分析与方差分析

项目八假设检验、回归分析与方差分析 实验3 方差分析 实验目的学习利用Mathematica求单因素方差分析的方法. 基本命令 1.调用线性回归软件包的命令<

中,向量Y是因变量,也称作响应变量.矩阵X称作设计矩阵, ?是参数向量??是误差向量? ????????DesignedRegress也是作一元和多元线性回归的命令, 它的应用范围更广些. 其格式与命令Regress的格式略有不同: DesignedRegress[设计矩阵X,因变量Y的值集合, RegressionReport ->{选项1, 选项2, 选项3,…}] RegressionReport(回归报告)可以包含:ParameterCITable(参数?的置信区间表???? ?PredictedResponse (因变量的预测值), MeanPredictionCITable(均值的预测区间), FitResiduals(拟合的残差), SummaryReport(总结性报告)等, 但不含BestFit. 实验准备—将方差分析问题纳入线性回归问题 在线性回归中, 把总的平方和分解为回归平方和与误差平方和之和, 并在输出中给出了方差分析表. 而在方差分析问题

中, 也把总的平方和分解为模型平方和与误差平方和之和, 其方法与线性回归中的方法相同. 因此只要把方差分析问题转化为线性模型的问题, 就可以利用线性回归中的设计回归命令DesignedRegress 做方差分析. 单因素试验方差分析的模型是 ?? ? ??==+=. ,,2,1;,,2,1,),,0(~,2s j n i N Y j ij ij ij j ij ΛΛ独立各εσεεμ (3.1) 上式也可改写成 ?? ? ??===+-+==+=.,,2,1;,,2,1,),,0(~; ,,3,2,)(, ,,2,1,2111111s j n i N s j Y n i Y j ij ij ij j ij i i ΛΛΛΛ独立各εσεεμμμεμ (3.2) 给定具体数据后, 还可(2.2)式写成线性模型的形式:

一元线性回归,方差分析,显著性分析

一元线性回归分析及方差分析与显著性检验 某位移传感器的位移x 与输出电压y 的一组观测值如下:(单位略) 设x 无误差,求y 对x 的线性关系式,并进行方差分析与显著性检验。 (附:F 0。10(1,4)=4.54,F 0。05(1,4)=7.71,F 0。01(1,4)=21.2) 回归分析是研究变量之间相关关系的一种统计推断法。 一. 一元线性回归的数学模型 在一元线性回归中,有两个变量,其中 x 是可观测、可控制的普通变量,常称它为自变量或控制变量,y 为随机变量,常称其为因变量或响应变量。通过散点图或计算相关系数判定y 与x 之间存在着显著的线性相关关系,即y 与x 之间存在如下关系: y =a +b ?x +ε (1) 通常认为ε~N (0,δ2)且假设δ2与x 无关。将观测数据(x i ,y i ) (i=1,……,n)代入(1)再注意样本为简单随机样本得: {y i =a +b ?x i +εi ε1?εn 独立同分布N (0,σ2) (2) 称(1)或(2)(又称为数据结构式)所确定的模型为一元(正态)线性回归模型。 对其进行统计分析称为一元线性回归分析。 模型(2)中 EY= a +b ?x ,若记 y=E(Y),则 y=a+bx,就是所谓的一元线性回归方程,其图象就是回归直线,b 为回归系数,a 称为回归常数,有时也通称 a 、b 为回归系数。 设得到的回归方程 bx b y +=0? 残差方程为N t bx b y y y v t t t i ,,2,1,?0Λ=--=-= 根据最小二乘原理可求得回归系数b 0和b 。 对照第五章最小二乘法的矩阵形式,令 ?????? ? ??=??? ? ??=??? ???? ??=??????? ??=N N N v v v V b b b x x x X y y y Y M M M M 2102121?111 则误差方程的矩阵形式为 V b X Y =-? 对照X A L V ?-=,设测得值 t y 的精度相等,则有

方差分析和相关分析与回归分析

《统计学》实验五 一、实验名称:方差分析 二、实验日期: 2010年12月3日 三、实验地点:经济管理系实验室 四、实验目的和要求 目的:培养学生利用EXCEL进行数据处理的能力,熟练掌握利用EXCEL 进行方差分析,对方差分析结果进行分析 要求:就本专业相关问题收集一定数量的数据,用EXCEL进行方差分析 五、实验仪器、设备和材料:个人电脑(人/台),EXCEL 软件 六、实验过程 (一)问题与数据 消费者与产品生产者、销售者或服务的提供者之间经常发生纠纷。当分生纠纷后,消费者常常会向消费者协会投诉。为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的企业作为样本。其中零售业抽取7家、旅游业抽取6家、航空公司抽取5家、家电制造业抽取5家。具体数据如下: 取显著性水平α=0.05,检验行业不同是否会导致消费者投诉的显著性差异?(二)实验步骤 1、进行假设 2、将数据拷贝到EXCEL表格中 3、选择“工具——数据分析——单因素方差分析”,得到如下结果:

(三)实验结果分析:由以上结果可知:F>F crit=3.4066或P-value=0.0387657<0.05,拒绝原假设,表明行业对消费者投诉有着显著差异。 实验心得体会 在这学习之前我们只学习了简单的方差计算,现在运用计算机进行方差分析,可以做出更多的比较。通过使用计算机可以很快的计算出组间和组内的各种数值,便于我们进行比较分析。

《统计学》实验六 一、实验名称:相关分析与回归分析 二、实验日期: 2010年12月3日 三、实验地点:经济管理系实验室 四、实验目的和要求 目的:培养学生利用EXCEL进行数据处理的能力,熟练掌握EXCEL绘制散点图,计算相关系数,拟合线性回归方程,拟合简单的非线性回归方程,利用回归方程进行预测。 要求:就本专业相关问题收集一定数量的数据,用EXCEL进行相关回归分析(计算相关系数,一元线性回归分析,一元线性回归预测) 五、实验仪器、设备和材料:个人电脑(人/台),EXCEL 软件 六、实验过程 (一)问题与数据 10个学生每天用于学习英语的时间和期末考试的成绩的数据如下表所示。要求, (1)绘制学习英语的时间和期末考试的成绩的散点图,判断2者之间的关系 形态 (2)计算学习英语的时间和期末考试的成绩的线性相关系数 (3)用学习英语的时间作自变量,期末考试成绩作因变量,求出估计的回归方程。 (4)求每天学习英语的时间为150分钟时,销售额95%的置信区间和预测区间。 学生时间(分钟)成绩(分) A 120 85 B 60 65 C 100 76 D 70 71 E 80 74 F 60 65 G 30 54 H 40 60 I 50 62

第章方差分析与回归分析习题答案

第章方差分析与回归分 析习题答案 Document number:WTWYT-WYWY-BTGTT-YTTYU-2018GT

第九章 方差分析与回归分析习题参考答案 1. 为研究不同品种对某种果树产量的影响,进行试验,得试验结果(产量)如下表,试分析果树品种对产量是否有显着影响. (0.05(2,9) 4.26F =,0.01(2,9)8.02F =) 解:r=3, 12444n n 321=++=++=n n , T=120 ,120012 1202 2===n T C 计算统计值?722 8.53, 389 A A A e e SS f F SS f = =≈…… 方差分析表 结论:由于0.018.53(2,9)8.02, A F F ≈>=故果树品种对产量有特别显着影响. 2. 2700= 10.52 3.56 =≈结论: 由以上方差分析知,进器对火箭的射程有特别显着影响;燃料对火箭的射程有显着影响. 3.为了研究某商品的需求量Y 与价格x 之间的关系,收集到下列10对数据:

31 ,58,147,112,410.5,i i i i i i x y x y x y =====(1)求 需求量Y 与价格x 之间的线性回归方程; (2)计算样本相关系数; (3)用F 检验法作线性回归关系显着性检验. 解:引入记号 10, 3.1, 5.8n x y === ∴需求量Y 与价格x 之间的线性回归方程为 (2)样本相关系数 32.8 0.955634.3248l r -== ≈≈- 在0H 成立的条件下,取统计量(2)~(1,2)R e n S F F n S -= - 计算统计值 2 2(32.8)15.967.66, 74.167.66 6.44 R xy xx e yy R S l l S l S ==-≈=-≈-= 故需求量Y 与价格x 之间的线性回归关系特别显着. 4. 随机调查10个城市居民的家庭平均收入(x)与电器用电支出(y)情况得数据(单位:千元)如下: (1) 求电器用电支出y 与家庭平均收入x 之间的线性回归方程; (2) 计算样本相关系数; (3) 作线性回归关系显着性检验; (4) 若线性回归关系显着,求x =25时, y 的置信度为的预测区间. 解:引入记号 10,27, 1.9n x y === ∴电器用电支出y 与家庭平均收入x 之间的线性回归方程为 (2)样本相关系数 0.9845l r == ≈ 在0H 成立的条件下,取统计量(2)~(1,2)R n S F F n S -= -e 计算统计值 2 243.6354 5.37, 5.54 5.370.17 xy xx yy s l l s l s ==≈=-≈-=R e R 故家庭电器用电支出y 与家庭平均收入x 之间的线性回归关系特别显着. 相关系数检验法 0 1:0;:0H R H R =≠ 故家庭电器用电支出y 与家庭平均收入x 之间的线性回归关系特别显着. (4) 因为0x x =处,0y 的置信度为1α-的预测区间为

方差分析与回归分析

方差分析与回归分析 Company number:【WTUT-WT88Y-W8BBGB-BWYTT-19998】

第八章 方差分析与回归分析 §1 单因素试验的方差分析 试验指标:研究对象的某种特征。 例 各人的收入。 因素:与试验指标相关的条件。 例 各人的学历,专业,工作经历等与工资有关的特征。 因素水平:因素所在的状态 例 学历是因素,而高中,大学,研究生等,就是学历因素水平;数学,物理等就是专业的水平。 问题:各因素水平对试验指标有无显着的差异 单因素试验方差分析模型 假设 1)影响试验指标的因素只有一个,为A ,其水平有r 个:1,,r A A ; 2)每个水平i A 下,试验指标是一个总体i X 。各个总体的抽样过程是独立的。 3)2~(,)i i i X N μσ,且22i j σσ=。 问题:分析水平对指标的影响是否相同 1)对每个总体抽样得到样本{,1}ij i X j n ≤≤,由其检验假设: 原假设0:i j H μμ=,,i j ?;备选假设:1:i j H μμ≠,,i j ?; 2)如果拒绝原假设,则对未知参数21,,,r μμσ进行参数估计。 注 1)接受假设即认为:各个水平之间没有显着差异,反之则有显着差异。 2)在水平只有两个时,问题就是双正态总体的均值假设检验问题和参数估计问题。 检验方法 数据结构式:ij i ij i ij X μεμδε=+=++,偏差2~(0,)ij N εσ是相互独立的, 11r i i i n n μμ==∑。不难验证,1 0r i k δ==∑。 各类样本均值 水平i A 的样本均值:1 1i n i ij j i X X n == ∑; 水平总样本均值:11111i n r r ij i i i j i X X n X n n =====∑∑∑,1 r i i n n ==∑; 偏差平方和与效应

方差分析和回归分析的区别与联系

方差分析和回归分析的区 别与联系 Prepared on 22 November 2020

一、方差分析和回归分析的区别与联系(以双变量为例) 联系: 1、概念上的相似性 回归分析是为了分析变量间的因果关系,研究自变量X取不同值时,因变量平均值Y的变化。运用回归分析方法,可以从变量的总偏差平方和中分解出已被自变量解释掉的误差(解释掉误差)和未被解释掉的误差(剩余误差); 方差分析是为了分析或检验总体间的均值是否有所不同。通过对样本中自变量X取不同值时所对应的因变量Y均值的比较,推论到总体变量间是否存在关系。运用方差分析,也可以从变量的总离差平方和中分解出已被自变量解释掉的误差和未被自变量解释掉的误差。因此两种分析在概念上所具有的相似性是显而易见的。 2、统计分析步骤的相似性 回归分析在确定自变量X是否为因变量Y的影响因素时,从分析步骤上先对X 和Y进行相关分析,然后建立变量间的回归模型。最后再进行参数的统计显着性检验或对回归模型的统计显着性进行检验。 方差分析在确定X是否是Y的影响因素时,是先从样本所的数据的分析入手,然后考察数据模型,最后对样本均值是否相等进行显着性检验。二者在分析步骤上也具有相似性。 3、假设条件具有一定的相似性 回归分析有五个基本假定,分别是:自变量可以是随机变量也可以是非随机变量;X与Y之间存在的非确定性的相关关系,要求Y的所有子总体,其方差都相等;子总体均值在一条直线上;随机变量Y i是统计独立的,即Y1的数值不

影响Y2的数值,各Y值之间都没有关系;Y值的每一个子总体都满足正态分布。 方差分析的基本假定有:等方差性(总体中自变量的每一取值所对应因变量Y i 的分布都具有相同方差);Y i的分布为正态分布。 二者在假设条件上存在着相同。 4、在总离差平方和中的分解形式和逻辑上的相似性 回归分析中,TSS=RSS+RSSR,而在方差分析中,TSS=RSS+BSS。二者均是以已解释掉的误差与未被解释掉的误差之和为总离差平方和。 5、确定影响因素上的相似性 为简化分析起见,我们假设只有一个自变量X影响因变量Y。在回归分析中,要确定X是否是Y的影响因素,就要看当X已知时,对Y的总偏差有无影响。如果X不是影响Y的因素,等同于只知变数Y的数据列一样,此时用Y去估计每个丫的值,所犯的错误(即偏差)为最小。如果因素X是影响Y的因素,那么当已知X 值后 6、在统计显着性检验上具有相似性 回归分析的总显着性检验,是一种用R2测量回归的全部解释功效的检验。检验RSSR*(N-2)/RSS, 方差分析的显着性检验是一种根据样本数据提取信息所进行的显着性检验。它也是通过F检验进行的。 区别: 1、研究变量的分析点不同

第八章方差分析与回归分析

第八章 方差分析与回归分析 一、教材说明 本章内容包括:方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归.主要讲述方差分析和一元线性回归两节内容. 1、教学目的与教学要求 (1)了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会解决简单的实际问题. (2)了解效应差的置信区间的求法,了解多重比较问题,掌握重复数相等与不相等场合的方法,会解决简单的实际问题. (3)熟练掌握Hartley 检验,Bartlett 检验以及修正的Bartlett 检验三种检验方法,会解决简单的实际问题. (4)理解变量间的两类关系,认识一元线性和非线性回归模型,熟悉回归系数的估计方法,熟练掌握回归方程的显著性检验.能用R 软件来进行回归分析,会解决简单的实际问题. 2、本章的重点与难点 本章的重点是平方和的分解,检验方法和参数估计、重复数相等与不相等场合的方法、检验方法的掌握,回归系数的估计方法,回归方程的显著性检验,难点是检验方法和参数估计,重复数相等与不相等场合的方法. 实际问题的检验,回归方程的显著性检验. 二、教学内容 本章共分方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归等5节来讲述本章的基本内容. § 方差分析 教学目的:了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会 解决简单的实际问题. 教学重点:平方和的分解,检验方法和参数估计 教学难点:检验方法和参数估计 教学内容: 本节包括方差分析问题的提出,单因子方差分析的统计模型,平方和分解,检验方法,参数估计,重复数不等情形. 问题的提出 在实际工作中经常会遇到多个总体均值的比较问题,处理这类问题通常采用方差分析方法. 例 单因子方差分析的统计模型 在例中,我们只考察一个因子,称为单因子试验.记因子为A ,设其有r 个水平,记为 1r A , ,A ,在每一水平下考察的指标可看做一个总体,故有r 个总体,假定 (1)每一总体均为正态总体,记为2 i i N(,)μσ,i 1,2,,r =; (2)各总体方差相同,即22 2212r σσσσ== ==

方差分析及回归分析

方差分析及回归分析 Revised as of 23 November 2020

第九章 回归分析 教学要求 1.一元线性回归及线性相关显着性的检验法,利用线性回归方程进行预测。 2.可线性化的非线性回归问题及简单的多元线性回归。 ?本章重点:理解线性模型,回归模型的概念,掌握线性模型中参数估计的最小二乘法估计法。 ?教学手段:讲练结合 ?课时分配:6课时 § 一元线性回归 回归分析是研究变量之间相关关系的一种统计推断法。 例如,人的血压y 与年龄x 有关,这里x 是一个普通变量,y 是随机变量。Y 与x 之间的相依关系f(x)受随机误差ε的干扰使之不能完全确定,故可设有: ε+=)(x f y () 式中f(x)称作回归函数,ε为随机误差或随机干扰,它是一个分布与x 无关的随机变量,我们常假定它是均值为0的正态变量。为估计未知的回归函数f(x),我们通过n 次独立观测,得x 与y 的n 对实测数据(x i ,y i )i=1,……,n ,对f(x)作估计。 实际中常遇到的是多个自变量的情形。 例如 在考察某化学反应时,发现反应速度y 与催化剂用量x 1,反应温度x 2,所加压力x 3等等多种因素有关。这里x 1,x 2,……都是可控制的普通变量,y 是随机变量,y 与诸x i 间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有: ε+=),,,(21k x x x f y 这里ε是不可观察的随机误差,它是分布与x 1,……,x k 无关的随机变量,一般设其均值为0,这里的多元函数f(x 1,……,x k )称为回归函数,为了估计未知的回归函数,同样可作n 次独立观察,基于观测值去估计f(x 1,……,x k )。 以下的讨论中我们总称自变量x 1,x 2,……,x k 为控制变量,y 为响应变量,不难想象,如对回归函数f(x 1,……,x k )的形式不作任何假设,问题过于一般,将难以处理,所以本章将主要讨论y 和控制变量x 1,x 2,……,x k 呈现线性相关关系的情形,即假定 f(x 1,……,x k )=b 0+b 1x 1+……+b k x k 。 并称由它确定的模型 (k=1)及为线性回归模型,对于线性回归模型,估计回归函数f(x 1,……,x k )就转化为估计系数b 0、b i (i=1,……,k) 。 当线性回归模型只有一个控制变量时,称为一元线性回归模型,有多个控制变量时称为多元线性回归模型,本着由浅入深的原则,我们重点讨论一元的,在此基础上简单介绍多元的。

方差分析线性回归

1 线性回归 1.1 原理分析 要研究最大积雪深度x与灌溉面积y之间的关系,测试得到近10年的数据如下表: 使用线性回归的方法可以估计x与y之间的线性关系。 线性回归方程式: 对应的估计方程式为 线性回归完成的任务是,依据观测数据集(x1,y1),(x2,y2),...,(xn,yn)使用线性拟合估计回归方程中的参数a和b。a,b都为估计结果,原方程中的真实值一般用α和β表示。 为什么要做这种拟合呢? 答案是:为了预测。比如根据前期的股票数据拟合得到股票的变化趋势(当然股票的变化可就不是这么简单的线性关系了)。 线性回归的拟合过程使用最小二乘法, 最小二乘法的原理是:选择a,b的值,使得残差的平方和最小。 为什么是平方和最小,不是绝对值的和?答案是,绝对值也可以,但是,绝对值进行代数运算没有平方那样的方便,4次方又显得太复杂,数学中这种“转化化归”的思路表现得是那么的优美! 残差平方和Q, 求最小,方法有很多。代数方法是求导,还有一些运筹学优化的方法(梯度下降、牛顿法),这里只需要使用求导就OK了, 为表示方便,引入一些符号, 最终估计参数a与b的结果是:

自此,针对前面的例子,只要将观测数据带入上面表达式即可计算得到拟合之后的a和b。不妨试一试? 从线性函数的角度,b表示的拟合直线的斜率,不考虑数学的严谨性,从应用的角度,结果的b可以看成是离散点的斜率,表示变化趋势,b的绝对值越大,表示数据的变化越快。 线性回归的估计方法存在误差,误差的大小通过Q衡量。 1.2 误差分析 考虑获取观测数据的实验中存在其它的影响因素,将这些因素全部考虑到 e~N(0,δ^2)中,回归方程重写为 y = a + bx + e 由此计算估计量a与b的方差结果为, a与b的方差不仅与δ和x的波动大小有关,而且还与观察数据的个数有关。在设计观测实验时,x的取值越分散,估计ab的误差就越小,数据量越大,估计量b的效果越好。这也许能为设计实验搜集数据提供某些指导。 1.3 拟合优度检验及统计量 拟合优度检验模型对样本观测值的拟合程度,其方法是构造一个可以表征拟合程度的指标,称为统计量,统计量是样本的函数。从检验对象中计算出该统计量的数值,然后与某一标准进行比较,得出检验结论。 这是又会问了,最小二乘法不是保证了模型最好的拟合样本观测值了吗?为什么还要检验拟合程度? 最小二乘法保证的是同一个样本集使用最小二乘法拟合程度最好,而拟合优度检验结果表示的是多个不同样本集各自进行拟合后对拟合效果的比较。比如,下面的直线方程都是使用最小二乘法拟合的结果,但二者对样本观测值的拟合程度显然不同。 为构造统计量,先定义三个表达式: 通过推倒可以发现:

方差分析与回归分析习题答案

试验 结果 燃料B B ! B 2 B 3 推 进 器 A A 14 13 12 39 13 A 18 16 14 48 16 A 13 12 11 36 12 A 20 18 19 57 19 65 59 56 180 16.25 14.75 14 15 F A 方差来源 平方和 自由度 4,m 3, n S A f A S e f e Im 90 3 3.5 临界值 12,C x . 51.43, F B 显著性 1802 12 S B f B S e 2700 值 10.5 2 3.5 6 1.为研究不同品种对某种果树产量的影响,进行试验,得试验结果(产量)如下表,试分析果树品种对产量是否 有显著影响 (F O .O 5(2,9) 4.26,F 0.01 (2,9) 8.02) SS A —f A 伫 8.53, SQ f e 38 9 方差来源 平方和 自由度 均方 F 值 临界值 显著性 品种A 36 误差 总计 结论:由于F A 8.53 F 0.01(2,9) 8.02, 故果树品种对产量有特别显著影响 r=3 , 品种 试验结果 行和T i X i 行均值 x A 10 7 13 10 40 10 A 12 13 15 12 52 13 A 8 4 7 9 28 7 n n i n 2 n 3 T=120 , C 计 算 4 4 4 12, T 2 1202 1200 12 2 解 计

3?为了研究某商品的需求量 Y与价格x之间的关系,收集到下列 10对数据: X 31, y 58, x i y i 147, x i112, y 410.5,( 1)求需求量Y与价格x之间的线性回归方程; (2)计算样本相关系数; (3)用F检验法作线性回归关系显著性检验 . 解:引入记号n 10, x 3.1, y 5.8 需求量Y与价格x之间的线性回归方程为 (2)样本相关系数r lxy. 32.8一32邑0.9556 亦帀J15.9 74.1 34.3248 卄(n 2)S R 在H0成立的条件下,取统计量F R ~ F(1,n 2) S e S R 唸/l xx ( 32.8)715.9 67.66, 计算统计值 S e l yy S R 74.1 67.66 6.44 故需求量Y与价格x之间的线性回归关系特别显著. (1)求电器用电支出y与家庭平均收入之间的线性回归方程; (2)计算样本相关系数; (3)作线性回归关系显著性检验; ⑷ 若线性回归关系显著,求x=25时,y的置信度为0.95的预测区间解:引入记号n 10, x 27, y 1.9 电器用电支岀y与家庭平均收入x之间的线性回归方程为

方差分析与回归分析

第八章方差分析与回归分析 §1单因素试验的方差分析 试验指标:研究对象的某种特征。 例各人的收入。 因素:与试验指标相关的条件。 例各人的学历,专业,工作经历等与工资有关的特征。 因素水平:因素所在的状态 例学历是因素,而高中,大学,研究生等,就是学历因素水平;数学,物理等就是专业的水平。 问题:各因素水平对试验指标有无显着的差异? 单因素试验方差分析模型 假设 1)影响试验指标的因素只有一个,为A ,其水平有r 个:1,,r A A L ; 2)每个水平i A 下,试验指标是一个总体i X 。各个总体的抽样过程是独立的。 3)2~(,)i i i X N μσ,且22i j σσ=。 问题:分析水平对指标的影响是否相同 1)对每个总体抽样得到样本{,1}ij i X j n ≤≤,由其检验假设: 原假设0:i j H μμ=,,i j ?;备选假设:1:i j H μμ≠,,i j ?; 2)如果拒绝原假设,则对未知参数21,,,r μμσL 进行参数估计。 注 1)接受假设即认为:各个水平之间没有显着差异,反之则有显着差异。 2)在水平只有两个时,问题就是双正态总体的均值假设检验问题和参数估计问题。 检验方法 数据结构式:ij i ij i ij X μεμδε=+=++,偏差2~(0,)ij N εσ是相互独立的, 11r i i i n n μμ==∑。不难验证,1 0r i k δ==∑。 各类样本均值 水平i A 的样本均值:1 1i n i ij j i X X n == ∑g ; 水平总样本均值:11111i n r r ij i i i j i X X n X n n =====∑∑∑,1 r i i n n ==∑;

方差分析与回归分析

·245· 9 方差分析与回归分析 9.1 基本要求 方差分析与回归分析是数理统计中极具应用价值的统计分析方法,前者定性研究当试验条件变化时,对试验结果影响的显著性;后者则定量地建立一个随机变量与一个或多个非随机变量的相关关系。 1.了解单因素试验的方差分析,了解离差平方和的分解及其意义,掌握检验用统计量及假设检验的一般步骤。 2.了解双因素无重复试验的方差分析及双因素等重复试验的方差分析,了解检验用统计量及假设检验的一般步骤。 3.理解回归分析的基本概念,掌握一元线性回归方程,掌握线性相关显著性检验,会利用线性回归方程进行预测。了解一些可线性化的非线性回归问题的解决方法。 *4.了解简单的多元线性回归及显著性检验。 9.2 内容提要 9.2.1方差分析 方差分析是考察多总体均值差异的显著性,是二总体均值检验的推广。 1.单因素试验的方差分析 (1)单因素方差分析原理 单因素方差分析是指在影响指标的众多因素中仅就某个因素A 加以考察,并设A 有r 个水平:A 1、A 2、…、A r ,每个水平A i 对应的总体i X (i =1,2,…,r )均服从同方差的正态分布,即i X ~),(2σμi N 。记(i in i i X X X ,,,21 )是来自第i 个总体i X (r i ,,2,1 =)的容量

·246 · 为n i 的样本,∑==r i i i n n 11μμ称为理论总平均(其中∑==r i i n n 1 )。 如果因素A 对试验没有显著影响,则试验的全部结果X ij 应来自同一正态总体N (2 ,σμ)。因此,从假设检验的角度看,单因素方差分析的任务就是检验r 个总体N (2 ,σμi )(i =1,2,…,r )的均值是否相等,即检验假设: 0H :r μμμ=== 21,1H :r μμμ,,,21 不全相等。 显然,当r =2时就是二总体的均值检验。 (2)单因素方差分析的检验统计量 离差平方和∑∑==-=r i n j ij T i X X S 112)(的分解: A e T S S S += 其中 ∑∑==-=r i n j i ij e i X X S 112 )(,称为误差平方和。 2 2 1 1 2 11 2 )()(X n X n X X n X X S i r i i r i i i r i n j i A i -=-=-=∑∑∑∑====称为因素A 的效应平方和。且 2 σe S ~)(2 r n -χ,r n S e -=2?σ 是2 σ的无偏估计量。 当H 0为真时,有检验统计量 ) /() 1/(r n S r S F e A --= ~),1(r n r F -- 因此,在检验水平为α时,若由样本观察值算得统计量) /()1/(r n S r S F e A --=之值f 有f ≥),1(r n r F --α成立,则应当拒绝 H 0,否则就接受H 0。 (3)单因素方差分析的计算 方差分析的计算是复杂而繁琐的,一般为方便起见,通常把计算和检验的主要过程列成表9-1的形式,称为单因素试验方差分析表。

题解第8章 方差分析和回归分析

习题8.1 解答 1. 设有三台机器C B A ,,制造一种产品,每台机器各观测5天,其日产量如下表所示,问机器与机器之间是否存在差别?(设各个总体服从正态分布,且方差相等,0.05α=). 解 设321,,μμμ分别代表三台机器种配方(三个总体)的均值,因变量为日产量,因素是机器,水平3=r ,试验次数分别是5321===n n n ,15321=++=n n n n 三个总体具有相同的样本容量.根据题意建立两个假设: 0H : 321μμμ== 1H : 三个总体均值不全相等. 第一步,查),1(r n r F --α的临界值得89.3)12,2(05.0=F . 第二步,根据表8.4先计算样本均值和方差. 2.471=x ;4.622=x ;6.491=x ;2.4421=S ; 3.5022=S ;3.172 3=S . 因为样容量相等,所以有 0667.533 6 .494.622.471 ≈++= = ∑=r x x r i i 再计算组间均方A MS 和组内均方e MS , A MS = 2 ] )0667.536.49()0667.537.62()0667.532.47[(51 )(22211 2 -+-+-= --∑∑==? r x x r i n j i i 8667.333≈ 同样因为样本容量相等,所以e MS = r n x x r i n j i ij i --∑∑==?11 2 )(可简化为下列的计算公式 e MS = 26667.373 3 .173.502.441 21 =++= ∑=r S r i

最后计算F 统计量的值, 958855.826667 .378667 .333≈== e A MS MS F 第三步,由于>=958855.8F 89.3)12,2(05.0=F ,落在拒绝域,不接受0H ,,即三台机器的产量有显著差异,由样本观测值可知第二台机器的日平均产量估计值为62.4台,比其它两台机器的日平均产量大. 使用EXCEL 求解如下: 样本数据文件 方差分析输出结果 2.用五种不同的施肥方案分别得到某种农作物的收获量(kg )如下: 试在显著性水平0.05下检验五种施肥方案对农作物的收获量是否有显著影响. 设各个总体服从正态分布,且方差相等. 解 本题求解类似第一题,略

方差分析和回归分析的区别与联系电子教案

方差分析和回归分析的区别与联系

一、方差分析和回归分析的区别与联系?(以双变量为例) 联系: 1、概念上的相似性 回归分析是为了分析变量间的因果关系,研究自变量X取不同值时,因变量平均值Y的变化。运用回归分析方法,可以从变量的总偏差平方和中分解出已被自变量解释掉的误差(解释掉误差)和未被解释掉的误差(剩余误差); 方差分析是为了分析或检验总体间的均值是否有所不同。通过对样本中自变量X取不同值时所对应的因变量Y均值的比较,推论到总体变量间是否存在关系。运用方差分析,也可以从变量的总离差平方和中分解出已被自变量解释掉的误差和未被自变量解释掉的误差。因此两种分析在概念上所具有的相似性是显而易见的。 2、统计分析步骤的相似性 回归分析在确定自变量X是否为因变量Y的影响因素时,从分析步骤上先对X 和Y进行相关分析,然后建立变量间的回归模型。最后再进行参数的统计显著性检验或对回归模型的统计显著性进行检验。 方差分析在确定X是否是Y的影响因素时,是先从样本所的数据的分析入手,然后考察数据模型,最后对样本均值是否相等进行显著性检验。二者在分析步骤上也具有相似性。 3、假设条件具有一定的相似性 回归分析有五个基本假定,分别是:自变量可以是随机变量也可以是非随机变量;X与Y之间存在的非确定性的相关关系,要求Y的所有子总体,其方差都相等;子总体均值在一条直线上;随机变量Y i是统计独立的,即Y1的数值不

影响Y2的数值,各Y值之间都没有关系;Y值的每一个子总体都满足正态分布。 方差分析的基本假定有:等方差性(总体中自变量的每一取值所对应因变量Y i 的分布都具有相同方差);Y i的分布为正态分布。 二者在假设条件上存在着相同。 4、在总离差平方和中的分解形式和逻辑上的相似性 回归分析中,TSS=RSS+RSSR,而在方差分析中,TSS=RSS+BSS。二者均是以已解释掉的误差与未被解释掉的误差之和为总离差平方和。 5、确定影响因素上的相似性 为简化分析起见,我们假设只有一个自变量X影响因变量Y。在回归分析中,要确定X是否是Y的影响因素,就要看当X已知时,对Y的总偏差有无影响。如果X不是影响Y的因素,等同于只知变数Y的数据列一样,此时用Y去估计每个丫的值,所犯的错误(即偏差)为最小。如果因素X是影响Y的因素,那么当已知X 值后 6、在统计显著性检验上具有相似性 回归分析的总显著性检验,是一种用R2测量回归的全部解释功效的检验。检验RSSR*(N-2)/RSS, 方差分析的显著性检验是一种根据样本数据提取信息所进行的显著性检验。它也是通过F检验进行的。 区别: 1、研究变量的分析点不同

相关主题
文本预览
相关文档 最新文档