当前位置:文档之家› 第八章直线相关与回归分析

第八章直线相关与回归分析

第八章直线相关与回归分析
第八章直线相关与回归分析

第十章一元回归与相关分析

概述:许多问题需要研究多个变量之间的关系,例如生物的生长发育速度就与温度,营养,湿度等许多因素有关。

相关关系:两变量X,Y均为随机变量,任一变量的每一可能值都有另一变量的一个确定分布与之对应。

回归关系:X是非随机变量(如施肥)或随机变量(如穗长),Y是随机变量,对X的每一确定值x i都有Y的一个确定分布与之对应。

区别:1.相关中的两个变量地位对称,互为因果;回归中X是自变量,Y是因变量。

两种意义不同,分析的数学概念与推导过程不同,但如果使用共同标准即使y的残差平方和最小(最小二乘法),可得到相同的参数估计式。因此主要讨论X为非随机变量(不包含有随机误差)的情况,所得到的参数估计式也可用于X为随机变量的情况。

2.分析目的不同。回归分析是建立X与Y之间的数学关系式,用于预测;而相关分析研究X与Y两个随机变量之间的共同变化规律,例如当X增大时Y如何变化,以及这种共变关系的强弱。

分类:

从两个变量间相关(或回归)的程度分三种:

(1)完全相关。一个变量的值确定后,另一个变量的值可通过公式求出(函数关系);生物学研究中不太多见。

(2)不相关。变量之间完全没有任何关系。一个变量的值不能提供另一个变量的任何信息。(3)统计相关(不完全相关)。介于上述两情况之间。知道一个变量的值通过某种公式就可以提供另一个变量的均值的信息。一个变量的取值不完全决定另一个变量的取值,但可或多或少地决定它的分布。科研中最常遇到。

研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析;

研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。

一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。

对两个变量间的直线关系进行相关分析称为直线相关分析;

研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。

注意:1.相关与回归只是一种工具,不是不相干的数据拼凑在一起。

2.除X、Y等需研究的因素外,其他的要严格控制一致。(身高与胸围的关系要控

制体重)

3.对子一般在5对以上

4.需限制自变量范围,结果不能随意外延。

第一节一元线性回归

(一)直线回归方程的建立

对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的n对观测值:

(x1,y1),(x2,y2),……,(x n,y n)

为直观看出x 和y 间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图

例11.1 对大白鼠从出生第6天起,每三天称一次体重,直到第18天。数据见表11.1。试计算日龄X 与体重Y 之间的回归方程。

散点图对X 、Y 之间的关系有直观的、整体上的印象,但是否有某种规律性,是接近一条直线还是一条曲线等,哪一条直线或曲线可以最好地代表X, Y 之间的关系,不能做出判断。

图11.1 大白鼠日龄—体重关系图

一、 一元正态线性回归统计模型:

对于每个Y 的观察值y i 来说,由于总是带有随机误差,观察值就应该是在均值的基础上再加上一个随机误差,即:

i i i x y εβα++= (11.2)

其中),0(~2

σεNID i 。随机误差服从正态分布。这是一元正态线性回归的统计模型。

二、 参数α和β的估计

模型中的α和β是参数,一般不知道。由于只能得到有限的观察数据,无法算出准确的α与β的值,只能求出估计值a 和b ,并得到y i 的估计值为:

i i bx a y

+=? (11.3) a 和b 应使残差i i i y

y e ?-=最小。为了避免使正负e i 互相抵消,定义使残差平方和∑=-n

i i i

y

y

1

2)?(达到最小的直线为回归线,即令:

∑=--=n

i i i e bx a y SS 1

2)(,且SSe 对a 、b 的一阶偏导数等于0

??????

?=??=??00b

SS a

SS e e

得: ???????=---=---∑∑==n i i i i n

i i i bx a y x bx a y 1

1

0)()2(0))(2(

整理后,得

???????

=+=+∑∑∑∑∑=====n i n i n

i i i i i n i n i i i y x x b x a y x b an 1

11211

(11.4) 解此方程,得:

????

?????

-=---=-?-=∑∑∑∑∑∑∑=======x b y a x x

y y x x

n x x n y x y x b n

i i

n

i i i

n i n i i i n

i i n i i n

i i i 1

2

1

12121

11)()

)((/)()()(

这种方法称为最小二乘法 记 ∑=-=

n

i i

xx x x

S 12)(,称为X 的校正平方和;

∑=-=

n

i i

yy y y

S 12)(,称为Y 的总校正平方和;

∑=--=

n

i i i

xy y y x x

S 1

))((,称为校正交叉乘积和,

则: xx

xy S S b =

(11.7)

a 叫样本回归截距,是回归直线与y 轴交点的纵坐标,当x =0时, =

a ;

b 叫样本回归系数,表示x 改变一个单位,y 平均改变的数量;b 的符号反映了x 影响y 的性质,b 的绝对值大小反映了x 影响y 的程度;

y ?

叫做回归估计值,是当x 在在其研究范围内取某一个值时,y 值平均数α+βx 的估计值 回归方程的基本性质: 1

∑=-n

i i i

y

y

1

2)?(最小 2

∑=-n

i i i

y

y

1

)?(=0 3.直线通过(x ,y )

转化后得到回归方程的另一种形式(中心化形式):

在实际计算时,可采用以下公式:

∑∑∑===-

=-

=-

=n

i i i xy n

i i yy n

i i xx y x n

y x S y n y S x n x S 1

2

1212

2..1,.1,.1 例11.1 对大白鼠从出生第6天起,每三天称一次体重,直到第18天。数据见表11.1。试计算日龄X 与体重Y 之间的回归方程。

∑∑∑======n

i n

i i

i

n

i i

y

x

x

1

1

21

,5.104,

810,

60

∑==n

i i

y

1

2,25.2394

∑==n

i i

i y

x 1

5.1390

,

5.1365.104605

1

5.1390,2.210)5.104(51

25.239490

)60(5

1

81022=??-==-==-=∴

xy yy xx S S S

6996

.2125167.15/5.1045167

.190/5.136=?-=-====

∴x b y a S S b xx

xy

即:所求的回归方程为:y = 2.6996 + 1.5167 x

带有统计功能的计算器,只需把数据依次输入,然后按一下键就可得到上述结果。

根据直线回归方程可作回归直线,并不是所有的散点都恰好落在回归直线上,说明用 去估计y 是有偏差的。

)(?x x b y bx x b y y

-+=+-=y

?y

?

三、直线回归的偏离度估计 偏差平方和

∑=-n

i i i

y y

1

2)?(的大小表示了实测点与回归直线偏离的程度,因而偏差

平方和又称为离回归平方和。统计学已经证明:在直线回归分析中离回归平方和的自由度为n -2。于是可求得离回归均方为:

--)2/()(2

n y y 离回归均方是模型中σ2的估计值。

离回归均方的平方根叫离回归标准误,记为 ,即

S yx 的大小表示了回归直线与实测点偏差的程度,即回归估测值 与实际观测值y 偏差的程度,于是把离回归标准误Syx 用来表示回归方程的偏离度。

以后将证明: 利用此式先计算出 ,然后再求Syx 。

四、直线回归的显著性检验

x 和y 变量间即使不存在直线关系,但由n 对观测值(xi ,yi )也可以根据上面的方法求得一个回归方程。显然,这样的回归方程所反应的两个变量间的直线关系是不真实的。需要判断直线回归方程的真实性。

先探讨依变量y 的变异,然后再作出统计推断。 1、 直线回归的变异来源

的分解图

1) 一元回归的方差分析

(1) 无重复的情况。

y 的总校正平方和可进行如下的分解:

yx S ∑

--=)2/()?(2n y y S yx y

?x xy y SS

SP SS y y /)?(2

2-=-∑

2)?(∑

-y y )(y y -)?()?()(y y y y

y y -+-=-

∑∑∑∑∑=====--+-+-=-+-=-n i n

i n

i i i i i i i n

i n

i i i i i

y y y y y y y

y y y y

y y y

1

1

1

221

1

22

)?)(?(2)?()?()]?()?[()(

)(]

)())(([)

)(())(()?()?(1

1

21

1

1

=?-=----=--+-=--+--=--∑∑∑∑∑=====xx xy n i n

i i i i n

i i i i n

i i i i i n i i i S b S b x x b x x y y b x b bx bx x b y y x b a bx a bx a y y y y

y

∑∑∑===-+-=-∴n

i n

i n

i i i i i y y y

y y y 1

1

1

22

2

)?()?()( 即: SSy = SSe + SS R

y 的总校正平方和 残差平方和 回归平方和 自由度: n-1 n-2 1

反映了y 的总变异程度,称为y 的总平方和,记为SSy ;

反映了由于y 与x 间存在直线关系所引起的y 的变异程度,称为回归平方和,记为SS R ;

反映了除y 与x 存在直线关系以外的原因,包括随机误差所引起的y 的变异程度,称为离回归平方和或剩余平方和,记为SSe 。

把y 的总校正平方和分解成了残差平方和与回归平方和。MS e 可作为总体方差σ2的估计量,而MS R 可作为回归效果好坏的评价。如果MS R 仅由随机误差造成的话,说明回归失败,X 和Y 没有线性关系;否则它应显著偏大。因此可用统计量

)

2/(-==

n SS SS MS MS F e R

e R (11.10) 对H 0: β = 0进行检验。若F < F α(1, n-2),则接受H 0,否则拒绝。 简化公式:

对例11.1作方差分析 解:由以前计算结果:

SS y = 210.2,df = 4; SS e = 3.1704, df = 3,

2)(∑

-y y ∑-2)?

(y y 2)(∑

-y y 22)]([)?(∑

∑-=-=x x b y y SS R xy

x bSP SS b x x b ==-=∑

2

22)(x xy

xy x xy SS SP SP SS SP 2

=

?=x

xy

y R y e SS SP SS SS SS SS 2

-=-=

∴ SS R = 210.2 ?3.1704 = 207.03, df = 1 90.1953

/1704.303

.207==

F

查表得F 0.95(1, 3) = 10.13, F 0.99(1, 3) = 34.12

F > F 0.99(1, 3),拒绝H 0,差异极显著。即应认为回归方程有效。

(2) 有重复的情况:

设在每一个x i 取值上对Y 作了m 次观察,结果记为y i1, y i2, ……y im , 则线性统计模型变为:

ij i ij x y εβα++=, i = 1, 2, … n, j = 1, 2, … m

估计值仍为:i i bx a y

+=? 现在y 的总校正平方和可分解为: SS y = SS R + SS LOF + SS pe

其中SS LOF 称为失拟平方和,SS pe 为纯误差平方和,表达式和自由度分别为:

1,

..)(11

2-=-=∑∑==mn df y y SS n i m

j ij y

∑==-?=n

i i R df y y

m SS 1

21,..)?(

n

mn df y y SS n df y

y m SS n i m

j i ij pe n

i i i LOF -=-=-=-?=∑∑∑===11

2.1

2.,

)(2

,)?(

可试证明上述分解中的三个交叉项均为0。

统计检验步骤为: I. 令pe

LOF

MS MS F =

1,它服从F(n-2, mn-n)

若F 检验差异显著,则可能的原因有:

(1)除X 以外还有其他变量影响Y 的取值,而统计时没有加以考虑; (2)模型不当,即X 与Y 之间不是线性关系;

此时无必要再进一步对MS R 作检验,而应想办法找出原因,并把它消除后重作回归。

若差异不显著,则把MS LOF 和MS pe 合并,再对MS R 作检验: II. pe

LOF pe LOF R

df df SS SS MS F ++=

2,它服从F(1, mn-2)

若差异显著,说明回归是成功的,X, Y 间确有线性关系;若差异仍不显著,则回归失败,其可能的原因为:

(1)X ,Y 无线性关系;

(2)误差过大,掩盖了X, Y 间的线性关系。

如有必要,可设法减小实验误差,或增加重复数重做实验后再重新回归。

二)一元回归的t -检验 由于MS e 的自由度为n-2,因此上述两方差的自由度也均为n-2。有了a 和b 的方差与均值,我们就可构造统计量对它们进行检验: H 0 : β = 0

H A : β ≠ 0 (双侧检验)

或: H A : β > 0 (或β< 0) (单侧检验)

统计量:e

xx

b b MS S b S b t ?=

=/

其中,Sb 为回归系数标准误。

当H 0成立时,t a ~ t(n-2),可查相应分位数表进行检验。 对例11.1中的β作t-检验:

H 0: β=0

解:2

/222

--=--=-=n S S S n bS S n SS MS xx xy yy xy yy e

e 0583.12

590

/5.1362.2102=--=

xx e b S MS b S b t ///==

99.131084.0/5167.190/0583.1/5167.1===

查表,t 0.995(3) = 5.841 < t ,∴ 差异极显著,应拒绝H 0,即β ≠ 0,或X 与Y 有着极显著的线性关系。

上述统计量还有一个用途:进行两个回归方程间的比较。即检验H 0: β1 = β2和H 0: α1 = α2。如果两H 0均被接受,则可认为两组数据是抽自同一总体,从而可将两回归方程合并,得到一个更精确的方程。

例11.3

是否可从它们得到统一的回归方程?

2

22122210:,:σσσσ≠=A H H

yx

S

2565.11080

.01357

.021===

e e MS MS F 查表,F 0.975(6, 5) = 6.978 > F, ∴接受H 0,可认为两总体方差相等。 计算公共的总体方差:

1231

.011

1080

.051357.064

)2()2(212

211≈?+?=

-+-+-=

n n MS n MS n MS e e e

(2). 检验回归系数β1与β2是否相等:H 0: β1 = β2; H A : β1 ≠ β2

8766.103517.0066

.0)

162

1

875.2571(1231.0074.1140.1)

11(2

12

122

212

1=≈+?-=

+-=

+-=xx xx e b b S S MS b b S S b b t

查表,得t 0.975(11) = 2.201 > t, ∴接受H 0,可认为两回归系数相等。 共同总体回归系数的估计值为:

1146.1162875.257174

2942121212211≈++=++=+?+?=

xx xx xy xy xx xx xx xx S S S S S S b S b S b

(3). 再检验α1,α2是否相等:H 0: α1 = α2; H A : α1 ≠ α2

1702

.222556

.37

)

162

87875.257375.987181(1231.015

.3115.38)

1

1(2

22

2

2212112

122

212

1-≈-≈

+++?+-=

+++-=

+-=xx xx e a a S X n S X n MS a a S S a a t

查表,t 0.975(11) = 2.201, ,)11(975.0t t >∴ 接受H 0,可认为: α1 = α2。

若检验结果为α1 ≠ α2,此题即可结束;但若检验结果为α1 = α2,则需把全部原始数据放在一起,重新进行回归:

S xx = 902.9333, S xy = 965.4667, S yy = 1035.7333, x = 93.067, y = 68.533,

b =

xx

xy S S = 1.0693,

a =x

b y -= ?30.9787

从而得到合并的回归方程x y

0693.19787.30?+-=。

现在证明t 检验与前述的F 检验是一致的: 前已证明:SS e = S yy ? b ? S xy ,

∴SS R = S yy ? SS e = b ? S xy , xx

e

b S MS S =

2

222

2t S b S S S b MS MS F b

xx b xy e R ==??==∴

五、点估计与区间估计

前边已经证明a 和b 是α和β的点估计;但作为预测值仅给出点估计是不够的,一般要求给出区间估计,即给出置信区间。 α和β的区间估计

已经证明a 和b 是α和β的点估计,并求出了它们的方差。因此给出置信区间就很容易了:

)2(~/--n t S MS b xx

e β

∴β的95%置信区间为:

xx e S MS n t b /)2(975.0-± (11.13)

同理

)2(~)

1(2

-+-n t S x n MS a xx

e α

∴α的95%置信区间为:

)1()2(2

975.0xx

e S x n MS n t a +-± (11.14)

这与以前假设检验中的置信区间求法完全一样。若置信水平为99%,把分位数相应换为t 0.995(n-2)即可。

对例11.1中的α和β给出95%置信区间。 解:从前边的计算可知:

a = 2.6996,

b = 1.5167, S xx = 90, MS e = 1.0568, n = 5, 12=x 查表,得t 0.975(3) = 3.182

3887

.4)90

12

51(0568.1182.3)1()3(3448.090

0568

.1182.3)

3(2

2

975.0975.0=+??=+=?=xx e xx e S x n MS t S MS t

∴ α的95%置信区间为:

2.6996 ± 4.3887, 即(-1.6891, 7.0883) β的95%置信区间为:

1.5167 ± 0.3448, 即(1.1719, 1.8615)

第二节 相关分析

直线相关分析是根据x 、y 的实际观测值,计算表示两个相关变量x 、y 间线性相关程度和性质的统计量——相关系数r 并进行显著性检验。

一、相关系数。

例:(1)X 7 7 1 6 5 3 8 9 3 1 1 总和50 Y 5 9 6 1 3 1 9 4 6 6 6 总和52 (2)X 9 8 7 9 6 5 3 3 1 1 总和50 Y 9 9 8 6 6 5 4 3 1 1 总和52 (3)X 1 1 3 3 5 6 7 1 8 9 总和50 Y 9 9 8 6 6 5 4 3 1 1 总和52 可见:(1)X 、Y 关系紊乱(2)X 减小、Y 也减小(3)X 增大、Y 减小

作散点图,如果再以X 和Y 的平均数作坐标原点,将原散点图划分为四个象限,如果各点均匀分布则 =0,落在2、4象限则小于0——负相关, 落在1、3象限则大于0——正相关,为消除变异程度(n-1)和单位的影响,需除以标准差。

yy

xx xy S S SPxy y y x x y y x x n y y n x x n y y x x SxSy

y y x x n r ?=

----=

-------=---=

∑∑∑∑∑∑2

2

2

2)

()())((1

)(1

)(1)

)(()

)((11

根据以前的推导结果,有:yy

e yy R

yy

xy yy

xx xy

S SS S SS S bS S S S r -==

=

?=12

2

性质: 1≤r 。

当1=r 时,从上式可看出SS e = 0,即用y

?可以准确预测y 值。此时若X 不是随机变量,则Y 也不是随机变量了。

当r = 0时,SS e = S yy ,回归一点作用也没有,即用X 的线性函数完全不能预测Y 的变化。但这时X 与Y 间还可能存在着非线性的关系。

当10<

∑--)()(y y x x ??

?

?????-????????--

=

∑∑∑∑∑∑∑n y y n x x n

y x xy 2222)()()

)((

但不能准确预测,这说明Y 还受其他一些因素,包括随机误差的影响。

综上,r 可以作为X ,Y 间线性关系强弱的一种指标。非常直观,接近于1就是线性关系强,接近于0就是线性关系弱;而其他统计量都需要查表后才知检验结果。

二、决定系数和相关系数 前面已经证明了等式: 从这个等式:y 与x 直线回归效果的好坏取决于回归平方和 与离回归平方和 的大小,或者说取决于回归平方和在y 的总平方和

中所占的比例的大小。这个比例越大,y 与x 的直线回归效果就越好,反

之则差。

比值

叫 做 x 对 y 的决定系数,记为 r 2,即

决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低。显然有0≤r 2≤1。因为:

而SPxy /SSx 是以x 为自变量、y 为依变量时的回归系数byx 。若把y 作为自变量、x 作为依变量,则回归系数 bxy =SPxy /Ssy ,所以决定系数r 2等于y 对x 的回归系数与x 对y 的回归系数的乘积。即决定系数反应了x 为自变量、y 为依变量和y 为自变量、x 为依变量时两个相关变量x 与y 直线相关的信息,即决定系数表示了两个互为因果关系的相关变量间直线相关的程度。但决定系数介于0和1之间,不能反应直线关系的性质——是同向增减或是异向增减。

另外,r 显著即一个显著的回归方程并不一定具有实践上的预测意义

如一个资料x 、y 两个变量间的相关系数r =0.5,在 df = 24 时 ,r 0.01(24) = 0.496,r >r0.01(24),表明相关系数极显著。而r 2=0.25,即x 变量或y 变量的总变异能够通过y 变量或x 变量以直线回归的关系来估计的比重只占25%,其余的 75% 的变异无法借助直线回归来估计。

计算相关系数:根据公式

三、相关系数的显著性检验

在一般情况下r 不是正态分布,直接检验有困难。但当总体相关系数ρ= 0时,r 的分布

近似于正态分布,此时用MSe 代替2

σ,就可以对0:0=ρH 作t 检验。这种检验与对回归

系数b 的检验:0:0=βH 是等价的。可证明如下: b 的t 检验统计量为:t = b/S b 。 b=S xy /S xx ,

=-∑2)(y y ∑

∑-+-22)?()?(y y y y 2)?(∑

-

y y ∑

-2)?(y y 2)(∑

-y y /)?(2∑-y y 2)(∑

-y y ∑

∑--=

22

2)()

?(y y y y r xy

yx y xy x xy y x xy b b SS SP SS SP SS SS SP y y y y r ?=?==--=∑

∑22

2

2)()?(

2

1)2(1

)1(12

2

2--?=-??-?=?--==

n r S S S n S S S S S n bS S S MS S xx yy xx

yy xx xy yy xx xy

yy xx

e

b 代入t 的表达式,得:

)2(~12

1212222---=--?=--??

=

n t r

n r r n r r n S S S S t yy xx xx

xy 。

因此可用上述统计量对0:0=ρH 作统计检验。

为使用方便,已根据上述公式编制专门的相关系数检验表,可根据剩余自由度及自变量

个数直接查出r 的临界值。

若必须对ρ≠0的情况作统计检验,可采用反双曲正切变换: r

r

Z -+=

11ln

21 (11.20) 当n 充分大时,可证明Z 渐近正态分布N )31,

)1(2(--+

n n ρ

ξ, 其中ρ

ρξ-+=11ln 21。

利用统计量Z 可对210,ρρρρ==等进行检验。但这一检验方法用得很少。 求出例11.1相关系数r ,并作统计检验。

解:利用以前的计算结果,可得:

99

.1399242

.012

599242.01299242

.02.210905

.1362

2

≈--?=

--=

≈?=?=r

n r Z S S S r yy xx xy

这里求得的Z 值与前面求得的t 值是相同的,它们本来就是同一个统计量。 查表,t 0.995(3) = 5.841 < t, ∴差异极显著,即X 与Y 有极显著的线性关系。

若直接查相关系数检验表,可得:剩余自由度为3,独立自变量为1,α=0.05的r 临界值为0.878, α=0.01的临界值为0.959, ∴差异仍为极显著。 二、 相关系数与回归系数间的关系

在X 和Y 均为随机变量的情况下,通常可以X 为自变量,Y 为因变量建立方程,也可反过来,以Y 为自变量,X 为因变量建立方程。此时它们的地位是对称的。 取X 为自变量,Y 为因变量,回归系b 为:xx xy S S b /= 取Y 为自变量,X 为因变量,回归系数b’为:yy xy S S b /'=

',22b b r b b S S S r yy

xx xy

?='?=?=

即:相关系数实际是两个回归系数的几何平均值。这正反映了相关与回归的不同:相关是双向的关系,而回归是单向的。

三种对回归方程统计检验的的比较:

1.对一元线性回归来说,它们的基本公式其实是等价的,因此结果也是一致的。

2.各有优缺点:对b的t检验可给出置信区间;方差分析在有重复的情况下可分解出

纯误差平方和,从而可得到进一步的信息;相关系数则既直观,又方便(有专门表格可查),因此使用广泛。

需注意,不论采用什么检验方法,数据都应满足以下三个条件:独立,抽自正态总体,方差齐性。

统计学基础 第八章 相关与回归分析

统计学基础第八章相关与回归分析 【教学目的】 1.掌握相关系数的测定和性质 2.明确相关分析与回归分析的特点 3.建立回归直线方程,掌握估计标准误差的计算 【教学重点】 1.相关关系、相关分析和回归分析的概念 2.相关系数计算 3.回归方程的建立和依此进行估计和预测 【教学难点】 1.相关分析和回归分析的区别 2.相关系数的计算 3.回归系数的计算 4.估计标准误的计算 【教学时数】 教学学时为8课时 【教学内容参考】 第一节相关关系 一、相关关系的含义 宇宙中任何现象都不是孤立地存在的,而是普遍联系和相互制约的。这种现象间的相互联系、相互制约的关系即为相关关系。 相关关系因其依存程度的不同而表现出相关程度的差别。有些现象间存在着严格的数据依存关系,比如,在价格不变的条件下销售额量之间的关系,圆的面积与半径之间的关系等等,均具有显著的一一对应关系。这些关系可由数学中的函数关系来确切的描述,因而也可以认为是一种完全相关关系。有些现象间的依存关系则没有那么严格。当一种现象的数量发生变化时,另一种现象的数量却在一定的范围内发生变化,比如身高与体重的关系就是如此。一般来说,身高越高,

体重越重,但二者之间的关系并非严格意义上的对应关系,身高1.75米的人,对应的体重会有多个数值,因为影响体重的因素不只身高而已,它还会受遗传、饮食习惯等因素的制约和影响。社会经济现象中大多存在这种非确定的相关关系。 在统计学中,这些在社会经济现象之间普遍存在的数量依存关系,都成为相关关系。在本章,我们主要介绍那些能用函数关系来描述的具有经济统计意义的相关关系。 二、相关关系的特点 1.现象之间确实存在数量上的依存关系 如果一个现象发生数量上的变化,则另一个现象也会发生数量上的变化。在相互依存的两个变量中,可以根据研究目的,把其中的一个变量确定为自变量,把另一个对应变量确定为因变量。例如,把身高作为自变量,则体重就是因变量。 2.现象之间数量上的关系是不确定的 相关关系的全称是统计相关关系,它属于变量之间的一种不完全确定的关系。这意味着一个变量虽然受另一个(或一组)变量的影响,却并不由这一个(或一组)变量完全确定。例如,前面提到的身高和体重之间的关系就是这样一种关系。 三、相关关系的种类 现象之间的相互关系很复杂,它们涉及的变动因素多少不同,作用方向不同,表现出来的形态也不同。相关关系大体有以下几种分类: (一)正相关与负相关 按相关关系的方向分,可分为正相关和负相关。当两个因素(或变量)的变动方向相同时,即自变量x值增加(或减少),因变量y值也相应地增加(或减少),这样的关系就是正相关。如家庭消费支出随收入增加而增加就属于正相关。如果两个因素(或变量)变动的方向相反,即自变量x值增大(或减小),因变量y值随之减小(或增大),则称为负相关。如商品流通费用率随商品经营的规模增大而逐渐降低就属于负相关。 (二)单相关与复相关 按自变量的多少分,可分为单相关和复相关。单相关是指两个变量之间的相关关系,即所研究的问题只涉及到一个自变量和一个因变量,如职工的生活水平与工资之间的关系就是单相关。复相关是指三个或三个以上变量之间的相关关系,即所研究的问题涉及到若干个自变量与一个因

第8章 相关分析与回归分析及答案

第八章相关与回归分析 一、本章重点 1.相关系数的概念及相关系数的种类。事物之间的依存关系,可以分为函数关系和相关关系。相关关系又有单向因果关系和互为因果关系;单相关和复相关;线性相关和非线性相关;不相关、不完全相关和完全相关;正相关和负相关等类型。 2.相关分析,着重掌握如何画相关表、相关图,如何测定相关系数、测定系数以及进行相关系数的推断。相关表和相关图是变量间相关关系的生动表示,对于未分组资料和分组资料计算相关系数的方法是不同的,一元线性回归中相关系数和测定系数有着密切的关系,得到样本相关系数后还要对总体相关系数进行科学推断。 3.回归分析,着重掌握一元回归的基本原理方法,一元回归是线性回归的基础,多元线性回归和非线性回归都是以此为基础的。用最小平方法估计回归参数,回归参数的性质和显著性检验,随机项方差的估计,回归方程的显著性检验,利用回归方程进行预测是回归分析的主要内容。 4.应用相关与回归分析应注意的问题。相关与回归分析都有它们的应用范围,必须知道在什么情况下能用,什么情况下不能用。相关分析和回归分析必须以定性分析为前提,否则可能会闹出笑话,在进行预测时选取的样本要尽量分散,以减少预测误差,在进行预测时只有在现有条件不变的情况下才能进行,如果条件发生了变化,原来的方程也就失去了效用。 二、难点释疑 本章难点在于计算公式多,不容易记忆,所以更要注重计算的练习。为了掌握基本计算的内容,起码应认真理解书上的例题,做完本指导书上的全部计算题。初学者可能会感到本章公式多且复杂,难于记忆,其实只要抓住Lxx、Lxy、Lyy 这三个记号,记住它们的展开式,几个主要的公式就不难记忆了。如果能自己把这些公式推证一下,搞清其关系,那就更容易记住了。 三、练习题 (一)填空题 1事物之间的依存关系,根据其相互依存和制约的程度不同,可以分为(函数关系)和(相关关系)两种。 2.相关关系按相关关系的情况可分为()和();按自变量的多少分(单相关)和(复相关);按相关的表现形式分(线性相关)和(非线性相关);按相关关系的密切程度分(完全相关)、(不完全相关)和(不相关);按相关关系的方向分(正相关)和(负相关)。 3.回归方程只能用于由(自变量)推算(因变量)。 4.一个自变量与一个因变量的线性回归,称为(一元线性回归) 5.估计变量间的关系的紧密程度用(相关系数) 6.在相关分析中,要求两个变量都是随机的,而在回归分析中要求自变量是(不是随机的),因变量是(随机的)。 7.已知剩余变差为250,具有12对变量值资料,那么这时的估计标准误差是()。 8.将现象之间的相关关系,用表格来反映,这种表称为(相关表),将现象之间的相关关系用图表示称(相关图)。

高中数学:第八章 方差分析与回归分析

高中数学:第八章 方差分析与回归分析 §1 单因素试验的方差分析 试验指标:研究对象的某种特征。 例 各人的收入。 因素:与试验指标相关的条件。 例 各人的学历,专业,工作经历等与工资有关的特征。 因素水平:因素所在的状态 例 学历是因素,而高中,大学,研究生等,就是学历因素水平;数学,物理等就是专业的水平。 问题:各因素水平对试验指标有无显著的差异? 单因素试验方差分析模型 假设 1) 影响试验指标的因素只有一个,为A ,其水平有r 个:1,,r A A L ; 2) 每个水平i A 下,试验指标是一个总体i X 。各个总体的抽样过程 是独立的。 3)2~(,)i i i X N μσ,且22i j σσ=。 问题:分析水平对指标的影响是否相同 1)对每个总体抽样得到样本{,1}ij i X j n ≤≤,由其检验假设: 原假设0:i j H μμ=,,i j ?;备选假设:1:i j H μμ≠,,i j ?; 2)如果拒绝原假设,则对未知参数21,,,r μμσL 进行参数估计。 注 1)接受假设即认为:各个水平之间没有显著差异,反之则有显著差异。

2)在水平只有两个时,问题就是双正态总体的均值假设检验问题和参数估计问题。 检验方法 数据结构式:ij i ij i ij X μεμδε=+=++,偏差2~(0,)ij N εσ是相互独立的, 11r i i i n n μμ==∑。不难验证,1 0r i k δ==∑。 各类样本均值 水平i A 的样本均值:1 1i n i ij j i X X n == ∑g ; 水平总样本均值:11111i n r r ij i i i j i X X n X n n =====∑∑∑,1 r i i n n ==∑; 偏差平方和与效应 组间偏差平方和: 2 221 1 ()r r A i i i i i i S n X X n X nX ===-=-∑∑g g ;(衡量由不同水平产生的差异) 组内偏差平方和: 2 2 211 1 1 ()()i i n n r r E ij i ij i i i j i j S X X X n X =====-=-∑∑∑∑g g ; (衡量由随机因素在同一水平上产生的差异) 总偏差平方和: 2 2 211 1 ()i n r r T ij i ij i j i S X X n X nX ====-=-∑∑∑; (综合衡量因素,水平之间,随机因素的差异) 定理1(总偏差平方和分解定理) T A E S S S =+。 即2 2 211 11 11 ()()()i i i n n n r r r ij ij i i i j i j i j X X X X X X ======-=-+-∑∑∑∑∑∑g g ,或直接证明。 注:利用11 ()()0i n r ij i i i j X X X X ==--=∑∑即可证明。 定理2(统计特性) 2 ()E ES n r σ=-,2 21(1)r A i i i ES r n σδ==-+∑,2 21 (1)r T i i i ES n n σδ==-+∑。

2015年《统计学》第八章 相关与回归分析习题及满分答案

2015年《统计学》第八章相关与回归分析习题及满分答案 一、单选题 1.相关分析研究的是( A ) A、变量间相互关系的密切程度 B、变量之间因果关系 C、变量之间严格的相依关系 D、变量之间的线性关系 2.若变量X的值增加时,变量Y的值也增加,那么变量X和变量Y之间存在着(A)。 A、正相关关系 B、负相关关系 C、直线相关关系 D、曲线相关关系3.若变量X的值增加时,变量Y的值随之下降,那么变量X和变量Y之间存在着(B)。 A、正相关关系 B、负相关关系 C、直线相关关系 D、曲线相关关系 4.相关系数等于零表明两变量(B)。 A.是严格的函数关系 B.不存在相关关系 C.不存在线性相关关系 D.存在曲线线性相关关系 5.相关关系的主要特征是(B)。 A、某一现象的标志与另外的标志之间的关系是不确定的 B、某一现象的标志与另外的标志之间存在着一定的依存关系,但它们不是确定的关系 C、某一现象的标志与另外的标志之间存在着严格的依存关系 D、某一现象的标志与另外的标志之间存在着不确定的直线关系 6.时间数列自身相关是指( C )。

A、两变量在不同时间上的依存关系 B、两变量静态的依存关系 C、一个变量随时间不同其前后期变量值之间的依存关系 D、一个变量的数值与时间之间的依存关系 7.如果变量X和变量Y之间的相关系数为负1,说明两个变量之间 (D)。 A、不存在相关关系 B、相关程度很低 C、相关程度很高 D、完全负相关 8.若物价上涨,商品的需求量愈小,则物价与商品需求量之间(C)。 A、无相关 B、存在正相关 C、存在负相关 D、无法判断是否相关 9.相关分析对资料的要求是(A)。 A.两变量均为随机的 B.两变量均不是随机的 C、自变量是随机的,因变量不是随机的 D、自变量不是随机的,因变量是随机的 10.回归分析中简单回归是指(D)。 A.时间数列自身回归 B.两个变量之间的回归 C.变量之间的线性回归 D.两个变量之间的线性回归 11.已知某工厂甲产品产量和生产成本有直线关系,在这条直线上,当产量为1000时,其生产成本为30000元,其中不随产量变化的成本为6000元,则成本总额对产量的回归方程为( A ) A. y=6000+24x B. y=6+0.24x C. y=24000+6x D. y=24+6000x 12.直线回归方程中,若回归系数为负,则(B) A.表明现象正相关 B.表明现象负相关

第八章、相关与回归分析

第八章、相关与回归分析 一、单项选择题(在每小题的四个备选答案中,选出一个正确答案) 1.若物价上涨,商品的需求量相应减少,则物价与商品需求量之间的关系为( ) A. 不相关 B. 负相关 C. 正相关 D. 复相关 2.判断现象间线性相关关系的密切程度的主要方法是( ) A. 对现象做定性分析 B. 编相关表 C. 绘相关图 D. 计算相关系数 3.相关系数可以说明( ) A. 现象之间的因果关系 B. 现象之间的函数关系 C. 相关关系的方向和密切程度 D. 相关关系的表现形式 4.相关系数r的取值范围( ) A. 0≤r≤1 B. -1<r<1 C. -1≤r≤1 D. -1≤r≤0 5.配合一元线性回归方程对资料的要求是( ) A. 因变量是给定的数值, 自变量是随机的 B.自变量是给定的数值, 因变量是随机的 C. 自变量和因变量都是随机的 D.自变量和因变量都不是随机的 6.产品产量与单位成本的相关系数是-0.88, 单位成本与利润率的相关系数是-0.94, 产量与利润之间的相关系数是0.81, 因此( ) A. 产量与利润的相关程度最高 B. 单位成本与利润率的相关程度最高 C. 产量与单位成本的相关程度最高 D.看不出哪对变量间的相关程度最高 7.每吨铸件成本(元)和每一个工人劳动生产率(吨)之间的回归方程为 , 这意味着劳动生产率提高1吨,单位成本平均将( ) A. 降低269.5元 B. 提高269.5元 C. 降低0.5元 D. 提高0.5元 8.每吨铸件成本(元)和铸件废品率(%)之间的回归方程为, 这意味着( ) A. 废品率每增加1%, 每吨成本平均增加64元 B. 废品率每增加1%, 每吨成本平均增加8% C. 废品率每增加1%, 每吨成本平均增加8元 D. 废品率每增加1%, 则每吨成本为56元 9.下列不属于相关关系的是( ) A.劳动生产率与工资的关系 B.投资额与国民收入的关系

第八章相关与回归分析习题参考答案

二、计算与分析题 1.根据下列资料编制直线回归方程并计算估计标准误差。 (1)已知8 .29.036 2522 ====a r y x σσ解:b=x bx a Y r x y 08.18.2?,08.15 69.0+=+==? =σσ 62 .281.01612=-=-≈r S y y σ(2)已知X 、Y 两变量, ,是的两倍,求相关系数r=? 6.1=xx xy L L y σx σ解:r= 8.02 6 .1== yy xx xy L L L 2.某家俱厂生产家俱的总成本与木材耗用量有关,根据记录资料如下表: 月 份 1234567木材耗电量(千米) 2.4 2.1 2.3 1.9 1.9 2.1 2.4总成本(千克) 3.1 2.6 2.9 2.7 2.8 3.0 3.2 (1)建立以总成本为因变量的回归直线方程。(2)计算回归方程的估计标准误差。(3)计算相关系数,判断其相关程度。解:(1)=a+bx=1.27+0.768x (2)=1592.022=-∑-∑-∑=n xy b y a Y S y (3)r==0.754y x b σσ3、广告的作用测定:在现代营销战中,广告的作用功不可没。受娃娃哈集团的委托,时代统计调查事务所调查研究了1995-2004年期间的娃娃哈集团的广告投入力度与平均销量的问题。其有数据资料整理如下表所示。 年份广告费用(万元) 平均销量(百万箱) 1995199619971998199920002001200220032004 891215161718192123 8.0010.4010.6712.3514.2315.5416.4218.7019.5022.87

第八章相关与回归分析

第八章相关分析 ●第一节相关分析概述 ●第二节直线相关关系的测定 ●第三节回归分析 第一节相关分析概述 ●一、相关关系的概念 ●现象相互之间的数量关系可以从形式上分为两种类型:一类是严格的确定性的函数关 系,另一类是不严格的不确定性的相关关系。 ●相关关系是现象之间确实存在有数量上的依存关系,但这种数量上的关系是不确定的。函数关系的例子 ?某种商品的销售额(y)与销售量(x)之间的关系可表示为y = px (p 为单价) ?圆的面积(S)与半径之间的关系可表示为S= R2 ?企业的原材料消耗额(y)与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系可表示为y = x1 x2 x3 函数关系 1.是一一对应的确定关系 2.设有两个变量x 和y ,变量y 随变量x 一起变化,并完全依赖于x ,当变量x 取 某个数值时,y 依确定的关系取相应的值,则称y 是x 的函数,记为y = f (x),其中x 称为自变量,y 称为因变量 3.各观测点落在一条线上 相关关系(几个例子) 相关关系的例子 ?父亲身高(y)与子女身高(x)之间的关系 ?收入水平(y)与受教育程度(x)之间的关系 ?粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系 ?商品的消费量(y)与居民收入(x)之间的关系 ?商品销售额(y)与广告费支出(x)之间的关系 相关关系 1.变量间关系不能用函数关系精确表达 2.一个变量的取值不能由另一个变量唯一确定 3.当变量x 取某个值时,变量y 的取值可能有几个 4.各观测点分布在直线周围 二、相关关系的种类 (1)相关关系按涉及的变量的多少分为单相关、复相关和偏相关。 单相关就是两个变量之间的相关关系。是研究一个因变量与一个自变量的依存关系。 复相关就是多个变量之间的相关关系。是研究一个因变量与两个或两个以上自变量的依存关系。 偏相关就是在复相关研究中,如果假定其它变量不变,仅研究某一个变量对另一个变量的依存关系。 (2)相关关系按方向不同分为正相关和负相关。 正相关是指变量之间存在着同向变动的相关关系,即当一个变量的数值有小变大,另一个变量的数值也相应地由小变大 负相关是指变量之间存在着反向变动的相关关系,即当一个变量的数值有小变大,另一个变量的数值却由大变小。 (3)相关关系按表现的形式不同分为线性相关和非线性相关。 当一个变量变动时,另一个变量也随之发生大致均等的变动,从图形上看,二者对应点分布近似地在一条直线附近,这种相关关系就称为线性相关关系。 当一个变量变动时,另一个变量也随之发生变动,但从图形上看,二者对应点分布

相关主题
文本预览
相关文档 最新文档