当前位置:文档之家› 《线性回归R2-F-t检验

《线性回归R2-F-t检验

《线性回归R2-F-t检验
《线性回归R2-F-t检验

第二章一元线性回归模型

基本要求:

1、了解相关与回归的概念

2、理解线性回归模型的假定

3、掌握普通最小二乘法

4、理解最小二乘估计量的性质

5、会进行回归模型的检验

第一节一元线性回归模型概述

一、相关与回归的基本概念

(一)变量之间的关系

各种经济变量之间的关系,一般可以分成两类,即完全确定的关系和非确定性的依存关系。

1.确定性关系或函数关系

如果一个变量值能被一个或若干个其他变量值按某一规律唯一的确定,则这类变量之间就具有完全确定的关系。

例如,当每吨水的价格为P元时,居民应缴纳的水费Y(元)与用水量X(吨)之间的关系可表示为Y=PX。

2.非确定性关系

如果变量之间既存在密切的数量关系,又不能由一个(或几个)变量之值精确的求出另一个变量之值,但在大量统计资料的基础上,可以判别这类变量之间的数量变化具有一定的规律性,也称为统计相关关系。

例如消费支出Y与可支配收入X之间有一定的关系,在一定范围内,收入增加,在理论上可以估计出增加的消费支出额。但应看到,可支配收入虽然是影响消费支出的重要因素,却不是唯一的因素。因此,根据可支配收入并不能精确的求出消费支出,也就不能用精确的函数关系表达式来表示这两个变量之间的关系。

计量经济学就是研究变量间的非确定关系的,变量间的统计相关关系可以通过相关分析和回归分析来研究。

(二)相关分析

1、涵义

相关分析是通过对经济现象的依存关系的分析,找出现象间的相互依存的形式和相关程度,以及依存关系的变动规律。

2、类型——从变量间的依存形式看,可分为线性相关和非线性相关。

线性相关反映变量间的依存关系可以近似的表示为一条直线;变量间的依存关系近似的表示为一条曲线则称为非线性相关。

3、指标

从变量间的相关程度看,可以通过相关系数来度量。两个变量之间的相关程度可以用简单相关系数来衡量;多个变量之间的相关程度可以用复相关系数、偏相关系数等来衡量。

(三)回归分析

1.回归的定义

回归分析是研究某一被解释变量(因变量)与另一个或多个解释变量(自变量)间的依存关系,其目的在于根据已知的解释变量值或固定的解释变量值(重复抽样)来估计和预测被解释变量的总体平均值。

在研究某一社会经济现象的发展变化规律时,所研究的现象或对象称为被解释变量,它是分析的对象,把引起这一现象变化的因素称为解释变量,它是引起这一现象变化的原因。

被解释变量则反映了解释变量变化的结果。

2.回归模型的分类

(1)按模型中自变量的多少,分为一元回归模型和多元回归模型。

一元回归模型是指只包含一个解释变量的回归模型

多元回归模型是指包含两个或两个以上解释变量的回归模型。

(2)按模型中参数与被解释变量之间是否线性,分为线性回归模型和非线性回归模型。

对于“线性”的解释:

一种是就变量而言是线性的,即线性回归模型是指解释变量与被解释变量之间呈线性关系;

另一种是就参数而言是线性的,即线性回归模型是指参数与被解释变量之间呈线性关系;非线性回归模型是指参数与被解释变量之间呈非线性关系。就回归模型而言,通常“线性”是就参数而言的。

(3)按模型中方程数目的多少,分为单一方程模型和联立方程模型。

单一方程模型是指只包含一个方程的回归模型;

联立方程模型是指包含两个或两个以上方程的回归模型。

3.相关与回归的关系

相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。

相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。

相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。

注意避免“虚假回归”:只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。

二者的区别:

(1)在相关分析中涉及的变量不存在自变量和因变量的划分问题,变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的性质和研究分析的目的,对变量进行自变量和因变量的划分。因此,在回归分析中,变量之间的关系是不对等的。

(2)在相关分析中所有的变量都必须是随机变量;而在回归分析中,自变量是给定的,因变量才是随机的,即将自变量的给定值代入回归方程后,所得到的因变量的估计值不是惟一确定的,而会表现出一定的随机波动性。

(3)相关分析主要是通过一个指标即相关系数来反映变量之间相关程度的大小,由于变量之间是对等的,因此相关系数是惟一确定的。而在回归分析中,对于互为因果的两个变量,则有可能存在多个回归方程。

二、一元线性回归模型

(一)总体回归函数

1、总体回归函数

假若我们要研究的问题是某市N 户城镇居民家庭的可支配收入X 和消费支出Y 之间的关系,则全体N 户居民家庭构成了研究的总体。表2-1给出了全部居民家庭可支配收入和消费支出统计资料。

表2-1 居民家庭可支配收入和消费支出统计表

可支配收入 消费支出 户数 平均消费支出 (X ) (Y )

1211112111122122222 (|) (|j N j N X Y Y Y Y N E Y X X Y Y Y Y N E Y X L L L L 212) (i i i i ij iN i X Y Y Y Y N E Y L L L L L L L L

L L 12|) (|k i k k k kj kN k X X Y Y Y Y N E Y X L L L L L L L L L L )

k

从表2-1可以看出:对于某一收入水平i X (k i ,,2,1 ),有i N (k N N N N 21)户居民家庭消费支出与其对应,反映出在某一收入水平下有关消费支出的条件分布。根据该条件分布,可以计算出在某一收入水平下平均消费支出)/(i X Y E ,即条件均值。从表2-1还可以看出:对于每一收入水平i X ,仅有唯一的一个条件均值)/(i X Y E 与其对应,这种一一对应的关系构成了函数关系,该函数称为总体回归函数(Population Regression Function, PRF )。记为:

)()/(i i X f X Y E (2-1)

总体回归函数反映了给定X i 的Y 分布的总体均值随X 的变化而变化的关系。

2、回归系数:0 和1

总体回归函数f (X i )若采用线性函数的形式,有:

i i X X Y E 10)/( (2-2)

其中0 和1 是未知而固定的参数,称为回归系数(Regression Coefficients ),0 称为截距系数(Intercept Coefficients ),1 称为斜率系数(Slope Coefficients )。该函数称为线性总体回归函数。

(二)总体回归函数的随机设定

)/(i X Y E 描述了在某一收入水平下平均消费支出水平,但是对于某一户居民的家庭消费支出

i Y 不一定恰好与该水平一致,或多或少地存在一些偏差。该偏差用i 表示,并定义:

)/(i i i X Y E Y (2-3)

则有:

i i i i i X X Y E Y 10)/( (2-4)

式(2-4)中i 反映了除收入之外众多影响消费支出的因素的综合影响,是一个不能观测的随机变量,称为随机误差项(Stochastic Error )。式(2-4)为总体回归函数的随机设定形式。

(三)样本回归函数

根据总体资料可以建立总体回归函数,揭示被解释变量随解释变量的变化而变化的规律。但在大多数实际情况中,总体的信息往往无法全部获得,我们所掌握的不过是与某些固定的X 值相对应的Y 值的样本。需要根据已知的样本信息去估计总体回归函数。

假定现在不知道建立总体回归函数的总体资料,仅仅掌握来自总体的一组样本数据,例如,根据调查得到某市职工个人月可支配收入与月消费支出数据资料(见表2-2)

表2-2 某市职工个人月可支配收入与月消费支出调查资料 单位:元/月

序 号 1 2

3

4 5 6 7 8 9 10 可支配收入(X ) 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 消费支出(Y )

700

650

900

950

1100

1150

1200

1400

1550

1500

根据以上样本数据拟合一个线性方程:

i

i X Y 10??? (2-5) 该方程式称为样本回归函数(Sample Regression Function, SRF )。

比较式(2-2)与(2-5),假若0? 充分地“接近”0 ,并且1

? 也充分地“接近”1 ,就可以

用样本回归函数i Y ?去估计总体回归函数E (Y | X i )。所以i Y ?亦称为E (Y | X i )的估计量;0

? 称为0 的估计量;1

? 称为1 的估计量。 式(2-5)中i Y ?与实际的值存在一定的偏差,该偏差i e 用表示。定义: i

i i Y Y e ? 则有: i

i i i i e X e Y Y 10??? (2-6) i e 称为样本剩余项,也称为残差。

Y

0+ 1X i

i 图2-1 总体回归函数与样本回归函数的关系

第二节 一元线性回归模型参数估计

一、古典线性回归模型的假定

以一元线性回归模型Y i = 0 + 1X i + i 为例,古典线性回归模型的假定如下: 假定1:在给定X i 的条件下, i 的条件均值为零。即,E ( i | X i )=0。

假定2:在给定任意X i 、X j 的条件下, i 、 j 不相关。即,Cov( i , j )=0。

假定3:对于每一个X i , i 的条件方差是一个等于 2

的常数。即,Var ( i | X i )=σ2 。 假定4:在给定X i 的条件下,X i 和 i 不相关。即,Cov ( i , X i )=0。

满足以上四个假定的线性回归模型称为古典线性回归模型。所谓“古典”是作为一种标准或规范来使用的,凡是不满足以上假定的回归模型,就不是“古典”回归模型。

在前述假定下,用最小二乘法得到的回归参数的估计值,按照高斯—马尔可夫定理(Gauss-Markov Theorem )的意义来说,是“最优的”。

假定5:对于每一个 i 都服从于均值为零、方差为 2正态分布。即, i N (0, 2) 满足以上五个假定的线性回归模型称为古典正态线性回归模型。

01??i

X

二、普通最小二乘法

(一)最小二乘原理

利用样本回归函数估计总体回归函数,是根据一个给定的包含n 组X 和Y 观测数据的样本,建

立样本回归函数,使估计值i

Y ?尽可能接近观测值Y i 。最小二乘原理就是根据使样本剩余的平方和达到最小的准则,确定模型中的参数,建立样本回归函数。

(二)最小二乘估计量 1、计算、推导

由 i

i i i i X Y Y Y e 10??? ,得 2102

)??(i

i i

X Y e

(2-7) 对于给定的样本,

2

i

e

的大小取决于0? 和1

? 的大小,即 2

i

e

是0? 和1

? 的函数。按照最小二乘原理,要求所选定的0? 和1

? 应使 2

i

e

最小,要做到这一点,可以借助微积分中求极值的方法,

2

i

e

分别对0? 和1? 求偏导数,并令其为零,满足该条件的0? 和1

? 可以使 2

i

e

最小。即:

22

1

0,0??i i e e

可得到:

(2-8)

整理后有:

(2-9)

求解得:

2

2

1

)

(? i i i i i i X X n Y X Y X n (2-10)

??1

n

X

n

Y

i

i

(2-11)

01201??

?? i i i i i i Y n X X Y X X

0101??()0 ??()0

i i i i i Y X Y X X

令n

Y

Y n

X

X i

i

,

2

1

)())((?X X Y Y X X i

i i

(2-12)

X Y 1

0?? (2-13) 令Y Y y X X x i i i i , (离差)

则 21

?i

i

i x

y x (2-14)

以上0? 和1

? 是根据最小二乘原理求得的,故称为普通最小二乘估计量。 2、实例

利用表2-2的样本资料建立最小二乘回归模型的过程如下:

表2-3 计算表 序号 X i Y i x i y i x i 2 y i 2

x i y i X i 2

1 800 700 -900 -410 810000 168100 369000 640000

2 1000 650 -700 -460 490000 211600 322000 1000000

3 1200 900 -500 -210 250000 44100 105000 1440000

4 1400 950 -300 -160 90000 25600 48000 1960000

5 1600 1100 -100 -10 10000 100 1000 2560000

6 1800 1150 100 40 10000 1600 4000 3240000

7 2000 1200 300 90 90000 8100 27000 4000000

8 2200 1400 500 290 250000 84100 145000 4840000

9 2400 1550 700 440 490000 193600 308000 5760000 10 2600 1500 900 390 810000 152100 351000 6760000 合计 17000 11100 0 0 3300000 889000 1680000 32200000 平均 1700 1110

5091.03300000

1680000

?21

i

i

i x

y

x

5455.24417005091.01110??1

0 X Y 样本回归函数为:

i

i X Y 5091.05455.244? 上式表明,该市职工每月可支配收入若是增加100元,职工将会拿出其中的50.91元用于消费。

(三)普通最小二乘回归直线的性质 回归直线具有以下性质: 1.回归直线通过样本均值。

2.估计值i Y ?

的均值等于观测值i Y 的均值。 3.剩余项i e 的均值为零。 4.剩余项i e 与估计量i Y ?

不相关。 5.剩余项i e 与解释变量i X 不相关。

三、最小二乘估计量的性质

(一)线性性

最小二乘法计算的估计量是随机变量Y i 的线性函数。

1.1

? 的线性 由式(2-14)得:

1

222222

() ?(0)i i i i i i i i i i i

i i i i i i i

x y x Y Y x Y Y x x Y x Y x x x x x x x 这里 令2

i i i x x k

有:i i Y k 1? (2-15) 2.0

? 的线性 由式(2-13)得:

i i i i i Y X k n X Y k Y n

X Y )1

(1??1

0 令X k n

h i i

1

有:i

i Y h 0? (2-16)

(二)无偏性

如果估计量 ?的均值等于总体参数真值 ,则该估计量就是无偏估计量。即: )?(E 。

1.1

? 的无偏性 由式(2-15)得:

1

0101?()i i i i i i i i i i k Y k X k k X k

因为:

1

, 0i

i

i

X

k k

所以:i

i

k ?1

1 (2-17)

由此可得:

111

11)()( )() ()?( i i i i i i E k k E E k E E 即:1

1)?( E (2-18) 2.0

? 的无偏性 由式(2-16)可得:

i i h 0

0? (2-19) 0

0)?( E (2-20) (三)有效性(最佳无偏性)

在所有关于总体参数真值 的无偏估计量中,若估计量

?具有最小方差,则 ?就是 的最佳无偏估计量。

1.1?

的有效性 由式(2-17)可得:

2

2

2

2

2

2

22111 )( )( )( )( ) ()?(i

i i

i i i i i i i i i x

x x k Var k k Var k Var Var k Var Var (2-21)

设*1

? 是用其他估计方法得到的关于1 的线性无偏估计量。由其线性性质可知i i Y *

1?,对其求方差可得:

)?()())(()?(1

22*1 Var k Y k k Var Var i i i i i i 这里 0)(22

i i

k

,所以有:)?()?(1*1 Var Var 。

2.0

? 的有效性 同理,由式(2-16)可得:

2

2

2

)?( i

i

x n X Var (2-22) 与对1

? 的有效性分析相同,设*

0? 是用其他估计方法得到的关于 0的线性无偏估计量,则有: )?()?(0

*0 Var Var 结论:在古典线性回归模型的假定下,最小二乘估计量在所有线性无偏估计量中,具有最小方

差,这一结论即是著名的高斯-马尔可夫(Gauss-Markov )定理。

四、估计量0? 和1?

的分布

1、理论基础

对于一个古典正态线性回归模型,即同时满足第二节中假定5的古典线性回归模型,其随机扰

动项i 服从正态分布。由于i Y 是i 的线性函数,而0? 和1? 又分别是i Y 的线性函数,根据正态分布的性质可知,0? 和1

? 也服从正态分布。 由以上分析可知:

00)?( E ,1

1)?( E

2

220

)?(

i

i x

n X Var , 2

2

1

)?(i

x

Var

从而有:

22200 ,~? i i x n X N ,

2211 ,~?i x N 在上面计算0? 和1

? 方差的表达式中,除了随机扰动项的方差2 之外,都是可以根据样本资料估计的。可以用2 的无偏估计量2? 来代替2 计算0? 和1

? 的方差。 2

?22

n e i

(2-23)

2

i e

可以根据式(2-8)计算,也可以由下式计算:

22122?i

i i

x y e (2-24) 2、实例

对于例题2-1

0909

.4212 2

1033000000.5091889000 2

??222122 n x y i

i

220

2322000004212.0909

??()4109.98103300000

i i

X Var n x

1091.64)?()?(0

0 Var S e 33000000909.4212?)?(2

21 i x Var 0357.0)?()?(1

1 Var S e 。

第三节 显著性检验

一、拟合优度与相关系数检验

(一) 拟合优度与可决系数

拟合优度是指样本回归直线对观测数据拟合的优劣程度。 我们所希望的就是围绕回归直线的剩余尽可能的小。 拟合优度通常用可决系数来度量。

可决系数是样本回归直线对数据拟合程度的综合度量。在双变量的情况下,通常用r 2表示可决系数。

可决系数是建立在对被解释变量总变差分解的基础之上。

Y

Y

i 图2-2总变差分解图

图2-2中,观测值Y i 的离差i i

i i i i i y e Y Y Y Y Y Y y ??? 。 其中,Y Y y i i ??,是样本回归直线所确定的估计值与平均值的差; i

i i Y Y e ? ,是样本观测值与回归直线所确定的估计值之差。 i y

?越大,i e 越小,估计值与观测值越接近,该点拟合的越好;反之,拟合的越差。当i i y y ? 时,完全拟合。

采用

2i

y

指标进行分析,该指标称为总变差或总离差平方和,简记为TSS 。

i

i

i

i

i

i

i

y

e y

e y e y ?2

? )?(22

22

根据

0? i

i

y

e ,所以有

222

? i

i

i

y

e y (2-25)

其中,

2

2

)?(?Y Y y

i

i

,称为回归平方和,简记为ESS ;

22)?(i

i

i

Y Y

e ,称为残差平方和,简记为RSS 。 这样式(2-25)也可以记为:

TSS=RSS+ESS (2-26) 当根据样本采用最小二乘法确定了一条回归直线时,TSS 的大小是一定的。ESS 越大,RSS 越小,该回归直线拟合的越好;反之,拟合的越差。

1、定义:2

2 ,TSS

ESS r r

称为(样本)可决系数,它是最常用的回归直线拟合优度的度量,表示由回归模型做出解释的变差在总变差中所占的比重。

由式(2-26)得

2TSS RSS RSS

1TSS TSS

r

(2-27)

上式表明,若样本剩余RSS 越小,r 2的值就越大,拟合优度越好;反之,RSS 越大,r 2的值就

越小,拟合优度越差。

2、可决系数r 2还可以按以下推导出的公式求得:

i i i i x X X Y Y y 11010?)??()??(?? (2-28)

2221

22

1

222

?) ?(?TSS

ESS

i

i i

i i

i y

x y

x y

y r

(2-29)

由式(2-14)和(2-27)可得:

)

)(()

(

222

2

i i

i i y

x y x r

(2-30)

对于例题2-1,

9621.088900033000001680000))(()(

2

2

222

i

i

i i y

x y x r

3、r 2

具有以下两个性质

(1)r 2是一个非负数。

(2)r 2的取值范围是:0 r 2 1。

r 2 =1意味着完全拟合,r 2 =0意味着被解释变量与解释变量之间没有线性关系,0< r 2 <1时,r 2

越接近于1拟合效果越好。

(二)相关系数检验 1. 相关系数

相关系数是两个变量之间的相关程度的度量。

定义:

i

i X X Y Y x y r

(2-31)

在一元线性回归中,相关系数在数值上是可决系数开平方。可以根据下式计算:

r (2-32)

r 具有以下性质:

(1)它可以是正值也可以是负值,其符号取决于式(2-31)中分子的符号。 (2)它的取值范围在-1和+1之间,即 –1 r +1。

(3)它的性质是对称的,X 与Y 的相关系数r xy 和Y 与X 的相关系数r yx 是相同的,都是r 。 (4)它只是线性联系或线性相关的度量,不用来描述非线性关系。 2. 相关系数检验法

相关系数检验法是在建立一元线性回归模型之后,考察两个变量之间是否具有显著的线性相关关系,相关系数检验法的步骤如下:

(1)根据相关系数的计算公式计算相关系数r 。

(2)给定显著性水平 ,根据 和从相关系数临界值表中查出相关系数临界值 2r n 的值,比较r 与 2r n 的值。若 r 2r n ,表明两变量在显著性水平 时线性相关关系显著;否则 r 2r n 表明两变量在显著性水平 时线性相关关系不显著。

二、回归系数估计量的检验(t 检验)

进行回归系数估计量的检验方法随所构造的检验统计量不同而不同,应用最为普遍的是t 检验。 (一)t 统计量

回归系数估计量服从正态分布:

22200 ,~? i i x n X N ,

2

211 ,~?i x N 用2 的无偏估计量2

?2

2

n e

i

来代替2 时,可以构造t 统计量:

1111

???()e t S (2-33)

00

00???()

e t S

(2-34)

所构造的t 统计量服从自由度为n-2的t 分布。即t t (n-2) (二) 回归系数估计量的t 检验步骤

下面以估计量1

? 为例,介绍t 检验的步骤。 1.提出假设

原假设H 0: 1=0 备择假设H 1: 1 0

2.给定显著性水平,查t 分布表获得临界值)2(2

n t ,对于例2-1,在显著性水平 =0.05,n-2=8

时,查t 分布表,得到:306.2)2(2

n t 。

3.根据式(2-33)利用样本数据计算检验统计量t 的值

1111?0.509114.2605?0.0357

()t Se

4.进行比较,做出判断

若|t| )2(2

n t ,差异显著,拒绝原假设,接受备择假设

若|t| )2(2

n t ,差异不显著,接受原假设(见图2-3)。

本例中,14.2605 2.306,即|t 1| )2(2

n t ,差异显著,拒绝 1=0的假设。

图2-3 阴影部分为t 检验的否定域

-t /2

t /2

o

三、方程的整体性检验(F 检验)

(一)方差分析 由式(2-25)可知:

222

? i

i

i

y

e y 或TSS=RSS+ESS

对总平方和(TSS )的这两个分量进行研究,就称为从回归角度进行的方差分析(Analysis of Variance ,AOV )。

每个平方和都具有相应的自由度,假定给n 个变量赋予数值,在计算平方和时,总有k 个变量可以自由取值,即是这k 个变量线性独立,我们说这个平方和的自由度为k 。与每一个平方和相联系的是它们的自由度。对于一元线性回归模型,TSS 有n -1个自由度;ESS 有1个自由度;RSS 有n -2个自由度。

平方和与自由度之比即为平均平方和。将平方和、自由度及平均平方和列成一个表,该表称为方差分析表(见表2-4)。

表2-4 方差分析表

平方和 自由度 平均平方和

(二)F 检验统计量定义

从方差分析的角度进行的回归模型整体性检验所采用的检验统计量是F 统计量。 检验统计量F 反映平均回归平方和与平均剩余平方和的比较。

2

1?2

221

n e

x F i

i

(2-35)

且F 服从自由度为1和n-2的F 分布。即:F F (1,n-2)

可以推导,F 与可决系数r 2有以下关系

)2(12

2

n r

r F (2-36) 利用检验统计量是F 可以对回归方程进行显著性检验,即F 检验。 (三)方程的整体性检验(F 检验)的步骤 1.提出假设

原假设H 0: 1=0 备择假设H 1: 1 0

2.给定显著性水平 ,查F 分布表获得临界值F (1,n-2),

对于例2-1,在显著性水平 =0.05,n-2=8时,查F 分布表,得到:F 0.05(1,8)=5.32。 3.根据式(2-35)利用样本数据计算检验统计量F 的值

0591.2030909

.4212273

.8553032

/?2221

n e

x F i

i

4.进行比较,做出判断 若F F (1,n-2),差异显著,拒绝原假设,接受备择假设;若F F (1,n-2),差异不显著,接受原假设(见图2-4)。

本例中,203.0591 5.32,即F F 0.05(1,8),差异显著,拒绝 1=0的假设,方程显著不为零。

图2-4 阴影部分为F 检验的否定域

第四节 一元线性回归模型案例及预测

预测就是利用模型已含有过去和现在的样本数据或信息拟合的回归模型,对被解释变量的可能值做出定量的估计。

一、点预测

根据样本数据,利用最小二乘法,可以得到最小二乘估计值,建立一元回归的预测模型。根据预测模型可以在给定X 的条件下,求得Y 的估计值,并进行点预测。

根据样本数据,得到以下样本回归函数

i

i X Y 10??? 当X i =X 0时,0

100???X Y ,0?Y 为点预测值。 例如,根据所给样本数据,建立了如下样本回归函数

i

i X Y 5091.05455.244? 若已知家庭月可支配收入X i =1600元,根据上述模型,可预测家庭的月消费支出0?Y 为: )(11.105916005091.05455.244?0

元 Y 二、区间预测

分为两类:

预测对应于给定X 条件下的个别Y 值。这类预测我们称为个别值预测。

(一)均值预测

即,对应于给定X 条件下的Y 的总体均值的预测。

当给定X i =X 0时,0??Y Y i ,0?Y 是总体均值)|(0

0X Y 的一个估计值。 且0?Y 服从于均值为)|(0

0X Y 的正态分布。根据正态分布与检验统计量t 的关系,有: )

?(S )|(?0e 0

00Y X Y Y t (2-37)

服从于自由度为n -2的t 分布。式中S e (0?Y )为0

?Y 的标准误差, 22

00e )(1?)?(S i

x X X n Y (2-38) 给定显著性水平 有:

1)?Se()|(?200

002t Y X Y Y t P

或:

1)?(S ?)|()?(S ?0e 20000e 20Y t Y X Y Y t Y P

(2-39) 上式表明,在重复抽样中,若构造100个这样的区间,将会有(1- ) 100以上的区间包含总体均值)|(00X Y 。

建立所预测的总体均值)|(00X Y 的置信区间为:

)?(S ? , )?(S ?0e 200e 20Y t Y Y t Y (2-40)

对于前述例题,

20.8320

3300000

)170016001010909.4212 )(1?)(1?)?(S 2

22022200e

i i x X X n x X X n Y

给定显著性水平 =0.05,n -2=8时,查t 分布表,得到:025.0t =2.306 从而

)?(S ?0

e 2

0Y t Y =1059.11-2.306 20.8320=1011.67(元) )?(S ?0

e 2

0Y t Y 1059.11+2.306 20.8320=1107.14(元) %9514.1107)|(67.101100 X Y P

即每月可支配收入为1600元的家庭,其平均消费支出在1011.07元至1107.14元之间的概率为95%。

(二)个别值预测

即,对应于给定X 条件下的个别Y 值的预测。

当给定X i =X 0时,0??Y Y i ,0Y Y i ,残差为0

e ,000?Y Y e 。 可以证明0e 服从于均值为零的正态分布。根据正态分布与检验统计量t 的关系,有:

)

(S ?)(S 00e 0

00e 0e Y Y e e t

(2-41) 服从于自由度为n -2的t 分布。式中S e (0e )为0e 的标准误差,

2

2

00e )(11?)(S i

x X X n e (2-42) 给定显著性水平 有:

1)(S ?20e 0

02t e Y Y t P 或:

1)(S ?)(S ?0e 2000e 20e t Y Y e t Y P (2-43)

上式表明,在重复抽样中,若构造100个这样的区间,将会有(1- ) 100以上的区间包含个

别值0Y 。

建立所预测的个别值0Y 的置信区间为:

)(S ? , )(S ?0e 200e 20e t Y e t Y (2-44)

对于前述例题,

1620

.86 3300000

)17001600(10110909.4212 )(11?)(11?)(S 2

22022200e

i i x X X n x X X n e

给定显著性水平 =0.05。n -2=8时,查t 分布表,得到:025.0t =2.306 从而

)(S ?0

e 2

0e t Y =1059.11-2.306 68.1620=901.92(元) )(S ?0

e 2

0e t Y =1059.11+2.306 68.1620=1216.29(元) %9529.121692.9010 Y P

即每月可支配收入为1600元的家庭,以家庭消费支出在901.92元至1216.29元之间的概率为95%。

三、一元回归模型实例分析

(一)研究目的

依据1996-2005年《中国统计年鉴》提供的资料,经过整理,获得以下农村居民人均消费支出和人均纯收入的数据如表2-5:

表2-5 农村居民1995-2004人均消费支出和人均纯收入数据资料 单位:元

年度

1995 1996 1997 1998 1999 2000 2001 2002 2003 2004

人均纯

收入 1577.74

1926.07

2090.13

2161.98

2210.34

2253.42

2366.40

2475.63

2622.24

2936.40

人均消

费支出

1310.36

1572.08

1617.15

1590.33

1577.42

1670.13

1741.09

1834.31

1943.30

2184.65

(二)建立模型

以农村居民人均纯收入为解释变量X ,农村居民人均消费支出为被解释变量Y ,分析Y 随X 的变化

线性回归的显著性检验

线性回归的显着性检验 1.回归方程的显着性 在实际问题的研究中,我们事先并不能断定随机变量y与变量人,乂2,…,x p之间确有线 性关系,在进行回归参数的估计之前,我们用多元线性回归方程去拟合随机变量y与变量 X「X2,…,X p之间的关系,只是根据一些定性分析所作的一种假设。因此,和一元线性回归方程的显着性检验类似,在求出线性回归方程后,还需对回归方程进行显着性检验。 设随机变量丫与多个普通变量x1, x2^ ,x p的线性回归模型为 其中;服从正态分布N(0,;「2) 对多元线性回归方程的显着性检验就是看自变量若接受X i,X2,…,X p从整体上对随机变 量y是否有明显的影响。为此提出原假设如果H。被接受,则表明随机变量y与x「X2,…,X p的 线性回归模型就没有意义。通过总离差平方和分解方法,可以构造对H o进行检验的统计量。正 态随机变量y i,y2/ , y n的偏差平方和可以分解为: n n n S r f (y—y)2为总的偏差平方和,S R=為(懈-y)2为回归平方和,S E f (% - ?)2为残 i 1i# im 差平方和。因此,平方和分解式可以简写为: 回归平方和与残差平方和分别反映了b = 0所引起的差异和随机误差的影响。构造F检验统计量则利用分解定理得到: 在正态假设下,当原假设H o :b i =0, b2 =0,…,b p =0成立时,F服从自由度为(p,n -p-1)的F分布。对于给定的显着水平[,当F大于临界值(p, n-p-1)时,拒绝H。,说明回归方程显着,x与y有显着的线性关系。 实际应用中,我们还可以用复相关系数来检验回归方程的显着性。复相关系数R定义为: 平方和分解式可以知道,复相关系数的取值范围为0空R乞1。R越接近1表明S E越小,回归方程拟合越好。 2.回归系数的显着性

总结:线性回归分析的基本步骤

总结:线性回归分析的基本 步骤 -标准化文件发布号:(9556-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

线性回归分析的基本步骤 步骤一、建立模型 知识点: 1、总体回归模型、总体回归方程、样本回归模型、样本回归方程 ①总体回归模型:研究总体之中自变量和因变量之间某种非确定依赖关系的计量模型。Y X U β=+ 特点:由于随机误差项U 的存在,使得Y 和X 不在一条直线/平面上。 例1:某镇共有60个家庭,经普查,60个家庭的每周收入(X )与每周消费(Y )数据如下: 作出其散点图如下:

②总体回归方程(线):由于假定0EU =,因此因变量的均值与自变量总处于一条直线上,这条直线()|E Y X X β=就称为总体回归线(方程)。 总体回归方程的求法:以例1的数据为例 由于01|i i i E Y X X ββ=+,因此任意带入两个X i 和其对应的E (Y |X i )值,即可求出01ββ和,并进而得到总体回归方程。

如将()()222777100,|77200,|137X E Y X X E Y X ====和代入 ()01|i i i E Y X X ββ=+可得:0100117710017 1372000.6ββββββ=+=?????=+=?? 以上求出01ββ和反映了E (Y |X i )和X i 之间的真实关系,即所求的总体回归方程为:()|170.6i i i E Y X X =+,其图形为: ③样本回归模型:总体通常难以得到,因此只能通过抽样得到样本数据。如在例1中,通过抽样考察,我们得到了20个家庭的样本数据: 那么描述样本数据中因变量Y 和自变量X 之间非确定依赖关系的模型 ?Y X e β =+就称为样本回归模型。

简单线性回归分析思考与练习参考答案

第10章 简单线性回归分析 思考与练习参考答案 一、最佳选择题 1.如果两样本的相关系数21r r =,样本量21n n =,那么( D )。 A. 回归系数21b b = B .回归系数12b b < C. 回归系数21b b > D .t 统计量11r b t t = E. 以上均错 2.如果相关系数r =1,则一定有( C )。 A .总SS =残差SS B .残差SS =回归 SS C .总SS =回归SS D .总SS >回归SS E. 回归MS =残差MS 3.记ρ为总体相关系数,r 为样本相关系数,b 为样本回归系数,下列( D )正确。 A .ρ=0时,r =0 B .|r |>0时,b >0 C .r >0时,b <0 D .r <0时,b <0 E. |r |=1时,b =1 4.如果相关系数r =0,则一定有( D )。 A .简单线性回归的截距等于0 B .简单线性回归的截距等于Y 或X C .简单线性回归的残差SS 等于0 D .简单线性回归的残差SS 等于SS 总 E .简单线性回归的总SS 等于0 5.用最小二乘法确定直线回归方程的含义是( B )。 A .各观测点距直线的纵向距离相等 B .各观测点距直线的纵向距离平方和最小 C .各观测点距直线的垂直距离相等 D .各观测点距直线的垂直距离平方和最小 E .各观测点距直线的纵向距离等于零 二、思考题 1.简述简单线性回归分析的基本步骤。 答:① 绘制散点图,考察是否有线性趋势及可疑的异常点;② 估计回归系数;③ 对总体回归系数或回归方程进行假设检验;④ 列出回归方程,绘制回归直线;⑤ 统计应用。 2.简述线性回归分析与线性相关的区别与联系。

一元线性回归分析法

一元线性回归分析法 一元线性回归分析法是根据过去若干时期的产量和成本资料,利用最小二乘法“偏差平方和最小”的原理确定回归直线方程,从而推算出a(截距)和b(斜率),再通过y =a+bx 这个数学模型来预测计划产量下的产品总成本及单位成本的方法。 方程y =a+bx 中,参数a 与b 的计算如下: y b x a y bx n -==-∑∑ 222 n xy x y xy x y b n x (x)x x x --==--∑∑∑∑∑∑∑∑∑ 上式中,x 与y 分别是i x 与i y 的算术平均值,即 x =n x ∑ y =n y ∑ 为了保证预测模型的可靠性,必须对所建立的模型进行统计检验,以检查自变量与因变量之间线性关系的强弱程度。检验是通过计算方程的相关系数r 进行的。计算公式为: 22xy-x y r= (x x x)(y y y) --∑∑∑∑∑∑ 当r 的绝对值越接近于1时,表明自变量与因变量之间的线性关系越强,所建立的预测模型越可靠;当r =l 时,说明自变量与因变量成正相关,二者之间存在正比例关系;当r =—1时,说明白变量与因变量成负相关,二者之间存在反比例关系。反之,如果r 的绝对值越接近于0,情况刚好相反。 [例]以表1中的数据为例来具体说明一元线性回归分析法的运用。 表1: 根据表1计算出有关数据,如表2所示: 表2:

将表2中的有关数据代入公式计算可得: 1256750x == (件) 2256 1350y ==(元) 1750 9500613507501705006b 2=-??-?=(元/件) 100675011350a =?-=(元/件) 所建立的预测模型为: y =100+X 相关系数为: 9.011638 10500])1350(3059006[])750(955006[1350 750-1705006r 22==-??-???= 计算表明,相关系数r 接近于l ,说明产量与成本有较显著的线性关系,所建立的回归预测方程较为可靠。如果计划期预计产量为200件,则预计产品总成本为: y =100+1×200=300(元)

线性回归模型检验方法拓展三大检验

第四章线性回归模型检验方法拓展——三大检验作为统计推断的核心内容,除了估计未知参数以外,对参数的假设检验就是实证分析中的一个重要方面。对模型进行各种检验的目的就是,改善模型的设定以确保基本假设与估计方法比较适合于数据,同时也就是对有关理论有效性的验证。 一、假设检验的基本理论及准则 假设检验的理论依据就是“小概率事件原理”,它的一般步骤就是 (1)建立两个相对(互相排斥)的假设(零假设与备择假设)。 (2)在零假设条件下,寻求用于检验的统计量及其分布。 (3)得出拒绝或接受零假设的判别规则。 另一方面,对于任何的检验过程,都有可能犯错误,即所谓的第一类错误 P(拒绝H |H0为真)=α 0 与第二类错误 P(接受H |H0不真)=β 0 在下图,粉红色部分表示P(拒绝H0|H0为真)=α。黄色部分表示P(接受H0|H0Array不真)=β。 而犯这两类错误的概率就是一种此消彼长的情况,于就是如何控制这两个概

率,使它们尽可能的都小,就成了寻找优良的检验方法的关键。 下面简要介绍假设检验的有关基本理论。 参数显著性检验的思路就是,已知总体的分布(,)F X θ,其中θ就是未知参数。总体真实分布完全由未知参数θ的取值所决定。对θ提出某种假设001000:(:,)H H θθθθθθθθ=≠><或,从总体中抽取一个容量为n 的样本,确定一个统计量及其分布,决定一个拒绝域W ,使得0()P W θα=,或者对样本观测数据 X,0 ()P X W θα∈≤。α就是显著性水平,即犯第一类错误的概率。 既然犯两类错误的概率不能同时被控制,所以通常的做法就是,限制犯第一类错误的概率,使犯第二类错误的概率尽可能的小,即在 0()P X W θα∈≤ 0θ∈Θ 的条件下,使得 ()P X W θ∈,0θ∈Θ-Θ 达到最大,或 1()P X W θ-∈,0θ∈Θ-Θ 达到最小。其中()P X W θ∈表示总体分布为(,)F X θ时,事件W ∈{X }的概率,0Θ为零假设集合(0Θ只含一个点时成为简单原假设,否则称为复杂原假设)。0Θ-Θ为备择假设集合,并且0Θ与0Θ-Θ不能相交。由前述可知,当1H 为真时,它被拒绝(亦即H 0不真时,接受H 0)的概率为β,也就就是被接受(亦即H0不真时,拒绝H0)的概率就是1β-(功效),我们把这个接受1H 的概率称为该检验的势。在对未知参数θ作假设检验时,在固定α下,对θ的每一个值,相应地可求得1β-的值,则定义 =1()()P X W θβθ-∈

总结:线性回归分析的基本步骤

线性回归分析的基本步骤 步骤一、建立模型 知识点: 1、总体回归模型、总体回归方程、样本回归模型、样本回归方程 ①总体回归模型:研究总体之中自变量和因变量之间某种非确定依赖关系的计量模型。Y X U β=+ 特点:由于随机误差项U 的存在,使得Y 和X 不在一条直线/平面上。 例1:某镇共有60个家庭,经普查,60个家庭的每周收入(X )与每周消费(Y )数据如下: 作出其散点图如下:

②总体回归方程(线):由于假定0EU =,因此因变量的均值与自变量总处于一条直线上,这条直线()|E Y X X β=就称为总体回归线(方程)。 总体回归方程的求法:以例1的数据为例 ,求出E (Y |X 由于01|i i i E Y X X ββ=+,因此任意带入两个X i 和其对应的E (Y |X i )值,即可求出01ββ和,并进而得到总体回归方程。 如将()()22277 7100,|77200,|137X E Y X X E Y X ====和代入 ()01|i i i E Y X X ββ=+可得:0100117710017 1372000.6ββββββ=+=?????=+=?? 以上求出01ββ和反映了E (Y |X i )和X i 之间的真实关系,即所求的总体回归方程为:()|170.6i i i E Y X X =+,其图形为:

③样本回归模型:总体通常难以得到,因此只能通过抽样得到样本数据。如在例1中,通过抽样考察,我们得到了20个家庭的样本数据: 那么描述样本数据中因变量Y 和自变量X 之间非确定依赖关系的模型 ?Y X e β =+就称为样本回归模型。 ④样本回归方程(线):通过样本数据估计出?β ,得到样本观测值的拟合值与解释变量之间的关系方程??Y X β=称为样本回归方程。如下图所示: ⑤四者之间的关系: ⅰ:总体回归模型建立在总体数据之上,它描述的是因变量Y 和自变量X 之间的真实的非确定型依赖关系;样本回归模型建立在抽样数据基础之

matlab建立多元线性回归模型并进行显著性检验及预测问题

matlab建立多元线性回归模型并进行显著性检 验及预测问题 例子; x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]'; X=[ones(16,1) x]; 增加一个常数项 Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]'; [b,bint,r,rint,stats]=regress(Y,X) 得结果:b = bint = stats = 即对应于b的置信区间分别为[,]、[,]; r2=, F=, p= p<, 可知回 归模型 y=+ 成立. 这个是一元的,如果是多元就增加X的行数! function [beta_hat,Y_hat,stats]=regress(X,Y,alpha) % 多元线性回归(Y=Xβ+ε)MATLAB代码 % % 参数说明 % X:自变量矩阵,列为自变量,行为观测值 % Y:应变量矩阵,同X % alpha:置信度,[0 1]之间的任意数据 % beta_hat:回归系数 % Y_beata:回归目标值,使用Y-Y_hat来观测回归效果 % stats:结构体,具有如下字段 % =[fV,fH],F检验相关参数,检验线性回归方程是否显著 % fV:F分布值,越大越好,线性回归方程 越显著 % fH:0或1,0不显著;1显著(好) % =[tH,tV,tW],T检验相关参数和区间估计,检验回归系数β是 否与Y有显著线性关系 % tV:T分布值,beta_hat(i)绝对值越大, 表示Xi对Y显著的线性作用 % tH:0或1,0不显著;1显著 % tW:区间估计拒绝域,如果beta(i)在对 应拒绝区间内,那么否认Xi对Y显著的线性作用 % =[T,U,Q,R],回归中使用的重要参数 % T:总离差平方和,且满足T=Q+U % U:回归离差平方和 % Q:残差平方和 % R∈[0 1]:复相关系数,表征回归离差占总 离差的百分比,越大越好 % 举例说明 % 比如要拟合 y=a+b*log(x1)+c*exp(x2)+d*x1*x2,注意一定要将原来方程 线化 % x1=rand(10,1)*10;

多元线性回归模型的各种检验方法-7页文档资料

对多元线性回归模型的各种检验方法 对于形如 u X X X Y k k +++++=ββββΛΛ22110 (1) 的回归模型,我们可能需要对其实施如下的检验中的一种或几种检验: 一、 对单个总体参数的假设检验:t 检验 在这种检验中,我们需要对模型中的某个(总体)参数是否满足虚拟假设0H :j j a =β,做出具 有统计意义(即带有一定的置信度)的检验,其中j a 为某个给定的已知数。特别是,当j a =0时,称为参 数的(狭义意义上的)显著性检验。如果拒绝 0H ,说明解释变量j X 对被解释变量Y 具有显著的线性 影响,估计值j β?才敢使用;反之,说明解释变量 j X 对被解释变量Y 不具有显著的线性影响,估计值j β?对我们就没有意义。具体检验方法如下: (1) 给定虚拟假设 0H :j j a =β; (2) 计算统计量 )?(?)?()(?j j j j j j Se a Se E t βββββ-= -= 的数值; (3) 在给定的显著水平α 下( α 不能大于 1.0即 10%,也即我们不能在置信度小于90%以下的前提下做结论),查出双尾t (1--k n )分布的临界值2/αt ; (4) 如果出现 2/αt t >的情况,检验结论为拒绝0H ;反之,无法拒绝0H 。

t 检验方法的关键是统计量 )?(?j j j Se t βββ-= 必须服从已知的 t 分布函数。什么情况或条件下才会这 样呢?这需要我们建立的模型满足如下的条件(或假定): (1) 随机抽样性。我们有一个含n 次观测的随 机样 (){}n i Y X X X i ik i i ,,2,1:,,,,21ΛΛ=。这保证了误差u 自身的随机性,即无自相关性, 0))())(((=--j j i i u E u u E u Cov 。 (2) 条件期望值为0。给定解释变量的任何值,误差 u 的期望值为零。即有 这也保证了误差u 独立于解释变量 X X X ,,,21Λ,即模型中的解释变量是外生性的,也使得 0)(=u E 。 (3) 不存在完全共线性。在样本因而在总体中,没有一个解释变量是常数,解释变量之间也不存在严格的线性关系。 (4) 同方差性。常数==2 21),,,(σk X X X u Var Λ。 (5) 正态性。误差u 满足 ),0(~2 σNormal u 。 在以上5个前提下,才可以推导出: 由此可见, t 检验方法所要求的条件是极为苛刻的。 二、 对参数的一个线性组合的假设的检验 需要检验的虚拟假设为 0H :21j j ββ=。比如21ββ=无 法直接检验。设立新参数 211ββθ-=。

线性回归分析的基本步骤

步骤一、建立模型 知识点: 1、总体回归模型、总体回归方程、样本回归模型、样本回归方程 ①总体回归模型:研究总体之中自变量和因变量之间某种非确定依赖关系的计量模型。Y X U β=+ 特点:由于随机误差项U 的存在,使得Y 和X 不在一条直线/平面上。 例1:某镇共有60个家庭,经普查,60个家庭的每周收入(X )与每周消费(Y )数据如下: 作出其散点图如下: ②总体回归方程(线):由于假定0EU =,因此因变量的均值与自变量

总处于一条直线上,这条直线()|E Y X X β=就称为总体回归线(方程)。 总体回归方程的求法:以例1的数据为例 ,求出E (Y |X 由于01|i i i E Y X X ββ=+,因此任意带入两个X i 和其对应的E (Y |X i )值,即可求出01ββ和,并进而得到总体回归方程。 如将()()2227 77100,|77200,|137X E Y X X E Y X ====和代入 ()01|i i i E Y X X ββ=+可得:0100117710017 1372000.6ββββββ=+=?????=+=?? 以上求出01ββ和反映了E (Y |X i )和X i 之间的真实关系,即所求的总体回归方程为:()|170.6i i i E Y X X =+,其图形为: ③样本回归模型:总体通常难以得到,因此只能通过抽样得到样本数据。

如在例1中,通过抽样考察,我们得到了20个家庭的样本数据: 那么描述样本数据中因变量Y 和自变量X 之间非确定依赖关系的模型 ?Y X e β =+就称为样本回归模型。 ④样本回归方程(线):通过样本数据估计出?β ,得到样本观测值的拟合值与解释变量之间的关系方程??Y X β=称为样本回归方程。如下图所示: ⑤四者之间的关系: ⅰ:总体回归模型建立在总体数据之上,它描述的是因变量Y 和自变量X 之间的真实的非确定型依赖关系;样本回归模型建立在抽样数据基础之上,它描述的是因变量Y 和自变量X 之间的近似于真实的非确定型依赖

回归研究分析方法总结全面

回归分析方法总结全面

————————————————————————————————作者:————————————————————————————————日期:

一、什么是回归分析 回归分析(Regression Analysis)是研究变量之间作用关系的一种统计分析方法,其基本组成是一个(或一组)自变量与一个(或一组)因变量。回归分析研究的目的是通过收集到的样本数据用一定的统计方法探讨自变量对因变量的影响关系,即原因对结果的影响程度。 回归分析是指对具有高度相关关系的现象,根据其相关的形态,建立一个适当的数学模型(函数式),来近似地反映变量之间关系的统计分析方法。利用这种方法建立的数学模型称为回归方程,它实际上是相关现象之间不确定、不规则的数量关系的一般化。 二、回归分析的种类 1.按涉及自变量的多少,可分为一元回归分析和多元回归分析一元回归分析是对一个因变量和一个自变量建立回归方程。多元回归分析是对一个因变量和两个或两个以上的自变量建立回归方程。 2.按回归方程的表现形式不同,可分为线性回归分析和非线性回归分析 若变量之间是线性相关关系,可通过建立直线方程来反映,这种分析叫线性回归分析。 若变量之间是非线性相关关系,可通过建立非线性回归方程来反映,这种分析叫非线性回归分析。 三、回归分析的主要内容 1.建立相关关系的数学表达式。依据现象之间的相关形态,建立适当的数学模型,通过数学模型来反映现象之间的相关关系,从数量上近似地反映变量之间变动的一般规律。 2.依据回归方程进行回归预测。由于回归方程反映了变量之间的一般性关系,因此当自变量发生变化时,可依据回归方程估计出因变量可能发生相应变化的数值。因变量的回归估计值,虽然不是一个必然的对应值(他可能和系统真值存在比较大的差距),但至少可以从一般性角度或平均意义角度反映因变量可能发生的数量变化。 3.计算估计标准误差。通过估计标准误差这一指标,可以分析回归估计值与实际值之间的差异程度以及估计值的准确性和代表性,还可利用估计标准误差对因变量估计值进行在一定把握程度条件下的区间估计。 四、一元线性回归分析 1.一元线性回归分析的特点 1)两个变量不是对等关系,必须明确自变量和因变量。 2)如果x和y两个变量无明显因果关系,则存在着两个回归方程:一个是以x为自变量,y 为因变量建立的回归方程;另一个是以y为自变量,x为因变量建立的回归方程。若绘出图

多元线性回归模型的检验

多元性回归模型与一元线性回归模型一样,在得到参数的最小二乘法的估计值之后,也需要进行必要的检验与评价,以决定模型是否可以应用。 1、拟合程度的测定。 与一元线性回归中可决系数r2相对应,多元线性回归中也有多重可决系数r2,它是在因变量的总变化中,由回归方程解释的变动(回归平方和)所占的比重,R2越大,回归方各对样本数据点拟合的程度越强,所有自变量与因变量的关系越密切。计算公式为: 其中, 2.估计标准误差 估计标准误差,即因变量y的实际值与回归方程求出的估计值之间的标准误差,估计标准误差越小,回归方程拟合程度越程。 其中,k为多元线性回归方程中的自变量的个数。 3.回归方程的显著性检验 回归方程的显著性检验,即检验整个回归方程的显著性,或者说评价所有自变量与因变量的线性关系是否密切。能常采用F检验,F统计量的计算公式为: 根据给定的显著水平a,自由度(k,n-k-1)查F分布表,得到相应的临界值Fa,若F > Fa,则回归方程具有显著意义,回归效果显著;F < Fa,则回归方程无显著意义,回归效果不显著。 4.回归系数的显著性检验 在一元线性回归中,回归系数显著性检验(t检验)与回归方程的显著性检验(F检验)是等价的,但在多元线性回归中,这个等价不成立。t检验是分别检验回归模型中各个回归系数是否具有显著性,以便使模型中只保留那些对因变量有显著影响的因素。检验时先计算统计量ti;然后根据给定的显著水平a,自由度n-k-1查t分布表,得临界值ta或ta / 2,t > t ? a或ta / 2,则回归系数bi与0有显著关异,反之,则与0无显著差异。统计量t 的计算公式为: 其中,Cij是多元线性回归方程中求解回归系数矩阵的逆矩阵(x'x) ?1的主对角线上的第j个元素。对二元线性回归而言,可用下列公式计算: 其中, 5.多重共线性判别 若某个回归系数的t检验通不过,可能是这个系数相对应的自变量对因变量的影平不显

多元线性回归模型的各种检验方法.doc

对多元线性回归模型的各种检验方法 对于形如 u X X X Y k k +++++=ββββΛΛ22110 (1) 的回归模型,我们可能需要对其实施如下的检验中的一种或几种检验: 一、 对单个总体参数的假设检验:t 检验 在这种检验中,我们需要对模型中的某个(总体)参数是否满足虚拟假设0 H :j j a =β,做出具有统计意义(即带有一定的置信度)的检验,其中j a 为某个给定的已知数。特别是,当j a =0时,称为参数的(狭义意义上的)显著性检验。如果拒绝0H ,说明解释变量j X 对 被解释变量Y 具有显著的线性影响,估计值j β?才敢使 用;反之,说明解释变量j X 对被解释变量Y 不具有显 著的线性影响,估计值j β?对我们就没有意义。具体检验 方法如下: (1) 给定虚拟假设 0H :j j a =β;

(2) 计算统计量 )?(?)?()(?j j j j j j Se a Se E t βββββ-=-= 的数值; 11?)?(++-==j j jj jj j C C Se 1T X)(X ,其中σβ (3) 在给定的显著水平α下(α不能大于1.0即 10%,也即我们不能在置信度小于90%以下的前提下做结论),查出双尾t (1--k n )分布的临界值2/αt ; (4) 如果出现 2/αt t >的情况,检验结论为拒绝 0H ;反之,无法拒绝0H 。 t 检验方法的关键是统计量 )?(?j j j Se t βββ-=必须服从已 知的t 分布函数。什么情况或条件下才会这样呢?这需要我们建立的模型满足如下的条件(或假定): (1) 随机抽样性。我们有一个含n 次观测的随机样(){}n i Y X X X i ik i i ,,2,1:,,,,21ΛΛ=。这保证了误差u 自身的随机性,即无自相关性,

一元线性回归分析论文

一元线性回归分析的应用 ——以微生物生长与温度关系为例 摘要:一元线性回归预测法是分析一个因变量与一个自变量之间的线性关系的预测方法。应用最小二乘法确定直线,进而运用直线进行预测。本文运用一元线性回归分析的方法,构建模型并求出模型参数,对分析结果的显著性进行了假设检验,从而了微生物生长与温度间的关系。 关键词:一元线性回归分析;最小二乘法;假设检验;微生物;温度 回归分析是研究变量之间相关关系的统计学方法,它描述的是变量间不完全确定的关系。回归分析通过建立模型来研究变量间的这种关系,既可以用于分析和解释变量间的关系,又可用于预测和控制,进而广泛应用于自然科学、工程技术、经济管理等领域。本文尝试用一元线性回归分析方法为微生物生长与温度之间的关系建模,并对之后几年的情况进行分析和预测。 1 一元线性回归分析法原理 1.1 问题及其数学模型 一元线性回归分析主要应用于两个变量之间线性关系的研究,回归模型模型为εββ++=x Y 10,其中10,ββ为待定系数。实际问题中,通过观测得到n 组数据(X i ,Y i )(i=1,2,…,n ),它们满足模型i i i x y εββ++=10(i=1,2,…,n )并且通常假定E(εi )=0,V ar (εi )=σ2各εi 相互独立且服从正态分布。回归分析就是根据样本观 察值寻求10,ββ的估计10?,?ββ,对于给定x 值, 取x Y 10???ββ+=,作为x Y E 10)(ββ+=的估计,利用最小二乘法得到10,ββ的估计10? ,?ββ,其中??? ? ??????? ??-???? ??-=-=∑ ∑ ==n i i n i i i x n x xy n y x x y 1221110???βββ。 1.2 相关系数 上述回归方程存在一些计算相关系数。设L XX =∑ ∑==-=-=n i i n i i def xx x n x x x L 1 2 2 1 2 )(,称为关于X 的离

一元线性回归,方差分析,显著性分析

一元线性回归分析及方差分析与显著性检验 某位移传感器的位移x 与输出电压y 的一组观测值如下:(单位略) 设x 无误差,求y 对x 的线性关系式,并进行方差分析与显著性检验。 (附:F 0。10(1,4)=,F 0。05(1,4)=,F 0。01(1,4)=) 回归分析是研究变量之间相关关系的一种统计推断法。 一. 一元线性回归的数学模型 在一元线性回归中,有两个变量,其中 x 是可观测、可控制的普通变量,常称它为自变量或控制变量,y 为随机变量,常称其为因变量或响应变量。通过散点图或计算相关系数判定y 与x 之间存在着显著的线性相关关系,即y 与x 之间存在如下关系: (1) / 通常认为 且假设与x 无关。将观测数据 (i=1,……,n)代入(1) 再注意样本为简单随机样本得: (2) 称(1)或(2)(又称为数据结构式)所确定的模型为一元(正态)线性回归模型。 对其进行统计分析称为一元线性回归分析。 模型(2)中 EY= ,若记 y=E(Y),则 y=a+bx,就是所谓的一元线性回归方程, 其图象就是回归直线,b 为回归系数,a 称为回归常数,有时也通称 a 、b 为回归系数。 设得到的回归方程 bx b y +=0? 残差方程为N t bx b y y y v t t t i ,,2,1,?0 =--=-= 根据最小二乘原理可求得回归系数b 0和b 。 对照第五章最小二乘法的矩阵形式,令 ¥ ?????? ? ??=??? ? ??=??? ???? ??=??????? ??=N N N v v v V b b b x x x X y y y Y 2102121?111 则误差方程的矩阵形式为

实验报告2多元线性回归模型的估计和统计检验(答案).doc

实验实训报告 课程名称:计量经济学实验 开课学期: 2011-2012学年第一学期开课系(部):经济系 开课实验(训)室:数量经济分析实验室学生姓名: 专业班级: 学号: 重庆工商大学融智学院教务处制

实验题目 实验(训)项目名称多元线性回归模型的估计和统 指导教师 计检验 实验(训)日期所在分组 实验概述 【实验(训)目的及要求】 目的:掌握多元线性回归模型的估计、检验。 要求:在老师指导下完成多元线性回归模型的建立、估计、统计检验,并得到正确的分析结果。 【实验(训)原理】 当多元线性回归模型在满足线性模型古典假设的前提下,最小二乘估计结果具有无偏性、有效性等性质,在此基础上进一步对估计所得的模型进行经济意义检验及统计检验。 实验内容 【实验(训)方案设计】 1、创建工作文件和导入数据; 2、完成变量的描述性统计; 3、进行多元线性回归估计; 4、统计检验:可决系数分析(R2);(2)参数显著性分析(t检验);(3)方程显著性分析(F检验); 5、进行变量非线性模型的线性化处理,并比较不同模型的拟合优度(因变量相同时)。 实验背景 选择包括中央和地方税收的“国家财政收入”中的“各项税收”(简称“TAX”)作为被解释变量,以反映国家税收的增长。选择“国内生产总值(GDP)”作为经济整体增长水平的代表;选择中央和地方“财政支出”作为公共财政需求的代表(FIN);选择“商品零售物价指数”作为物价水平的代表(PRIC),并将它们设为影响税收收入的解释变量。建立中国税收的增长模型,并对已建立的模型进行检验。

【实验(训)过程】(实验(训)步骤、记录、数据、分析 ) 1、根据实验数据的相关信息建立Workfile ; 在菜单中依次点击File\New\Workfile,在出现的对话框“Workfile range ”中选择数据频率。因为本例分析中国1978-2002年度的税收(Tax )与GDP 、财政支出(FIN )、商品零售物价指数(PRIC )之间关系,因此,在数据频率选项中选择“Annual ”选项。在“start data ”输入“1978”,在“end data ”输入“2002”。 2、导入数据; 在菜单栏中选择“Quick\Empty Group ”,将TAX 、GDP 、FIN 、PRIC 的年度数据从Excel 导入,并将这四个序列的名称分别改为“TAX ” 、“TAX ” 、“GDP ” 、“FIN ” 、“PRIC ” 。 或者在EViews 命令窗口中直接输入“data TAX GDP FIN PRIC ” ,在弹出的编辑框中将这四个个变量的时间数列数据从Excel 中复制过来。 3、给出自变量和因变量的描述性统计结果,并判断数据序列是否服从正态分布 (5%α=) 变量名 Mean Median Std J-B 值 J.B p 值 是否服从正态分布 GDP 35977 18548 34445 3.308 0.191 是 FIN 5855 3084 5968 9.390 0.009 否 PRIC 105 103 7 4.125 0.127 是 TAX 4848 2822 4871 6.908 0.032 否 4、给出自变量和因变量之间的相关系数矩阵: GDP FIN PRIC TAX GDP 1.000 0.957 -0.290 0.969 FIN 0.957 1.000 -0.375 0.997 PRIC -0.290 -0.375 1.000 -0.334 TAX 0.969 0.997 -0.334 1.000 5、假设总体回归模型1为0123TAX GDP FIN PRIC u ββββ=++++,进行多元回归估计 并报告估计结果:

讲义3 多元线性回归模型_假设检验

讲义3 多元线性回归模型:推断 主要内容: 1、推断的数学知识复习 2、Size,power的含义 3、OLS估计量的样本分布 4、单约束检验-t检验 5、多约束检验—F检验 对应教材内容:chapter2.5

自由度的概念 “自由度”是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数。 例:假设n 个独立变量Xi ~N(0,1),那么)(~)...(2 2 2 22 1n X X X n χ+++; 随机向量的分布与数字特征 ● 协方差矩阵 设Y 是一个由多个随机变量组成的向量,即' 21),...,,(n Y Y Y Y =,那么 Y 的期望为 ??? ? ??????=??????????==n n Y E Y E Y E μμμ... )(...)()(11, Y 的协方差矩阵为 ?? ? ? ????? ?------=--=∑])[(... )] )([(......... )])([(...])[(] ))([(211112 11' n n n n n n Y E Y Y E Y Y E Y E Y Y E μμμμμμμμ 对于n 个随机变量的线性组合Y ' α,有 μ αααα' '11)()...(==++Y E Y Y E n n α αα∑=' ' )(Y Var ● 多变量的正态分布X ~N (μ,∑),其中X 为n 维列向量,常被称为正态向量;μ为期望向量,∑为协方差矩阵。X 的密度函数为'1 /2 1/2 11()exp[()()](2) || 2 n f X x x μμπ-=- -∑-∑. ● 正态向量的线性函数 若),(~∑μN X ,那么 ),(~' A A b A N b AX ∑++μ ● 标准正态向量的二次型 若~(0,)n X N I ,A 是幂矩阵,那么))((~2 'A rank AX X χ。 特别地,)1(~)(2 1 20 '--= ∑ =n X X X M X n i i χ。 ● 幂矩阵二次型的独立性 设~(0,)n X N I ,A 和B 都是幂矩阵,那么如果0=AB 就有AX X ' 和BX X ' 就独立。

SPSS多元线性回归分析教程

线性回归分析的SPSS操作 本节容主要介绍如何确定并建立线性回归方程。包括只有一个自变量的一元线性回归和和含 有多个自变量的多元线性回归。为了确保所建立的回归方程符合线性标准,在进行回归分析之前, 我们往往需要对因变量与自变量进行线性检验。也就是类似于相关分析一章中讲过的借助于散点 图对变量间的关系进行粗略的线性检验,这里不再重复。另外,通过散点图还可以发现数据中的奇异值,对散点图中表示的可能的奇异值需要认真检查这一数据的合理性。 一、一元线性回归分析 1数据 以本章第三节例3的数据为例,简单介绍利用SPSS如何进行一元线性回归分析。数据编辑 窗口显示数据输入格式如下图7-8 (文件7-6-1.sav): 图7-8 :回归分析数据输入 2?用SPSS进行回归分析,实例操作如下: 2.1.回归方程的建立与检验 (1) 操作 ①单击主菜单An alyze / Regression / Li near ,?进入设置对话框如图7-9所示。从左边变量表 列中把因变量y选入到因变量(Depe ndent)框中,把自变量x选入到自变量 (I ndepe ndent)框中。在方法即Method —项上请注意保持系统默认的选项Enter,选择该项表示要求系统在建立回归方 程时把所选中的全部自变量都保留在方程中。所以该方法可命名为强制进入法(在多元回归分析中再具体介绍这一选项的应用)。具体如下图所示:

② 请单击Statistics 按钮,可以选择需要输出的一些统计量。 女口 Regression Coefficients (回 归 系数)中的Estimates ,可以输出回归系数及相关统计量,包括回归系数 B 、标准误、标准化回归 系数BETA 、T 值及显著性水平等。 Model fit 项可输出相关系数 R ,测定系数R 2,调整系数、 成后点击Continue 返回主对话框。 回归方程建立后,除了需要对方程的显著性进行检验外,还需要检验所建立的方程是否违反 回归分析的假定,为此需进行多项残差分析。由于此部分容较复杂而且理论性较强,所以不在此 详细介绍,读者如有兴趣,可参阅有关资料。 ③ 用户在进行回归分析时,还可以选 择是否输出方程常数。单击 Options ??按钮,打开它的 对话框,可以看到中间有一项 Include constant in equation 可选项。选中该项可输出对常数的检验。 在Options 对话框中,还可以定义处理缺失值的方法和设置多元逐步回归中变量进入和排除方程 的准则,这里我们采用系统的默认设置,如图 7-11所示。设置完成后点击 Continue 返回主对话 框。 估计标准误及方差分析表。 上述两项为默认选项, 请注意保持选中。 设置如图7-10所示。设置完 图7-9线性回归分析主对话框 图7-10: 线性回归分析的 Statistics 选项 图7-11 :线性回归分析的 Options 选项

回归分析法(一元线性回归)

回归分析法 摘要:略。 关键词:回归分析、回归模型、相关性检验、置信区间。 回归分析的起源:回归分析起源.doc 回归分析定义:利用数据统计原理,对大量统计数据进行数学处理,并确定因变量与某些自变量的相关关系,建立一个相关性较好的回归方程(函数表达式),并加以外推,用于预测今后的因变量的变化的分析方法。 分类: 1.根据因变量和自变量的个数来分类: 一元回归分析;多元回归分析; 2. 根据因变量和自变量的函数表达式来分类: 线性回归分析;非线性回归分析; 几点说明: 1.通常情况下,线性回归分析是回归分析法中最基本的方法,当遇到非线性回 归分析时,可以借助数学手段将其化为线性回归;因此,主要研究线性回归问题,一点线性回归问题得到解决,非线性回归也就迎刃而解了,例如,取对数使得乘法变成加法等;当然,有些非线性回归也可以直接进行,如多项式回归等; 2.在社会经济现象中,很难确定因变量和自变量之间的关系,它们大多是随机 性的,只有通过大量统计观察才能找出其中的规律。随机分析是利用统计学原理来描述随机变量相关关系的一种方法; 3.由回归分析法的定义知道,回归分析可以简单的理解为信息分析与预测。信 息即统计数据,分析即对信息进行数学处理,预测就是加以外推,也就是适当扩大已有自变量取值范围,并承认该回归方程在该扩大的定义域内成立,然后就可以在该定义域上取值进行“未来预测”。当然,还可以对回归方程进行有效控制; 4.相关关系可以分为确定关系和不确定关系。但是不论是确定关系或者不确定 关系,只要有相关关系,都可以选择一适当的数学关系式,用以说明一个或几个变量变动时,另一变量或几个变量平均变动的情况。

一元线性回归效果的显著性检验

一元线性回归效果的显著性检验 (相关系数检验法) 为了检验两个变量x、y之间是否具有显著的线性关系,我们介绍了一元线性回归效果的显著性检验(F检验法),这里我们介绍另一种检验方法-相关系数检验法. 为了检验假设:H0:b=0 ,H1:b≠0 . 根据样本观测数据(x i, y i)(i=1,2,…,n),由一元线性回归中未知参数的最小二乘估计中的结论知回归直线方程为: 其中 , , , , . 令 , 此统计量称为相关系数.而回归平方和: , 误差平方和: =L yy(1-r2).

[其中是回归值与其平均值的离差平方和,而,可以把看成是由于x的变化而引起的y值变化,因此称之为回归平方和; 反映的是观测值与回归值之间的离差平方和,它表示除x对y的线性影响之外的一切因素引起的y值的变化,称之为误差平方和或残差平方和.] 不难看出,?由于Q≥0,L yy≥0,故1-r2≥0,即0≤|r|≤1. |r|越接近1,Q越小,回归方程对样本数据的拟合程度越好;反之,|r|越接近0,Q 越大,回归方程对样本数据的拟合程度越差. 下面利用散点图具体说明,当r取各种不同数值时,散点分布的情形,见下图. 具体说明如下: (1)当r=0时,L xy=0,因此,回归直线平行于x轴,说明y的取值与x无关.注意,此时x与y可能存在其他非线性关系. (2)当|r|=1时,Q=0,从而y=这时所有的点都在回归直线上,此时x与y存在确定的线性函数关系,称x与y完全线性相关. (3)当0<|r|<1时,x与y存在一定的线性关系.若r与L xy同号,则r>0,>0,称x与y正相关:若r与L xy异号,则r<0,<0,称x与y负相关.

线性回归的显著性检验

线性回归的显著性检验 1.回归方程的显著性 在实际问题的研究中,我们事先并不能断定随机变量y 与变量p x x x ,,,21 之间确有线性关系,在进行回归参数的估计之前,我们用多元线性回归方程去拟合随机变量y 与变量p x x x ,,,21 之间的关系,只是根据一些定性分析所作的一种假设。因此,和一元线性回归方程的显著性检验类似,在求出线性回归方程后,还需对回归方程进行显著性检验。 设随机变量Y 与多个普通变量p x x x ,,,21 的线性回归模型为 p p x b x b b Y 110 其中 服从正态分布),0(2 N 对多元线性回归方程的显著性检验就是看自变量若接受p x x x ,,,21 从整体上对随机变量y 是否有明显的影响。为此提出原假设 0,,0,0:210 p b b b H 如果0H 被接受,则表明随机变量y 与p x x x ,,,21 的线性回归模型就没有意义。通过总离差平方和分解方法,可以构造对0H 进行检验的统计量。正态随机变量 n y y y ,,,21 的偏差平方和可以分解为: n i i i n i i n i n i i i i i y y y y y y y y y y 1 21 2 1 1 2 2 )?()?()??()( n i i T y y S 12 )(为总的偏差平方和, n i i R y y S 1 2)?(为回归平方和, n i i i E y y S 1 2)?(为残差平方和。因此,平方和分解式可以简写为:

E R T S S S 回归平方和与残差平方和分别反映了0 b 所引起的差异和随机误差的影响。构造F 检验统计量则利用分解定理得到: ) 1( p n Q p Q F E R 在正态假设下,当原假设0,,0,0:210 p b b b H 成立时,F 服从自由度为)1,( p n p 的F 分布。 对于给定的显著水平 ,当F 大于临界值)1,( p n p 时,拒绝0H ,说明回归方程显著,y x 与有显著的线性关系。 实际应用中,我们还可以用复相关系数来检验回归方程的显著性。复相关系数R 定义为: T R S S R 平方和分解式可以知道,复相关系数的取值范围为10 R 。R 越接近1表明E S 越小,回归方程拟合越好。 2.回归系数的显著性 若方程通过显著性检验,仅说明p b b b b ,,,210不全为零,并不意味着每个自变量对y 的影响都显著,所以就需要我们对每个自变量进行显著性检验。若某个系数0 j b ,则j x 对y 影响不显著,因此我们总想从回归方程中剔除这些次要的,无关的变量。检验i x 是否显著,等于假设 p j b H j j ,,2,1,0:0 已知])(,[~?12 X X B N B ,p j i c X X ij ,,2,1,0,)(1 )(记,可知 ],[~?2 ij j j c b N b ,,,2,1,0p j 据此可构造t 统计量

相关主题
文本预览
相关文档 最新文档