《计量经济学》课件资料整理
- 格式:doc
- 大小:1.49 MB
- 文档页数:50
第一章
一、计量经济学定义。
计量经济学是经济学的一个分支学科,是以揭示经济活动中客观存在的数量关系为内容的分支学科。
它是经济理论、统计学和数学三者的结合。
二、建立与应用计量经济学模型的主要步骤。
(一)理论模型的设计
1.确定模型所包含的变量
2.确定模型的数学形式
3.拟定理论模型中待估参数的理论期望值
(二)、样本数据的收集
(三)、模型参数的估计
(四)、模型的检验
(五)、模型的应用
三、理论模型的设计所包含的三部分工作。
(一)、确定模型所包含的变量
在单方程模型中,变量分为两类。
作为研究对象的变量,也就是因果关系中的“果”,是模型中的被解释变量;而作为“原因”的变量,是模型中的解释变量。
确定模型所包含的变量,主要是指确定解释变量。
可以作为解释变量的有下列几类变量:外生经济变量、外生条件变量、外生政策变量和滞后被解释变量。
如何正确地选择解释变量?
1、需要正确理解和把握所研究的经济现象中暗含的经济学理论和经济行为规律。
2、选择变量要考虑数据的可得性。
3、选择变量时要考虑所有入选变量之间的关系,使得每一个解释变量都是独立的。
(二)、确定模型的数学形式
选择模型数学形式的主要依据是经济行为理论。
在数理经济学中,已经对常用的生产函数、需求函数、消费函数、投资函数等模型的数学形式进行了广泛的研究,可以借鉴这些研究成果。
也可以根据变量的样本数据作出解释变量与被解释变量之间关系的散点图,由散点图显示的变量之间的函数关系作为理论模型的数学形式。
如果无法事先确定模型的数学形式,那么就采用各种可能的形式进行试模拟,然后选择模拟结果较好的一种。
(三)、拟定理论模型中待估参数的理论期望值
理论模型中的待估参数一般都具有特定的经济含义,对于它们的数值范围,即理论期望值,可以根据它们的经济含义在开始时拟定。
这一理论期望值可以用来检验模型的估计结果。
拟定理论模型中待估参数的理论期望值,关键在于理解待估参数的经济含义。
例如在生产函数理论模型中有4个待估参数α、β、γ和A。
其中,α是资本的产出弹性,β是劳动的产出弹性,γ近似为技术进步速度,A是效率系数。
根据这些经济含义,它们的数值范围应该是:
0<α<1, 0<β<1, α+β≈1, 0<γ<1并接近0, A>0。
四、常用的样本数据类型。
样本数据质量。
(一)、几类常用的样本数据
1、时间序列数据:是一批按照时间先后排列的统计数据。
2、截面数据:是一批发生在同一时间截面上的调查数据。
3、虚变量数据:也称为二进制数据,一般取0或1。
虚变量经常被用在计量经济学模型中,以表征政策、条件等因素。
(二)、样本数据的质量
1、完整性,即模型中包含的所有变量都必须得到相同容量的样本观测值。
2、准确性,有两方面含义,一是所得到的数据必须准确反映它所描述的经济因素的状态,即统计数据或调查数据本身是准确的;二是它必须是模型研究中所准确需要的,即满足模型对变量口径的要求。
例如,在生产函数模型中,作为解释变量的资本、劳动等必须是投入到生产过程中的、对产出量起作用的那部分生产要素,以劳动为例,应该收集生产性职工人数,而不能以全体职工人数作为样本数据。
3、可比性,也就是通常所说的数据口径问题。
统计范围口径的变化和价格口径的变化,必须进行处理后才能用于模型参数的估计。
计量经济学方法,是从样本数据中寻找经济活动本身客观存在的规律性,如果数据是不可比的,得到的规律性就难以反映实际。
4、一致性,即母体与样本的一致性。
例如,用企业的数据作为行业生产函数模型的样本数据,用人均收入与消费的数据作为总量消费函数模型的样本数据。
五、计量经济学模型必须通过哪四级检验?
(一)、经济意义检验
主要检验模型参数估计量在经济意义上的合理性。
方法是将模型参数的估计量与预先拟定的理论期望值进行比较,包括参数估计量的符号、大小、相互之间的关系,以判断其合理性。
(二)、统计检验
检验模型的统计学性质。
应用的统计检验准则有拟合优度检验、变量和方程的显著性检验等。
(三)、计量经济学检验
检验模型的计量经济学性质。
通常最主要的检验准则有随机误差项的序列相关检验和异方差性检验,解释变量的多重共线性检验等。
(四)、模型预测检验
包括1、稳定性检验:扩大样本重新估计 2、预测性能检验:对样本外一点进行实际预测六、计量经济模型成功的三要素。
(一)、理论,即所研究的经济现象的行为理论,是计量经济学研究的基础。
(二)、方法,主要包括模型方法和计算方法,是计量经济学研究的工具与手段,是计量经济学不同于其它经济学分支学科的主要特征。
(三)、数据,反映研究对象的活动水平、相互间联系以及外部环境的数据,或更广义讲是信息,是计量经济学研究的原料。
这三方面缺一不可。
七、相关关系与因果关系的区别与关系。
相关关系,是指两个以上的变量的样本观测值序列之间表现出来的随机数学关系,用相关系数来衡量。
因果关系,是指两个或两个以上变量在行为机制上的依赖性,作为结果的变量是由作为原因的变量所决定的,原因变量的变化引起结果变量的变化。
因果关系有单向因果关系和互为因果关系之分。
具有因果关系的变量之间一定具有数学上的相关关系。
而具有相关关系的变量之间并不一定具有因果关系。
八、计量经济学模型的应用领域。
(一)、结构分析
经济学中的结构分析是对经济现象中变量之间相互关系的研究。
它研究当一个变量或几个变量发生变化时会对其它变量以至经济系统产生什么样的影响。
结构分析所采用的主要方法是弹性分析、乘数分析与比较静力分析。
(二)、经济预测
(三)、政策评价
政策评价是指从许多不同的政策中选择较好的政策予以实行,或者说是研究不同的政策对经济目标所产生的影响的差异。
计量经济学模型,揭示了经济系统中变量之间的相互联系,将经济目标作为被解释变量,经济政策作为解释变量,可以很方便的评价各种不同的政策对目标的影响。
主要有三种方法。
一是工具—目标法。
二是政策模拟。
三是最优控制方法。
(四)、检验与发展经济理论
一是按照某种经济理论去建立模型,然后用表现已经发生的经济活动的样本数据去拟合,如果拟合很好,则这种经济理论得到了检验。
这就是检验理论。
二是用表现已经发生的经济活动的样本数据去拟合各种模型,拟合最好的模型所表现出来的数量关系,则是经济活动所遵循的经济规律,即理论。
这就是发现和发展理论。
九、计量经济学的建模方法主要有哪些?
计量经济学的建模方法包括传统的和非传统的计量经济建模方法。
传统的主要包括平均经济回归(AER)和误差设定。
非传统的主要包括Leamer的模型选择方法、伦敦经济学院的模型选择方法。
(一)、平均经济回归(AER):是一种向模型增加变量的重复过程,它的运用所依循的原则是节省性、识别性、拟合优度、理论一致性和预测功效。
(二)、误差设定:主要包括误差类型、误差观测、误差影响和误差检验。
第二章、计量经济学的基础工具
一、矩阵知识初步
二、概率与统计初步
1.基本概念:样本空间、总体、样本点、事件、随机变量、概率的古典形式、概率的性质
2.概率密度函数:对于随机变量X的每一个可能的取值x, 通过一个对应关系f,存在一个唯一的数y=f(x) ∈[0,1]与之对应,则称f(x)是X的密度函数。
当X是离散随机变量时,密度函数称为概率分布率即:f(x)=P(X=x).
3.分布函数:记住几个重要的分布函数的定义、密度函数及性质
4.条件密度与边缘密度函数:
5. 随机变量的数字特征及性质
6.样本及样本空间
三、统计推断
1.统计推断:在现实中,人们常常从所研究的对象即总体中抽取一部分个体即样本,根据样本的情况来推断总体的某些特征,即从局部推断整体状况,这在统计学上就称为统计推断。
在统计推断问题中,推断的形式会根据问题的需要而不同。
如在测量模型中,要估计测量对象的真值μ,通常用样本均值估计,这类问题称为点估计。
但有时我们需求得μ的变化范围,这就是区间估计问题,还有一类问题需要利用样本判断某个结论的真伪,这就是假设检验问题。
统计推断有三大基本任务:点估计,区间估计,假设检验。
2.点估计:点估计就是通过样本函数估计总体中某些未知数字特征或确定总体的某些未知参数,这样的函数经常称为统计量。
(1)定义:设h是总体的未知参数,X=(x1…xn)’是总体的一个样本,若统计量Ћ=ћ(X)用于估计未知参数h,则称Ћ为h的估计量,用样本观测值x=(x1…xn)’替代X得到估计量的取值,称为参数的估计值,用ћ(X)估计h的统计问题称为参数估计
(2)常用的方法:矩估计法;最小二乘、极大似然,非参数估计等。
(3)判断估计优劣的标准:无偏性,相合性,有效性。
3.假设检验:考虑如下问题:将情况基本相似的两组病人随机地分配到A治疗方法与B治疗方法,观测的结果为:A 有效46,无效 48;B 有效34,无效60. 据此能说明A方法优于B 法吗?
注意产生疗效率差的原因有:
⑴抽样误差;(2)总体率的差即本质差
要说明究竟是哪种原因,就必须利用假设检验方法
基本思想:
在某种原假设成立时,利用适当的统计量和给定的显著水平,构造一个小概率事件,如果这个事件发生了,就认为原假设不成立,可以拒绝原假设接受备择假设
假设检验的步骤:
(1)建立检验假设,确定检验水平α
(2)确定检验统计量,在零假设条件下,计算检验统计量的样本值
(3)计算P值,作出统计推断,p值定义为在零假设成立时,检验统计量不小于(或不大于)检验统计量的样本值的概率,一般地:p≤α,拒绝原假设,接受备择假设,p≥α,不拒绝原假设。
四、优化理论基础
第三章
一、线性回归模型
(一)线性回归模型的特征:
1、通过引入随机误差项,将变量之间的关系用一个线性随机方程来描述,并用随机数学的方法来估计方程中的参数;
2、在线性回归模型中,被解释变量的特征由解释变量与随机误差项共同决定。
随机误差项主要包括哪些因素的影响?
(1)在解释变量中被忽略的因素的影响;
(2)变量观测值的观测误差的影响;
(3)模型关系的设定误差的影响;
(4)其它随机因素的影响。
回归分析的目的是,根据样本回归方程(SRF) 估计总体回归方程(PRF)。
总体回归方程(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。
由于变量间关系的随机性,回归分析关心的是根据解释变量的给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。
(二)线性回归模型的普遍性
1、实际经济活动中的许多问题,都可以最终化为线性问题,所以,线性回归模型有其普遍意义。
2、即使对于无法采取任何变换方法使之变成线性的非线性模型,目前使用得较多的参数估计方法——非线性最小二乘法,其原理仍然是以线性估计方法为基础。
3、线性模型理论方法是计量经济学模型理论方法的基础。
线性的含义:线性回归模型是计量经济学模型的主要形式,许多实际经济活动中经济变量间的复杂关系都可以通过一些简单的数学处理,使之化为数学上的线性关系。
将非线性模型转化为线性模型的数学处理方法
⑴变量置换
例如,描述税收与税率关系的拉弗曲线:抛物线
s = a + b r + c r2 c<0 s :税收; r :税率 设X1 = r ,X2 = r2, 则原方程变换为
s = a + b X1 + c X2 c<0
• 变量置换仅用于变量非线性的情况。
⑵ 函数变换
例如,Cobb-Dauglas 生产函数:幂函数 Q = AK αL β Q :产出量,K :投入的资本;L :投入的劳动 方程两边取对数:
ln Q = ln A + α ln K + β ln L
(3)级数展开 (三)、线性回归模型的基本假设
1、线性回归模型在上述意义上的基本假设
(1)解释变量X1,X2,…,Xk 是确定性变量,不是随机变量;解释变量之间互不相关。
(2)随机误差项具有0均值和同方差。
即
E(μi)=0 i=1,2, …,n Var (μi)=σμ2 i=1,2, …,n
(3)随机误差项在不同样本点之间是独立的,不存在序列相关。
即 Cov(μi, μj)=0 i ≠j i,j = 1,2, …,n
(4)随机误差项与解释变量之间不相关。
即
Cov(Xji, μi)=0 j=1,2, …,k i=1,2, …,n
(5)随机误差项服从0均值、同方差的正态分布。
即
μi~N(0, σμ2 ) i=1,2, …,n 2、重要提示
(1)几乎没有哪个实际问题能够同时满足所有基本假设;
(2)通过模型理论方法的发展,可以克服违背基本假设带来的问题;
(3)违背基本假设问题的处理构成了单方程线性计量经济学理论方法的主要内容: 异方差问题(违背同方差假设);序列相关问题(违背序列不相关假设) 共线性问题(违背解释变量不相关假设);随机解释变量(违背解释变量确定性假设) 二、一元线性回归模型的参数估计 (一)、普通最小二乘法(OLS )
给定一组样本观测值Xi, Yi (i=1,2,…n),要求样本回归方程尽可能好地拟合这组值,即样本回归线上的点与真实观测点的“总体误差”尽可能地小。
1、 最小二乘法给出的判断标准是:二者之差的平方和最小。
= 2 1
) ˆ ( i n
i Y Y Q - =
∑ 2 1 0 1 )) ˆ ˆ ( ( i n i X Y β β + - ∑
2、参数估计的离差形式(deviation form)
2
于是,i Y 的概率函数为 2102
)ˆˆ(21
21
)(i
i X Y i e
Y P ββσμ
π
σ---=
i=1,2,…,n
记 ∑=
i X n
X 1
, ∑=
i Y n
Y 1
X X x i i -=,
Y
Y y i i -=(2.2.6)的参数估计量可以写成:
⎪⎩⎪⎨
⎧-=∑∑=
X
Y x y x i i i 1021ˆˆˆ
βββ (2.2.7)
将该或然函数极大化,即可求得到模型参数的极大或然估计量。
(三)、参数估计量的概率分布与随机项方差的估计
0)ˆˆ(2122104
2*2=--∑+-=i i X Y n L ββσσ∂σ∂μ
μμ即可得到σμ2
的最大或然估计量为:
n
e
X Y n
i
i
i ∑=--∑=22102
)ˆˆ(1ˆββσμ 因为i Y 是相互独立的,所以Y 的所有样本观测值的联合概率,也即或然函数(likelihood function)为:
)
,,,(),ˆ
,ˆ(21210n Y Y Y P L ⋅⋅⋅=μσββ 210
2
2
)ˆˆ(21)2(1
i i n X Y n
e
ββσμ
μ
σπ--∑-
=
可以证明:总体方差的无偏估计为
在总体方差的无偏估计量求出后,估计的参数和的方差和标准差的估计
由于随机项i μ不可观测,只能从i μ的估计——残差i e 出发,
对总体方差
2
σ进行估计。
1、0
ˆβ和1ˆβ的概率分布 其次,0ˆβ和1
ˆβ分别是i Y 的线性组合,因此0ˆβ、1
ˆβ的概率分 首先,由于解释变量
i X 是确定性变量,随机误差项i μ是随机性变量,因此被解释变量
i Y 是随机变量,且其分布(特征)与i μ相同。
2
σ 2 ˆ2 2
- = ∑ n e i σ 2 σ 2 ˆσ
ˆ β
1 ˆ
β
分别是:的样本方差:;的样本标准差:
的样本方差:
;的样本标准差:
(四)、参数估计量的性质
1、线性性(linear):即是否是另一随机变量的线性函数; 参数估计量 是Yi 的线性函数
3、有效性(efficient):即它是否在所有线性无偏估计量中具有最小方差。
证明最小方差性:
故: ∑+=i i w μββ0
0ˆ
∑∑=+=+=00
00)()()()ˆ(βμβμββi i i i E w E w E E 证:∑∑∑∑∑∑∑∑+
=
-==22221
)(ˆi
i
i
i
i i
i i
i
i
i x
x Y x
Y
x x Y Y x x y x β1 ˆ β1 ˆ β∑ = 2
2
1 ˆ) ˆ
( i
x Var σ β ∑ = 2 1
ˆ) ˆ ( i
x S σ β0
ˆ β
∑ ∑ = 2 2 2 0
ˆ) ˆ ( i
i x n X Var σ β 0
ˆ β∑ ∑ = 2 2 0
) ˆ ( i
i x n X S σ ββ
ˆ()
()
1
100ˆˆββββ
==E E
(五)、实例
现欲研究某市城镇居民1995年——2002年人均可支配收入和人均消费性支出之间的关系。
表1给出了某市城镇居民1995年至2002年期间各年度的人均可支配收入和人均消费性支出
同理可证明
)ˆvar()ˆvar(0
*0ββ≥Sampling distribution of OLS estimator 1ˆβ and alternative estimator *1
ˆβ假设*1
ˆβ
是其他方法得到的关于1
β的线性无偏估计量: ∑=i i Y c *1
ˆβ其中,i i i
d k c
+=,i d 为不全为零的常数。
∑∑∑∑∑+=+===i
i i i i i i i i X c c X c Y E c Y c E E 1010*1)()()()ˆ(βββββ由*1
ˆβ的无偏性,即1
*1
)ˆ(ββ=E 可知:
∑∑=+1
1
β
ββi
i
i
X c c
的数据。
的影响,其他各因素的影响,就被包含在随机误差项中。
2.估计人均消费性支出对人均可支配收入的线性回归方程
依据1995年——2002年的样本数据,运用普通最小二乘法离差形式的参数估计式对10,ββ进行估计:
-=Y X n Y
X y x i
i i
i
式中,n
Y
Y n
X
X Y Y y X X x i
i
i i i i ∑∑=
=
-=-=,,, n 为样本容量。
习题的书写格式: i i i X Y μββ++=
10 (i=1,2,…n )
8662.525ˆˆ7083
.08751239.96198658.9
ˆ1
021
≈-=≈=
=∑∑X Y x
y
x i
i
i βββ
i
i i X X Y 7083.08662.525ˆˆˆ10+=+=ββ 统计意义:当X 增加1个单位时,Y 平均增加0.7083个单位。
经济意义:当居民人均可支配收入增加1元时,人均消费性支出将平均增长0.7083元。
三、多元线性回归模型的参数估计
1
n )
Y
平均增加1ˆβ个单位;2ˆβ的数值结果表明,当1
X 保持不变时,2X 每增加1个单位,Y 平均增加2
ˆβ个单位。
(三)、参数估计量的性质
1、线性性:
2、无偏性:
( ) B = ' ' - X X X Y 1 B B E
= ) ˆ (
证: 于是:
3、有效性:若是B 的任一线性无偏估计量,则有:
(四)、样本容量问题
1、最小样本容量:所谓“最小样本容量”,即从最小二乘原理和最大或然原理出发,
()
()
339
.089.1427.7*83.3189.14*24.727.7*28.15ˆ2
22
122
21
2
12
22
1
1
=--=
--=∑∑∑∑∑∑∑x x x x x
x y x x y x β
()
()
2
122110221102
2
2
122
21
211
21
2
2
302.0339.0011.0ˆˆˆˆ011.095.1*302.075.4*339.021.2ˆˆˆ302.089.1427.7*83.3189
.14*28.1583.31*24.7ˆX X X X Y X X Y x x x x x x y x x y x ++=++==--=--==--=
--=
∑∑∑∑∑∑∑βββββββ则有,
结果表明,当前一期人均居民消费额(2
X )保持不变时,人均国内生产总值(1X )每增加1
* B N X X X B N XB X X X Y X X
X B ' ' - = - ' ' = ' ' = -
-
-
1 1 1 ) ( ) ( ) ( ) ( ˆ B N E X X X B N X X X E B E B E = ' ' - = ' ' - = -
-
) ( ) ( ) ) (( ) ( ) ˆ ( 1 1 ] )
ˆ )( ˆ [( ] ) )( [( *
*
' - - ≥ ' - - B B B B E B B B B E
千元,人均居民消费额(Y )平均增加0.339千元;当人均国内生产总值(1X )保持不变时,前一期人均居民消费额(2X )每增加1千元,人均居民消费额(Y )平均增加0.302千元。
(六)、Beta 系数
在多元线性回归模型中,我们有时需要考察对于被解释变量来讲,哪个解释变量更重要,即需要比较各个解释变量的相对重要性,如果各解释变量的计量单位不同,就不能直接
应用偏回归系数βˆ进行比较,因为偏回归系数β
ˆ的取值受解释变量计量单位的影响。
我们需要对偏回归系数加以调整,以便进行多元回归模型中各解释变量对被解释变量相对重要性的
,则 有0.705个标准差的变化。
*2
ˆβ统计意义:解释变量X 2变化一个标准差时,将使被解释变量Y 有0.300个标准差的变化。
经济意义:1991~2000年,我国前一期人均居民消费额变化一个标准差时,会使人均居民消费额有0.300个标准差的变化。
由此可见,就这一样本数据而论,人均居民消费额对于人均国内生产总值变化的
敏感程度大于对前一期人均居民消费额变化的敏感程度。
(七)、弹性系数
弹性系数的计算如下: ()
k j Y
X
j
j ,,2,1ˆ ==βη j η表明在变量平均值周围,j
X 每变动1%,将使Y 变动几% 。
其与解释变量的计量单位无任何关系,很适宜进行多元回归模型中各解释变量相对重要性的比较。
2)每变(1) Y 与X 1的相关系数
()
()
∑∑∑∑∑∑∑∑∑∑=
---=
2
2
1
12
22
12
1111y
x y x Y Y n X X n Y X Y X n r YX
(2)Y 与X 2的相关系数
()
()
∑∑∑∑∑∑∑∑∑∑=
---=
2
22
22
22
22
2222y
x y x Y Y n X X n Y X Y X n r YX (3)X 1与X 2的相关系数
()
()
∑∑∑∑∑∑∑∑∑∑=
---=
22
21
212
22
22
12
12
12121x
x x x X X n X X n X X X X n r X X
在前述关于我国1991~2000年消费模型的算例中,我国人均居民消费额Y (千元)与人均国内生产总值X 1(千元)的相关系数为:
9976
.037
.783.3128.152
21
11≈=
=
∑∑∑y
x y x r YX
我国人均居民消费额Y (千元)与前一期人均居民消费额X 2(千元)的相关系数为: 9891
.037
.727.724.72
2
2
22≈=
=
∑∑∑y
x y
x r YX 人均国内生产总值X
偏相关系数的取值范围在-1至+1之间。
对于前述我国1991~2000年的消费模型算例,有:
()()
()()
9771
.09788.019891.019788.09891.09976.011.2
2222
12
2
1212
1
≈--⨯-=---=X X YX X X YX YX X YX r r r r r r 即,当前一期人均居民消费额X 2 保持不变时,我国人均居民消费额Y 与人均国内生产总值X 1之间的真实相关程度为0.9771。
(其值小于相应的简单相关系数9976.01
≈YX r )
()()
()()
8919.09788.019976.019788
.09976.09891.011.2
2
222
11
2
11212≈--⨯-=
---=
X X YX X X YX YX X YX r r r r r r
即,当人均国内生产总值X 1保持不变时,我国人均居民消费额Y 与前一期人均居民消费额X 2之间的真实相关程度为0.8919。
(其值小于相应的简单相关系数9891.02≈YX r )
()()
()()
7774
.09891.019976.019891
.09976.09788.011.2
2
22
2
1
2
12121-≈--⨯-=
---=
YX YX YX YX X X Y X X r r r r r r
即,当我国人均居民消费额Y 保持不变时,人均国内生产总值X 1与前一期人均居民消费额X 2之间的真实相关程度为-0.7774。
(其符号与相应的简单相关系数9788.021≈X X r 相反,且绝对值减小。
)
上述计算结果显示,各个偏相关系数均小于相应的简单相关系数,X 1与X 2之间的偏相
TSS 为总体平方和(Total Sum of Squares ),反映样本观测值总体离差的大小;ESS 为回归平方和(Explained Sum of Squares ),反映由模型中解释变量所解释的那部分离差的大小;RSS 为残差平方和(Residual Sum of Squares ),反映样本观测值与估计值偏离的大小,也是模型中解释变量未解释的那部分离差的大小。
TSS=RSS+ESS
2、拟合优度检验统计量:可决系数R2和校正可决系数
2
R
(1)可决系数
用可决系数2
R 进行拟合优度检验,可决系数的计算公式为:()()
∑∑--=
2
22
ˆY Y
Y Y R i
i
,该统计量越接近于1,模型的拟合优度越高。
在应用过程中我们会发现,如果在模型中增加一个解释变量,模型的解释功能增强了,可决系数2R 计算公式中的分子——回归平方和()∑-2
ˆY Y i
就会增大,因而2
R
就增大。
这就给人一种错觉:似乎要使
模型拟合得好,就必须增加解释变量。
但是,在样本容量一定的情况下,增加解释变量必定使得自由
2R ,是1(1)假设检验是统计推断的一个主要内容,它的基本任务是根据样本所提供的信息,对未知总体分布的某些方面的假设作出合理的判断。
(2)假设检验的程序是,先根据实际问题的要求提出一个论断,称为统计假设;然后根据样本的有关信息,对假设的真伪进行判断,作出拒绝或接受假设的决策。
(3)假设检验的基本思想是概率性质的反证法。
(4)概率性质的反证法的根据是小概率事件原理,该原理认为“小概率事件在一次试验中几乎是不可能发生的”。
102
<<R
2、变量显著性检验:即对回归系数的显著性进行检验,如果变量是显著的,那么回归系数应该显著地不为0。
于是,在变量显著性检验中设计的原假设为: H0:βi=0 而备择假设为: H1: βi ≠0
其中 的下角标i ,在一元回归模型中取值1: i
β计量,
t 分布表(见附
α
2
如果计算出的t 统计量的绝对值
t
>t n k α
2
1()--,则在(1-α)的置信概率下拒绝原假设
H 0。
表明在(1-α)的置信概率下,i
βˆ不是由0=i
β这样的总体产生的,βi 显著地不为0,即变量i
X 对被解释变量的影响是显著的;如果t <)1(2--k n t α,则在(1-α)的置信概率下接受原假
设H 0,表明在(1-α)的置信概率下,βι与0没有什麽差别,即变量X i 对被解释变量的影响是不显著的。
对前述一元例题的回归系数进行显著性检验:
这样的总体产生95%的置信概率
2211i
()
()027.089
.1427.783.31001
.027.7ˆ
)ˆ(001
.01
210004
.01ˆ004.0366.737.7ˆ2
2
2
122
21
2
22
1
2
2
22
2
=-⨯⨯=
-==--=--==-=-=∑∑∑∑∑∑∑∑x x x x x SE k n e y
y e i
i
i
σβσ
:0:1110≠=ββH H ()
2584.0
1
-1-88751239.97083.0-4405903.91
ˆ1ˆˆ22
21222≈⨯=---=
---=∑∑∑k n x y k n Y Y i i i i βσ017
.08751239.9
.2584ˆ2
2ˆ1
≈=
=
∑i
x
S σ
β6,025.0447.2t =665
.41017
.00
7083.0ˆˆ
≈-=
-=
i
S t i
i βββ
()
()
7
,025.07,025.011111102
2
2
122
21
2
21
2365.2556
.12027.00339.0)ˆ(ˆ0
:0
:057.089.1427.783.31001
.083.31ˆ
)ˆ(t t t SE t H H x x x x x SE >==-=-=≠==-⨯⨯=
-=∑∑∑∑βββββσβ
0,2β显著1F 由于回归平方和ESS 是解释变量X 联合体对被解释变量Y 的线性作用的结果,所以,如果ESS/RSS 的比值较大,则X 的联合体对Y 的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。
因此,可通过该比值的大小对总体线性关系进行推断。
2F (见
本书附录),可以得到一个临界值F k n k α(,)--1。
如果所计算的F >F k n k α(,)--1,则在(1-α)的置信概率下拒绝原假设H 0,即模型的线性关系显著成立,模型通过方程显著性检验。
如果所计算的F <F k n k α(,)--1,则在(1-α)的置信概率下接受原假设H 0,即模型的线性关系显著不成立,模型未通过方程显著性检验。
3、 方程显著性F 检验的例题
由于i Y 服从正态分布,根据数理统计学中的定义,i Y 的一
组样本的平方和服从
χ2分布。
所以有: 2)ˆ(Y Y ESS i -∑=~χ2()k
2)ˆ(i i Y Y RSS -∑=~χ21()
n k --即回归平方和、残差平方和分别服从自由度为
k 和()n k --1的
χ
2
分布。
对前述得到的回归方程2
1302.0339.0011.0ˆX X Y ++= 进行线性关系显著性的检验,首先给出假设
()
()()49957
/999.012
/999.01/1/,:0
:2
2211210=-=---===k n R k R F H H 不全为零
ββββ
选定显著性水平05.0=α,本例中第一自由度21==k ν,第二自由度
ν得
4 拟合优度检验和方程显著性检验是从不同原理出发的两类检验,前者是从已经得到估计的模型出发,检验它对样本观测值的拟合程度,后者是从样本观测值出发检验模型总体线性关系的显著性。
可见,F与R2同向变化:当R2 =0时,F=0;当R2=时,F为无穷大;R2越大,F值
也越大。
因此,F检验是所估计回归总显著性的一个度量,也是对
的一个显著性检验。
即:检验原假设 ,等价于检验 )1/()1/(12----=n TSS k n RSS R )
1(--=k n RSS k ESS F kF
k n n R +----=1112
2R 0:2
1
==ββH 0
:20
=ρH。