第二章:双变量线性回归分析
- 格式:doc
- 大小:307.03 KB
- 文档页数:15
线性回归分析双变量模型回归分析的含义回归分析是研究一个叫做因变量的变量对另一个或多个叫做解释变量的变量的统计依赖关系。
其用意在于,通过解释变量的已知值或给定值去估计或预测因变量的总体均值。
双变量回归分析:只考虑一个解释变量。
(一元回归分析,简单回归分析)复回归分析:考虑两个以上解释变量。
(多元回归分析)统计关系与确定性关系统计(依赖)关系:非确定性的关系。
在统计依赖关系中,主要处理的是随机变量,也就是有着概率分布的变量。
特别地,因变量的内在随机性是注定存在的。
例如:农作物收成对气温、降雨、阳光以及施肥的依赖关系便是统计性质的。
这些解释变量固然重要,但是并不能使我们准确地预测农作物的收成。
确定性关系:函数关系。
例如物理学中的各种定律。
)/(221r m m k F回归与因果关系❑回归分析研究因变量对于解释变量的统计依赖关系,但并不一定意味着因果关系。
一个统计关系式,不管多强和多么具有启发性,都永远不能确立因果联系。
❑因果关系的确立必须来自于统计关系以外,最终来自于这种或那种理论(先验的或是理论上的)。
回归分析与相关分析(一)❑相关分析:用相关系数测度变量之间的线性关联程度。
例如:测度统计学成绩和高等数学成绩的的相关系数。
假设测得0.90,说明两者存在较强的线性相关。
❑回归分析:感兴趣的是,如何从给定的解释变量去预测因变量的平均取值。
例如:给定一个学生的高数成绩为80分,他的统计学成绩平均来说应该是多少分。
回归分析与相关分析(二)❑在相关分析中,对称地对待任何两个变量,没有因变量和解释变量的区分。
而且,两个变量都被当作随机变量来处理。
❑在回归分析中,因变量和解释变量的处理方法是不对称的。
因变量被当作是统计的,随机的。
而解释变量被当作是(在重复抽样中)取固定的数值,是非随机的。
(把解释变量假定为非随机,主要是为了研究的便利,在高级计量经济学中,一般不需要这个假定。
)双变量回归模型(一元线性回归模型)双变量回归模型(最简单的回归模型)模型特点因变量(Y)仅依赖于唯一的一个解释变量(X)。
第三部分初计量经济(13周)经典单方程计量经济模型:一元线形回归模型经典单方程计量经济模型:多元线形回归模型经典单方程计量经济模型:放宽基本假定模型第一章一元线性回归(双变量)(1)回归分析的基本概念(2)前提建设(3)参数估计:OLS的参数估计ML的参数估计(4)统计检验(5)预测(6)时间案例与操作(7)思考与作业§1 经典正态线性回归模型(CNLRM)1、一个例子注 x 表示收入,y 表示支出。
5010015020050100150200250300XYY vs. X5010015020050100150200250300XY 1Y1 vs. X条件分布:以X 取定值为条件的Y 的条件分布 条件概率:给定X 的Y 的概率,记为P(Y|X)。
例如,P(Y=55|X=80)=1/5;P (Y=150|X=260)=1/7。
条件期望(conditional Expectation ):给定X 的Y 的期望值,记为E(Y|X)。
例如,E(Y|X=80)=55×1/5+60×1/5+65×1/5+70×1/5+75×1/5=65总体回归曲线(Popular Regression Curve )(总体回归曲线的几何意义):当解释变量给定值时因变量的条件期望值的轨迹。
总结总体:总体函数:总体方程:样本:样本函数:样本方程:2、总体回归函数(PRF)E(Y|X i)=f(X i)当PRF的函数形式为线性函数,则有,E(Y|X i)=β1+β2X i其中β1和β2为未知而固定的参数,称为回归系数。
β1和β2也分别称为截距和斜率系数。
上述方程也称为线性总体回归函数。
3、P RF的随机设定将个别的Y I围绕其期望值的离差(Deviation)表述如下:u i=Y i-E(Y|X i)或Y i=E(Y|X i)+u i其中u i是一个不可观测的可正可负的随机变量,称为随机扰动项或随机误差项。
4、“线性”的含义“线性”可作两种解释:对变量为线性,对参数为线性。
本课“线性”回归一词总是指对参数β为线性的一种回归(即参数只以它的1次方出现)。
模型对变量为线性?模型对参数为线性?是不是是LRM LRM不是NLRM NLRM注:LRM=线性回归模型;NLRM=非线性回归模型。
看几个例子:5、随机干扰项的意义(补充内容)随机扰动项是从模型中省略下来的而又集体地影响着Y的全部变量的替代物。
显然的问题是:为什么不把这些变量明显地引进到模型中来?换句话说,为什么不构造一个含有尽可能多个变量的复回归模型呢?理由是多方面的: (1) 理论的含糊性 (2) 数据的欠缺 (3) 核心变量与周边变量 (4) 内在随机性 (5) 替代变量 (6) 省略原则 (7) 错误的函数形式总之把所有没有模型中没有包含,但有关的变量全部纳入干扰项之中。
6、 样本回归函数(S RF ) (1)样本回归函数iY ˆ=1ˆβ+2ˆβi X 其中Y ˆ=E(Y|X i )的估计量;1ˆβ=1β的估计量;2ˆβ=2β的估计量。
估计量(Estimator ):一个估计量又称统计量,是指一个规则、公式或方法,是用已知的样本所提供的信息去估计总体参数。
在应用中,由估计量算出的数值称为估计值。
样本回归函数的随机形式为:其中i u ˆ表示(样本)残差项(residual )。
(2)样本回归线的几何意义7、经典线性回归模型(CLRM )的基本假定: 假定1:干扰项的均值为零。
即,E(u i |X i )=0假定2:同方差性或u i 的方差相等。
即,Var(u i |X i )=σ2 假定3:各个干扰项无自相关。
即,Cov(u i ,u j |X i ,X j )=0 假定4:u i 和X i 的协方差为零。
即,Cov(u i ,X i )=E(u i X i )=0 假定5: 回归模型对参数而言是线性的 假定6:2~(,)i u N u σ§2 估计问题(β和σ2)一、 普通最小二乘法 1、问题: PRF :Y i =β1+β2X i +u iSRF :i Y =1ˆβ+2ˆβi X +i u ˆ=i Y ˆ+i u ˆ i u ˆ=i Y -iY ˆ=i Y -(1ˆβ+2ˆβi X )minf(1ˆβ,2ˆβ)=min ∑i u ˆ2=min ∑[i Y -(1ˆβ+2ˆβiX )]2 2、正规方程(Normal equation )由1ˆβ∂∂f =0,以及2ˆβ∂∂f=0得到的方程组称为正规方程。
即,二、 β的估计 1、公式:解上述正规方程组得到1ˆβ和2ˆβ估计值:其中X 和Y 是X 和Y 的样本均值。
定义离差:i x =i X -X ,i y =i Y -Y 。
用小写字母表示对均值的离差。
2、对OLS 估计量的说明(1)OLS 估计量可由观测值计算; (2) OLS 估计量是点估计量;(3)一旦从样本数据得到OLS 估计值,就可画出样本回归线。
3、样本回归线的性质:(1) 通过Y 和X 的样本均值:Y =1ˆβ+2ˆβX ; (2) 估计的Y 的均值等于实际的Y 的均值:Y ˆ=Y ;(3) 残差i uˆ的均值为零:E(i u ˆ)=0;(4) 残差i u ˆ与iY ˆ不相关:∑i u ˆi y ˆ=0; (5) 残差i uˆ与i X 不相关:∑i u ˆi x =0。
三、σ2的估计四、最小二乘法估计的精度或标准误差五、OLS 的性质(高斯-马尔可夫定理)(补充内容)OLS 估计量1ˆβ和2ˆβ是BLUE (Best Linear Unbiased Estimator )的。
(1)线性:它是一个随机变量,如因变量Y 的线性函数。
(2)无偏:它的均值等于真值,E(2ˆβ)=β2 (3)最小方差:在所有线性无偏估计量中OLS 下的估计量有最小方差。
注:有最小方差的无偏估计量叫有效估计量。
§3 拟合优度检验拟合优度检验是指样本回归线与样本观测值之间拟合程度的检验。
度量拟合程度的指标是判定系数R 2。
一、 平方和公式总平方和(TSS ):∑-=∑22)(Y Y y i i =实测的Y 值围绕其均值的总变异;解释平方和(ESS ):∑-=∑22)ˆˆ(ˆY Y y ii =估计的Y 值围绕其均值的总变异;残差平方和(RSS ):∑-=∑22)ˆ(ˆii i Y Y u =未被解释的围绕回归线的Y 值的变异。
二、 R 2公式性质:102≤≤R ;三、 R 2与相关系数r 不同在回归分析中,R 2是一个比r 更有意义的度量,因为前者告诉我们在因变量的变异中由解释变量解释的部分占怎样一个比例,因而对一个变量的变异在多大程度上决定另一个变量的变异,提供了一个总的度量。
§4 置信区间本节要解决的问题: OLS 估计值2ˆβ是一个点估计值,它离真实值2β有多近?一、 区间估计的一些基本概念为了回答上述问题,我们试求两个正数δ和α,α位于0与1之间,使得随机区间(2ˆβ-δ,2ˆβ+δ)包含2β的概率为1-α。
用符号表示, Pr(2ˆβ-δ≤2β≤2ˆβ+δ)=1-α 这样的一个区间如果存在的话,就称为置信区间(Confidence interval );1-α称为置信系数(Confidence coefficient );α(0<α<1)称为显著(性)水平(Level of significance ); 置信区间的端点称为置信限(Confidence limits );2ˆβ-δ为置信下限(Lower Confidence limit );2ˆβ+δ为置信上限(Upper Confidence limit )。
二、回归系数β1和β2的置信区间在u i 的正态性假定下,OLS 估计量1ˆβ和2ˆβ本身就是正态分布的, ),0(~2σN u i ⇒),(ˆ2222∑i x N σββ~⇒)1,0(~/ˆ2222N x Z i∑-=σββ 但是2σ很少能知道,在实践中用无偏估计量2ˆσ来代替,则统计量t 服从自由度为n-2的t 分布:)2(~/ˆˆ)ˆ(ˆ2222222-∑-=-=n t x se t i σβββββ 其中∑=222/ˆ)ˆ(i x se σβ表示估计量2ˆβ的标准差(∑22/i x σ)的估计值。
由ααα-=≤≤-1)Pr(t t t 得:同样,β1显著水平为α的置信区间为:)](),([121121ββββααse t se t +- 三、σ2的置信区间在正态性的假设下,变量222ˆ)2(σσχ-=n服从自由度为n-2的2χ分布。
故可以用其来建立σ2的置信区间。
由αχχχαα-=≤≤-1)Pr(22/222/1得,§5假设检验(t )问题:某一给定的观测或发现是否与某一声称的假设(stated hypothesis )相符?此处用“相符”一词表示观测的值与假设的值“足够相近”,因而我们不拒绝所声称的假设。
虚拟假设(Null hypothesis ):一种信以为真的、意在维护的或理论上的假设,并用H 0表示。
与之对立的假设称为对立假设(alternative hypothesis ),记为H 1。
对立假设可以是简单的或复合的。
例如,H 1:β2=1是一个简单假设,但是H 1:β2≠1则是一个复合假设。
方法:有显著性检验和置信区间两种方法。
一、 显著性检验1、 t 检验(检验系数)方法: H 0:*22ββ=;H 1:*22ββ≠如果H 0为真,则因为)2(~/ˆˆ)ˆ(ˆ2222222-∑-=-=n t x se t i σβββββ 所以有,ασββαα-=≤∑-≤-1)/ˆˆPr(222*222t x t i从而,)]ˆ(),ˆ([ˆ22*222*22βββββααse t se t +-∈ 检验2ˆβ的估计值是否在此区间,如果在则接受H 0假设,否则拒绝H 0假设。
2、 置信区间方法 H 0:*22ββ=;H 1:*22ββ≠构造一个β2的显著水平为α的置信区间为:)]ˆ(ˆ),ˆ(ˆ[222222ββββααse t se t +-。
若β2在假设H 0:*22ββ=之下落入此区间,就不要拒绝H 0假设,但落在区间之外,就拒绝H 0假设。
3、 t 检验方法的直接计算: H 0:*22ββ=;H 1:*22ββ≠。
计算 ∑-=-=2222222/ˆˆ)ˆ(ˆi x se t σβββββ 比较|t |与2αt :|t |>2αt (t 值大)⇔“统计量的值落入临界域上 ⇔统计量是统计上显著的 ⇔拒绝H 0假设 ⇔Pr(t)<α(P 值小)。
二、σ2检验的显著性(χ2检验) H 0:22*σσ=;H 1:22*σσ≠。