经典线性回归模型
- 格式:pdf
- 大小:461.63 KB
- 文档页数:17
第二章经典线性回归模型:估计、统计性质与统计检验•经典线性回归模型:假设与OLS估计•OLS估计的小样本性质与统计检验•OLS估计的大样本性质与统计检验§1.1 经典线性回归模型:假设与OLS估计一、经典线性回归模型二、经典线性回归模型的OLS估计E(Y|X)回归分析的基本逻辑:寻找样本回归线,并用样本回归线近似代表总体回归线问题:能否代表?需要通过检验来回答!(1) 对残差平方和SSR(b )= Σe t 2=e ’e =(Y -Xb )’(Y -Xb ) 1阶偏导: ∂SSR/∂b = -2X ’(Y-Xb )2阶偏导: ∂2SSR/∂b ∂b ’= 2X ’X由于X ’X 为正定矩阵(Why?), 从而b =(X ’X )-1(X ’Y )是最小值 由1阶极值条件可以得到所谓正规方程(normal equations ): X ’(Y-Y-XbXb )=X ’e =0 ⇔ Σt X tj e t =0 (j=1,2,…,k )当模型含有值恒为1的常数项时, Σe t =0正规方程是OLS 所特有的,而不论是否有E(εt |X )=02、OLS 估计的数值性质(4)一些有用的等式a. X’e=0b. b −β=(X’X)-1X’ε因为b=(X’X)-1X’Y=(X’X)-1X’(Xβ+ε)=β+(X’X)-1X’ε c. 定义n×n方阵:P P X=X(X’X)-1X’(投影矩阵),M X=I n−P X(消灭矩阵)则P=P X’, M M X=M X’XP X2=P X, M M X2=M XX=X, M X X=O n×(k+1)且PXd. e=M X Y=M XεSSR(b)=e’e=Y’M X Y=ε’M Xε二元回归的示例图赤池信息准则(Akaike information criterion, AIC, 1973) AIC=ln[e’e/n]+2(k+1)/n=goodness of fit + model complexityAIC= -2ln L/n +2(k+1)/n贝叶斯信息准则(Baysian information criterion, BIC)施瓦茨准则(Schwarz criterion,SC, 1978)BIC=ln[e’e/n]+(k+1)ln(n)/nBIC/SC= -2ln L/n+(k+1)ln(n)/n贝叶斯信息准则对多引入多余的解释变量给出了更重的惩罚。
经典线性回归模型经典回归模型在涉及到时间序列时,通常存在以下三个问题:1)非平稳性→ ADF单位根检验→ n阶单整→取原数据序列的n阶差分(化为平稳序列)2)序列相关性→D.W.检验/相关图/Q检验/LM检验→n阶自相关→自回归ar(p)模型修正3)多重共线性→相关系数矩阵→逐步回归修正注:以上三个问题中,前两个比较重要。
整体回归模型的思路:1)确定解释变量和被解释变量,找到相关数据。
数据选择的时候样本量最好多一点,做出来的模型结果也精确一些。
2)把EXCEL里的数据组导入到Eviews里。
3)对每个数据序列做ADF单位根检验。
4)对回归的数据组做序列相关性检验。
5)对所有解释变量做多重共线性检验。
6)根据上述结果,修正原先的回归模型。
7)进行模型回归,得到结论。
Eviews具体步骤和操作如下。
一、数据导入1)在EXCEL中输入数据,如下:除去第一行,一共2394个样本。
2)Eviews中创建数据库:File\new\workfile, 接下来就是这个界面(2394就是根据EXCEL里的样本数据来),OK3)建立子数据序列程序:Data x1再enter键就出来一个序列,空的,把EXCEL里对应的序列复制过来,一个子集就建立好了。
X1是回归方程中的一个解释变量,也可以取原来的名字,比如lnFDI,把方程中所有的解释变量、被解释变量都建立起子序列。
二、ADF单位根检验1)趋势。
打开一个子数据序列,先判断趋势:view\graph,出现一个界面,OK。
得到类似的图,下图就是有趋势的时间序列。
X1.4.2.0-.2-.4-.6-.8100020003000400050002)ADF检验。
直接在图形的界面上进行操作,view\unit root test,出现如下界面。
在第二个方框内根据时序的趋势选择,Intercept指截距,Trend为趋势,有趋势的时序选择第二个,OK,得到结果。
上述结果中,ADF值为-3.657113,t统计值小于5%,即拒绝原假设,故不存在单位根。
2 经典线性回归模型§2.1 概念与记号1.线性回归模型是用来描述一个特定变量y 与其它一些变量x 1,…,x p 之间的关系。
2. 称特定变量y 为因变量 (dependent variable )、 被解释变量 (explained variable )、 响应变量(response variable )、被预测变量(predicted variable )、回归子 (regressand )。
3.称与特定变量相关的其它一些变量x 1,…,x p 为自变量(independent variable )、 解释变量(explanatory variable )、控制变量(control variable )、预测变量 (predictor variable )、回归量(regressor )、协变量(covariate )。
4.假定我们观测到上述这些变量的n 组值:() ip i i x x y , , , 1 L (i=1,…,n)。
称 这n 组值为样本(sample )或数据(data )。
§2.2 经典线性回归模型的假定假定 2.1(线性性(linearity))iip p i i x x y e b b b + + + + = L 1 1 0 (i=1,…,n)。
(2.1)称方程(2.1)为因变量y 对自变量x 1,…,x p 的线性回归方程(linear regression equation ),其中 ( ) p , k k , , 1 0 L = b 是待估的未知参数(unknown parameters ),( ) n i i , , 1 L = e 是满足一定限制条件的无法观测的误差项(unobserved error term ) 。
称自变量的函数 ip p i x x b b b + + + L 1 1 0 为回归函数(regression function )或简称为回归 (regression )。
称 0 b 为回归的截距(ntercept),称 ( ) p k k , , 1 L = b 为自变量的回归系数 (regression coefficients ) 。
某个自变量的回归系数表示在其它条件保持不变的情况下,这个自变量变化一个单位对因变量的影响程度, 这个影响是在排除其它自变量的影 响后,这个自变量对因变量的偏效应。
下面引入线性回归方程的矩阵表示。
记( ) Tp b b b b , , , 1 0 L = (未知系数向量(unknown coefficient vector )) ( ) T ip i i x x x , , ~ 1 L = , ( ) T ip i i x x x , , , 1 1 L = ,则iTi i x y e b + = (i=1,…,n)。
又记X = ÷ ÷ ÷ øö ç ç ç è æ np p n x x x x M L L L M M 1 1 11 1 1 , Y = ÷ ÷ ÷ ø ö ç ç ç è æ n y y M 1 , ÷ ÷ ÷ø ö ç ç ç è æ = n e e e M 1 ,则 eb + = X Y 假定2.2(严格外生性(strictly exogeneity))( ) ( )np n p i n i x x x x E x x E , , , , , , | ~, , ~| 1 1 11 1 L L L L e e = =0 (i=1,…,n)。
严格外生性的含义 ·误差项的无条件期望为零( ) 0 = i E e(i=1,…,n)。
·正交条件(orthogonality conditions )( ) ( ) ( ) 0 ~ 1 = ÷ ÷ ÷ øö ç ç ç è æ = i jp i j i j x E x E x E e e e M (i=1,…,n ; j=1,…,n )。
·不相关条件(zerocorrelation conditions )( ) 0, cov = jk i x e (对所有i ,j ,k)。
由以上严格外生性的含义可知,如果在时间序列数据中存在的滞后效应 (lagged effect )和反馈效应(feetback effect ) ,那么严格外生性条件就不成立。
因而,在严格外生性假定下推出的性质就不能用于这类时间序列数据。
滞后效应是指 自变量历史值对因变量当前值的影响, 反馈效应是指因变量当前值对自变量未来值 的影响。
假定2.3(无多重共线性(no multicollinearity))n×(p+1)矩阵X的秩为(p+1)的概率为1。
假定2.4(球面误差方差(spherical error variance))( ) nn I x x Var 21 ~, , ~| s e = L ·条件同方差(conditional homoskedasticity )( )0 ~ , , ~| 2 1 2 > =s e ni x x E L (i=1,…,n)。
(误差方差) ·误差项不相关(no correlation between error term )( )0 ~ , , ~| 1 = nj i x x E L e e (对所有i≠j) 在经典线性回归模型的四个假定中,假定2.1和假定2.3是必不可少的,但假定 2.2和假定2.4中的严格外生性、条件同方差和误差项不相关以后可以适当放宽。
§2.3 随机样本的经典线性回归模型若样本( )Ti i x y ~, (i=1,…,n)为IID ,那么假定2.2和假定2.4可简化为 假定2.2: ( ) 0~| = i i x E e (i=1,…,n) 假定2.4: ( ) 0~| 22 > =s e i i x E (i=1,…,n) §2.4 确定性自变量的经典线性回归模型若更进一步假定自变量x 1,…,x p 为确定性的变量,那么假定2.2和假定2.4可 进一步简化为假定2.2: ( ) 0 = i E e(i=1,…,n)假定2.4: ( ) nI Var 2 s e = §2.5 最小二乘估计量及其代数性质虽然我们无法直接观测到误差项, 但对未知系数向量β的一个假想值 (hypotheticalvalue )b ~,容易计算出ipp i i x x y b b b ~~ ~ 1 1 0 - - - - L 称这个量为第i 次观测的残差(residual ),并且称使残差平方和(residual sum of squares )( )( ) å = - - - - = ni ipp i i x x y Q 12 1 1 0 ~ ~ ~ ~b b b b L =( ) ( )b b ~~ X Y X Y T - - 达到最小的假想值:为未知系数向量β的普通最小二乘估计量(ordinary least squares estimators ),简记 为OLS 估计量。
下面介绍OLS 估计量的一些代数性质。
·一阶条件(firstorder conditions )( ) 0= - Xb Y X T (正规方程(normal equations ))·β的OLS 估计量:在假定2.3成立时()÷ øö ç è æ ÷ ø ö ç è æ = = å å = - = -ni i i n i T i i TTy x n x x n Y X X X b 1 11 1 1 1 ·估计量的抽样误差(sampling error ): ( ) eb T T X X X b 1- = - ·第i 次观测的拟合值(fitted value ): bx y Ti i = ˆ ·拟合值向量(vector of fitted value ): ( ) HYY X X X X Xb Y T T º = = -1ˆ ·投影矩阵(projection matrix ): ( ) T T XX X X H º (对称幂等,秩为p+1,HX=X ) ·第i 次观测的OLS 残差(OLS residual ): i i Ti i i yy b x y e ˆ - = - = ( )b b~ min arg ~Q b =·残差向量(vector of OLS residuals ):e=YXb= Y Y ˆ - =(IH)Y≡MY eM = ·零化子(annihilator ):M=I n – H (对称幂等,秩为np1,MX=0)·一阶条件: 0 = e X T,即 01 1= å = ni i i e x n ( ( ) 0 = i i x E e )·OLS 估计的几何意义: e Ye Xb Y + = + = ˆ L(X)·残差平方和(residuals sum of squares )RSS= e e M MY Y e e T T T= = ,(其自由度为np1)·σ 2的OLS 估计量RMSp n RSSs º - - =12 (残差均方,residual mean square )·回归(方程)标准误(standard error of the regression (equation))1- - =p n RSS s (残差标准误,residual standard error)·平方和分解公式当回归方程包含常数项时,可以证明称这个等式为平方和分解公式。
记YeYˆ e e Y YY Y T T T + = ˆ ˆ ( ) ( ) å å å = = = + - = - ni ini ini ie y yy y 121212ˆ( ) Y n I Y y y SST T T ni i ÷ ø öçè æ - = - º å =ii 1 1 2 (称为总平方和,其自由度为n1) (其中, ( ) T 1 , , 1L = i 表示每个元素均为1的n 维向量)( ) RSS SST yy SS ni i reg - = - º å =1 2ˆ (称为回归平方和,其自由度为p ) 则平方和分解公式又可写成:,(n1)=p+(np1)。