经典线性回归模型
- 格式:pdf
- 大小:461.62 KB
- 文档页数:17
第二章经典线性回归模型:估计、统计性质与统计检验•经典线性回归模型:假设与OLS估计•OLS估计的小样本性质与统计检验•OLS估计的大样本性质与统计检验§1.1 经典线性回归模型:假设与OLS估计一、经典线性回归模型二、经典线性回归模型的OLS估计E(Y|X)回归分析的基本逻辑:寻找样本回归线,并用样本回归线近似代表总体回归线问题:能否代表?需要通过检验来回答!(1) 对残差平方和SSR(b )= Σe t 2=e ’e =(Y -Xb )’(Y -Xb ) 1阶偏导: ∂SSR/∂b = -2X ’(Y-Xb )2阶偏导: ∂2SSR/∂b ∂b ’= 2X ’X由于X ’X 为正定矩阵(Why?), 从而b =(X ’X )-1(X ’Y )是最小值 由1阶极值条件可以得到所谓正规方程(normal equations ): X ’(Y-Y-XbXb )=X ’e =0 ⇔ Σt X tj e t =0 (j=1,2,…,k )当模型含有值恒为1的常数项时, Σe t =0正规方程是OLS 所特有的,而不论是否有E(εt |X )=02、OLS 估计的数值性质(4)一些有用的等式a. X’e=0b. b −β=(X’X)-1X’ε因为b=(X’X)-1X’Y=(X’X)-1X’(Xβ+ε)=β+(X’X)-1X’ε c. 定义n×n方阵:P P X=X(X’X)-1X’(投影矩阵),M X=I n−P X(消灭矩阵)则P=P X’, M M X=M X’XP X2=P X, M M X2=M XX=X, M X X=O n×(k+1)且PXd. e=M X Y=M XεSSR(b)=e’e=Y’M X Y=ε’M Xε二元回归的示例图赤池信息准则(Akaike information criterion, AIC, 1973) AIC=ln[e’e/n]+2(k+1)/n=goodness of fit + model complexityAIC= -2ln L/n +2(k+1)/n贝叶斯信息准则(Baysian information criterion, BIC)施瓦茨准则(Schwarz criterion,SC, 1978)BIC=ln[e’e/n]+(k+1)ln(n)/nBIC/SC= -2ln L/n+(k+1)ln(n)/n贝叶斯信息准则对多引入多余的解释变量给出了更重的惩罚。
线性回归模型的经典假定及检验、修正一、线性回归模型的基本假定1、一元线性回归模型一元线性回归模型是最简单的计量经济学模型,在模型中只有一个解释变量,其一般形式是Y =β0+β1X 1+μ其中,Y 为被解释变量,X 为解释变量,β0与β1为待估参数,μ为随机干扰项。
回归分析的主要目的是要通过样本回归函数(模型)尽可能准确地估计总体回归函数(模型)。
为保证函数估计量具有良好的性质,通常对模型提出若干基本假设。
假设1:回归模型是正确设定的。
模型的正确设定主要包括两个方面的内容:(1)模型选择了正确的变量,即未遗漏重要变量,也不含无关变量;(2)模型选择了正确的函数形式,即当被解释变量与解释变量间呈现某种函数形式时,我们所设定的总体回归方程恰为该函数形式。
假设2:解释变量X 是确定性变量,而不是随机变量,在重复抽样中取固定值。
这里假定解释变量为非随机的,可以简化对参数估计性质的讨论。
假设3:解释变量X 在所抽取的样本中具有变异性,而且随着样本容量的无限增加,解释变量X 的样本方差趋于一个非零的有限常数,即∑(X i −X ̅)2n i=1n→Q,n →∞ 在以因果关系为基础的回归分析中,往往就是通过解释变量X 的变化来解释被解释变量Y 的变化的,因此,解释变量X 要有足够的变异性。
对其样本方差的极限为非零有限常数的假设,旨在排除时间序列数据出现持续上升或下降的变量作为解释变量,因为这类数据不仅使大样本统计推断变得无效,而且往往产生伪回归问题。
假设4:随机误差项μ具有给定X 条件下的零均值、同方差以及无序列相关性,即E(μi|X i)=0Var(μi|X i)=σ2Cov(μi,μj|X i,X j)=0, i≠j随机误差项μ的条件零均值假设意味着μ的期望不依赖于X的变化而变化,且总为常数零。
该假设表明μ与X不存在任何形式的相关性,因此该假设成立时也往往称X为外生性解释变量随机误差项μ的条件同方差假设意味着μ的方差不依赖于X的变化而变化,且总为常数σ2。
计量经济学试题1一 名词解释(每题5分,共10分) 1. 经典线性回归模型2. 加权最小二乘法(WLS ) 二 填空(每空格1分,共10分)1.经典线性回归模型Y i = B 0 + B 1X i + µi 的最小二乘估计量b 1满足E ( b 1 ) = B 1,这表示估计量b 1具备 性。
2.广义差分法适用于估计存在 问题的经济计量模型。
3.在区间预测中,在其它条件不变的情况下,预测的置信概率越高,预测的精度越 。
4.普通最小二乘法估计回归参数的基本准则是使 达到最小。
5.以X 为解释变量,Y 为被解释变量,将X 、Y 的观测值分别取对数,如果这些对数值描成的散点图近似形成为一条直线,则适宜配合 模型。
6.当杜宾-瓦尔森统计量 d = 4时,ρˆ= ,说明 。
7.对于模型i i i X Y μββ++=10,为了考虑“地区”因素(北方、南方两种状态)引入2个虚拟变量,则会产生 现象。
8. 半对数模型LnY i = B 0 + B 1X i + µI 又称为 模型。
9.经典线性回归模型Y i = B 0 + B 1X i + µi 的最小二乘估计量b 0、b 1的关系可用数学式子表示为 。
三 单项选择题(每个1分,共20分)1.截面数据是指--------------------------------------------------------------( )A .同一时点上不同统计单位相同统计指标组成的数据。
B .同一时点上相同统计单位相同统计指标组成的数据。
C .同一时点上相同统计单位不同统计指标组成的数据。
D .同一时点上不同统计单位不同统计指标组成的数据。
2.参数估计量βˆ具备有效性是指------------------------------------------( ) A .0)ˆ(=βar V B.)ˆ(βarV 为最小 C .0)ˆ(=-ββD.)ˆ(ββ-为最小 3.如果两个经济变量间的关系近似地表现为:当X 发生一个绝对量(X ∆)变动时,Y 以一个固定的相对量(Y Y /∆)变动,则适宜配合的回归模型是------------------------------------------------------------------------------------------- ( )A .i i i X Y μβα++= B.i i i X Y μβα++=ln C .i ii X Y μβα++=1D.i i i X Y μβα++=ln ln 4.在一元线性回归模型中,不可能用到的假设检验是----------( ) A .置信区间检验 B.t 检验 C.F 检验 D.游程检验5.如果戈里瑟检验表明 ,普通最小二乘估计的残差项有显著的如下性质:24.025.1i i X e +=,则用加权最小二乘法估计模型时,权数应选择-------( )A .i X 1 B. 21i X C.24.025.11i X + D.24.025.11i X +6.对于i i i i X X Y μβββ+++=22110,利用30组样本观察值估计后得56.827/)ˆ(2/)ˆ(2=-∑-∑=iiiY Y Y Y F ,而理论分布值F 0.05(2,27)=3.35,,则可以判断( )A . 01=β成立 B. 02=β成立 C. 021==ββ成立 D. 021==ββ不成立7.为描述单位固定成本(Y )依产量(X )变化的相关关系,适宜配合的回归模型是:A .i i i X Y μβα++= B.i i i X Y μβα++=ln C .i ii X Y μβα++=1D.i i i X Y μβα++=ln ln 8.根据一个n=30的样本估计ii i e X Y ++=10ˆˆββ后计算得d=1.4,已知在95%的置信度下,35.1=L d ,49.1=U d ,则认为原模型------------------------( )A .存在正的一阶线性自相关 B.存在负的一阶线性自相关 C .不存在一阶线性自相关 D.无法判断是否存在一阶线性自相关9.对于ii i e X Y ++=10ˆˆββ,判定系数为0.8是指--------------------( ) A .说明X 与Y 之间为正相关 B. 说明X 与Y 之间为负相关 C .Y 变异的80%能由回归直线作出解释 D .有80%的样本点落在回归直线上10. 线性模型i i i i X X Y μβββ+++=22110不满足下列哪一假定,称为异方差现象-------------------------------------------------------------------------------( )A .0)(=j i ov C μμ B.2)(σμ=i ar V (常数) C .0),(=i i ov X C μ D.0),(21=i i ov X X C11.设消费函数i i i X D Y μβαα+++=10,其中虚拟变量⎩⎨⎧=南方北方01D ,如果统计检验表明1α统计显著,则北方的消费函数与南方的消费函数是--( )A .相互平行的 B.相互垂直的 C.相互交叉的 D.相互重叠的12. 在建立虚拟变量模型时,如果一个质的变量有m 种特征或状态,则一般引入几个虚拟变量:----------------------------------------------------------------( )A .m B.m+1 C.m -1 D.前三项均可 13. 在模型i i iX Y μββ++=ln ln ln 10中,1β为---------------------( )A .X 关于Y 的弹性 B.X 变动一个绝对量时Y 变动的相对量 C .Y 关于X 的弹性 D.Y 变动一个绝对量时X 变动的相对量14.对于i i i e X Y ++=10ˆˆββ,以S 表示估计标准误差,iY ˆ表示回归值,则-------------------------------------------------------------------------------------------( )A .S=0时,0)ˆ(=-∑ti Y Y B.S=0时,∑==-ni i i Y Y 120)ˆ( C .S=0时,)ˆ(ii Y Y -∑为最小 D.S=0时,∑=-ni i i Y Y 12)ˆ(为最小 15.经济计量分析工作的基本工作步骤是-----------------------------( )A .设定理论模型→收集样本资料→估计模型参数→检验模型B .设定模型→估计参数→检验模型→应用模型C .理论分析→数据收集→计算模拟→修正模型D .确定模型导向→确定变量及方程式→应用模型16.产量(X ,台)与单位产品成本(Y ,元/台)之间的回归方程为:X Y5.1356ˆ-=,这说明-----------------------------------------------------------( )A .产量每增加一台,单位产品成本平均减少1.5个百分点B .产量每增加一台,单位产品成本减少1.5元C .产量每增加一台,单位产品成本减少1.5个百分点D .产量每增加一台,单位产品成本平均减少1.5元17.下列各回归方程中,哪一个必定是错误的------------------------( )A .8.02.030ˆ=+=XY i i r X Y B. 91.05.175ˆ=+-=XY i i r X Y C .78.01.25ˆ=-=XY ii r X Y D. 96.05.312ˆ-=--=XY ii r X Y18.用一组有28个观测值的样本估计模型i i i X Y μββ++=10后,在0.05的显著性水平下对1β的显著性作t 检验,则1β显著地不等于0的条件是统计量t 大于-------------------------------------------------------------------------------------( )A .t 0.025(28) B. t 0.05(28) C. t 0.025(26) D. t 0.05(26)19.下列哪种形式的序列相关可用DW 统计量来检验(V t 为具有零均值、常数方差,且不存在序列相关的随机变量)---------------------------------( )A .t t t V +=-1ρμμ B.t t t t V +⋅⋅⋅++=--121μρρμμ C. t t V ρμ= D. ⋅⋅⋅++=-12t t t V V ρρμ20.对于原模型t t t X Y μββ++=10,一阶差分模型是指------------( )A .)()()(1)(1t tt t t t t X f X f X X f X f Y μββ++=B .t t t X Y μβ∆+∆=∆1C .t t t X Y μββ∆+∆+=∆10D .)()()1(11101----+-+-=-t t t t t t X X Y Y ρμμρβρβρ四 多项选择题(每个2分,共10分)1.以Y 表示实际值,Yˆ表示回归值,i e 表示残差项,最小二乘直线满足------------------------------------------------------------------------------------------( )A .通用样本均值点(Y X ,) B.ii Y Y ˆ∑=∑ C .0),ˆ(=i i ov e Y C D.0)ˆ(2=-∑i i Y Y E .0)ˆ(=-∑Y Y i2.剩余变差(RSS )是指--------------------------------------------------( )A .随机因素影响所引起的被解释变量的变差B .解释变量变动所引起的被解释变量的变差C .被解释变量的变差中,回归方程不能作出解释的部分D.被解释变量的总变差与解释变量之差E.被解释变量的实际值与回归值的离差平方和3. 对于经典线性回归模型,0LS估计量具备------------------------()A.无偏性 B.线性特性 C.正确性 D.有效性 E.可知性4. 异方差的检验方法有---------------------------------------------------()A.残差的图形检验 B.游程检验 C.White检验D.帕克检验E.方差膨胀因子检验5. 多重共线性的补救有---------------------------------------------------()A.从模型中删掉不重要的解释变量 B.获取额外的数据或者新的样本 C.重新考虑模型 D.利用先验信息 E. 广义差分法五简答计算题(4题,共50分)1.简述F检验的意图及其与t检验的关系。
各种线性回归模型原理线性回归是一种广泛应用于统计学和机器学习领域的方法,用于建立自变量和因变量之间线性关系的模型。
在这里,我将介绍一些常见的线性回归模型及其原理。
1. 简单线性回归模型(Simple Linear Regression)简单线性回归模型是最简单的线性回归模型,用来描述一个自变量和一个因变量之间的线性关系。
模型方程为:Y=α+βX+ε其中,Y是因变量,X是自变量,α是截距,β是斜率,ε是误差。
模型的目标是找到最优的α和β,使得模型的残差平方和最小。
这可以通过最小二乘法来实现,即求解最小化残差平方和的估计值。
2. 多元线性回归模型(Multiple Linear Regression)多元线性回归模型是简单线性回归模型的扩展,用来描述多个自变量和一个因变量之间的线性关系。
模型方程为:Y=α+β1X1+β2X2+...+βnXn+ε其中,Y是因变量,X1,X2,...,Xn是自变量,α是截距,β1,β2,...,βn是自变量的系数,ε是误差。
多元线性回归模型的参数估计同样可以通过最小二乘法来实现,找到使残差平方和最小的系数估计值。
3. 岭回归(Ridge Regression)岭回归是一种用于处理多重共线性问题的线性回归方法。
在多元线性回归中,如果自变量之间存在高度相关性,会导致参数估计不稳定性。
岭回归加入一个正则化项,通过调节正则化参数λ来调整模型的复杂度,从而降低模型的过拟合风险。
模型方程为:Y=α+β1X1+β2X2+...+βnXn+ε+λ∑βi^2其中,λ是正则化参数,∑βi^2是所有参数的平方和。
岭回归通过最小化残差平方和和正则化项之和来估计参数。
当λ=0时,岭回归变为多元线性回归,当λ→∞时,参数估计值将趋近于0。
4. Lasso回归(Lasso Regression)Lasso回归是另一种用于处理多重共线性问题的线性回归方法,与岭回归不同的是,Lasso回归使用L1正则化,可以使得一些参数估计为0,从而实现特征选择。
经典线性回归模型经典回归模型在涉及到时间序列时,通常存在以下三个问题:1)非平稳性→ ADF单位根检验→ n阶单整→取原数据序列的n阶差分(化为平稳序列)2)序列相关性→D.W.检验/相关图/Q检验/LM检验→n阶自相关→自回归ar(p)模型修正3)多重共线性→相关系数矩阵→逐步回归修正注:以上三个问题中,前两个比较重要。
整体回归模型的思路:1)确定解释变量和被解释变量,找到相关数据。
数据选择的时候样本量最好多一点,做出来的模型结果也精确一些。
2)把EXCEL里的数据组导入到Eviews里。
3)对每个数据序列做ADF单位根检验。
4)对回归的数据组做序列相关性检验。
5)对所有解释变量做多重共线性检验。
6)根据上述结果,修正原先的回归模型。
7)进行模型回归,得到结论。
Eviews具体步骤和操作如下。
一、数据导入1)在EXCEL中输入数据,如下:除去第一行,一共2394个样本。
2)Eviews中创建数据库:File\new\workfile, 接下来就是这个界面(2394就是根据EXCEL里的样本数据来),OK3)建立子数据序列程序:Data x1再enter键就出来一个序列,空的,把EXCEL里对应的序列复制过来,一个子集就建立好了。
X1是回归方程中的一个解释变量,也可以取原来的名字,比如lnFDI,把方程中所有的解释变量、被解释变量都建立起子序列。
二、ADF单位根检验1)趋势。
打开一个子数据序列,先判断趋势:view\graph,出现一个界面,OK。
得到类似的图,下图就是有趋势的时间序列。
X1.4.2.0-.2-.4-.6-.8100020003000400050002)ADF检验。
直接在图形的界面上进行操作,view\unit root test,出现如下界面。
在第二个方框内根据时序的趋势选择,Intercept指截距,Trend为趋势,有趋势的时序选择第二个,OK,得到结果。
上述结果中,ADF值为-3.657113,t统计值小于5%,即拒绝原假设,故不存在单位根。
各种线性回归模型原理线性回归是一种经典的统计学方法,用于建立自变量和因变量之间的线性关系。
在这个模型中,我们假设自变量和因变量之间存在一个线性函数关系,通过找到最佳的拟合直线,我们可以预测和解释因变量。
在线性回归中,我们通常使用以下三种模型:简单线性回归模型、多元线性回归模型和多项式回归模型。
1.简单线性回归模型:简单线性回归是最基本的线性回归模型。
它用于研究只有一个自变量和一个因变量之间的关系。
假设我们有一个自变量x和对应的因变量y。
简单线性回归模型可以表示为:y=β0+β1*x+ε其中,y是因变量,x是自变量,β0和β1是回归系数,ε是误差项。
我们的目标是找到最佳的回归系数,使得模型对观测数据的拟合最好。
2.多元线性回归模型:当我们需要考虑多个自变量对因变量的影响时,可以使用多元线性回归模型。
多元线性回归模型可以表示为:y = β0 + β1 * x1 + β2 * x2 + ... + βn * xn + ε其中,y是因变量,x1, x2, ..., xn是自变量,β0, β1,β2, ..., βn是回归系数,ε是误差项。
我们通过最小化误差项的平方和来估计回归系数。
3.多项式回归模型:多项式回归模型是在线性回归模型的基础上引入了多项式项的扩展。
在一些情况下,自变量和因变量之间的关系可能不是简单的线性关系,而是复杂的曲线关系。
多项式回归模型可以通过引入自变量的高次幂来建立非线性关系。
例如,二阶多项式回归模型可以表示为:y=β0+β1*x+β2*x^2+ε我们可以使用最小二乘法来估计回归系数,从而找到最佳的拟合曲线。
在以上三种线性回归模型中,我们以最小二乘法作为求解回归系数的方法。
最小二乘法通过最小化观测值与模型拟合值之间的残差平方和来选择最佳的回归系数。
通过最小二乘法,我们可以得到回归系数的闭式解,即可以明确得到回归系数的数值。
除了最小二乘法,还有其他求解回归系数的方法,例如梯度下降法和正规方程法。