3多元线性回归与最小二乘估计
- 格式:doc
- 大小:1.36 MB
- 文档页数:11
第三章 多元线性回归与最小二乘估计3.1 假定条件、最小二乘估计量和高斯—马尔可夫定理1、多元线性回归模型:y t = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 + u t (3.1) 其中y t 是被解释变量(因变量),x t j 是解释变量(自变量),u t 是随机误差项,βi , i = 0, 1, … , k - 1是回归参数(通常未知)。
对经济问题的实际意义:y t 与x t j 存在线性关系,x t j , j = 0, 1, … , k - 1, 是y t 的重要解释变量。
u t 代表众多影响y t 变化的微小因素。
使y t 的变化偏离了E( y t ) = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 决定的k 维空间平面。
当给定一个样本(y t , x t 1, x t 2 ,…, x t k -1), t = 1, 2, …, T 时, 上述模型表示为 y 1 = β0 +β1x 11 + β2x 12 +…+ βk - 1x 1 k -1 + u 1,y 2 = β0 +β1x 21 + β2x 22 +…+ βk - 1x 2 k -1 + u 2, (3.2) ………..y T = β0 +β1x T 1 + β2x T 2 +…+ βk - 1x T k -1 + u T经济意义:x t j 是y t 的重要解释变量。
代数意义:y t 与x t j 存在线性关系。
几何意义:y t 表示一个多维平面。
此时y t 与x t i 已知,βj 与 u t 未知。
)1(21)1(110)(111222111111)1(21111⨯⨯-⨯---⨯⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡+⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡T T k k k T k T TjT k j k jT T u u u x x x x x x x x x y y yβββ (3.3) Y = X β + u (3.4)2假定条件为保证得到最优估计量,回归模型(3.4)应满足如下假定条件。
第三章 多元线性回归模型一、单项选择题1、决定系数2R 是指【 】A 剩余平方和占总离差平方和的比重B 总离差平方和占回归平方和的比重C 回归平方和占总离差平方和的比重D 回归平方和占剩余平方和的比重2、在由n=30的一组样本估计的、包含3个解释变量的线性回归模型中,计算的多重决定系数为0.8500,则调整后的决定系数为【 】A 0.8603B 0.8389C 0.8 655D 0.83273、设k 为模型中的参数个数,则回归平方和是指【 】 A 21)(y yn i i -∑= B 21)ˆ(i n i i yy -∑= C 21)ˆ(y yn i i -∑= D )1/()(21--∑=k y y n i i4、下列样本模型中,哪一个模型通常是无效的【 】A i C (消费)=500+0.8i I (收入)B d i Q (商品需求)=10+0.8i I (收入)+0.9i P (价格)C s i Q (商品供给)=20+0.75i P (价格)D i Y (产出量)=0.656.0i L (劳动)4.0i K (资本)5、对于iki k i i i e x x x y +++++=ββββˆˆˆˆ22110 ,统计量∑∑----)1/()ˆ(/)ˆ(22k n y y k y y i i i 服从【 】 A t(n-k) B t(n-k-1) C F(k-1,n-k) D F(k,n-k-1)6、对于iki k i i i e x x x y +++++=ββββˆˆˆˆ22110 ,检验H 0:0=i β),,1,0(k i =时,所用的统计量)ˆvar(ˆi it ββ=服从【 】A t(n-k-1)B t(n-k-2)C t(n-k+1)D t(n-k+2)7、调整的判定系数 与多重判定系数 之间有如下关系【 】A 1122---=k n n R RB 11122----=k n n R R C 11)1(122---+-=k n n R R D 11)1(122-----=k n n R R 8、用一组有30 个观测值的样本估计模型i i i i u x x y +++=22110βββ后,在0.05的显著性水平下对1β的显著性作t 检验,则1β显著地不等于零的条件是其统计量大于等于【 】 A 05.0t (30)B 025.0t (28)C 025.0t (27)D 025.0F (1,28)9、如果两个经济变量x 与y 间的关系近似地表现为当x 发生一个绝对量变动(∆x )时,y 有一个固定地相对量(∆y/y )变动,则适宜配合地回归模型是【 】A i i i u x y ++=10ββB ln i i i u x y ++=10ββC i ii u x y ++=110ββ D ln i i i u x y ++=ln 10ββ 10、对于iki k i i i e x x x y +++++=ββββˆˆˆˆ22110 ,如果原模型满足线性模型的基本假设,则在零假设j β=0下,统计量)ˆ(/ˆjj s ββ(其中s(j β)是j β的标准误差)服从【 】 A t (n-k ) B t (n-k-1) C F (k-1,n-k ) D F (k ,n-k-1)11、下列哪个模型为常数弹性模型【 】A ln i i i u x y ++=ln ln 10ββB ln i i i u x y ++=10ln ββC i i i u x y ++=ln 10ββD i ii u x y ++=110ββ 12、模型i i i u x y ++=ln 10ββ中,y 关于x 的弹性为【 】A i x 1βB i x 1βC iy 1β D i y 1β 13、模型ln i i i u x y ++=ln ln 10ββ中,1β的实际含义是【 】A x 关于y 的弹性B y 关于x 的弹性C x 关于y 的边际倾向D y 关于x 的边际倾向14、关于经济计量模型进行预测出现误差的原因,正确的说法是【 】A.只有随机因素B.只有系统因素C.既有随机因素,又有系统因素D.A 、B 、C 都不对15、在多元线性回归模型中对样本容量的基本要求是(k 为解释变量个数):【 】A n ≥k+1B n<k+1C n ≥30或n ≥3(k+1)D n ≥3016、下列说法中正确的是:【 】A 如果模型的2R 很高,我们可以认为此模型的质量较好B 如果模型的2R 较低,我们可以认为此模型的质量较差C 如果某一参数不能通过显著性检验,我们应该剔除该解释变量D 如果某一参数不能通过显著性检验,我们不应该随便剔除该解释变量 二、多项选择题1、对模型i i i i u x x y +++=22110βββ进行总体显著性检验,如果检验结果总体线性关系显著,则有【 】A 1β=2β=0B 1β≠0,2β=0C 1β≠0,2β≠0D 1β=0,2β≠0E 1β=2β≠02、剩余变差(即残差平方和)是指【 】A 随机因素影响所引起的被解释变量的变差B 解释变量变动所引起的被解释变量的变差C 被解释变量的变差中,回归方程不能作出解释的部分D 被解释变量的总变差与回归平方和之差E 被解释变量的实际值与拟合值的离差平方和3、回归平方和是指【 】A 被解释变量的实际值y 与平均值y 的离差平方和B 被解释变量的回归值yˆ与平均值y 的离差平方和 C 被解释变量的总变差与剩余变差之差D 解释变量变动所引起的被解释变量的变差E 随机因素影响所引起的被解释变量的变差4、下列哪些非线性模型可以通过变量替换转化为线性模型【 】A i i i u x y ++=210ββB i ii u x y ++=110ββ C ln i i i u x y ++=ln 10ββ D i i i u x y ++=210ββE i i i i u x y ++=ββ05、在模型ln i i i u x y ++=ln 10ββ中【 】A y 与x 是非线性的B y 与1β是非线性的C lny 与1β是线性的D lny 与lnx 是线性的E y 与lnx 是线性的三、判断题观察下列方程并判断其变量是否线性,系数是否线性,或都是或都不是。
第三章 多元线性回归模型一、单项选择题1、决定系数2R 是指【 】A 剩余平方和占总离差平方和的比重B 总离差平方和占回归平方和的比重C 回归平方和占总离差平方和的比重D 回归平方和占剩余平方和的比重2、在由n=30的一组样本估计的、包含3个解释变量的线性回归模型中,计算的多重决定系数为0.8500,则调整后的决定系数为【 】A 0.8603B 0.8389C 0.8 655D 0.83273、设k 为模型中的参数个数,则回归平方和是指【 】 A 21)(y yn i i -∑= B 21)ˆ(i n i i yy -∑= C 21)ˆ(y yn i i -∑= D )1/()(21--∑=k y y n i i4、下列样本模型中,哪一个模型通常是无效的【 】A i C (消费)=500+0.8i I (收入)B d i Q (商品需求)=10+0.8i I (收入)+0.9i P (价格)C s i Q (商品供给)=20+0.75i P (价格)D i Y (产出量)=0.656.0i L (劳动)4.0i K (资本)5、对于iki k i i i e x x x y +++++=ββββˆˆˆˆ22110 ,统计量∑∑----)1/()ˆ(/)ˆ(22k n y y k y y i i i 服从【 】 A t(n-k) B t(n-k-1) C F(k-1,n-k) D F(k,n-k-1)6、对于iki k i i i e x x x y +++++=ββββˆˆˆˆ22110 ,检验H 0:0=i β),,1,0(k i =时,所用的统计量)ˆvar(ˆi it ββ=服从【 】A t(n-k-1)B t(n-k-2)C t(n-k+1)D t(n-k+2)7、调整的判定系数 与多重判定系数 之间有如下关系【 】A 1122---=k n n R RB 11122----=k n n R R C 11)1(122---+-=k n n R R D 11)1(122-----=k n n R R 8、用一组有30 个观测值的样本估计模型i i i i u x x y +++=22110βββ后,在0.05的显著性水平下对1β的显著性作t 检验,则1β显著地不等于零的条件是其统计量大于等于【 】 A 05.0t (30)B 025.0t (28)C 025.0t (27)D 025.0F (1,28)9、如果两个经济变量x 与y 间的关系近似地表现为当x 发生一个绝对量变动(∆x )时,y 有一个固定地相对量(∆y/y )变动,则适宜配合地回归模型是【 】A i i i u x y ++=10ββB ln i i i u x y ++=10ββC i ii u x y ++=110ββ D ln i i i u x y ++=ln 10ββ 10、对于iki k i i i e x x x y +++++=ββββˆˆˆˆ22110 ,如果原模型满足线性模型的基本假设,则在零假设j β=0下,统计量)ˆ(/ˆjj s ββ(其中s(j β)是j β的标准误差)服从【 】 A t (n-k ) B t (n-k-1) C F (k-1,n-k ) D F (k ,n-k-1)11、下列哪个模型为常数弹性模型【 】A ln i i i u x y ++=ln ln 10ββB ln i i i u x y ++=10ln ββC i i i u x y ++=ln 10ββD i ii u x y ++=110ββ 12、模型i i i u x y ++=ln 10ββ中,y 关于x 的弹性为【 】A i x 1βB i x 1βC iy 1β D i y 1β 13、模型ln i i i u x y ++=ln ln 10ββ中,1β的实际含义是【 】A x 关于y 的弹性B y 关于x 的弹性C x 关于y 的边际倾向D y 关于x 的边际倾向14、关于经济计量模型进行预测出现误差的原因,正确的说法是【 】A.只有随机因素B.只有系统因素C.既有随机因素,又有系统因素D.A 、B 、C 都不对15、在多元线性回归模型中对样本容量的基本要求是(k 为解释变量个数):【 】A n ≥k+1B n<k+1C n ≥30或n ≥3(k+1)D n ≥3016、下列说法中正确的是:【 】A 如果模型的2R 很高,我们可以认为此模型的质量较好B 如果模型的2R 较低,我们可以认为此模型的质量较差C 如果某一参数不能通过显著性检验,我们应该剔除该解释变量D 如果某一参数不能通过显著性检验,我们不应该随便剔除该解释变量 二、多项选择题1、对模型i i i i u x x y +++=22110βββ进行总体显著性检验,如果检验结果总体线性关系显著,则有【 】A 1β=2β=0B 1β≠0,2β=0C 1β≠0,2β≠0D 1β=0,2β≠0E 1β=2β≠02、剩余变差(即残差平方和)是指【 】A 随机因素影响所引起的被解释变量的变差B 解释变量变动所引起的被解释变量的变差C 被解释变量的变差中,回归方程不能作出解释的部分D 被解释变量的总变差与回归平方和之差E 被解释变量的实际值与拟合值的离差平方和3、回归平方和是指【 】A 被解释变量的实际值y 与平均值y 的离差平方和B 被解释变量的回归值yˆ与平均值y 的离差平方和 C 被解释变量的总变差与剩余变差之差D 解释变量变动所引起的被解释变量的变差E 随机因素影响所引起的被解释变量的变差4、下列哪些非线性模型可以通过变量替换转化为线性模型【 】A i i i u x y ++=210ββB i ii u x y ++=110ββ C ln i i i u x y ++=ln 10ββ D i i i u x y ++=210ββE i i i i u x y ++=ββ05、在模型ln i i i u x y ++=ln 10ββ中【 】A y 与x 是非线性的B y 与1β是非线性的C lny 与1β是线性的D lny 与lnx 是线性的E y 与lnx 是线性的三、判断题观察下列方程并判断其变量是否线性,系数是否线性,或都是或都不是。
3多元线性回归模型参数估计多元线性回归是一种用于预测多个自变量与因变量之间关系的统计模型。
其模型形式为:Y=β0+β1X1+β2X2+...+βnXn+ε,其中Y是因变量,X1、X2、..、Xn是自变量,β0、β1、β2、..、βn是模型的参数,ε是误差项。
多元线性回归模型参数的估计可以使用最小二乘法(Ordinary Least Squares,OLS)来进行。
最小二乘法的基本思想是找到一组参数估计值,使得模型预测值与实际观测值之间的平方差最小。
参数估计过程如下:1.根据已有数据收集或实验,获取因变量Y和自变量X1、X2、..、Xn的观测值。
2.假设模型为线性关系,即Y=β0+β1X1+β2X2+...+βnXn+ε。
3.使用最小二乘法,计算参数估计值β0、β1、β2、..、βn:对于任意一组参数估计值β0、β1、β2、..、βn,计算出模型对于所有观测值的预测值Y'=β0+β1X1+β2X2+...+βnXn。
计算观测值Y与预测值Y'之间的平方差的和,即残差平方和(RSS,Residual Sum of Squares)。
寻找使得RSS最小的参数估计值β0、β1、β2、..、βn。
4.使用统计方法计算参数估计值的显著性:计算回归平方和(Total Sum of Squares, TSS)和残差平方和(Residual Sum of Squares, RSS)。
计算决定系数(Coefficient of Determination, R^2):R^2 = (TSS - RSS) / TSS。
计算F统计量:F=(R^2/k)/((1-R^2)/(n-k-1)),其中k为自变量的个数,n为观测值的个数。
根据F统计量的显著性,判断多元线性回归模型是否合理。
多元线性回归模型参数估计的准确性和显著性可以使用统计假设检验来判断。
常见的参数估计的显著性检验方法包括t检验和F检验。
t检验用于判断单个参数是否显著,F检验用于判断整个回归模型是否显著。
多元线性回归分析的参数估计方法多元线性回归是一种常用的数据分析方法,用于探究自变量与因变量之间的关系。
在多元线性回归中,参数估计方法有多种,包括最小二乘估计、最大似然估计和贝叶斯估计等。
本文将重点讨论多元线性回归中的参数估计方法。
在多元线性回归中,最常用的参数估计方法是最小二乘估计(Ordinary Least Squares,OLS)。
最小二乘估计是一种求解最优参数的方法,通过最小化残差平方和来估计参数的取值。
具体而言,对于给定的自变量和因变量数据,最小二乘估计方法试图找到一组参数,使得预测值与观测值之间的残差平方和最小。
这样的估计方法具有几何和统计意义,可以用来描述变量之间的线性关系。
最小二乘估计方法有一系列优良的性质,比如无偏性、一致性和有效性。
其中,无偏性是指估计值的期望等于真实参数的值,即估计值不会出现系统性的偏差。
一致性是指当样本容量趋近无穷时,估计值趋近于真实参数的值。
有效性是指最小二乘估计具有最小的方差,即估计值的波动最小。
这些性质使得最小二乘估计成为了多元线性回归中最常用的参数估计方法。
然而,最小二乘估计方法在面对一些特殊情况时可能会出现问题。
比如,当自变量之间存在多重共线性时,最小二乘估计的解不存在或不唯一。
多重共线性是指自变量之间存在较高的相关性,导致在估计回归系数时出现不稳定或不准确的情况。
为了解决多重共线性问题,可以采用一些技术手段,如主成分回归和岭回归等。
另外一个常用的参数估计方法是最大似然估计(Maximum Likelihood Estimation,MLE)。
最大似然估计方法试图找到一组参数,使得给定样本观测值的条件下,观测到这些值的概率最大。
具体而言,最大似然估计方法通过构建似然函数,并对似然函数求导,找到能够最大化似然函数的参数取值。
最大似然估计方法在一定条件下具有良好的性质,比如一致性和渐近正态分布。
但是,在实际应用中,最大似然估计方法可能存在计算复杂度高、估计值不唯一等问题。
3多元线性回归模型参数估计多元线性回归是一种回归分析方法,用于建立多个自变量和一个因变量之间的关系模型。
多元线性回归模型可以表示为:Y=β0+β1X1+β2X2+…+βnXn+ε其中,Y表示因变量,X1,X2,…,Xn表示自变量,β0,β1,β2,…,βn表示模型参数,ε表示误差项。
多元线性回归模型的目标是估计出模型参数β0,β1,β2,…,βn,使得实际观测值与模型预测值之间的误差最小化。
参数估计的方法有很多,下面介绍两种常用的方法:最小二乘法和梯度下降法。
1. 最小二乘法(Ordinary Least Squares, OLS):最小二乘法是最常用的多元线性回归参数估计方法。
它的基本思想是找到一组参数估计值,使得模型预测值与实际观测值之间的残差平方和最小化。
首先,我们定义残差为每个观测值的实际值与模型预测值之间的差异:εi = Yi - (β0 + β1X1i + β2X2i + … + βnXni)其中,εi表示第i个观测值的残差,Yi表示第i个观测值的实际值,X1i, X2i, …, Xni表示第i个观测值的自变量,β0, β1, β2, …,βn表示参数估计值。
然后,我们定义残差平方和为所有观测值的残差平方的总和:RSS = ∑(Yi - (β0 + β1X1i + β2X2i + … + βnXni))^2我们的目标是找到一组参数估计值β0,β1,β2,…,βn,使得残差平方和最小化。
最小二乘法通过数学推导和求导等方法,可以得到参数估计值的解析解。
2. 梯度下降法(Gradient Descent):梯度下降法是一种迭代优化算法,可以用于估计多元线性回归模型的参数。
它的基本思想是通过迭代调整参数的值,使得目标函数逐渐收敛到最小值。
首先,我们定义目标函数为残差平方和:J(β) = 1/2m∑(Yi - (β0 + β1X1i + β2X2i + … + βnXni))^2其中,m表示样本数量。
线性回归与最小二乘法线性回归是一种常用的统计分析方法,也是机器学习领域的基础之一。
在线性回归中,我们通过寻找最佳拟合直线来对数据进行建模和预测。
最小二乘法是线性回归的主要方法之一,用于确定最佳拟合直线的参数。
1. 线性回归的基本原理线性回归的目标是找到一条最佳拟合直线,使得预测值与实际值之间的误差最小。
我们假设线性回归模型的形式为:Y = β₀ + β₁X₁ +β₂X₂ + … + βₙXₙ + ε,其中Y是因变量,X₁、X₂等是自变量,β₀、β₁、β₂等是回归系数,ε是误差项。
2. 最小二乘法最小二乘法是一种求解线性回归参数的常用方法。
它的基本思想是使所有样本点到拟合直线的距离之和最小化。
具体来说,我们需要最小化残差平方和,即将每个样本点的预测值与实际值之间的差的平方求和。
3. 最小二乘法的求解步骤(1)建立线性回归模型:确定自变量和因变量,并假设它们之间存在线性关系。
(2)计算回归系数:使用最小二乘法求解回归系数的估计值。
(3)计算预测值:利用求得的回归系数,对新的自变量进行预测,得到相应的因变量的预测值。
4. 最小二乘法的优缺点(1)优点:最小二乘法易于理解和实现,计算速度快。
(2)缺点:最小二乘法对异常点敏感,容易受到离群值的影响。
同时,最小二乘法要求自变量与因变量之间存在线性关系。
5. 线性回归与其他方法的比较线性回归是一种简单而强大的方法,但并不适用于所有问题。
在处理非线性关系或复杂问题时,其他方法如多项式回归、岭回归、lasso回归等更适用。
6. 实际应用线性回归及最小二乘法广泛应用于各个领域。
在经济学中,线性回归用于预测GDP增长、消费者支出等经济指标。
在医学领域,线性回归被用于预测疾病风险、药物剂量等。
此外,线性回归还可以应用于电力负荷预测、房价预测等实际问题。
总结:线性回归和最小二乘法是统计学和机器学习中常用的方法。
线性回归通过拟合一条最佳直线,将自变量与因变量之间的线性关系建模。
1.3 多元线性回归与最小二乘估计1.假定条件、最小二乘估计量和高斯—马尔可夫定理 多元线性回归模型:y t = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 + u t , (1.1)其中y t 是被解释变量(因变量),x t j 是解释变量(自变量),u t 是随机误差项,βi , i = 0, 1, … , k - 1是回归参数(通常未知)。
对经济问题的实际意义:y t 与x t j 存在线性关系,x t j , j = 0, 1, … , k - 1, 是y t 的重要解释变量。
u t 代表众多影响y t 变化的微小因素。
使y t 的变化偏离了E( y t ) = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 决定的k 维空间平面。
当给定一个样本(y t , x t 1, x t 2 ,…, x t k -1), t = 1, 2, …, T 时, 上述模型表示为 y 1 = β0 +β1x 11 + β2x 12 +…+ βk - 1x 1 k -1 + u 1, 经济意义:x t j 是y t 的重要解释变量。
y 2 = β0 +β1x 21 + β2x 22 +…+ βk - 1x 2 k -1 + u 2, 代数意义:y t 与x t j 存在线性关系。
……….. 几何意义:y t 表示一个多维平面。
y T = β0 +β1x T 1 + β2x T 2 +…+ βk - 1x T k -1 + u T , (1.2) 此时y t 与x t i 已知,βj 与 u t 未知。
)1(21)1(110)(111222111111)1(21111⨯⨯-⨯---⨯⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡+⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡T T k k k T k T TjT k j k jT T u u u x x x x x x x x x y y yβββ (1.3)Y = X β + u , (1.4) 为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。
假定 ⑴ 随机误差项u t 是非自相关的,每一误差项都满足均值为零,方差 σ2相同且为有限值,即E(u ) = 0 = ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡00 , Var (u ) = E(uˆu ˆ' ) = σ 2I = σ 2⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡10000001 假定 ⑵ 解释变量与误差项相互独立,即 E(X 'u ) = 0假定 ⑶ 解释变量之间线性无关。
rk(X 'X ) = rk(X ) = k 其中rk (⋅)表示矩阵的秩。
假定⑷ 解释变量是非随机的,且当T → ∞ 时T – 1X 'X → Q其中Q 是一个有限值的非退化矩阵。
最小二乘 (OLS) 法的原理是求残差(误差项的估计值)平方和最小。
代数上是求极值问题。
min S = (Y - X βˆ)' (Y - X βˆ) = Y 'Y -βˆ'X 'Y - Y ' X βˆ +βˆ'X 'X βˆ = Y 'Y - 2βˆ'X 'Y + βˆ'X 'X βˆ (1.5) 因为Y 'X βˆ是一个标量,所以有Y 'X βˆ = βˆ'X 'Y 。
(1.5) 的一阶条件为: βˆ∂∂S = - 2X 'Y + 2X 'X βˆ= 0 (1.6) 化简得X 'Y = X 'X βˆ 因为 (X 'X ) 是一个非退化矩阵(见假定⑶),所以有βˆ= (X 'X )-1 X 'Y (1.7) 因为X 的元素是非随机的,(X 'X ) -1X 是一个常数矩阵,则βˆ是Y 的线性组合,为线性估计量。
求出βˆ,估计的回归模型写为 Y = X βˆ+ u ˆ (1.9) 其中βˆ= (0ˆβ 1ˆβ … 1ˆ-k β)' 是 β 的估计值列向量,u ˆ= (Y - X βˆ) 称为残差列向量。
因为 uˆ = Y - X βˆ= Y - X (X 'X )-1X 'Y = [I - X (X 'X )-1 X ' ]Y (1.10) 所以uˆ也是Y 的线性组合。
βˆ的期望和方差是 E(βˆ) = E[(X 'X )-1 X 'Y ] = E[(X 'X )-1X '(X β + u )] = β + (X 'X )-1X ' E(u ) = β (1.11)Var(βˆ) = E[(βˆ–β) (βˆ–β)']= E[(X 'X )-1X ' u u ' X (X 'X )-1] = E[(X 'X )-1X ' σ 2I X (X 'X )-1] = σ 2 (X 'X )-1 (1.12)高斯—马尔可夫定理:若前述假定条件成立,OLS 估计量是最佳线性无偏估计量。
βˆ具有无偏性。
βˆ具有最小方差特性。
βˆ具有一致性,渐近无偏性和渐近有效性。
2. 残差的方差s 2 = uˆ'u ˆ/ (T - k ) (1.13) s 2是σ 2的无偏估计量,E(s 2 ) =σ 2。
βˆ的估计的方差协方差矩阵是 ∧Var (βˆ) = s 2 (X 'X )-1 (1.14) 3. 多重确定系数(多重可决系数)Y = X βˆ+u ˆ=Y ˆ+u ˆ (1.15) 总平方和SST =∑=-Tt t y y 12)(= Y 'Y - T 2y , (1.16)其中y 是y t 的样本平均数,定义为y = T y Tt t /)(1∑=。
回归平方和为SSR =∑=-Tt t y y12)ˆ( = Y ˆ'Y ˆ- T 2y (1.17) 其中y 的定义同上。
残差平方和为SSE =∑=-Tt t t y y 12)ˆ( = ∑=Tt t u12ˆ = u ˆ'u ˆ (1.18) 则有如下关系存在,SST = SSR + SSE (1.19)R 2= 22ˆˆy T y T SST SSR -Y Y Y 'Y '-= (1.20) 显然有0 ≤ R 2 ≤ 1。
R 2 →1,拟合优度越好。
4. 调整的多重确定系数当解释变量的个数增加时,通常R 2不下降,而是上升。
为调整因自由度减小带来的损失,又定义调整的多重确定系数2R 如下:2R = 1 -))(1(1)1/()/(SST SSR SST k T T T SST k T SSE ----=-- = 1 - )1(12R kT T --- (1.21)5. OLS 估计量的分布若u ~ N (0, σ 2I ) ,则每个u t 都服从正态分布。
于是有Y ~ N (X β, σ 2I ) (1.22)因βˆ也是u 的线性组合(见公式1.7),依据(1.11)和(1.12)有βˆ ~ N ( β, σ2(X 'X )-1 ) (1.23) 6. 方差分析与F 检验与SST 相对应,自由度T -1也被分解为两部分,(T -1)= (k -1) + (T - k ) (1.24)回归均方定义为MSR =1-k SSR ,误差均方定义为MSE = kT SSE- 表1.1 方差分析表方差来源 平方和自由度 均方 回归 SSR =Yˆ'Y ˆ-T y 2 k -1 MSR = SSR / (k -1) 误差 SSE = uˆ'u ˆ T -k MSE = SSE / (T -k ) 总和SST = Y 'Y - T y 2T -1H 0: β1= β2 = … = βk -1 = 0; H 1: βj 不全为零F =MSEMSR = )/()1/(k T SSE k SSR -- ~ F (k -1,T -k ) (1.25)设检验水平为α,则检验规则是,若 F ≤ F α (k -1,T -k ),接受H 0;若 F > F α (k -1,T -k ) , 拒绝H 0。
0 F α (k -1, T -k ) -t α(T-k) 0 t α(T-k)F 检验示意图 t 检验示意图7.t 检验H 0:βj = 0, (j = 1, 2, …, k -1), H 1:βj ≠ 0 t =)ˆ(ˆjj s ββ=1121)'(ˆ)ˆ(ˆ+-+=j jj j s Var X X βββ~ t (T -k ) (1.26)判别规则:若∣ t ∣≤ t α(T -k ) 接受H 0;若∣ t ∣> t α(T -k ) 拒绝H 0。
8.βi 的置信区间(1) 全部βi 的联合置信区间接受F =k1(β -βˆ)' (X 'X ) (β -βˆ) / s 2 ~ F α (k , T -k ) (1.27) ( β -βˆ)' (X 'X ) ( β -βˆ) ≤ s 2 k F α (k , T -k ),它是一个k 维椭球。
(1.28) (2) 单个βi 的置信区间βi = i βˆ±1+j v s t α/2(T -k ) . (1.29)9.预测(1)点预测C = (1 x T +1 1 x T +1 2 … x T +1 k -1 ) (1.30) 则T + 1期被解释变量y T +1的点预测式是,1ˆ+T y= C βˆ=βˆ0 +βˆ1 x T +1 1 + … +βˆ k -1 x T +1 k -1(1.31)(2)E (y T +1) 的置信区间预测首先求点预测式C βˆ的抽样分布 E (1ˆ+T y) = E (C βˆ) = C β (1.32) Var (1ˆ+T y) = Var (C βˆ) = E[(C βˆ- C β ) (C βˆ- C β ) ' ] = E[C (βˆ- β ) [C (βˆ- β )] ' ]= C E[(βˆ- β ) (βˆ- β ) ' ]C ' = C Var (βˆ)C '= C σ2 (X 'X )-1C ' = σ2 C (X 'X )-1C ' , (1.33)因为βˆ服从多元正态分布,所以C βˆ也是一个多元正态分布变量,即 1ˆ+T y= C βˆ~ N (C β, σ2C (X 'X ) -1C ') (1.34) 构成 t 分布统计量如下t =')'()ˆ(ˆ111C X X C -++-s y E yT T =')'(ˆ1C X X C C C --s ββ ~ t (T -k ) (1.35)置信区间 C βˆ± t α/2 (1, T -k ) s ')'(1C X X C - (1.36) (3) 单个y T +1的置信区间预测y T +1值与点预测值1ˆ+T y有以下关系 y T +1 = 1ˆ+T y+ u T +1 (1.37) 其中u T +1是随机误差项。