2.2 多元回归模型的OLS估计
- 格式:pdf
- 大小:677.44 KB
- 文档页数:8
什么是OLS估计如何计算OLS估计量的标准误OLS是最小二乘法(Ordinary Least Squares)的缩写,是一种常用的统计回归分析方法。
它通过寻找误差平方和最小的线性回归模型来估计自变量与因变量之间的关系。
在回归分析中,OLS估计可以帮助我们确定回归系数并评估其显著性。
OLS估计的计算基于以下的回归模型:Y = β0 + β1X1 + β2X2 + ... + βkXk + ε其中,Y是因变量,X1到Xk是自变量,ε是误差项。
OLS估计的目标是找到最佳的回归系数β0到βk,使得残差平方和最小化。
OLS估计的计算过程可以通过矩阵形式来表示。
假设我们有n个观测值和k个自变量,可以将模型表示为矩阵形式:Y = Xβ + ε其中,Y是一个n×1的因变量向量,X是一个n×(k+1)的设计矩阵,包括一个常数列和k个自变量列,β是一个(k+1)×1的系数向量,ε是一个n×1的误差向量。
OLS估计的公式为:β = (X^T X)^(-1) X^T Y其中,(X^T X)^(-1)表示X的转置矩阵与X的乘积的逆矩阵,X^T表示X的转置矩阵,Y是因变量向量。
计算OLS估计量的标准误可以帮助我们评估回归系数的显著性。
标准误反映了OLS估计量的精确度,它衡量了回归系数的估计与真实值之间的偏差。
标准误的计算公式为:SE(β) = sqrt(σ^2 * diag[(X^T X)^(-1)])其中,SE(β)表示OLS估计量的标准误,σ^2是误差项的方差的估计值,diag表示将矩阵的对角线元素提取为向量。
在实践中,常常使用残差平方和来估计误差项的方差,即:σ^2 = (Y - Xβ)^T (Y - Xβ) / (n - k - 1)其中,n是样本观测值的数量,k是自变量的数量。
通过计算OLS估计量的标准误,我们可以进行统计推断,如计算置信区间和假设检验等,来评估回归系数的显著性和可靠性。
y = b 0+ b 1x 1+ b 2x 2+ . . . b k x k + u一、多元线性回归模型1.我们可以研究控制一些变量不变的条件下,其他变量对y的影响,而不是假定他们不相关。
Cons = b 0+ b 1inc+b 2inc 2 +u2.我们还能推广变量之间的函数关系如:通过在模型中包含更多的变量,我们更好的达到了SLR.4所表达的目的E(u|x 1,x 2, …,x k ) = 0 (3.8)HYP.1一般多元回归模型的关键假定(u和所有x都不相关):( )仍然是最小化残差和:对(3.12)求k +1次偏导得一阶条件(交给计算机计算)(此时假定k +1个方程只能得到估计值得唯一解2.1 如何得到OLS 估计值例3.1分析两个系数时,可得出当我们把其中一个因素涵盖在模型中时,另外一个因素的预测就变得不有力了1.系数表示局部效应(控制其他变量不变时,对y的效应)多元回归分析给了我们在收集不到“其他条件不变”时的数据仍有同样效果的能力2.“控制其他变量不变”的含义3.同时改变不止一个自变量(只需要将效应加和)2.2 对OLS 回归方程的解释从单变量情形加以推广,得:1.残差的样本平均值为02.每个自变量和OLS 残差之间的样本协方差为0。
因此OLS 拟合值和OLS 残差之间的样本协方差也为03.点总位于OLS 回归线上(性质1. 2.由一阶条件得,性质3.由1.可得2.3 OLS 的拟合值和残差( )其中 是x1对其他变量回归后的残差(即排除其他变量对x1的影响,类似矢量正交)2.4 对“排除其他变量影响”的解释( )(是 对 简单回归的斜率1.样本中x2对y的偏效应为0,即2.x1和x 2不相关,即(1. 2.可解释、 的差异由(3.23)知,在两种情况下利用矢量正交的理解考虑简单回归和两个自变量的回归:2.5简单回归和多元回归估计值比较可以证明,R2的另一种理解是 的实际值与其拟合值 的相关系数的平方,其中2.6 拟合优度(与简单回归大致相同)二、普通最小二乘法(多元线性回归模型的代数特征和对方程的解释)使用提示:1.该笔记是对伍德里奇《计量经济学》第五版第三章学习过程中的内容梳理2.由于本人水平有限,单独看该笔记估计会很吃力,且很可能出现错误,建议结合书本进行理解3.希望能够对想学习计量经济学的人起到一点点帮助第三章多元回归分析:估计2020年3月19日10:47由于定义下增加解释变量不会降低R2,所以判断一个解释变量是否应该放入模型的依据应该是该解释变量在总体中对y的偏效应是否非02.7 过原点的回归1.之前推导的性质不再成立,特别是OLS残差的样本平均值不再是02.计算R2没有特定的规则3.当截距项b0不等于0,斜率参数OLS估计量将有偏误;当截距项b0=0,估计带截距项方程的代价是,OLS斜率估计量的方差会更大2.8 OLS估计量的期望值MLR.1(线性于参数)MLR.2(随机抽样)MLR.3(不存在完全共线性,允许一定程度的相关)(在定义函数时要小心不要违背了MLR.3MLR.4(条件均值为0)(内生解释变量:解释变量可能与误差项相关定理3.1 OLS的无偏性()2.9 过度设定和设定不足(多了无关变量和少了解释变量)2.9.1过度设定(不影响OLS估计量的无偏性,但影响OLS估计量的方差)2.9.2设定不足1.简单情形:从一个斜率参数到两个斜率参数由(3.23):取均值得偏误为:(因此偏误的方向取决于两个符号,偏误的大小取决于两者之积,在应用中可以通过常识来判断偏误方向2.扩展情形:从两个斜率参数到三个斜率参数当你假设和不相关时,就可以证明和的关系和简单情形一样2.10 OLS估计量的方差MLR.5(同方差性,不仅可以简化公式,还得到了有效性)定理3.2 OLS斜率估计量的抽样方差在MLR.1-5下,以自变量的样本值为条件,有()(是的总样本波动,则是对所有其他自变量(并包含一个截距项)回归所得到的由(3.51)可知,估计量的抽样方差由三个要素决定:1.误差方差(噪声越大,越难估计)2.的总样本波动(越分散,越容易估计)3.自变量之间的线性关系(和其他自变量相关性越高,越不利于估计(很高的并不一定有问题,抽样方差的大小还要取决于剩下两个因素,可以通过收集更多的数据来削减多重共线性(当考虑某一个自变量 的方差时,若 和其他自变量均无关,那么其他自变量间的关系是不造成影响的,某些经济学家为了分离特定变量的因果效应,而在模型中包括许多控制因素,但这并不影响因果效应的证实( )当含有两个解释变量时:( )当含有一个解释变量时:((3.54)和(3.55)表明除非样本中x1和x2不相关,否则 <1.当 =0时,两个都无偏,但 < ,所以前者更好2.当不等于0时,不放x 2进去会导致有偏,放了x 2进去会导致方差增加,但我们喜欢把x2放进去的理由是:不放进去的偏误不会随着样本容量扩大而缩减,而放进去增加的方差却会随着样本容量的扩大逐渐缩小至0所以有两个结论:2.10.1 过度设定的方差(建立在过度设定无偏讨论的基础上)( )2.10.2 OLS 估计量的标准误(与简单回归相同)在假定MLR.1-5下,有(MLR .5若不满足(即异方差),会使标准误失效(第二种表达清楚说明了随着样本容量的扩大,在其他三项( 、 、 )都趋于常数的时候,估计量标准误是如何变小的因此得估计量的标准误:定理3.3 的无偏估计OLS 估计量是最优线性无偏估计量(如(3.22)所示的线性、无偏误、在线性无偏估计量中方差最小在MLR.1-5下,得定理3.4 高斯-马尔科夫定理2.11 对OLS 估计的一个正确认识。
2.2 多元回归模型的OLS 估计多元回归模型在实际问题中经常被用来对一个因变量与两个或两个以上自变量的关系进行建模和预测。
常用的估计方法是OLS(最小二乘)估计。
本文将对多元回归模型的OLS 估计进行详细介绍。
1. 多元线性回归模型的建立$Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_kX_k + \epsilon$其中,$Y$ 为因变量,$X_1, X_2,\cdots, X_k$ 为自变量,$\beta_0, \beta_1,\beta_2,\cdots, \beta_k$ 为回归系数,$\epsilon$ 为误差项。
利用最小二乘估计,我们可以通过拟合一条直线或曲线使估计误差最小,来估计模型中的未知参数。
最小二乘法的目标就是使残差平方和最小。
OLS 估计是多元线性回归中最常用、最有效的方法之一。
OLS 估计方法就是按照最小二乘法的思想,通过最小化误差平方和来求出回归方程中的估计参数。
具体来说,我们可以利用正规方程(normal equation)来求解参数估计值。
设 $X$ 是 $n \times k$ 的样本自变量数据矩阵,$Y$ 是 $n$ 维因变量向量,$b$ 是 $k$ 维参数向量,我们可以通过最小化误差平方和,找到回归系数的最优解:$\min_{b} \ \sum_{i=1}^{n}(Y_i-X_ib)^2$我们对 $b$ 求导并令导数为 0,可以得到正规方程:$X^TXb=X^TY$其中,$X^T$ 表示 $X$ 的转置矩阵。
对于非满秩矩阵 $X$,正规方程可能无解或者存在无数解。
因此,我们需要在实际应用中注意检查矩阵的秩。
(1)OLS 估计是一种无偏的估计方法,即在样本量足够大时,估计值的期望等于真实值。
这使得 OLS 估计在实际应用中更具有可靠性。
(2)OLS 估计是一种最优的线性无偏估计方法,可以最小化在误差平方和最小的情况下使得估计值最接近真实值。
第二章多元线性回归§2.1 基本概述一、回归的任务多元线性回归(MLR)(multiple linear regression)是分析一个随机变量与多个变量之间线性关系的统计方法。
回归(Regression)起源于19世纪生物学家F·高尔顿进行的遗传学研究。
其核心是“普通最小平方法”(Ordinary Least Squares)OLS。
多元回归将所研究的变量分为:确定自变量和因变量的关系是回归分析的主要任务:(1)根据实测数据求解某一模型的各个参数;(2)评价回归模型是否较好地拟合实例数据;(3)利用模型进行预测。
需要注意的是:(1) 因变量必须是间距测度等级以上的变量(有时也包含定性变量。
见《应用回归分析》)(也称为连续变量)。
自变量可以是任意等级的变量。
(2)既使模型正确通过检验,也不能确定X、Y之间的因果关系,而只能确认存在着统计关系。
[例] 不同地区的人均食品支出与人均收入的关系(图2–1);汽车重量与每加仑燃料行驶英里值的关系;(图2–2)。
图2–1图2–2二、一元线性回归的回顾1. 模型i i i x Y εββ++=10 (2.1)当获得n 组样本观测值(x 1 , y 1),(x 2 , y 2),…(x n ,y n )的数据时,如果符合2.1式,则有n i X Y iii,,2,11=++=εββ (2.2)2.1式称为理论回归模型;2.2式称为样本回归模型。
有时不加以区分地将两者称为一元线性回归模型。
通过n 组观测值,用OLS 法对10,ββ进行估计,得10ˆ,ˆββ,则称为Y 关于X 的一元线性方程。
其中: 1β 回归系数,说明X 与Y 之间的变化关系。
2.普通最小二乘法估计的统计性质(OLSE Estimation ) (1)残差:ii iY Y e ˆ-=,用来说明拟合效果,可以看作误差项εi 的估计值。
⎪⎩⎪⎨⎧==∑∑00ii i e x e 因为 )(ˆˆX X Y Y-+=β,所以 0)(ˆ)()ˆ(=---=-=∑∑∑∑X X Y Y Y Y e β 但∑=ni i e 1||很麻烦,经常用∑2i e 来说明。