高级计量经济学3

  • 格式:doc
  • 大小:670.50 KB
  • 文档页数:12

下载文档原格式

  / 12
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第3章 最小二乘法和最小二乘估计

Chapter 3 Least Squares

线性模型中的参数估计有多种方法,其中最小二乘法是最为著名的。即使已经发现其他方法比较优越,但是最小二乘法仍然是线性模型估计的基础方法,最小二乘估计的性质已经得到了广泛应用。

§3.1 最小二乘回归(least squares regression)

随机线性关系i i i y ε+'=βx 中的未知系数是我们考虑的重点,也是我们进行估计的主要目标。这时我们有必要区分母体变量(例如β和i ε)和它们的样本估计,对应地表示为b 和i e 。母体回归方程可以表示为:

βx x i i i y E '=]|[

它的估计表示为:

b x i i y '=ˆ (3.1) 与第i 个数据点相关的扰动项可以表示为:

βx i i i y '-=ε (3.2) 如果获得了回归系数的估计,则可以利用回归方程的残差来估计随机扰动项,即

b x i i i y e '-= (3.3) 根据这些定义和表示,可以得到:

i i i i i e y +'=+'=b x βx ε (3.4)

母体量β是每个i y 的概率分布中的未知系数,我们希望利用样本数据),(i i y x 来估计这些参数。虽然这是一个统计推断问题,但是我们仍然可以直观地认为应该选取向量b ,使得拟合直线b x i '尽量地靠近数据点。

如果描述这种靠近性,需要一定的拟合准则,其中最为广泛使用的是最小二乘法。

§3.1.1 最小二乘系数向量

可以通过极小化下述残差平方和来获得最小二乘系数向量。

∑∑=='-=n i i n i i y e

1

20120)(b x (3.5) 其中0b 表示系数向量的选择。利用矩阵形式表示上述残差平方和:

)()()(Minminze 000000

Xb y Xb y e e b b -'-='=S (3.6) 将上述目标函数展开得到(注意利用标量的转置不变的性质):

0000002)(Xb X b Xb y y y e e b ''+'-'='=S (3.7)

极小化的一阶条件为(相当于对向量求导数,要么利用向量展开,要么利用向量求导公式):

022)(00

0='+'-=∂∂Xb X y X b b S (3.8) 假设b 是最小二乘的解,则它必须满足最小二乘正规方程(least square normal equations): y X Xb X '=' (3.9) 如果解释变量矩阵的满秩条件满足,则有:

K rank rank K n K K =='⨯⨯)()(X X X

这说明矩阵K K ⨯')(X X 是可逆矩阵,因此正规方程的唯一解为:

y X X X b ''=-1)( (3.10) 注意到上述条件只是极小化问题的必要条件,为了判断充分性,我们需要求出目标函数的Hessian 矩阵:

X X b

b b '='∂∂∂2)(2S (3.11) 如果这个Hessian 矩阵是正定的,则可以判断所得到的解是唯一的最小二乘解。

显然,根据正定矩阵的定义或者正定矩阵的判断准则,可知当矩阵的满秩条件满足时,矩阵X X '是正定的,因此最小二乘解的充分性成立。

通过上述最小二乘解的表达式,我们可以得到最小二乘解的下述代数性质:

命题3.1 对于线性模型和相应的最小二乘估计,则有:

(1) 最小二乘残差的和为零。即01=∑=n

i i e

(2) 回归超平面通过数据的均值点,即b x '=y

(3) 从回归方程中获得的拟合值的均值等于样本观测值的均值,即y y

=ˆ 证明:(1) 根据正规方程,可知:

0)(='-=-'-='-'e X Xb y X y X Xb X

这说明对于矩阵X 的每一列k x ,都有0='e x k ,

由于矩阵X 的第1列中都是1,所以得到(因此这条性质成立的前提条件是回归模型中包含常数项):

0),,,)(1,,1,1(121=='∑=n

i i n e e e e

(2) 正规方程0='-'y X Xb X 表示为矩阵形式为:

⎪⎪⎪⎪⎪⎭

⎫ ⎝⎛⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎪⎪⎭⎫ ⎝⎛n T

nK n K K K nK n K K T nK n K K y y y x x x x x x b b b x x x x x x x x x x x x 2122221122122221122222112111111111 将上述矩阵方程的第一个方程表示出来,则有:

∑∑∑∑=====⎪⎪⎪⎪⎪⎭

⎫ ⎝⎛⎪⎭⎫ ⎝⎛n i i K n i iK n i i n i i y b b b x x x 1

2111211

根据数据的样本均值定义,则有: '⎪⎭

⎫ ⎝⎛='∑∑∑===n i iK n i i n i i x n x n x n 112111,,1,1 x 也即:b x '=y

(3) 根据拟合值的定义:b x i i y '=ˆ,即b X y =ˆ,则有:

⎪⎪⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎪⎪⎭⎫ ⎝

⎛n T

nK n K K n T nK n K K y y y x x x x x x y y y x x x x x x 212222112212222112111ˆˆˆ111 上述矩阵方程的第一个方程可以表示为:

∑∑===n i i n i i y y

1

1ˆ 则有:y y

=ˆ 需要注意的是,上述命题成立的前提是线性模型中包含常数项,也就是第一个解释变量是“哑变量”形式。这样一个思考题目就是,当线性模型中不包含常数项时,结论是什么样的?

§3.1.2 投影和投影矩阵(projection and projection matrix)

获得最小二乘估计以后,可以获得下述最小二乘残差:

Xb y e -= (3.12) 将最小二乘估计的表达式代入,得到:

y M y X X X X I y X X X X y e =''-=''-=--])([)(11 (3.13) 其中定义的矩阵X X X X I M ''-=-1)(在回归分析中是非常基础和重要的。显然,这个矩阵是对称幂等矩阵:

M M '=,2M M =

其次,还有一些重要的性质需要大家注意,例如对称幂等矩阵的特征根非0即1(对称矩阵的特征均为实数),因此矩阵具有性质:矩阵的迹等于矩阵的秩。诸如这样的性质,需要大家复习一下线性代数中的有关定义和命题。

根据上述方程(2.12)和(2.13),矩阵M 的作用是,它乘积作用在某个向量y 上,就可以得到这个向量y 基于数据变量X 的最小二乘回归的残差向量,因此经常将这个矩阵称为“残差生成算子”(residual maker)。这里需要注意M 的定义和所作用的变量,是所作用变量关于M 定义中数据矩阵的回归残差。

显然,X 基于自己的线性回归的最小二乘残差一定为零,则必然有(即使验证也十分显然):

0=X M (3.14) 根据方程(2.12),可以得到:

e y

e Xb y +=+=ˆ (3.15) 这说明最小二乘回归将变量y 分解成为两个部分,一个部分是拟合值b X y

=ˆ,另一个部分是残差e ,由于

0)(ˆ='='='='b X M Y b X MY b X e y

e (3.16) 这说明最小二乘回归与残差是正交的。因此,这样的分解是正交分解,也就是说最小二乘的拟合值向量和残差向量是正交的(意味着这两个向量之间的夹角为垂角)。这时也可以得到:

y P y X X X X y M I e y y

='''=-=-=-1)()(ˆ (3.17) 这里矩阵X X X X P '''≡-1)(也是一个对称幂等矩阵,我们称其为投影矩阵(project matrix),它是有矩阵X 构成的,并且它如果乘积作用到向量y 上,则可以得到y 基于变量X 的最小二乘回归的拟合值。这也是向量y 在矩阵X 的各列生成的线性空间上的投影。

注释:假设y 在矩阵X 的各列生成的线性空间上的投影是P y ,则P y 的定义是: b X y ~=P ,

且选择b ~使得min ||||→-y y P (3.18) 由于上述向量之间的模与最小二乘距离是一致的,因此上述最小值也得到了最小二乘估计,因此最小二乘估计的拟合值也是投影值。