模型设定和数据问题探讨共38页
- 格式:ppt
- 大小:3.86 MB
- 文档页数:38
第 9 章模型设定与数据问题如果模型设定(model specification)不当,如解释变量选择不当、测量误差、函数形式不妥等,会出现“设定误差”(specification error)。
数据本身也可能存在问题,如多重共线性、对回归结果影响很大的极端数据等。
29.1 遗 漏 变 量假设真实的模型为y i = x i '1β1 + x i '2 β2 + εi其中,x 1, x 2 可以是向量,且与扰动项 不相关。
而实际估计的模型(estimated model)为y i = x i '1β1 + u i遗漏变量(omitted variables) x i '2 β2 ,被归入新扰动项u i = x i '2 β2 + εi 。
3考虑以下两种情形:(1) Cov(x i 1, x i 2 ) = 0 。
OLS 一致。
遗漏变量x i '2 β2 归入扰动项u i 中,可能增大扰动项的方差,影响估计精度。
(2) Cov(x i 1, x i 2 ) ≠ 0OLS 不一致,其偏差为“遗漏变量偏差”(omitted variable bias)。
解决遗漏变量偏差的方法主要有:(i)加入尽可能多的控制变量(control variable);(ii)使用“代理变量”(proxy variable);(iii)工具变量法(第10 章);(iv)使用面板数据(第15-17 章);(v)随机实验与自然实验(第18 章)。
4第(i)种方法:尽可能去收集数据。
或从理论上说明,遗漏变量不会与解释变量相关,或相关性很弱。
例李宏彬等(2012)通过就业调查数据,研究“官二代”大学毕业生的起薪是否高于非官二代。
由于可能存在遗漏变量,该文包括了尽可能多的控制变量,比如年龄、性别、城镇户口、父母收入、父母学历、高考成绩、大学成绩、文理科、党员、学生会干部、兼职实习经历、拥有技术等级证书等。
第9章模型设定和数据问题的深入探讨9.1复习笔记考点一:函数形式设误检验(见表9-1)★★★★表9-1函数形式设误检验考点二:对无法观测解释变量使用代理变量★★★1.代理变量代理变量就是某种与分析中试图控制而又无法观测的变量相关的变量。
(1)遗漏变量问题的植入解假设在有3个自变量的模型中,其中有两个自变量是可以观测的,解释变量x3*观测不到:y=β0+β1x1+β2x2+β3x3*+u。
但有x3*的一个代理变量,即x3,有x3*=δ0+δ3x3+v3。
其中,x3*和x3正相关,所以δ3>0;截距δ0容许x3*和x3以不同的尺度来度量。
假设x3就是x3*,做y对x1,x2,x3的回归,从而利用x3得到β1和β2的无偏(或至少是一致)估计量。
在做OLS之前,只是用x3取代了x3*,所以称之为遗漏变量问题的植入解。
代理变量也可以以二值信息的形式出现。
(2)植入解能得到一致估计量所需的假定(见表9-2)表9-2植入解能得到一致估计量所需的假定2.用滞后因变量作为代理变量对于想要控制无法观测的因素,可以选择滞后因变量作为代理变量,这种方法适用于政策分析。
但是现期的差异很难用其他方法解释。
使用滞后被解释变量不是控制遗漏变量的唯一方法,但是这种方法适用于估计政策变量。
考点三:随机斜率模型★★★1.随机斜率模型的定义如果一个变量的偏效应取决于那些随着总体单位的不同而不同的无法观测因素,且只有一个解释变量x,就可以把这个一般模型写成:y i=a i+b i x i。
上式中的模型有时被称为随机系数模型或随机斜率模型。
对于上式模型,记a i=a+c i和b i=β+d i,则有E(c i)=0和E(d i)=0,代入模型得y i=a+βx i+u i,其中,u i=c i+d i x i。
2.保证OLS无偏(一致性)的条件(1)简单回归当u i=c i+d i x i时,无偏的充分条件就是E(c i|x i)=E(c i)=0和E(d i|x i)=E(d i)=0。