中级计量经济学讲义_第六章带有线性约束的多元线性回归模型及其假设检验
- 格式:doc
- 大小:312.00 KB
- 文档页数:11
第六讲 多重共线一、 FWL 定理及其应用考虑模型:112233i i i i i y a b x b x b x ε=++++ (1)假如我们只关注1ˆb,则通过如下步骤可以获得之。
第1步:把1x 对其他解释变量进行回归(请注意,截距所对应的解释变量为1),即有: 101223ˆˆˆˆi i i ix x x v βββ=+++ (2)第2步:把y 也对(2)中的解释变量进行回归,即有:01223ˆˆˆˆi i i i y x x w ϕϕϕ=+++ (3)第3步:把ˆw 对ˆv 进行回归(不含截距,当然你可以包含截距,但你会发现,截距的估计结果是零,这是因为ˆw 与ˆv 其均值都为零),即有模型:ˆˆi i i ve w η=+ (4) 则有:2ˆˆˆˆi i iw v v η=∑∑,可以验证,1ˆˆb η=,且残差ˆi e 等于初始的残差ˆi ε。
此即著名的FWL 定理(Frisch-Waugh-Lovell theorem )。
关于FWL 定理的一个简单证明见附录1。
思考题:利用关于“偏导数”的直觉,你能够理解1ˆˆb η=吗? 考察2ˆˆˆˆi i iw v v η=∑∑,把01223ˆˆˆˆi i i i y x x w ϕϕϕ=---代入,现在分子是:2012230123ˆˆˆˆ()ˆˆˆˆˆˆˆˆˆi i i i i i i ii i i v x i i y x x y v x v v v wv ϕϕϕϕϕϕ------∑∑∑==∑∑∑应该注意到,在进行第一步回归时,OLS 法保证了203ˆˆˆi i i i i v x x vv ===∑∑∑ 因此,22ˆˆˆˆˆˆi i i i i iw v y v v v η==∑∑∑∑ 显然,如果把y 对ˆv 直接进行无截距回归:*ˆiiiy v ης=+ (5)我们也可以得到:*122ˆˆˆˆˆˆˆi i i i i i y v w v b v vηη====∑∑∑∑。
第一章满足经典假定下的参数估计一、基本概念——变量、数据与模型(一)、经济变量具有特定的经济含义影响经济系统的因素,它是构成方程式的最基本要素,变量的基本特征是要求具有可观测和可计量。
1、变量的类型●被解释变量(应变量、因变量)●解释变量(自变量)被解释变量与解释变量之间的关系强调的是单向因果关系,即解释变量影响被解释变量,反之不行。
注:被解释变量为服从正态分布的连续随机变量(这是“经典”的核心)。
●内生变量(强调其随机性和不可控制性)●外生变量(强调其确定性和可控制性)●内生变量与外生变量的关系:外生变量控制影响内生变量,而内生变量不能控制影响外生变量●滞后内生变量(动态变量、能否控制信息)●前定变量=外生变量+滞后内生变量(二)数据1、时间数列数据;2、截面数据;3、面板数据4、虚拟变量数据(离散数据)(三)模型设定1、模型和方程:方程是模型的基本单位;决定方程的两要素是变量的个数和方程的函数形式。
2、在模型设定过程中应注意的问题基于经济理论的认识;模型的数学形式;变量的取舍。
3、计量经济模型对数据质量的基本要求●真实性●可靠性●完整性●一致性●可比性二、在总体回归函数中引入随机扰动项的原因:初级计量P26-27.三、经典假定的内容(一)经典假定1、零均值假定。
2、同方差假定。
3、无自相关假定。
4、解释变量与随机误差项不相关。
5、无多重共线性假定。
6、正态性假定。
还有:回归模型关于参数线性;在重复抽样中X 值是固定的(或X 是非随机的);X 的值要有变异;模型设定是正确的。
(二)多元线性回归模型的基本假定(用矩阵表示)。
1、零均值假定2、同方差和无自相关假定22(|),()(,|,)0,i i i j i j Var u X i j Cov Var U I Cov u u X X i j σσ⎧==⎪-=⎨=≠⎪⎩(条件方差不变、条件自相关等于0)3、随机扰动项与解释变量不相关假定 ()0E X U '=4、无多重共线性假定。
§5.1 多元线性回归模型及其假设条件 1.多元线性回归模型 多元线性回归模型:εi pi p iiix b xb x b b y +++++= 2211,n i ,,2,1 =2.多元线性回归模型的方程组形式 3.多元线性回归模型的矩阵形式4.回归模型必须满足如下的假设条件:第一、有正确的期望函数。
即在线性回归模型中没有遗漏任何重要的解释变量,也没有包含任何多余的解释变量。
第二、被解释变量等于期望函数与随机干扰项之和。
第三、随机干扰项独立于期望函数。
即回归模型中的所有解释变量Xj与随机干扰项u 不相关。
第四、解释变量矩阵X 是非随机矩阵,且其秩为列满秩的,即:n k k X rank 〈=,)(。
式中k 是解释变量的个数,n 为观测次数。
第五、随机干扰项服从正态分布。
第六、随机干扰项的期望值为零。
()0=u E 第七、随机干扰项具有方差齐性。
()σσ22=u i(常数)第八、随机干扰项相互独立,即无序列相关。
()()u u u u jiji,cov ,=σ=0§5.2 多元回归模型参数的估计建立回归模型的基本任务是:求出参数bb b p,,,,1σ的估计值,并进行统计检验。
残差:yy e iiiˆ-=;残差平方和:Q=()∑-∑==y y e i i ni iˆ212矩阵求解:X=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡x xxx x x x x x pn nnp p212221212111111,⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎣⎡=b b b b p B ˆˆˆˆ210ˆ ,⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎣⎡=-y y y y n n Y 121 ,()YB X X X ττ1ˆ-=1ˆ2--=p n Qσ要通过四个检验:经济意义检验、统计检验、计量经济学检验、模型预测检验。
§5.4 多元线性回归模型的检验一、R2检验1.R2检验定义R2检验又称复相关系数检验法。
是通过复相关系数检验一组自变量xx x m,,,21与因变量y 之间的线性相关程度的方法。
《中级计量经济学》复习一、上学期的主要内容1、数学知识(Basic Knowledge of Mathematics )1) 矩阵的基础知识(Basic Knowledge of Matrix Algebra ) 2) 概率论与数理统计(Probability and Statistics ) 2、几个回归模型1) 古典线性回归模型(Simple Classical Linear Regression ) 2) 多元线性回归模型(Linear Multiple Regression)3) 带有线性约束的多元线性回归模型及其假设检验(Linear Multiple Regression and its Inference Prediction)4) 正态线性统计模型的最大似然估计(Normal Linear Statistical Model and MLE) 5) 非线性回归模型初步(Nonlinear Regression Model)二、主要知识点1、概率论与数理统计的对应关系概率模型:二项分布、正态分布、几何分布等。
在很多种情况下,参数就决定了分布。
抽样与统计:通过样本确定参数。
顺序统计量、经验分布函数与子样矩设(X 1,…,X n )是从母体中抽取的一个子样,记(x 1,x 2…,x n )是子样的一个观察值,将观察值的各分量按大小递增次序排列,得到*1x ≤*2x ≤…≤*n x当(X 1,…,X n )取值为(x 1,…,x n )时,我们定义)(n k X 取值为*k x 。
称由此得到的)()(1,,n nn X X 为(X 1,…,X n )的一组顺序统计量。
显然)(1n X ≤)(2n X ≤…≤)(n n X ,i ni n X X ≤≤=1)(1min ,即)(1n X 的观察值是子样观察值中最小的一个,而i ni n n X X ≤≤=1)(max ,)(n nX 的观察值是子样观察值中最大的一个。
计量经济学复习要点第1章 绪论数据类型:截面、时间序列、面板用数据度量因果效应,其他条件不变的概念 习题:C1、C2第2章 简单线性回归回归分析的基本概念,常用术语现代意义的回归是一个被解释变量对若干个解释变量依存关系的研究,回归的实质是由固定的解释变量去估计被解释变量的平均值;简单线性回归模型是只有一个解释变量的线性回归模型; 回归中的四个重要概念1. 总体回归模型Population Regression Model,PRMt t t u x y ++=10ββ--代表了总体变量间的真实关系;2. 总体回归函数Population Regression Function,PRFt t x y E 10)(ββ+=--代表了总体变量间的依存规律;3. 样本回归函数Sample Regression Function,SRFtt t e x y ++=10ˆˆββ--代表了样本显示的变量关系; 4. 样本回归模型Sample Regression Model,SRMtt x y 10ˆˆˆββ+=---代表了样本显示的变量依存规律; 总体回归模型与样本回归模型的主要区别是:①描述的对象不同;总体回归模型描述总体中变量y 与x 的相互关系,而样本回归模型描述所关的样本中变量y 与x 的相互关系;②建立模型的依据不同;总体回归模型是依据总体全部观测资料建立的,样本回归模型是依据样本观测资料建立的;③模型性质不同;总体回归模型不是随机模型,而样本回归模型是一个随机模型,它随样本的改变而改变;总体回归模型与样本回归模型的联系是:样本回归模型是总体回归模型的一个估计式,之所以建立样本回归模型,目的是用来估计总体回归模型; 线性回归的含义线性:被解释变量是关于参数的线性函数可以不是解释变量的线性函数 线性回归模型的基本假设简单线性回归的基本假定:对模型和变量的假定、对随机扰动项u 的假定零均值假定、同方差假定、无自相关假定、随机扰动与解释变量不相关假定、正态性假定 普通最小二乘法原理、推导最小二乘法估计参数的原则是以“残差平方和最小”;Min21ˆ()niii Y Y =-∑01ˆˆ(,)ββ: 1121()()ˆ()nii i n ii XX Y Y X X ==--β=-∑∑ , 01ˆˆY X β=-βOLS 的代数性质拟合优度R 2离差平方和的分解:TSS=ESS+RSS“拟合优度”是模型对样本数据的拟合程度;检验方法是构造一个可以表征拟合程度的指标——判定系数又称决定系数;121SSE SST SSR SSRR SST SST SST-===-,表示回归平方和与总离差平方和之比;反映了样本回归线对样本观测值拟合优劣程度的一种描述; 2 2[0,1]R ∈;3 回归模型中所包含的解释变量越多,2R 越大改变度量单位对OLS 统计量的影响函数形式对数、半对数模型系数的解释101ˆˆˆi iY X =β+β:X 变化一个单位Y 的变化 201ˆˆˆln ln i i Y X =β+β: X 变化1%,Y 变化1ˆβ%,表示弹性; 301ˆˆˆln i i Y X =β+β:X 变化一个单位,Y 变化百分之1001ˆβ 401ˆˆˆln i i Y X =β+β:X 变化1%,Y 变化1ˆβ%; OLS 无偏性,无偏性的证明 OLS 估计量的抽样方差 误差方差的估计 OLS 估计量的性质1线性:是指参数估计值0β和1β分别为观测值t y 的线性组合; 2无偏性:是指0β和1β的期望值分别是总体参数0β和1β; 3最优性最小方差性:是指最小二乘估计量0β和1β在在各种线性无偏估计中,具有最小方差;高斯-马尔可夫定理OLS 参数估计量的概率分布2^22()iVar x σβ=∑OLS 随机误差项μ的方差σ2的估计 简单回归的高斯马尔科夫假定 对零条件均值的理解习题:4、5、6;C2、C3、C4第3章 多元回归分析:估计1、变量系数的解释剔除、控制其他因素的影响对斜率系数1ˆβ的解释:在控制其他解释变量X2不变的条件下,X1变化一个单位对Y 的影响;或者,在剔除了其他解释变量的影响之后,X1的变化对Y 的单独影响2、多元线性回归模型中对随机扰动项u 的假定,除了零均值假定、同方差假定、无自相关假定、随机扰动与解释变量不相关假定、正态性假定以外,还要求满足无多重共线性假定;3、多元线性回归模型参数的最小二乘估计式;参数估计式的分布性质及期望、方差和标准误差;在基本假定满足的条件下,多元线性回归模型最小二乘估计式是最佳线性无偏估计式;最小二乘法 OLS 公式:Y ' X X)' (X ˆ-1=β 估计的回归模型:的方差协方差矩阵:残差的方差 : 估计的方差协方差矩阵是: 拟合优度 遗漏变量偏误 多重共线性多重共线性的概念多重共线性的后果 多重共线性的检验 多重共线性的处理习题:1、2、6、7、8、10;C2、C5、C6第4章 多元回归分析:推断经典线性模型假定 正态抽样分布2^22i e n σ=-∑变量显着性检验,t 检验 检验β值的其他假设 P 值实际显着性与统计显着性 检验参数的一个线性组合假设 多个线性约束的检验:F 检验 理解排除性约束 报告回归结果习题:1、2、3、4、6、7、10、11;C3、C5、C8第6章 多元回归分析:专题测度单位对OLS 统计量的影响 进一步理解对数模型 二次式的模型 交互项的模型 拟合优度修正可决系数的作用和方法;习题:1、3、4、7;C2、C3、C5、C9、C12第7章 虚拟变量虚拟变量的定义如何引入虚拟变量:如果一个变量分成N 组,引入该变量的虚拟变量形式是只能放入N-1个虚拟变量 虚拟变量系数的解释虚拟变量系数的解释:不同组均值的差基准组或对照组与处理组 以下几种模型形式表达的不同含义;1tt t t u D X Y +++=210βββ:截距项不同; 2tt t t t u X D X Y +++=210βββ:斜率不同;3tt t t t t u X D D X Y ++++=3210ββββ:截距项与斜率都不同;其中D 是二值虚拟变量,X 是连续的变量;虚拟变量陷阱虚拟变量的交互作用习题:2、4、9;C2、C3、C6、C7、C11第8章异方差异方差的后果异方差稳健标准误BP检验异方差的检验White检验加权最小二乘法习题:1、2、3、4;C1、C2、C8、C9Eviews回归结果界面解释表计量经济学复习题第1章习题:C1、C2第2章习题:4、5、6;C2、C3、C4第3章习题:1、2、6、7、8、10;C2、C5、C6 第4章习题:1、2、3、4、6、7、10、11;C3、C5、C8 第6章习题:1、3、4、7;C2、C3、C5、C9、C12 第7章习题:2、4、9;C2、C3、C6、C7、C11 第8章习题:1、2、3、4;C1、C2、C8、C9 1、判断下列表达式是否正确2469 2、给定一元线性回归模型:1叙述模型的基本假定;2写出参数0β和1β的最小二乘估计公式; 3说明满足基本假定的最小二乘估计量的统计性质; 4写出随机扰动项方差的无偏估计公式; 3、对于多元线性计量经济学模型:1该模型的矩阵形式及各矩阵的含义; 2对应的样本线性回归模型的矩阵形式; 3模型的最小二乘参数估计量;4、根据美国1961年第一季度至1977年第二季度的数据,我们得到了如下的咖啡需求函数的回归方程:D D D P I P t t t t t t tT Q 321'0097.0157.00961.00089.0ln 1483.0ln 5115.0ln 1647.02789.1ˆln ----++-=其中,Q=人均咖啡消费量单位:磅;P=咖啡的价格以1967年价格为不变价格;I=人均可支配收入单位:千元,以1967年价格为不变价格;P '=茶的价格1/4磅,以1967年价格为不变价格;T=时间趋势变量1961年第一季度为1,…,1977年第二季度为66;D 1=1:第一季度;D 2=1:第二季度;D 3=1:第三季度; 请回答以下问题:① 模型中P 、I 和P '的系数的经济含义是什么 ② 咖啡的需求是否很有弹性③ 咖啡和茶是互补品还是替代品 ④ 你如何解释时间变量T 的系数 ⑤ 你如何解释模型中虚拟变量的作用 ⑥ 哪一个虚拟变量在统计上是显着的 ⑦ 咖啡的需求是否存在季节效应5、为研究体重与身高的关系,我们随机抽样调查了51名学生其中36名男生,15名女生,并得到如下两种回归模型:h W5662.506551.232ˆ+-= t=h D W7402.38238.239621.122ˆ++-= t=其中,Wweight=体重 单位:磅;hheight=身高 单位:英寸 请回答以下问题:① 你将选择哪一个模型为什么② 如果模型确实更好,而你选择了,你犯了什么错误 ③ D 的系数说明了什么6、简述异方差对下列各项有何影响:1OLS 估计量及其方差;2置信区间;3显着性t 检验和F 检验的使用;4预测;7、假设某研究者基于100组三年级的班级规模CS 和平均测试成绩TestScore 数据估计的OLS 回归为:(1) 若某班级有22个学生,则班级平均测试成绩的回归预测值是多少 (2) 某班去年有19个学生,而今年有23个学生,则班级平均测试成绩变化的回归预测值是多少(3) 100个班级的样本平均班级规模为,则这100个班级的样本平均测试成绩是多少(4) 100个班级的测试成绩样本标准差是多少提示:利用R 2和SER 的公式 (5) 求关于CS 的回归斜率系数的95%置信区间;(6) 计算t 统计量,根据经验法则t=2来判断显着性检验的结果; 8、设从总体中抽取一容量为200的20岁男性随机样本,记录他们的身高和体重;得体重对身高的回归为:其中体重的单位是英镑,身高的单位是英寸;(1) 身高为70英寸的人,其体重的回归预测值是多少65英寸的呢74英寸的呢(2) 某人发育较晚,一年里蹿高了英寸;则根据回归预测体重增加多少 (3) 解释系数值和的含义;(4)假定不用英镑和英寸度量体重和身高而分别用厘米和千克,则这个新的厘米-千克回归估计是什么给出所有结果,包括回归系数估计值,R2和SER;(5)基于回归方程,能对一个3岁小孩的体重假设身高1米作出可靠预测吗9、假设某研究使用250名男性和280名女性工人的工资Wage数据估计出如下OLS回归:标准误其中WAGE的单位是美元/小时,Male为男性=1,女性=0的虚拟变量;用男性和女性的平均收入之差定义工资的性别差距;1性别差距的估计值是多少2计算截距项和Male系数的t统计量,估计出的性别差距统计显着不为0吗5%显着水平的t统计量临界值为3样本中女性的平均工资是多少男性的呢4对本回归的R2你有什么评论,它告诉了你什么,没有告诉你什么这个很小的R2可否说明这个回归模型没有什么价值5另一个研究者利用相同的数据,但建立了WAGE对Female的回归,其中Female为女性=1,男性=0的变量;由此计算出的回归估计是什么10、基于美国CPS人口调查1998年的数据得到平均小时收入对性别、教育和其他特征的回归结果,见下表;该数据集是由4000名全年工作的全职工人数据组成的;其中:AHE=平均小时收入;College=二元变量大学取1,高中取0;Female女性取1,男性取0;Age=年龄年;Northeast居于东北取1,否则为0;Midwest居于中西取1,否则为0;South居于南部取1,否则为0;West居于西部取1,否则取0;表1:基于2004年CPS数据得到的平均小时收入对年龄、性别、教育、地区的回归结果概括统计量和联合检验SERR2注:括号中是标准误;(1)计算每个回归的调整R2;(2)利用表1中列1的回归结果回答:大学毕业的工人平均比高中毕业的工人挣得多吗多多少这个差距在5%显着性水平下统计显着吗男性平均比女性挣的多吗多多少这个差距在5%显着性水平下统计显着吗(3)年龄是收入的重要决定因素吗请解释;使用适当的统计检验来回答; (4)Sally是29岁女性大学毕业生,Betsy是34岁女性大学毕业生,预测她们的收入;(5)用列3的回归结果回答:地区间平均收入存在显着差距吗利用适当的假设检验解释你的答案;(6)为什么在回归中省略了回归变量West如果加上会怎样;解释3个地区回归变量的系数的经济含义;7Juantia是南部28岁女性大学毕业生,Jennifer是中西部28岁女性大学毕业生,计算她们收入的期望差距计量经济学补充复习题一、填空题1、 计量经济学常用的三类样本数据是_横截面数据__、__时间序列数据__和_面板数据;2、虚拟解释变量不同的引入方式产生不同的作用;若要描述各种类型的模型在截距水平的差异,则以 加法形式 引入虚拟解释变量;若要反映各种类型的模型的不同相对变化率时,则以 乘法形式 引入虚拟解释变量;二、选择题1、参数的估计量βˆ具备有效性是指 BA Var βˆ=0B Var βˆ为最小C βˆ-=0D βˆ-为最小2、产量x,台与单位产品成本y, 元/台之间的回归方程为yˆ=356-,这说明 DA 产量每增加一台,单位产品成本增加356元B 产量每增加一台,单位产品成本减少元C 产量每增加一台,单位产品成本平均增加356元D 产量每增加一台,单位产品成本平均减少元3、在总体回归直线E x y10)ˆ(ββ+=中,1β表示 B A 当x 增加一个单位时,y 增加1β个单位B 当x 增加一个单位时,y 平均增加1β个单位C 当y 增加一个单位时,x 增加1β个单位D 当y 增加一个单位时,x 平均增加1β个单位4、以y 表示实际观测值,yˆ表示回归估计值,则普通最小二乘法估计参数的准则是使 DA )ˆ(i i yy -∑=0 B 2)ˆ(i i y y -∑=0 C )ˆ(i i yy -∑为最小 D 2)ˆ(i i y y -∑为最小 5、设y 表示实际观测值,yˆ表示OLS 回归估计值,则下列哪项成立 D A yˆ=y B y ˆ=y C yˆ=y D y ˆ=y 6、用普通最小二乘法估计经典线性模型t t t u x y ++=10ββ,则样本回归线通过点 DA x,yB x,yˆ C x ,yˆ D x ,y 7、判定系数2R 的取值范围是 CA 2R -1B 2R 1C 02R 1D -12R 18、对于总体平方和TSS 、回归平方和RSS 和残差平方和ESS 的相互关系,正确的是 BA TSS>RSS+ESSB TSS=RSS+ESSC TSS<RSS+ESSD TSS 2=RSS 2+ESS 29、决定系数2R 是指 CA 剩余平方和占总离差平方和的比重B 总离差平方和占回归平方和的比重C 回归平方和占总离差平方和的比重D 回归平方和占剩余平方和的比重10、如果两个经济变量x 与y 间的关系近似地表现为当x 发生一个绝对量变动x 时,y 有一个固定地相对量y/y 变动,则适宜配合地回归模型是 BA i i i u x y ++=10ββB ln i i i u x y ++=10ββC i ii u x y ++=110ββ D ln i i i u x y ++=ln 10ββ 11、下列哪个模型为常数弹性模型 AA ln i i i u x y ++=ln ln 10ββB ln i i i u x y ++=10ln ββC i i i u x y ++=ln 10ββD i ii u x y ++=110ββ 12、模型i i i u x y ++=ln 10ββ中,y 关于x 的弹性为 C A i x 1β B i x 1β C iy 1β D i y 1β 13、模型ln i i i u x y ++=ln ln 10ββ中,1β的实际含义是 BA x 关于y 的弹性B y 关于x 的弹性C x 关于y 的边际倾向D y 关于x 的边际倾向14、当存在异方差现象时,估计模型参数的适当方法是 AA 加权最小二乘法B 工具变量法C 广义差分法D 使用非样本先验信息15、加权最小二乘法克服异方差的主要原理是通过赋予不同观测点以不同的权数,从而提高估计精度,即 BA 重视大误差的作用,轻视小误差的作用B 重视小误差的作用,轻视大误差的作用C 重视小误差和大误差的作用D 轻视小误差和大误差的作用16、容易产生异方差的数据是 CA 时间序列数据B 修匀数据C 横截面数据D 年度数据17、设回归模型为i i i u x y +=β,其中var i u =22i x σ,则的最小二乘估计量为 CA. 无偏且有效 B 无偏但非有效C 有偏但有效D 有偏且非有效18、如果模型t t t u x b b y ++=10存在序列相关,则 DA cov t x ,t u =0B cov t u ,s u =0tsC cov t x ,t u 0D cov t u ,s u 0ts19、下列哪种形式的序列相关可用DW 统计量来检验i v 为具有零均值,常数方差,且不存在序列相关的随机变量 AA t t t v u u +=-1ρB t t t t v u u u +++=-- 221ρρC t t v u ρ=D ++=-12t t t v v u ρρ20、DW 的取值范围是DA -1DW0B -1DW1C -2DW2D 0 DW421、当DW =4是时,说明 DA 不存在序列相关B 不能判断是否存在一阶自相关C 存在完全的正的一阶自相关D 存在完全的负的一阶自相关22、模型中引入一个无关的解释变量 CA 对模型参数估计量的性质不产生任何影响B 导致普通最小二乘估计量有偏C 导致普通最小二乘估计量精度下降D 导致普通最小二乘估计量有偏,同时精度下降23、如果方差膨胀因子VIF =10,则认为什么问题是严重的 CA 异方差问题B 序列相关问题C 多重共线性问题D 解释变量与随机项的相关性24、某商品需求函数为i i i u x b b y ++=10,其中y 为需求量,x 为价格;为了考虑“地区”农村、城市和“季节”春、夏、秋、冬两个因素的影响,拟引入虚拟变量,则应引入虚拟变量的个数为 BA 2B 4C 5D 625、根据样本资料建立某消费函数如下:tC ˆ=+tD +t x ,其中C 为消费,x 为收入,虚拟变量D =农村家庭城镇家庭⎩⎨⎧01,所有参数均检验显着,则城镇家庭的消费函数为AA t C ˆ=+t xB tC ˆ=+t xC t C ˆ=+t xD tC ˆ=+t x 26、假设某需求函数为i i i u x b b y ++=10,为了考虑“季节”因素春、夏、秋、冬四个不同的状态,引入4个虚拟变量形式形成截距变动模型,则模型的 DA 参数估计量将达到最大精度B 参数估计量是有偏估计量C 参数估计量是非一致估计量D 参数将无法估计27、对于模型i i i u x b b y ++=10,为了考虑“地区”因素北方、南方,引入2个虚拟变量形式形成截距变动模型,则会产生 DA 序列的完全相关B 序列不完全相关C 完全多重共线性D 不完全多重共线性28、如果一个回归模型中不包含截距项,对一个具有m 个特征的质的因素要引入虚拟变量的数目为 AA mB m-1C m-2D m+129、某一时间序列经一次差分变换成平稳时间序列,此时间序列称为A;A .1阶单整B .2阶单整C .K 阶单整D .以上答案均不正确30、当随机误差项存在自相关时,进行单位根检验是由B 来实现;A . DF 检验B .ADF 检验C .EG 检验D .DW 检验三、多项选择题:1、一元线性回归模型t t t u x y ++=10ββ的经典假设包括 ABCDEA 0)(=t u EB 2)(σ=t u Var 常数C 0),cov(=j i u uD t u ~N0,1E x 为非随机变量,且0),cov(=t t u x2、以带“”表示估计值,u 表示随机误差项,如果y 与x 为线性相关关系,则下列哪些是正确的 BEA t t x y 10ββ+=B t t t u x y ++=10ββC t t t u x y ++=10ˆˆββD tt t u x y ++=10ˆˆˆββ E tt x y 10ˆˆˆββ+= 3、用普通最小二乘法估计模型t t t u x y ++=10ββ的参数,要使参数估计量具备最佳线性无偏估计性质,则要求: ABCDEA 0)(=t u EB 2)(σ=t u Var 常数C 0),cov(=j i u uD t u 服从正态分布E x 为非随机变量,且0),cov(=t t u x4、假设线性回归模型满足全部基本假设,则其参数估计量具备 CDEA 可靠性B 合理性C 线性D 无偏性E 有效性5、下列哪些非线性模型可以通过变量替换转化为线性模型 ABC A i i i u x y ++=210ββ B i ii u x y ++=110ββ C ln i i i u x y ++=ln 10ββ D i i i u x y ++=210ββE i i i i u x y ++=ββ06、异方差性将导致 BCDEA 普通最小二乘估计量有偏和非一致B 普通最小二乘估计量非有效C 普通最小二乘估计量的方差的估计量有偏D 建立在普通最小二乘估计基础上的假设检验失效E 建立在普通最小二乘估计基础上的预测区间变宽7、当模型中解释变量间存在高度的多重共线性时 ACDA 各个解释变量对被解释变量的影响将难于精确鉴别B 部分解释变量与随机误差项之间将高度相关C 估计量的精度将大幅下降D 估计量对于样本容量的变动将十分敏感E 模型的随机误差项也将序列相关8、下述统计量可以用来检验多重共线性的严重性 ACDA 相关系数B DW 值C 方差膨胀因子D 特征值E 自相关系数三、判断题1、随机误差项u i 与残差项e i 是一回事; F2、当异方差出现时,常用的t 检验和F 检验失效; T3、在异方差情况下,通常预测失效; T四、计算分析题1、指出下列模型中的错误,并说明理由;1 tt Y C 2.1180ˆ+= 其中,C 、Y 分别为城镇居民的消费支出和可支配收入;2 tt t L K Y ln 28.0ln 62.115.1ˆln -+= 其中,Y 、K 、L 分别为工业总产值、工业生产资金和职工人数;2、对下列模型进行适当变换化为标准线性模型:(1) y =0β+1βx 1+2β21x +u ; (2) Q =A u e L K βα;(3) Y =exp 0β+1βx+u ;3、一个由容量为209的样本估计的解释CEO 薪水的方程为:其中,Y 表示年薪水平单位:万元, 1X 表示年收入单位:万元, 2X 表示公司股票收益单位:万元; 321D D D ,,均为虚拟变量,分别表示金融业、消费品工业和公用事业;假设对比产业为交通运输业;(1) 解释三个虚拟变量参数的经济含义;(2) 保持1X 和2X 不变,计算公用事业和交通运输业之间估计薪水的近似百分比差异;这个差异在1%的显着性水平上是统计显着吗消费品工业和金融业之间估计薪水的近似百分比差异是多少。
第六章 带有线性约束的多元线性回归模型及其假设检验在本章中,继续讨论第五章的模型,但新的模型中,参数β满足J 个线性约束集,R β=q ,矩阵R 有和β相一致的K 列和总共J 个约束的J 行,且R 是行满秩的,我们考虑不是过度约束的情况,因此,J <K 。
带有线性约束的参数的假设检验,我们可以用两种方法来处理。
第一个方法,我们按照无约束条件求出一组参数估计后,然后我们对求出的这组参数是否满足假设所暗示的约束,进行检验,我们在本章的第一节中讨论。
第二个方法是我们把参数所满足的线性约束和模型一起考虑,求出参数的最小二乘解,尔后再作检验,后者就是参数带有约束的最小二乘估计方法,我们在本章的第二节中讨论。
第一节 线性约束的检验 从线性回归模型开始,εβ+=X y (1)我们考虑具有如下形式的一组线性约束,JK JK J J K K K K q r r r q r r r q r r r =+++=+++=+++βββββββββ22112222212*********这些可以用矩阵改写成一个方程q R =β (2)作为我们的假设条件0H 。
R 中每一行都是一个约束中的系数。
矩阵R 有和β相一致的K 列和总共J 个约束的J 行,且R 是行满秩的。
因此,J 一定要小于或等于K 。
R 的各行必须是线性无关的,虽然J =K 的情况并不违反条件,但其唯一决定了β,这样的约束没有意义,我们不考虑这种情况。
给定最小二乘估计量b ,我们的兴趣集中于“差异”向量d=Rb -q 。
d 精确等于0是不可能的事件(因为其概率是0),统计问题是d 对0的离差是否可归因于抽样误差或它是否是显著的。
由于b 是多元正态分布的,且d 是b 的一个线性函数,所以d 也是多元正态分布的,若原假设为真,d 的均值为0,方差为R X X R R b Var R q Rb Var d Var ''='=-=-12)(])[(][][σ (3)对H 0的检验我们可以将其基于沃尔德(Wald )准则:d d Var d J W 12])[()(-'==χ=)(])([)(112q Rb R X X R q Rb -'''---σ (4)在假设正确时将服从自由度为J 的2χ分布(为什么?)。
直觉上,d 越大,即最小二乘满足约束的错误越大,则2χ统计量越大,所以,一个大的2χ值将加重对假设的怀疑。
⎪⎭⎫⎝⎛'⎪⎭⎫ ⎝⎛='=-σεσεσσM ee sK n 222)( (5) 由于σ未知,(4)中的统计量是不可用的,用s 2替代σ2,我们可以导出一个F[J ,(n -K )]样本统计量,令)/(]/)[(/)(])([)(22112K n s K n Jq Rb R X X R q Rb F ---'''-=--σσ (6)分子是(1/J )乘(4)中的W ,分母是1/(n -K )乘(5)中的幂等二次型。
所以,F 是两个除以其自由度的卡方变量的比率。
如果它们是独立的,则F 的分布是F[J ,(n -K )],我们前边发现b 是独立于s 2的,所以条件是满足的。
我们也可以直接推导。
利用(5)及M 是幂等的这一事实,我们可以把F 写为)/()]/([])/([/}/)({])([}/)({11K n M M Jb R R X X R b R F -'-'''-=--σεσεσβσβ (7)由于⎪⎭⎫ ⎝⎛=⎪⎭⎫ ⎝⎛''=--σεσεσβT X X X R b R 1)()(F 统计量是)/(σε的两个二次型的比率,由于M )/(σε和T )/(σε都服从正态分布且它们的协方差TM 为0,所以二次型的向量都是独立的。
F 的分子和分母都是独立随机向量的函数,因而它们也是独立的。
这就完成了证明。
消掉(6)中的两个σ2,剩下的是检验一个线性假设的F 统计量,)/(/)(])([)(11K n e e Jq Rb R X X R q Rb F -'-'''-=--Jq Rb R X X R s q Rb )(])([)(112-'''-=-- (8)我们将检验统计量Jq Rb R X X s R q Rb K n J F )(}])([{)(],[112-'''-=---和F 分布表中的临界值相比较,一个大的F 值是反对假设的证据。
注意:将wald 统计量中的2σ用2s 去替代,相应的就将J 维的卡方分布转换为维度为(J,n-K )的F 分布。
第二节 参数带有约束的最小二乘估计 一、带有约束的最小二乘函数在许多问题中,要求其中的未知参数β满足某特定的线性约束条件:R β=q ,这里R是J ×K 矩阵(J <K ),并假定它的秩为J 维向量,常常希望求β的估计βˆ,使得 2}:{2minˆββββX Y X Y q R -=-= (9)满足条件(9)的称为β的具有线性约束R β=q 的最小二乘估计。
解βˆ的问题实际上是在约束条件 R β=q下求 ∑∑==⎪⎪⎭⎫ ⎝⎛-=-=ni mj j ij i x Y X Y f 1212ββ的限制极值点问题。
这个问题的一个拉格朗日解可写作)(2)()(*q R X y X y S-'+-'-=βλββ解b *和λ将满足必要条件02)(2**='+-'-=∂∂λβR Xb y X S0)(2**=-=∂∂q Rb Sλ展开可以得到分块矩阵方程⎥⎦⎤⎢⎣⎡'=⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡''q y X b RR X X λ*0 或Wd *=v假定括号中的分块矩阵是非奇异的,约束最小二乘估计量d *=W -1v ⎥⎦⎤⎢⎣⎡=λ*b其中⎪⎪⎭⎫⎝⎛--=--------------11111111111111)')'(()'()')'(()')'((')'()'()')'((')'()'(R X X R X X R R X X R R X X R R X X X X R R X X R R X X X X W此外,若X ′X 是非奇异的,则用分块逆公式可以得到b *和λ的显示解 )(])([)()')'((')'()')'((')'(')'()')'((')'()(')'()')'((')'(')'()')'((')'(')'()')'((')'(')'(11111111111111111111111111*q Rb R X X R R X X b qR X X R R X X Rb R X X R R X X y X X X qR X X R R X X e Xb X X X R R X X R R X X y X X X qR X X R R X X y X X X R R X X R R X X y X X X b -''''-=+-=++-=+-=--------------------------和)(])([11q Rb R X X R -''=--λ格林和西克斯(1991)表明b *的协方差矩阵简单地就是2σ乘以W -1的左上块,在X ′X 是非奇异的通常情况下,再一次可以得到一个显性公式1111212*)(])([)()(][-----'''''-'=X X R R X X R R X X X X b Var σσ,这样,-=][][*b Var b Var (一个非负定矩阵), Var[b *]的方差比Var[b]小的一个解释是约束条件提供了更多的信息价值。
二、对约束的检验的另一个方法令**Xb y e -=,我们来计算新的离差平方和**e e '。
)()(***b b X e b b X Xb y e --=---=则新的离差平方和是e e b b X X b b e e e e '≥-''-+'=')()(****22~'k n ee -χσ2)(2**~'J k n e e --χσ因为新的模型中参数的个数为k-J 个,J 个约束条件是原模型中的J 个参数可以被其他k-J 个表示。
(此表达式中的中间项含有X ′e ,它是0)。
这说明我们可以将一个约束检验基于拟合的损失。
这个损失是,)(])([)(11**q Rb R X X R q Rb e e e e -'''-='-'-- 这出现在前边推导的F 统计量的分子上,我们得到统计量的另一个可选形式。
可选形式是)/(/)(],[**K n e e J e e e e K n J F -''-'=-最后,以SST=2)(y y -∑除F 的分子和分母,我们得到第三种形式,)/()1(/)(],[22*2K n R JR RK n J F ---=-由于两个模型的拟合之差直接体现在检验统计量中,这个形式具有一些直观吸引力。
[实例]对数变换生产函数所有科布—道格拉斯模型的一般化是如下的对数变换模型,εββββββ++++++=2ln ln 2ln2lnln ln ln 62524321KL KLK L Y (10)无约束回归的结果在表1中给出。
表1 无约束回归的结果回归标准误差 0.17994 残差平方和 0.67993 R 平方 0.95486 调整R 平方0.94411变量 系数 标准误差 t 值 常数项 0.944216 2.911 0.324 LnL 3.61363 1.548 2.334 LnK-1.89311 1.016 -1.863 L 2ln 21 -0.96406 0.7074 -1.363 K 2ln210.08529 0.2926 0.291 lnL ×lnK 0.31239 0.4389 0.71 系数估计量的估计协方差矩阵常数项 lnL lnK Ln2L/2Ln2K/2lnL ×lnK常数项 8.472 LnL -2.388 2.397LnK-0.3313 -1.231 1.033 L 2ln 21 -0.08760 -0.6658 0.5231 0.5004 K 2ln210.2332 0.03477 0.02637 0.1467 0.08562 lnL ×lnK 0.36350.1831-0.2255-0.2880-0.11600.1927考虑了约束条件0654===βββ的模型就可以得到科布一道格拉斯模型:εβββ+++=K L Y ln ln ln 321 (11)这是一个条件约束下的无条件的多元线性回归模型。