计量经济学讲义第六讲(共十讲)
- 格式:doc
- 大小:552.50 KB
- 文档页数:15
计量经济学讲义第一部分:引言计量经济学是研究经济现象的量化方法,它结合了统计学和经济学原理,旨在提供对经济现象进行定量分析的工具和技术。
本讲义将介绍计量经济学的基本概念和方法,帮助读者理解和应用计量经济学的基本原理。
第二部分:经济数据和计量经济学模型1. 经济数据的类型- 我们将介绍经济数据的两种主要类型:时间序列数据和截面数据。
时间序列数据是在一段时间内收集的数据,而截面数据是在同一时间点上收集的数据。
2. 计量经济学模型- 我们将讨论计量经济学模型的基本原理和应用,例如最小二乘法和线性回归模型。
这些模型可以帮助我们分析经济数据之间的关系,并进行预测和政策评估。
第三部分:经济数据的描述性统计分析1. 描述性统计分析的概念- 我们将介绍描述性统计分析的基本概念和方法,包括中心趋势测量、离散度测量和分布形态测量。
这些方法可以帮助我们理解和总结经济数据的基本特征。
2. 经济数据的描述性统计分析实例- 我们将通过实例演示如何使用描述性统计分析方法来分析和解释经济数据。
例如,我们可以使用均值和方差来描述一个国家的经济增长和收入分配。
第四部分:计量经济学的统计推断1. 统计推断的概念- 我们将讨论统计推断的基本概念和方法,包括假设检验和置信区间。
这些方法可以帮助我们从样本数据中推断总体参数,并评估推断的精度和可靠性。
2. 统计推断的实例- 我们将通过实例演示如何使用统计推断方法来研究和解释经济现象。
例如,我们可以使用假设检验来判断一个政策措施对经济增长的影响。
第五部分:计量经济学的回归分析1. 单变量线性回归模型- 我们将介绍单变量线性回归模型的基本原理和应用。
这个模型可以帮助我们分析一个因变量和一个自变量之间的关系,并进行预测和政策评估。
2. 多变量线性回归模型- 我们将讨论多变量线性回归模型的基本原理和应用。
这个模型可以帮助我们分析多个自变量对一个因变量的影响,并进行政策评估和变量选择。
第六部分:计量经济学的时间序列分析1. 时间序列模型的基本概念- 我们将介绍时间序列模型的基本概念和方法,包括自回归模型和移动平均模型。
计量经济学第一章绪论目前,在经济学、管理学以及一些相关学科的研究中,定量分析用得越来越多。
所谓定量分析,即揭示经济活动中客观存在的数量关系。
定量分析方法统计分析方法:一元多元经济计量分析方法:以模型为基础时间序列分析方法:动态时间序列§1.1 计量经济学及其模型概述一、计量经济学计量经济学的诞生计量经济学“Econometrics”一词最早是由挪威经济学家弗里希(R.Frish)于1926年仿照“Biometrics”(生物计量学)提出来的,这标志着计量经济学的诞生。
弗里希将计量经济学定义为经济学、统计学和数学三者的结合。
计量经济学的定义计量经济学是以经济理论为指导,以经济事实为依据,以数学、统计学为方法,以计算机为手段;主要从事经济活动的数量规律研究,并以建立、检验和运用计量经济学模型为核心的一门经济学学科。
二、计量经济学模型模型,是对现实的描述和模拟。
模型分类语义模型:语言文字。
物理模型:简化的实物。
几何模型:几何图形。
数学模型:数学公式。
计算机模拟模型:计算机模拟技术。
计量经济学模型属于经济数学模型,即用数学公式来描述经济活动。
例:生产函数经济数学模型是建立在经济理论的基础之上的。
生产理论:“在供给不足的条件下,产出由资本、劳动、技术等投入要素决定,随着各投入要素的增加,产出也随之增加,但要素的边际产出递减。
” 建立初始模型初始模型的特点模型描述了经济变量之间的理论关系;通过模型可以分析经济活动中各因素之间的相互影响,从而为控制经济活动提供理论指导;认为这种关系是准确实现的;模型并没有揭示各因素之间的定量关系,因为参数未知。
模型的改进以1964-1984年我国工业生产活动的数据作为样本,估计得到:改进模型的特点1.用随机性的数学方程描述现实的经济活动与经济关系。
2.揭示了经济活动中各因素之间的定量关系。
3.可用于对研究对象进行深入的研究,如结构分析、生产预测等。
初始模型——数理经济学模型数理经济学模型:由确定性的数学方程所构 成,用以揭示经济活动中各因素间的理论关系。
第一章绪论第一节什么是计量经济学计量经济学含义.计量经济学是一个迅速发展的经济学分支,其目标是给出经济关系的经济内容。
.计量经济学可以定义为实际经济现象的定量分析,这种分析根据的是适当推断方法联系在一起的理论和观测的即时发展。
计量经济学运用数理统计知识分析经济数据,对构建于数理经济学基础上的数学模型提供经验支持,并得出数量结果。
.计量经济学是将经济理论、数学方法和统计推断等工具应用于经济现象分析的社会科学。
第二节计量经济学方法计量经济学方法的内容计量经济学研究包括两个基本要素:经济理论和事实。
将经济理论与现实情况结合起来,用统计技术估计经济关系。
最可用的形式就是模型。
计量经济分析步骤.陈述理论。
例如有关价格变动与需求量之间的关系的经济理论:在其他条件不变的情况下,一商品的价格上升(下降),则对该商品的需求量减少(增加)。
建立计量经济模型⑴需求函数的数学模型例如线性函数模型。
如果需求量与价格之间的关系式线性的,则数学上需求函数可以表示为Q P αβ=+()αβ和称为该函数的参数。
等号左边的变量称为因变量或被解释变量,等号右边的变量称为自变量或解释变量。
⑵计量经济模型式()假定需求量与价格之间的关系是一种确定关系,而现实的经济变量之间,极少有这种关系,更常见的是一种不确定性关系(见散点图),线性模型应该为Q P αβε=++()ε是随机扰动项。
收集数据估计计量经济模型中的参数之前,必须得到适当的数据。
在经验分析中常用的数据有两种:时间序列数据(纵向数据)和横截面数据(横向数据)。
有时会同时出现前面的纵向数据和横向数据,称之为混合数据。
面板数据是混合数据的一种特殊类型。
估计参数如利用收集的数据估计出式()中的参数,得回归模型76.05 3.88Q P =-()假设检验对回归模型以及模型中的系数进行检验。
预测和政策分析例如在回归模型()中,想预测价格时的需求量值时,则有76.05 3.8876.05 3.88 4.558.59Q P =-=-⨯=第二章线性回归分析第一节线性回归概述2.1.1回归模型简介如果(随机)变量y 与12,,,p x x x L存在相关关系12(,,,)p y f x x x ε=+L (2.1.1)其中y 是可观测的随机变量,12,,,p x x x L 为一般变量,ε是不可观测的随机变量;y 称为因变量(被解释变量),12,,,p x x x L 称为自变量(解释变量),ε称为随机误差。
第一讲 普通最小二乘法的代数一、 问题假定y 与x 具有近似的线性关系:01y x ββε=++,其中ε是随机误差项。
我们对01ββ、这两个参数的值一无所知。
我们的任务是利用样本数据去猜测01ββ、的取值。
现在,我们手中就有一个样本容量为N 的样本,其观测值是:1122(,),(,),...,(,)N N y x y x y x 。
问题是,如何利用该样本来猜测01ββ、的取值?为了回答上述问题,我们可以首先画出这些观察值的散点图(横轴x ,纵轴y )。
既然y 与x 具有近似的线性关系,那么我们就在图中拟合一条直线:01ˆˆˆy x ββ=+。
该直线是对y 与x 的真实关系的近似,而01ˆˆ,ββ分别是对01,ββ的猜测(估计)。
问题是,如何确定0ˆβ与1ˆβ,以使我们的猜测看起来是合理的呢?笔记:1、为什么要假定y 与x 的关系是01y x ββε=++呢?一种合理的解释是,某一经济学理论认为x 与y 具有线性的因果关系。
该理论在讨论x 与y 的关系时认为影响y 的其他因素是不重要的,这些因素对y 的影响即为模型中的误差项。
2、01y x ββε=++被称为总体回归模型。
由该模型有:01E()E()y x x x ββε=++。
既然ε代表其他不重要因素对y 的影响,因此标准假定是:E()0x ε=。
故进而有:01E()y x x ββ=+,这被称为总体回归方程(函数),而01ˆˆˆy x ββ=+相应地被称为样本回归方程。
由样本回归方程确定的ˆy与y 是有差异的,ˆy y -被称为残差ˆε。
进而有:01ˆˆˆy x ββε=++,这被称为样本回归模型。
二、 两种思考方法法一:12(,,...,)N y y y '与12ˆˆˆ(,,...,)N y y y '是N 维空间的两点,0ˆβ与1ˆβ的选择应该是这两点的距离最短。
这可以归结为求解一个数学问题:由于ˆi i y y -是残差ˆi ε的定义,因此上述获得0ˆβ与1ˆβ的方法即是0ˆβ与1ˆβ的值应该使残差平方和最小。
第一章绪论§计量经济学一、计量经济学的产生与发展计量经济学是经济学的一个分支,是以揭示经济活动中的客观存在的数量关系为容的分支学科。
其创立者R.弗里希将其定义为经济理论、统计学、数学三者的结合,但它又完全不同于这三个学科的每一个分支。
计量经济学(Econometrics)1926年由挪威经济学家弗里希(R.Frish)仿造生物计量学(Biometrics)一词提出的。
1930年12月弗里希、丁百根和费歇耳等经济学家在美国克利夫兰市成立经济计量学会。
1933年出版《计量经济学杂志》在发刊词中弗里希将计量经济学定义为:经济理论、数学、统计学的结合。
计量经济学的学术渊源和社会历史根源:17世纪英国经济学家威廉.配弟在《政治算术》一书中应用“数字、重量或尺度”来阐述经济现象19世纪法国经济学家古尔诺《财富理论的数学原理研究》中认为:某些经济畴、需求、价格、供给可以视为互为函数关系,从而有可能用一系列的函数方程表述市场中的关系,并且可以用数学语言系统地阐述某些经济规律(数理学派的奠基者)其后瑞士经济学家瓦尔拉斯创立了一般均衡理论,利用联立方程研究一般均衡的决定条件(洛桑学派的先驱)意大利经济学家帕累托发展了一般均衡理论。
用立体几何研究经济变量之间的关系。
1890年(剑桥学派的创始人)马歇尔的《经济学原理》的问世,使数学成为经济学研究不可缺少的描述与分析推理的工具为计量经济学奠定了基础计量经济学从二十世纪三十年代诞生起就显示了极强的生命力。
一方面出于对经济的干预政策的需要,许多国家都广泛采用经济计量理论和方法,进行经济预测,加强市场研究,探讨经济政策的效果。
另一方面随着科学技术的发展与进步,各门科学相互协作、相互渗透,计算机科学、数学、系统论、信息论、控制论等相继进入了经济研究领域。
特别是计算机技术的高速发展为计量经济学广泛应用铺平了道路。
计量经济学的发展过程是计量经济模型的建立、应用和发展的过程。
第六讲 多重共线一、 FWL 定理及其应用考虑模型:112233i i i i i y a b x b x b x ε=++++ (1)假如我们只关注1ˆb,则通过如下步骤可以获得之。
第1步:把1x 对其他解释变量进行回归(请注意,截距所对应的解释变量为1),即有: 101223ˆˆˆˆi i i ix x x v βββ=+++ (2)第2步:把y 也对(2)中的解释变量进行回归,即有:01223ˆˆˆˆi i i i y x x w ϕϕϕ=+++ (3)第3步:把ˆw 对ˆv 进行回归(不含截距,当然你可以包含截距,但你会发现,截距的估计结果是零,这是因为ˆw 与ˆv 其均值都为零),即有模型:ˆˆi i i ve w η=+ (4) 则有:2ˆˆˆˆi i iw v v η=∑∑,可以验证,1ˆˆb η=,且残差ˆi e 等于初始的残差ˆi ε。
此即著名的FWL 定理(Frisch-Waugh-Lovell theorem )。
关于FWL 定理的一个简单证明见附录1。
思考题:利用关于“偏导数”的直觉,你能够理解1ˆˆb η=吗? 考察2ˆˆˆˆi i iw v v η=∑∑,把01223ˆˆˆˆi i i i y x x w ϕϕϕ=---代入,现在分子是:2012230123ˆˆˆˆ()ˆˆˆˆˆˆˆˆˆi i i i i i i ii i i v x i i y x x y v x v v v wv ϕϕϕϕϕϕ------∑∑∑==∑∑∑应该注意到,在进行第一步回归时,OLS 法保证了203ˆˆˆi i i i i v x x vv ===∑∑∑ 因此,22ˆˆˆˆˆˆi i i i i iw v y v v v η==∑∑∑∑ 显然,如果把y 对ˆv 直接进行无截距回归:*ˆiiiy v ης=+ (5)我们也可以得到:*122ˆˆˆˆˆˆˆi i i i i i y v w v b v vηη====∑∑∑∑。
计量经济学讲义虚拟变量回归模型12/2/2013赵丽君安徽大学经济学院虚拟变量回归模型本章主要讨论:●虚拟变量基本概念虚拟变量设置规则●虚拟解释变量的回归加法类型乘法类型虚拟解释变量综合应用●虚拟被解释变量的回归虚拟变量回归模型一、学习要求本章我们将介绍如何将取值为0、1的虚拟变量引入模型并使模型更加丰富和完善。
我们通过不同的例子说明了虚拟变量本质上是“变量分类器”。
学习完本章应该能够掌握变量本质上是“变量分类器”学习完本章应该能够掌握以下知识点:第一,如果回归模型包括了一个常数项,那么虚拟变量的个数必须比每个定性变量的分类数少一个么虚拟变量的个数必须比每个定性变量的分类数少一个;第二,虚拟变量的系数必须与基准类相关——取值为零的类。
第三,若模型中包括多个虚拟变量,且每个虚拟变一类。
第三,若模型中包括多个虚拟变量,且每个虚拟变量都有多个分类,则引入模型的虚拟变量的个数不能超过样本观测值的个数。
虚拟变量回归模型二、重点与难点(1)能够理解虚拟变量的性质。
(2)能够正确引入虚拟变量。
(2)能够正确引入虚拟变量(3)能够正确估计虚拟变量的系数。
(4)能够熟练应用虚拟变量的方法解决实际定性变量引入回()能够熟练应用虚拟变量的方法解决实际定性变量引入回归模型的问题。
61-引入:男女消费真有差异吗?消费行为是人类行为的重要组成部分,研究其规律和特点将会加深对6.1虚拟变量回归模型引入:男女消费真有差异吗?整个人类行为规律的理解,其研究的实际意义也是多方面的(指导设计新产品和改进现有产品;有效地制定市场策略;为政府部门制定保护消费者利益的政策和法律提供科学资料等)。
女性食品支出女性收入男性食品支出男性收入男女食品消费支出差异分析-例1(支出、收入单位为美元)年龄女性食支女性收男性食支男性收< 2519831155722301158925-3429872938737573332835-4429933146338213615145-54315629554329135448556455-64270625137342932988> 65221714952253320437显然,男女在食品消费上存在差异。
计量经济学讲稿第一章计量经济学概述1.1 什么是计量经济学一、计量经济学的产生计量经济学作为一门独立的学科产生于二十世纪30年代,是由挪威经济学家、第一届诺贝尔经济学奖得主R. Frisch 1926年仿照生物计量学一词提出来的。
半个多世纪以来,这门科学主要在资本主义中得到了发展,而且在理论和应用两个方面都取得了长足的进步。
今天的计量经济学已成为西方国家经济学的一个重要分支,其实用价值也正在越来越广泛的范围内表现出来。
著名经济学家诺贝尔经济学奖获得者萨谬尔森增经说:“第二次世界大战后的经济是经济计量的时代。
”我们不妨看看从1969年设立诺贝尔经济学奖起至1989年20年中共有27位获奖者,其中有15位是计量经济学家。
他们中有10位曾担任过世界计量经济学会会长,有4位是因为在计量经济学研究与应用方面有突出贡献而获奖。
这从一个侧面反映了计量经济学在经济科学中的地位。
1930年12月29日,一些国家的经济学家在美国成立了国际计量经济学会,学会的宗旨是“为了促进经济理论在与统计学和数学的结合中发展的国际学会”。
1933年该学会创办了会刊——《计量经济学》杂志。
R. Frisch在发刊词中有一段话:“用数学方法探讨经济学可以从好几个方面着手,但任何一方面都不能与计量经济学混为一谈。
计量经济学与经济统计学决非一码事;它也不同于我们所说的一般经济理论,尽管经济理论大部分都具有一定的数量特征;计量经济学也不应视为数学应用于经济学的同义词。
经验表明,统计学、经济理论和数学这三者对于真正了解现代经济生活中的数量关系来说,都是必要的。
三者结合起来,就有力量,这种结合便构成了计量经济学”。
计量经济学主要是以模型来研究经济现象,这种模型实际上是一组方程,模型所使用的数据有时间序列数据和截面数据1等。
这些数据不是从实验中得到的结果,而是经济学家被动的观测到的经济变量数据资料,而且经济变量大都是不独立的,因此,使得在经济分析中应用统计方法受到一定的限制。
《计量经济学》课程课外辅导讲稿注:本辅导主要针对教学内容中的重点及难点部分进行辅导,不是以针对考试内容为主的考前辅导。
(关键在对知识的理解→掌握→应用) 本课程的主要内容有:第2章:线性回归的基本思想:双变量模型第3章:双变量模型:假设检验 第4章:多元回归:估计与假设检验 第5章:回归方程的函数形式第6章:虚拟变量回归模型第7章:模型选择:标准与检验(民族班可略) 第8章:多重共线性第9章:异方差 第10章:自相关第一次辅导课内容:第2章:线性回归的基本思想:双变量模型第3章:双变量模型:假设检验 第4章:多元回归:估计与假设检验一、古典线性回归模型的基本形式(注意随机误差项的构成) 二、古典线性回归模型的基本假定假定1 回归模型是参数线性的,并且是正确设定的。
假定2 解释变量与随机扰动项u 不相关(解释变量是确定性变量时自然成立); 假定3 零均值假定: E(u)=0假定4 同方差假定: Var(u i)=常数假定5 无自相关假定:Cov(u,u)=0 i≠j假定 6 假定随机项误差u服从均值为零,(同)方差为常数的正态分布:),0(~2σNui假定7 解释变量之间不存在线性相关关系;注意:线性回归模型中线性的含义:一般的线性指的是解释变量线性和参数线性。
我们这里的线性强调的是参数线性。
三、古典线性回归模型的参数估计1.参数估计的方法:普通最小二乘法(OLS)2.最小二乘原理:就是选择合适参数使得全部观察值的残差平方和(RSS)最小,数学形式为:利用极值原理可得到正规方程组,求解可得:3.OLS估计量的性质:高斯-马尔柯夫定理:若满足古典线性回归模型的基本假定,则在所有线性无偏估计量中,OLS估计量具有最小方差性,即:OLS估计量是最优线性无偏估计量(BLUE)。
4.OLS估计量的分布:因为随机扰动项的正态分布假定,所以Y服从正态分布,而OLS估计量b1和b2又是正态变量Y的线性函数,所以b1和b2也服从正态分布。
计量经济学课件完整版计量经济学课件完整版一、课程简介计量经济学是经济学领域的一门重要学科,它利用数学、统计学和经济学等学科的知识和方法,对经济现象进行量化和分析。
本课程将系统地介绍计量经济学的基本概念、方法和应用,旨在帮助学生掌握计量经济学的理论和实践技能,为进一步学习和研究经济学打下坚实的基础。
二、课程内容本课程共分为八个单元,包括:1、回归分析基础2、模型选择与优化3、时间序列分析4、面板数据分析5、多元回归分析6、离散选择模型7、因子分析8、协整分析每个单元都包括理论讲解、案例分析、软件操作和习题等内容,让学生全面了解和掌握计量经济学的方法和技术。
三、课程安排本课程共36学时,安排如下:1、理论讲解(20学时)2、软件操作与实践(10学时)3、习题课与答疑(6学时)四、教学目的通过本课程的学习,学生将能够:1、掌握计量经济学的基本概念和方法;2、熟练运用常用的计量经济学软件进行数据分析;3、了解计量经济学在经济学领域的应用;4、提高解决实际问题的能力,为未来的学习和工作打下基础。
五、教学方法本课程采用多种教学方法,包括:1、课堂讲解:教师通过讲解和演示,帮助学生掌握计量经济学的基本理论和方法;2、案例分析:通过分析实际案例,让学生了解计量经济学在实践中的应用;3、小组讨论:学生分组进行讨论和交流,加深对课程内容的理解;4、实践操作:通过上机实践,让学生掌握计量经济学软件的操作技巧。
六、考核方式本课程的考核方式包括:1、平时作业:完成课程对应的练习题和思考题,占总成绩的30%;2、期中考试:进行期中考试,考核学生对课程内容的掌握情况,占总成绩的30%;3、期末考试:进行期末考试,全面考核学生对课程内容的理解和应用能力,占总成绩的40%。
七、参考资料本课程推荐以下参考书籍:1、《计量经济学基础》(作者:高铁梅);2、《计量经济学》(作者:斯托克);3、《应用计量经济学》(作者:詹姆斯·H·斯托克等)。
第六讲 多重共线一、 FWL 定理及其应用考虑模型:112233i i i i i y a b x b x b x ε=++++ (1)假如我们只关注1ˆb,则通过如下步骤可以获得之。
第1步:把1x 对其他解释变量进行回归(请注意,截距所对应的解释变量为1),即有: 101223ˆˆˆˆi i i ix x x v βββ=+++ (2)第2步:把y 也对(2)中的解释变量进行回归,即有:01223ˆˆˆˆi i i i y x x w ϕϕϕ=+++ (3)第3步:把ˆw 对ˆv 进行回归(不含截距,当然你可以包含截距,但你会发现,截距的估计结果是零,这是因为ˆw 与ˆv 其均值都为零),即有模型:ˆˆi i i ve w η=+ (4) 则有:2ˆˆˆˆi i iw v v η=∑∑,可以验证,1ˆˆb η=,且残差ˆi e 等于初始的残差ˆi ε。
此即著名的FWL 定理(Frisch-Waugh-Lovell theorem )。
关于FWL 定理的一个简单证明见附录1。
思考题:利用关于“偏导数”的直觉,你能够理解1ˆˆb η=吗? 考察2ˆˆˆˆi i iw v v η=∑∑,把01223ˆˆˆˆi i i i y x x w ϕϕϕ=---代入,现在分子是:2012230123ˆˆˆˆ()ˆˆˆˆˆˆˆˆˆi i i i i i i ii i i v x i i y x x y v x v v v wv ϕϕϕϕϕϕ------∑∑∑==∑∑∑应该注意到,在进行第一步回归时,OLS 法保证了203ˆˆˆi i i i i v x x vv ===∑∑∑ 因此,22ˆˆˆˆˆˆi i i i i iw v y v v v η==∑∑∑∑ 显然,如果把y 对ˆv 直接进行无截距回归:*ˆiiiy v ης=+ (5)我们也可以得到:*122ˆˆˆˆˆˆˆi i i i i i y v w v b v vηη====∑∑∑∑。
因此,如果只关注如何获得1ˆb ,我们可以把FWL 定理中第二步与第三步合并为把y 对ˆv 直接进行无截距回归。
思考题:ˆiς与ˆi e 相等吗?提示:ˆˆˆˆˆˆˆi i i e v i i iw y v ηςη--== 注意到,2ˆiv ∑是(2)中的残差平方和,对(2),有: 2221111()()ˆˆiiix x x x v TSS ESS RSS-=-+↓↓↓∑∑∑22211112211112112211(2)()()ˆˆ()ˆ[()](1)()[()](1)i iiiiiiv x x x x x x x x x x x x R =----=---=--∑∑∑∑∑∑∑其中2(2)R 是根据(2)计算的决定系数。
因此,12211(2)ˆˆˆ[()](1)i i i y vb x x R η==--∑∑。
练习: 对1122i i i i y a b x b x ε=+++进行OLS 估计,利用前述知识证明:12211ˆx x b =在这里,12x x r、2yx r 分别是x2与x1、y 的样本相关系数。
笔记:在上述练习题中,当120x x r =时,则111(,)ˆ()Cov y x b Var x =。
现在考虑另外一个回归模型:011i i iy x e ββ=++,在OLS 法下,有:111ˆ(,)()Cov y x Var x β=。
总结:尽管1122i i i iy a b x b x ε=+++与101i i i y x e ββ=++是不同的模型,但当x 2与x 1样本不相关时,在OLS 法下,11ˆˆbβ=。
1ˆb 的方差是多少呢? 12ˆ112233*********ˆˆ()()()ˆˆˆˆˆˆˆ()ˆbi i i i i i i i i i i i i i i i i i i y v a b x b x b x v Var Var v vav b x v b x v b x v v Var vδεε=++++=++++=∑∑∑∑∑∑∑∑∑∑OLS 法保证了320ˆˆˆi i i x i i x v vv ===∑∑∑,因此 12ˆ112ˆˆ()ˆbi i i i i b x v v Var vδε=+∑∑∑由于我们假定1i x 是非随机的,进而ˆi v 也是非随机的,因此在i ε是同方差且序列无关的假定下,有:22211(2)212ˆ[()](1)2ˆi bx x R iv δδδ=--=∑∑其中22iεδδ=。
在上式中,2(2)11R -通常被称为方差膨胀因子(VIF ),而2(2)1R -被称为容忍度(Tolerence )。
另外,由于2111()i Nx x -∑为1x 的样本方差1()V ar x ,因此,122(2)1/2ˆ)((1)N b V a r x R δδ-=(6) 就上述例子,根据(6)式,初步的总结是,1ˆb 的方差(或者标准差1ˆ()sd b ): (1)随着样本容量的增加而减少; (2)随着1x样本方差的增加而减少;(3)随着2(2)R 增加而增加; (4)随着误差项方差的增加而增加;样本容量越大则信息越多,1x 样本方差越大意味着样本覆盖面广,故信息越多。
信息越多将提高估计精度。
2(2)R 越大表示解释变量所蕴含信息的重叠度高,因此有效信息较少,故降低估计精度。
误差项方差大意味着估计时所面临的不确定性程度高,因此估计精度下降。
2δ一般是未知的,需要估计。
1ˆb 的标准误为:1ˆ)(bse =其中222ˆˆˆ44ii e N N δε==--∑∑。
因此,1ˆ)(b se =考虑初始模型(1),显然有:2222[)](1)()(1)ˆ(i iy R NVar y R y ε=--=-∑∑因此,有:1ˆ)(bse = (7)特别要注意,1ˆ)(bse 是随机的(在(7)式中,2R 是随机的,其随机性来源于y 的随机性)。
既然1ˆ)(bse 是随机的,那么我们再也不能像对(6)式那样总结了!然而在大样本下,由于标准误在概率上收敛于标准差,故此时有关标准差的一些结论可以应用于标准误。
根据特定的样本,我们可以计算出一个具体的标准误的值,公式仍然是(7)式,但此时它是非随机的。
考虑此种情况。
如果在模型(1)上再增添一个解释变量4x ,显然2(2)R 一般是增加的,因此将增加1ˆb 的标准差,但一定会增加1ˆb 的标准误吗? 二、完全共线与多重共线针对上述例子,如果2(2)1R =,即1x 被231,,x x 完全拟合,换句话说,存在:112324310x x x λλλλ+∙++=其中1λ不为零。
那么根据公式:12211(2)ˆˆ[()](1)i i i y vb x x R =--∑∑22211(2)12ˆ[()](1)i b x x R δδ=--∑ 有:121ˆ0ˆ;0b bδ==∞。
思考题:为什么0ˆi i y v=∑?现在我们把情况推广:112324310x x x λλλλ∙+++=其中,1,2,3,4jj λ=不全为零,此时,我们称四变量完全共线。
根据前面的分析,我们知道,至少有一个系数的估计量是无法确定的,其方差无穷大。
把初始模型写成矩阵模式:Y XB ε=+,其中1121311231231(1)1NNN x x x X x x x x x x ⎛⎫ ⎪ ⎪ ⎪⎪ ⎪ ⎪ ⎪⎝⎭≡≡ 。
在OLS 法下,1ˆ()BX X X Y -=''。
为了保证估计量的存在,我们必须假定1()X X -'存在。
然而,当X不是列满秩的,即112324310x x x λλλλ+∙++=,其中,1,2,3,4j j λ=不全为零,那么1()X X -'是不存在的。
把情况进一步推广:112324310i x x x λλλλμ+∙+++=,其中,1,2,3,j j λ=不全为零,i μ为随机误差,那么我们称四变量多重共线。
多重共线并没有违背高斯-马尔科夫假定,因此,高斯-马尔科夫定理仍然成立!三、 多重共线的后果基于特定的样本,我们根据公式:1ˆ)(bse =计算出一个具体的标准误的值。
显然,如果2(2)R较大,即多重共线性越强,那么我们得到的标准误的值可能很大。
如果情况确实如此,那么这又有什么后果呢?(1)回忆111ˆ()ˆ()b b t se b-=,b 1是假设的真实系数。
如果1ˆ()se b很大,那么上式的分母很大,从而t 趋于零,因此,也许你无论假设b 1为多少,你都会不拒绝原假设!因此,t 检验的可靠性降低,犯第二类错误(取误)的概率较大。
(2)构建一个1a -置信水平的置信区间:11/2ˆ()ˆa se b b t ±,显然,1ˆ()se b很大将导致置信区间更宽,因此,我们不能很好地猜测b 1的取值。
四、 如何判断多重共线的严重程度? (一)基于严重多重共线性情况下模型的一些典型症状来判断多重共线性的严重程度。
这些典型症状是:1、模型整体拟合较好但很多解释变量不显著。
考虑在初始模型增添一个解释变量,显然其判定系数一般是增加的(相应的是,新模型F 值可能较大),然而,增加解释变量很可能导致严重的多重共线性,从而很多解释变量不显著。
2、系数估计的符号不符合理论预期,但往往不显著。
思考题:为什么?3、增加样本容量导致估计结果发生了很大的变化。
删除一些变量也导致估计结果发生了很大的变化。
思考题:为什么?(二)考察解释变量两两相关系数。
如果存在取值较大的相关系数,那么这意味着多重共线性程度严重,然而也应该注意到,即使两两相关系数都很小,多重共性性仍可能是严重的。
思考题:为什么即使两两相关系数都很小,多重共线性仍可能是严重的? (三)考察VIF 或者2i R 。
如果VIF 大于10,一般认为存在较严重的多重共线性(当然也可考察容忍度)。
按照VIF 的定义,显然,当VIF 大于10时,必有一个解释变量对其他解释变量回归所得到的2i R 超过90%,而这是一个很高的判定系数。
事实上,按照Klien ’s rule of thumb ,当2i R 大于初始模型的2R 时,多重共线问题就值得关注了。
(四)特征根检验。
当完全共线时,1()X X -'不存在,0X X=',当存在严重的多重共线时,0X X≈'。
假设X X'的特征根是121,,...,k λλλ+,根据矩阵代数知识:11k i i X Xλ+=='∏,因此,如果X X'的特征根中至少有一个近似为0,则0X X≈'。
因此可以根据X X'的特征根来判断多重共线的严重程度。
笔记:在实践中,通常基于标准化变量回归模型(每一个解释变量的每一次观察值都减去样本均值,然后再除以样本标准差,此即变量的标准化处理。