经济计量学学习笔记
- 格式:pdf
- 大小:1.80 MB
- 文档页数:41
《经济计量学精要》笔记和课后习题详解第一章经济计量学的特征及研究范围1.1复习笔记一、什么是经济计量学经济计量学是利用经济理论、数学、统计推断等工具对经济现象进行分析一门社会科学。
经济计量学运用数理统计学分析经济数据,对构建于数理经济学基础之上的模型进行实证分析,得出数值结果。
二、为什么要学习经济计量学经济计量学涉及经济理论、数理经济学、经济统计学(即经济数据)以及数理统计学。
然而,它又是一门有独立研究方向的学科,原因如下:1.经济理论所提出的命题和假说,多以定性描述为主。
但是,经济理论本身却无法定量测度这两个变量之间的强度关系,经济计量学家的任务就是提供这样的数值估计。
经济计量学依据观测或试验,对大多数经济理论给出经验解释。
2.数理经济学主要是用数学形式或方程(或模型)描述经济理论,而不考虑对经济理论的测度和经验验证。
而经济计量学主要关注的却是对经济理论的经验验证。
经济计量学家通常采用数理经济学家提出的数学模型,只不过是把这些模型转换成可以用于经验验证的形式。
3.经济统计学主要涉及经济数据的收集、处理、绘图、制表。
经济统计学家的工作是收集GDP、失业、就业、价格等数据,而不是利用这些数据来验证经济理论。
但这些数据恰恰是经济计量分析的原始数据。
虽然数理统计学提供了许多分析工具,但由于经济数据独特的性质(大多数经济数据的生成并非可控试验的结果),因此,经济计量学经常需要使用特殊方法。
三、经济计量学方法论1.建立一个理论假说首先要了解经济理论对这一问题是怎样阐述的,然后是对这个理论进行验证。
2.收集数据一般来说,有三类数据可用于实证分析:(1)时间序列数据:时间序列数据是按时间跨度收集得到的。
比如GDP、失业、就业、货币供给、政府赤字等,这些数据是按照规则的时间间隔收集得到的。
这些数据可能是定量的,也可能是定性的。
(2)截面数据:截面数据是指一个或多个变量在某一时点上的数据集合。
例如美国人口调查局每十年进行的人口普查。
2023计量经济学笔记PERSONAL NOTES计量经济学笔记目录CH1导论 (3)CH2简单线性回归模型 (5)CH3多元线性回归模型 (11)CH4多重共线性 (14)CH5异方差 (16)CH6自相关 (19)CH1导论1、计量经济学:以经济理论和经济数据的事实为依据,运用数学、统计学的方法,通过建立数学模型来研究经济数量关系和规律的一门经济学科。
研究主体是经济现象及其发展变化的规律。
2、运用计量分析研究步骤:●模型设定——确定变量和数学关系式●估计参数——分析变量间具体的数量关系●模型检验——检验所得结论的可靠性●模型应用——做经济分析和经济预测3、模型(1)变量A.解释变量:表示被解释变量变动原因的变量,也称自变量,回归元,X。
B.被解释变量:表示分析研究的对象,变动结果的变量,也成应变量,Y。
C.内生变量:其数值由模型所决定的变量,是模型求解的结果。
D.外生变量:其数值由模型意外决定的变量。
(外生变量数值的变化能够影响内生变量的变化,而内生变量却不能反过来影响外生变量。
)E.前定内生变量:过去时期的、滞后的或更大范围的内生变量,不受本模型研究范围的内生变量的影响,但能够影响我们所研究的本期的内生变量。
F.前定变量:前定内生变量和外生变量的总称。
(2)数据●时间序列数据:按照时间先后排列的统计数据(t)。
●截面数据:发生在同一时间截面上的调查数据(i)。
●面板数据:时间序列数据和截面数据结合的数据(t,i)。
●虚拟变量数据:表征政策,条件等,一般取0或1(d).4、估计评价统计性质的标准无偏:E(^β)=β有效:最小方差性一致:N趋近无穷时,β估计越来越接近真实值5、检验经济意义检验:所估计的模型与经济理论是否相等统计推断检验:检验参数估计值是否抽样的偶然结果,是否显著计量经济检验:是否符合计量经济方法的基本假定预测检验:将模型预测的结果与经济运行的实际对比6、计量经济学的研究过程CH2简单线性回归模型一、相关知识点:1、变量间的关系分为函数关系与相关关系(相关系数是对变量间线性相关程度的度量。
计量经济学 总复习第一部分:统计基础知识均值的概念:通常人们所说的均值就是“平均数”,统计意义上的均值是“期望值”。
方差:变量的每个样本与均值的距离大小的概念。
标准差:对方差开根号就是标准差。
数学期望值与方差的数学性质总体方差: 1.常量aE (a )=a 2σ(a)=0抽样方差: 2.变量 y=a+bxE(y)=a+bE(x)总体标准偏差: 2σ(y)=b^2 * 2σ(x)抽样标准偏差:假设检验的定义:事先做一个假设,然后再用统计方法来检验这个假设是否有统计意义。
假设检验的步骤:第一步,设定假设条件。
原定假设,H0:u=u0,和替代假设,Ha:u ≠u0。
第二步,决定用哪种检验, 如果n ≥30,用Z 检验,如果n<30, 用t 检验。
第三步,找出临界值, 根据给定的定义域的大小,即α=1%、α=5%、或 α=10% 从概率分布表中查出Zc 值,或tc 值。
第四步,计算统计值, 或者第五步,比较统计值与临界值而得出结论。
如果统计值的绝对值大于临界值,那么我们就否定原定假设; 如果统计值的绝对值小于临界值,那么我们就不能否定原定假设。
第二部分 最小二乘法最小二乘法的假设条件:(1) (2) (3) (4) (5) 文字解释:Nu x Ni ∑-=22)(σ1)(22--=∑n x xs ni2σσ=2s s =nux Z σ0*-=n s u x t 0*-=)(=X E i ε∞<=22,)(σσεi Var 0),(=j i Cov εε0),(=i i X Cov ε1),(±≠j i X X Cov(1)每个误差必须是随机的,其误差的期望值是零;(2)误差都是雷同的,其方差相等,同时其方差的变化量必须是有限的; (3)每个误差之间必须是相互独立的; (4)误差项与方程式中的自变量是无关的; (5)自变量之间无直接的线性关系。
通用最小二乘法的步骤:第一步:求出误差项:第二步:求误差的平方和最小。
计量经济学三、课程大致安排 1、内容框架2、参考书目:初、中级教程:计量经济学 王维国 东北财经大学出版社计量经济学/Basic Econometrics (印度)古扎拉蒂 中国人民大学 计量经济学 赵国庆 中国人民大学出版社 计量经济学 李子奈 潘文卿 高等教育出版社 高级教程:计量经济模型与经济预测 平耿克 钱小军译 机械工业出版社 《经济计量分析》( Econometric Analysis )3、安装eview ,数据(演算一下)OLS 法(缺少数据)4、安装pdf第二部分 数学预备知识概率论第一章随机变量及其分布一、随机变量的定义设随机试验Ed样本空间为{}π=,如果对两个???,都有唯一w的实数()x w与之对应,并且对任意实数X,??是随机事件,则称事件,则称定义在π上的实单值函数()x w为随机变量。
通俗的说,在实验结果能取得不同数值的量,称为随机变量它的数值是随机试验结果而它由于试验的结果是随机的,所以它的值也是随机的。
二、分类(连续型和离散型)例子:在一个箱子里放着t个数字球,-2,1,1,3,3,3,3从中取一个球,取到球上面的数字是随着试验结果不同而变化。
又如:考四、六级,考过记为1,不过记为0。
再如:抛硬币,正面记为1,反面记为0。
引入话题:举一些现实中的例子,如考试,在公交场等车随机变量-事件-概率-频率-分布率-分布函数-连续随机变量上面我们讲的是一种事件有很多种不同的结果,但在现实中这些出现的结果的可能性并不是相同的。
例子:考六级出现的结果不同,大多数分数集中在50-60和60-70之间,也就是说出现2和3的可能性更大。
=0(0-50),1(50-60),2(60-70),3(70-80),4(80-100)问题:用什么衡量可能性呢?(概率)我们用的概率都是古典概型,即用事件发生概率来表示概率。
频率的定义:一随机事件的n个结果互斥且两个结果等可能发生,并且事件A会有m个基本结果,则事件A发生的概率即是()p A,就是() p A= mn=事件发生的总数/结果总数两点需要注意:1、试验结果互斥;2、等可能性相当。
计量经济学复习笔记CH1导论1、计量经济学:以经济理论和经济数据的事实为依据,运用数学、统计学的方法,通过建立数学模型来研究经济数量关系和规律的一门经济学科。
研究主体是经济现象及其发展变化的规律。
2、运用计量分析研究步骤:模型设定一一确定变量和数学关系式估计参数一一分析变量间具体的数量关系模型检验一一检验所得结论的可靠性模型应用一一做经济分析和经济预测3、模型变量:解释变量:表示被解释变量变动原因的变量,也称自变量,回归元。
被解释变量:表示分析研究的对象,变动结果的变量,也成应变量。
内生变量:其数值由模型所决定的变量,是模型求解的结果。
外生变量:其数值由模型意外决定的变量。
外生变量数值的变化能够影响内生变量的变化,而内生变量却不能反过来影响外生变量。
前定内生变量:过去时期的、滞后的或更大范围的内生变量,不受本模型研究范围的内生变量的影响, 但能够影响我们所研究的本期的内生变量。
前定变量:前定内生变量和外生变量的总称。
数据:时间序列数据:按照时间先后排列的统计数据。
截面数据:发生在同一时间截面上的调查数据。
面板数据:虚拟变量数据:表征政策,条件等,一般取0或1.4、估计评价统计性质的标准无偏:E (人3 )= 3 随机变量,变量的函数?有效:最小方差性一致:N趋近无穷时,3估计越来越接近真实值5、检验经济意义检验:所估计的模型与经济理论是否相等统计推断检验:检验参数估计值是否抽样的偶然结果,是否显著计量经济检验:是否符合计量经济方法的基本假定预测检验:将模型预测的结果与经济运行的实际对比CH2 CH3线性回归模型模型(假设)一一估计参数一一检验一一拟合优度一一预测1、模型(线性)(1)关于参数的线性模型就变量而言是线性的;模型就参数而言是线性的。
Yi = 3 1+ 3 2lnX i+u线性影响随机影响Y i=E (Y|X i) +u E (Y|X i) =f(X i)= 3 1+3 2lnX 引入随机扰动项,(3)古典假设A零均值假定 E ( U i |X i) =0B同方差假定Var(u i|XJ=E(u i2)=2(TC无自相关假定Cov(u i ,u j)=0D随机扰动项与解释变量不相关假定Cov(u i ,X i )=0E正态性假定u~N(0, d 2)F无多重共线性假定Rank(X)=k2、估计在古典假设下,经典框架,可以使用OLS方法:OLS 寻找min Ee i2人B iois = (Y均值)-人B 2(X均值)人B 2ois = Ex i y〃Ex i23、性质OLS回归线性质(数值性质)(1)回归线通过样本均值(X均值,Y均值)(2)估计值人Y的均值等于实际值Y的均值(3)剩余项e i的均值为0(4)被解释变量估计值人Y与剩余项8不相关Cov(人Y,ej=0(5)解释变量X与剩余项8不相关Cov(e i,X i)=0在古典假设下,OLS的统计性质是BLUE统计最佳线性无偏估计4、检验(1) Z检验Ho: B 2=0原假设验证B 2是否显著不为0标准化:Z= (A B 2- B 2) /SE (A B 2)〜N( 0,1 ) 在方差已知,样本充分大用Z检验拒绝域在两侧,跟临界值判断,是否B2显著不为0(2) t检验一一回归系数的假设性检验方差未知,用方差估计量代替 A d 2=Ee i2/(n-k) 重点记忆t =(人卩2- B 2) / A SE (A B 2)〜t (n-2)拒绝域:|t|>=t 2/a( n-2)拒绝,认为对应解释变量对被解释变量有显著影响。
第一章统计概念1.什么是计量经济学计量经济学是对经济的测度,利用经济理论、数学、统计推断等工具对经济现象进行分析的一门社会科学。
2.计量经济学的方法论(计量经济分析步骤)(1)建立理论假说。
(2)收集数据。
(3)假定数学模型。
(4)设立统计或计量模型。
(5)估计经济模型参数(6)核查模型的适用性:模型设定检验。
(7)检验源自模型的假定(8)利用模型进行预测4.数据类型(1)时间序列数据:按时间跨度获得的数据。
特征是一般变量如 Y t、X t下标为t。
(2)截面数据:同一时点上的一个或多个变量的数据集合。
如:各地区2002年人口普查数据。
(3)合并数据:既包括时间序列数据有包括截面数据。
例:20年间10个国家的失业数据。
20年失业数据是时间序列,10个国家又是截面数据。
(4)面板数据:同一个横截面的单位的跨期调查数据。
例:对相同的家庭数量在几个时间间隔内进行的财务状况调查。
5.理解回归关系回归关系是一种统计上的相关关系,并不意味着自变量和因变量之间存在着因果关系。
第二章线性回归的基本思想1.回归分析的含义: 回归分析是反映的自变量和因变量之间的统计关系,回归分析是在自变量给定条件下的因变量的变化,是一种条件回归分析E(Y i|X i)=B1+B2X i2.随机误差项的性质(为什么要引入随机误差项)(1)随机误差项代表着未纳入模型变量对因变量的影响(2)即使模型包括了影响因变量的所有因素,模型也有不可避免的随机性。
(3)μ还代表着度量误差(4)模型设定应该尽可能简单,只要不遗漏重要变量,把因变量的次要影响因素归于随机项 μ 。
(奥卡姆剃刀原则)3.参数估计方法———普通最小二乘法的基本思想 选择参数使得残差平方和最小——Min ∑e i 2=Min ∑(Y i −Yi ̌)2=Min ∑(Y i −b 1−b 2X i )^24.根据Ols 法得出参数 b 1 b 2 称为最小二乘估计量,最小二乘估计量的性质: (1)Ols 方法获得样本回归直线过样本均值点(X ,Y ) (2)残差的均值总为0,(3)残差项与解释变量的乘积求和为0,即残差项与解释变量不相关。
计量经济学复习笔记CH1导论1、计量经济学:以经济理论和经济数据的事实为依据,运用数学、统计学的方法,通过建立数学模型来研究经济数量关系和规律的一门经济学科。
研究主体是经济现象及其发展变化的规律。
2、运用计量分析研究步骤:模型设定——确定变量和数学关系式估计参数——分析变量间具体的数量关系模型检验——检验所得结论的可靠性模型应用——做经济分析和经济预测3、模型变量:解释变量:表示被解释变量变动原因的变量,也称自变量,回归元。
被解释变量:表示分析研究的对象,变动结果的变量,也成应变量。
内生变量:其数值由模型所决定的变量,是模型求解的结果。
外生变量:其数值由模型意外决定的变量。
外生变量数值的变化能够影响内生变量的变化,而内生变量却不能反过来影响外生变量。
前定内生变量:过去时期的、滞后的或更大范围的内生变量,不受本模型研究范围的内生变量的影响,但能够影响我们所研究的本期的内生变量。
前定变量:前定内生变量和外生变量的总称。
数据:时间序列数据:按照时间先后排列的统计数据。
截面数据:发生在同一时间截面上的调查数据。
面板数据:虚拟变量数据:表征政策,条件等,一般取0或1.4、估计评价统计性质的标准无偏:E(^β)=β 随机变量,变量的函数?有效:最小方差性一致:N趋近无穷时,β估计越来越接近真实值5、检验经济意义检验:所估计的模型与经济理论是否相等统计推断检验:检验参数估计值是否抽样的偶然结果,是否显著计量经济检验:是否符合计量经济方法的基本假定预测检验:将模型预测的结果与经济运行的实际对比CH2 CH3 线性回归模型模型(假设)——估计参数——检验——拟合优度——预测1、模型(线性)(1)关于参数的线性 模型就变量而言是线性的;模型就参数而言是线性的。
Y i =β1+β2lnX i +u i线性影响 随机影响Y i =E (Y i |X i )+u i E (Y i |X i )=f(X i )=β1+β2lnX i引入随机扰动项,(3)古典假设A 零均值假定 E (u i |X i )=0B 同方差假定 Var(u i |X i )=E(u i 2)=σ2C 无自相关假定 Cov(u i ,u j )=0D 随机扰动项与解释变量不相关假定 Cov(u i ,X i )=0E 正态性假定u i ~N(0,σ2)F 无多重共线性假定Rank(X)=k2、估计在古典假设下,经典框架,可以使用OLS方法:OLS 寻找min ∑e i2 ^β1ols = (Y 均值)-^β2(X 均值)^β2ols = ∑x i y i /∑x i 23、性质OLS 回归线性质(数值性质)(1)回归线通过样本均值 (X 均值,Y 均值)(2)估计值^Y i 的均值等于实际值Y i 的均值(3)剩余项e i 的均值为0(4)被解释变量估计值^Y i 与剩余项e i 不相关 Cov(^Y i ,e i )=0(5)解释变量X i 与剩余项e i 不相关 Cov(e i ,X i )=0在古典假设下,OLS 的统计性质是BLUE 统计 最佳线性无偏估计4、检验(1)Z 检验Ho:β2=0 原假设 验证β2是否显著不为0标准化: Z=(^β2-β2)/SE (^β2)~N (0,1) 在方差已知,样本充分大用Z 检验拒绝域在两侧,跟临界值判断,是否β2显著不为0(2)t 检验——回归系数的假设性检验方差未知,用方差估计量代替 ^σ2=∑e i 2/(n-k) 重点记忆t =(^β2-β2)/^SE (^β2)~t (n-2)拒绝域:|t|>=t 2/a (n-2)拒绝,认为对应解释变量对被解释变量有显著影响。
一、基本概念:估计量与估计值所谓估计量就是指估计总体参数地一种方法•在该方法下,给定一个样本,我们可以获得一个具体地估计结果,该结果就是所谓地估计值•例如,基于一个样本容量为N地样本,其中为第i次观测值,我们用样本均值来作为对总体均值地估计.在这里,就属于估计量,由于其取值随着样本地变化而变化,因此它是随机地.现在假设我们持有A、B两个样本:与,则基于这两个样本,可以计算出:文档来自于网络搜索分别是估计量可能地取值,它们就是估计值•既然估计量是随机变量,那么它一定服从某种分布,由于估计量与抽样相联系,因此我们把估计量所服从地分布称为抽样分布.有关统计学地一些基本知识请参见本讲附录一一.文档来自于网络搜索笔记:观测值是随机变量地一个可能地取值.我们用样本均值来估计总体均值,实际上就是用来估计.在数理统计中,这被称为矩估计,因为被称为样本(一阶)矩,而被称为总体(一阶)矩.矩估计其要点可以归结为,符号与符号E相对应. 我们再来看看矩估计思想地一个应用.为了估计随机变量地方差E[- E()]2(也即总体方差),在矩估计法下,则方差估计量将是:.应该注意到,这个方差估计量是有偏估计,而才是方差地无偏估计.如果样本容量很大,这两个估计量相差无几,事实上两者都是方差地一致估计量.这个例子暗示,矩估计并不一定会获得一个无偏地估计量,但将获得一个一致地估计量.关于估计量无偏性与一致性地基本含义见附录1文档来自于网络搜索二、高斯-马尔科夫假定对于模型:,贝叽相应地OLS估计量就是:在一些重要地假定下,OLS估计量表现出良好地性质.我们把这些假定称为高斯-马尔科夫假定.•假定一:真实模型是:.有三种情况属于对该假定地违背:(1)遗漏了相关地解释变量或者增加了无关地解释变量;(2)y与x间地关系是非线性地;(3)并不是常数.文档来自于网络搜索笔记:1、遗漏了地解释变量将进入误差项,从而这很可能导致误差项不在满足下面所列举地一些假定;如果真实模型是非线性地,但我们却用一条直线来近似它,显然这是南辕北辙;如果参数并不是常数,然而我们却基于特定样本用一些常数去近似它们,这显然也不合理地.文档来自于网络搜索2、经济学理论或许很少直接认为y与x地关系是线性地,y与x具有非线性关系可能更符合现实.然而把模型建立成非线性形式常常会付出代价,因为非线性模型其待估计地参数可能更多,从而导致自由度地耗费,带来估计精度地下降.另外,从数学上讲,利用泰勒展开,我们也常常可以用一个线性模型去近似非线性模型.文档来自于网络搜索•假定二:对解释变量地N次观测即被预先固定下来,即不会随着样本地变化而发生变化,是一个非随机列向量.显然,如果解释变量含有随机地测量误差,那么该假定被违背.还存其他地违背该假定地情况.文档来自于网络搜索笔记:1、被假定不会随着样本地变化而发生变化,但这并不意味着在一个给定地样本中.事实上,在含有一个截距与一个解释变量地简单线性回归模型中,将意味着OLS 估计量失去意义,见高斯-马尔科夫假定六.文档来自于网络搜索2、被假定为非随机并不是一个标准假定,然而在该假定下数学处理要简单得多,而且OLS基本地涵义也并未丧失.是随机地情况更一般化,此时,高斯- 马尔科夫假定二被更改为:对任意与,与不相关,此即所谓地解释变量具有严格外生性.显然,当非随机时,与必定不相关•事实上,假定二其最终目地在于保证与不相关.文档来自于网络搜索3、在建立模型时,我们总是希望误差项是由一些不重要、没有任何信息价值地成分所构成.如果与相关,这意味着误差项还具有一定地信息价值,因此在某种程度上可以认为,我们预先建立地模型是不完备地.应该注意到,如果模型遗漏了解释变量,而这些被遗漏地解释变量又与已存在地解释变量是相关地,那么这将导致误差项与已存在地解释变量是相关地.文档来自于网络搜索4、为了理解非随机性地假定,我们考虑如下一个例子.我们试图考察受教育年限(x)对收入(y)地影响.假定我们预先知道总体中有1%地人口接受了22 年地学校教育;有3%地人口接受了19年地学校教育;有10%地人口接受了16 年地学校教育….现在,我们进行一个样本容量为1000地抽样调查.为了使样本尽量反映总体地情况,我们要求样本中有10人接受了22年地教育;有30人接受了19年地教育;有100人接受了16年地教育.这种抽样技术被称为分层随机抽样(Stratified random sample .在抽样中,设定前10次观测对象是那些接受了22年地教育地人,接下来是那些接受了19年教育地人….在这种方法下我们可以获得多个样本,但被预先固定下来,即它不会随着样本地变化而发生变化.文档来自于网络搜索•假定三:误差项期望值为0,即.笔记:1、当随机时,标准假定是:根据迭代期望定律有:,因此,如果成立,必定有:.另外,根据迭代期望定律也有:而•故有:因此,在是随机地情况下,假定二、三可以修正为一个假定:2、所谓迭代期望定律是指:如果信息集,则有.无条件期望所对应地信息集是空集,因此按照迭代期望定律必有:•本讲义第十讲对该定律进行了更为详细地介绍.文档来自于网络搜索3 、回忆第一讲,对模型,在OLS法下我们一定能保证:(1)残差均值为零;(2)残差与x样本不相关.我们希望残差是对误差地良好近似,但如果假定二、三不成立,即,误差项期望值不为零,误差项与解释变量相关,显然此时残差并不是对误差项地良好近似.由于,,因此,如果残差并不是对误差项地良好近似,那么参数地OLS估计量就不是对真实参数良好地近似.由此看来,为保证OLS估计量具有良好地性质,假定二、三地成立非常重要.文档来自于网络搜索4 、当假定成立时,必有;,进而(在这里对各随机变量未加注脚标,这是因为无论脚标是什么,相关等式都成立.现在我们来利用所谓地矩估计思想.误差项观测不到,故我们不得不把残差当做是对误差地观测.于是按照矩估计思想有:;,而这两个式子正是OLS估计法中地两个正规方程,由正规方程就可以得到参数地OLS估计量.由此看来,当假定成立时,OLS估计不过是矩估计地特例.如果知道了这一点,我们就会很快地记住OLS估计量公式:当时,.用样本协方差与样本方差代替总体协方差与总体方差,则有:.我们以后在学习工具变量估计法时,将再次体会到矩估计思想地重要性.文档来自于网络搜索可以发现,矩估计仅仅涉到了x与同期不相关地假定,从这个意义上讲,这个条件过于强了,但只有在这个条件下OLS估计量地无偏性才能保证成立,这可参见更高级地教科书.文档来自于网络搜索•假定四:,即所谓地同方差假定.笔记:1、在是随机地情况下,该假定修订为:2、如果误差项是异方差地,那么N个误差项将具有N个不同地分布.如果把残差近似为对误差地观测,则此时每一个分布下只有一次观测,显然仅凭一次观测我们很难对随机变量地分布性质进行统计分析.文档来自于网络搜索•假定五:,即所谓地序列不相关假定.笔记:1、在是随机地情况下,该假定修订为:2、如果误差项序列相关,这表明误差项还含有系统性地、可资利用地信息.但如果我们已建立地线性模型是完备地,那么假定误差项序列不相关就显得相当自然了.文档来自于网络搜索•假定六:,在多元回归中,该假定演变为地逆存在,即矩阵列向量线性无关.笔记:1、假定六是最基本地,因为违背该假定则OLS估计量地相关公式就失去了意义•但假定六在实践中最不值得担心,因为当该假定被违背时,计量软件将立即告诉我们此时无法进行计算.文档来自于网络搜索2、在模型含有截距地情况下,矩阵列向量线性无关这个条件要强于各解释变量线性无关这个条件.高斯-马尔科夫假定二、三、四、五都可以被归结为对误差项性质地假定,而假定一部分可以认为是对误差项性质地假定.假定六是关于参数可识别地假定.结合OLS地代数性质,我们是不是可以直接感觉到假定一、二、三地重要性?但不幸地是,初级计量经济学经常把重心放在了假定四、五上了.文档来自于网络搜索怎么让我们相信假定一至五是成立地呢?首先我们应尽量利用经济学理论来判断相关假定地合理性,其次我们可以进行一系列计量经济检验.应该注意到,假定一至五基本上都涉及到对误差项分布性质地假定,因此计量经济检验可以说就是检验误差项地分布性质.不过困难之处在于,误差项不可观测.但如果高斯-马尔科夫假定成立,残差将是对误差地良好近似,于是,我们可以通过分析残差地性质来间接推断误差项地分布性质.文档来自于网络搜索三、高斯-马尔科夫定理当高斯-马尔科夫假定成立时,在所有线性无偏估计量中,OLS估计量方差最小,即OLS估计量是最有效地.换句话说,当高斯-马尔科夫假定成立时,O LS估计量是最优线性无偏估计量(Best linear unbiased estimator, BLUE),此即高斯-马尔科夫定理.文档来自于网络搜索笔记:1、对一个估计量,我们希望它具有什么样地性质?(1)简单实用.随着计量软件地发展,这一点可能不那么重要了;(2)不同地人利用不同地样本得到不同地估计结果,但我们希望平均来看,估计结果将是准确地,此即估计量地无偏性;(3)不同地人利用不同地样本得到不同地估计结果,但我们希望这些结果差异不要太大,事实上差异越小越好,即估计量地方差越小越好,此即估计量地有效性;(4)如果把总体全部展示在我们面前,则我们希望所利用地估计量能够得到真实地参数值,此即估计量地一致性.显然一致性是一个合理地估计量应该满足地最低要求.如果把事情地真相都告诉你了,你却依据一估计方法得到错误地结果,那么这个估计方法一定是一个垃圾!文档来自于网络搜索2、我们很希望一个无偏估计量也是有效地.下面一个调侃计量经济学家地笑话或许有助于我们理解这一点.三个计量经济学家去森林中打猎.一个计量经济学家一枪击到一头野猪前面五米处,一个计量经济学家一枪击到这头野猪后面五米处,第三个计量经济学家高兴得跳起来喊道,“击中了!击中了!我们平均击中了!” .文档来自于网络搜索3、一个估计量可能是有偏地、无效地,但如果满足一致性,它也是有用地.因为当我们手中地样本容量确实很大时,那么基于这个一致估计量地估计结果应该是对真实参数良好地近似.我们在前面地笔记中曾提到,如果假定二、三不成立,则残差并不是对误差项地良好近似,进而参数地OLS估计量就不是对真实参数良好地近似•由此看来假定二、三地成立对于保证OLS估计量地一致性非常重要.文档来自于网络搜索(一)OLS估计量是线性估计量所谓OLS估计量是线性估计量,是指它能够被表示为地线性函数.例如:在这里我们定义.应该注意到,在假定二下,k i是非随机地.练习:把表示成地线性函数:,其中.笔记:可以从数学上验证:另外一种简单地验证方式是:(1)假定被解释变量与解释变量都是x,那么回归直线地斜率将为1,截距将为0,即有:文档来自于网络搜索(2)假定被解释变量取值恒为1,那么回归直线地斜率将为0,截距将为1,即有:(二)OLS估计量具有无偏性:;证明:注意到;,再利用高斯-马尔科夫假定三:,于是有:.笔记:1 、在是随机地情况下,我们需证:2、我们在证明无偏性实际上应用了高斯-马尔科夫假定一、二、三. 练习:证明(三)在所有线性无偏估计量中,OLS估计量方差最小1、OLS估计量地方差利用高斯-马尔科夫假定五:与高斯-马尔科夫假定四:有:.注意到:因此有:笔记:1、,当N趋于无穷大时,样本方差收敛于总体方差,故当N趋于无穷大时,趋于0.由于,因此,当N趋于无穷大时,在概率上收敛于,即是地一致估计量.你能够表明是地一致估计量吗?文档来自于网络搜索2我们得到上述方差公式时实际上利用了高斯-马尔科夫假定一、二、四、五.当上述假定不成立时,上述公式无意义.文档来自于网络搜索练习:(1)证明在高斯-马尔科夫假定下:(2)证明在高斯-马尔科夫假定下:2、OLS估计量地有效性任意一种线性估计量都可表示为,当时,该估计量即为地OLS估计量.现在我们将证明:在所有无偏地地线性估计量中,OLS估计量具有最小地方差.文档来自于网络搜索“在所有无偏地地线性估计量中”是一个前提条件.我们地任务是,在给定前提下(约束条件),证明OLS估计量所对应地权数使方差(目标函数)取最小值.文档来自于网络搜索首先分析前提条件:线性估计量地表达是为了保证地无偏性,那么下面地等式应该恒成立:因此,.其次分析方差表示:在高斯-马尔科夫假定四、五下,有:■最后,形成数学问题:常数只影响目标函数值但不影响地选择,因此在求解上述优化问题时可以省去. 对上述极值问题,其拉格朗日函数是:相应地一阶条件是:把(3group)中各式相加并利用(4)有:把(3group)中第i式两边同时乘以后再各式相加,然后利用(5),有:由(6)、(7)有:于是我们已知道这个权数正是地OLS估计量所对应地权数,故问题得证.练习:证明在所有地线性无偏估计量中OLS估计量其方差是最小地.笔记:线性性质不过是OLS估计量在假定一下所具有地代数性质,无偏性与有效性才是高斯-马尔科夫定理所强调地•高斯-马尔科夫定理为OLS地广泛应用提供了理论依据.当然问题是,该定理涉及到如此众多地假定,这些假定同时成立实属罕见!从而这涉及到两个问题:(1)如何检验这些假定?(2)如果一些假定并不成立,那么OLS估计量具有什么性质?此时我们应该采取何种估计方法?本讲义后续章节将讨论这些问题.文档来自于网络搜索在附录二中,本讲义提供了很多教科书对高斯-马尔科夫地另外一种证明形式四、补充知识点(一)估计误差地方差模型中地误差项其方差经常未知而有待估计.可以证明,在高斯-马尔科夫假定下,对误差项地一个无偏估计是:为简单计,考虑一元线性回归模型地情况,此时k=1.我们需要证明.证明:在高斯马尔科夫假定下,有:因此,,故.注意到:而因此有:故:因此,笔记:1、实际上是残差地样本方差[在含截距地简单线性回归模型中,残差地自由度是N-2].误差是观测不到地,但我们能利用样本得到残差.直观来看,我们可以利用残差地样本方差来作为对误差方差地估计.上述证明结果表明,这个估计还是无偏地.文档来自于网络搜索2、在第一讲谈到自由度调整时,我们曾经举个一例:当计算样本方差时如果注意自由度调整,我们将得到一个对总体方差地无偏估计.文档来自于网络搜索3、只有残差是对误差地良好近似时,基于残差地样本方差来估计误差地方差才是合理地.因此,高斯-马尔科夫假定非常重要地.例如,如果违背假定四,即误差项是异方差地,那么我们利用一个不会随着i地变化而变化地数(会随着i地变化而变化吗?)去估计一系列随i而变化地参数(误差项方差随i地变化而变化),显然这是不合理地.文档来自于网络搜索应该注意,尽管在高斯-马尔科夫假定下是对地无偏估计,然而并不是对地无偏估计,不过可以证明是对地一致估计.被称为“回归地标准误”(standard error of regression,SER .文档来自于网络搜索笔记:1、为什么在高斯-马尔科夫假定下是对地无偏估计,但并不能由此推出是对地无偏估计?从数学上可以表明,当是非线性函数时,由不能推出•事实上由利用Jen sen不等式有:文档来自于网络搜索,而所谓Jen sen不等式是指:,g是凸函数(凸向原点);,g是凹函数(凹向原点)•2、另外还可以证明是对地一致估计,即:.概率极限运算具有如下性质:由上述性质,则•按照定义,是标准差,是非负地,故有:,即,如果是对地一致估计,则是对地一致估计,反之亦然.文档来自于网络搜索(二)基于样本回归直线地预测假定真实模型是:,模型满足高斯-马尔科夫假定.利用OLS法得到:•现在我们获得一次新地观测,然而此次观测只获得X地取值X f,现在我们考虑基于样本回归直线来预测y f和E(y f).文档来自于网络搜索1、预测y f以作为对y f地预测.则预测误差是:.显然E(ei)=0 ;笔记:1、地随机性来源于.与是不相关地,因此与无关.2、根据上述表达式可知,当时,预测误差方差最小.直觉是什么呢?以工资对教育水平回归为例.首先你基于一个样本得到估计结果,该样本主要由具有初中和高中学教育水平地人构成.想一想,如果利用已有地回归结果去预测一位博士地收入,预测精度会高吗?如果利用已有地回归结果去预测一位小学可能都未读完地人地收入,预测精度会高吗?文档来自于网络搜索2、预测E(y f)以作为对E(y f)地预测.此时预测误差是:显然,E(62)=0.比较可知,尽管既是y f地无偏预测也是E(y f)地无偏预测,但它更适合作为对E(y f) 地预测.直觉上,由于y f是随机地而E(y f)是非随机地,因此对y f地预测应该难于对E(y f)地预测,即对y f地预测精度应该低于对E(y f)地预测精度上述两种预测都属于点预测.还有一种预测被称为区间预测,参见第三讲附录附录一:通过例子学习统计学知识(一)期望值、均值、估计量、估计值在座各位所形成地班级是一个总体,总体地平均身高()等于各位同学身高之和除以总人数.我打算利用样本平均身高来估计总体参数.现在我将从在座各位中随机抽取N 位同学以形成一个样本容量为N地样本.记为第i次被抽取同学地身高.在第i次抽取具体实施之前,是一个随机变量,而各位同学地身高都是该随机变量可能地取值.由于班级中地每位同学都等可能地被抽到,因此,这个随机变量地期望值()就是总体地平均身高().我将进行N次抽取,当N次抽取都未具体实施时,那么由所构成地样本是随机样本,而相应地样本均值也是随机地,即,作为地估计量,它是随机地•在N次抽取都已经具体实施之后,我获得了一个特定地样本,该样本均值是非随机地,它实际上就是随机变量地一个可能取值,即所谓地估计值.文档来自于网络搜索(二)无偏性、一致性事实上我可以获得无限多个样本容量等于N地特定地样本,因此相应会有无限多地样本均值.如果这些样本均值地再平均等于总体均值,这就意味着样本均值是总体均值地一个无偏估计量[成立吗?请证明].应该注意到,利用特定地样本计算出一个样本均值,该样本均值恰好等于是不太可能地.但如果样本均值是总体均值地无偏估计,那么平均来看,样本均值等于总体均值[对谁平均?].文档来自于网络搜索对于随机样本,如果样本容量越大,那么利用样本情况来反映总体情况就会越准确.如果样本容量为无穷大,那么该样本应该包含了在座地各位,因此,关于总体地任何信息都会被样本所包含.故从直觉上看,随着N地增加,估计量地方差应该会越来越小;当N趋于无穷时,等于地概率应该趋于1[请对这些结论进行严格地数学证明].如果当N趋于无穷时,等于地概率趋于1,则就是地一致估计量[回忆一下,数理统计中哪一个定理表明了样本均值是总体均值地地一致估计]. 文档来自于网络搜索附录二:证明高斯-马尔科夫定理地其他方式(一)无偏性再利用高斯-马尔科夫假定三:,贝即是地无偏估计量.(二)最小方差性1关于方差在高斯-马尔科夫假定五:及其假定四:下,2、证明方差最小我们已知道OLS估计量是线性无偏估计量,即,.假设是用其他估计方法得到地线性无偏估计量,设.因此,.当然,也是成立地.令,贝U必有:现在来求地方差:在高斯-马尔科夫假定五与假定四下,有:而故,.当时等号成立.注意,恰好是OLS估计量地方差.版权申明本文部分内容,包括文字、图片、以及设计等在网上搜集整理。
经济计量学学习笔记最近看了一段时间经济计量学,主要是用起来发现自己根本就不会,本来想看一个星期的,后来看了三个星期,也不敢说看懂了,感觉经济计量真的比较难。
怕自己忘记了,就赶紧记下来。
我学习的书主要由易丹辉老师的《数据分析与Eviews应用》、沃尔特·恩斯特(Walter Enders)的《应用计量经济学—时间序列分析》、杰弗里·M·伍德里奇(Jeffrey M. Wooldridge)的《计量经济学导论》,还打算看格林的《计量经济分析》,发现太难了,不适合我这种初学者。
这些书里面易丹辉老师的书非常好,适合初学计量和使用Eviews的人,《应用计量学—时间序列分析》对时间序列讲的很详细,《计量经济学导论》是一本入门书,但非常容易懂,不包括比较高深的VAR模型之类的内容。
经济计量学是用计量方法来反映经济数据之间的关系,由于现实生活有很多无法测量的因素,所以概率论在计量经济学中有极其重要的作用。
数据主要分为下列几种:1)横截面数据:形象来说就是某一时间点上对个人、家庭、企业、城市、省份、国家或一系列单位采集的样本数据。
主要是用来分析某些变量在这些实体内部的关系,比如学校的规模、级别是否对学生的成绩有影响,企业的规模、行业是否对CEO的业绩有影响,这都可以通过收集多个学校或多个企业的数据来进行分析。
2)时间序列数据:对一个或几个变量在一个时间轴上收集的数据,比如每天的股票信息、每年的GDP、每月的CPI数据等。
3)面板数据:是在一个时间轴上收集的横截面的数据的集合,比如收集10年的企业规模、行业以及CEO薪酬的数据,可以不仅可以分析出规模和行业对薪酬的影响,还可以分析出时间的影响。
一、横截面数据(一)、前言学习经济计量学一定会学到几个经典假设,对于线性模型来说,基本来说是要求如下:1)假定1 (参数线性)总体模型可以写成其中是未知参数(常数),是无法观测的随机误差或者随机干扰。
2)假定2(随机抽样)我们有一个包含n次观测的随机样本,它来自假设1的总体模型。
3)假设3(不存在多重共线)在样本中,没有一个自变量是常数,自变量之间也不存在严格的线性关系。
4)假设4(条件均值为0)给定自变量的任何值,误差u的期望值为零,即5)假设5(同方差性)给定任何解释变量值,误差u都具有相同的方差,换言之一般来说,还有第六个假设,就是误差项u要服从正态分布,但是在大样本的情况下假设4和5就可以满足这个条件了,根据中心极限定理:令为一个均值为,方差为的随机样本。
于是服从渐进标准正态分布。
所以一般来说,就不需要检测误差项是否为正态分布,只要保证方差均值为零、同方差就可以了,当然样本数据不要太少,不过如果样本数据太少,也没法调整,只能如此了。
在满足残差均值为0、同方差、渐进正态就可以使用假设检验了,常用的是t检验和F检验,前者用来检测系数是否显著为0,当然也可以检测是否显著为其他值;F检验用处较广,常用的是来检测多个变量的系数是否同时为0、多个变量的系数是否相等等等。
对于横截面数据来说,可以确定样本的随机性,所以只需要检测变量之间是否存在多重共线、是否存在异方差就可以了。
多重共线是个比较麻烦的问题,指的是自变量之间存在一定的线性关系,这样在回归结果中,会出现拟合优度很高,但是单个系数t检验显著却不多的现象,或者逻辑上系数出现正负相反的现象。
逻辑上很容易理解,多个变量之间有线性关系,在回归过程中,可能这个变量系数比正常的高一些,其他的变量系数自然就变成负值了。
解决起来也很简单,修改模型,去掉一些变量,或者找替代变量就可以了,更高深一点的办法是主成分分析、主因子分析法,原理挺复杂的,但是EViews中操作很简单。
(二)、异方差异方差对于横截面数据来说,几乎是个肯定存在的问题,原因很简单,对于不同的单位来说,一般来说是存在规模效应的,不同规模的公司、不同规模的国家、不同规模的学校对某些变量的影响必然和规模有关,所以对于横截面的回归,一定要检查异方差,并且要好好处理,因为异方差会导致误差不是渐进正态的,系数的t检验、F检验是无效的(不过也可以计算异方差-稳健统计量来进行检验,计算起来比较麻烦),OLS估计虽然是无偏的和一致的,但不是渐近有效的,就是说,不使用OLS估计,用其他的估计方法可能会找到更有效的系数,所以异方差是一定要解决的。
1、异方差的检验方法:1)图形:把残差和自变量做图,有些异方差是很明显可以看出来的。
这里加一句,在计量里面,图形化识别模型是非常重要的,所以会作图、会判断是一门艺术,需要好好掌握。
2)异方差检验在Eviews是非常简单的,在Eviews7中,在回归模型上选择菜单View->Residual Diagnostic->Heteroskedasticity Tests,下面是可选的检验类型,常用的是Breusch-Pagan-Godfrey (BP)检验和White(怀特)检验,这些检验结果都差不多,原理略有差别。
异方差检验的原假设是“假设5”,即不存在异方差,同时假设前4个假设成立,故残差期望值为0,所以同方差假设写成数学形式如下:很容易看出,异方差就是说方差项和中的一个或者多个存在相关性,所以很自然的设计出检验方式(BP检验):做如下回归:零假设为:上面的误差项我们用误差的估计值来代替,对上式进行回归,然后根据的联合显著性来计算F统计量或者LM统计量,如不能拒绝原假设,则不存在异方差,如不能拒绝,就认为存在异方差,需要处理。
怀特检验的思路如下:将同方差假定用如下较弱的假定所取代,即误差平方与所有自变量()、所有自变量的平方()及所有交叉乘积()都不相关,可以想象怀特检验的回归方程的自变量非常多,当原方程存在n个自变量,怀特方程就会存在个自变量,这会严重消耗自由度,所以有一个变通的方法,由原方程可以得到y的拟合值,如下容易看出对求平方就可以得到所有的平方及交叉乘积和,所以只要做如下的回归即可:虚拟假设为:同样计算出F统计量或LM统计量,根据概率值可以检测是否存在异方差。
乍看起来,似乎不用也可以,直接用回归就可以了,但是不能保证回归方程中常数项不为0,所以需要对,一起做回归。
2、异方差的解决异方差对于横截面的数据是肯定存在的,原因就是前面说过的规模效益问题,规模效益是很难度量的,所以回归过程中会把它放在误差项里,所以误差项自然会和某些自变量存在关系,就不是随机的了,所以解决思路也简单,就是去掉规模效益,可以采用的方法有加权最小二乘法(WLS)和可行广义最小二乘法(FGLS)。
1)对于残差项和自变量的函数存在倍数关系时令x代表回归中的所有解释变量,假定这里代表x的某个函数,所以对于随机样本有所以将方程两边同时除以可以看出要回归这个方程,需要对原始数据进行变换,说的直白一点就是修改原始数据,让规模效益大的数据缩小的更大一些,规模效益小的数据缩小的规模小一些,当然这也就是所谓的“加权”,按照这种方式处理就是所谓的加权最小二乘法,其中可以是任意形式的函数,比如等等形式2)当异方差形式未知时,只能使用误差项的估计值原理也很简单,让回归方程两端同时除以残差项的平方,很容易计算出这时候的回归方程的残差项的方差变为1,就可以进行估计了。
但实际中是无法知道方差的确实值,只能使用估计值,具体步骤如下:a)将y对做回归并得到残差b)对残差平方取对数,得到c)做或者,的回归,得到拟合值d)求出拟合值的指数:e)以为权数,用WLS估计方程总体来说,解决异方差问题的思路就是改变原始数据的大小,让规模效益相等,改变数据时所作的乘数,就是所谓的权数,这就是加权最小二乘法的由来。
加权的方法在计量中用的很多,以后有空再研究一下。
横截面数据回归相对简单一些,太复杂的我也不会,以后有机会再研究。
二、时间序列数据(一)前言时间序列数据相对来说要比横截面数据复杂一些,和横截面数据一样,它必须满足上面的五个假设,误差项需要满足0均值、同方差的假定,但是时间序列有一个很特别的地方,很难满足假设2,就是随机抽样假设。
随机抽样的意思是对于某一变量的数据来说,不能存在相关性,简单来说,就不能根据去年的数据知道今年的数据,自变量和因变量都存在这种可能,因为经济数据都有一定的时滞效应,去年的投资对今年的GDP会有影响,去年的政策变动对今年也可能有影响,有的影响是长期的,有的影响是短期的,有的影响是一次性的,所以时间序列中有一个很特别的概念,就是平稳性。
(二)平稳性和弱相关所谓平稳时间序列过程,就是概率分布在如下意义上跨时期稳定的时间序列过程:如果我们从这个序列中任取一个随机变量集,并把这些序列向前移动h 个时期,其联合概率分布仍然保持不变。
容易看出,这个平稳过程的要求过高,所以常用的是协方差平稳过程,其定义如下:对于一个有限二阶矩过程的随机过程,若满足为常数、为常数、对于任何仅取决于h,而不取决于t,那么就是协方差平稳过程。
弱相关简单来说,就是随着过程跨度h的增加,其数据近乎独立,在平稳时间序列,这很容易理解。
从某种意义上来说,平稳性很重要,是因为其具备弱相关性,对于平稳序列来说,随着,,当然这个趋近要是“足够快”,因为现实中的数据没那么多,等不起。
只有保证了平稳和弱相关,大数定理和中心极限定理才可以使用。
(三)平稳性检验1、差分方程差分方程是一种特殊的方程,每期数据都可以表示成前几期数据的线性形式。
差分方程的一般形式如下:一般来说,差分方程还包括常数项,不过这个就非常简单了,解出上述方程之后,用待定系数法确定最终解就可以了。
差分方程的常用解法为解上述差分方程的特征方程,即根据特征根来构造差分方程的解。
解差分方程非常复杂,只说说结论。
对于差分方程来说,稳定性(收敛性)要求所有的特征根都在单位园内,如果是实根,其绝对值小于1,如果是复根,其模小于1。
滞后算子L定义为线性算子,对于,有,所以常见的差分方程可以写为:滞后算子多项式的系数和特征方程的系数是互为倒数的,这点很容易看出来,所以差分方程稳定性的条件也可以写为滞后算子多项式的根都在单位圆之外。
检验高阶方程稳定性的稳定性条件:1)在n阶方程中,所有特征根均位于单位圆内的必要条件为2)由于值可正可负,故所有特征根均位于单位圆内的必要条件为3)如果至少有一个单位根等于1,任何包含一个或多个等于1的特征根的序列称为单位根序列。
2、平稳性检验平稳性是时间序列回归的前提要求,所以对其检验非常重要,所谓平稳性检验,就是判断其是否存在单位根,所以也被称为单位根检验,常用的单位根检验方法是迪基-富勒检验)(Dickey-Fuller(DF)检验),其思路也不复杂,对于序列,假设其为1阶自回归过程即AR(1),则其关系可以表示为:,按照单位根的定义,可知当时,存在单位根,其假设如下这里不考虑,或的情形,对于前者,序列发散,是很容易看出来的,对于现实数据来说的情形极少,对检验方程可以做个变换,左右同时减去得,由于,检验变成了所以做变换之后的回归,检验原假设是否成立,就知道是否存在单位根,这里面有个问题,如果零假设成立,则是I(1)过程,则无法使用中心极限定理,系数的t统计量也不在服从t分布,服从一个特殊的分布迪基-富勒(DF)分布。