第11章 基本的Panel Data 模型(第三版)
- 格式:ppt
- 大小:1.95 MB
- 文档页数:99
第十讲经典面板数据模型一、面板数据(panel data)一维数据:时间序列数据(cross section data):变量在时间维度上的数据截面数据(time series data):变量在截面空间维度上的数据)。
二维数据:面板数据(同时在时间和截面空间上取得的,也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。
面板数据=截面数据+时间序列数据。
面板数据用双下标变量表示。
例如y i t, i = 1, 2, …, N; t = 1, 2, …, TN表示面板数据中含有N个个体。
T表示时间序列的最大长度。
若固定t不变,y i ., ( i = 1, 2, …, N)是随机变量在横截面上的N个数据;若固定i不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。
平衡面板数据(balanced panel data)。
非平衡面板数据(unbalanced panel data)。
例1998-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1。
人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。
表1.中国部分省级地区的居民数据(不变价格,元)二、面板数据模型及其作用1.经典面板数据模型建立在古典假定基础上的线性面板数据模型.2.非经典面板数据模型(1)非平稳时间序列问题的面板数据模型(面板数据协整模型)(2)非线性面板数据模型(如面板数据logit模型, 面板数据计数模型模型)(3)其他模型(如面板数据分位数回归模型)3.面板数据模型作用(1)描述个体行为差异。
(2)Panel Data能够提供更多信息、更多变化性、更少共线性、更多自由度和更高效率。
反观时间序列经常受多重共线性的困扰。
(3)Panel Data能够更好地研究动态调节,横截面分布看上去相对稳定但却隐藏了许多变化,Panel Data由于包含较长时间,能够弄清诸如经济政策变化对经济状况的影响等问题。
平行数据(Panel Data)模型厦门大学财政系王艺明平行数据(Panel Data)§平行数据是指对不同时刻的横截面个体作连续观测所得到的多维数据。
由于这类数据有着独特的优点,使平行数据模型目前已在计量经济学、社会学等领域有着较为广泛的应用。
§平行数据在EViews中被称为时序与横截面混合数据(pooled time series and cross-section data)。
平行数据模型是一类利用平行数量分析变量间相互关系并预测其变化趋势的计量经济模型。
模型能够同时反映研究对象在时间和横截面单元两个方向上的变化规律及不同时间、不同单元的特性。
Panel Data模型的基本设定§平行数据模型的基本假设:参数齐性假设,即被解释变量y由某一参数的概率分布函数P(y|θ)。
§假定时间序列参数齐性,及参数值不随时间的不同而变化,则平行数据模型可表示为:§yit =αi+βi’xit+εiti=1,…,N; t=1,…,T§xit ’=(x1it,x2it,…,xKit),为外生变量向量,βi’=(β1i ,β2i,…,βKi),为参数向量,K是外生变量个数,T是时期总数§其中参数αi 和βi都是个体时期恒量(individual time-invariant variable),其取值只受到截面单元不同的影响§E(εit )=0; E(εit2)=σi2; E(εitεjt)=σij; E(εitεjt-s)=0Panel Data 模型的基本设定I §根据模型的不同设定通常有三类估计方法§T 较大,N 较小。
通常采用时间序列模型的假设,即T 趋于无穷大,而N 固定、有限。
§该假设下,标准的方法是Zellner 的似无相关回归方法(Zellner Seemingly Unrelated Regression, SUR ),该方法考虑到回归方程间残差的相关性,即E(εit εjt )=σij ,采用GLS 方法估计似无相关回归(SUR)§假设要估计以下方程组§y1t=α1+β1’x1t+u1t§y2t=α2+β2’x2t+u2t§y3t=α3+β3’x3t+u3t§由于各种经济形态中存在的共同事件对不同横截面误差的影响方式类似,所以它们是同期相关的§Cov(u1t ,u2t)=σ12, Cov(u2t,u3t)=σ23,Cov(u1t,u3t)=σ13§这种情况下可采用Zellner(1962)的似无相关回归(SUR)方法进行参数估计似无相关回归(SUR)§其步骤为§1、使用OLS方法分别估计每个方程并求残)差(uit§2、使用残差估计方差和协方差(σ)ij§3、使用第2步中求得的估计值求所有参数的广义最小二乘估计值(FGLS)§在EViews中可以直接进行SUR估计Panel Data 模型的基本设定II §N 较大而T 较小。
Panel data 简介及其在eviews 中的应用武汉大学经济学系数量经济学教研室《实践教改项目组》编制面板数据(panel data )回归模型与规则的时间序列或截面数据回归模型的区别在于其变量有两个下标,它同时使用截面数据和时间序列数据。
一、panel data 的优点面板数据相对于时间序列数据或截面数据的优点:1.能提供给研究者大量的数据点,这样可以增加自由度并减少解释变量间的共线性,从而改进计量经济估计的有效性。
为了估计模型参数,样本点越多越好。
样本点越多,估计的结果有效性越好,当样本点足够多时,估计结果可以视为具有一致性; 2. 面板数据模型可以从多层面分析经济问题。
3. 与时间序列数据或截面数据相比,面板数据能够更好的进行识别并控制和检验更复杂的行为模型。
二、模型的基本结构和分类面板数据回归模型的主要结构如下:T t N i u a X y it it it ,,2,1,,,2,1,/==++=β (1)其中,i 表示截面维度,可以表示家庭,个人,公司,国家等等;t 表示时间序列维度,是面板数据所研究的时间区间;it X 为解释变量,β为1⨯K 维向量,K 为解释变量的个数,β是斜率,a 是截距。
模型的矩阵形式为:11221111111121111111221111111111⨯⨯⨯⨯⨯⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛+⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛''''''+⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛NT NT N T T k NT NT N T T NT NT NT N T T u u u u u u X X X X X X y y y y y y βα 其中()k t t itX X X ,11,1,''=' 众所周知,随机误差项it u 包含了模型解释变量所不能解释的所有其它因素,并且it u 满足一些经典假设,这些假设是我们估计模型参数的基础。
面板数据模型面板数据模型(Panel Data Model)是一种经济学和统计学中常用的数据分析方法,它允许研究人员在时间和个体维度上分析数据。
该模型结合了截面数据(Cross-sectional Data)和时间序列数据(Time Series Data),能够捕捉到个体间的异质性和时间的动态变化。
面板数据模型的基本假设是个体间存在固定效应(Fixed Effects)和时间效应(Time Effects),即个体特定的不变因素和时间特定的不变因素会对观测数据产生影响。
通过控制这些效应,面板数据模型可以更准确地估计变量之间的关系。
面板数据模型的普通形式可以表示为:Yit = α + βXit + εit其中,Yit表示第i个个体在第t个时间点的观测值,α是截距项,β是自变量Xit的系数,εit是误差项。
面板数据模型可以通过固定效应模型(Fixed Effects Model)和随机效应模型(Random Effects Model)来估计参数。
固定效应模型假设个体间的差异是固定的,即个体特定的不变因素对观测数据产生影响。
该模型通过引入个体固定效应来控制个体间的差异,估计其他变量对因变量的影响。
随机效应模型假设个体间的差异是随机的,即个体特定的不变因素对观测数据不产生影响。
该模型通过引入个体随机效应来控制个体间的差异,估计其他变量对因变量的影响。
面板数据模型的估计方法包括最小二乘法(Ordinary Least Squares, OLS)、固定效应估计法(Fixed Effects Estimation)和随机效应估计法(Random Effects Estimation)。
最小二乘法是一种常用的估计方法,但在面板数据模型中存在一致性问题。
固定效应估计法通过个体间的差异来估计参数,可以解决一致性问题。
随机效应估计法则通过个体间和时间间的差异来估计参数,可以更全面地捕捉到数据的变化。
面板数据模型在经济学和社会科学研究中具有广泛的应用。
第三部分面板数据模型——静态面板数据模型(短面板)一、引言1、基本概念混合数据(Pooled Data)面板数据(Panel data)短面板—大N小T(较多的出现在微观调查中)长面板—小N大T(较多的出现在宏观数据中)?30个省份(行业),20年的数据? N,T都不算大静态面板:解释变量不包含被解释变量的滞后值(本章研究静态短面板)动态面板:解释变量包括被解释变量的滞后值。
(下一章研究长面板和动态面板)2、面板模型的优点(1)使经济分析更为全面横截面:研究规模对产出,成本的影响时间序列:技术进步(混同规模)对产,成本的影响面板:同时研究规模,技术进步对产出成本的影响(2)多种共线的问题可以得到缓解(3)解决内生性的问题(重要,控制横截面个体异质性)二、面板模型的形式和分类 1.面板模型的一般的表述形式:,,1Kit it k it k it it k y x u αβ==++∑i=……N, 表示个体 t=1……T, 表示时间N* T 个观察值,如果不对系数施加约束,则无法求解。
这里X -是一组解释变量β-可以是变的,也可以是常数,k k itki ktββββ⎧⎪=⎨⎪⎩常系数模型变系数模型变系数模型 ,i it i αααααγ⎧⎪⎪=⎨⎪⎪+⎩t t 常截距 ,变截距,一维个体效应 ,变截距,一维时间效应 ,变截距,个体、时间效应,二维效应随机误差项可以分解,具体的it i t it u αγε=++ it i it u αε=+it t it u γε=+ it it u ε=其中ε相互独立,零均值,同方差it上述表述过于一般化,我们可以根据情况具体化进行讨论。
根据系数β是否变化,随机误差项μ的构成,以及解释变量和随机项的相关性,可以分类进行处理。
2、面板模型的分类 (1)混合模型模型的截距、系数,对于各个体成员、时间都相同。
,it it it y x u αβ=++或:0,it k k it it y x u αβ=++∑参数与I,t 均无关。
5.2 面板数据模型理论5.2.1 面板数据模型及类型。
面板数据(panel data )也称时间序列截面数据(time series and cross section data )或混合数据(pool data )。
面板数据是同时在时间和截面空间上取得的二维数据。
面板数据从横截面(cross section )上看,是由若干个体(entity, unit, individual )在某一时刻构成的截面观测值,从纵剖面(longitudinal section )上看是一个时间序列。
面板数据用双下标变量表示。
例如:it y , N i ,,2,1 =;T t ,,2,1 =其中,N 表示面板数据中含有的个体数。
T 表示时间序列的时期数。
若固定t 不变,•i y ),,2,1(N i =是横截面上的N 个随机变量;若固定i 不变,t y •,),,2,1(T t =是纵剖面上的一个时间序列。
对于面板数据来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data )。
若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data )。
面板数据模型是建立在面板数据之上、用于分析变量之间相互关系的计量经济模型。
面板数据模型的解析表达式为:it it it it it x y μβα++= T j N i ,2,1;,2,1==其中,it y 为被解释变量;it α表示截距项,),,,(21k it it itit x x x x =为k ⨯1维解释变量向量;'21),,,(k it it it it ββββ =为1⨯k 维参数向量;i 表示不同的个体;t 表示不同的时间;it μ为随机扰动项,满足经典计量经济模型的基本假设),0(~2μσμIIDN it 。
面板数据模型通常分为三类。
面板数据的模型(panel data model)王志刚 2004年11月11日一. 混合数据模型和面板数据模型如果扰动项it ε服从独立同分布假定,而且和解释变量不相关,那么就可以采用混合最小二乘法估计(Pooled OLS ),但是这里要注意POLS 暗含着一个假定就是,截距项和解释变量的系数是相同的,不随着个体和时间而变化。
我们一般采用单因子(one-way effects )模型,假定截距项具有个体异质性,也就是:这种模型是最常见的面板模型(又称为纵列数据longitudinal data ),因为面板数据往往要求个体纬度 N>>T(时间纬度),下面我们基本上以这种模型为例。
it u 是独立同分布,而且均值为0,方差为2u σ。
如对截距项和解释变量系数均有个体的异质性,那么要采用随机系数模型(Random coefficient model ),stata 的xtrchh 过程提供了相应的估计。
双因子模型(two-way ):it t i it u ++=γαε二. 固定效应(Fixed effects ) vs 随机效应(Random effects)如果个体效应i α是一个均值为0,方差为2ασ的独立同分布的随机变量,也就是()0,cov =it i x α,该模型就称为随机效应模型(又称为error component model );如果相关,则称为固定效应模型。
1.在随机效应模型中,it ε在每个个体内部存在着一阶自相关,因为他们都包含着相同的个体效应;此时OLS 无效,而且标准差也失真,应该采用广义最小二乘估计(GLS)其中:是个体按时间的均值;有待估计;我们可以通过对组内和组间估计得到相应的残差,从而可以计算出方差;T k n e e e e nnk nT ubetween between between between within within u 22222,,ˆˆ1σσσσσα-=-'='--=;组间估计:εβ+=..i i x y ;组内估计如下;2.如果个体效应和解释变量相关,OLS 和GLS 都将失效,此时要采用固定效应模型。
Panel Data (面板数据)是指对不同时刻的截面个体进行连续观测所得到的多维时间序列数据。
由于这类数据可以整合更多的信息,所以面板数据模型目前在计量经济学、社会学等领域有较为广泛的应用。
一、模型的基本类型一般的线性合成数据模型可表示为:it it itit it y x u αβ'=++(1,,;1,,i N t T == ) (1) 式中,it α为常数项;1(,,)itit Kit x x x '= 为外生变量向量;1(,,)it it Kit βββ'= 为参数向量;K 是外生变量个数;N 为截面单位总数;T 是时期总数。
随机扰动项it u 相互独立,且满足零均值、同方差。
而这里的it α,it β包含了时间和截面效应,it α可以进一步再分成总体效应与个体效应之和,即:it i t ααδη=++ (2)式中,α表示总体效应;i δ表示截面效应;t η表示时期效应。
截面效应和时期效应一起构成个体效应。
如果参数值不随时间的不同而变化,模型(1)可写为:it i i it it y x u αβ'=++ (变系数模型) (3)式中,参数i α与i β的取值只受到截面单元不同的影响。
在参数不随时间变化的情况下,截距和斜率参数可以有如下两种假设: 01H :回归斜率系数相同但截距不同,即有1N ββ== 。
此时模型变为:it i it it y x u αβ'=++ (变截距模型) (4) 02H :回归斜率系数联和截距都相同,即有1N αα== ;1N ββ== 。
此时模型变为:it it it y x u αβ'=++ (5) 注意:这里没有斜率系数不同而截距相同的假设,因为当斜率不同的时候,考虑截距相同没有实际意义。
判断样本数据究竟符合哪种模型形式,可用以下统计量检验:3121()[(1)(1)][(1)]S S N K F S NT N K --+=-+ 2111()[(1)][(1)]S S N K F S NT N K --=-+ 式中,1S 、2S 、3S 分别表示(3)、(4)、(5)式的残差平方和。
Panel Data模型的估计过程1.建立工作文件:CREATE A 1994 19992.建立Pool对象:在主菜单上点击Object \ New object,选择Pool,并输入Pool对象名:XF3.输入横截面标志:(为便于区别,标志名前加上_ )4.导入/ 输入数据:(1)在Pool窗口中点击View \ Spreadsheet (stacked data )(2)在序列窗口中输入序列名:cons? (注意Pool序列中统配符?都不可省略)(3)在序列窗口中先点击Edit按钮,进入数据输入/编辑状态(4)输入数据,此时可以手工输入,也可以从Excel表中直接复制-粘贴(这个方式较为方便),也可以从Excel文件导入(但必须先将Excel文件另存为win95格式,否则EViews不能识别);另外,序列窗口的数据顺序初始是按地区(横截面)排列,点击order按钮可以改成按年排列。
5.输入/ 生成其他变量数据:(1)再次点击View \ Spreadsheet (stacked data )(2)在序列窗口中输入新序列名:INC?(3)点击Procs \ Generate Pool Serise,生成新的Pool序列——上期消费CONS1:6.估计Panel Data模型:(1)打开Pool对象XF(2)点击Estimate按钮(3)在Estimation窗口中依次估计不同形式的模型:混合模型:在常系数栏(common coefficients)输入解释变量名cons1? inc?,在截据项栏(intercept)选择常数(common)变截据模型:在常系数栏(common coefficients )输入解释变量名cons1? inc?,在截据项栏(intercept )选择固定效应(fixed effects )变系数模型:在截面单元系数栏(cross section specific coefficients )输入解释变量名cons1? inc?, 在截据项栏(intercept )选择固定效应(fixed effects )7.8. Panel Data 模型的识别:∵ F 2={(1148951-299023) /[(28-1)(2+1)]}/[299023/28*5-28*3]=1.965 而 F 2 = 1.965 > F 0.05(81,56)=1.52 (利用Excel 的FINV 函数计算)∴ 拒绝H 20,模型不是混合回归模型又 ∵ F 1={(643899-299023) /[(28-1)*2]}/[299023/28*5-28*3]=1.196而 F 1 =1.196 < F 0.05(54,56)=1.56∴ 接受H 10,模型是变截据模型,而不是变系数模型,即各地区的边际消费倾向相同,差异只表现在平均水平上。