计量经济学:第八章 虚拟变量回归
- 格式:doc
- 大小:345.00 KB
- 文档页数:13
第八章 包含虚拟变量的回归模型一、虚拟变量的基本含义通常在回归分析中,因变量不仅受一些定量变量的影响,而且还受一些定性变量的影响,比如性别、种族、婚姻状况等等。
为了在模型中反映这些因素的影响,需要把定性因素进行“量化”。
通常是引进人工变量完成。
通过定性因素的属性类别,构造取值为0或者1的变量,如、 1代表男性, 0代表女性; 1代表某人是大学毕业, 0代表某人不是大学毕业,这类取值为0,1的变量称为虚拟变量(dummy variable )。
虚拟变量与定量变量一样可用于回归分析。
事实上,一个回归模型的解释变量可以仅仅是虚拟变量。
解释变量仅是虚拟变量的模型称为方差分析模型( analysis-of-variance models ) (ANOVA)。
例1:1i i Y D i βα=++ε,其中Y 表示职工工资,。
10i D ⎧=⎨⎩,本科学历,非本科学历这个模型与我们前面讨论过的双变量模型类似,但这里的解释变量是虚拟变量。
1(0)i E Y D β==,1(1)i E Y D βα==+显然,1β表示非大学毕业生的平均初职年薪,1βα+表示具有大学学历职工的平均工资,α代表二者之差。
回归模型中可以有同时有虚拟变量以及定量变量。
例2:考虑是否上过大学和工龄作为职工工资的模型:12i i i Y X D i ββαε=+++Y ,表示职工工资,X表示工龄,D同上。
含虚拟变量的模型只要扰动项符合古典假定,仍用OLS方法估计模型。
注意:虚拟变量系数显著性检验的意义::0H 0α=;:1H 0α≠。
同学们思考:这个检验在上面两个例子中分别具有何实际意义?二、虚拟变量的引入模型的方式 1、加法方式上面考察的例子都是加法方式。
注意虚拟变量模型的几何意义:以上述例2考察。
例3:如果上述职工工资方程(例2)中,学历考虑三个层次:高中以下、高中、大学及以上。
该如何建模?引进两个虚拟变量:,1 1 0 D ⎧=⎨⎩高中其他2 1 0 D ⎧=⎨⎩大学及以上其他121222Y X D D ββαα=++++ε请同学们分析模型的含义。
第八章虚拟变量模型1. 回归模型中引入虚拟变量的作用是什么?答:在模型中引入虚拟变量,主要是为了寻找某(些)定性因素对解释变量的影响。
加法方式与乘法方式是最主要的引入方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
2. 虚拟变量有哪几种基本的引入方式? 它们各适用于什么情况?答:在模型中引入虚拟变量的主要方式有加法方式与乘法方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
3.什么是虚拟变量陷阱?答:根据虚拟变量的设置原则,一般情况下,如果定性变量有m个类别,则需在模型中引入m-1个变量。
如果引入了m个变量,就会导致模型解释变量出现完全的共线性问题,从而导致模型无法估计。
这种由于引入虚拟变量个数与类别个数相等导致的模型无法估计的问题,称为“虚拟变量陷阱”。
4.在一项对北京某大学学生月消费支出的研究中,认为学生的消费支出除受其家庭的每月收入水平外,还受在学校中是否得到奖学金,来自农村还是城市,是经济发达地区还是欠发达地区,以及性别等因素的影响。
试设定适当的模型,并导出如下情形下学生消费支出的平均水平:(1) 来自欠发达农村地区的女生,未得到奖学金;(2) 来自欠发达城市地区的男生,得到奖学金;(3) 来自发达地区的农村女生,得到奖学金;(4) 来自发达地区的城市男生,未得到奖学金。
解答: 记学生月消费支出为Y,其家庭月收入水平为X,则在不考虑其他因素的影响时,有如下基本回归模型:Y i=β0+β1X i+μi有奖学金1 来自城市无奖学金0 来自农村来自发达地区 1 男性0 来自欠发达地区0 女性Y i=β0+β1X i+α1D1i+α2D2i+α3D3i+α4D4i+μi由此回归模型,可得如下各种情形下学生的平均消费支出:(1) 来自欠发达农村地区的女生,未得到奖学金时的月消费支出:E(Y i|= X i, D1i=D2i=D3i=D4i=0)=β0+β1X i(2) 来自欠发达城市地区的男生,得到奖学金时的月消费支出:E(Y i|= X i, D1i=D4i=1,D2i=D3i=0)=(β0+α1+α4)+β1X i(3) 来自发达地区的农村女生,得到奖学金时的月消费支出:E(Y i |= X i , D 1i =D 3i =1,D 2i =D 4i =0)=(β0+α1+α3)+β1X i (4) 来自发达地区的城市男生,未得到奖学金时的月消费支出: E(Y i |= X i ,D 2i =D 3i =D 4i =1, D 1i =0)= (β0+α2+α3+α4)+β1X i5. 研究进口消费品的数量Y 与国民收入X 的模型关系时,由数据散点图显示1979年前后Y 对X 的回归关系明显不同,进口消费函数发生了结构性变化:基本消费部分下降了,而边际消费倾向变大了。
第八章虚拟解释变量回归第一节虚拟变量一、虚拟变量的差不多概念在前面的分析中,被说明变量要紧受到一些能够直截了当度量的变量阻碍,如收入、产出、商品需求量、价格、成本、资金、人数等。
但现实经济生活中,阻碍被说明变量变动的因素,除了这些能够直截了当获得实际观测数据的定量变量外,还包括一些本质上为定性因素(或称属性因素)的阻碍,例如性别、种族、肤色、职业、季节、文化程度、战争、自然灾难、政府经济政策的变动等因素。
在实际经济分析中,这些定性变量有时具有不可忽视的重要阻碍。
例如,研究某个企业的销售水平,产业部门(制造业、零售业)、所有制(私营、非私营)、地理位置(东、中、西部)、治理者素养的高低等是值得经常考虑的阻碍因素,这些因素有共同的特点,即差不多上表示某种属性的,不能直截了当用数据精确描述的因素。
因此,被说明变量的变动经常是定量因素和属性因素共同作用的结果。
在计量经济模型中,应当同时包含定量和属性两种因素对被说明变量的阻碍作用。
定量因素是指那些可直截了当测度的数值型因素,如GDP、M2等。
定性因素,或称为属性因素,是不能直截了当测度的、说明某种属性或状态存在与否的非数值型因素,如男性或女性、都市居民或非都市居民、气候条件正常或专门、政府经济政策不变与改革等。
在计量经济学的建模中应当将定量因素和定性因素同时纳入模型之内。
为了在模型中反映定性因素,能够将定性因素转化为虚拟变量去表现。
虚拟变量(或称为属性变量、双值变量、类型变量、定性变量、二元型变量等),是人工构造的取值为0和1的作为属性变量代表的变量,一样用字母D(或DUM,英文dummy的缩写)表示。
属性因素通常具有若干类型或水平,通常虚拟变量的取值为0和1,当虚拟变量取值为0,即D=0时,表示某种属性或状态不显现或不存在,即不是某种类型;当虚拟变量取值为1,即D=1时,表示某种属性或状态显现或存在,即是某种类型。
例如,构造政府经济政策人工变量,当经济政策不变时,虚拟变量取值为0,当经济政策改变时,虚拟变量取值为1。
第八章 虚拟变量回归第一节 虚拟变量的概念一、问题的提出计量经济学模型对变量的要求——可观测、可计量。
但在现实经济问题中,存在定性影响因素,比如1、属性(品质)因素的表达。
在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。
如收入在形成过程中,不同的性别所得到的收入是不一样的;在城乡、不同地区等收入存在差距;再比如,在我国,经济的发展水平对于不同的区域有不同的表现。
2、异常值现象。
当经济运行过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。
3、季节因素的影响。
有的经济现象存在明显的季节特征,如啤酒的消费。
那么,在建模过程中,季节变动这一因素怎样考虑?4、离散选择现象的描述。
如公共交通与私人交通的选择、商品购买与否的决策、求职者对职业的选择等。
第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。
称前一种情况为虚拟解释变量,后一种为虚拟被解释变量。
本章主要介绍虚拟解释变量的内容。
二、虚拟变量的定义1、定义。
设变量D 表示某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D 取值为0。
记为⎩⎨⎧=不具有该属性具有某种属性01D2、虚拟变量引入的规则。
(1)在模型里存在截距项的条件下,如果一个属性存在m 个相互排斥类型(非此即彼),则在模型里引入m-1个虚拟变量。
否则,会出现完全的多重共线性。
但要注意,在模型无截距项的情况下,如果一个属性存在m 个类型,即便引入m 个变量,不会出现多重共线性问题。
( 请思考为什么?)(2)虚拟变量取值为0,意味着所对应的类型是基础类型。
而虚拟变量取值为1,代表与基础类型相比较的类型,称为比较类型。
例如“有学历”D 为1,“无学历”D 为0,则“无学历”就是基础类型,“有学历”为比较类型。
(3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况D=0, 第一个类型;D=1, 第二个类型;……D=m-1, 第m 个类型。
原因是上述情况没有反映出属性类型的相互排斥性。
第二节 虚拟解释变量的回归一、加法引入规则1、加法引入规则,虚拟解释变量与别的解释变量以相加的关系出现在模型里。
加法引入虚拟变量对模型产生的结果是只改变截距项。
设模型为123i i i iY X D u βββ=+++ 式中,i D 为虚拟变量,它与其它解释变量是相加的关系。
如果虚拟变量按这种方式引入模型,则称虚拟变量按加法类型引入。
2、加法引入虚拟变量的应用。
(1)模型中只有一个定性解释变量。
设模型形式为12i i i Y D u ββ=++ n i ,,3,2,1 =其中,i D 为具有两个属性类型的定性变量,如在教材第217页,设i Y 为居民的年可支配收入,i D 为虚拟变量,其取值表示为:i D =1表示城镇居民;i D =0表示农村居民。
即1,0i D ⎧=⎨⎩城镇居民,农村居民,1,2,3,,i n =该方程的意义在于,在其它因素不变的条件下,城镇居民与农村居民的收入是否具有显著性差异。
由此得到城镇居民的年平均收入:12(|1)i i E Y D ββ==+。
农村居民的年平均收入为:1(|0)i i E Y D β==为了检验城镇居民和农村居民的差异对年平均收入的影响是否具有显著性,可构造假设:0212:0;:0H H ββ=≠ 对上述模型进行回归,利用样本统计量对假设作出判断(t 检验)。
只有一个定性解释变量往往可用于检验一个属性因素对被解释变量的影响是否显著性存在。
(2)模型中有一个定量解释变量和一个定性解释变量。
设模型形式为123i i i iY X D u βββ=+++ 式中,i Y 为消费支出;i X 为收入;i D 为虚拟变量,即1,0i D ⎧=⎨⎩城镇居民,农村居民,1,2,3,,i n =上述表达式的意义在于,在收入不变的条件下,研究城镇居民和农村居民对消费的不同影响,即判断城乡居民在消费上是否存在显著性差异。
农村居民年平均消费:12(,|,0)i i i i E Y X D X ββ==+城镇居民年平均消费:122(,|,1)()i i i i E Y X D X βββ==++可以看出,城镇居民和农村居民两种收入类型的斜率系数一样,但截距不同。
说明两种类型的居民在收入的水平上存在2β的规模差异。
这一假定也可通过对2β的显著性检验来判断。
(3)模型中有一个定量解释变量和一个定性解释变量,但有多个属性类型。
设模型形式为12233i i i i i Y D D X u αααβ=++++ 式中,i Y 为年医疗保健费支出;i X 为居民年可支配收入;如果将受教育程度分为三种类型:高中以下、高中、大专及大专以上,则引入虚拟变量为如下两个231,0,i i D D ⎧=⎨⎩⎧=⎨⎩1,高中及高中以上0,其他大专及大专以上其他高中以下的年平均医疗保健费支出:231(|,0,0)i i i i i E Y X D D X αβ===+高中的年平均医疗保健费支出:2312(|,1,0)()i i i i i E Y X D D X ααβ===++大专及大专以上年平均医疗保健费支出:2313(|,0,1)()i i i i i E Y X D D X ααβ===++对于模型12233i i i i i Y D D X u αααβ=++++ 有(4)模型中有一个定量解释变量和两个以上定性解释变量,每个定性解释变量有两个或以上属性类型。
设模型形式为12233i i i i i Q D D Y u αααβ=++++式中,i Q 为卷烟需求量;i Y 为居民可支配收入,考虑两种不同属性:不同区域的居民,即城镇居民与农村居民;不同性别,即男与女。
因此各引入一个虚拟变量231,01,0,i i D D ⎧=⎨⎩⎧=⎨⎩城镇居民,农村居民男性女性农村女性居民:231(|,0,0)i E Q Y D D Y αβ===+农村男性居民:2313(|,0,1)()i E Q Y D D Y ααβ===++城镇女性居民:2312(|,1,0)()i E Q Y D D Y ααβ===++城镇男性居民:23123(|,1,1)()i E Q Y D D Y αααβ===+++(5)对模型中存在异常值的修正。
设模型形式为12t t t Y X u ββ=++由于某种突发因素的干扰,使得在0t t =时刻随机误差产生系统性偏离,即000,()(0),t t t E u c c t t ≠⎧=⎨≠=⎩这时,可引入虚拟变量000,1,t t t D t t ≠⎧=⎨=⎩则12t t t t Y X cD v ββ=+++其中,t t t v u cD =-,对t v 求数学期望,有()()0t t t E v E u c D=-= 表明新的随机误差项t v 满足零均值假定,从而可用OLS 法对引入虚拟变量的模型求参数的估计。
当0t t =时,12(|,1)()t t t t E Y X D c X ββ==++当0t t ≠时,12(|,0)t t t t E Y X D X ββ==+还有一种情况,研究消费行为,认为消费水平C 主要受到收入水平Y 的影响,但对于正常年份和反常年份,消费行为的表现是不同的,这时可考虑引入虚拟变量1,0t D ⎧=⎨⎩正常年份,反常年份则012t t t t C Y D u ααα=+++有当正常年份时,021(|,1)()t t t t E C Y D Y ααα==++当反常年份时,01(|,0)t t t t E C Y D Y αα==+进一步对参数估计,利用样本统计量对总体参数2α作检验,从而可判断正常年份消费行为与反常年份消费是否存在差异。
(6)对季节因素的修正。
假设i Y 是具有某种季节特征的消费行为(如啤酒、汗衫等商品的消费),这时需要对季节波动进行调整,下面介绍利用虚拟变量来调整季节变化。
设模型形式为1t t tY X u αβ=++ 季节为属性因素,按自然属性有4个不同的季节(春、夏、秋、冬),即4个属性类型。
因此,在有截距项的前提下,可引入3个虚拟变量,即2341,11,21,3,0,0,0,t t t D D D ⎧⎧⎧===⎨⎨⎨⎩⎩⎩季度季度季度,其它其它其它引入季节虚拟变量的模型为1223344t t t t t t Y D D D X u ααααβ=+++++第1季度,23412(|,1,0)()t t t t t t E Y X D D D X ααβ====++第2季度,32413(|,1,0)()t t t t t t E Y X D D D X ααβ====++第3季度,42314(|,1,0)()t t t t t t E Y X D D D X ααβ====++第4季度,2341(|,0)t t t t t t E Y X D D D X αβ====+二、乘法引入规则1、以乘法形式引入虚拟变量,是在所设定的模型里,将虚拟解释变量与其它解释变量用乘积作为新的解释变量。
乘法引入虚拟解释变量将改变模型中的斜率系数。
设模型为12()t t t t t Y X X D u ααβ=+++或者1212()t t t t t Y X D D u ααβ=+++其中,t X 为定量解释变量,12,,t t t D D D 均为虚拟变量。
按上述形式引入虚拟变量即为乘法引入。
2、乘法引入虚拟解释变量的应用。
(1)检验模型的结构是否发生了变化。
设模型形式为1212()t t t t t t Y D X D X u ααββ=++++ 式中,t Y 为储蓄总额,t X 为收入总额,t D 为虚拟变量,即1,0,t D ⎧=⎨⎩改革开放前改革开放后 改革开放后,平均储蓄额为11(|,0)t t t t E Y X D X αβ==+改革开放前,平均储蓄额为1212(|,1)()()t t t t E Y X D X ααββ==+++在上式中2α被称为截距差异系数,2β被称为斜率差异系数,它们分别代表改革开放前后储蓄函数的截距与斜率存在的差异。
结构变化的专门检验——邹氏检验(在EViews 里的记号为CHOW 检验,该内容自学)。
(3)交互效应。
在实际经济活动中,多个定性解释变量对被解释变量的影响可能存在一种交互影响,即一个变量的边际效应可能要依赖于另外变量的变动(即由于变量间的交互作用而对解释变量的影响)。
这时可用乘法引入虚拟变量的方法来表示。
设模型形式为i i i i i u X D D Y ++++=βααα33221其中 ,i Y 为农副产品生产总收益,i X 为农副产品生产投入,i D 2为油菜籽生产虚拟变量,i D 3为养蜂生产虚拟变量。