第七章_虚拟变量
- 格式:doc
- 大小:777.50 KB
- 文档页数:8
第七章 虚拟变量和随机解释变量本章将讨论两种不同的模型:虚拟变量模型和随机解释变量模型,以及模型设定的其它问题。
第一节 虚拟变量模型在我们以前考虑的模型中,解释变量都是定量变量(如成本、价格、收入、产出等),但在经济研究中,因变量经常受到一些定性变量的影响(如性别、种族、季节、不同历史时期等),我们把这类定性变量称为虚拟变量。
习惯上用D表示虚拟变量,虚拟变量的取值通常为0和1。
0表示变量具备某种属性,1表示变量不具备某种属性。
一、包含一个虚拟变量的模型如果我们要研究的问题中解释变量只分为两类。
则需引入一个模拟变量。
例9.1建立模型研究中国妇女在工作中是否受到歧视。
令Y=年薪,X=工作年限⎩⎨⎧=,女性,男性101D 可以建立如下模型:i i i i u D B X B B Y +++=210 )1.9( 与一般的回归模型一样,假定0)(=i u E 男性就业者的平均年薪:i i i i X B B D X Y E 10)0,(+== )2.9(女性就业者的平均年薪:210)1,(B X B B D X Y E i i i i ++== )3.9(如果B 2=0则说明不存在性别歧视,如果02<B ,则说明存在性别歧视。
图9.1表明男女就业者的平均年薪对工龄的函数具有相同斜率B 1,即随着工龄的增长男女工资的增长幅度相同;截距不同,说明男女的初始年薪不同。
我们称这种虚拟变量只影响截距不影响斜率的模型为加法模型。
图9.1不同性别就业者的收入(加法模型,B 2<0)如果随着工龄增加,男性与女性的年薪差距也发生变化,则模型(9.1)就变为i i i i i u X D B X B B Y +++=210 )4.9(图9.2描绘了男性年薪增加较快的情况。
我们称虚拟变量只影响斜率而不影响截距的模型为乘法模型如(9.4)如果男性与女性的初始年薪和年薪增加速度都有差异,我们可以将加法模型和乘法模型结合起来,得到如下模型i i i i i i u D B X D B X B B Y ++++=3210 )5.9(模型(9.5)可以用来表示截距和斜率都发生变化的模型。
第七章虚拟变量第一节虚拟变量的引入一、什么是虚拟变量前面几章介绍的解释变量都是可以直接度量的,称为定量变量。
如收入、支出、价格、资金等等。
但在现实经济生活中,影响应变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些无法定量的解释变量的影响,如性别、民族、国籍、职业、文化程度、政府经济政策变动等因素,他们只表示某种特征的存在与不存在,所以称为属性变量或定性变量。
属性变量:不能精确计量的说明某种属性或状态的定性变量。
在计量经济模型中,应当包含属性变量对应变量的影响作用。
那怎么才能把定性变量包括在模型中呢?属性变量通常是非数值变量,直接纳入回归方程中进行回归,显然是很困难的。
为此,人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与定量变量一样在回归模型中得以应用。
由于定性变量通常是表明某种特征或属性是否存在,如性别变量中以男性为分析基础的话,那就只有男性、非男性;政策变动变量中以政策不变为基准,则有政策不变,和政策变动;至于有两种以上的状态的话,比如学历分高中,本科,本科以上等等,我们又怎么办呢?把疑问留到后面去解决。
既然定性变量只有存在或不存在两种状态,所以量化的一般方法是取值为0或1。
称为虚拟变量。
虚拟变量:人工构造的取值为0或1的作为属性变量代表的变量。
一般常用D表示。
D=0,表示某种属性或状态不存在D=1,表示某种属性或状态存在比如前面说的性别变量,以男性为基准,则当样本为男性时,虚拟变量取0,当样本为女性时,则虚拟变量取1。
当虚拟变量作为解释变量引入计量经济模型时,对其回归系数的估计和统计检验方法都与定量解释变量相同。
二、虚拟变量的作用1、作为属性因素的代表,如,性别、种族等2、作为某些非精确计量的数量因素的代表,如:受教育程度、年龄段等;3、作为某些偶然因素或政策因素的代表,如战争、911等。
4、时间序列分析中作为季节(月份)的代表(比如对某些明显有淡季、旺季之分的产品)5、分段回归,研究斜率、截距的变动;6、比较两个回归模型;7、虚拟应变量概率模型,应变量本身是定性变量(比如你研究某产品的购买率,应变量本身就是买或不买)三、虚拟变量的设置规则1、虚拟变量D取值为0,还是取值为1,要根据研究的目的决定。
虚拟变量(dummy variable )在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。
例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。
这些因素也应该包括在模型中。
由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。
这种变量称作虚拟变量,用D 表示。
虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。
1.截距移动设有模型,y t = β0 + β1 x t + β2D + u t ,其中y t ,x t 为定量变量;D 为定性变量。
当D = 0 或1时,上述模型可表达为,β0 + β1x t + u t , (D = 0) y t = (β0 + β2) + β1x t + u t , (D = 1)204060204060XY图8.1 测量截距不同D = 1或0表示某种特征的有无。
反映在数学上是截距不同的两个函数。
若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。
例:中国成年人体重y (kg )与身高x (cm )的回归关系如下: –105 + x D = 1 (男)y = - 100 + x - 5D =– 100 + x D = 0 (女) 注意:① 若定性变量含有m 个类别,应引入m -1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap )。
② 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。
③ 定性变量中取值为0所对应的类别称作基础类别(base category )。
④ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。
如:1 (大学) D = 0 (中学) -1 (小学)。
β0β0+β2D = 1 D =0例1:中国季节GDP 数据的拟合(虚拟变量应用,file: Dummy05)1.21.62.02.42.896:196:397:197:398:198:399:199:300:100:3GDP1.01.52.02.53.00510152025TGDPGDP 序列图 不用虚拟变量的情形若不采用虚拟变量,得回归结果如下,GDP = 1.5427 + 0.0405 T(11.0) (3.5) R 2 = 0.3991, DW = 2.6, s.e. = 0.3 定义1 (1季度) 1 (2季度) 1 (3季度) D 1 = D2 = D3 =0 (2, 3,4季度) 0 (1, 3, 4季度) 0 (1, 2, 4季度)第4季度为基础类别。
GDP = 2.0922 + 0.0315 T – 0.8013 D1 – 0.5137 D2– 0.5014 D3 (64.2) (15.9) (-24.9) (-16.1) (-15.8)R 2= 0.9863, DW = 1.96, s.e. = 0.05附数据如下:年 GDP t D1 D2 D3 1996:1 1.3156 1 1 0 0 1996:2 1.6600 2 0 1 0 1996:3 1.5919 3 0 0 1 1996:4 2.22096 4 0 0 0 1997:1 1.46856 5 1 0 0 1997:2 1.84948 6 0 1 0 1997:3 1.7972 7 0 0 1 1997:4 2.3620 8 0 0 0 1998:1 1.58994 9 1 0 0 1998:2 1.88316 10 0 1 0 1998:3 1.97044 11 0 0 1 1998:4 2.51176 12 0 0 0 1999:1 1.6784 13 1 0 0 1999:2 1.9405 14 0 1 0 1999:3 2.0611 15 0 0 1 1999:4 2.5254 16 0 0 0 2000:1 1.8173 17 1 0 0 2000:2 2.1318 18 0 1 0 2000:3 2.2633 19 0 0 1 2000:4 2.7280 20 0 0 0数据来源:《中国统计年鉴》1998-20012.斜率变化以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。
当需要考虑时,可建立如下模型:y t = β0 + β1 x t + β2 D + β3 x t D + u t ,其中x t 为定量变量;D 为定性变量。
当D = 0 或1时,上述模型可表达为,(β0 + β2 ) + (β1 + β3)x t + u t , (D = 1) y t = β0 + β1 x t + u t , (D = 0) 通过检验 β3是否为零,可判断模型斜率是否发生变化。
20406080100204060X Y10203040506070204060TY图8.5 情形1(不同类别数据的截距和斜率不同) 图8.6 情形2(不同类别数据的截距和斜率不同)例2:用虚拟变量区别不同历史时期(file:dummy2)中国进出口贸易总额数据(1950-1984)见上表。
试检验改革前后该时间序列的斜率是否发生变化。
定义虚拟变量D 如下0 (1950 - 1977) D =1 (1978 - 1984)中国进出口贸易总额数据(1950-1984) (单位:百亿元人民币)年 trade time D time D 年trade time D time D 1950 0.415 1 0 0 1968 1.085 19 0 0 1951 0.595 2 0 0 1969 1.069 20 0 0 1952 0.646 3 0 0 1970 1.129 21 0 0 1953 0.809 4 0 0 1971 1.209 22 0 0 1954 0.847 5 0 0 1972 1.469 23 0 0 1955 1.098 6 0 0 1973 2.205 24 0 0 1956 1.087 7 0 0 1974 2.923 25 0 0 1957 1.045 8 0 0 1975 2.904 26 0 0 1958 1.287 9 0 0 1976 2.641 27 0 0 1959 1.493 10 0 0 1977 2.725 28 0 0 1960 1.284 11 0 0 1978 3.550 29 1 29 1961 0.908 12 0 0 1979 4.546 30 1 30 1962 0.809 13 0 0 1980 5.638 31 1 31 1963 0.857 14 0 0 1981 7.353 32 1 32 1964 0.975 15 0 0 1982 7.713 33 1 33 1965 1.184 16 0 0 1983 8.601 34 1 34 1966 1.271 17 0 0 1984 12.010 35 1 35 1967 1.122 18 0 0以时间time 为解释变量,进出口贸易总额用trade 表示,估计结果如下:trade = 0.37 + 0.066 time - 33.96D + 1.20 time D(1.86) (5.53) (-10.98) (12.42)0.37 + 0.066 time (D = 0, 1950 - 1977)=- 33.59 + 1.27 time (D = 1, 1978 - 1984)上式说明,改革前后无论截距和斜率都发生了变化。
进出口贸易总额的年平均增长量扩大了18倍。
例3:香港季节GDP 数据(单位:千亿港元)的拟合(虚拟变量应用, file:dummy6)1.01.52.02.53.03.54.0GDP1.01.52.02.53.03.54.0GDP1.6952+0.0377*T1990~1997年香港季度GDP呈线性增长。
1997年由于遭受东南亚金融危机的影响,经济发展处于停滞状态,1998~2002年底GDP总量几乎没有增长(见上图)。
对这样一种先增长后停滞,且含有季节性周期变化的过程简单地用一条直线去拟合显然是不恰当的。
为区别不同季节,和不同时期,定义季节虚拟变量D2、D3、D4和区别不同时期的虚拟变量DT 如下(数据见附录):1 (第2季度)D2 =0 (其他季度)1 (第3季度)D3 =0 (其他季度)1 (第4季度)D4 =0 (其他季度)1 (1998:1~2002:4)DT =0 (1990:1 ~1997:4)得估计结果如下:GDP t = 1.1573 + 0.0668 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4+ 1.8338 DT - 0.0654 DT t(50.8) (64.6) (3.7) (9.9) (11.0) (19.9) (-28.0)R2= 0.99, DW = 0.9, s.e. = 0.05, F=1198.4, T=52, t0.05 (52-7) = 2.01 对于1990:1 ~1997:4GDP t = 1.1573 + 0.0668 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4对于1998:1~2002:4GDP t = 2.9911 + 0.0014 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4如果不采用虚拟变量拟合效果将很差。
GDP t = 1.6952 + 0.0377 t(20.6) (13.9)R 2 = 0.80, DW = 0.3, T =52, t 0.05 (52-2) = 2.01案例5 天津市粮食市场小麦批发价与面粉零售价的关系研究(file: xiezhiyong ) 首先看天津市粮食市场小麦批发价格的变化情况(图1)。
1995年初,天津市粮食市场的小麦批发价格首先放开。
在经历5个月的上扬之后,进入平稳波动期。
从1996年8月份开始小麦批发价格一路走低。
至2002年12月份,小麦批发价格降至是1160元/吨。
其次看面粉零售价的变化情况。
因为面粉零售价格直接关系到居民的日常生活,所以开始时没有与小麦批发价格一起放开。
当小麦批发价格一路看涨时,1995年1月至1996年6月面粉零售价格一直处于2.14元/千克的水平上。
1996年7月起,面粉零售价格也开始在市场上放开。
受小麦批发价格上涨的影响,一个月内面粉零售价格从2.14元/千克涨到2.74元/千克。
在这个价位上坚持了11个月之后,面粉零售价格开始下降。
与小麦批发价格的下降相一致,在经历了5年零7个月的变化之后,面粉零售价格又恢复到接近开放前2.14元/千克的水平上(2.17元)。