第八章 虚拟变量回归
- 格式:ppt
- 大小:1.30 MB
- 文档页数:65
第八章 包含虚拟变量的回归模型一、虚拟变量的基本含义通常在回归分析中,因变量不仅受一些定量变量的影响,而且还受一些定性变量的影响,比如性别、种族、婚姻状况等等。
为了在模型中反映这些因素的影响,需要把定性因素进行“量化”。
通常是引进人工变量完成。
通过定性因素的属性类别,构造取值为0或者1的变量,如、 1代表男性, 0代表女性; 1代表某人是大学毕业, 0代表某人不是大学毕业,这类取值为0,1的变量称为虚拟变量(dummy variable )。
虚拟变量与定量变量一样可用于回归分析。
事实上,一个回归模型的解释变量可以仅仅是虚拟变量。
解释变量仅是虚拟变量的模型称为方差分析模型( analysis-of-variance models ) (ANOVA)。
例1:1i i Y D i βα=++ε,其中Y 表示职工工资,。
10i D ⎧=⎨⎩,本科学历,非本科学历这个模型与我们前面讨论过的双变量模型类似,但这里的解释变量是虚拟变量。
1(0)i E Y D β==,1(1)i E Y D βα==+显然,1β表示非大学毕业生的平均初职年薪,1βα+表示具有大学学历职工的平均工资,α代表二者之差。
回归模型中可以有同时有虚拟变量以及定量变量。
例2:考虑是否上过大学和工龄作为职工工资的模型:12i i i Y X D i ββαε=+++Y ,表示职工工资,X表示工龄,D同上。
含虚拟变量的模型只要扰动项符合古典假定,仍用OLS方法估计模型。
注意:虚拟变量系数显著性检验的意义::0H 0α=;:1H 0α≠。
同学们思考:这个检验在上面两个例子中分别具有何实际意义?二、虚拟变量的引入模型的方式 1、加法方式上面考察的例子都是加法方式。
注意虚拟变量模型的几何意义:以上述例2考察。
例3:如果上述职工工资方程(例2)中,学历考虑三个层次:高中以下、高中、大学及以上。
该如何建模?引进两个虚拟变量:,1 1 0 D ⎧=⎨⎩高中其他2 1 0 D ⎧=⎨⎩大学及以上其他121222Y X D D ββαα=++++ε请同学们分析模型的含义。
第八章 虚拟变量回归一、判断题1。
虚拟变量只能作为解释变量.(F)2。
引入虚拟变量后,用普通最小二乘法得到的估计量仍是无偏的。
( T )3.引入虚拟变量的个数与模型有无截距项无关.(F )4。
虚拟变量用来表示某些具有若干属性的变量.(T)5。
引入虚拟变量的个数与样本容量大小有关。
(F )二、单项选择题1.设消费函数011t t t y a a D b x u =+++,其中虚拟变量10D ⎧=⎨⎩东中部西部,如果统计检验表明10a =成立,则东中部的消费函数与西部的消费函数是( D ).A. 相互平行的 B 。
相互垂直的 C. 相互交叉的 D 。
相互重叠的2.虚拟变量( A )A 。
主要来代表质的因素,但在有些情况下可以用来代表数量因素B 。
只能代表质的因素C 。
只能代表数量因素D.只能代表季节影响因素3。
分段线性回归模型的几何图形是( D )A 。
平行线 B. 垂直线 C 。
光滑曲线 D. 折线4.如果一个回归模型中(包含截距项),对一个具有m 个特征的质的因素要引入虚拟变量数目为( B ).A.m B 。
m-1 C 。
m —2 D.m+15.设某商品需求模型为01t t t y b b x u =++,其中Y 是商品的需求量,X 是商品的价格,为了考虑全年12个月份季节变动的影响,假设模型中引入了12个虚拟变量,则会产生的问题为( D )。
A .异方差性B .序列相关C .不完全的多重共线性D .完全的多重共线性6.设消费函数为i i i 33i 22i 11o i u bx D D D y +++++=αααα,其中y 为消费,x 为收入,虚拟变量⎩⎨⎧=⎩⎨⎧=⎩⎨⎧=其他季度第三季度,其他季度第二季度,其他季度第一季度 0 0 0 321D 1D 1D 1,该模型中包含了几个定性影响因素?( A )。
A 。
1B 。
2C 。
3D 。
47。
设消费函数为i i i o i u Dx b x b D y ++++=101αα,其中虚拟变量⎩⎨⎧=农村家庭城镇家庭 0 1D ,当统计检验表明下列哪项成立时,表示城镇家庭与农村家庭有一样的消费行为( A ).A 。
第八章虚拟变量实验报告一、研究目的改革开放以来, 我国经济保持了长期较快发展, 我国对外贸易规模也日益增长。
尤其是2002年中国加入WTO之后, 我国对外贸易迅速扩张。
2012年, 我国进出口总值38667.6亿美元, 与上年同期相比增长6.2%, 我国贸易总额首次超过美国, 成为世界贸易规模最大的国家。
为了考察我国对外贸贸易与国内生产总值的关系是否发生变化, 以国内生产总值代表经济整体发展水平, 以对外贸易总额代表对外贸易发展水平, 分析我国对外贸易发展受国内生产总值的影响程度。
二、模型设定为研究我国对外贸易发展规模受我国总体经济发展程度影响, 引入国内生产总值为自变量。
设定模型为:+β1X t+ U tY t=β参数说明:Yt——对外贸易总额(单位: 亿元)Xt——国内生产总值(单位: 亿元)U t——随机误差项收集到数据如下(见表2-1)1993 11271 35333.92 2007 166740.2 265810.31 1994 20381.9 48197.86 2008 179921.5 314045.43 1995 23499.9 60793.73 2009 150648.1 340902.81 1996 24133.8 71176.59 2010 201722.1 401512.8 1997 26967.2 78973.03 2011 236402 472881.56 1998 26693.823 73617.66322注: 资料来源于《中国统计年鉴》1986-2012。
为了研究1985-2011年期间我国对外贸易总额随国内生产总值的变化规律是否有显著不同, 考证对外贸易与国内生产总值随时间变化情况, 如下图所示。
图2-1 对外贸易总额(Y)与国内生产总值(X)随时间变化趋势图从图2-1中, 可以看出对外贸易总额明显表现出了阶段特征: 在2002年、2007年和2009年有明显的转折点。
第八章 虚拟变量回归一、判断题1.虚拟变量只能作为解释变量。
(F )2. 引入虚拟变量后,用普通最小二乘法得到的估计量仍是无偏的。
( T )3.引入虚拟变量的个数与模型有无截距项无关。
(F )4.虚拟变量用来表示某些具有若干属性的变量。
(T )5.引入虚拟变量的个数与样本容量大小有关。
(F )二、单项选择题1.设消费函数011t t t y a a D b x u =+++,其中虚拟变量10D ⎧=⎨ ⎩东中部西部,如果统计检验表明10a =成立,则东中部的消费函数与西部的消费函数是( D )。
A. 相互平行的B. 相互垂直的C. 相互交叉的D. 相互重叠的2.虚拟变量( A )A.主要来代表质的因素,但在有些情况下可以用来代表数量因素B.只能代表质的因素C.只能代表数量因素D.只能代表季节影响因素3.分段线性回归模型的几何图形是( D )A. 平行线B. 垂直线C. 光滑曲线D. 折线4.如果一个回归模型中(包含截距项),对一个具有m 个特征的质的因素要引入虚拟变量数目为( B )。
A.mB.m-1C.m-2D.m+15.设某商品需求模型为01t t t y b b x u =++,其中Y 是商品的需求量,X 是商品的价格,为了考虑全年12个月份季节变动的影响,假设模型中引入了12个虚拟变量,则会产生的问题为( D )。
A .异方差性B .序列相关C .不完全的多重共线性D .完全的多重共线性6.设消费函数为i i i 33i 22i 11o i u bx D D D y +++++=αααα,其中y 为消费,x 为收入,虚拟变量⎩⎨⎧=⎩⎨⎧=⎩⎨⎧=其他季度第三季度,其他季度第二季度,其他季度第一季度 0 0 0 321D 1D 1D 1,该模型中包含了几个定性影响因素?( A )。
A.1B. 2C. 3D. 47. 设消费函数为i i i o i u Dx b x b D y ++++=101αα,其中虚拟变量⎩⎨⎧=农村家庭城镇家庭 0 1D ,当统计检验表明下列哪项成立时,表示城镇家庭与农村家庭有一样的消费行为( A )。
计量经济学:第⼋章虚拟变量回归第⼋章虚拟变量回归第⼀节虚拟变量的概念⼀、问题的提出计量经济学模型对变量的要求——可观测、可计量。
但在现实经济问题中,存在定性影响因素,⽐如1、属性(品质)因素的表达。
在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。
如收⼊在形成过程中,不同的性别所得到的收⼊是不⼀样的;在城乡、不同地区等收⼊存在差距;再⽐如,在我国,经济的发展⽔平对于不同的区域有不同的表现。
2、异常值现象。
当经济运⾏过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。
3、季节因素的影响。
有的经济现象存在明显的季节特征,如啤酒的消费。
那么,在建模过程中,季节变动这⼀因素怎样考虑?4、离散选择现象的描述。
如公共交通与私⼈交通的选择、商品购买与否的决策、求职者对职业的选择等。
第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。
称前⼀种情况为虚拟解释变量,后⼀种为虚拟被解释变量。
本章主要介绍虚拟解释变量的内容。
⼆、虚拟变量的定义1、定义。
设变量D 表⽰某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D 取值为0。
记为=不具有该属性具有某种属性01D2、虚拟变量引⼊的规则。
(1)在模型⾥存在截距项的条件下,如果⼀个属性存在m 个相互排斥类型(⾮此即彼),则在模型⾥引⼊m-1个虚拟变量。
否则,会出现完全的多重共线性。
但要注意,在模型⽆截距项的情况下,如果⼀个属性存在m 个类型,即便引⼊m 个变量,不会出现多重共线性问题。
(请思考为什么?)(2)虚拟变量取值为0,意味着所对应的类型是基础类型。
⽽虚拟变量取值为1,代表与基础类型相⽐较的类型,称为⽐较类型。
例如“有学历”D 为1,“⽆学历”D 为0,则“⽆学历”就是基础类型,“有学历”为⽐较类型。
(3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况D=0,第⼀个类型;D=1,第⼆个类型;……D=m-1,第m 个类型。
第八章虚拟变量回归第一节虚拟变量一、虚拟变量的基本概念在前面的分析中,被解释变量主要受到一些可以直接度量的变量影响,如收入、产出、商品需求量、价格、成本、资金、人数等。
但现实经济生活中,影响被解释变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些本质上为定性因素(或称属性因素)的影响,例如性别、种族、肤色、职业、季节、文化程度、战争、自然灾害、政府经济政策的变动等因素。
在实际经济分析中,这些定性变量有时具有不可忽视的重要影响。
例如,研究某个企业的销售水平,产业部门(制造业、零售业)、所有制(私营、非私营)、地理位置(东、中、西部)、管理者素质的高低等是值得经常考虑的影响因素,这些因素有共同的特征,即都是表示某种属性的,不能直接用数据精确描述的因素。
因此,被解释变量的变动经常是定量因素和属性因素共同作用的结果。
在计量经济模型中,应当同时包含定量和属性两种因素对被解释变量的影响作用。
定量因素是指那些可直接测度的数值型因素,如GDP、M2等。
定性因素,或称为属性因素,是不能直接测度的、说明某种属性或状态存在与否的非数值型因素,如男性或女性、城市居民或非城市居民、气候条件正常或异常、政府经济政策不变与改革等。
在计量经济学的建模中应当将定量因素和定性因素同时纳入模型之内。
为了在模型中反映定性因素,可以将定性因素转化为虚拟变量去表现。
虚拟变量(或称为属性变量、双值变量、类型变量、定性变量、二元型变量等),是人工构造的取值为0和1的作为属性变量代表的变量,一般用字母D(或DUM,英文dummy的缩写)表示。
属性因素通常具有若干类型或水平,通常虚拟变量的取值为0和1,当虚拟变量取值为0,即D=0时,表示某种属性或状态不出现或不存在,即不是某种类型;当虚拟变量取值为1,即D=1时,表示某种属性或状态出现或存在,即是某种类型。
例如,构造政府经济政策人工变量,当经济政策不变时,虚拟变量取值为0,当经济政策改变时,虚拟变量取值为1。