【计量经济学】虚拟变量的回归
- 格式:ppt
- 大小:592.50 KB
- 文档页数:51
关于虚拟变量(Dummy Variable )的回归1.虚拟变量的性质● 在回归分析中,应变量不仅受量化好了的变量的影响,还受定性性质的变量的影响(如性别,种族,肤色,宗教,国籍,地震等等)● 这类定性变量指某一“性质”或属性出现或不出现。
量化这些变量的方法,是构造一个取值1或0 的人为变量,0代表某一属性不出现,而1代表该属性出现。
● 取这样的0和1 值的变量叫做虚拟变量 (dummy variable)● 在回归分析中,可以清一色的使用虚拟变量,这样的模型叫做方差分析模型(analysis of variance, ANOV A ), 例:i i i u D Y ++=βα其中Y=学院教授的年薪 D i = 1 若是男教授= 0 若是女教授● 学院女教授的平均薪金:α==)0/(i i D Y E 学院男教授的平均薪金:βα+==)1/(i i D Y E● 截距项α给出学院女教授的平均薪金,而斜率系数β告诉我们学院男教授和女教授的平均薪金的差额,α+β反映学院男教授的平均薪金。
● 在大多数经济研究中,一个回归模型既含有一些定量的又含有一些定性的解释变量。
协方差分析(analysis of covariance ANCOV A )2.对一个定量变量和一个两分定性变量的回归● ANCOV 的一个例子:i i i i u X D Y +++=βαα21其中Y i = 学院教授的年薪 X i = 教龄 D i = 1 若是男教授 = 0 若是女教授● 假定和平常一样E (u i )=0,学院女教授的平均薪金:i i i X D Y E βα+==1)0/( 学院男教授的平均薪金:i i i X D Y E βαα++==)()1/(21 ● 图● 以上模型设想学院男教授和女教授的薪金作为教龄的函数,有相同的斜率,但不同的截距● 如果2α统计上显著,则表明有性别歧视● 上述虚拟变量回归模型有以下特点:(1) 为了区分两个类别,男性和女性,我们只引进了一个虚拟变量D i 。
第六章 虚拟变量的回归模型第一部分 学习目标和要求本章主要介绍虚拟变量的基本概念及其应用。
需要掌握并理解以下内容:(1) 虚拟变量的基本概念、虚拟变量分别作为解释变量和被解释变量的情形、虚拟变量回归模型的类型和解释变量个数选取规则; (2) 定量变量与不同数量定性变量(一对一、一对多和多对多)虚拟变量模型; (3) 应用虚拟变量改变回归直线的截距或斜率; (4) 分段线性回归;(5) 应用虚拟变量检验回归模型的结构稳定性、传统判别结构稳定性的方法及存在的缺陷、虚拟变量法比较两个回归方程的结构方法。
第二部分 练习题一、解释下列概念:1.虚拟变量2.方差分析模型(ANOV A ) 3.协方差模型(ANOCV A ) 4.基底5.级差截距系数 6.虚拟变量陷阱二、简要回答下列问题:1.虚拟变量在线性回归模型中的作用是什么?举例说明。
2.回归模型中虚拟变量个数的选取原则是什么?为什么?3.如果现在有月度数据,在对下面的假设进行检验时,你将引入几个虚拟变量? A) 一年中的每月均呈现季节性波动趋势;B) 只有双数月份呈现季节性波动趋势。
4.如果现在让你着手检验上海和深圳两个股票市场在过去5年内的收益率是否有显著差异,如何使用虚拟变量进行?三、考虑如下模型:12i i i Y D u ββ=++其中,i D 对前20个观察值取0,对后30个观察值取1。
已知2()300i Var u =。
(1) 如何解释1β和2β? (2) 这两组的均值分别是多少?(3) 已知12()15Cov ββ∧∧+=-。
如何计算12()ββ∧∧+的方差?四、考虑如下模型:12i i i i Y D X u ααβ=+++ 其中Y 代表一位大学教授的年薪; X 为从教年限; D 为性别虚拟变量。
考虑定义虚拟变量的三种方式:(1)D 对男性取值1,对女性取值0; (2)D 对女性取值1,对男性取值2; (3)D 对女性取值1,对男性取值-1;对每种虚拟变量定义解释上述回归模型。
虚拟变量回归
虚拟变量回归是指将一个分类变量转化为虚拟变量(也称为哑变量或指示变量),并将其作为解释变量在回归模型中使用。
虚拟变量是一种二元变量,其中一个变量用1表示某个类别,另一个变量用0表示不属于该类别。
例如,当一个分类变量有三个类别时,可以创建两个虚拟变量来表示这三个类别,分别是0-1变量A和0-1变量B,它们满足如下条件:
- 当分类变量属于A类时,变量A为1,变量B为0;
- 当分类变量属于B类时,变量A为0,变量B为1;
- 当分类变量属于C类时,变量A和变量B均为0。
在回归模型中使用虚拟变量可以使我们将分类变量的不同类别彼此对比,并推断它们对应的不同的回归系数,从而更好地解释和预测因变量。
虚拟变量回归在经济学、社会学、医疗保健等领域中很常见,可以用来研究诸如性别、种族、政治党派、行业等分类变量对某一因变量的影响。
计量经济学:第⼋章虚拟变量回归第⼋章虚拟变量回归第⼀节虚拟变量的概念⼀、问题的提出计量经济学模型对变量的要求——可观测、可计量。
但在现实经济问题中,存在定性影响因素,⽐如1、属性(品质)因素的表达。
在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。
如收⼊在形成过程中,不同的性别所得到的收⼊是不⼀样的;在城乡、不同地区等收⼊存在差距;再⽐如,在我国,经济的发展⽔平对于不同的区域有不同的表现。
2、异常值现象。
当经济运⾏过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。
3、季节因素的影响。
有的经济现象存在明显的季节特征,如啤酒的消费。
那么,在建模过程中,季节变动这⼀因素怎样考虑?4、离散选择现象的描述。
如公共交通与私⼈交通的选择、商品购买与否的决策、求职者对职业的选择等。
第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。
称前⼀种情况为虚拟解释变量,后⼀种为虚拟被解释变量。
本章主要介绍虚拟解释变量的内容。
⼆、虚拟变量的定义1、定义。
设变量D 表⽰某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D 取值为0。
记为=不具有该属性具有某种属性01D2、虚拟变量引⼊的规则。
(1)在模型⾥存在截距项的条件下,如果⼀个属性存在m 个相互排斥类型(⾮此即彼),则在模型⾥引⼊m-1个虚拟变量。
否则,会出现完全的多重共线性。
但要注意,在模型⽆截距项的情况下,如果⼀个属性存在m 个类型,即便引⼊m 个变量,不会出现多重共线性问题。
(请思考为什么?)(2)虚拟变量取值为0,意味着所对应的类型是基础类型。
⽽虚拟变量取值为1,代表与基础类型相⽐较的类型,称为⽐较类型。
例如“有学历”D 为1,“⽆学历”D 为0,则“⽆学历”就是基础类型,“有学历”为⽐较类型。
(3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况D=0,第⼀个类型;D=1,第⼆个类型;……D=m-1,第m 个类型。
计量经济学作用-虚拟变量回归虚拟变量回归实验目的:分析1965~1970年美国制造业利润和销售额,季度的关系。
实验要求:假定利润不仅与销售额有关,而且和季度因素有关(1)如果认为季度影响使利润平均值发生变异,应如何引入虚拟变量?(2)如果认为季度影响使利润对销售额的变化率发生变异,应如何引入虚拟变量?(3)如果认为上诉两种情况都存在,又当如何引入虚拟变量?(4)对上述三种情况分别估计利润模型,进行对比分析。
实验原理:最小二乘法原理实验步骤:由于有四个季度,因此引入三个季度虚拟变量:其它一季度=012D 其它二季度=013D 其它三季度?=014D 一、如果认为季度影响使利润平均值发生变异,应以加法类型引入三个虚拟变量,设其模型为:u X D D D Y tt t +++++=βαααα4433221 对模型进行回归,得到以下回归结果:Dependent Variable: YMethod: Least SquaresDate: 11/26/10 Time: 15:02Sample: 1965Q1 1970Q4Included observations: 24 Variable Coefficient Std. Error t-Statistic Prob. C 6910.449 1922.350 3.594792 0.0019X 0.038008 0.011670 3.256914 0.0041D2 -187.7317 660.1218 -0.284390 0.7792D3 1169.320 637.0766 1.835446 0.0821D4 -417.1182 640.8333 -0.650900 0.5229 R-squared 0.517642 Mean dependent var 12838.54Adjusted R-squared 0.416093 S.D. dependent var 1433.284 S.E. of regression 1095.227 Akaike info criterion 17.01836Sum squared resid 22790932 Schwarz criterion 17.26379Log likelihood -199.2204 F-statistic 5.097454Durbin-Watson stat 0.396350 Prob(F-statistic) 0.005810 Y t ^=6910.449-187.7317D 2+1169.320D 3-417.1182D 4+0.038008X tSe=(1922.350)(660.1218)(637.0766)(640.8333)(0.011670)t=(3.594792)(-0.284390)(1.835446)(-0.650900)(3.256914) R 2=0.517642 R -2=0.416093 F=5.097454 DW=0.396350二、如果认为季度影响使利润对销售额的变化率发生变化,应以乘法类型引入三个虚拟变量,设其模型为:Y t =u D X D X D X X t t t t t +++++43322110αααββ 对上述模型进行回归,得到以下结果:Dependent Variable: YMethod: Least SquaresDate: 11/26/10 Time: 17:53Sample: 1965Q1 1970Q4Included observations: 24Variable Coefficient Std. Error t-StatisticProb. C 7014.757 1782.932 3.9343940.0009 X 0.037068 0.011322 3.2738960.0040 X*D2 -0.000933 0.004302 -0.2167760.8307 X*D3 0.007910 0.004018 1.9685410.0638 X*D4 -0.002385 0.004074 -0.5852900.5652 R-squared 0.519733 Mean dependent var12838.54 Adjusted R-squared 0.418624 S.D. dependent var 1433.284 S.E. of regression 1092.851 Akaike info criterion17.01402 Sum squared resid 22692129 Schwarz criterion17.25945 Log likelihood -199.1682 F-statistic5.140331 Durbin-Watson stat 0.429628 Prob(F-statistic)0.005594=Y t ^7014.757+0.037068X t -0.000933D X t 2+0.007910D X t 3-0.002385D X t 4 se=(1782.932)(0.011322)(0.004302)(0.004018)(0.004074)t=(3.934394)(3.273896)(-0.216776)(1.968541)(-0.585290)R 2=0.519733 R -2=0.418624 F=5.140331 DW=0.429628三、若上述两种情况都存在,应以加法和乘法相结合的方式引入三个虚拟变量,设模型为:u D X D X D X X D D D Y t t t t t t ++++++++=44332214433221ββββαααα对上述回归模型进行回归得到以下回归结果:Dependent Variable: YMethod: Least SquaresDate: 11/26/10 Time: 17:54Sample: 1965Q1 1970Q4Included observations: 24 Variable Coefficient Std. Error t-Statistic Prob. C 10457.39 4075.199 2.566105 0.0207X 0.015868 0.025265 0.628075 0.5388D2 -4752.257 5441.682 -0.873307 0.3954D3 -3764.208 5484.872 -0.686289 0.5024D4 -4635.464 5570.057 -0.832211 0.4175X*D2 0.029207 0.035426 0.824467 0.4218X*D3 0.031169 0.034647 0.899626 0.3817X*D4 0.026577 0.035475 0.749176 0.4646 R-squared 0.546701 Mean dependent var 12838.54Adjusted R-squared 0.348383 S.D. dependent var 1433.284 S.E. of regression 1156.987 Akaike info criterion 17.20623Sum squared resid 21417911 Schwarz criterion 17.59891Log likelihood -198.4747 F-statistic 2.756686Durbin-Watson stat 0.464982 Prob(F-statistic) 0.044081 Y t ^=10457.39-4752.257D 2-3764.208D 3-4635.464D 4+0.015868X t Se=(4075.199)(5441.682)(5484.872)(5570.057)(0.025265)t=(2.566105)(-0.873307)(-0.686289)(-0.832211)(0.628075)+0.029207D X t 2+0.031169D X t 3+0.026577D X t 4se=(0.035426)(0.034647)(0.035475) t=(0.824467)(0.899626)(0.749176) R2=0.546701 R 2=0.348383F=2.756686 DW=0.464982 四、通过对三个模型进行对比分析可看出,第三个模型的参数估计值均不显著,模型一和二的销售额的参数估计显著,其余参数估计也不显著。