虚拟变量虚拟解释变量的回归虚拟被解释变量的回归
- 格式:ppt
- 大小:951.50 KB
- 文档页数:17
第七章虚拟变量第一节虚拟变量的引入一、什么是虚拟变量前面几章介绍的解释变量都是可以直接度量的,称为定量变量。
如收入、支出、价格、资金等等。
但在现实经济生活中,影响应变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些无法定量的解释变量的影响,如性别、民族、国籍、职业、文化程度、政府经济政策变动等因素,他们只表示某种特征的存在与不存在,所以称为属性变量或定性变量。
属性变量:不能精确计量的说明某种属性或状态的定性变量。
在计量经济模型中,应当包含属性变量对应变量的影响作用。
那怎么才能把定性变量包括在模型中呢?属性变量通常是非数值变量,直接纳入回归方程中进行回归,显然是很困难的。
为此,人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与定量变量一样在回归模型中得以应用。
由于定性变量通常是表明某种特征或属性是否存在,如性别变量中以男性为分析基础的话,那就只有男性、非男性;政策变动变量中以政策不变为基准,则有政策不变,和政策变动;至于有两种以上的状态的话,比如学历分高中,本科,本科以上等等,我们又怎么办呢?把疑问留到后面去解决。
既然定性变量只有存在或不存在两种状态,所以量化的一般方法是取值为0或1。
称为虚拟变量。
虚拟变量:人工构造的取值为0或1的作为属性变量代表的变量。
一般常用D表示。
D=0,表示某种属性或状态不存在D=1,表示某种属性或状态存在比如前面说的性别变量,以男性为基准,则当样本为男性时,虚拟变量取0,当样本为女性时,则虚拟变量取1。
当虚拟变量作为解释变量引入计量经济模型时,对其回归系数的估计和统计检验方法都与定量解释变量相同。
二、虚拟变量的作用1、作为属性因素的代表,如,性别、种族等2、作为某些非精确计量的数量因素的代表,如:受教育程度、年龄段等;3、作为某些偶然因素或政策因素的代表,如战争、911等。
4、时间序列分析中作为季节(月份)的代表(比如对某些明显有淡季、旺季之分的产品)5、分段回归,研究斜率、截距的变动;6、比较两个回归模型;7、虚拟应变量概率模型,应变量本身是定性变量(比如你研究某产品的购买率,应变量本身就是买或不买)三、虚拟变量的设置规则1、虚拟变量D取值为0,还是取值为1,要根据研究的目的决定。
【stata代码模板】回归分析、回归系数的若干检验_regress_cnsreg_test(1)线性模型简易代码——————————————模板————————————————regress 被解释变量解释变量if var=value,noconstant beta level(#) ——————————————模板————————————————If用于筛选满足条件的数据,可缺省。
Noconstant要求没有截距项,可缺省。
Beta要求显示标准化后的系数,即beta系数,可缺省。
Level(#)要求显示系数估计值置信区间的置信度,置信度为#%,可缺省,缺省为95%置信度。
比如,用语文、数学成绩对英语成绩作回归,置信区间为90%:regress English Chinese Maths,level(90)(2)带虚拟变量的回归————————————————模板————————————————regress 被解释变量解释变量若干i.虚拟变量if var=value,noconstant beta level(#) ————————————————模板————————————————比如,想要用语文成绩、数学成绩、性别对英语成绩作回归:regress English Chinese Maths i.gender(3)带约束条件的回归有时候要求解释变量系数之间满足一定关系,比如两个被解释变量系数之和要求等于1等等,附加约束的回归为:————————————————模板————————————————constraint 约束编号约束方程cnsreg 被解释变量解释变量if var=value,constraint(约束编号) noconstant level(#) ————————————————模板————————————————比如,要用语文成绩、数学成绩对英语成绩,其中要求语文成绩系数和数学成绩系数之和为1constraint 1 Chinese+Maths=1cnsreg English Chinese Maths,constraint(1)以下是回归模型系数的若干检验,以回归模型regress y x1 x2 x3 x4来说明(4)检验约束条件是否成立比如检验x1+x2之和是否为1:regress y x1 x2 x3 x4test x1+x2=1(5)检验某几个回归系数是否一起为零比如,要检验x2,x3,x4是否一起为零:regress y x1 x2 x3 x4test x2 x3 x4(6)检验某几个回归系数是否相等比如,要检验x1是否等于x2 regress y x1 x2 x3 x4test x1=x2。
虚拟变量回归
虚拟变量回归是指将一个分类变量转化为虚拟变量(也称为哑变量或指示变量),并将其作为解释变量在回归模型中使用。
虚拟变量是一种二元变量,其中一个变量用1表示某个类别,另一个变量用0表示不属于该类别。
例如,当一个分类变量有三个类别时,可以创建两个虚拟变量来表示这三个类别,分别是0-1变量A和0-1变量B,它们满足如下条件:
- 当分类变量属于A类时,变量A为1,变量B为0;
- 当分类变量属于B类时,变量A为0,变量B为1;
- 当分类变量属于C类时,变量A和变量B均为0。
在回归模型中使用虚拟变量可以使我们将分类变量的不同类别彼此对比,并推断它们对应的不同的回归系数,从而更好地解释和预测因变量。
虚拟变量回归在经济学、社会学、医疗保健等领域中很常见,可以用来研究诸如性别、种族、政治党派、行业等分类变量对某一因变量的影响。
stata虚拟变量的回归命令虚拟变量是用来表示分类变量的一种方法,它可以将分类变量转换为一系列二进制变量,每个二进制变量表示分类变量的一个类别。
这样,就可以使用回归模型来分析分类变量对因变量的影响。
stata中有多个回归命令可以用于分析虚拟变量,包括:•regress:这是最基本的回归命令,可以用于分析连续因变量和分类自变量之间的关系。
•logit:这是一个非线性回归命令,可以用于分析二分类因变量和分类自变量之间的关系。
•probit:这是一个非线性回归命令,可以用于分析二分类因变量和分类自变量之间的关系。
•poisson:这是一个非线性回归命令,可以用于分析计数因变量和分类自变量之间的关系。
在stata中使用虚拟变量回归命令时,需要特别注意以下几点:•虚拟变量的个数:分类变量的类别数决定了虚拟变量的个数。
例如,一个有3个类别的分类变量需要创建2个虚拟变量。
•虚拟变量的取值:虚拟变量的取值为0或1,其中0表示分类变量不属于该类别,1表示分类变量属于该类别。
•虚拟变量的解释:虚拟变量的系数表示分类变量的每个类别对因变量的影响。
例如,一个虚拟变量的系数为正,表示该类别对因变量有正向影响;一个虚拟变量的系数为负,表示该类别对因变量有负向影响。
下面是一个stata虚拟变量回归命令的例子:regress y x1 x2 x3logistic y x1 x2 x3poisson y x1 x2 x3在这个例子中,y是因变量,x1、x2和x3是分类自变量。
regress命令用于分析y和x1、x2、x3之间的线性关系,logistic命令用于分析y和x1、x2、x3之间的非线性关系,poisson命令用于分析y和x1、x2、x3之间的非线性关系。
虚拟变量回归命令是stata中非常重要的一个工具,它可以用于分析分类变量对因变量的影响。
在使用虚拟变量回归命令时,需要特别注意虚拟变量的个数、虚拟变量的取值和虚拟变量的解释。
Econometrics第五章虚拟变量回归模型(教材第六章)第五章虚拟变量回归模型第一节虚拟变量的性质和引入的意义第二节虚拟变量的引入第三节交互作用效应第四节含虚拟变量的回归模型学习要点虚拟变量的性质,虚拟变量的设定5.1 虚拟变量的性质和引入的意义虚拟变量的性质f定性变量性别(男,女)婚姻状况(已婚,未婚)受教育程度(高等教育,其他)收入水平(高收入,中低收入)肤色(白人,有色人种)政治状况(和平时期,战争时期)f引入虚拟变量(Dummy Variables)1、分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。
2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。
3、提高模型的精度,相当与将不同属性的样本合并,扩大了样本量,从而提高了估计精度)。
5.1 虚拟变量的性质和引入的意义5.2 虚拟变量的引入虚变量引入的方式主要有两种f加法方式虚拟变量与其它解释变量在模型中是相加关系,称为虚拟变量的加法引入方式。
加法引入方式引起截距变动5.2 虚拟变量的引入f 虚拟变量的作用在于把定性变量“定量化”:通过赋值0和1,0表示变量不具备某种性质,1表示具备。
f 例,0代表男性,1代表女性;0代表未婚,1代表已婚;等等。
f 这类取值为0和1的变量称为虚拟变量(dummy variables ),通常用符号D 表示。
f 事实上,模型可以只包括虚拟变量(ANOVA 模型):其中,0,1,i i D D ==男性;女性。
12i i iY B B D u =++5.2 虚拟变量的引入虚拟变量的性质f 假定随机扰动项满足男性的期望:5.2 虚拟变量的引入虚拟变量的性质f 食品支出对性别虚拟变量(男=0,女=1)回归的结果:f 结果怎么解释?f 由于男性赋值为0,女性赋值为1,因此,截距项表示取值为0的一类(这里是男性)的均值。
对外经济贸易大学计量经济学I n t r o d u c t i o n t o E c o n o m e t r i c s导论虚拟变量的定义与含单个虚拟变量的回归定性信息在前面的章节中,我们见到的变量都是用来描述定量信息的,比如考试分数,生师比,工资,股本回报率等等;然而,在经济学研究中,往往有很多的定性信息,比如性别,地域,种族,是否实施某项政策等等。
在模型中引入定性信息需要用到虚拟变量。
虚拟变量虚拟变量是值为0或1的变量例1:Male i= 1如果工人i为男性0如果工人i为女性例2:South i= 1如果国家i为南方国家0如果国家i为北方国家因此,虚拟变量也叫二元变量 (Binary Variable)或者哑元变量(Dummy Variable)。
带定性变量的数据名称应反映编码值二元变量的名称应反映变量的定义。
例如,名为“性别”的变量不清楚哪一个是1,而变量名称“Female”则更清楚。
不同的定义方式有不同的解释。
两个组别的定性变量可以使用一个二元变量,多个组别的定性变量应该使用一组二元变量。
含有一个虚拟自变量的回归例:工资的性别差异定义一个虚拟变量femalewage= β0+β1edu+δ0femaleE wage edu,female=0=β0+β1eduE wage edu,female=1=(β0+δ0)+β1edu工资的性别差异δ0可视为给定教育水平的情况下,女性与男性的平均工资之差。
含有一个虚拟自变量的回归一般地,考虑一个带有一个连续变量(x)和一个虚拟(d)的简单模型。
y = b0 + d0d + b1x + uE y x,d=0=β0+β1xE y x,d=1=(β0+δ0)+β1x因此δ0=E y x,d=1−E y x,d=0可以解释成为两个组别的均值之差,其中d =0的组为基准组。
基准组与比较组在上述例子中,female i= 1如果工人i为女性0如果工人i为男性男性是基准组,女性是比较组,δ0可视为给定教育水平的情况下,女性与男性的平均工资之差。