Dummy_variable
- 格式:doc
- 大小:287.50 KB
- 文档页数:16
哑变量详解1、哑变量定义哑变量(DummyVariable),也叫虚拟变量,引⼊哑变量的⽬的是,将不能够定量处理的变量量化,在线性回归分析中引⼊哑变量的⽬的是,可以考察定性因素对因变量的影响,它是⼈为虚设的变量,通常取值为0或1,来反映某个变量的不同属性。
对于有n个分类属性的⾃变量,通常需要选取1个分类作为参照,因此可以产⽣n-1个哑变量。
如职业、性别对收⼊的影响,战争、⾃然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。
这种“量化”通常是通过引⼊“哑变量”来完成的。
根据这些因素的属性类型,构造只取“0”或“1”的⼈⼯变量,通常称为哑变量(dummyvariables),记为D。
举⼀个例⼦,假设变量“职业”的取值分别为:⼯⼈、农民、学⽣、企业职员、其他,5种选项,我们可以增加4个哑变量来代替“职业”这个变量,分别为D1(1=⼯⼈/0=⾮⼯⼈)、D2(1=农民/0=⾮农民)、D3(1=学⽣/0=⾮学⽣)、D4(1=企业职员/0=⾮企业职员),最后⼀个选项“其他”的信息已经包含在这4个变量中了,所以不需要再增加⼀个D5(1=其他/0=⾮其他)了。
这个过程就是引⼊哑变量的过程,其实在结合分析(ConjointAnalysis)中,就是利⽤哑变量来分析各个属性的效⽤值的。
此时,我们通常会将原始的多分类变量转化为哑变量,每个哑变量只代表某两个级别或若⼲个级别间的差异,通过构建回归模型,每⼀个哑变量都能得出⼀个估计的回归系数,从⽽使得回归的结果更易于解释,更具有实际意义。
2、什么情况下需要设置哑变量1. 对于⽆序多分类变量,引⼊模型时需要转化为哑变量举⼀个例⼦,如⾎型,⼀般分为A、B、O、AB四个类型,为⽆序多分类变量,通常情况下在录⼊数据的时候,为了使数据量化,我们常会将其赋值为1、2、3、4。
从数字的⾓度来看,赋值为1、2、3、4后,它们是具有从⼩到⼤⼀定的顺序关系的,⽽实际上,四种⾎型之间并没有这种⼤⼩关系存在,它们之间应该是相互平等独⽴的关系。
Stata入门——如何生成虚拟变量
虚拟变量:dummy variable,也叫哑变量,例如在对变量进行量化时,如性别,则可以生成虚拟变量,男为1,女为0;或者对受教育程度的量化。
存在N个变量的时候,只允许使用N-1个虚拟变量,这是因为共线性的问题。
方法一:
gen dummy1 = 0 if !missing(变量X) //后面的!missing变量(X)的含义为对数据进行判断,如果该数据没有缺失,则继续进行,如果缺失则丢掉该组数据。
replace dummy1 = 1 if 变量X == 1 if !missing(变量X)
方法二:
gen dummy2 = cond(变量X == 1,1,0) //后面的cond为对变量X进行判断,若
为1,则赋值为1,否则赋值为0
replace dummy2 = . if 变量X == . //此处时对缺失数据进行删除处理
如何生成批量虚拟变量?
tab 变量列名称,gen(前缀名)
此处注意,在回归分析时,有着相同前缀名的虚拟变量可以键入公式:
reg 变量1 变量2 变量3 ...... 前缀名* //系统会自动加入相同前缀的变量进行回归。
结构方程哑变量结构方程哑变量(dummy variable)是指在结构方程模型中,将分类变量转化为虚拟变量,以便于在模型中进行分析。
这个方法也被称为指示变量法(indicator variable approach)或者二元变量法(binary variable approach)。
以一个简单的例子为说明,假设我们要研究一个模型,其中性别是一个分类变量,可以取男或女两个值。
我们可以将性别转化为一个哑变量,比如设定1表示男性,0表示女性。
这样,在模型中,我们就可以将性别作为一个变量来进行分析。
对于多个分类变量,我们需要创建多个哑变量来表示不同的分类变量。
创建哑变量的方法有很多,其中一种常见的方法是使用One-Hot Encoding。
这个方法将每个分类变量转化为一个新的二元变量,其中一个值为1表示该变量的取值为真,另一个值为0表示该变量的取值为假。
在One-Hot Encoding的实现中,使用了pandas库中的get_dummies()函数,可以将分类变量转化为哑变量[1]。
除了One-Hot Encoding,还有其他的方法可以创建哑变量,比如使用sklearn库中的LabelEncoder和OneHotEncoder函数。
不同的方法有不同的优缺点,需要根据具体情况选择合适的方法。
在使用哑变量时需要注意以下几点:哑变量的数量不能超过样本的数量,否则会导致过拟合。
如果一个分类变量有很多取值,那么使用哑变量可能会导致维度灾难的问题,需要考虑其他的降维方法。
在使用哑变量时,需要注意避免哑变量陷阱,即在模型中同时使用所有的哑变量会导致多重共线性的问题。
为避免这个问题,可以在模型中使用k-1个哑变量,其中k为分类变量的取值数量。
总之,哑变量是在结构方程模型中将分类变量转化为虚拟变量的一种方法,可以方便地将分类变量纳入模型中进行分析。
在使用哑变量时需要注意避免过拟合、维度灾难和哑变量陷阱等问题。
根据汇率挂钩产品的数据库(核对下,如果没有错误以我发给你的为样本)你的统计数据与我的excel里计算的怎么不一样?中行的平均实际收益率(及超额收益率)是低于农行的,这才符合eviews的结果。
搞准确!看看我给你发的excel文件里的kankan 工作簿另外,有空自己看看关于虚拟变量的讲述,如何解释下面的eviews 结果平均实际收益率平均超额收益率农业银行0.035648148 0.033548778 中国银行0.01527 0.012477667Dependent Variable: EXCESS_RMethod: Least SquaresDate: 10/24/11 Time: 16:01Sample: 1 74Included observations: 73Variable Coefficient Std. Error t-Statistic Prob.C 0.025932 0.013785 1.881095 0.0645TERM -0.001780 0.001216 -1.464104 0.1481D_ABC 0.009444 0.006020 1.568632 0.1217D_BOC -0.013840 0.006812 -2.031792 0.0463D_RMB -0.015918 0.007048 -2.258448 0.0273D_USD -0.010601 0.007494 -1.414595 0.1620D_Y09 -0.006896 0.012279 -0.561622 0.5763D_Y10 0.012991 0.011863 1.095075 0.2776D_Y11 0.025646 0.012049 2.128496 0.0372R-squared 0.518163 Mean dependent var 0.021000 Adjusted R-squared 0.457934 S.D. dependent var 0.022442 S.E. of regression 0.016523 Akaike info criterion -5.253135 Sum squared resid 0.017472 Schwarz criterion -4.970750 Log likelihood 200.7394 F-statistic 8.603134 Durbin-Watson stat 1.138704 Prob(F-statistic) 0.000000Dependent Variable: ACTURAL_RMethod: Least SquaresDate: 10/24/11 Time: 16:03Sample: 1 74Included observations: 73Variable Coefficient Std. Error t-Statistic Prob.C 0.026068 0.013662 1.908092 0.0609TERM 0.000245 0.001205 0.203228 0.8396D_ABC 0.009557 0.005966 1.601897 0.1141D_BOC -0.013468 0.006751 -1.995079 0.0503D_RMB -0.013970 0.006985 -2.000123 0.0497D_USD -0.012510 0.007427 -1.684408 0.0970D_Y09 -0.012136 0.012168 -0.997303 0.3224D_Y10 0.008902 0.011757 0.757150 0.4517D_Y11 0.022458 0.011941 1.880779 0.0646R-squared 0.477613 Mean dependent var 0.023983 Adjusted R-squared 0.412315 S.D. dependent var 0.021360 S.E. of regression 0.016375 Akaike info criterion -5.271174 Sum squared resid 0.017160 Schwarz criterion -4.988788Log likelihood 201.3978 F-statistic 7.314318 Durbin-Watson stat 1.198379 Prob(F-statistic) 0.000001Dependent Variable: BENCH_RMethod: Least SquaresDate: 10/24/11 Time: 16:04Sample: 1 74Included observations: 73Variable Coefficient Std. Error t-Statistic Prob.C 0.000136 0.001711 0.079452 0.9369TERM 0.002025 0.000151 13.41515 0.0000D_ABC 0.000114 0.000747 0.152096 0.8796D_BOC 0.000372 0.000846 0.439992 0.6614D_RMB 0.001947 0.000875 2.225377 0.0296D_USD -0.001909 0.000930 -2.051444 0.0443D_Y09 -0.005240 0.001524 -3.437148 0.0010D_Y10 -0.004090 0.001473 -2.776639 0.0072D_Y11 -0.003188 0.001496 -2.131299 0.0369R-squared 0.825691 Mean dependent var 0.002983 Adjusted R-squared 0.803903 S.D. dependent var 0.004632 S.E. of regression 0.002051 Akaike info criterion -9.425644 Sum squared resid 0.000269 Schwarz criterion -9.143259 Log likelihood 353.0360 F-statistic 37.89562 Durbin-Watson stat 1.846438 Prob(F-statistic) 0.000000。
pandas.get_dummies的用法pandas.get_dummies是一个用于将分类变量转换为虚拟变量(dummy variables)的函数。
它将每个分类变量的每个可能取值创建一个新的虚拟变量,并为每个观察值赋予相应的取值。
用法:pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)参数:1. data:要转换的原始数据,可以是Pandas的DataFrame、Series、或者Numpy的数组。
2. prefix:新生成的虚拟变量的前缀。
默认为None,可以是一个字符串或者字符串的列表。
3. prefix_sep:前缀与原变量之间的分隔符,默认为'_'。
4. dummy_na:是否为缺失值创建一个虚拟变量,默认为False。
5. columns:要转换为虚拟变量的列,默认为None,表示将转换所有列。
6. sparse:是否使用稀疏数据格式,默认为False。
7. drop_first:是否删除第一个虚拟变量,默认为False。
当dummy_na也为True时,删除第一个虚拟变量且不会删除缺失值的虚拟变量。
8. dtype:创建新的虚拟变量的数据类型,默认为None,即自动推断。
返回值:转换后的数据,为Dataframe或者SparseArray示例:``` pythonimport pandas as pd# 创建示例数据data = pd.DataFrame({'color': ['red', 'blue', 'green', 'green'],'size': ['small', 'large', 'medium', 'small']})# 将color列转换为虚拟变量dummies = pd.get_dummies(data['color'])# 将转换后的虚拟变量与原始数据进行拼接data = pd.concat([data, dummies], axis=1)print(data)```输出结果:```color size blue green red0 red small 0 0 11 blue large 1 0 02 green medium 0 1 03 green small 0 1 0```在该例子中,"color"列中的分类变量被转换为了三个虚拟变量。
图片:图片:图片:请教:PB-design,最陡爬坡实验,CCD等中的响应面分析的相关问题请教:PB-design中的相关问题在实验设计的过程中,通过阅读文献了解到了很多的,但是同时也积累了很多问题解决不了,希望各位高手们指点一二不胜感激.1 在PB设计中出现的dummy variable的具体含义到底是什么?是对照组吗?如果不是应该遵循什么样的原则去设计呢?2 在PB中实验组数应该是变量数加1,那么在相关的文献中看到15个变量设计为:15+ 1+4,其中4是dummy variable,但是表格中这4个变量也是有高低水平的变化的,那么设计时是作为15个变量来考虑还是19个呢?3 想问问在最陡爬坡实验中,步长的选择有什么要求吗?纯经验还是有公式的?4 在设计CCD试验那的时候是否要包括全因子实验设计?5 什么是中轴点?各位高手帮帮忙啊,谢谢了小妹我也正在做这块试验,是培养基优化的刚做完单因素试验正在想下面该怎么设计呢?是PB?还是最陡爬坡?还是两个都要做??反正最后是要做响应面的~~希望大虾们多多多指点一下下……另外,关于PB,我也在想,是不是必须要做空白项的呢?那么空白项里面的+1,-1是没有具体的水平值的亚,那么在实验中具体该怎么操作呢??谢谢各位不吝指教了……我自己是怎么想的:单因子实验只是为了保险使PB实验的结果更加明显而进行的预实验,PB 实验本身就是有筛选单因子的功能,如果有把握是可以直接做PB的.而我的实验是先进行单因子,然后是PB,根据PB的实验分析数据做最陡爬坡实验,否则不能很好的确定爬坡的方向以及步长.最陡爬坡实验的步长的选择:根据前面PB实验的结果,做一阶方程的法线,法线方向就是爬坡方向,步长就根据回归系数和规范变量的比值在通过自然变量来换算,算到的结果在综合实际的情况就可以基本确定步长了这个是最近看文献理解到的一些,希望哪位高手指点一下dummy variable 不是对照组。
哑变量(Dummy Variable):也叫虚拟变量,引入哑变量的目的是,将不能够定量处理的变量量化,如职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。
这种“量化”通常是通过引入“哑变量”来完成的。
根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为哑变量(dummy variables),记为D。
举一个例子,假设变量“职业”的取值分别为:工人、农民、学生、企业职员、其他,5种选项,我们可以增加4个哑变量来代替“职业”这个变量,分别为D1(1=工人/0=非工人)、D2(1=农民/0=非农民)、D3(1=学生/0=非学生)、D4(1=企业职员/0=非企业职员),最后一个选项“其他”的信息已经包含在这4个变量中了,所以不需要再增加一个D5(1=其他/0=非其他)了。
这个过程就是引入哑变量的过程,其实在结合分析(conjoint analysis)中,就是利用哑变量来分析各个属性的效用值的。
在线性回归分析中引入哑变量的目的是,可以考察定性因素对因变量的影响,引入哑变量有两种方式:加法方式与乘法方式。
所谓加法方式是指,哑变量作为单独的自变量,有独立的系数,从几何意义上来讲,就是只改变回归直线的截距(constant),不改变斜率(B);而乘法方式则正好相反,不改变截距,只改变斜率,因为哑变量在回归方程中不是作为一个独立的自变量,而是与其中某一个自变量相乘后作为一个自变量。
当然,也可以同时使用加法和乘法来引入哑变量,即同时改变截距和斜率。
由于哑变量的取值只有0和1,它起到的作用像是一个“开关”的作用,它可以屏蔽掉D=0的case,使之不进入分析,在spss软件中就是filter的作用。
我试验了一下,确实如此。
虚拟变量虚拟变量又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的质变量,通常取值为0或1。
引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到俩个方程的作用,而且接近现实。
独热编码哑变量
独热编码(One-Hot Encoding)也被称为哑变量(Dummy Variable)。
它是将类别型特征转换为二进制向量的一种方法。
在进行独热编码之前,类别型特征往往是以整数或字符串形式存在的,例如性别特征可能有"男"和"女"两个类别,学历特征
可能有"高中"、"本科"和"硕士"三个类别。
独热编码的基本思想是为每一个类别创建一个新的二进制特征,原有的特征被分割成多个新的特征,每个特征表示是否属于某个类别。
例如,在性别特征中,可以创建两个新特征"是否为
男性"和"是否为女性",它们的取值可以是0或1。
对于每一个样本,只有一个新特征的取值是1,其余新特征的取值都是0。
独热编码的优点是能够保留类别特征的信息,不会引入顺序或大小的偏差。
但是,独热编码会引入更多的特征维度,如果类别特征中有太多的类别,可能会导致维度灾难(curse of dimensionality),增加了模型训练和计算的复杂度。
在机器学习任务中,常常使用独热编码来处理类别型特征,使之能够作为输入传递给模型进行训练和预测。
常见的方法包括使用sklearn库中的OneHotEncoder类进行编码或者使用pandas库中的get_dummies函数进行编码。
dummy variable的系数解释
在统计学中,虚拟变量(dummy variable)也称为指示变量或分类变量,通常用于表示分类数据。
虚拟变量的系数解释依赖于其使用的回归模型和解释变量的设定。
对于二元虚拟变量,其系数解释通常表示当自变量增加一个单位时,因变量相对于参考类别的变化量。
例如,如果一个二元虚拟变量用于表示某个人是否为男性(男性为1,女性为0),则该变量的系数可以解释为相对于女性,男性在因变量上的平均变化量。
对于多元虚拟变量,情况会变得更加复杂。
每个虚拟变量的系数都表示该变量相对于参考类别的变化量。
为了解释多元虚拟变量的系数,可以使用冗余分析(redundancy analysis)或主成分分析(principal component analysis)等方法来了解各个自变量对因变量的贡献程度。
需要注意的是,虚拟变量的系数解释并不是固定不变的,它可能受到模型设定、数据特征和样本大小等因素的影响。
因此,在解释虚拟变量的系数时,需要仔细考虑其背景和上下文,并谨慎评估其意义和可靠性。
哑变量名词解释哑变量,即dummy variable,是经济学中常用的一种统计工具,在实际应用中也称为虚拟变量。
哑变量可以扮演一种分类变量的角色。
它可以把一个变量从定性变量变为定量变量,可以把一类自变量与其他变量之间的关系记录下来,为统计分析提供帮助。
通过哑变量的应用,可以对模型结果进行有效的分类解释,并且提高模型的准确性与可信度。
哑变量的用意是将定性变量(即没有明确的大小关系的变量)转换为定量变量。
它们也称为虚拟变量,因为变量实际上是虚拟的,不会在实际计算中出现,而只是用来表示某种关系。
一般来说,哑变量会以0和1的形式出现,0表示该自变量不满足条件,1表示该自变量满足条件。
例如,若某数据集中的特征“性别”的取值分为“男”和“女”,那么就可以用哑变量来表示,0表示男,1表示女。
哑变量可以把复杂的变量变成容易理解的变量。
在统计分析中,它可以帮助我们定义变量之间的关系,从而更好地理解和表达不同变量之间的联系。
例如,在调查某社会现象时,我们可以使用哑变量来衡量某种变量(如性别)对该现象的影响程度,即将定性数据转化为定量数据后进行分析。
通过哑变量的应用,可以保证模型的准确性和可靠性,并有效地改善模型的解释能力。
哑变量虽然有许多优点,但不完全是一种完美的工具。
它也有一些局限性。
首先,如果哑变量变量之间存在多重共线性,那么模型将会过拟合,使模型不准确。
其次,哑变量原则上只能用于表示两类变量,在表示多类变量时会存在一定的困难,使模型结果不能得到完全可信的解释。
此外,哑变量也不能表示顺序性变量,因为哑变量具有明确的1/0形式,而顺序性变量的取值范围更为广泛,不能用数字来给出完整的信息。
总之,哑变量是经济学中常用的一种有效的统计工具,它可以将定性变量转化为定量变量,帮助我们更好地理解不同变量之间的关系,有效改善模型的解释能力,但也存在一定的局限性,在使用时应当注意变量之间的关系,以免出现过拟合的情况。
设计虚拟变量方法
虚拟变量方法(Dummy Variable Method)是一种在统计分析中常用的方法,用于将类别变量转换为可供回归模型使用的二进制虚拟变量。
它将每个类别变量的取值拆分成多个二进制变量,每个变量代表一个类别,其取值为1或0。
以下是设计虚拟变量方法的步骤:
1. 确定需要转换为虚拟变量的类别变量。
在回归分析中,通常将影响因素为类别的变量转换为虚拟变量。
2. 为每个类别变量的取值创建一个虚拟变量。
对于一个类别变量,如果它有k 个不同的取值,那么就需要创建k-1个虚拟变量。
例如,如果一个类别变量的取值为A、B、C,那么需要创建两个虚拟变量D1和D2。
其中,D1表示取值为B,D2表示取值为C。
取值为A的情况可以通过所有虚拟变量都为0来表示。
3. 分配虚拟变量的取值。
对于每个样本,根据类别变量的取值,为对应的虚拟变量赋值1,其余虚拟变量赋值0。
4. 回归分析。
将转换后的虚拟变量和其他变量一起用于回归模型中进行分析。
需要注意以下几点:
- 虚拟变量方法的基础是虚拟变量陷阱(Dummy Variable Trap)。
为了避免共
线性问题,应该始终忽略转换后的一个虚拟变量。
- 在创建虚拟变量时,可以使用软件工具自动完成。
许多统计软件如Python的pandas库、R的caret包和SPSS等都提供了创建虚拟变量的函数或方法。
- 虚拟变量方法一般适用于线性回归模型,对于其他模型,如逻辑回归等,也可以使用相应的方法将类别变量进行转换。
Python学习笔记:利⽤pd.get_dummies实现哑变量编码⼀、理论介绍虚拟变量(dummy variable)也叫哑变量,是⼀种将多分类变量转换为⼆分变量的⼀种形式。
如果多分类变量有k个类别,则可以转化为k-1个⼆分变量。
需要有⼀个参照的类别。
在⾮线性关系的模型中,特别重要。
在模型分析时,虚拟变量都是同进同出,要么都在模型中,要么都不在模型中,不能只保留⼀个。
⼆、函数介绍pandas 中可以利⽤ get_dummies() 函数进⾏哑变量编码。
使⽤语法:pd.get_dummies(data, # 输⼊的数据框prefix=None, # 列名的前缀prefix_sep='_', # 分割符dummy_na=False, # 增加⼀列空缺值columns=None, # 指定要实现转换的列名sparse=False,drop_first=False, # 删除第⼀个类别值dtype=None)三、实操1.Series转换import pandas as pdimport numpy as nps = pd.Series(list('abca'))pd.get_dummies(s)'''a b c0 1 0 01 0 1 02 0 0 13 1 0 0'''2.dummy_na 空缺值s1 = ['a','b',np.nan]pd.get_dummies(s1)'''a b0 1 01 0 12 0 0'''pd.get_dummies(s1, dummy_na=True)'''a b NaN0 1 0 01 0 1 02 0 0 1'''3.prefixprefix='' 参数设置编码后的变量名,默认为:原始列名_取值。
nomogram 哑变量一、概念哑变量(Dummy Variable)又称虚拟变量,是指将一个具有多个分类或离散取值的变量转化为一个或多个二值变量的过程。
在哑变量中,每个取值都对应一个二值变量,取值为1表示该变量的某个特定状态,取值为0表示不具备该状态。
二、应用领域1. 回归分析:哑变量常用于回归分析中,用于处理分类变量。
例如,在房价预测模型中,可以使用哑变量来表示房屋的地理位置、房型等分类因素,从而更好地解释房价的变化。
2. 实验设计:在设计实验时,哑变量可以用来控制和观察不同处理组之间的差异。
例如,在药物疗效实验中,可以使用哑变量来表示药物的不同剂量或不同治疗方案,以评估其对患者疾病恢复的影响。
3. 市场营销:在市场营销中,哑变量可以用来分析消费者的行为和偏好。
例如,可以使用哑变量来表示消费者的性别、年龄段、购买习惯等,以便更好地进行市场细分和定位。
4. 社会科学研究:在社会科学研究中,哑变量可以用来分析不同群体之间的差异和关系。
例如,在教育研究中,可以使用哑变量来表示学生的学历、家庭背景等,以分析其对学习成绩的影响。
三、哑变量的优势1. 简化模型:哑变量可以将多分类变量转化为二值变量,从而简化了模型的复杂性。
这使得模型更易于解释和理解,同时也减少了计算的复杂度。
2. 解决非线性关系:哑变量可以用于解决变量之间的非线性关系。
通过将变量分组,可以捕捉到不同组之间的差异,从而更好地描述变量之间的关系。
3. 提高模型的预测能力:通过引入哑变量,模型可以更好地捕捉到分类变量的信息,从而提高了模型的预测能力。
哑变量还可以帮助发现隐藏在数据中的关联和趋势。
哑变量是一种常用的统计分析工具,可以用于处理分类变量、解决非线性关系以及提高模型的预测能力。
在回归分析、实验设计、市场营销和社会科学研究等领域都有广泛的应用。
通过合理地引入哑变量,可以更好地理解和解释数据,并为决策提供有力的支持。
因此,掌握和应用哑变量的方法,对于统计分析和数据挖掘具有重要的意义。
虚拟变量案例stata
1.定义
引入“虚拟变量(哑变量,dummy variable)”对定性数据或者分类数据,赋值0或者1。
例如,对东部、中部、西部产生虚拟变量,则需要2个。
因为east=1,表示东部;east=0,表示其他地区。
同样middle=1,表示中部;middle=0,表示其他地区。
那么east=0,且middle=0时,则表示west(西部)。
但是值得注意的是,(east=1的个数)+(middle=1的个数)+(表示west的数值)=全体分析样本数。
否则,在stata回归时不会自动检测到多重共线性,自动omit 其中一个变量。
2.设置参照组
下面例子中:east=1,表示东部;middle=1,表示中部;west= 1,表示西部。
目的是为了选择参照组。
"note:west omitted because of collinearity":我把三个变量都放进去,所以stata检测到多重共线性,把west的变量忽略了,作为参照组(对比组)。
如果想把参照组设定为middle:
reg ln_min edu east west
如果想把参照组设定为east:
reg ln_min edu middle west
或者在回归中指定omit variable:。
第 15章 虚拟变量15.1. 虚拟变量定性描述某种属性变量,如性别,种族,战争等,这种属性常常是有或没有,出现或不出现,因此,度量这种属性常用“1”表示有,0表示“没有”(不出现)。
如性别,男性为1(或0),女性为0(或1),或教育程度用1表示大学毕业,0表示否定,即非大学毕业等。
如:研究薪金问题;薪水y i ,⎩⎨⎧=女性男性01i D (人只有2种属性,男和女)y i =α+βD i ++u i 于是:.)1(,)(βαα+====i i i i D y E o D y E表明男教授平均薪金为.βα+女教授为α,由此研究薪金是否存在歧视现象.由此还可以看出,虚拟变量的系数表示与基(女教授)的差。
以上的属性为二种,男性和女性。
将属性扩展为多个,如研究不同地区教师的工资差别,将一个国家分为3个地区,引进2个虚拟变量,建立模型 y i =β1+β2D 2i +β3D 3i +u i (5.1)模型(5.1)的回归因子全为互斥的虚拟变量,这样的模型称为方差模型分析(ANOV A ).例子: 美国公立学校教师的地区差别。
将美国分为东北(21个州)、南方(17个州)和西部地区(13个州),共3个属性,引进2个虚拟变量D 2i 和D 3i ,D 2i =1,如第i 个州属于东北区,否则D 2i =0;D 3i =1,如第i 个州属于南方区,否则D 3i =0.显然这两个虚拟变量互斥。
模型为 y i =β1+β2D 2i +β3D 3i +u i (5.1) 进一步,有E(y i ∣D 2i =1, D 3i =0)= β1+β2即东北区教师的平均工资,而南方区和西部地区教师的平均工资分别为 E(y i ∣D 2i =0, D 3i =1)= β1+β3E(y i ∣D 2i =0, D 3i =0)= β1(5.1)的估计结果为:y i=26158.62-1734.473D2i-3264.615D3i+e i(5.1E)se= (1128.53) (1435.93) (1499.6)t= (23.18) (-1.21) (-2.18) R2=0.09即东北区教师的平均工资:26158.62-1734.473=24424南方区教师的平均工资:26158.62-3264.615=22894西部地区教师的平均工资:26158.62实际平均工资:东北区为24424.14;南方区为22894;西部区26158. 在虚拟变量的解释和模型设定中,要特别注意下述1.虚拟变量是为着描述属性,在含截距的模型中,虚拟变量的个数必须比属性或类别的个数少1,否则会造成完全共线!2.没有附着虚拟变量的截距即β1作为基(base)、或基准(benchmark),或比较基(comparison).3.截距即β1本身代表基的均值,如上例中为西部区的均值;4.附着虚拟变量的系数即β2和β3的系数称为级差截距系数,即不同属性的差别。
第 15章 虚拟变量15.1. 虚拟变量定性描述某种属性变量,如性别,种族,战争等,这种属性常常是有或没有,出现或不出现,因此,度量这种属性常用“1”表示有,0表示“没有”(不出现)。
如性别,男性为1(或0),女性为0(或1),或教育程度用1表示大学毕业,0表示否定,即非大学毕业等。
如:研究薪金问题;薪水y i ,⎩⎨⎧=女性男性01i D (人只有2种属性,男和女)y i =α+βD i ++u i 于是:.)1(,)(βαα+====i i i i D y E o D y E表明男教授平均薪金为.βα+女教授为α,由此研究薪金是否存在歧视现象.由此还可以看出,虚拟变量的系数表示与基(女教授)的差。
以上的属性为二种,男性和女性。
将属性扩展为多个,如研究不同地区教师的工资差别,将一个国家分为3个地区,引进2个虚拟变量,建立模型 y i =β1+β2D 2i +β3D 3i +u i (5.1)模型(5.1)的回归因子全为互斥的虚拟变量,这样的模型称为方差模型分析(ANOV A ).例子: 美国公立学校教师的地区差别。
将美国分为东北(21个州)、南方(17个州)和西部地区(13个州),共3个属性,引进2个虚拟变量D 2i 和D 3i ,D 2i =1,如第i 个州属于东北区,否则D 2i =0;D 3i =1,如第i 个州属于南方区,否则D 3i =0.显然这两个虚拟变量互斥。
模型为 y i =β1+β2D 2i +β3D 3i +u i (5.1) 进一步,有E(y i ∣D 2i =1, D 3i =0)= β1+β2即东北区教师的平均工资,而南方区和西部地区教师的平均工资分别为 E(y i ∣D 2i =0, D 3i =1)= β1+β3E(y i ∣D 2i =0, D 3i =0)= β1(5.1)的估计结果为:y i=26158.62-1734.473D2i-3264.615D3i+e i(5.1E)se= (1128.53) (1435.93) (1499.6)t= (23.18) (-1.21) (-2.18) R2=0.09即东北区教师的平均工资:26158.62-1734.473=24424南方区教师的平均工资:26158.62-3264.615=22894西部地区教师的平均工资:26158.62实际平均工资:东北区为24424.14;南方区为22894;西部区26158. 在虚拟变量的解释和模型设定中,要特别注意下述1.虚拟变量是为着描述属性,在含截距的模型中,虚拟变量的个数必须比属性或类别的个数少1,否则会造成完全共线!2.没有附着虚拟变量的截距即β1作为基(base)、或基准(benchmark),或比较基(comparison).3.截距即β1本身代表基的均值,如上例中为西部区的均值;4.附着虚拟变量的系数即β2和β3的系数称为级差截距系数,即不同属性的差别。
5.比较是与基相比较.如上例中估计的β2为-1734.473,表示东北区的平均工资比基即西部区少-1734.47,而不是东北区的平均工资为-1734.47。
5.基组的选择完全由研究者自行决定!6.虚拟变量陷井:属性或类别个数与虚属变量个数一致,模型无截距,如上例中,3个地区引进3个虚拟变量且模型不含截距,即定义D1i=1,如第i个州属于西区,否则D1i=0,即第i个州不属于西区。
模型为y i=β0+β1D1i+β2D2i+β3D3i+u i(5.2)由于D1i+D2i+D3i=1,1看作β0所附着的变量的数据,这是完全共线,(5.2)无法估计,所以(5.2)为虚拟变量陷井。
解决虚拟变量陷井:去掉β0,即 y i=β1D1i+β2D2i+β3D3i+u i(5.3)或去掉3个虚拟变量中的任一个。
如y i=β1+β2D2i+β3D3i+u i特别注意!如直接估计(5.3),所得到的估计即为各种属性的均值而不是差异!如上例,(5.3)的估计为y i=26158.62 D1i+24424.14D2i+22894D3i+e i(5.3E)se= (1128.53) (887.9) (986.9.6)t= (23.18) (27.50) (23.2) R2=0.09将(5.3E)与(5.1E)相比较可知,哪一种引入虚拟变量的方式更好呢?肯尼迪(Kennedy)指出:“大多数研究者认为,在一个含有截距的方程中,他们更容易地处理他们通常最感兴趣的问题,是否某个组与基准组有所不同以及有多大的不同,所以在方程中包括截距更加方便。
为了检查分组是否得当,也可通过将虚拟变量的系数相对0做t检验(或者更一般地,对适当的虚拟变量系数集做一个F检验),就可以检验分类是否适当(因为分组的人可能预料在基准组与其它组之间存在统计上的显著差异)。
”15.2一个定量变量和一个虚拟变量的回归,将上述模型扩展为含定量变量X iy i=β1+β2D2i+β3D3i+β4X i+u i(5.4)这里y i表示薪水,X i表示教龄为定量变量,D为虚拟或两分支变量。
例子:续前例,(5.4)的估计结果为Dependent Variable: SALARYMethod: Least SquaresDate: 10/05/04 Time: 16:23Sample: 1 51Included observations: 51Variable Coefficient Std. Error t-Statistic Prob.C 13269.11 1395.056 9.511530 0.0000D2 -1673.514 801.1703 -2.088837 0.0422D3 -1144.157 861.1182 -1.328687 0.1904SPENDING 3.288848 0.317642 10.35393 0.0000R-squared 0.722665 Mean dependent var 24356.22Adjusted R-squared 0.704963 S.D. dependent var 4179.426S.E. of regression 2270.152 Akaike info criterion 18.36827Sum squared resid 2.42E+08 Schwarz criterion 18.51978Log likelihood -464.3908 F-statistic 40.82341Durbin-Watson stat 1.414238 Prob(F-statistic) 0.000000从以上的估计结果可知,教龄增加一年导致工资增加3.29元。
不难看出,虚拟变量的系数(除D 3的系数外)显著, 由于估计的β4为斜率,所以上述回归结果可以分解为3条斜率相同但截距不同的回归直线。
截距分别为基区即西部的13269.11,南区的12125=13269.11-1144.2,东北区的11595=13269.11-1673.5。
15.3对一个定量变量和一个多分定性变量的回归;教育程度不同对收入的影响,研究3种教育程度收入的影响,受教育程度为一个多分支变量,即高中、大学(专科)、本科。
为此引进2个虚拟变量⎩⎨⎧=否则高中毕业012D ⎩⎨⎧=否则大学毕业013D 注,⎩⎨⎧=否则高中毕业012D 非高中毕业可能仅受过初中教育或更低, ⎩⎨⎧=否则大学毕业013D 没受过大学教育,可能是社区(专科)毕业等模型为 y i =1α+α2D 2i +α3D 3i +βx i +u i由ii i i i i i i i i ii i i i x x D D y E x x D D y E x x D D y E βααβααβα++===++===+===)(),1,0()(),0,1(),0,0(31322132132表明不同的教育程度,对保健品的平均支出的条件期望不同。
15.4.对一个定量变量和两个以上的虚拟或定性变量的回归(续) 以上是一个定量变量对一个多分支变量的回归,现在引入两个定性变量(虚拟变量),仍以教授工资研究为例定义虚拟变量 ⎩⎨⎧=否则男性012i D ⎩⎨⎧=)(013黑人否则白人i D这是两个不同属性的2分支变量:性别,肤色,且性别和肤色的属性会完全不同。
设定模型:y i =α1+α2D 2i +α3D 3i +βx i +u iy i 为工资,X i 教龄,不难看出,这一模型是为着研究种族歧视是否显著。
基为黑人女性(D 2i =0 D 3i =0)的平均工资α1.由E(u i )=0,则有黑人女教授的平均工资与教龄的关系(简称为平均工资) E(y i ︱D 2i =0 D 3i =0)= α1+βx i而黑人男教授平均工资与教龄的关系龄为E(y i ︱D 2i =1, D 3i =0)= (α1+α2)+βx i白人女教授的平均工资与教龄的关系龄为E(y i ︱D 2i =0, D 3i =1)= (α1+α3)+βx i白人男教授平均薪金与教龄的关系龄为E(y i ︱D 2i =1, D 3i =1)= (α1+α2+ α3)+βx i注记:回归系数:保持其他变量不变,β表示x 增加一个单位,对y 的效应,即偏回归系数, 保持不变,这里即为D 2=D 3=1(或等于0). 15.6: (利用虚拟变量)检验模型的结构稳定性上述例子所研究的均是截距的差异(不同属性)。
问题:斜率是否有显著差异?回忆CHOW 检验,若检验结论表明具有显著结构变化,但不能确认是截距还是斜率发生了变化。
利用虚拟变量可以检验斜率是否发生了变化。
我们前面的例子研究的是美国高失业率是否改变了个人储蓄行为,续前例。
例子:续前例,美国高失业率与储蓄行为。
全样本1970-1995 样本Ⅰ:1970-1981,达到最高失业率之前;样本Ⅱ:1982-1995,达到最高失业率之后。
问题:两个时期的结构(系数)是否发生变化以及是否是斜率发生了变化。
为此,设定不同时期的模型为样本Ⅰ:y i =λ1+ λ2x i +u 1ii=1,2,…n 1(1981)样本Ⅱ: y i =γ1+ γ2x i +u 2ii=n 1(1981)+1,…n(1995)y 表示储蓄, x 表示收入,n 1≠n 2若① λ1= γ1, λ2= γ2, 重合回归(coincident),即无结构变化。
②λ1≠γ1, λ2= γ2,两个时期的回归仅在截距上(即位置上)不同,故称为平行回归(即Parallel Regressions)③λ1=γ1, λ2 ≠γ2,,两个时期的截距相同但斜率不同,称汇合 (concurrent ) 回归④λ1≠γ1, λ2 ≠γ2两个回归完全不同,称为相异(dissimilar )回归:图1.重合回归、平行回归、、 汇合回归 和 相异回归结构性变化是指参数(截距和斜率)在两个时期发生了变化,但检验这种结构变化是通过统计推断来产生是否发生变化)而非直观比较.引入虚拟变量:⎩⎨⎧∏I =)(01否则数据属于t D 模型 y=α1+α2D t +β1X t +β2(D t X t )+u t (5.5)i=1970,…n 1(=1981),n 1+1…n 2(=1995)由E(u i )=0,有 ,),0(11t t t X X D y E βα+== 即对应第Ⅱ组数据的期望; ,)()();1(2121t t t t X X D y E ββαα+++==即对应第Ⅰ组的期望. 使用前述符号,应有1211,βγαγ==,)(),(212211ββλααλ+=+=。