第七章虚拟变量回归

格式：doc
大小：1.07 MB
文档页数：22

下载文档原格式

/ 22

第七章虚拟变量和随机解释变量 (2)

第七章虚拟变量和随机解释变量本章将讨论两种不同的模型：虚拟变量模型和随机解释变量模型，以及模型设定的其它问题。

第一节虚拟变量模型在我们以前考虑的模型中，解释变量都是定量变量（如成本、价格、收入、产出等），但在经济研究中，因变量经常受到一些定性变量的影响（如性别、种族、季节、不同历史时期等），我们把这类定性变量称为虚拟变量。

习惯上用Ｄ表示虚拟变量，虚拟变量的取值通常为0和1。

0表示变量具备某种属性，1表示变量不具备某种属性。

一、包含一个虚拟变量的模型如果我们要研究的问题中解释变量只分为两类。

则需引入一个模拟变量。

例9.1建立模型研究中国妇女在工作中是否受到歧视。

令Ｙ＝年薪，Ｘ＝工作年限⎩⎨⎧=，女性，男性101D 可以建立如下模型：i i i i u D B X B B Y +++=210 )1.9( 与一般的回归模型一样，假定0)(=i u E 男性就业者的平均年薪：i i i i X B B D X Y E 10)0,(+== )2.9(女性就业者的平均年薪：210)1,(B X B B D X Y E i i i i ++== )3.9(如果B 2=0则说明不存在性别歧视，如果02<B ，则说明存在性别歧视。

图9.1表明男女就业者的平均年薪对工龄的函数具有相同斜率B 1，即随着工龄的增长男女工资的增长幅度相同；截距不同，说明男女的初始年薪不同。

我们称这种虚拟变量只影响截距不影响斜率的模型为加法模型。

图9.1不同性别就业者的收入(加法模型,B 2<0)如果随着工龄增加，男性与女性的年薪差距也发生变化，则模型（9.1）就变为i i i i i u X D B X B B Y +++=210 )4.9(图9.2描绘了男性年薪增加较快的情况。

我们称虚拟变量只影响斜率而不影响截距的模型为乘法模型如（9.4）如果男性与女性的初始年薪和年薪增加速度都有差异，我们可以将加法模型和乘法模型结合起来，得到如下模型i i i i i i u D B X D B X B B Y ++++=3210 )5.9(模型（9.5）可以用来表示截距和斜率都发生变化的模型。

第七章虚拟变量

第七章虚拟变量第一节虚拟变量的引入一、什么是虚拟变量前面几章介绍的解释变量都是可以直接度量的，称为定量变量。

如收入、支出、价格、资金等等。

但在现实经济生活中，影响应变量变动的因素，除了这些可以直接获得实际观测数据的定量变量外，还包括一些无法定量的解释变量的影响，如性别、民族、国籍、职业、文化程度、政府经济政策变动等因素，他们只表示某种特征的存在与不存在，所以称为属性变量或定性变量。

属性变量：不能精确计量的说明某种属性或状态的定性变量。

在计量经济模型中，应当包含属性变量对应变量的影响作用。

那怎么才能把定性变量包括在模型中呢？属性变量通常是非数值变量，直接纳入回归方程中进行回归，显然是很困难的。

为此，人们采取了一种构造人工变量的方法，将这些定性变量进行量化，使其能与定量变量一样在回归模型中得以应用。

由于定性变量通常是表明某种特征或属性是否存在，如性别变量中以男性为分析基础的话，那就只有男性、非男性；政策变动变量中以政策不变为基准，则有政策不变，和政策变动；至于有两种以上的状态的话，比如学历分高中，本科，本科以上等等，我们又怎么办呢？把疑问留到后面去解决。

既然定性变量只有存在或不存在两种状态，所以量化的一般方法是取值为0或1。

称为虚拟变量。

虚拟变量：人工构造的取值为0或1的作为属性变量代表的变量。

一般常用D表示。

D=0，表示某种属性或状态不存在D=1，表示某种属性或状态存在比如前面说的性别变量，以男性为基准，则当样本为男性时，虚拟变量取0，当样本为女性时，则虚拟变量取1。

当虚拟变量作为解释变量引入计量经济模型时，对其回归系数的估计和统计检验方法都与定量解释变量相同。

二、虚拟变量的作用1、作为属性因素的代表，如，性别、种族等2、作为某些非精确计量的数量因素的代表，如：受教育程度、年龄段等；3、作为某些偶然因素或政策因素的代表，如战争、911等。

4、时间序列分析中作为季节（月份）的代表（比如对某些明显有淡季、旺季之分的产品）5、分段回归，研究斜率、截距的变动；6、比较两个回归模型；7、虚拟应变量概率模型，应变量本身是定性变量（比如你研究某产品的购买率，应变量本身就是买或不买）三、虚拟变量的设置规则1、虚拟变量D取值为0，还是取值为1，要根据研究的目的决定。

虚拟变量回归课件

虚拟变量回归在各个领域都有广泛的应用，其中包括房价预测和汽车保险费用预估。通过实际案例分析，我们将展示其在实际问题中的应用。
虚拟变量回归面临的问题
在进行虚拟变量回归时，我们可能会面临多重共线性问题。为了解决这个问题，我们将介绍哑变量陷阱和特征选收集数据 2. 对数据进行预处理 3. 分析数据 4. 建立模型 5. 模型的评估与优化
虚拟变量回归
通过介绍虚拟变量回归，我们将探讨其概念、作用以及应用。还将讨论面临的问题和解决方法，以及如何进行虚拟变量回归并提高模型精度。
什么是虚拟变量回归
虚拟变量回归是一种统计方法，用于处理具有分类特征或非数字特征的数据。它将非数字变量转换为二元变量，以便在回归模型中使用。
虚拟变量回归的应用
总结
虚拟变量回归具有自身的优点和局限性。我们将总结这些，并探讨未来的发展方向。最后，我们将分享一些提高模型精度的技巧和建议。

Eviews数据统计与分析教程7章含虚拟变量的回归模型

操作步骤：第一步，建立类型为“Unstructured/Undated”（未限定结构/ 未限定日期）的工作文件。
第二步，在该工作文件中建立四个序列对象。 “pc” 代表家庭拥有的电脑数量；“rev”代表家庭每月收入；“edu”代表教育程度；“city”表示城乡居民情况。并把相应的数据输入到每个序列对象中。
EViews统计分析基础教程
二、含虚拟变量的模型
1.仅含一个虚拟变量
实验：第二步，在该工作文件中建立两个序列对象，一个为 “wage”，一个为“sex”。第三步，在“wage”序列对象中输入 “工资”的数据，在 “sex”序列对象中输入 “性别”的数据。
EViews统计分析基础教程
二、含虚拟变量的模型
EViews统计分析基础教程
二、含虚拟变量的模型
1.仅含一个虚拟变量
如果该回归模型的随机误差项满足线性回归模型的五个基本假定条件，则 E（yt| Dt=1）= E（雇员工资收入|雇员为女性）=β0 + β1 E（yt| Dt=0）= E（雇员工资收入|雇员为男性）=β0 β0 + β1表示女性雇员的平均工资收入，β0表示男性雇员的平均工资收入。
EViews统计分析基础教程
一、虚拟变量的定义
2.虚拟变量
虚拟变量陷阱：所谓的“虚拟变量陷阱”是指自变量（解释变量）中包含了过多的虚拟变量，从而导致了模型出现多重共线性。当模型中既有整体截距又对每一组都设有一个虚拟变量时，就产生了虚拟变量陷阱。
EViews统计分析基础教程
一、虚拟变量的定义
EViews统计分析基础教程
二、含虚拟变量的模型
2. 同时含虚拟和定量解释变量
操作步骤：第四步，结果分析。右图中，变量edu和变量city没有通过显著性（t）检验，说明这两个变量对因变量pc的影响不显著。因而，在所调查的样本中，被调查者的受教育程度以及是否是城镇居民对拥有个人电脑的数量没有显著的影响。

第7章虚拟变量与随机解释变量

图7.1.2 虚拟变量对斜率的影响
(3)一般方式实际应用中，一般是直接以加法和乘法方式引入虚
拟变量，然后再利用t检验判断其系数是否显著的不等
于零，进而确定虚拟变量的具体引入方式。我们还可以用加法模型与乘法模型相结合的方式建立模型来拟合经济发展出现转折的情况。
例7.1.6 进口商品消费支出y主要取决于国民生产总值x的多少。我国改革开放前后，由于国家政策的变化，及改革开放后外资的大量引入等因素的影响， 1978年前后，y和x
模型结构不稳定。
3．虚拟变量在分段回归中的应用在实际经济问题的研究中，有些经济关系需要用分段回归加以描述。假定现在要描绘并比较不同收入水平人群的消费函数，为简单起见，只取一个解释变量x(收入)，设定模型如下：
图7.1.10 分段线性回归模型现在考虑如何设模型。为满足第一个要求，将所有样本一起回归，并显示出差异，将模型设定为
第7章单方程回归模型的几个专门问题
7.1 虚拟变量
7.1.1 虚拟变量的概念及作用
1．虚拟变量的内涵在计量经济学中，我们把反映定性（或属性）因素变化，取值为0和1的人工变量称为虚拟变量(Dummy Variable)，或称为哑变量、虚设变量、属性变量、双值变量、类型变量、定性变量、二元型变量、名义变量等，习惯上用字母D表示。例如
2．虚拟变量在模型结构稳定性检验中的应用
利用不同的样本数据估计同一形式的计量经济模型，可能会得到不同的估计结果。如果估计的参数之间存在着显著差异，则称模型结构是不稳定的，反之则认为是稳定的。
模型结构的稳定性检验主要有两个用途：一是分析模型结构对样本变化的敏感性，如多重共线性检验；二是比较两个(或多个)回归模型之间的差异情况，即分析模型结构是否发生了显著变化。

伍德里奇《计量经济学导论》（第5版）笔记和课后习题详解-第7章含有定性信息的多元回归分析：二值（或

伍德里奇《计量经济学导论》（第5版）笔记和课后习题详解-第7章含有定性信息的多元回归分析：二值（或第7章含有定性信息的多元回归分析：二值（或虚拟）变量7.1复习笔记一、对定性信息的描述定性信息通常以二值信息的形式出现。

在计量经济学中，二值变量最常见的称呼是虚拟变量。

二、只有一个虚拟自变量1．只有一个虚拟自变量的简单模型考虑如下决定小时工资的简单模型：001wage female educ uβδβ=+++用0δ表示female 的参数，以强调虚拟变量参数的含义。

假定零条件均值假定() 0E u female educ =，成立，那么：()()0| 1 |0 E wage female educ E wage female educ δ==-=，，由于female＝1对应于女性且female＝0对应于男性，所以可以简单的把模型写为：()()0| | E wage female educ E wage male educ δ=-，，这种情况可以在图形上描绘成男性与女性之间的截距变化。

男性线的截距是0β，女性线的截距是00βδ+。

由于只有两组数据，所以只需要两个不同的截距。

这意味着，除了0β之外，只需要一个虚拟变量。

因为female ＋male＝1，意味着male 是female 的一个完全线性函数，如果使用两个虚拟变量就会导致完全多重共线性，这就是虚拟变量陷阱。

2．当因变量为log（y）时，对虚拟解释变量系数的解释在应用研究中有一个常见的设定，当自变量中有一个或多个虚拟变量时，因变量则以对数形式出现。

在这种情况下，此系数具有一种百分比解释。

当log（y）是一个模型的因变量时，将虚拟变量的系数乘以100，可解释为y 在保持所有其他因素不变情况下的百分数差异。

当一个虚拟变量的系数意味着y 有较大比例的变化时，可以得到精确的百分数差异。

一般地，如果1β是一个虚拟变量（比方说x 1）的系数，那么，当log（y）是因变量时，在x 1＝1时预测的y 相对于在x 1＝0时预测的y，精确的百分数差异为：()1?100exp 1β-??三、使用多类别虚拟变量1．在方程中包括虚拟变量的一般原则如果回归模型具有g 组或g 类不同截距，那就需要在模型中包含g－1个虚拟变量和一个截距。

第七节回归模型的结构稳定性检验-虚拟变量法

检验模型结构的稳定性
设同一总体两个样本的回归模型分别为样本1：yt=b0+b1xt+ut 样本2：yt=a0+a1xt+ut 设虚拟变量 1 样本 2
D 0 样本1
将样本1与样本2合并，建立以下模型： yt=b0+（a0-b0)Dt+b1xt+(a1-b1)xtDt+ut = b0+aDt+b1xt+bxtDt+ut
其中a=a0-b0,b=a1-b1
利用t检验判断a和b是否显著为零。
当a=b=0显著成立时，表明两模型之间没有显著差异，称为“重合回归”，模型结构稳定。当b=0 显著成立， a=0不显著成立时，表明两模型之间差异表现在截距上，称“平行回归”，模型结构不稳定。当a=0显著成立，b=0不显著成立时，表明两模型之间差异表现在斜率上，称“汇合回归”，模型结构不稳定。当a=0与a1=0均不显著成立时，表明两模型之间差异显著，称“相异回归”，模型结

计量经济学第07章虚拟变量模型-第1节33

假设我们用 OLS对这两个方程分别进行估计，可得到各自的误差平方和 RSS1 和 RSS2，由于对模型的系数没有任何限制条件，可以将这两个误差平
方和相加求和表示无条件平方和，即
RS US R RS 1 SRS 2，S其自由度为
（N－K）+（M－K）= N + M－2K。
假设原假设为真，即 1 1，2 2，…， k k ，以及Var ( e 1 i ) = Var ( e 2 i )，则回归模型（7.23）、（7.24）可以合并为用一个方程表示：
Y)与收入( X )的回归模型估计结果为：
Y ˆt 0.266 0.04Xt7
SE：（0.3053）（0.0266）
t：（－0.8719）（1.7669）
R 2 0 . 309 R 1 2 0 S . 1S 3d 9 2 6 f 6
改革开放后(1978—2000年)居民储蓄 (Y) 与收入 ( X ) 的回归模型估计结果为：
D1i
1 0
城市农村
1 男
D2i 0
女
C 为香烟消费；Y 为居民收入。
如果（7.7）式满足OLS的基本假设条件，可估计出各类型居民香烟消费函数分别为：
农村女性居民： Cˆi ˆ0ˆ3Yi
（7.8）
城市女性居民： C ˆi (ˆ0ˆ1)ˆ3Yi （7.9）
农村男性居民： C ˆi (ˆ0ˆ2)ˆ3Yi （7.10）
回归(Parallel regression)( 见图7.6b)。 (3) D i 的系数等于零，Di X i 的系数不等于零，
即 2 ， 1 2 1 ，说明两个回归模型之间的截距相同，结构差异仅仅表现在斜率上，称之为汇合回
归(Concurrent regression)（见图7.6c）。

第七章虚拟变量虚拟变量回归模型ppt汇总计量经济学

第七章虚拟变量
• 在回归分析中，被解释变量的影响因素除了量（或定量）的因素还有质（或定性）的因素，这些质的因素可能会使回归模型中的参数发生变化，为了估计质的因素产生的影响，在模型中就需要引入一种特殊的变量—虚拟变量。
2020/6/16
（二）作用
• 1、可以描述和测量定性（或属性）因素的影响；
2、多个因素各两种属性
• 如果有m个定性因素，且每个因素各有两个不同的属性类型，则引入m个虚拟变量。
• 例2
• 研究居民住房消费函数时，考虑到城乡差异和不同收入层次的影响将消费函数设定为：
Yt=b0+b1Xt+a1D1t+ a2D2t+ μt
Yt=居民住房消费支出
Xt=居民可支配收入
1城镇居民
2020/6/16
虚拟变量对截距的影响
y
有适龄子女
b0&#
o
图1 虚拟变量对截距的影响
x
2020/6/16
2、乘法方式引入虚拟变量
• 基本思想：以乘法方式引入虚拟解释变量
，是在所设定的计量经济模型中，将虚拟解释变量与其他解释变量相乘作为新的解释变量，以达到其调整模型斜率的
目的。 • 该方式引入虚拟变量主要作用：
D=
0 无适龄子女
将家庭教育费用支出函数写成：Yt=b0+b1Xt+aDt+μt 即以加法形式引入虚拟变量。
2020/6/16
子女年龄结构不同的家庭教育费用支出函数为：
• 无适龄子女家庭的教育费用支出函数（D=0 ）：Yt=b0+b1Xt+μt
• 有适龄子女家庭的教育费用支出函数（D=1 ）：Yt=（b0+a）+b1Xt+μt

第七章多元回归分析-虚拟变量

有男性male的虚拟变量和hsgrad仅仅中学毕业和colgrad大学毕业的虚拟变量加入malehsgrad和malecolgrad共有五个虚拟变量共有六种类型此时hsgrad代表女性仅仅中学毕业者colgrad表示女性大学毕业者交叉项表示男性仅仅中学毕业者和男性大学毕业者虚拟变量之间的交叉项续也可以考虑虚拟变量d和连续变量x之间的交叉项为了检验一个回归方程对不同的组是否应该取不同的参数我们可以检验表示组的虚拟变量及其和所有其他x变量的交叉项的显著性因此可以估计有所有交叉项和没有交叉项两种情况下的模型然后构造f统计量这种方法不容易把握chow检验如果我们对第一组样本做没有交叉项的回归得到ssr再同样对所有样本做没有交叉项的回归得到ssr那么ssrssrssrssrssrchow检验续chow检验其实就是一个对排除性限制条检验我们注意到ssrur限制条件针对每一个斜率和一个截距注无限制条件的模型估计了两个截距项和两组不同的系数因此自由度df为n做模型回归时我们假设所有的样本观测值都来自同一个总体如果总体发生改变那么模型参数也将发生改变因此检验总体也就是经济过程是否发生改变是用计量进行经济研究的主要步骤
线性概率模型（续）
• 即使概率的预测值在 [0,1] 范围内, 我们也可能估计出x 的变化对成功概率的影响大于+1 或者小于 –1, 因此最好用x 均值附近的变化 • 此外，该模型的扰动项不满足同方差的假设，因此会对检验产生影响 • 虽然有以上不足，线性概率模型还是可以在y 为二元变量的情况下作为初步的模型来使用
其它变量与虚拟变量的交叉项
• 也可以考虑虚拟变量 d 和连续变量 x 之间的交叉项 • y = β0 + δ1d + β1x + δ2d*x + u • 若 d = 0, 那么 y = β0 + β1x + u • 若 d = 1, 那么 y = (β0 + δ1) + (β1+ δ2) x + u • 这里的两种情况可以看成是斜率的变化

虚拟变量回归模型_OK

这意味着，男女职工平均薪金对工龄的变化率
是一样的，但两者的平均薪金水平相差 a。
可以通过传统的回归检验，对 a的统计显著性进行检验，以
判断男女职工的平均薪金水平是否显著差异。
16
例7.1.4 居民家庭的教育费用支出除了受收入水平的影响之外，还与子女的年龄结构密切相关。如果家庭中有适龄子女(6-21岁)，教育费用支出就多。因此，为了反映“子女年龄结构”这一定性因素，设置虚拟变量:
当tt*=1978年， Dt = 1
ˆyt = bˆ0 aˆxt + bˆ1 + aˆ xt
32
28
例如，进口消费品数量Y主要取决于国民收入 X的多少，中国在改革开放前后，Y对X的回归关系明显不同。
这时，可以t*=1978年为转折期，以1978年的国民收入Xt*为临界值，设如下虚拟变量：
1 Dt = 0
t t* t t*
则进口消费品的回归模型可建立如下：
yt = b0 + b1 xt + a xt xt Dt + ut
9
概念：
同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析（ analysis-of variance: ANOVA）模型。
一个以性别为虚拟变量考察企业职工薪金的模型：
Yt = b 0 + b1 Xt + b 2Dt + mt
其中：Yt为企业职工的薪金，Xt为工龄， Dt=1，若是男性，Dt=0，若是女性。
D4=
1 喜欢某种商品 0 不喜欢某种商品
5）表示天气变化的虚拟变量可取为
D5=
1 晴天 0 雨天
6
2．引入虚拟变量的作用引入虚拟变量的作用，在于将定性因素或属性因素对因变量

第七章虚拟变量

y= α +β1 x + β2 D1 + β3D2 ＋ β4D3 ＋μ
14
1 第一季度 D1 ＝{
0 其他
1 第二季度 D2 ＝{
0 其他 1 第三季度
D3＝{ 0 其他
15
年、季度
1990年1－3月 4－6月 7－9月 10－12月
1991年1－3月 4－6月 7－9月 10－12月
1992年 1－3月 4－6月 7－9月 10－12月
0
7－9月
0
10－12月
0
1992年 1－3月
1
4－6月
0
7－9月
0
10－12月 0
1993年1－3月
1
4－6月
0
7－9月
0
10－12月 0
1994年1－3月
1
D2
D3
0
0
1
0
0
1
0
0
0
0
1
0
0
1
0
0
0
0
1
0
0
1
0
0
0
0
1
0
0
1
0
0
0
0
18
估计结果如下：
Y= 9.0681+0.068301X-2.05875D1-1.8009D2-0.76594D3 所有t值都在1％的水平显著
103
208
1990
105
206
1991
96
203
1992
105
209
1993
78
213
1994
120
220

虚拟变量回归

数据收集
收集不同市场细分群体的基本信息和产品需求数据，如年龄、性别、收入、消费习惯等。
变量设置
将市场细分变量转换为虚拟变量，并引入到回归模型中。
结果分析
分析虚拟变量的系数和显著性，解释其对产品需求的影响，为市场定位提供依据。
案例三：教育程度与收入水平的关系研究
目的
研究教育程度对收入水平的影响，以及不同教育程度对收入水平的差异。
虚拟变量可能依赖于某些自变量，需要谨慎处理以避免多重共线性问题。
REPORT
CATALOG
DATE
ANALYSIS
SUMMAR Y
03
虚拟变量回归的模型构建
线性回归模型
线性回归模型是最常用的回归分析方法之一，用于探索自变量与因变量之间的线性关系。
在线性回归模型中，虚拟变量可以作为自变量引入，以解释和预测因变量的变化。
变量设置
将教育程度转换为虚拟变量，并引入到回归模型中。
数据收集
收集受访者的教育程度和收入水平数据。
结果分析
分析虚拟变量的系数和显著性，解释其对收入水平的影响，为职业规划和教育投资提供参考。
案例四：健康状况与生活习惯的关系研究
目的
数据收集
研究生活习惯对健康状况的影响，以及不同生活习惯对健康状况的差异。
虚拟变量回归的应用场景
1 2
社会科学研究
在社会科学研究中，经常需要研究分类变量对连续变量的影响。例如，研究不同教育程度或不同职业对收入的影响。
生物统计学
在生物统计学中，虚拟变量回归可用于研究基因型、物种或地理区域等因素对连续变量的影响。
3
市场分析
在市场分析中，虚拟变量回归可用于研究不同产品类别、品牌或市场细分对销售或其他连续变量的影响。

虚拟变量回归

前一时期：Yi a1 b1 X i i
后一时期：Yi a2 b2 X i i
如果引入虚拟变量
Di
1 后一时期
0 前一时期
那么回归模型可以变为
Yi a1 (a2 a1 ) Di b1 X i (b2 b1 ) XDi i
利用t检验判断Di 和X i Di系数是否显著，有下面几种结果
7
三.虚拟变量引入原则
1.如果一个定性变量有m个类别，那么只能引入 m-1个虚拟变量。
避免虚拟变量之间产生完全多重共线性。
2.如果有m个定性变量，每个变量只有两个类型，那么可以引入 m 个虚拟变量。
8
比如在研究居民消费函数的时候，考虑到城乡差距和收入差距，消费函数可以表示为: Yi b0 b1 X i b2 D1i b3 D2i i
虚拟变量回归
1
• • • •
1.虚拟变量的定义和作用 2.虚拟变量的引入方式 3.虚拟变量引入原则 4.虚拟变量的特殊应用
2
一.虚拟变量的定义和作用
在进行回归分析时，因变量不仅受到一些数值变量(如收入、产量、价格、成本)的影响，而且还受到一些定性因素( 如性别、学历、季节、地区差异)的影响。例如：在其他因素相同的情况下，具有硕士文凭的人通常
10
使用虚拟变量检验回归模型的稳定性，有下面两个用途： 1)分析回归模型结构对样本变化的敏感性； 2)比较、分析两个或多个回归模型的差异情况，即分析模型结构是否发生了变化，如我国改革开放前后经济发生了很大变化，利用前后两个时期的数据建立相关的宏观计量模型，就可能存在较大的差异。
11
设前后两个时期的回归模型分别为
13
Yi a1 (a2 a1 ) Di b1 X i (b2 b1 ) XDi i

虚拟量回归-精选文档31页

但在线性概率模型中干扰的正态性不成立。我们把
（7.9.1）写为：ui YiiiXi （7.9.5）
当当
Yi 1 Yi 0
时： ui 112Xi
时： ui 12Xi （7.9.6）
25
显然，我们不再可能假定干扰项是正态分布的：实际上，它遵循二项分布。（2）干扰项的异方差性（下章再讲）
21
这些例子的一个特性是，应变量属于仅要求回答是或否这样一种类型；就是说它是二分类的。处理二分类变量有四中模型： 1.线性概率模型 2.对数单位模型 3.概率单位模型 4.托比单位模型
22
为了建立概念，考虑如下模型：
Yi 12Xiui
其中 X=家庭收入
（7表示学院教授的薪金
X
表示教龄
i
1 男性 D2 0 女性
1 白色
D3

0
黑色
7
Y i a 1 a 2 D 2 i a 3 D 3 iX i u i
假定 E(ui ) 0，则可以得到以下回归：
黑人女教授平均薪金：
E (Y i|D 2 0 ,D 3 0 ,X i) a 1 X i
4
主要以下几点需要注意：
1、虽然有男、女两个分类，但是只用一个虚拟变量。更通用的规则是：如果一个定性变量有m个类别，则引入m-1个虚拟变量。
2、虚拟变量的取值是随意，但是一旦取定之后要能合理地解释其意义。 3、被赋予零值的那个类别通常称为基底。它是用以和其他类别作比较的一个基础。 4、虚拟变量的系数称为级差截距系数，它表示取值1的类别的截距值和基底类的截距值相比有多大差别。
简单一点，上过大学和性别这两个因素对衣着支出的影响不是独立的，他们相互影响，也即交互效应。

虚拟变量回归

虚拟变量回归
虚拟变量回归是指将一个分类变量转化为虚拟变量（也称为哑变量或指示变量），并将其作为解释变量在回归模型中使用。

虚拟变量是一种二元变量，其中一个变量用1表示某个类别，另一个变量用0表示不属于该类别。

例如，当一个分类变量有三个类别时，可以创建两个虚拟变量来表示这三个类别，分别是0-1变量A和0-1变量B，它们满足如下条件：
- 当分类变量属于A类时，变量A为1，变量B为0；
- 当分类变量属于B类时，变量A为0，变量B为1；
- 当分类变量属于C类时，变量A和变量B均为0。

在回归模型中使用虚拟变量可以使我们将分类变量的不同类别彼此对比，并推断它们对应的不同的回归系数，从而更好地解释和预测因变量。

虚拟变量回归在经济学、社会学、医疗保健等领域中很常见，可以用来研究诸如性别、种族、政治党派、行业等分类变量对某一因变量的影响。

第七章虚拟变量回归模型

1-4
第二节解释变量均为定性变量的模型
方差分析模型（ ANOVA ，analysis-of-variance models） • 回归模型中解释变量都是虚拟变量的模型 • 例如，一个以性别为虚拟变量考察高校教授薪金的模型 Yi 1 2 Di ui
其中：Yi为高校教授的薪金 Di=1，若是男性；Di=0，若是女性
ˆ Yi 0.2610 2.3606 D2i 1.7327 D3i 0.8028 X i (0.2357) (5.4873) (2.1803) (9.9094)
1-24
R 2 0.203
第五节解释变量包含一个定量变量、多个定性变量的模型
交互影响问题
Yi 1 2 D2i 3 D3i 4 X i ui
1-33
一个例子：是那种模型关系？
在统计检验中，如果4=0的假设被拒绝，则说明两个时期中储蓄函数的斜率不同。
具体的回归结果为：
ˆ Yi 15452 0.8881 i 138023Di 0.4765 i X i X . D
(-6.11) (22.89) (4.33) (-2.55)
(9.9095)
1-26
第五节解释变量包含一个定量变量、多个定性变量的模型
模型的一般化：多定量变量和多定性变量混合
例七表 10-5（精要） Aggregate contributions U.S. political parties, 1982.
1-27
第六节比较两个回归
如何分析定量变量与定性变量的交互影响？
Di为引入的虚拟变量：于是有：
1 Di 0
90年前 90年后
E (Yi | Di 0, X i ) 1 2 X i

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第七章虚拟变量回归第一节虚拟变量的性质在实际建模过程中，被解释变量不但受定量变量影响，同时还受定性变量影响。

例如需要考虑性别、民族、不同历史时期、季节差异、政府的更迭（工党-保守党）、经济体制的改革、固定汇率变为浮动汇率、从战时经济转为和平时期经济等。

这些因素也应该包括在模型中。

一、基本概念由于定性变量通常表示的是某种特征的有和无，所以量化方法可采用取值为1或0。

这种变量称作虚拟变量（dummy variable ）。

虚拟变量也称：哑元变量、定性变量等等。

通常用字母D 或DUM 加以表示（英文中虚拟或者哑元Dummy 的缩写）。

用1表示具有某一“品质”或属性，用0表示不具有该“品质”或属性。

虚拟变量使得我们可以将那些无法定量化的变量引入回归模型中。

虚拟变量应用于模型中，对其回归系数的估计与检验方法和定量变量相同。

虚拟变量表示两分性质，即“是”或“否”，“男”或“女”等。

下面给出几个可以引入虚拟变量的例子。

例1：你在研究学历和收入之间的关系，在你的样本中，既有女性又有男性，你打算研究在此关系中，性别是否会导致差别。

例2：你在研究某省家庭收入和支出的关系，采集的样本中既包括农村家庭，又包括城镇家庭，你打算研究二者的差别。

例3：你在研究通货膨胀的决定因素，在你的观测期中，有些年份政府实行了一项收入政策。

你想检验该政策是否对通货膨胀产生影响。

上述各例都可以用两种方法来解决，一种解决方法是分别进行两类情况的回归，然后看参数是否不同。

另一种方法是用全部观测值作单一回归，将定性因素的影响用虚拟变量引入模型。

二、虚拟变量设置规则虚拟变量的设置规则涉及三个方面: 1.“0”和“1”选取原则虚拟变量取“1”或“0”的原则，应从分析问题的目的出发予以界定。

从理论上讲，虚拟变量取“0”值通常代表比较的基础类型；而虚拟变量取“1”值通常代表被比较的类型。

“0”代表基期（比较的基础，参照物）；“1”代表报告期（被比较的效应）。

例如，比较收入时考察性别的作用。

当研究男性收入是否高于女性时，是将女性作为比较的基础（参照物），故有男性为“1”，女性为“0”。

2.属性（状态、水平）因素与设置虚拟变量数量的关系定性因素的属性既可能为两种状态，也可能为多种状态。

例如，性别（男、女两种）、季节（4种状态），地理位置（东、中、西部），行业归属，所有制，收入的分组等。

虚拟变量数量的设置规则 1.若定性因素具有 m （m ≥2）个相互排斥属性(或几个水平)，当回归模型有截距项时，只能引入m 个虚拟变量；2.当回归模型无截距项时，则可引入m 个虚拟变量；否则，就会陷入“虚拟变量陷阱”。

(0,1) (0,0)D D ⎧⎪⎨⎪⎩12(1,0)天气阴如：（,）=天气雨其他例 (虚拟变量陷阱)研究居民住房消费支出和居民可支配收入x i 之间的数量关系。

回归模型的设定为：现在要考虑城镇居民和农村居民之间的差异，如何办？为了对 “城镇居民”、“农村居民”进行区分，分析各自在住房消费支出上的差异，设为城镇; 为农村。

,则模型为(模型有截距，“居民属性”定性变量只有两个相互排斥的属性状态（ m=2），故只设定一个虚拟变量。

)若对两个相互排斥的 “居民属性” ，引入m=2个虚拟变量，则有则模型（1）为则对任一家庭都有： D 1+D 2=1即产生完全共线，陷入了“虚拟变量陷阱”。

“虚拟变量陷阱”的实质是：完全多重共线性。

第二节虚拟解释变量的回归在计量经济学中，通常引入虚拟变量的方式分为加法方式和乘法方式两种：即原模型实质:加法方式引入虚拟变量改变的是截距；乘法方式引入虚拟变量改变的是斜率。

一、加法类型（1）一个两种属性定性解释变量而无定量变量的情形011i i i Y =+X +u αβ（）i Y 1=1i D 1=0iD 01112i i i Y =+X +D +u αβα（）Dependent Variable: Y Method: Least SquaresDate: 11/23/11 Time: 22:19Sample: 1 10Included observations: 10VariableCoefficientStd. Error t-StatisticProb. C 18.00000 0.31176957.735030.0000D 3.2800000.440908 7.4391910.0001R-squared 0.873701 Mean dependent var 19.6400Adjusted R-squared0.857913S.D. dependent var 1.849444S.E. of regression0.697137 Akaike info criterion 2.293187Sum squared resid3.888000 Schwarz criterion 2.353704Log likelihood -9.465934 F-statistic55.34156Durbin-Watso n stat0.667284Prob(F-statistic)0.000073Yi = 18 + 3.28 Di(2)包含一个定量变量，一个定性变量模型设有模型，女教授男教授y t = β0 + β1 x t + β2D + u t ,其中y t ，x t 为定量变量；D 为定性变量。

当D = 0 或1时，上述模型可表达为，β0 + β1x t + u t , (D = 0) y t = (β0 + β2) + β1x t + u t , (D = 1)0204060204060X YD = 1或0表示某种特征的有无。

反映在数学上是截距不同的两个函数。

若β2显著不为零，说明截距不同；若β2为零，说明这种分类无显著性差异。

例：中国成年人体重y （kg ）与身高x （cm ）的回归关系如下： –105 + x D = 1 (男) y = - 100 + x - 5D =– 100 + x D = 0 (女) 注意：① 关于定性变量中的哪个类别取0，哪个类别取1，是任意的，不影响检验结果。

但解释模型时一定注意1，0是怎样分配的。

②定性变量中取值为0所对应的类别称作基础类别（base category ）。

③ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。

如：1 (大学) D = 0 (中学) -1 (小学)。

（3）一个定性解释变量（两种以上属性）和一个定量解释变量的情形（4）两个定性解释变量（均为两种属性）和一个定量解释变量的情形例：研究大学教师的年薪是否受到性别、学历的影响。

性别和学历是两个不同的标准。

按性别标准教师可以分成男、女两类，应该引入一个虚拟变量；按学历标准大学教师可以分为大学本科学历、硕士学历、博士学历三类，应该引入两个虚拟变量，共引入三个虚拟变量：令Y 代表年薪， X 代表教龄，建立模型：可以看出基准类是本科女教师，B0为刚参加工作的本科女教师的工资；B1为参加工作时间对工资的影响；B2是性别差异系数;B3和B4为学历差异系数，B3是硕士学历与本科学历的收入差异，B4是博士学历与本科学历的收入差异；通过上述分析，我们可以确定Bi 的符号。

在这个问题中，一共有六个类别，但是我们只引入了三个虚拟变量，而不是五个。

在就多个标准引入虚拟变量时，应该注意每一标准下引入虚拟变量个数应该是这一标准下类别数目减一，所以我们在本例中只引入三个虚拟变量而不是五个。

如果引入五个虚拟变ii i i i i u D B D B D B X B B Y +++++=44332210量就会陷入虚拟变量陷阱。

运用OLS 得到回归结果，再用t 检验讨论因素是否对模型有影响。

加法方式引入虚拟变量的主要作用为： 1.在有定量解释变量的情形下，主要改变方程截距； 2.在没有定量解释变量的情形下，主要用于方差分析。

二、乘法类型基本思想以乘法方式引入虚拟变量时，是在所设立的模型中，将虚拟解释变量与其它解释变量的乘积，作为新的解释变量出现在模型中，以达到其调整设定模型斜率系数的目的。

或者将模型斜率系数表示为虚拟变量的函数，以达到相同的目的。

乘法引入方式:（1）截距不变；（2）截距和斜率均发生变化；分析手段：仍然是条件期望。

以上只考虑定性变量影响截距，未考虑影响斜率，即回归系数的变化。

当需要考虑时，可建立如下模型：y t = β0 + β1 x t + β2 D + β3 x t D + u t ,其中x t 为定量变量；D 为定性变量。

当D = 0 或1时，上述模型可表达为，β0 + β2 ) + (β1 + β3)x t + u t , (D = 1) y t =β0 + β1 x t + u t , (D = 0) 通过检验 β3是否为零，可判断模型斜率是否发生变化。

020406080100204060X Y010203040506070204060T Y情形1（不同类别数据的截距和斜率不同）情形2（不同类别数据的截距和斜率不同）例:用虚拟变量区别不同历史时期（file:dummy2）中国进出口贸易总额数据（1950-1984）见下表。

试检验改革前后该时间序列的斜率是否发生变化。

定义虚拟变量D 如下0 （1950 - 1977）D =1 （1978 - 1984）中国进出口贸易总额数据（1950-1984）（单位：百亿元人民币）年trade time D time D年trade timeD timeD1950 0.415 1 0 0 1968 1.085 19 0 01951 0.595 2 0 0 1969 1.069 20 0 01952 0.646 3 0 0 1970 1.129 21 0 01953 0.809 4 0 0 1971 1.209 22 0 01954 0.847 5 0 0 1972 1.469 23 0 01955 1.098 6 0 0 1973 2.205 24 0 01956 1.087 7 0 0 1974 2.923 25 0 01957 1.045 8 0 0 1975 2.904 26 0 01958 1.287 9 0 0 1976 2.641 27 0 01959 1.493 10 0 0 1977 2.725 28 0 01960 1.284 11 0 0 1978 3.550 29 1 291961 0.908 12 0 0 1979 4.546 30 1 301962 0.809 13 0 0 1980 5.638 31 1 311963 0.857 14 0 0 1981 7.353 32 1 321964 0.975 15 0 0 1982 7.713 33 1 331965 1.184 16 0 0 1983 8.601 34 1 341966 1.271 17 0 0 1984 12.010 35 1 351967 1.122 18 0 0以时间time为解释变量，进出口贸易总额用trade表示，估计结果如下：trade = 0.37 + 0.066 time - 33.96D + 1.20 time D(1.86) (5.53) (-10.98) (12.42)0.37 + 0.066 time (D = 0, 1950 - 1977)=- 33.59 + 1.27 time(D = 1, 1978 - 1984) 上式说明，改革前后无论截距和斜率都发生了变化。

第七章虚拟变量回归

合集下载

第七章虚拟变量和随机解释变量 (2)

第七章虚拟变量

虚拟变量回归课件

Eviews数据统计与分析教程7章含虚拟变量的回归模型

第7章虚拟变量与随机解释变量

伍德里奇《计量经济学导论》（第5版）笔记和课后习题详解-第7章含有定性信息的多元回归分析：二值（或

第七节回归模型的结构稳定性检验-虚拟变量法

计量经济学第07章虚拟变量模型-第1节33

第七章虚拟变量虚拟变量回归模型ppt汇总计量经济学

第七章多元回归分析-虚拟变量

虚拟变量回归模型_OK

第七章虚拟变量

虚拟变量回归

虚拟变量回归

虚拟量回归-精选文档31页

虚拟变量回归

第七章虚拟变量回归模型

文档推荐

最新文档

第七章 虚拟变量回归

合集下载

第七章 虚拟变量和随机解释变量 (2)

第七章 虚拟变量

虚拟变量回归课件

Eviews数据统计与分析教程7章 含虚拟变量的回归模型

第7章 虚拟变量与随机解释变量

伍德里奇《计量经济学导论》（第5版）笔记和课后习题详解-第7章含有定性信息的多元回归分析：二值（或

第七节回归模型的结构稳定性检验-虚拟变量法

计量经济学第07章 虚拟变量模型-第1节33

第七章 虚拟变量 虚拟变量回归模型ppt汇总 计量经济学

第七章 多元回归分析-虚拟变量

虚拟变量回归模型_OK

第七章虚拟变量

虚拟变量回归

虚拟变量回归

虚拟量回归-精选文档31页

虚拟变量回归

第七章 虚拟变量回归模型

文档推荐

最新文档

第七章虚拟变量回归

第七章虚拟变量和随机解释变量 (2)

第七章虚拟变量

Eviews数据统计与分析教程7章含虚拟变量的回归模型

第7章虚拟变量与随机解释变量

计量经济学第07章虚拟变量模型-第1节33

第七章虚拟变量虚拟变量回归模型ppt汇总计量经济学

第七章多元回归分析-虚拟变量

第七章虚拟变量回归模型