虚拟解释变量回归
- 格式:doc
- 大小:1.11 MB
- 文档页数:31
引入虚拟解释变量的两种基本方式
在统计学分析中,引入虚拟解释变量是一种常用的方式,它可以提高统计模型的精确性,减少错误。
虚拟解释变量是一种变量,它不能显示出主要变量之间的关系,而是用于捕捉模型中其他非线性变量的影响,以抵消其他变量可能引起的误差。
使用虚拟解释变量可以更好地预测数据,并且可以消除变量之间的联系,使模型更加准确。
在引入虚拟解释变量时,有两种基本方式可以使用,即直接编码和回归编码。
在直接编码中,变量是将数据集中的每个观察点映射到一个多维统计模型,该模型包含了所有解释变量可能表示的可能效果及其影响。
直接编码将每个观察点映射到单个结果,这就可以预测出每个观察点的结果,即回归结果。
回归编码的方法更加复杂,它使用一个多变量的回归模型来模仿虚拟变量的影响。
回归编码的模型包含多个变量,其中虚拟变量和其他变量的加权和的结果来决定回归因素的影响。
例如,如果虚拟变量叫做“货币”,而另一个变量叫做“国家”,它们之间可能存在某种关系,回归编码方法可以捕捉这种关系,可以更好地预测结果。
引入虚拟解释变量可以改善模型的准确性,减少输入变量和输出变量之间的错误。
使用虚拟解释变量可以解决许多模型中出现的数据失真问题,可以显著提高模型的准确性和可靠性。
当使用虚拟解释变量时,有两种基本的编码方式可以使用,分别为直接编码和回归编码,它们都为统计模型提供了有效的正确性。
- 1 -。
虚拟变量回归
虚拟变量回归是指将一个分类变量转化为虚拟变量(也称为哑变量或指示变量),并将其作为解释变量在回归模型中使用。
虚拟变量是一种二元变量,其中一个变量用1表示某个类别,另一个变量用0表示不属于该类别。
例如,当一个分类变量有三个类别时,可以创建两个虚拟变量来表示这三个类别,分别是0-1变量A和0-1变量B,它们满足如下条件:
- 当分类变量属于A类时,变量A为1,变量B为0;
- 当分类变量属于B类时,变量A为0,变量B为1;
- 当分类变量属于C类时,变量A和变量B均为0。
在回归模型中使用虚拟变量可以使我们将分类变量的不同类别彼此对比,并推断它们对应的不同的回归系数,从而更好地解释和预测因变量。
虚拟变量回归在经济学、社会学、医疗保健等领域中很常见,可以用来研究诸如性别、种族、政治党派、行业等分类变量对某一因变量的影响。
虚拟变量回归第一节虚拟变量一、虚拟变量的基本概念在前面的分析中,被解释变量主要受到一些可以直接度量的变量影响,如收入、产出、商品需求量、价格、成本、资金、人数等。
但现实经济生活中,影响被解释变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些本质上为定性因素(或称属性因素)的影响,例如性别、种族、肤色、职业、季节、文化程度、战争、自然灾害、政府经济政策的变动等因素。
在实际经济分析中,这些定性变量有时具有不可忽视的重要影响。
例如,研究某个企业的销售水平,产业部门(制造业、零售业)、所有制(私营、非私营)、地理位置(东、中、西部)、管理者素质的高低等是值得经常考虑的影响因素,这些因素有共同的特征,即都是表示某种属性的,不能直接用数据精确描述的因素。
因此,被解释变量的变动经常是定量因素和属性因素共同作用的结果。
在计量经济模型中,应当同时包含定量和属性两种因素对被解释变量的影响作用。
定量因素是指那些可直接测度的数值型因素,如GDP、M2等。
定性因素,或称为属性因素,是不能直接测度的、说明某种属性或状态存在与否的非数值型因素,如男性或女性、城市居民或非城市居民、气候条件正常或异常、政府经济政策不变与改革等。
在计量经济学的建模中应当将定量因素和定性因素同时纳入模型之内。
为了在模型中反映定性因素,可以将定性因素转化为虚拟变量去表现。
虚拟变量(或称为属性变量、双值变量、类型变量、定性变量、二元型变量等),是人工构造的取值为0和1的作为属性变量代表的变量,一般用字母D(或DUM,英文dummy的缩写)表示。
属性因素通常具有若干类型或水平,通常虚拟变量的取值为0和1,当虚拟变量取值为0,即D=0时,表示某种属性或状态不出现或不存在,即不是某种类型;当虚拟变量取值为1,即D=1时,表示某种属性或状态出现或存在,即是某种类型。
例如,构造政府经济政策人工变量,当经济政策不变时,虚拟变量取值为0,当经济政策改变时,虚拟变量取值为1。
这种做法实际上是一种变换或映射,将不能精确计量的定性因素的水平或状态变换为用0 和 1 来定量描述。
二、虚拟变量的设置规则在计量经济学模型中引入虚拟变量,可以使我们同时兼顾定量因素和定性因素的影响和作用。
但是,在设置虚拟变量时应遵循一定的规则。
1、虚拟变量数量的设置规则虚拟变量个数的设置规则是:若定性因素有m个相互排斥的类型(或属性、水平),在有截距项的模型中只能引入m-1个虚拟变量,否则会陷入所谓“虚拟变量陷阱”,产生完全的多重共线性。
在无截距项的模型中,定性因素有m个相互排斥的类型时,引入m个虚拟变量不会导致完全多重共线性,不过这时虚拟变量参数的估计结果,实际上是D=1时的样本均值。
例如,城镇居民和农村居民住房消费支出的模型可设定为:i i i i u D Y C +++=21αβα (8.1)其中,i C 为居民的住房消费支出,i Y 为居民的可支配收入,i D 为虚拟变量,10i D ⎧=⎨⎩城镇居民其他,即当1=i D 时为城镇居民;当0=i D 时为其他(农村居民)。
这里区分城镇居民和农村居民的定性变量的类型有m=2个,按虚拟变量的设置规则应引入m -1=2-1=1个虚拟变量。
但是,如果引入了m=2个虚假变量:210i D ⎧=⎨⎩城镇居民其他 , 310i D ⎧=⎨⎩农村居民其他, 则有:i i i i i u D D Y C ++++=33221ααβα (8.2)这时,当i D 2=1时同时有i D 3=0;反之,当i D 2=0时有i D 3=1。
即对于任何被调查的居民家庭都有i D 2+i D 3=1,2D 和3D 存在完全的共线性,无法利用OLS 估计其参数,从而陷入“虚拟变量陷阱”。
由此,所谓的“虚拟变量陷阱”的实质是出现完全多重共线性。
可见,虚拟变量有其积极作用的一面,也有不良影响的一面,引入的虚拟变量适当,则发挥了积极的作用,引入的虚拟变量过度,则会带来负面的影响。
2、虚拟变量的“0”和“1”的选取原则虚拟变量取“1”或“0”的原则,应从分析问题的目的出发予以界定。
从理论上讲,虚拟变量取“0”值通常代表为比较的基础类型;而虚拟变量取“1”值通常代表为被比较的类型。
例如,引入政府经济政策的变动对被解释变量的影响时,由于此时的比较是在政府经济政策不变的基础上进行的,故虚拟变量确定为:1:0:t D ⎧=⎨⎩基础类型政府经济政策变动比较类型政府经济政策不变 三、虚拟变量的作用在计量经济模型中,虚拟变量可以发挥多方面的作用:(1)可以作为属性因素的代表,如性别、所有制等;(2)作为某些非精确计量的数量因素的代表,如受教育程度、管理者素质等;(3)作为某些偶然因素或政策因素的代表,如战争、灾害、改革前后等;(4)还可以作为时间序列分析中季节(月份)的代表;(5)可以实现分段回归,研究斜率、截距的变动,或比较两个回归模型的结构差异。
在计量经济学中,把包含有虚拟变量的模型称为虚拟变量模型。
常用的虚拟变量模型有三种类型:(1)解释变量中只包含虚拟变量,作用是在假定其他因素都不变时,只研究定性变量是否使被解释变量表现出显著差异;(2)解释变量中既含定量变量,又含虚拟变量,研究定量变量和虚拟变量同时对被解释变量的影响;(3)被解释变量本身为虚拟变量的模型,是被解释变量本身取值为0或1的模型,适于对某社会经济现象进行“是”与“否”的判断研究。
特别要注意的是,定型或属性变量,通常由1个以上的虚拟变量描述。
例如,分析考证区域这样一个定性因素的影响时,若将区域因素划分为东、中、西三种属性时,在有截距项的回归模型中,只能引人2个虚拟变量,而这两个虚拟变量只是描述了1个定性因素(区域因素),而不是2个定性因素。
当然,当定性因素为性别因素时,1个虚拟变量就描述了1个定性因素。
第二节 虚拟解释变量的回归在计量经济模型中,加入虚拟解释变量的途径有两种基本类型:一是加法类型;二是乘法类型。
不同的途径引入虚拟变量有不同的作用,加法方式引入虚拟变量改变的是截距;乘法方式引入虚拟变量改变的是斜率。
一、用虚拟变量表示不同截矩的回归——加法类型以加法类型引入虚拟解释变量的模型,如(8.3)式那样,123t t t Y X D u ααα=+++ (8.3)在(8.3)所设定的计量经济模型中,虚拟解释变量与其他解释变量是相加关系。
以加法形式引入虚拟解释变量,从计量经济模型的意义看,其作用是改变了设定模型的截距水平。
以加法方式引入虚拟变量时,分为四种情形:(1)解释变量只有一个分为两种相互排斥类型的定性变量而无定量变量;(2)解释变量包含一个定量变量和一个分为两种类型的定性变量;(3)解释变量包含一个定量变量和一个两种以上类型的定性变量;(4)解释变量包含一个定量变量和两个定性变量。
1、解释变量只有一个分为两种相互排斥类型的定性变量而无定量变量的回归这种情况的模型又被称为方差分析模型,例如(8.4)式i i i u D Y ++=βα(8.4)其中,i Y 为居民的年可支配收入,i D 为虚拟解释变量,i D =1代表城镇居民;i D =0代表非城镇居民。
(8.4)式的意义是,假设其他因素(包括文化程度、职业、性别等)保持不变的条件下,研究城镇居民和非城镇居民的收入是否存在差别。
当i u 满足古典假设时,由式(8.4)有:非城镇居民的年平均收入:α==)0|(i i D Y E (8.5)城镇居民的年平均收入: βα+==)1|(i i D Y E (8.6)即在(8.4)式中,截距项α给出了非城镇居民的年平均可支配收入水平,而另一系数β则表明城镇居民年平均可支配水平不同于非城镇居民年平均可支配收入的部分。
由式(8.5)和(8.6)可知,虚拟解释变量的作用是改变设定模型的截距水平。
为了检验城镇居民和非城镇居民的年均可支配收入是否有显著差别,可构造假设H 0:0=β,即城镇与非城镇居民年均可支配收入无差别。
对式(8.4)回归,依据β估计值的t 检验是否显著,可作出接受或不能接受H 0假设的判断。
2、解释变量包含一个定量变量和一个分为两种类型定性变量的回归例如 12i i i i Y D X ααβμ=+++ (8.7)1:0i Y X D ⎧=⎨⎩城镇居民其中:消费支出;:收入;农村居民模型(8.7)的意义在于描述收入和城乡差别对居民消费支出的影响。
(8.7)式由一个定量解释变量X 和一个分为两种类型的虚拟解释变量组成。
注意这里一个定性变量具有两种类型,只使用了一个虚拟变量。
当(8.7)式中的i u 服从古典假定时,有:基础类型:()1|,0i i i i E Y X D X αβ==+农村居民消费支出: (8.8) 比较类型:()12|,1i i i i E Y X D X ααβ==++城镇居民消费支出:() (8.9) 其中1α为差异截距系数。
(8.7)式可图示为8.1,表明非城镇居民与城镇居民两种类型收入函数的斜率相同(均为β),而截距水平不同。
这说明,城镇居民和非城镇居民在消费支出水平上,存在着规模为1α的差异,而由收入因素而产生的平均消费支出水平变化却是相同的。
图8.1 城镇农村居民消费支出水平的差异在0:10=αH 的假设下,对参数1α估计值的t 检验,可以进行消费支出是否存在城乡差异的检验。
3、解释变量包含一个定量变量和一个两种以上类型的定性变量的回归考虑以下模型:i i i i i u X D D Y ++++=βααα33221(8.10)其中:i Y 为年医疗保健费用支出,i X 为居民的年可支配收入,210D ⎧=⎨⎩高中及高中教育以上其他,310D ⎧=⎨⎩大专及大专以上其他 0X 1 2a显然,模型(8.9)是描述居民的年医疗保健费用支出与居民可支配收入(定量变量)和受教育程度(定性变量)间的因果关系。
这里,定性因素(受教育的程度)划分为三种类型;高中以下、高中、大专及大专以上。
注意这里的定性变量有3种类型,依据虚拟变量设置规则引入了m -1=3-1=2个虚拟变量,而且一个定性变量多种类型时,虚拟变量可同时取值为0,但不能同时取值为1,因为同一定性变量的各种类型间“非此即彼”。
当式(8.10)服从古典假定时,有:基础类型:高中以下教育:1132)0,0,|(X D D X Y E i i βα+=== (8.11) 比较类型:高中教育: i i i X D D X Y E βαα++===)()0,1,|(2132 (8.12)大专及大专以上:i i i X D D X Y E βαα++===)()1,0,|(3132 (8.13)这表明,三种不同教育程度居民的医疗保健费用年均支出的起点水平(截距)不同,差异截距系数为2α和3α。