spss第八章虚拟变量
- 格式:ppt
- 大小:184.00 KB
- 文档页数:9
【精品】计量经济学实验报告(虚拟变量)一、研究背景本次计量经济学实验旨在探讨虚拟变量的运用,针对具体的数据集进行剖析,发掘出数据中存在的变量之间的相关性,进一步了解虚拟变量的性质和应用。
二、研究数据与模型本次实验所使用的数据主要来自于美国地区居民的生活经历与工作情况。
我们采用了线性回归模型来建立数据之间的相关性。
其中,自变量包括:年龄、性别、收入、婚姻状态、教育程度、是否有孩子和是否居住在城市;因变量为每周工作时间。
首先,我们运用SPSS对数据进行了初步的分析。
结果显示,数据存在了年龄、性别、收入、婚姻状态、教育程度、是否有孩子和是否居住在城市等多个变量。
其中,包括了虚拟变量。
我们选取了其中一个虚拟变量进行研究,即“是否有孩子”。
在该变量中,响应值为“是”、“否”,我们将其转换为虚拟变量,即0表示没有孩子,1表示有孩子。
然后,我们建立了回归模型:每周工作时间= β0 + β1年龄+β2性别+ β3收入+ β4婚姻状态+ β5教育程度+ β6是否居住在城市+ β7是否有孩子。
最后,我们选取了样本数据中的500个数据进行模型拟合,其中250条数据表示没有孩子,250条数据表示有孩子。
三、实验结果通过数据分析软件的运算,我们得出了模型拟合的结果。
模型拟合结果如下:从结果中我们可以看出,虚拟变量“是否有孩子”对于每周工作时间的影响显著,其系数为2.01,t值为4.8,显著性水平为0.01,说明儿童数量对于家长的工作时间有显著的影响。
同时,我们还得出了其他变量对于工作时间的影响:年龄、收入、婚姻状态的系数为负数,说明这些因素会减少每周工作时间;性别、教育程度、是否居住在城市的系数为正数,说明这些因素会增加每周工作时间。
四、结论通过本次实验,我们可以得出以下结论:1.虚拟变量是计量经济学中常见的方法之一,在处理定量变量与定性变量时能够有效的将其转换为数值变量。
2.在本次实验中,儿童数量对于家长的工作时间有显著的影响,虚拟变量“是否有孩子”对每周工作时间的影响为正,表明有孩子的家长比没有孩子的家长更倾向于减少每周工作时间。
第8章方差分析在前面的第5章,我们讲述了两独立样本参数的t检验,通过t检验可以判断两个总体的均值是不是有显著差异。
那么,我们不禁要问:如果要判断的总体不止两个,而是多个,我们该如何进行均值间的比较呢?对多个总体两两进行独立样本t检验是一种处理方法,但是随着总体数目的增多,这种方法C=4950次两两比较,真是一件繁琐又的弊端会越来越明显,假如我们要检验100个总体,那需要做2100浩大的工程。
有没有一种方法能够不进行两两比较直接从整体上解决多总体的均值的比较呢?SPSS提供方差分析来完成这一工作。
在工业、农业、经济、医学、金融等许多学科领域,方差分析被广泛应用于数量分析研究,发挥了越来越重要的作用。
方差分析这种将数据差异划分为几种原因并进行比较分析找出总体规律的思想,是非常重要的一种统计思想,在很多统计方法中也经常使用,掌握方差分析,不仅让我们掌握了一件分析数据的有力工具,而且有助于我们对统计思想的深入理解,培养统计思维,可谓一举双得。
下面我们就来具体说说方差分析的基本思想和步骤。
8.1 方差分析概述方差分析从实质上来说是两独立样本t检验推广到多独立总体情形的假设检验,是一种参数检验方法,其检验的是多总体的均值是否存在显著差异。
例如,在证券市场中,我们要考察不同行业的股票,在一轮大牛市中上涨的平均幅度是否相同,即股票在牛市中是否存在行业差异。
此时,我们需要在每个行业中选取一些股票作为样本,计算其涨幅,然后再比较这些行业平均涨幅是否相同。
这也仅仅考虑行业对证券的影响,其实证券的影响因素还有很多:地域、概念、宏观政策等,这些因素中哪些对股票有显著的影响,哪些没有显著的影响。
更进一步来说,如果肯定了行业对股票涨幅有影响,那么我们还需要确定究竟是哪个行业的股票的平均涨幅最大,哪个行业的平均涨幅最小,它们之间的差异是不是显著的。
在清楚了这些问题以后,我们就可以针对某个行业的股票制定投资策略了。
上面仅仅是单个因素的考虑影响,当同时考虑多个因素对股票涨幅的影响时,例如:行业、地域因素同时考虑,问题就复杂了,这里面不仅有单个因素本身的影响,还存在两个因素的关联性对股票的影响,需要仔细甄别。
第八章虚拟变量模型1. 回归模型中引入虚拟变量的作用是什么?答:在模型中引入虚拟变量,主要是为了寻找某(些)定性因素对解释变量的影响。
加法方式与乘法方式是最主要的引入方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
2. 虚拟变量有哪几种基本的引入方式? 它们各适用于什么情况?答:在模型中引入虚拟变量的主要方式有加法方式与乘法方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
3.什么是虚拟变量陷阱?答:根据虚拟变量的设置原则,一般情况下,如果定性变量有m个类别,则需在模型中引入m-1个变量。
如果引入了m个变量,就会导致模型解释变量出现完全的共线性问题,从而导致模型无法估计。
这种由于引入虚拟变量个数与类别个数相等导致的模型无法估计的问题,称为“虚拟变量陷阱”。
4.在一项对北京某大学学生月消费支出的研究中,认为学生的消费支出除受其家庭的每月收入水平外,还受在学校中是否得到奖学金,来自农村还是城市,是经济发达地区还是欠发达地区,以及性别等因素的影响。
试设定适当的模型,并导出如下情形下学生消费支出的平均水平:(1) 来自欠发达农村地区的女生,未得到奖学金;(2) 来自欠发达城市地区的男生,得到奖学金;(3) 来自发达地区的农村女生,得到奖学金;(4) 来自发达地区的城市男生,未得到奖学金。
解答: 记学生月消费支出为Y,其家庭月收入水平为X,则在不考虑其他因素的影响时,有如下基本回归模型:Y i=β0+β1X i+μi有奖学金1 来自城市无奖学金0 来自农村来自发达地区 1 男性0 来自欠发达地区0 女性Y i=β0+β1X i+α1D1i+α2D2i+α3D3i+α4D4i+μi由此回归模型,可得如下各种情形下学生的平均消费支出:(1) 来自欠发达农村地区的女生,未得到奖学金时的月消费支出:E(Y i|= X i, D1i=D2i=D3i=D4i=0)=β0+β1X i(2) 来自欠发达城市地区的男生,得到奖学金时的月消费支出:E(Y i|= X i, D1i=D4i=1,D2i=D3i=0)=(β0+α1+α4)+β1X i(3) 来自发达地区的农村女生,得到奖学金时的月消费支出:E(Y i |= X i , D 1i =D 3i =1,D 2i =D 4i =0)=(β0+α1+α3)+β1X i (4) 来自发达地区的城市男生,未得到奖学金时的月消费支出: E(Y i |= X i ,D 2i =D 3i =D 4i =1, D 1i =0)= (β0+α2+α3+α4)+β1X i5. 研究进口消费品的数量Y 与国民收入X 的模型关系时,由数据散点图显示1979年前后Y 对X 的回归关系明显不同,进口消费函数发生了结构性变化:基本消费部分下降了,而边际消费倾向变大了。
什么是哑变量(虚拟变量),应用中应注意什么问题?虚拟变量(dummy variable)也叫哑变量,翻译不同而已。
因为dummy的含义有假的、虚拟的、哑的等各种含义,所以国内翻译也不一样。
但是他们俩是一回事。
虚拟变量其实算不上一种变量类型(比如连续变量、分类变量等),确切地说,是一种将多分类变量转换为二分变量的一种形式。
Dummy这个词意思是虚拟的、假的,所以dummy variable意思就是假的变量,不是真实的变量。
那它到底虚拟在什么地方呢?我们通过一个例子来详细解释一下。
例:某研究者检测了四种不同类型社区(分别用0、1、2、3表示)的SO2情况。
研究者欲分析社区类型是否与SO2水平有关系,或者说,不同社区类型的SO2水平是否不同。
该例子中,因变量SO2水平是一个定量资料,自变量社区类型是一个分类资料,分析方法可以考虑一般线性模型。
首先要强调一点,不管是一般线性模型还是广义线性模型,它们都是“线性”的,也就是说,只要你采用了这些模型,就已经默认了自变量与因变量之间的关系是线性的。
所以,对于例中的数据,如果用一般线性模型,其结果如下图所示。
图中的意思是,随着社区类型从0到3之间的改变,SO2水平是线性增加的,增加的幅度(斜率)是207.8。
也就是说,社区类型从0变为1,SO2增加207.8;社区类型从1变为2,SO2增加207.8;社区类型从2变为3,SO2增加207.8。
但我们会发现,事实并非如此。
从0到1时,似乎增加的幅度更大;而从1到2时,似乎增加的幅度没有这么大。
也就是说,207.8这个幅度,只是一个平均幅度,是从0到3增加的平均幅度。
如果我们想具体了解从0到1、从1到2、从2到3真实的增加值,就需要用到虚拟变量了。
所谓虚拟变量,就是把原来的一个多分类变量转化为多个二分变量,总的来说就是,如果多分类变量有k个类别,则可以转化为k-1个二分变量。
如变量x为赋值1、2、3、4的四分类变量,就可以转换为3个赋值为0和1的二分类变量。
第八章 虚拟变量回归一、判断题1。
虚拟变量只能作为解释变量.(F)2。
引入虚拟变量后,用普通最小二乘法得到的估计量仍是无偏的。
( T )3.引入虚拟变量的个数与模型有无截距项无关.(F )4。
虚拟变量用来表示某些具有若干属性的变量.(T)5。
引入虚拟变量的个数与样本容量大小有关。
(F )二、单项选择题1.设消费函数011t t t y a a D b x u =+++,其中虚拟变量10D ⎧=⎨⎩东中部西部,如果统计检验表明10a =成立,则东中部的消费函数与西部的消费函数是( D ).A. 相互平行的 B 。
相互垂直的 C. 相互交叉的 D 。
相互重叠的2.虚拟变量( A )A 。
主要来代表质的因素,但在有些情况下可以用来代表数量因素B 。
只能代表质的因素C 。
只能代表数量因素D.只能代表季节影响因素3。
分段线性回归模型的几何图形是( D )A 。
平行线 B. 垂直线 C 。
光滑曲线 D. 折线4.如果一个回归模型中(包含截距项),对一个具有m 个特征的质的因素要引入虚拟变量数目为( B ).A.m B 。
m-1 C 。
m —2 D.m+15.设某商品需求模型为01t t t y b b x u =++,其中Y 是商品的需求量,X 是商品的价格,为了考虑全年12个月份季节变动的影响,假设模型中引入了12个虚拟变量,则会产生的问题为( D )。
A .异方差性B .序列相关C .不完全的多重共线性D .完全的多重共线性6.设消费函数为i i i 33i 22i 11o i u bx D D D y +++++=αααα,其中y 为消费,x 为收入,虚拟变量⎩⎨⎧=⎩⎨⎧=⎩⎨⎧=其他季度第三季度,其他季度第二季度,其他季度第一季度 0 0 0 321D 1D 1D 1,该模型中包含了几个定性影响因素?( A )。
A 。
1B 。
2C 。
3D 。
47。
设消费函数为i i i o i u Dx b x b D y ++++=101αα,其中虚拟变量⎩⎨⎧=农村家庭城镇家庭 0 1D ,当统计检验表明下列哪项成立时,表示城镇家庭与农村家庭有一样的消费行为( A ).A 。
虚拟变量(Dummy Variable),又称虚设变量、名义变量或哑变量,是量化了的质变量,通常取值为 0或1。
引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明。
名义变量引入回归分析,必须进行数量化。
如,职业有工人、农民、教师,分别赋值0,1,2。
但是0,1,2代表的实际意义又不是由小到大的关系。
所以这在回归分析中直接使用是错误的。
如考虑季节因素时,用 1,2,3,4编码也是不合理的,通常也进行哑变量化。
对于有序变量,如轻、中、重,则要酌情考虑。
如果样本量足够大的话,也进行哑变量化,这样可以得到不同级别的差异。
但是如果样本量不够大是,哑变量化造成变量数目上升,使回归结果变得不可靠,只能适得其反。
哑变量设置的原则在模型中引入多个哑变量时,哑变量的个数应按下列原则确定:如果有 m 种互斥的属性类型,在模型中引入(m-1)个哑变量。
例如,文化程度分小学、初中、高中、大学、研究生5类,引用4个哑变量回归分析在 spss中,logistics 回归中,有专门的选项来处理需要哑变量化的变量,只需单击“Categorical..进行”设置即可。
但是对于多元线性回归就没有那么幸运了。
用 computer 或 recode设置一组哑变量。
由于哑变量是一个整体变量,所以进行变量筛选时必须共同进退。
因此,将所有哑变量同一般变量一块直接进行筛选是不对的,会出现一部分变量进入一部分变量未进入的情形。
解决的方法是:将同一因素下的哑变量进行归组,在纳入方法中选择了“ENTER”来确保这些哑变量同进同出,而其它连续型变量和二分类变量则归为另一组,纳入方法为 STEPWISE。
然后在没有纳入这组哑变量的情况下再做一次 STEPWISE,再来比较是不是应该纳入这组哑变量。
在 sas中,哑变量的设置需要另外写程序,但是在回归程序中,则比较简单。
eg.因变量 y,自变量 x1,x2,哑变量组 x31 x32 x33,proc reg;model y=x1 x2 {x31 x32 x33} /selection=stepwise;run;即,把哑变量组用 {} 括起来就可以了。
什么是虚拟变量?虚拟变量又称哑变量,是人为设定的用于将分类变量引入模型中的方法。
为什么要使用虚拟变量在回归分析中,自变量X既可以是定量数据也可以定类数据。
回归分析计算时是将所有自变量X视为数字,但当数据为定类数据时,此时数字代表类别,数字大小本身没有比较意义。
因此,这类数据在做回归分析时,需要设置成哑变量才能纳入回归分析正确分析数据。
如何使用虚拟变量用一个例子说明:研究性别和工龄对基本工资的影响情况。
工龄是定量数据;性别为二分类数据,因而分析时性别不能直接放入回归模型,正确做法是将变量转化成取值为1和0的哑变量。
性别分为两类,因而需要设置2个虚拟变量(2列),分别表示男性和女性两个类别。
如果是男性,‘性别_男’虚拟变量取值为1,‘性别_女’虚拟变量取值为0。
如果是女性则相反。
当变量分类超过两类时,也是类似的处理方式,在回归分析前将下面的“专业”类别转化为虚拟变量,结果如下图所示:理科类取值=1代表专业为理科,0代表非理科文科类取值=1代表专业为文科,0代表非文科工科类取值=1代表专业为工科,0代表非工科S P S S A U可直接一步生成虚拟变量,具体操作如下:分析时,要注意少放入一个虚拟变量。
如果分为两类就放入一个虚拟变量,三类就放入两个,以此类推。
原因在于虚拟变量包括数字0和1;0是对比参考项。
如果2个类别都放入了,就没有参考类别了。
如何解释分析结果线性回归分析结果由上表可知,回归模型通过F检验,性别_男一项P<0.01,说明性别对基础工资确实存在显著的影响关系。
模型公式为:月基本工资=2403.834+42.659*工龄+1377.873*性别_男当“性别_男”取值为1表示男性的月工资回归方程,0表示女性的月工资回归方程。
回归系数值为1377.873,因此说明相同工龄下,男性的月基本工资比女性多1377.88元。
相反,放入的分析项若为性别_女,回归系数值应为-1377.873,代表同工龄的条件下,女性的月基本工资比男性少1377.88元哪些分析方法会使用到虚拟变量通常情况下,回归分析,逐步回归,分层回归,L o g i s t i c回归,P L S回归、调节作用等这类影响关系研究的方法时,才可能涉及到虚拟变量设置。
如何用spss做一般(含虚拟变量)多元线性回归回归一直是个很重要的主题。
因为在数据分析的领域里边,模型重要的也是主要的作用包括两个方面,一是发现,一是预测。
而很多时候我们就要通过回归来进行预测。
关于回归的知识点也许不一定比参数检验,非参数检验多,但是复杂度却绝对在其上。
回归主要包括线性回归,非线性回归以及分类回归。
本文主要讨论多元线性回归(包括一般多元回归,含有虚拟变量的多元回归,以及一点广义差分的知识)。
请大家不要觉得本人偷奸耍滑,居然只有一个主题,两个半知识点。
相信我,内容会很充实的。
对于线性回归的定义主要是这样的:线性回归,是基于最小二乘法原理产生古典统计假设下的最优线性无偏估计。
是研究一个或多个自变量与一个因变量之间是否存在某种线性关系的统计学方法。
这个什么叫线性回归,什么叫最小二乘法,在在高中数学课本里边就有涉及。
我就不重复了嘿嘿。
本质上讲一元线性回归是多元线性回归的一个特例,因此我们就直接讨论多元线性回归了哈。
为了便于叙述,我们先举个例子,假设我们想研究年龄,体重,身高,和血压的线性回归关系。
打开菜单分析——回归——线性,打开主对话框。
很容易可以知道在本例中因变量选择血压,自变量选择年龄,身高,体重。
然后注意,在因变量那个框框下边还有一个写着方法的下拉的单选菜单。
这个方法指的是建立多元线性方程的方法,也就是自变量进入分析的方法。
一共包括五种,进入,逐步,删除,向后,向前。
进入是最简单的一种,就是强迫指定选中的自变量都进入方程。
其余四个方法比较复杂,系统会依照不同的规则自动的帮助你剔除不合格的自变量,以此保证方程的可靠性。
下边的选择变量框框是用来指定分析个案的选择规则,这个一般大家是所有的个案都利用,所以不用管它。
再下边的个案标签变量,是用来在图形中标注值得,也不是重点。
最下边的WLS权重,是在加权最小二乘法里边使用的,这里不管它。
介绍完主面板以后我们来看统计量选项卡。
这张选项卡比较小,一般勾选的主要有估计,模型拟合度,共线性诊断,DW检验统计量。
第八章非参数检验OUTLINE计数数据的检验01独立样本的非参数检验02相关样本的非参数检验03计数数据的检验配合度的卡方检验操作过程打开数据文件“fit_test.sav”,在SPSS中选择“Data→Weight Cases…”;选择“Weight cases by”,在“Frequency Variable”下选择“freq”,点击“OK”;选择“Analyze→NonparametricTests→Legacy Dialogs→Chi-square…”;将“major”选入“Test Variable List”框中,在“Expected Values”框中选择“Values”,并将国家统计比例依次“Add”;这里我们选择“Add”选项,并依次输入各类别的比例。
如果假设各类别比例相同,则可以选择默认的“All categories equal”选项。
在“Exact…”选项框中选择“Asymptotic only”选项,点击“Continue→OK”配合度的卡方检验操作过程打开数据文件“fit_test.sav”,在SPSS中选择“Data→Weight Cases…”;选择“Weight cases by”,在“Frequency Variable”下选择“freq”,点击“OK”;选择“Analyze→NonparametricTests→Legacy Dialogs→Chi-square…”;将“major”选入“Test Variable List”框中,在“Expected Values”框中选择“Values”,并将国家统计比例依次“Add”;这里我们选择“Add”选项,并依次输入各类别的比例。
如果假设各类别比例相同,则可以选择默认的“All categories equal”选项。
在“Exact…”选项框中选择“Asymptotic only”选项,点击“Continue→OK”配合度的卡方检验操作过程打开数据文件“fit_test.sav”,在SPSS中选择“Data→Weight Cases…”;选择“Weight cases by”,在“Frequency Variable”下选择“freq”,点击“OK”;选择“Analyze→NonparametricTests→Legacy Dialogs→Chi-square…”;将“major”选入“Test Variable List”框中,在“Expected Values”框中选择“Values”,并将国家统计比例依次“Add”;这里我们选择“Add”选项,并依次输入各类别的比例。
SPSS教程:手把手教你设置哑变量及解读结果!在构建回归模型时,如果自变量X为连续性变量,回归系数β可以解释为:在其他自变量不变的条件下,X每改变一个单位,所引起的因变量Y的平均变化量;如果自变量X为二分类变量,例如是否饮酒(1=是,0=否),则回归系数β可以解释为:其他自变量不变的条件下,X=1(饮酒者)与X=0(不饮酒者)相比,所引起的因变量Y 的平均变化量。
但是,当自变量X为多分类变量时,例如职业、学历、血型、疾病严重程度等等,此时仅用一个回归系数来解释多分类变量之间的变化关系,及其对因变量的影响,就显得太不理想。
此时,我们通常会将原始的多分类变量转化为哑变量,每个哑变量只代表某两个级别或若干个级别间的差异,通过构建回归模型,每一个哑变量都能得出一个估计的回归系数,从而使得回归的结果更易于解释,更具有实际意义。
本文将向大家详细介绍哑变量的相关知识,同时结合SPSS软件的应用,来介绍在不同的回归模型中如何设置哑变量。
哑变量哑变量(Dummy Variable),又称为虚拟变量、虚设变量或名义变量,从名称上看就知道,它是人为虚设的变量,通常取值为0或1,来反映某个变量的不同属性。
对于有n个分类属性的自变量,通常需要选取1个分类作为参照,因此可以产生n-1个哑变量。
将哑变量引入回归模型,虽然使模型变得较为复杂,但可以更直观地反映出该自变量的不同属性对于因变量的影响,提高了模型的精度和准确度。
举一个例子,如职业因素,假设分为学生、农民、工人、公务员、其他共5个分类,其中以“其他职业”作为参照,此时需要设定4个哑变量X1-X4,如下所示:X1=1,学生;X1=0,非学生;X2=1,农民;X2=0,非农民;X3=1,工人;X3=0,非工人;X4=1,公务员;X4=0,非公务员;那么对于每一种职业分类,其赋值就可以转化为以下形式:什么情况下需要设置哑变量1. 对于无序多分类变量,引入模型时需要转化为哑变量举一个例子,如血型,一般分为A、B、O、AB四个类型,为无序多分类变量,通常情况下在录入数据的时候,为了使数据量化,我们常会将其赋值为1、2、3、4。
SPSS作业8:二项Logistic回归分析为研究和预测某商品消费特点和趋势,收集到以往胡消费数据。
数据项包括是否购买,性别,年龄和收入水平。
这里采用Logistic回归的方法,是否购买作为被解释变量(0/1二值变量),其余各变量为解释变量,且其中性别和收入水平为品质变量,年龄为定距变量。
变量选择采用Enter方法,性别以男为参照类,收入以低收入为参照类。
(一)基本操作:(1)选择菜单Analyze-Regression-Binary Logistic;(2)选择是否购买作为被解释变量到Dependent框中,选其余各变量为解释变量到Covariates框中,采用Enter方法,结果如下:消费的二项Logistic分析结果(一)(强制进入策略)Categorical Variables Codings^Frequency Parameter coding (1)(2)收入低收入[132.000.000中收入144.000高收入155、.000性别男191.000Categorical Variables Codings ^Frequency Parameter coding (1)(2)收入低收入[132.000.000中收入144.000高收入155、.000性别男191.000女240《分析:上表显示了对品质变量产生虚拟变量的情况,产生的虚拟变量命名为原变量名(编码)。
可以看到,对收入生成了两个虚拟变量名为Income(1)和Income(2),分别表示是否中收入和是否高收入,两变量均为0时表示低收入;对性别生成了一个虚拟变量名为Gedder(1),表示是否女,取值为0时表示为男。
消费的二项Logistic分析结果(二)(强制进入策略)Block 0: Beginning BlockClassification Table a,bObserved Predicted~是否购买PercentageCorrect不购买购买Step 0是否购买】不购买2690购买1620.0)Overall Percentagea. Constant is included in the model.b. The cut value is .500—分析:上表显示了Logistic分析初始阶段(第零步)方程中只有常数项时的错判矩阵。