离散选择模型完整版
- 格式:docx
- 大小:496.01 KB
- 文档页数:16
一.二元离散选择模型1.二元响应模型(Binary response model)我们往往关心响应概率()()()()z G x x G x y x y k k =+++=E ==P βββ...1110,其中x 表示各种影响因素(各种解释变量,包括虚拟变量)。
根据不同的函数形式可以分为下面三类模型:线性概率模型(Linear probability model ,LPM )、对数单位模型(logit )、概率单位模型(probit):三种模型估计的系数大约有以下的关系:LPM probit probit it ββββ5.2,6.1log ==2.偏效应(1)如果解释变量是一个连续型变量,那么他对p(x)=p(y=1|x)的偏效应可以通过求下面的偏导数得出来:()()()()dzz dG z g x g x x p j j =+=∂∂,0βββ,偏效应的符号和该解释变量对应的系数的符号一致;两个解释变量偏效应之比等于它们各自的估计系数之比。
(2)如果解释变量是一个离散性变量,则k x 从k c 变化到k c +1时对概率的影响大小为:()()()k k k k c x G c x G ββββββ+++-++++...1 (110110)上面的其他解释变量的取值往往取其平均值。
3.估计方法与约束检验极大似然估计;三种常见的大样本检验:拉格朗日乘数检验、wald 检验、似然比检验。
4.Stata 程序语法(以Probit 为例)probit depvar [indepvars] [weight] [if exp] [in range] [, level(#) nocoef noconstant robust cluster(varname) score(newvar) asis offset(varname) maximize_options ] predict [type] newvarname [if exp] [in range] [, statistic rules asif nooffset ] where statistic isp predicted probability of a positive outcome; the default xb linear predictionstdp standard error of the prediction二.具体的例子1.数据:美国1988年的CPS 数据2.模型:估计成为工会成员的可能性,模型形式如下:参加工会的概率=F(潜在经验potexp 、经验的平方项potexp2、受教育年限grade 、婚否married 、工会化程度high);解释变量:Potexp=年龄-受教育年限-5; grade=完成的受教育年限; married :1表示婚,0未婚;high :1表示高度工会化的行业,否则为0。
离散选择模型§ 1 离散选择回归模型一、离散的变量如果我们用0,1,2,3,4,…说明企业每年的专利申请数,申请数是一个离散的变量,但是它是间隔尺度变量,该变量类型不在本章的讨论的被解释变量中。
但离散变量0和1可以用来说明企业每年是否申请专利的事项,类似表示状态的变量才在本章的讨论中。
在专利申请数的问题中,离散变量0,1,2,3和4等数字具有具体的经济含义,不能随意更改;而在是否申请专利的两个选择对象的选择问题中,数字0和1只是用于区别两种不同的选择,是表示一种状态。
本专题讨论有序尺度变量和名义尺度变量的被解释变量。
二、离散的因变量在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。
离散选择模型 110yes x no⎧=⎨⎩ 如果x 作为说明某种具体经济问题的自变量,则应用以前介绍虚拟变量知识就足够了。
如果现在考虑某个家庭在一定的条件下是否购买住房问题时,则表示状态的虚拟变量就不再是自变量,而是作为一个被说明对象的因变量出现在经济模型中。
因此,需要对以前讨论虚拟变量的分析方法进行扩展,以便使其能够适应分析类似家庭是否购房的问题。
因为在家庭是否购房问题中,虚拟因变量的具体取值仅是为了区别不同的状态,所以将通过虚拟因变量讨论备择对象选择的回归模型称为离散选择模型。
三、线性概率模型现在约定备择对象的0和1两项选择模型中,下标i 表示各不同的经济主体,取值0或l 的因变量表示经济主体的具体选择结果,而影响经济主体进行选择i y离散选择模型2i x (1/i p y =i x 1/)i i x (/)0(0/)i i E y p y +×=x (1/)i i p y x 的自变量。
如果选择响应YES 的概率为,则经济主体选择响应NO 的概率为1(,)p y −=则=1(1/)i i i i p y =×=x x =。
根据经典线性回归,我们知道其总体回归方程是条件期望建立的,这使我们想象可以构造线性概率模型(1/)(/)i i i i i p y x E y x ′===x β011i k ik x i x u βββ=++++L描述两个响应水平的线性概率回归模型可推知,根据统计数据得到的回归结果并不一定能够保证回归模型的因变量拟合值界于[0,1]。
第五章离散选择模型(虚拟变量回归)(20140429)第五章离散选择模型(虚拟变量回归)第一节虚拟变量的概念一、问题的提出计量经济学模型对变量的要求——可观测、可计量。
但在现实经济问题中,存在定性影响因素,比如1、属性(品质)因素的表达在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。
如收入在形成过程中,不同的性别所得到的收入是不一样的;在城乡、不同地区等收入存在差距;再比如,在我国,经济的发展水平对于不同的区域有不同的表现。
2、异常值现象当经济运行过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。
3、季节因素的影响有的经济现象存在明显的季节特征,如啤酒的消费。
那么,在建模过程中,季节变动这一因素怎样考虑?4、离散选择现象的描述如公共交通与私人交通的选择、商品购买与否的决策、求职者对职业的选择等。
第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。
称前一种情况为虚拟解释变量,后一种为虚拟被解释变量。
本章主要介绍虚拟解释变量的内容。
二、虚拟变量的定义1、定义设变量D表示某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D取值为0。
记为=不具有该属性类型具有某种属性类型01D 2、虚拟变量引入的规则(1)在模型里存在截距项的条件下,如果一个属性存在m 个相互排斥类型(非此即彼),则在模型里引入m-1个虚拟变量。
否则,会出现完全的多重共线性。
但要注意,在模型无截距项的情况下,如果一个属性存在m 个类型,即便引入m 个变量,不会出现多重共线性问题。
(请思考为什么?)(2)虚拟变量取值为0,意味着所对应的类型是基础类型。
而虚拟变量取值为1,代表与基础类型相比较的类型,称为比较类型。
例如“有学历”D 为1,“无学历”D 为0,则“无学历”就是基础类型,“有学历”为比较类型。
(3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况D=0,第一个类型;D=1,第二个类型;……D=m-1,第m 个类型。
二元离散选择模型1.在一次选举中,由于候选人对高收入者有力,所以收入成为每个投票者表示同意或者反对的最主要影响因素。
以投票者的态度(y )作为被解释变量,以投票者的月收入(x )作为解释变量建立模型,同意者其观测值为1,反对者其观测值为0,样本数据见表7.1。
原始模型为:i i i y x αβµ=++。
利用Probit 二元离散选择模型估计参数。
表8.1样本观测值序号X Y 序号X Y 序号X Y 11000111100021210012200012120002222001330001313001232300144000141400024240015500015150012525001660001616000262600177000171700127270018800018180002828001990001919001292900110100020200013030001估计过程如下:输入变量名,选择Probit 参数估计。
得到如下输出结果:但是作为估计对象的不是原是模型,而是如下结果:1@[( 4.75390.003067*)]YF CONRM X =−−−+可以得到不通X 值下的Y 选择1的概率。
例如,当X=600时,查标准正态分布表,对应于2.9137的累积正态分布为0.9982;于是,Y 的预测值YF=1-0.9982=0.0018,即对应于该个人,投赞成票的概率为0.0018。
1.某商业银行从历史贷款客户中随机抽取78个样本,根据涉及的指标体系分别计算它们的“商业信用支持度”(XY)和“市场竞争地位等级”(SC),对它们贷款的结果(JG)采用二元离散变量,1表示贷款成功,0表示贷款失败。
样本观测值见表8.2。
目的是研究JG与XY、SC之间的关系,并为正确贷款决策提供支持。
表8.2样本观测值JG XY SC JGF JG XY SC JGF JG XY SC JGF 0125-2001500-20054-10 0599-200960014221 0100-201-80104200.0209 0160-200375-2011821 046-20042-1 6.50E-130801 6.40E-12 080-2015211-501 0133-200172-20032620 0350-101-801026110 12300.9979089-201-2-10.9999 060-200128-20014-2 3.90E-07 070-10160112200.9991 1-8010150-10011310 0400-201542114210.9987 07200028-2015720.9999 0120-1012500.9906014600 14010.999812300.997911501 13510.999911401026-2 4.40E-16 12611049-10089-20 115-10.4472014-10.54981511 069-100610 2.10E-121-9-11 010710140211411 12911030-20054-20 12110112-1013211 13710.9999078-200540 1.40E-07 053-1010010131-20 0194000131-2011501估计过程如下:输入变量名,选择Logit参数估计。
离散选择模型HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】第五章离散选择模型在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。
我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。
本章主要介绍以下内容:1、为什么会有离散选择模型。
2、二元离散选择模型的表示。
3、线性概率模型估计的缺陷。
4、Logit模型和Probit模型的建立与应用。
第一节模型的基础与对应的现象一、问题的提出在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。
1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。
例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。
由离散数据建立的模型称为离散选择模型。
2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。
例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。
这种类型的数据成为审查数据。
再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。
这两种数据所建立的模型称为受限被解释变量模型。
有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。
下面是几个离散数据的例子。
例研究家庭是否购买住房。
由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即我们希望研究买房的可能性,即概率(1)P Y =的大小。
例 分析公司员工的跳槽行为。
员工是否愿意跳槽到另一家公司,取决于薪资、发展潜力等诸多因素的权衡。
员工跳槽的成本与收益是多少,我们无法知道,但我们可以观察到员工是否跳槽,即例 对某项建议进行投票。
建议对投票者的利益影响是无法知道的,但可以观察到投票者的行为只有三种,即研究投票者投什么票的可能性,即(),1,2,3P Y j j ==。
从上述被解释变量所取的离散数据看,如果变量只有两个选择,则建立的模型为二元离散选择模型,又称二元型响应模型;如果变量有多于二个的选择,则为多元选择模型。
本章主要介绍二元离散选择模型。
离散选择模型起源于Fechner 于1860年进行的动物条件二元反射研究。
1962年,Warner 首次将它应用于经济研究领域,用于研究公共交通工具和私人交通工具的选择问题。
70-80年代,离散选择模型被普遍应用于经济布局、企业选点、交通问题、就业问题、购买行为等经济决策领域的研究。
模型的估计方法主要发展于20世纪80年代初期。
(参见李子奈,高等计量经济学,清华大学出版社,2000年,第155页-第156页)二、线性概率模型对于二元选择问题,可以建立如下计量经济模型。
1、线性概率模型的概念设家庭购买住房的选择主要受到家庭的收入水平,则用如下模型表示其中,i X 为家庭的收入水平,i Y 为家庭购买住房的选择,即由于Y 是取值为0和1的随机变量,并定义取Y 值为1的概率是p ,则Y 的分布为 即随机变量Y 服从两点分布。
根据两点分布,可得Y 的数学期望为显然从而 12(|)i i E Y X X p ββ=+=(5-1)上述数学模型的经济学解释是,因为选择购买住房变量取值是1,其概率是p ,并且这时对应p 的表示是一线性关系,因此,Y 在给定i X 下的条件期望()i E Y X 可解释为在给定i X 下,事件(家庭购买住房)将发生的条件概率为(1)i i P Y X =,亦即家庭选择购买住房的概率是家庭收入的一个线性函数。
我们称这一关系式为线性概率函数。
由于,Y 服从两点分布,所以,Y 的方差为2、线性概率函数的估计及存在的问题对线性概率函数直接运用OLS估计,会存在以下困难。
(1)随机误差项的非正态性表现 表明i u 服从两点分布。
而在经典计量经济学中,假定i u 服从正态分布。
(2)i u 的异方差性。
事实上,根据i u 服从两点分布则i u 的方差为()(1)i i i Var u p p =-。
表明i p 随着i 的变动是一个变量,则i u 的方差不是一个固定常数。
(3)利用加权最小二乘法修正异方差取权数为具有同方差。
在具体估计线性概率模型时,用ˆiY 作为p 的估计来计算权数w 的估计wˆ。
3、可决系数2R 的非真实性。
由于,被解释变量Y 只取值1或0,不可能有估计的线性概率模型能很好地拟合这些点,所以,这时计算的2R 会比1小许多,在大多数例子中,2R 介于与之间。
4、0≤()i i E Y X ≤1不成立。
克服这一问题可直接从对线性概率模型的估计,求出ˆi Y ,用人工的方法定义当ˆi Y >1时,取ˆi Y =1;当ˆi Y <0时,取ˆiY =0。
但要比较好地解决这类问题,只能考虑采用新的估计方法,这就是将要介绍的Logit 模型和Probit 模型。
第二节 Logit 模型一、Logit 模型的产生1、产生Logit 模型的背景由上述介绍可知,对于线性概率模型来说,存在一些问题,有的问题尽管可以用适当的方法加以弥补,但并不完善和理想。
(1)古典假定不再成立,如存在异方差性,可用加权OLS 方法加以弥补。
(2)在线性概率模型中,对于不满足0≤()i i E Y X ≤1的情况,用人工的方法处理,即当ˆi Y >1时,取ˆiY =1 当ˆi Y <0时,取ˆiY =0 虽然能够弥补不足,但仍然具有较强的主观因素。
(3)经济意义也不能很好地得到体现。
在线性概率模型12(|)i i E Y X X p ββ=+=中,概率(1)P Y =会随着i X 的变化而线性变化,但这与实际情况通常不符。
例如购买住房,通常收入很高或很低,对于购买住房的可能性都不会有太大的影响,而当收入增加很快时,对购买住房的影响将会很大。
所以,购买住房的可能性与收入之间并不是线性关系,有可能是一种非线性关系。
2、Logit 模型的含义综合上述讨论,我们所需要的是具有如下二分性质的模型。
(1)随着i X 的减小,i p 趋近0的速度会越来越慢;反过来随着i X 的增大,i p 接近1的速度也越来越慢,而当i X 增加很快时,i p 的变化会比较快。
故i p 与i X 之间应呈非线性关系。
(2)并且由概率的属性,i p 的变化应始终在0和1之间。
因此,一个很自然的想法是采用随机变量的分布函数来表示i p 与i X 的这种非线性关系。
从几何图形看,所需要的模型有点像图那样,概率位于0与1之间,并随着i X 非线性地变化。
图 一个累积分布函数的图形形如图所示的S 型曲线,就是随机变量的一个累积分布函数(CDF )。
因此,当回归中的被解释变量是取0和1的二分变量时,并且概率值的变化与解释变量i X 之间有上述变化特征,则可用CDF 去建立回归模型。
在二分被解释变量的研究中可使用多种分布函数(Cox ,1970)来表示。
但最常用的是Logistic 分布函数和标准正态分布函数,前者导出Logit 模型,后者导出Probit 模型。
(3)Logistic 分布函数设 12()11()11i i i i z X p F z e eββ--+===++ (5-2) 式中,12i i Z X ββ=+。
并且在该表达式中,有如下变动规律,当i Z →+∞时,1i p →;当i Z →-∞时,0i p →;当0i Z =时,12i p =。
称(5-2)式为Logistic 分布函数,它具有明显的S 型分布特征。
(4)Logit 模型以下是由Logistic 分布函数导出Logit 模型。
其中,1i ip p -为机会概率比(简称机会比,下同),即事件发生与不发生所对应的概率之比。
称(5-3)式为Logit 模型。
3、Logit 模型的特点(1)随着P 从0变到1,ln()1p p-从-∞变到∞(亦即i Z 从-∞变到∞)。
可以看出,在LPM 中概率必须在0与1之间,但对Logit 模型并不受此约束。
(2)ln()1p p-对i X 为线性函数。
(3)当ln()1p p -为正的时候,意味着随着i X 的增加,选择1的可能性也增大了。
当ln()1p p-为负的时候,随着i X 的增加,选择1的可能性将减小。
换言之,当机会比由1变到0时,ln()1p p-会变负并且在幅度上越来越大;当机会比由1变到无穷时,ln()1p p-为正,并且也会越来越大。
4、Logit 模型与线性回归模型的区别(1)Logit 模型为非线性模型,尽管等式右端看上去是线性形式,而普通回归模型是线性模型。
(2)线性回归模型研究被解释变量Y 的均值(|)i E Y X 与解释变量i X 之间的依存关系,而Logistic 分布函数研究的是事件发生的概率(1|)i P Y X =与解释变量i X 的依存关系。
(3)线性回归模型中包含随机误差项i u ,对i u 的要求是要满足基本假定,而Logistic 分布函数没有出现随机误差项,对模型没有这样的要求。
(4)在估计Logit 模型时,要求数据必须来自于随机样本,即各观测值相互独立,或者说要求样本分布与总体分布具有同一性,而对线性回归模型一般情况下并无这样严格的要求。
此外,Logit 模型与线性回归模型的一个相同的要求是,解释变量之间要无多重共线性,否则,会导致参数估计的方差变大和不稳定。
二、Logit 模型的估计为了估计Logit 模型,除了i X 外,我们还应有ln()1p p-的数值。
由于i p 只取值为1和0(即事件发生或不发生,如买房或不买房),使得ln()1p p -无意义,通常情况下,i p 没有具体的数据,所以直接对Logit 模型进行估计有困难。
这时,可有以下估计方法。
1、根据数据类型选用OLS 方法可通过市场调查获得分组或重复数据资料,用相对频数ˆi i ir p n =作为i p 的估计。
以购买住房为例,将购买住房的情况分组,假设第i 组共有i n 个家庭,收入为i X ,其中有i r 个家庭已购买住房,其余未购买。
则收入为i X 的家庭,购买住房的频率为 将其作为i p 的估计,并代入对数机会比,有于是,样本回归函数为对上式可直接运用OLS 法估计未知参数了。