二值选择模型
- 格式:ppt
- 大小:3.42 MB
- 文档页数:50
二值选择模型内生性检验方法、步骤及Stata应用一、本文概述本文旨在深入探讨二值选择模型内生性检验的方法、步骤,并详细解析在统计软件Stata中的具体应用。
二值选择模型,作为一类重要的统计模型,广泛应用于经济学、社会学、医学等多个领域,用于分析二元结果数据的生成机制。
然而,在模型构建过程中,内生性问题往往不可避免,它可能导致模型估计结果的偏差,从而影响结论的准确性。
因此,对二值选择模型进行内生性检验,对于确保模型的有效性和可靠性至关重要。
本文首先将对二值选择模型内生性检验的理论基础进行梳理,包括内生性的定义、来源及其对模型估计的影响。
随后,将详细介绍几种常用的内生性检验方法,如Heckman两阶段选择模型、Probit模型的内生性检验等,并阐述各自的优缺点和适用场景。
在方法介绍的基础上,本文将重点阐述在Stata中进行二值选择模型内生性检验的具体步骤。
通过案例分析的方式,将展示如何在Stata 中实现各种内生性检验方法,包括数据的准备、模型的设定、命令的执行以及结果的解读等。
还将对Stata在处理内生性问题时的优势和局限性进行讨论。
本文将对二值选择模型内生性检验的未来发展进行展望,探讨新的检验方法和技术在解决内生性问题上的潜力和挑战。
通过本文的阐述,旨在为读者提供一套系统的二值选择模型内生性检验方法,并促进Stata在相关领域的应用和发展。
二、内生性检验的理论基础内生性问题是经济学、计量经济学和社会科学研究中一个普遍且重要的问题。
在二值选择模型中,内生性通常指的是模型中的解释变量与误差项之间存在相关性,这会导致估计结果产生偏差,从而影响到模型的预测和解释能力。
因此,对二值选择模型进行内生性检验至关重要。
内生性检验的理论基础主要建立在计量经济学的相关理论和假设之上。
在二值选择模型中,通常假设解释变量是外生的,即与误差项无关。
然而,在现实中,这一假设可能不成立。
例如,可能存在未观测到的遗漏变量,或者解释变量和误差项之间可能存在反向因果关系,这些都可能导致内生性问题。
Endogenous Test Methods, Procedures and Stata Applications of Binary Selection Model 作者: 袁微
作者机构: 上海财经大学商学院,上海200433
出版物刊名: 统计与决策
页码: 15-20页
年卷期: 2018年 第6期
主题词: 二值选择模型;Probit模型;内生性检验;Stata
摘要:模型内生性问题受到学术界热切关注。
越来越多学者热衷于使用二值选择模型(如Probit模型和Logit模型)展开相关研究。
文章针对二值选择模型内生性检验研究成果现状,以Probit模型为例,首先提出其完整的内生性检验步骤;然后阐述处于不同情况下Probit模型内生性检验的具体方法、操作步骤以及Stata应用。
二值选择模型(binary choice model)是一种经济学和统计学中常用的模型,用于描述人们在做出某种选择时的行为和决策过程。
在二值选择模型中,人们需要在两个或多个选项之间做出一个二元选择,例如考研或不考研、就业或待业、买房或不买房、出国或不出国等。
这些选择通常被视为具有互斥性和可替代性,即人们只能选择其中一个选项,而不能同时选择多个选项。
在二值选择模型中,通常会引入一些变量来解释人们做出选择的原因和影响。
例如,对于考研或不考研的选择,可能会考虑个人的学术兴趣、就业前景、经济状况等因素。
通过对这些因素的分析和建模,可以预测人们在不同情境下做出选择的概率和规律,从而帮助政策制定者和企业做出更加科学和有效的决策。
二值选择模型的一个重要应用是在市场营销和消费者行为研究中。
通过对消费者选择某种产品或服务的原因和影响因素进行建模和分析,企业可以更好地了解消费者的需求和行为,从而制定更加精准和有效的营销策略。
面板二值选择模型学习手册本文包括面板logit模型,包括命令操作以及相关检验等内容,欢迎阅读。
一.混合面板logit与probit模型对于面板数据,如果被解释变量为离散变量或者虚拟变量时,使用离散选择模型,也就是面板二值选择模型。
以二值选择(被解释变量取值为0或1)为例,当被解释变量取1的概率为标准正态分布时,使用probit模型;当被解释变量取1的概率为logistic分布时,使用logit模型。
混合面板二值选择模型命令为logit或者probit,命令格式为:Syntaxlogit depvar [indepvars] [if] [in] [weight] [, options]选项主要包括depvar表示被解释变量。
indepvars表示解释变量,noconstant 表示不含截距项,vce(vcetype) 表示参数估计量方差协方差矩阵一致估计,包括oim, robust, cluster clustvar, bootstrap, or jackknife等。
案例讲解部分为:webuse lbwLogistic regression(logit回归)logit low age lwt i.race smoke ptl ht ui结果为:logit, level(99)(level(99),置信水平,即99%。
)案例02webuse nhanes2dsvysetLogistic regression using survey data svy: logit highbp height weight age female二.面板logit与probit模型面板二值选择模型固定效应xtprobit y x1 x2 x3,fextlogit y x1 x2 x3,fe面板二值选择模型随机效应Random-effects (RE) modelxtprobit depvar [indepvars] [if] [in] [weight] [, re RE_options] Random-effects (RE) modelxtlogit depvar [indepvars] [if] [in] [weight] [, re RE_options] 案例讲解:Setupwebuse unionRandom-effects logit modelxtlogit union age grade i.not_smsa south##c.yearFixed-effects logit modelxtlogit union age grade i.not_smsa south##c.year, feHausman检验hausman fe re案例讲解总结use union,clear第一步:固定效应模型选择Fixed-effects logit modelxtlogit union age grade i.not_smsa south##c.year, fe estimates store felogit union age grade i.not_smsa south##c.year , nolog //混合面板Logit模型estimates store logithausman fe logit //在混合面板Logit模型于固定效应之间选择第二步:随机效应模型选择Random-effects logit modelxtlogit union age grade i.not_smsa south##c.year //主要通过观察此回归结果中的LR检验与0.05比较estimates store re第三步:固定效应还是随机效应hausman fe re第四步:确定好随机效应或者固定效应模型后,再次返回去选择相对应的模型。
二元选择摸型如果回归模型的解释变量中含有定性变量,则可以用虚拟变量处理之。
在实际经济问题中,被解释变量也可能是定性变量。
如通过一系列解释变量的观测值观察人们对某项动议的态度,某件事情的成功和失败等。
当被解释变量为定性变量时怎样建立模型呢?这就是要介绍的二元选择模型或多元选择模型,统称离散选择模型。
这里主要介绍Tobit (线性概率)模型,Probit (概率单位)模型和Logit 模型。
1.Tobit (线性概率)模型 Tobit 模型的形式如下,y i = α + β x i + u i (1) 其中u i 为随机误差项,x i 为定量解释变量。
y i 为二元选择变量。
此模型由James Tobin 1958年提出,因此得名。
如利息税、机动车的费改税问题等。
设 1 (若是第一种选择) y i =0 (若是第二种选择)-0.20.00.20.40.60.81.01.2330340350360370380XY对y i 取期望,E(y i ) = α + β x i (2) 下面研究y i 的分布。
因为y i 只能取两个值,0和1,所以y i 服从两点分布。
把y i 的分布记为, P ( y i = 1) = p i P ( y i = 0) = 1 - p i 则E(y i ) = 1 (p i ) + 0 (1 - p i ) = p i (3) 由(2)和(3)式有p i = α + β x i (y i 的样本值是0或1,而预测值是概率。
) (4)以p i = - 0.2 + 0.05 x i 为例,说明x i 每增加一个单位,则采用第一种选择的概率增加0.05。
现在分析Tobit 模型误差的分布。
由Tobit 模型(1)有,u i = y i - α - β x i =⎩⎨⎧=--=--0,1,1i i i i y x y x βαβαE(u i ) = (1- α - β x i ) p i + (- α - β x i ) (1 - p i ) = p i - α - β x i 由(4)式,有E(u i ) = p i - α - β x i = 0因为y i 只能取0, 1两个值,所以,E(u i 2) = (1- α - β x i )2 p i + (- α - β x i )2 (1 - p i )= (1- α - β x i )2 (α + β x i ) + (α +β x i )2 (1 - α - β x i ), (依据(4)式) = (1- α - β x i ) (α + β x i ) = p i (1 - p i ) , (依据(4)式) = E(y i ) [1- E(y i ) ]上两式说明,误差项的期望为零,方差具有异方差。
离散选择模型和连续选择模型的比较分析一、引言选择模型是指通过研究个体选择行为来预测市场需求的一种模型。
根据选择的属性是否可测,选择模型可以分为离散选择模型和连续选择模型。
离散选择模型是指选择行为的结果是分类的,例如选择是A、B还是C。
而连续选择模型是指选择行为的结果是连续的,例如选择的数量是多少。
本文将对离散选择模型和连续选择模型进行比较分析。
二、离散选择模型离散选择模型常用于解释市场需求中的离散选择行为,包括二项选择模型、多项选择模型、有序多项选择模型等。
1、二项选择模型二项选择模型常用来解释个体在两个选项之间进行选择的概率。
其模型设定为,在两个选项中,个体选择第一个选项1的概率为P,选择第二个选项2的概率为1-P,二者之和为1。
该模型假设个体根据其效用(utility)差异进行选择,即个体会选择能够获得最大效用的选项。
2、多项选择模型多项选择模型常用来解释个体在多个选项之间进行选择的概率。
其模型设定为,对于N个选项,个体选择第i个选项的概率为Pi,所有选项的概率之和为1。
该模型假设个体会选择能够获得最大效用的项,效用函数通常采用对数线性模型(Logit Model)。
3、有序多项选择模型有序多项选择模型常用来解释个体在多个选项之间进行有序选择的概率。
例如,当个体面对三个不同价格的产品时,个体有可能在选择第一价格区间的产品、第二价格区间的产品或者第三价格区间的产品。
该模型假设选择的概率是对价值的一次函数,因此需要先对选项进行排序以确定选择的顺序,然后再推导选择的概率。
三、连续选择模型连续选择模型常用于解释市场需求中的连续选择行为,包括对数线性模型、线性规划模型等。
1、对数线性模型对数线性模型是一种常用的连续选择模型。
它假设个体的效用函数是一个对数线性函数,其中因变量是一个连续变量,例如价格、数量等。
对数函数可以将效用函数转化为线性形式,从而便于分析。
2、线性规划模型线性规划模型是一种常用的数学优化模型,用于解决连续选择问题。
© 陈强,《高级计量经济学及Stata 应用》课件,第二版,2014 年,高等教育出版社。
第11 章二值选择模型11.1 离散被解释变量的例子二值选择(binary choices):考研或不考研;就业或待业;买房或不买房;买保险或不买保险;贷款申请被批准或拒绝;出国或不出国;回国或不回国;战争或和平;生或死。
多值选择(multiple choices):对不同交通方式的选择(走路、骑车、坐车上班);对不同职业的选择。
这类模型被称为“离散选择模型”(discrete choice model)或“定1性反应模型”(qualitative response model)。
有时被解释变量只能取非负整数:企业在某段时间内获得的专利数;某人在一定时间内去医院看病的次数;某省在一年内发生煤矿事故的次数。
这类数据称为“计数数据”(count data),被解释变量也是离散的。
考虑到离散被解释变量的特点,通常不宜用OLS 进行回归。
211.2 二值选择模型假设个体只有两种选择,比如y =1(考研)或y = 0(不考研)。
所有解释变量都包括在向量x 中。
“线性概率模型”(Linear Probability Model,简记LPM):y i = xi'β +εi(i =1, , n)优点:计算方便,容易得到边际效应。
缺点:(1)由于εi =yi-xi'β,故εi=1 -xi'β或εi=-xi'β,因此εi必然与xi相关,导致估计不一致。
34(2) εi 服从两点分布,而非正态分布。
(3) 由于Var(εi ) = Var( x i 'β) ,故扰动项εi 的方差依赖于x i ,存在异方差(故应使用稳健标准误)。
(4) 可能出现y ˆ > 1或y ˆ < 0的不现实情形,参见图 11.1。
图11.1 OLS 与二值选择模型56⎩为使 y 的预测值总是介于[0, 1]之间,给定x ,考虑 y 的两点分布概率:⎧P( y = 1| x ) = F ( x , β ) ⎨P( y = 0 | x ) = 1 - F ( x , β )函数F ( x , β)也称“连接函数”(link function)。
© 陈强,2015年,《计量经济学及Stata应用》,高等教育出版社。
第11章二值选择模型11.1 二值选择模型如果被解释变量y离散,称为“离散选择模型”(discrete choice model)或“定性反应模型”(qualitative response model)。
最常见的离散选择模型是二值选择行为(binary choices)。
比如:考研或不考研;就业或待业;买房或不买房;买保险或不买保险;贷款申请被批准或拒绝;出国或不出国;回国或不回12国;战争或和平;生或死。
假设个体只有两种选择,比如1y =(考研)或0y =(不考研)。
最简单的建模方法为“线性概率模型”(Linear Probability Model ,LPM):1122(1,,)i i i K iK i i i y x x x i n βββεε'=+=+= +++x β (11.1)其中,解释变量12()i i i iK x x x '≡ x ,而参数12()K βββ'≡ β。
LPM 的优点是,计算方便,容易得到边际效应(即回归系数)。
3LPM 的缺点是,虽然y 的取值非0即1,但根据线性概率模型所作的预测值却可能出现ˆ1y>或ˆ0y <的不现实情形。
图11.1 线性概率模型4为使y 的预测值介于[0,1]之间,在给定x 的情况下,考虑y 的两点分布概率:P(1|)(,)P(0|)1(,)y F y F ==⎧⎨==-⎩x x x x ββ (11.2)函数(,)F x β称为“连接函数”(link function) ,因为它将x 与y 连接起来。
y 的取值要么为0,要么为1,故y 肯定服从两点分布。
连接函数的选择具有一定灵活性。
通过选择合适的连接函数(,)F x β(比如,某随机变量的累积分布函数),可保证ˆ01y≤≤,并将ˆy 理解为“1y =”发生的概率,因为5E(|)1P(1|)0P(0|)P(1|)y y y y =⋅=+⋅===x x x x (11.3)如果(,)F x β为标准正态的累积分布函数,则P(1|)(,)()()y F t dt φ'-∞'===Φ≡⎰x x x x βββ (11.4)()φ⋅与()Φ⋅分别为标准正态的密度与累积分布函数;此模型称为“Probit ”。
© 陈强,《高级计量经济学及Stata应用》课件,第二版,2014年,高等教育出版社。
第11章二值选择模型11.1 离散被解释变量的例子二值选择(binary choices):考研或不考研;就业或待业;买房或不买房;买保险或不买保险;贷款申请被批准或拒绝;出国或不出国;回国或不回国;战争或和平;生或死。
多值选择(multiple choices):对不同交通方式的选择(走路、骑车、坐车上班);对不同职业的选择。
这类模型被称为“离散选择模型”(discrete choice model)或“定1性反应模型”(qualitative response model)。
有时被解释变量只能取非负整数:企业在某段时间内获得的专利数;某人在一定时间内去医院看病的次数;某省在一年内发生煤矿事故的次数。
这类数据称为“计数数据”(count data),被解释变量也是离散的。
考虑到离散被解释变量的特点,通常不宜用OLS进行回归。
2311.2 二值选择模型假设个体只有两种选择,比如1y =(考研)或0y =(不考研)。
所有解释变量都包括在向量x 中。
“线性概率模型”(Linear Probability Model ,简记LPM):(1,,)i i i y i n ε'=+= x β优点:计算方便,容易得到边际效应。
缺点:(1)由于i i i y ε'=-x β,故1i i ε'=-x β或i i ε'=-x β,因此i ε必然与i x 相关,导致估计不一致。
4(2)i ε服从两点分布,而非正态分布。
(3)由于Var()Var()i i ε'=x β,故扰动项i ε的方差依赖于i x ,存在异方差(故应使用稳健标准误)。
(4)可能出现ˆ1y>或ˆ0y <的不现实情形,参见图11.1。
5图11.1 OLS 与二值选择模型6为使y 的预测值总是介于[]0,1之间,给定x ,考虑y 的两点分布概率:P(1|)(,)P(0|)1(,)y F y F ==⎧⎨==-⎩x x x x ββ函数(,)F x β也称“连接函数”(link function)。