第九章 二元选择模型
- 格式:ppt
- 大小:472.50 KB
- 文档页数:47
二元选择摸型如果回归模型的解释变量中含有定性变量,则可以用虚拟变量处理之。
在实际经济问题中,被解释变量也可能是定性变量。
如通过一系列解释变量的观测值观察人们对某项动议的态度,某件事情的成功和失败等。
当被解释变量为定性变量时怎样建立模型呢?这就是要介绍的二元选择模型或多元选择模型,统称离散选择模型。
这里主要介绍Tobit (线性概率)模型,Probit (概率单位)模型和Logit 模型。
1.Tobit (线性概率)模型 Tobit 模型的形式如下,y i = α + β x i + u i (1) 其中u i 为随机误差项,x i 为定量解释变量。
y i 为二元选择变量。
此模型由James Tobin 1958年提出,因此得名。
如利息税、机动车的费改税问题等。
设 1 (若是第一种选择) y i =0 (若是第二种选择)-0.20.00.20.40.60.81.01.2330340350360370380XY对y i 取期望,E(y i ) = α + β x i (2) 下面研究y i 的分布。
因为y i 只能取两个值,0和1,所以y i 服从两点分布。
把y i 的分布记为, P ( y i = 1) = p i P ( y i = 0) = 1 - p i 则E(y i ) = 1 (p i ) + 0 (1 - p i ) = p i (3) 由(2)和(3)式有p i = α + β x i (y i 的样本值是0或1,而预测值是概率。
) (4)以p i = - 0.2 + 0.05 x i 为例,说明x i 每增加一个单位,则采用第一种选择的概率增加0.05。
现在分析Tobit 模型误差的分布。
由Tobit 模型(1)有,u i = y i - α - β x i =⎩⎨⎧=--=--0,1,1i i i i y x y x βαβαE(u i ) = (1- α - β x i ) p i + (- α - β x i ) (1 - p i ) = p i - α - β x i 由(4)式,有E(u i ) = p i - α - β x i = 0因为y i 只能取0, 1两个值,所以,E(u i 2) = (1- α - β x i )2 p i + (- α - β x i )2 (1 - p i )= (1- α - β x i )2 (α + β x i ) + (α +β x i )2 (1 - α - β x i ), (依据(4)式) = (1- α - β x i ) (α + β x i ) = p i (1 - p i ) , (依据(4)式) = E(y i ) [1- E(y i ) ]上两式说明,误差项的期望为零,方差具有异方差。
二元选择模型一 线性概率模型(LPM)如果应变量的取值是二元的,则我们可定义应变量的取值如下:⎩⎨⎧=择第二个方案个被观测的决策主体选如果第择第一个方案个被观测的决策主体选如果第i i Y i 0,, 1 如果我们直接用最小二乘法作应变量对解释变量的回归,这样得到的模型称为线性概率模型。
如用i X 2表示解释变量(为简单记,我们在模型中只引入一个解释变量,如果要用多个解释变量来说明第i 个决策者的选择行为,则只要进行简单推广即可),则线性概率模型为i i i u X Y ++=221ββ (1)其中i u 是相互独立且均值为零的随机变量。
由于应变量i Y 只取两个值,所以从总体上看i Y 的均值即i Y 的数学期望可直接由期望的定义获得:i i i i P P P Y E =-⨯+⨯=)1(01)(其中i P 为第i 个决策者选择第一个方案的概率。
另一方面,由(4.26)式可得i Y 的数学期望为i i X Y E 221)(ββ+=故线性概率模型可表示为i i X P 221ββ+= (2)但如对解释变量的范围没作任何限制,则(2)式右边的值有可能会超出区间[0,1]的范围,从而使该式没有意义。
为了解释这个问题,通常的做法是将线性概率模型写成如下形式:⎪⎩⎪⎨⎧≥+<+<+≤+=1 ,110 ,0 0221221221221i i i i i X X X X P ββββββββ当当当, (3)按最小二乘法,利用观测到的样本值,对1)式进行估计,得i Y 的预测方程ii X Y 221ˆˆˆββ+= (4) 该预测方程即为第i 个决策主体选择第一个方案的概率的估计值。
如果第i 个决策主体的解释变量的值为02X X i =,则该决策主体选择第一个方案的概率的估计值为021ˆˆˆX Y i ββ+=。
而斜率项系数的意义则是:当解释变量增加一个单位时,决策主体选择第一个方案的概率增加2β。
二元选择模型的建立
二元选择模型是一种用来评估两个不同选项的得失情况的模型,其中一个选项的得失会被衡量和评估,以帮助用户做出最佳决定。
建立二元选择模型的过程可分为以下几个步骤:
1. 确定问题:确定比较的问题,是跟踪投资回报,比较两个投资机会,还是决定所采取的目标市场等。
2. 建立模型:将所有与该问题有关的数据分类收集并且建立选择模型,是一个表格或图表,或者一个数学模型等。
3. 加入偏好因素:建立模型的过程中,应考虑偏好的因素,比如风险大小、可承受的损失,或者对未来收益的期望等。
4. 评估得失:用不同的指标评估每个选择的得失,评估模型中各个依据及其对失误机率及后果的影响等。
5. 做出最终决定:最后,根据二元选择模型的评估结果,作出最佳决定。
二元选择模型和二值响应模型
"二元选择模型"(Binary Choice Model)和"二值响应模型"(Binary Response Model)通常在统计学和计量经济学中使用,用于处理对一个二元结果的建模和分析。
尽管这两个术语有时可以互换使用,但它们通常涉及到略微不同的概念。
1.二元选择模型(Binary Choice Model):这个术语通常用于描述一类模型,其中观测值的因变量(响应变量)只有两个可能的取值,通常是0和1。
这个模型用于解释一个二元决策或选择的过程。
例如,考虑一个人是否购买某个产品(购买=1,不购买=0),这种情况下可以使用二元选择模型来建模。
2.常见的二元选择模型包括Logit模型(逻辑回归)和Probit模型(概率模型),它们都是处理二元结果的广泛应用的模型。
3.二值响应模型(Binary Response Model):这个术语更加通用,它指的是对于某个事件或观测结果的响应只有两个可能取值的模型。
这也可以包括那些不仅仅涉及到选择或决策的情境,还包括其他类型的二元结果。
例如,是否违约(违约=1,未违约=0)也可以用二值响应模型来建模。
4.二值响应模型可以包括二元选择模型,但不限于此,因为它可以应用于更广泛的情境,包括一些不涉及明确选择的问题。
总体而言,这两个术语都涉及到处理二元结果的模型,而具体使用哪一个取决于具体的上下文和研究问题。
逻辑回归和概率模型是处理这类问题时常见的方法,它们在许多领域,包括经济学、社会科学和医学等方面都有广泛的应用。
第9讲离散选择模型之二元结果模型参考书目:1.Long, J. S., and J. Freese. 2006. Regression Models for Categorical Dependent Variables Using Stata. 2nd ed. College Station, TX: Stata Press教学视频:Logistic regression, part 1: Binary predictorsLogistic regression, part 2: Continuous predictorsLogistic regression, part 3: Factor variables一、离散被解释变量的例子二元结果模型:考研或不考研;就业或待业;买房或不买房;买保险或不买保险;贷款申请被批准或拒绝;出国或不出国;回国或不回国;战争或和平;医药实验中的生或死。
多元结果模型:对不同交通方式的选择(走路、骑车、坐车上班);对不同职业的选择。
这类模型被称为“离散选择模型”(discrete choice model) 。
考虑到离散被解释变量的特点,通常不宜用OLS进行回归。
假设个体只有两种选择,比如y=1 (考研)或y=0 (不考研)。
是否考研,取决于研究生毕业后的预期收入、个人兴趣、本科毕业后直接就业的收入前景等。
所有解释变量都包括在向量x中。
二、二元结果模型的微观基础对于二元选择行为,可通过“潜变量”(latent variable)概括该行为的净收益(收益减去成本)。
如果净收益大于0,则选择做;否则,选择不做。
y*=x′β + ε其中,净收益y*为潜变量,不可观测。
选择规则为y=1,若y*>0y=0,若y*≤0如果ε为正态分布,则为Probit;如果ε为逻辑分布,则为Logit。
logistic — Logistic regression, reporting odds ratios (Logistic回归,报告优势比/比值比)对于Logit模型,记p= P(y =1|x ) ,则1-P= P(y =0|x )。