第十八章-离散选择模型和受限因变量模型
- 格式:doc
- 大小:1.55 MB
- 文档页数:43
离散选择模型步骤离散选择模型是一种决策分析方法,用于在给定的有限选项中选择最佳决策。
它在经济学、管理学、工程学等领域得到广泛应用。
本文将介绍离散选择模型的主要步骤。
1. 确定决策问题:首先,需要明确决策问题的目标和限制条件。
决策问题可以是各种各样的,比如选择投资项目、确定市场定价策略等。
明确问题是为了确保模型的设计和应用是有针对性的。
2. 收集决策信息:在进行决策分析之前,需要收集相关的信息和数据。
这些信息可以来自于市场调研、历史数据、专家意见等。
信息的准确性和全面性对于模型的建立和分析至关重要。
3. 确定决策变量:决策变量是指影响决策结果的因素。
在离散选择模型中,决策变量通常是一组有限的选项。
例如,在选择投资项目时,决策变量可以是不同的项目选项。
4. 制定决策准则:决策准则是指用于评估和比较不同选项的标准。
决策准则可以是单一的,也可以是多个综合考虑的因素。
常见的决策准则包括效益、成本、风险等。
5. 构建数学模型:离散选择模型可以使用多种数学方法进行建模,例如概率论、决策树、多属性决策等。
根据具体情况选择合适的方法,并建立相应的数学模型。
6. 分析决策结果:通过对模型进行求解,得到不同选项的决策结果。
分析决策结果可以包括对每个选项的评估、比较不同选项的优劣等。
还可以进行灵敏度分析,研究模型对参数变化的敏感性。
7. 做出最佳决策:根据分析结果,选择最佳决策。
最佳决策应该是在给定目标和限制条件下,使得决策准则达到最优的选项。
8. 验证和调整模型:一旦做出决策,需要验证模型的有效性,并根据实际情况对模型进行调整。
如果模型的预测结果和实际结果存在较大差异,可能需要重新收集数据或重新制定决策准则。
总结起来,离散选择模型的步骤包括确定决策问题、收集决策信息、确定决策变量、制定决策准则、构建数学模型、分析决策结果、做出最佳决策以及验证和调整模型。
通过这些步骤,可以帮助决策者更好地理解问题、分析选项,并做出科学合理的决策。
离散选择模型的原理与应用1. 引言离散选择模型是一种常用的决策分析方法,广泛应用于市场调研、运输规划、投资决策等领域。
本文将介绍离散选择模型的基本原理和几种常用的模型,并探讨其在实际应用中的作用和局限性。
2. 离散选择模型的原理离散选择模型基于个体对不同选择项的偏好和决策方式进行建模,通过建立数学模型来分析个体的选择行为,并预测不同选择条件下个体的选择概率。
其基本原理可以概括为以下几个要素:2.1 选择集合离散选择模型的第一个要素是选择集合,即个体面临的可供选择的项。
选择集合可以是商品、服务、出行方式等,根据具体情况确定。
2.2 受益函数受益函数描述了个体对于每个选择项的效用或满意度。
受益函数可以使用线性函数或非线性函数来表示。
线性函数常用于描述简单选择问题,而非线性函数则更适用于复杂的选择问题。
2.3 随机效用个体的选择行为除了受益函数之外,还受到一些随机因素的影响。
离散选择模型通过引入随机效用来模拟这种随机性,通常使用正态分布或其他概率分布来表示随机效用。
2.4 选择概率选择概率是离散选择模型中的核心要素,用于预测个体做出某个选择的概率。
选择概率可以通过最大似然估计等方法来估计。
3. 常用的离散选择模型离散选择模型有多种类型,常见的包括二项式模型、多项式模型和概率模型。
以下将介绍其中几种典型的模型:3.1 二项式模型二项式模型是最简单的离散选择模型,适用于只有两个选择项的情况。
该模型基于个体对两个选择项的效用进行比较,假设个体根据效用差异做出选择。
3.2 多项式模型多项式模型适用于有多个选择项的情况。
该模型基于个体对每个选择项的效用进行比较,采用多项式对效用进行建模。
3.3 概率模型概率模型是离散选择模型的一种扩展形式,考虑了个体在做出选择时的不确定性。
该模型基于概率论的基本原理,将选择概率建模为个体特征和选择项属性之间的函数关系。
4. 离散选择模型的应用离散选择模型在实际应用中具有广泛的应用价值,以下将介绍几个常见的应用场景:4.1 市场调研离散选择模型可用于市场调研中,帮助企业了解消费者的偏好和选择行为,从而优化产品设计、定价策略等,并进行市场预测。
09离散因变量模型⽬录离散因变量模型要考察⼈们做出某种具体选择的情况及其影响因素时,可把这些离散的定性变量作为因变量进⾏分析,把影响因素作为⾃变量,这样建⽴的模型称之为离散选择模型。
如出⾏交通⼯具选择的情况。
还有⼀种是因变量是以离散计数的⽅式描述的,分析⾃变量对计数因变量的影响所建⽴的模型,称之为计数模型。
如发⽣交通事故的次数。
线性概率模型离散选择模型在⼴义线性模型(generalized linear model)的框架下展开,并依赖结果是两个或多个选择将模型分位⼆项选择、多项选择模型和受限因变量模型离散选择模型主要研究选择结果的概率与影响因素之间的关系,即Prob(事件i发⽣) = Prob(Y=i)=F(影响因素)其中,影响因素可能包含做出选择的主体属性和选择⽅案属性。
如选择何种交通⼯具出⾏,既受到选择主体收⼊程度、⽣活习惯等属性的影响,也收到交通⼯具的价格、便捷性等属性的影响。
⽰例:对影响⼿机购买意向的因素进⾏分析购买意向为定性变量,有两种选择:0表⽰不购买,1表⽰购买。
其影响因素可能有性别、年龄、收⼊、职位、⾏业等诸多因素。
设因变量y表⽰是否购买⼿机,则有y= \begin{cases} 0 & 不购买 \\ 1 & 购买 \end{cases}影响y的因素记为x=(x_1,x_2,\cdots, x_n),根据多元回归的思想,可得y = \beta_0 + \beta_1 x_1+\beta_2 x_2+\cdots +\beta_n x_n + \varepsilon其中,(\beta_1,\beta_1,\cdots, \beta_n)^T=\beta表⽰回归模型中的参数即回归系数,则简化为y = \beta_0 + \beta x + \varepsilon在因变量是离散变量的情况下,不能把\beta_i(i=1,2,\cdots,n)理解为保持其他因素不变的情况下对y的边际影响,因为y的取值为1或0。
第18章离散选择模型和受限因变量模型18.1概述在经典计量经济学模型中,被解释变量通常被假定为连续变量,但在现实的经济决策中经常面临许多选择问题。
在这样的决策问题中,或者选择问题中,人们必须对可供选择的方案作出选择。
通常被解释变量是连续的变量,但此时的因变量只取有限多个离散的值。
例如:人们对交通工具的选择,是选择坐轻轨、地铁还是公共汽车;某大型企业是否合并另一企业;对某一方案的建议持强烈反对、反对、中立、支持和强烈支持5种态度,可以分别用0,1,2,3和4表示。
以这样的选择结果作为被解释变量建立的计量经济学模型,称为离散被解释变量数据计量经济学模型(models with discrete dependent variables),或称为离散选择模型(DCM,discrete choice model)。
如果被解释变量只能有两种选择,称为二元选择模型(binary choice model);如果被解释变量有多种选择,称为多元选择模型(multiple choice model)。
20世纪70和80年代,离散选择模型普遍应用于经济布局、企业定点、交通问题、就业问题、购买决策等经济决策领域的研究。
在实际中,还会经常遇到因变量受到某种限制的情况,这种情况下,取得样本数据来自总体的一个子集,可能不能完全反映总体。
例如,小时工资、住房价格和名义利率都必须大于零。
这时需要建立的经济计量模型称为受限因变量模型(limited dependent variable model)。
这两类模型经常用于调查数据的分析中。
本章将讨论三类模型及其估计方法和软件操作。
一是定性(观测值为离散的或者表示排序);二是截取或者截断问题;三是观测值为整数值的计数模型。
18.2二元因变量模型在这个模型中,被解释变量只取两个值,可以是代表某件事发生与否的虚拟变量,也可以是两个决策中选一个,称为二元因变量模型。
例如:对样本个体是否就业的研究,个体的年龄、教育背景、种族、婚姻状况以及其他可观测的特征,作为解释变量,目的是研究个体这些特征对个体就业概率的研究。
或者对某商品的购买与否,取决于两类因素:一类是该商品具有的属性,诸如用途、价格等;一类是决策个体所具有的属性,诸如职业、年龄、收入水平、健康状况等。
从大量的统计中,可以发现选择的结果与影响因素之间具有一定的因果关系。
揭示这一因果关系并用于预测研究,对于制定商品销售方案无疑是十分重要的,这就需要建立计量经济学模型来研究这些变量之间的关系。
18.2.1二元选择模型形式假设中二元因变量y 取0和1两个值,,对y 和x 间不能建一个简单的线性回归模型,因为模型的条件均值对残差设了一个不合理的约束条件。
而且简单回归模型中的y 的拟合值没有被限制在0和1之间。
为了处理二元因变量模型的特别要求,我们必须设定专门的模型。
假设观测值取1的概率为:P(1,)1()i i i y x F x ββ=∣=-- (18.2.1)其中F 是连续的、严格递增的函数,其取值在0和1之间。
本章讨论时采用最简单的线性函数形式i x β,而在Eviews 中也可以处理非线性的函数形式。
F 函数的类型决定了二元因变量模型的类别,即有:P(0,)()i i i y x F x ββ=∣=- (18.2.2)给定这样的设定后,可以用极大似然法对模型的参数进行估计。
对数似然函数如下:0()[log(1())(1)log(())]ni i i i i l y F x y F x βββ==--+--∑ (18.2.3)由于极大似然函数的条件就是非线性的,因此需要进行迭代运算才能得到参数的估计值。
首先对二元变量模型设定一个潜在解释变量,假设这有一个不可观测的潜在变量*i y 与i x 的线性关系如下:*i i i y x u β=+ (18.2.4)其中:i u 是随机干扰项,由*i y 是否超过临界值来决定因变量的观测值取值。
则i y 和*iy 关系有: **1000i i i y y y ⎧>=⎨≤⎩ (18.2.5) 这里临界值设为0,但是只要x 包含常数项,临界值的选择就是不相关的。
然后:*(1,)(0)(0)1()i i i i i u i P y x P y P x u F x βββ+=∣=>=>=-- (18.2.6)其中:u F 是u 的累积分布函数。
根据F 分布函数类型,常见模型有Probit 模型(标准正态分布)、Logit 模型(逻辑分布)和Gompit 模型(极值分布)。
一般地,由于二元因变量模型仅仅是一件事发生与否,那么y 的两个数值便不重要了。
不过,Eviews 需要对y 的两个值进行编码。
这个约束条件产生很多优点。
第一,变量按这种方式进行编码暗示了y 的期望值简单就是y=1的概率:(,)1*P(1,)0*P(0,)P(1,)i i i i i i i i E y x y x y x y x ββββ∣==∣+=∣==∣ (18.2.7)这也为二元因变量模型提供了另一种解释,即条件均值的设定。
接下来我们可以将二元因变量模型写为如下的回归模型:(1())i i i y F x βε=--+ (18.2.8)其中:i ε是残差项,代表二元变量y 对条件均值的分离,然后有:(,)0i i E x εβ∣= (18.2.9)var(,)()(1())i i i i x F x F x βεββ∣=--- (18.2.10)根据残差分布函数不同,常见模型有Probit 模型(标准正态分布)、Logit 模型(逻辑分布)和Gompit 模型(极值分布)。
则有:Probit 模型:(1,)1()()i i i i P y x x βx ββ=∣=-Φ-=Φ,其中Φ是标准正态分布累积分布函数。
Logit 模型:(1,)1(/(1))/(1)i i i i x x x x i i P y x ee e e βββββ----=∣=-+=+,同样是基于逻辑分布的累积分布函数。
Gompit 模型:(1,)1(1exp())exp()i i x x i i P y x ee βββ--=∣=---=-,基于Type-I 极值分布的累积分布函数。
18.2.2二元选择模型的Eviews 估计1)模型的估计(1)模型估计估计二元选择模型,从主菜单中选择Object/New Object …,并从该菜单中选择Equation 选项。
从出现的Equation Specification 对话框中,选择Binary 估计方法。
在二元选择模型设定中包括两部分。
首先,在Equation Specification 区域内,键入二元因变量的名字,随后键入一系列回归项。
然后,在Binary estimation method 中选择Probit 、Logit 和Extreme value 三种中的一种估计方法,即三种误差项分布函数。
例如,使用probit 模型对重庆市政府农技推广供给影响因素的研究中,将农技推广服务的供需状况y 划分为“有贡献”和“没有贡献”两个层次,具体取值设置为,农技推广供给“没有贡献”或贡献“较小”取0,“有贡献”取1,政府农技推广工作人员的文化水平、所在地区、员工职位以及年龄等对农技推广供给的影响。
其中文化水平有4个层次,高中以下、高中、专科、本科以上,3个虚拟变量,即学历为高中,EDU1取值为1,同样专科EDU2和本科以上EDU3的取值;地区area 为主城区,取值为1,不是主城区取值0;政府工作人员的职务级别分3个层次,中高级管理者、基层管理者和一般工作人员,对该指标设2个虚拟变量,职务级别为中高级管理者,duty1取值为1,否则取0,职务级别为基层管理者,duty2取值为1,否则取0;年龄age 则直接使用年龄的数字。
先建一个工作文件夹,点击主菜单上File/New/workfiles …, 在Workfile structure type 中选择Unstructured/Undated ,Data range 输入样本的相关信息,具体如下图:图18.2.1然后依次输入数据序列,图18.2.2再点击主菜单上Quick/Estimate Eqution,进行估计设置:图18.2.3设定好模型后,点击“确定”。
Eviews6.0的估计结果如下:图18.2.4参数估计结果的上半部分包括估计方法(ML 极大似然估计)和估计中所使用的样本的基本信息,也包括达到收敛要求的迭代次数,和计算系数协方差矩阵所使用方法的信息。
在下面显示的是系数的估计、渐近的标准误差、z 统计量和相应的概率值及相关统计量。
二元选择模型的解释变量的估计系数不能被解释成对解释变量的边际影响,只能从系数的符号来判断因变量取值的概率有多大。
则解释变量x 对条件概率的边际效应为:(,)()i i i j ijE y x f x x βββ∂∣=-∂ (18.2.11) 其中()()/f x dF x dx =是相对于F 的密度函数。
注意用f 对所有回归项x 的值对系数jβ加权,i x 改变的直接效应通过系数j β的符号来反映,正的j β表示i x 增加能增加相应事件发生的概率;而负的值则表示i x 增加将减小相应事件发生的概率。
本例中age 的系数估计值为正,说明政府工作人员年龄越大,农业科技推广有贡献的概率越大,体现了年龄增加对农业科技推广的供给产生了正向的作用。
参数估计结果的下半部分包括常用的描述性统计量,其中有均值和因变量的标准偏离,回归的标准差和残差平方和。
标准差和残差平方和也用常用的方式计算的:))(1(),(ββi i i i i i x F y x y E y e ---=-= (18.2.12)另外,在回归结果中还提供了几种似然函数统计量:①Log likelihood 是对数似然函数的最大值)(βL 。
②Avg.log likelihood 是用观察的个数N 去除以对数似然函数)(βL ,即对数似然函数的平均值。
③Restr.log likelihood 是除了常数以外所有系数被限制为0时的极大似然函数)(βL 。
④LR 统计量检验除了常数以外所有系数都是0的假设,用-2[)(βL -)(βL ]计算的。
这类似于线性回归模型中的F 统计量,测试模型整体的显著性。
⑤Probability(LR stat)是LR 的检验统计量的P 值。
在零假设下,LR 的检验统计量近似服从自由度等于检验下的约束变量的个数的2χ分布。
⑥McFadden R-squared 是用1-)(βL /)(βL 计算的似然比率指标,这里)(βL 是有约束时的似然函数,它是同线性回归模型中的R 2是类似的,它总是介于0和1之间。