第八章 离散因变量模型
- 格式:pdf
- 大小:222.92 KB
- 文档页数:10
第⼋章离散因变量模型第⼋章离散因变量模型离散(分类)因变量模型(Models with Discrete /Categorical Dependent Variables)分为⼆元选择模型(Binary Choice Models)和多类别选择(反应)模型(Multicategory Choice /Polytomous Response Models)。
在多类别选择模型中,根据因变量的反应类别(response category)是否排序,⼜分为⽆序选择模型(Multinominal Choice Models)和有序选择模型(Ordered Choice Models)(也称有序因变量模型Ordered Dependent Variable Models、有序类别模型Ordered Category Models等)⼀、⼆元选择模型设因变量1、线性概率模型(LPM模型)如果采⽤线性模型,给定,设某事件发⽣的概率为P i,则有所以称之为线性概率模型。
不⾜之处:1、不能满⾜对⾃变量的任意取值都有。
2、3、所以线性概率模型不是标准线性模型。
给定,为使,可对建⽴某个分布函数,使的取值在(0,1)。
2、Logit模型(Dichotomous/ Binary Logit Model)Logit模型是离散(分类)因变量模型的常⽤形式,它采⽤的是逻辑概率分布函数(Cumulative Logistic Probability Function)(e为⾃然对数的底),逻辑曲线如图4-1所⽰。
其中,⼆元Logit模型是掌握多类别Logit模型的基础。
图4-1 逻辑曲线(Logit Curve)以⼆元选择问题为例,设因变量有0和1两个选择,由⾃变量来决定选择的结果。
为了使⼆元选择问题的研究成为可能,⾸先建⽴随机效⽤模型:令表⽰个体i选择=1的效⽤,表⽰个体i选择=0的效⽤,显然当时,选择结果为1,反之为0。
将两个效⽤相减,即得随机效⽤模型:,记为(4-1)当时,,则个体i选择=1的概率为:若的概率分布为Logistic分布,则有即(4-2)式(4-2)即为最常⽤的⼆元选择模型——Logit模型。
离散型变量结构方程模型
离散型变量在结构方程模型中又称为二项式变量或有序分类变量。
离散型变量是指变量的取值是有限离散的,不连续的。
在结构方程模型中,离散型变量可以作为被观察变量(即因变量)或观察变量(即自变量)。
离散型变量作为被观察变量时,常用的统计方法包括逻辑回归分析、Probit模型和logit模型等。
这些方法可以用于分析离散型因变量与其他观察变量之间的关系,并得到各个自变量对因变量的影响程度。
离散型变量作为观察变量时,可以通过构建多项式模型、序列模型或者有序分类模型等方法,来研究离散型变量之间的关系。
这些模型可以用于描述离散型变量之间的结构特征和相互作用关系。
总之,离散型变量在结构方程模型中起到重要的作用,可以帮助研究者理解离散型变量与其他变量之间的关系,并揭示变量之间的结构特征和作用机制。
萧澜 1 . 循环赛模型一、 问题:下图是5位网球选手循环赛的结果。
作为竞赛图,它是双向连通的吗?找出几条完全路径,用适当的方法排出5位选手的名次。
二、模型分析与建立:这是一个关于竞赛图排列名次的问题,我们可以利用双向连通竞赛的名次排序方法来处理这一问题。
根据图形建立竞赛图的邻接矩阵A=(ij a )n n ⨯如下:⎩⎨⎧=,否则的有向边到存在从顶点0,1j i a ij由此得到邻接矩阵A=⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡0111100100000010110001010三、模型求解: 各级分量为S=S(1)=(2,2,1,2,3),S(2)=(4,3,2,4,5),S(3)=(7,6,4,7,9),S(4)=(13,11,7,13,17).由此可以知道名次为:5,1(4),2,3(选手1和4名次相同)。
另外此结果也可以根据Perron-Frobenius 定理,由s A kk k =→λ1lim我们只需算出矩阵A 的最大特征根λ和对应特征向量S 得到大小排处名次。
我们可以用Matlab 求解,程序如下: A=[0,1,0,1,0 0,0,1,1,0 1,0,0,0,0 1,1,1,0,0]; eig(A)[X,D]=eig(A)从结果中可以看到A 的最大特征根8393.1=λ,所对应的特征向量为:)2769.0,2137.0,1162.0,11793.0,2137.0(=s由此得到排名顺序也是:5,1(4),2,3(选手1和4名次相同)。
2.投票权重 理事会有五个常任理事和十个非常任的理事,提案仅当全部的常任理事和至少非四个常任理事赞成时方可通过,求每位常任理事和每位非常任理事在投票中的权重? 模型分析:由题意可知题中涉及到了利益的分配问题,那么此题可以应用Shapley 值法进行求解Shapley 值法所需要的知识:设集合I={1,2,…,n},如果对于I 的任意一个子集s 都对应着一个实值函数v(s),满足v()=0;v( s s 21)≥v(s 1)+v(s 2), s 1 s 2= 称[I,v]为n 人合作对策,v 为对策的特征函数 Shapley 值由特征函数v 来确定记为)).()...,(),(()(21v v v v nϕϕϕ=Φ对于任意的子集s,记x(s)=∑∈si ix,即s 中成员的权重,对于一切s I ⊂满足x(s)≥v(s)的x 组成的集合称[I,v]的核心,当核心存在时,即所有s 的分配都不小于s 的效益,可以将Shapley 值作为一种特定的分配,即x iiv =)(ϕ;Shapley 值)).()...,(),(()(21v v v v nϕϕϕ=Φ为∑∈-=s i s v s v s v is i)]\()(|)[(|)(ωϕ,i=1,2,…,n!)!1|(||)!|(|)(|n s s n s --=ω其中s i 是中包含的所有子集,{s}是子集s 中的元素的数目(人数),)(||s ω是加权因子, s \ i 表示s 去掉i 后的集合.模型建立:集合I={1,2,…,5,6,…,15},其中i=1,2,…,5表示常人理事会员,i=6,…,15为非常任理事会员,将集合s=(),,()(}15...{}7{}6{}{51=i i )中任意的k 个元素的集合,k=4,5,…,10的特征函数定义为1,I 中的其他集合的特征函数的定义为0,因为这样的集合有Ck 10个,且!15)]!5(15[)!15()(+--+=k k s ω(k=4,5,…,10),所以任意一个常任理事的Shapley 值为(即投票时占的比重)为∑==10410*|)(|k kiCs ωϕ代入数据可的ϕi=0.916,(i=1,2,…,5)而任意的非常任理事的权重为ϕi =101(1-5*0.196)=0.002(i=6,…,15).Matlab 语言程序:循环赛模型另解下图是5位网球选手循环赛的结果。
使用STATA分析离散因变量模型离散因变量模型是一类常用于处理离散因变量的统计模型,主要用于解决离散因变量的概率分布和估计问题。
在STATA软件中,可以使用一系列命令来进行离散因变量模型的分析。
首先,我们需要使用STATA建立一个数据集来进行分析。
可以使用命令"clear"来清除已经存在的数据集,然后使用"input"命令导入数据。
导入数据时,可以使用"gen"命令创建新的变量,设置其类型为离散变量。
例如,可以使用以下命令创建一个二元变量"y":```clearinput yend```首先,我们可以用"tabulate"命令来查看因变量的分布情况。
例如,我们可以使用以下命令来查看变量"y"的频数和占比:```tabulate y```接下来,我们可以使用STATA进行离散因变量模型的估计和推断。
最常用的模型是二项Logistic回归模型,可以使用"Logistic"命令进行估计。
例如,假设我们有一个自变量"x"和一个因变量"y",可以使用以下命令来进行Logistic回归模型的估计:```logistic y x```模型估计结果将会显示出在估计中使用的样本量、对数似然值、模型的相关系数、标准误差、z值、P值等信息。
此外,还会显示出模型的拟合优度统计量,如伪R²。
如果我们想要观察模型的拟合程度,可以使用以下命令来进行模型拟合优度检验:```logistic y x, estat gof```该命令将显示出卡方检验的结果,用于评估模型的拟合程度。
此外,STATA还提供了其他离散因变量模型的估计命令,如Poisson 回归、Negative Binomial回归、Ordered Probit 回归等。
这些命令的使用方式类似于二项Logistic回归命令,只是模型的假设和估计方法有所不同。
第八章离散因变量模型离散(分类)因变量模型(Models with Discrete /Categorical Dependent Variables)分为二元选择模型(Binary Choice Models)和多类别选择(反应)模型(Multicategory Choice /Polytomous Response Models)。
在多类别选择模型中,根据因变量的反应类别(response category)是否排序,又分为无序选择模型(Multinominal Choice Models)和有序选择模型(Ordered Choice Models)(也称有序因变量模型Ordered Dependent Variable Models、有序类别模型Ordered Category Models等)一、二元选择模型设因变量1、线性概率模型(LPM模型)如果采用线性模型,给定,设某事件发生的概率为P i,则有所以称之为线性概率模型。
不足之处:1、不能满足对自变量的任意取值都有。
2、3、所以线性概率模型不是标准线性模型。
给定,为使,可对建立某个分布函数,使的取值在(0,1)。
2、Logit模型(Dichotomous/ Binary Logit Model)Logit模型是离散(分类)因变量模型的常用形式,它采用的是逻辑概率分布函数(Cumulative Logistic Probability Function)(e为自然对数的底),逻辑曲线如图4-1所示。
其中,二元Logit模型是掌握多类别Logit模型的基础。
图4-1 逻辑曲线(Logit Curve)以二元选择问题为例,设因变量有0和1两个选择,由自变量来决定选择的结果。
为了使二元选择问题的研究成为可能,首先建立随机效用模型:令表示个体i选择=1的效用,表示个体i选择=0的效用,显然当时,选择结果为1,反之为0。
将两个效用相减,即得随机效用模型:,记为(4-1)当时,,则个体i选择=1的概率为:若的概率分布为Logistic分布,则有即(4-2)式(4-2)即为最常用的二元选择模型——Logit模型。
二元Logit选择模型的参数估计通常使用最大似然估计法,令似然函数,再求似然函数L的对数值最大时的参数估计量。
对(4-2)式进行适当的变换,得即(4-3)式(4-3)与式(4-2)是等价的,而且更易于解释,式中为个体i做出选择1的机会比(odds),式中的因变量是机会比(odds)的自然对数,参数的含义为自变量每增加一个单位机会比(odds)的自然对数增加的数值。
在多类别选择模型中,通常也是以机会比的自然对数(log-odds)作为因变量建立关于自变量X的线性模型,统称为Logistic回归。
3、Probit模型同Logit模型的推导,不同在于取分布函数的形式为标准正态的分布函数,则有。
二、多类别Logit模型(Polytomous Logit Model)对于多类别选择问题,即离散因变量有两个以上的选择类别,可建立多类别Logit模型来研究。
根据因变量可供选择的结果类别是否排序,有几种不同类型的Logistic回归,有的只适用于排序选择模型(如Cumulative logit models,Adjacent Categories Models等),有的对于非排序选择模型也适用(如Baseline Logit Models, Conditional Logit Models等)。
1.基准类别Logit模型(Baseline-Category Logit Model)对于非排序选择问题,通常用基准类别Logit模型来研究。
设离散因变量有类可能结果,令代表个不同的结果类别,各类结果之间相互独立,不存在等级排序关系,定义代表个体选择结果,则个体的可能选择;为个影响因变量选择结果的自变量;定义为个体选择结果的概率,即,则个体做出各类选择的概率,。
以作为基准类别,可定义个机会比的自然对数(log-odds),引入自变量,则可得基准类别Logit模型(Baseline-Category Logit Model )如下:(4-4)式中,,,为样本容量,为自变量个数;,,为离散因变量结果分类的个数。
可见,模型(4-4)中包括个方程,有个待估参数。
与模型(4-4)等价的是各类结果出现的概率函数,当为非基准类别,即时,(4-5)当为基准类别,即时,(4-6)模型(4-4)—(4-6)是等价的,同样可以用最大似然估计法进行参数估计,通过的联合概率函数导出似然函数:(4-7)其中,,如果个体选择结果;反之,。
把(4-5)式和(4-6)式代入(4-7)式并取对数得对数似然函数,再通过对数似然函数最大化的一阶条件求解模型参数。
模型(4-4)的参数表示当其它自变量保持不变时,自变量每变化一个单位,个体的选择落入第类的概率对比落入第类的概率得到的机会比对数(log-odds)变化个单位。
对于基准类别(Baseline-Category)Logit模型而言,任可一个类别都可被选作基准类别,不会影响模型的拟合,只是式(4-4)的参数估计值及其解释发生变化,模型的对数似然函数值和因变量各个类别的概率预测值都不会改变。
基准类别(Baseline-Category)Logit模型非常灵活,通过式(4-4)可以求个体的选择落入任意两个类别的机会比对数(log-odds),如要求结果对比结果的机会比对数,有(4-8)2.相邻级别Logit模型(Adjacent-Category Logit Model)若因变量各选择类别之间存在排序等级关系,如研究个体对某一产品的偏好程度,用1,2,3分别代表厌恶、一般、喜欢,则因变量Y=(1,2 ,3)为排序因变量(Ordered Dependent Variable),对应的排序选择问题可以用相邻级别(Adjacent-Category )Logit模型来研究。
设排序因变量有个选择类别,,代表第个选择;代表各个选择出现的概率(为简便起见,省略表示个体的下标,下同);代表个影响个体选择的自变量。
定义个体的选择落入相邻两个级别的机会比对数(log-odds)为,引入自变量,可得相邻级别(Adjacent-Category )Logit模型如下:()(4-9)或()模型(4-9)包括个回归方程和个待估参数。
相邻级别(Adjacent-Category )Logit模型与基准类别(Baseline-Category)Logit模型(4-4)最大的区别在于它考虑了因变量的各选择类别之间的等级排序关系,并假设自变量对任意两个相邻级别的机会比对数的影响系数是相同的,因此模型(4-9)中回归系数在所有相邻级别的回归方程中数值是一样的。
事实上,若在基准类别(Baseline-Category)Logit模型(4-4)中加入因变量各类别内在等级排序的约束条件,可以得到与(4-9)式等价的相邻级别(Adjacent-Category )Logit 模型。
假设对排序因变量,选择基准类别,根据式(4-4)建立Baseline-Category Logit模型:(4-10)由于因变量的取值是排序的,因此如果自变量有助于提高的等级(设的等级高于),则增加一个单位,取值为的可能性大于取值为的可能性,这意味着。
不失一般性,假设对于任意均有,,并假设随着等级的提高而成比例增加,不妨设,,将约束条件代入(4-10)式,则可求得(4-9)式的相邻级别(Adjacent-Category )Logit模型:同理,可求得相邻个等级的任意两个类别的机会比对数为:(4-11)模型(4-9)同样可以用极大似然估计法估计,利用计量软件包可以方便地求得因变量的取值落入各个等级的概率,模型参数表示当其它自变量保持不变时,自变量每变化一个单位,因变量的取值落入任意两个相邻等级和的机会比对数(log-odds)都变化个单位。
3.比例优势累积Logit模型(Proportional-Odds Cumulative Logit Model)比例优势模型(Proportional Odds Model,简称POM)也称累积Logit模型(cumulative logit model),最早由McCullagh (1980)提出,是排序Logistic回归中最常用的模型。
目前,POM广泛应用在社会经济统计学和生物医学统计领域。
与相邻级别(Adjacent-Category )Logit 模型相比,POM更适合研究自变量的变化对因变量等级变化的影响效应,即自变量数值的增加或减小是否有助于因变量级别的提高或降低。
POM假设排序因变量的类别等级受不可观测的潜变量的影响,并且存在个未知的潜在分割点(cutpoint或threshold),将分为个等级1,即:若是自变量的线性函数,则,代表个自变量,,设服从Logistic分布,则可得的累积概率函数:(4-12)比例优势模型(POM)就是使用累积概率来定义机会比(odds):(4-13)式(4-13)表示的等级大于与的等级小于或等于的概率比,odds数值越大,说明的等级大于的可能性越大。
相应的机会比对数(log-odds)为:将(4-12)式代入机会比对数,得比例优势模型(POM):,(4-14)模型(4-14)包括个方程,每个方程的截距项不同(注意POM的截距项与潜在分割点的符号相反),但所有方程中的回归系数是相同的,这就是比例优势模型的重要假定(The Proportional Odds Assumption):对于任意一个等级,高于该等级与低于该等级的机会比对数(log-odds)受变动的影响是相同的,即不论我们选择哪个等级,变动一个单位,机会比对数(log-odds)都变动个单位。
根据(4-14),可得等价模型(4-15)容易看出,若为正,意味着的提高总是有助于等级的提高,并且,相同的表示對任何,的形态是相同的,图4-2表现了比例优势模型(POM)中和的这种关系。
图4-2 比例优势模型(POM)图示()根据(4-12)式可计算的各个等级出现的概率:令代表个体各个等级出现的概率,则相应的对数似然函数(其中,,如果个体出现等级;反之,),模型的参数(包括和)估计量可通过最大化对数似然函数求得。
值得强调的一点,比例优势模型(4-14)中的每一个方程都可以看作是一个二元Logit模型,此时,对每一个,令时用1表示,时用0表示。
三、Logit模型参数的估计方法1、数据是分组观测资料对自变量的某组观测值,因变量的个观测值中有个观测值取值为1,其余为0,则等于1出现的概率的估计值,有,若满足经典假定,则可对上式用OLS法进行估计,否则再对模型进行修正。