第八章 (1) 离散和受限被解释变量模型
- 格式:ppt
- 大小:901.50 KB
- 文档页数:76
第八章离散因变量模型离散(分类)因变量模型(Models with Discrete /Categorical Dependent Variables)分为二元选择模型(Binary Choice Models)和多类别选择(反应)模型(Multicategory Choice /Polytomous Response Models)。
在多类别选择模型中,根据因变量的反应类别(response category)是否排序,又分为无序选择模型(Multinominal Choice Models)和有序选择模型(Ordered Choice Models)(也称有序因变量模型Ordered Dependent Variable Models、有序类别模型Ordered Category Models等)一、二元选择模型设因变量1、线性概率模型(LPM模型)如果采用线性模型,给定,设某事件发生的概率为P i,则有所以称之为线性概率模型。
不足之处:1、不能满足对自变量的任意取值都有。
2、3、所以线性概率模型不是标准线性模型。
给定,为使,可对建立某个分布函数,使的取值在(0,1)。
2、Logit模型(Dichotomous/ Binary Logit Model)Logit模型是离散(分类)因变量模型的常用形式,它采用的是逻辑概率分布函数(Cumulative Logistic Probability Function)(e为自然对数的底),逻辑曲线如图4-1所示。
其中,二元Logit模型是掌握多类别Logit模型的基础。
图4-1 逻辑曲线(Logit Curve)以二元选择问题为例,设因变量有0和1两个选择,由自变量来决定选择的结果。
为了使二元选择问题的研究成为可能,首先建立随机效用模型:令表示个体i选择=1的效用,表示个体i选择=0的效用,显然当时,选择结果为1,反之为0。
将两个效用相减,即得随机效用模型:,记为(4-1)当时,,则个体i选择=1的概率为:若的概率分布为Logistic分布,则有即(4-2)式(4-2)即为最常用的二元选择模型——Logit模型。
第八章虚拟变量模型1. 回归模型中引入虚拟变量的作用是什么?答:在模型中引入虚拟变量,主要是为了寻找某(些)定性因素对解释变量的影响。
加法方式与乘法方式是最主要的引入方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
2. 虚拟变量有哪几种基本的引入方式? 它们各适用于什么情况?答:在模型中引入虚拟变量的主要方式有加法方式与乘法方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。
除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
3.什么是虚拟变量陷阱?答:根据虚拟变量的设置原则,一般情况下,如果定性变量有m个类别,则需在模型中引入m-1个变量。
如果引入了m个变量,就会导致模型解释变量出现完全的共线性问题,从而导致模型无法估计。
这种由于引入虚拟变量个数与类别个数相等导致的模型无法估计的问题,称为“虚拟变量陷阱”。
4.在一项对北京某大学学生月消费支出的研究中,认为学生的消费支出除受其家庭的每月收入水平外,还受在学校中是否得到奖学金,来自农村还是城市,是经济发达地区还是欠发达地区,以及性别等因素的影响。
试设定适当的模型,并导出如下情形下学生消费支出的平均水平:(1) 来自欠发达农村地区的女生,未得到奖学金;(2) 来自欠发达城市地区的男生,得到奖学金;(3) 来自发达地区的农村女生,得到奖学金;(4) 来自发达地区的城市男生,未得到奖学金。
解答: 记学生月消费支出为Y,其家庭月收入水平为X,则在不考虑其他因素的影响时,有如下基本回归模型:Y i=β0+β1X i+μi有奖学金1 来自城市无奖学金0 来自农村来自发达地区 1 男性0 来自欠发达地区0 女性Y i=β0+β1X i+α1D1i+α2D2i+α3D3i+α4D4i+μi由此回归模型,可得如下各种情形下学生的平均消费支出:(1) 来自欠发达农村地区的女生,未得到奖学金时的月消费支出:E(Y i|= X i, D1i=D2i=D3i=D4i=0)=β0+β1X i(2) 来自欠发达城市地区的男生,得到奖学金时的月消费支出:E(Y i|= X i, D1i=D4i=1,D2i=D3i=0)=(β0+α1+α4)+β1X i(3) 来自发达地区的农村女生,得到奖学金时的月消费支出:E(Y i |= X i , D 1i =D 3i =1,D 2i =D 4i =0)=(β0+α1+α3)+β1X i (4) 来自发达地区的城市男生,未得到奖学金时的月消费支出: E(Y i |= X i ,D 2i =D 3i =D 4i =1, D 1i =0)= (β0+α2+α3+α4)+β1X i5. 研究进口消费品的数量Y 与国民收入X 的模型关系时,由数据散点图显示1979年前后Y 对X 的回归关系明显不同,进口消费函数发生了结构性变化:基本消费部分下降了,而边际消费倾向变大了。
第⼋章离散因变量模型第⼋章离散因变量模型离散(分类)因变量模型(Models with Discrete /Categorical Dependent Variables)分为⼆元选择模型(Binary Choice Models)和多类别选择(反应)模型(Multicategory Choice /Polytomous Response Models)。
在多类别选择模型中,根据因变量的反应类别(response category)是否排序,⼜分为⽆序选择模型(Multinominal Choice Models)和有序选择模型(Ordered Choice Models)(也称有序因变量模型Ordered Dependent Variable Models、有序类别模型Ordered Category Models等)⼀、⼆元选择模型设因变量1、线性概率模型(LPM模型)如果采⽤线性模型,给定,设某事件发⽣的概率为P i,则有所以称之为线性概率模型。
不⾜之处:1、不能满⾜对⾃变量的任意取值都有。
2、3、所以线性概率模型不是标准线性模型。
给定,为使,可对建⽴某个分布函数,使的取值在(0,1)。
2、Logit模型(Dichotomous/ Binary Logit Model)Logit模型是离散(分类)因变量模型的常⽤形式,它采⽤的是逻辑概率分布函数(Cumulative Logistic Probability Function)(e为⾃然对数的底),逻辑曲线如图4-1所⽰。
其中,⼆元Logit模型是掌握多类别Logit模型的基础。
图4-1 逻辑曲线(Logit Curve)以⼆元选择问题为例,设因变量有0和1两个选择,由⾃变量来决定选择的结果。
为了使⼆元选择问题的研究成为可能,⾸先建⽴随机效⽤模型:令表⽰个体i选择=1的效⽤,表⽰个体i选择=0的效⽤,显然当时,选择结果为1,反之为0。
将两个效⽤相减,即得随机效⽤模型:,记为(4-1)当时,,则个体i选择=1的概率为:若的概率分布为Logistic分布,则有即(4-2)式(4-2)即为最常⽤的⼆元选择模型——Logit模型。
第八章离散选择模型—Logistic回归基于logistic回归模型的企业信用评价——以材料和机械制造行业上市公司为例一、引言中国市场经济制度的日益健全与完善以及证券债券等金融市场的逐步建立与发展,信用成为经济交往、债务形成的一个重要的基础,信用风险越来越受到市场交易者的关注。
信用风险是指借款人、证券发行人或交易方由于各种原因不愿或无能力履行商业合同而违约,致使债权人、投资者或交易方遭受损失的可能性。
对于上市公司而言,这种违约行为经常表现为拖欠账款、资不抵债以及以发行证券或债券进行圈钱等失信行为。
对这种违约失信的可能性的度量显得十分重要。
怎样分析公司的信用状况,对信贷管理者如何分析企业的信用,对证券投资者如何衡量投资项目的风险和价值以及企业家如何评价自己管理的公司,都有极大的价值。
自上世纪中期以来,国内外以计算违约率(本文计算守信率,守信率=1-违约率)对信用风险进行评价和度量的方法和模型得到了迅速发展。
对企业的信用评价主要是基于综合财务指标特征计算违约风险并用来划分等级。
以综合财务指标为解释变量,运用计量统计方法建立模型,分析信用在金融和学术界成为主流,并且评价效果显著。
特别对于logistic回归模型效果更好,因为该模型没有关于变量分布的假设,也不要求假设指标存在多元正态分布。
最早有Martin(1977)建立logistic回归模型预测公司的破产以及违约的概率。
Madalla(1983)建立logistic回归模型来区分违约和非违约贷款申请人,并确认0.551为两者的分界线。
比如在我国,张后启等(2002),杨朝军等(2002),应用Logistic模型研究上市公司财务危机,得出有效结论等等。
面对我国在深沪两家证券市场上市的一千多家上市公司,由于公司体制和管理机制缺陷,或者自身利益最大化利益驱使,或者多部分有国企改制而来等各种原因,信用风险程度变的更大。
若能够应用一个较简单的计量模型对他们的信用状况进行评价,对债权人选择贷款对象,投资者投资和交易方的选取都有较大帮助。
第八章成对数据的统计分析(公式、定理、结论图表)一、成对数据的统计相关性1.变量的相关关系(1)函数关系函数关系是一种确定性关系,常用解析式来表示.(2)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.与函数关系不同,相关关系是一种非确定性关系.2.散点图(1)散点图成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图. (2)正相关和负相关如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.3.线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.4.样本相关系数(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:(其中,,,和,,,的均值分别为和).①当r >0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.②当r <0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.二、一元线性回归模型及其应用1.线性回归方程:(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:()()()1122,,,,,,n n x y x y x y ,其回归方程为a bx y +=∧,则1221,.ni i i nii x y nx y b x nx a y bx ==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑注意:线性回归直线经过定点(),x y .(3)相关系数:()()()()12211nii i nni i i i xx y y rx x y y ===--=--∑∑∑1222211ni ii n ni i i i x y nxyx nx y ny ===-=⎛⎫⎛⎫-- ⎪⎪⎝⎭⎝⎭∑∑∑.【方法归纳】(1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.(2)利用相关系数判定,当r 越趋近于1相关性越强.当残差平方和越小,相关指数2R 越大,相关性越强.(3)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r 进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(4)正确运用计算 ,ba 的公式和准确的计算,是求线性回归方程的关键.并充分利用回归直线 y bxa =+ 过样本点的中心(),x y 进行求值.2、回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。