第八章 离散选择模型――Logist回归
- 格式:doc
- 大小:205.00 KB
- 文档页数:7
Logistic 回归模型1 Logistic 回归模型的基本知识 1.1 Logistic 模型简介主要应用在研究某些现象发生的概率p ,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率p 与那些因素有关。
显然作为概率值,一定有10≤≤p ,因此很难用线性模型描述概率p 与自变量的关系,另外如果p 接近两个极端值,此时一般方法难以较好地反映p 的微小变化。
为此在构建p 与自变量关系的模型时,变换一下思路,不直接研究p ,而是研究p 的一个严格单调函数)(p G ,并要求)(p G 在p 接近两端值时对其微小变化很敏感。
于是Logit 变换被提出来:ppp Logit -=1ln)( (1)其中当p 从10→时,)(p Logit 从+∞→∞-,这个变化范围在模型数据处理上带来很大的方便,解决了上述面临的难题。
另外从函数的变形可得如下等价的公式:XT XT T ee p Xppp Logit βββ+=⇒=-=11ln )( (2)模型(2)的基本要求是,因变量(y )是个二元变量,仅取0或1两个值,而因变量取1的概率)|1(X y P =就是模型要研究的对象。
而Tk x x x X ),,,,1(21 =,其中i x 表示影响y 的第i 个因素,它可以是定性变量也可以是定量变量,Tk ),,,(10ββββ =。
为此模型(2)可以表述成:kx k x k x k x kk eep x x pp βββββββββ+++++++=⇒+++=- 11011011011ln (3)显然p y E =)(,故上述模型表明)(1)(lny E y E -是k x x x ,,,21 的线性函数。
此时我们称满足上面条件的回归方程为Logistic 线性回归。
Logistic 线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。
logistic回归模型统计描述在统计学中,logistic回归模型是一种常用的分类方法,它适用于将自变量与离散的二分类因变量相关联的情况。
本文将会详细介绍logistic回归模型的原理、概念以及应用,并解释如何利用该模型进行统计推断与预测。
一、logistic回归模型的原理与概念1.1 逻辑函数与S型曲线在logistic回归模型中,我们使用逻辑函数(logistic function)将自变量的线性组合转换为一个介于0和1之间的概率值。
逻辑函数(也称为sigmoid函数)是一个S型曲线,它可以表示如下:f(z) = 1 / (1 + e^(-z))其中,f(z)表示逻辑函数的输出值,e为自然对数的底,z为自变量的线性组合。
1.2 线性组合与logit函数在logistic回归模型中,自变量的线性组合表示为:z = β0 + β1x1 + β2x2 + ... + βnxn其中,zi表示第i个样本的线性组合值,β0、β1、β2...βn为模型的参数,xi为自变量的取值。
1.3 参数的解释与推断在logistic回归模型中,参数的解释通常使用odds ratio(比率几率)来进行推断。
比率几率表示的是某个事件的成功概率与失败概率之间的比值。
对于一个二分类事件,比率几率可以表示为:odds = p / (1 - p)其中,p为事件成功的概率。
通过对比两种不同情况下的比率几率,可以推断参数对于事件发生的影响程度。
二、logistic回归模型的应用2.1 数据准备在使用logistic回归模型时,首先需要准备好相关的数据。
通常情况下,我们将数据集分为训练集和测试集,用于模型的训练与验证。
2.2 模型拟合与参数估计使用logistic回归模型进行拟合时,通常采用最大似然估计法。
最大似然估计法旨在选择最适合观测到的数据的参数值,使得观测到的数据的概率最大化。
2.3 模型评估与优化在模型拟合完成后,我们需要对模型进行评估与优化。
【最新整理,下载后即可编辑】Logistic 回归模型1 Logistic 回归模型的基本知识 1.1 Logistic 模型简介主要应用在研究某些现象发生的概率p ,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率p 与那些因素有关。
显然作为概率值,一定有10≤≤p ,因此很难用线性模型描述概率p 与自变量的关系,另外如果p 接近两个极端值,此时一般方法难以较好地反映p 的微小变化。
为此在构建p 与自变量关系的模型时,变换一下思路,不直接研究p ,而是研究p 的一个严格单调函数)(p G ,并要求)(p G 在p 接近两端值时对其微小变化很敏感。
于是Logit 变换被提出来:pp p Logit -=1ln)( (1)其中当p 从10→时,)(p Logit 从+∞→∞-,这个变化范围在模型数据处理上带来很大的方便,解决了上述面临的难题。
另外从函数的变形可得如下等价的公式:XT XT T ee p Xppp Logit βββ+=⇒=-=11ln )( (2)模型(2)的基本要求是,因变量(y )是个二元变量,仅取0或1两个值,而因变量取1的概率)|1(X y P =就是模型要研究的对象。
而T k x x x X ),,,,1(21 =,其中i x 表示影响y 的第i 个因素,它可以是定性变量也可以是定量变量,T k ),,,(10ββββ =。
为此模型(2)可以表述成:kx k x k x k x kk eep x x pp βββββββββ+++++++=⇒+++=- 11011011011ln (3)显然p y E =)(,故上述模型表明)(1)(lny E y E -是k x x x ,,,21 的线性函数。
此时我们称满足上面条件的回归方程为Logistic 线性回归。
Logistic 线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。
第八章离散选择模型—Logistic回归基于logistic回归模型的企业信用评价——以材料和机械制造行业上市公司为例一、引言中国市场经济制度的日益健全与完善以及证券债券等金融市场的逐步建立与发展,信用成为经济交往、债务形成的一个重要的基础,信用风险越来越受到市场交易者的关注。
信用风险是指借款人、证券发行人或交易方由于各种原因不愿或无能力履行商业合同而违约,致使债权人、投资者或交易方遭受损失的可能性。
对于上市公司而言,这种违约行为经常表现为拖欠账款、资不抵债以及以发行证券或债券进行圈钱等失信行为。
对这种违约失信的可能性的度量显得十分重要。
怎样分析公司的信用状况,对信贷管理者如何分析企业的信用,对证券投资者如何衡量投资项目的风险和价值以及企业家如何评价自己管理的公司,都有极大的价值。
自上世纪中期以来,国内外以计算违约率(本文计算守信率,守信率=1-违约率)对信用风险进行评价和度量的方法和模型得到了迅速发展。
对企业的信用评价主要是基于综合财务指标特征计算违约风险并用来划分等级。
以综合财务指标为解释变量,运用计量统计方法建立模型,分析信用在金融和学术界成为主流,并且评价效果显著。
特别对于logistic回归模型效果更好,因为该模型没有关于变量分布的假设,也不要求假设指标存在多元正态分布。
最早有Martin(1977)建立logistic回归模型预测公司的破产以及违约的概率。
Madalla(1983)建立logistic回归模型来区分违约和非违约贷款申请人,并确认0.551为两者的分界线。
比如在我国,张后启等(2002),杨朝军等(2002),应用Logistic模型研究上市公司财务危机,得出有效结论等等。
面对我国在深沪两家证券市场上市的一千多家上市公司,由于公司体制和管理机制缺陷,或者自身利益最大化利益驱使,或者多部分有国企改制而来等各种原因,信用风险程度变的更大。
若能够应用一个较简单的计量模型对他们的信用状况进行评价,对债权人选择贷款对象,投资者投资和交易方的选取都有较大帮助。
第八章离散因变量模型离散(分类)因变量模型(Models with Discrete /Categorical Dependent Variables)分为二元选择模型(Binary Choice Models)和多类别选择(反应)模型(Multicategory Choice /Polytomous Response Models)。
在多类别选择模型中,根据因变量的反应类别(response category)是否排序,又分为无序选择模型(Multinominal Choice Models)和有序选择模型(Ordered Choice Models)(也称有序因变量模型Ordered Dependent Variable Models、有序类别模型Ordered Category Models等)一、二元选择模型设因变量1、线性概率模型(LPM模型)如果采用线性模型,给定,设某事件发生的概率为P i,则有所以称之为线性概率模型。
不足之处:1、不能满足对自变量的任意取值都有。
2、3、所以线性概率模型不是标准线性模型。
给定,为使,可对建立某个分布函数,使的取值在(0,1)。
2、Logit模型(Dichotomous/ Binary Logit Model)Logit模型是离散(分类)因变量模型的常用形式,它采用的是逻辑概率分布函数(Cumulative Logistic Probability Function)(e为自然对数的底),逻辑曲线如图4-1所示。
其中,二元Logit模型是掌握多类别Logit模型的基础。
图4-1 逻辑曲线(Logit Curve)以二元选择问题为例,设因变量有0和1两个选择,由自变量来决定选择的结果。
为了使二元选择问题的研究成为可能,首先建立随机效用模型:令表示个体i选择=1的效用,表示个体i选择=0的效用,显然当时,选择结果为1,反之为0。
将两个效用相减,即得随机效用模型:,记为(4-1)当时,,则个体i选择=1的概率为:若的概率分布为Logistic分布,则有即(4-2)式(4-2)即为最常用的二元选择模型——Logit模型。
第八章离散选择模型—Logistic回归基于logistic回归模型的企业信用评价——以材料和机械制造行业上市公司为例一、引言中国市场经济制度的日益健全与完善以及证券债券等金融市场的逐步建立与发展,信用成为经济交往、债务形成的一个重要的基础,信用风险越来越受到市场交易者的关注。
信用风险是指借款人、证券发行人或交易方由于各种原因不愿或无能力履行商业合同而违约,致使债权人、投资者或交易方遭受损失的可能性。
对于上市公司而言,这种违约行为经常表现为拖欠账款、资不抵债以及以发行证券或债券进行圈钱等失信行为。
对这种违约失信的可能性的度量显得十分重要。
怎样分析公司的信用状况,对信贷管理者如何分析企业的信用,对证券投资者如何衡量投资项目的风险和价值以及企业家如何评价自己管理的公司,都有极大的价值。
自上世纪中期以来,国内外以计算违约率(本文计算守信率,守信率=1-违约率)对信用风险进行评价和度量的方法和模型得到了迅速发展。
对企业的信用评价主要是基于综合财务指标特征计算违约风险并用来划分等级。
以综合财务指标为解释变量,运用计量统计方法建立模型,分析信用在金融和学术界成为主流,并且评价效果显著。
特别对于logistic回归模型效果更好,因为该模型没有关于变量分布的假设,也不要求假设指标存在多元正态分布。
最早有Martin(1977)建立logistic回归模型预测公司的破产以及违约的概率。
Madalla(1983)建立logistic回归模型来区分违约和非违约贷款申请人,并确认0.551为两者的分界线。
比如在我国,张后启等(2002),杨朝军等(2002),应用Logistic模型研究上市公司财务危机,得出有效结论等等。
面对我国在深沪两家证券市场上市的一千多家上市公司,由于公司体制和管理机制缺陷,或者自身利益最大化利益驱使,或者多部分有国企改制而来等各种原因,信用风险程度变的更大。
若能够应用一个较简单的计量模型对他们的信用状况进行评价,对债权人选择贷款对象,投资者投资和交易方的选取都有较大帮助。
本文则利用上市公司综合财务数据,运用主成分分析,建立logistic回归模型。
并为了消除行业因素的影响,仅对材料和机械制造行业的100家上市企业作为样本进行建立模型,对于其他行业可依次方法进行评价。
二、指标选取与数据搜集㈠选择指标的类别一般而言,企业信用评价及违约风险大小与企业财务状况密切相关的,企业财务状况良好时,资本运营顺畅、现金流量管理较好,企业就可能守信、有能力且可及时还款。
反过来,当一个企业财务出现危机时,企业的经营、运作和盈利均处于不利状态,可能出现拖欠货款,圈钱,丧失信誉等行为,导致企业信用危机,更加剧了财务困境。
从而企业信用评价基于企业财务状况,在建立信用评价模型时,就选择几个有代表性的综合财务指标作为分析的对象。
㈡选取指标的原则在选择财务指标时,首先,遵循全面性和综合性原则,可以从不同方位、层次体现信用状况,综合考虑会计的三大报表,从中提取数据,各报表的数据互相结合、对比,注重现金流量表这个动态变量的作用,充分表达企业的偿债能力、盈利能力、营运能力等。
比如,选取应付账款周转率这个指标,其较好的反映了企业还款意愿,该周转率越高,周转天数越少,表明还款意愿强烈,此外该指标同应收账款周转率存在高度相关性,反映了营运能力的大小,变现速度和收账效率。
再如流动负债经营现金净流量比,即动态地体现了企业的短期偿债能力,又表达其营运能力的大小。
其次,遵守可比性和数据的易于获取性原则,选择同行业中数据,反映其内在规律性。
据我国现行企业会计核算制度,上市公司的财务数据必须向社会报出,可以根据报表的基本数据来计算指标。
最后,考虑选取的指标与评价目标要求存在正相关性,这是由于回归模型本身决定的,因各个解释变量与解释的目标是正比例关系,比如负债率等这样的指标不宜使用。
㈢选取的财务指标综上所述的选取指标的类别和选取原则,全面考虑,选取如下(见表1)财务指标:㈣数据的来源以2004年上市公司的报出的三大报表数据为依据计算财务指标作为分析对象,选取两组样本。
由于logistic回归模型的特征,为了使守信率更趋近于0和1,选取两组两端(较好和较坏)作为样本数据,一组为正常上市公司(信用状况较好),选取被证券之星网站排名在材料行业前30名和机械制造行业前20名的公司,共计50家;另一组为非正常公司(信用状况较坏),因财务异常而被特别处理(ST)的公司,选取材料和机械制造行业被特别处理的公司和注册会计师给以“拒绝表示意见”的审计报告的公司共计50家。
三、logistic回归模型分析㈠数据的初始处理和主成分分析设选取的原始数据为128(,...),X x x x =其中: 12100(,...),(1,2...8)j j j j x x x x j == 先消除量纲的影响,先对样本数据进行标准化:*jij ijjx x x s -=其中: 10010021111,()1001001j j ij j ij i i x x s x x ====--∑∑. 标准化后的数据记为*i X (i=1,2,…8)。
为了消除logistic 回归模型分析中各变量存在的多重共线性,并对选取的指标进行分类,对8个指标进行采取主成分分析法进行因子分析,即寻找因子i F 保持原始的信息,并且互不相关。
先求出相关系数矩阵 1010()ij R r ⨯=, 100**111001ij ti tj t r x x ==-∑ (i,j=1,2,...8) 计算相关系数矩阵R 的特征值λ,和特征向量D ,所求特征值依大小顺序排列为11100λλλ>>>≥ ,对应i λ的特征向量为i D ,主成分为i F =i XD .主成分i F 的贡献率为 81ii tt h λλ==∑.这样可只考虑少数几个主成分而不损失较多信息,抓住主要矛盾,揭示规律性。
并对其通过方差最大化法进行正交因子旋转。
旋转过程对主成分提取的结果只改变信息量在不同主成分之间的分布,从而可以找到合理的经济解释。
采用SPSS11.5统计软件中Analyze →Data Reduction →Factor …进行因子分析, 前4个主成分的特征值的累计贡献率已经达到了78.58%,选取F1,F2,F3,F4作为最终指标进行分析,可以分别有原来8个指标表示为:********12345678F1=0.456 +0.335 +0.486 +0.031 -0.157 +0.035 -0.073 +0.079 X X X X X X X X********12345678F2=-0.048 +0.242 -0.219 +0.498 +0.530 +0.07 -0.015 -0.214 X X X X X X X X ********12345678F3=0.012 -0.138 +0.006 0.116 -0.087 0.452 +0.050.698X X X X X X X X -++********12345678F4=0.063 +0.247-0.3980.065-0.0840.061 +0.8490.07 X X X X X X X X +-+由上表达式可以看出,F1主要表达了X1、X2、X3等三个指标的信息量,反映的是企业的偿债能力, F2主要表达了X4、X5等指标的信息量,反映的是企业的营运能力, F1主要表达了X6、X8等指标的信息量,反映的是企业的还款意愿和总盈利能力, F1主要表达了X7等指标的信息量,反映的是企业的净盈利能力。
㈡logistic 回归分析建立logistic 回归模型表述如下:11ii z p e -=+其中:01mi j iji j z Fββε==++∑其中ij F 为企业信用风险评定的影响变量, j β (j=0,1,2…m)为需要判定的系数。
P 的函数对象呈s 型分布,且为递增函数,p ∈(0,1),因为1l i m l i m 11z z z p e -→∞→∞==+ 1lim lim 01zz z p e -→-∞→-∞==+。
对于各公司i,(i=1,2,…n)若p ≈0,表明信用状况较差,若p ≈1,表明信用状况较好,称p 为守信率。
令 (1)()(1)i i y y i i i i p y p p -=-其中 1,0,i i y i ⎧=⎨⎩若公司的信用状况较好若公司的信用状况较差我们采取极大似然函数法求参数,n 个企业独立的,则样本的联合密度似然函数为:(1)11(1)i i nny y i i i i i L p p p -====-∏∏两边取对数:(1)1ln ln (1)i i ny y i i i L p p -==-∏1[lnln(1)]1nii i i ip y p p ==+--∑ 1[ln(1)]inz i i i y z e ==-+∑ 其中 01mi j ij i j z F ββε==++∑其中ij F 为企业信用风险评定的影响变量,即上述的四个主成分。
使上述函数达到最大,求出系数j β (j=0,1,2…m),求偏导数且等于0:101[)]01ini z i L y e β-=∂=-=∂+∑ 11[)]*01in i ij z i j L y F eβ-=∂=-=∂+∑ (j=1,2,3,4) 联立上述方程求出各个估计的参数值。
采用SPSS11.5分析软件中 Analyze →Regression →Binary Logistic …进行回归模型分析。
回归方法为向前逐步选择引入法,即通过最大似然估计所得的似然比的概率作为引入变量的标准,采取迭代法逐步计算,直到对数似然比不再变化为止。
逐步引入的变量及迭代过程以及参数估计值如下表(表2)所示。
表2 Iteration History Iteration -2 LoglikelihoodCoefficients ConstantF1 F2F4Step 1 1 100.074 .000 1.111 2 81.354 .043 2.494 3 75.701 .073 3.725 4 74.923 .091 4.390 5 74.902 .096 4.522 6 74.902 .096 4.526 7 74.902 .096 4.526 Step 2 1 80.290 .000 1.111 .861 2 59.407 .082 2.508 1.253 3 51.050 .097 4.013 1.643 4 49.144 .070 5.127 1.937 5 48.987 .050 5.563 2.051 6 48.985 .047 5.612 2.063 7 48.985 .047 5.613 2.064 Step 3 1 76.722 .000 1.111 .861 .324 2 55.195 .143 2.394 1.371 .659 3 46.050 .212 3.800 1.815 1.301 4 43.109 .282 4.687 2.158 3.030 5 42.703 .331 5.154 2.367 3.964 6 42.691 .343 5.258 2.415 4.148 7 42.691 .344 5.262 2.417 4.154 8 42.691.3445.2622.4174.154由上表可以看到,F1(企业偿债能力)对P 的影响最大,第一步就被引入模型,其次是F2和F4。