第十章_logit回归
- 格式:doc
- 大小:51.50 KB
- 文档页数:4
第十章 logitic 回归本章导读:Logitic 回归模型是离散选择模型之一,属于多重变数分析范畴,是社会学、生物统计学、临床、数量心理学、市场营销、会计与财务等实证分析的常用方法。
10.1 logit 模型和原理Logistic 回归分析是对因变量为定性变量的回归分析。
它是一种非线性模型。
其基本特点是:因变量必须是二分类变量,若令因变量为y ,则常用y=1表示“yes ”,y=0表示“no ”。
[在发放股利与不发放股利的研究中,分别表示发放和不发放股利的公司]。
自变量可以为虚拟变量也可以为连续变量。
从模型的角度出发,不妨把事件发生的情况定义为y=1,事件未发生的情况定义为0,这样取值为0、1的因变量可以写作:⎩⎨⎧===事情未发生事情发生01y 我们可以采用多种方法对取值为0、1的因变量进行分析。
通常以P 表示事件发生的概率(事件未发生的概率为1-P ),并把P 看作自变量x 的线性函数。
由于y 是0-1型Bernoulli 分布,因此有如下分布:P=P (y=1|x ):自变量为x 时y=1的概率,即发放现金股利公司的概率1-P=P (y=0|x ):自变量为x 时y=0的概率,即不发放现金股利公司的概率 事件发生和不发生的概率比成为发生比,即相对风险,表现为PP odds -=1.因为是以 对数形式出现的,故该发生比为对数发生比(log odds ),表现为)1ln(P P odds -=。
对数发生比也是事件发生概率P 的一个特定函数,通过logistic 转换,该函数可以写成logistic 回归的logit 模型:)1(log )(log PP P it e -= Logit 一方面表达出它是事件发生概率P 的转换单位;另一方面,它作为回归的因变量就可以自己与自变量之间的依存关系保持传统回归模式。
根据离散型随即变量期望值的定义,可得:E(y)=1(P)+0(1-P)=P进而得到x P y E 10)(ββ+==因此,从以上分析可以看出,当因变量的取值为0、1时,均值x y E 10)(ββ+=总是代表给定自变量时y=1的概率。
第十章 Logistic 回归分析第一节 Logistic 回归基本概念线性回归模型的一个局限性是要求因变量是定量变量(定距变量、定比变量)而不能是定性变量(定序变量、定类变量)。
但是在许多实际问题中,经常出现因变量是定性变量(分类变量)的情况。
可用于处理分类因变量的统计分析方法有:判别分别(Discriminant analysis)、Probit 分析、Logistic 回归分析和对数线性模型等。
在社会科学中,应用最多的是Logistic 回归分析。
Logistic 回归分析根据因变量取值类别不同,又可以分为Binary Logistic 回归分析和Multinomial Logistic 回归分析,Binary Logistic 回归模型中因变量只能取两个值1 和0(虚拟因变量),而Multinomial Logistic 回归模型中因变量可以取多个值。
本章将只讨论Binary Logistic 回归,并简称Logistic 回归。
因变量只取两个值,表示一种决策、一种结果的两种可能性。
从模型角度出发,不妨把事件发生的情况定义为Y=1,事件未发生的情况定义为Y=0,这样取值为0、1 的因变量可以写为下式:10y ⎧=⎨⎩ 事件发生 事件未发生我们可以采用多种方法对取值为0、1 的因变量进行分析。
通常以p 表示事件发生的概率(事件未发生的概率为1-p ),并把p 看作自变量X i 的线性函数,即p = P ( y = 1) = F (i i X β) i = 1,2,… , k不同形式的F(·),就有不同形式的模型,最简单的莫过于使F(·)为一线性函数,即01122k k =+++++p X X X ββββε (10-113)我们可能会认为可用普通最小二乘法对上式进行估计,但因p 的值一定在区间[0,1]内,而且当p 接近于0或1时,自变量即使有很大变化p 的值也不可能变化很大,所以对上式直接用普通最小二乘法进行估计是行不通的。
2011.6.23.通知:考试时间改为,2011.6.29.下午2:30,A405教室参考资料1、陈峰等,医用多元统计分析方法,中国统计出版社,2000年12月第1版2、张尧庭,定性数据的统计分析,广西师范大学出版社,1991年11月第1版3、阮敬,SAS年4月第1版,39.00元一、变量的分类变量的分类⎧⎧⎪⎨⎩⎪⎪⎧⎨⎪⎪⎧⎨⎪⎨⎪⎪⎩⎩⎩连续/计量例如,身高定量离散/计数例如,人数有序例如,学历定性二分类例如,性别名义多分类例如,职业二、两分类变量的logistic 回归1、logit 变换考虑上市公司中企业类型(ST 与非ST )与财务指标的关系。
常常需要研究事件A 发生的概率p 大小与某些因素有关。
例如,讨论某特定人群(例如糖尿病患者)中患动脉硬化的概率与年龄的关系。
显然人群中只有两种状态“动脉硬化”和“非动脉硬化”(简称为“患病”和“不患病”),人群的状态记为y ,则“患病”和“不患病”对应着y 的两个取值:1y =,0y =。
用事件表示即{}1y =—“患病”=“动脉硬化” , {}0y =—“不患病”=“非动脉硬化”若患病率记为p ,则{}1P y p ==显然{}{}0111P y P y p ==-==-讨论患病率p 与年龄x 的关系,显然,患病率随着年龄x 的增加而增长。
例,观察了123位糖尿病患者,记录了他们的年龄x 以及是否患动脉硬化y 。
数据格式见下表,详细数据见附录—2。
表1、 糖尿病原始数据 (注:此为简表,详见附录3数据)编号 动脉硬化分类 年龄 n y x 132... ... (123)1 78符号说明符号解释 注 n 编号y 是否动脉硬化1——动脉硬化0——动脉非硬化x 年龄根据这些数据如何分析是否患病y 与年龄x 的关系?能否建立y 关于x 的回归方程?不行。
因为y 的取值并无实际意义。
将数据分组,得到各组的患病率i p (见表2),能否建立p 关于x 的回归方程? (如何将表1的原始数据整理成表2的分组数据?详见附录1)。
2011・6・23通知:考试时间改为,2011・6・29下午2:30, A405教室参考资料1、陈峰等,医用多元统计分析方法,中国统计出版社,2000年12月第1版2、张尧庭,定性数据的统计分析,广西师范大学出版社,佃91年11月第1版年4月第1版,39.00元3、阮敬,SAS变量的分类'宀日’连续/计量例如,身高疋量<i离散/计数例如,人数■=有序例如,学历定性L v'二分类例如,性别名义彳、‘〔多分类例如,职业注:计量指标与计数指标一般好区别。
特殊情形下不好区别,如年龄】、两分类变量的logistic 回归1、logit 变换考虑上市公司中企业类型(ST 与非ST )与财务指标的关系。
常常需要研究事件A 发生的概率p 大小与某些因素有关。
例如,讨论某特定人群(例如糖尿病患者)中患动脉硬化的概率与年龄的关系。
显然 人群中只有两种状态“动脉硬化”和“非动脉硬化” (简称为“患病”和“不患病”),人群 的状态记为y ,则“患病”和“不患病”对应着 y 的两个取值:y =1,y = 0。
用事件表示 即{y =1}—“患病”=“动脉硬化” ,{y = 0}—“不患病”=“非动脉硬化”若患病率记为p ,则 显然pfy n_p{y =1丄1一 p讨论患病率p 与年龄X 的关系,显然,患病率随着年龄X 的增加而增长。
例,观察了 123位糖尿病患者,记录了他们的年龄 x 以及是否患动脉硬化y 。
数据格 式见下表,详细数据见附录一2。
表1、 糖尿病原始数据 (注:此为简表,详见附录3数据)编号动脉硬化分类 年龄n y x 132123178符号说明符号 解释 注编号是否动脉硬化年龄根据这些数据如何分析是否患病 y 与年龄X 的关系?能否建立y 关于x 的回归方程?不行。
因为y 的取值并无实际意义。
将数据分组,得到各组的患病率 p (见表2),能否建立p 关于x 的回归方程? (如何将表1的原始数据整理成表2的分组数据?详见附录1)。
logit回归解读
Logit回归是一种用于处理二元分类问题的统计模型。
它是逻辑回归模型的一种形式,逻辑回归模型用于预测一个事件发生的概率。
在logit回归中,我们使用logit函数来将线性回归模型的结果映射到0到1之间的概率值。
这个函数的形式是logit(p) = log(p/(1-p)),其中p是事件发生的概率。
通过logit函数,我们可以将线性回归模型的输出映射到一个概率,然后可以根据这个概率进行分类。
在解读logit回归的结果时,我们通常关注系数的大小和方向,系数的显著性检验以及模型的拟合优度。
系数的大小和方向可以告诉我们自变量对因变量的影响方向和强度,显著性检验可以告诉我们这种影响是否是显著的,而模型的拟合优度则可以告诉我们模型对数据的拟合程度如何。
总的来说,logit回归可以帮助我们理解自变量对于二元分类问题的影响程度,以及预测事件发生的概率。
Logit回归模型(Logit model)也译作“评定模型”,“分类评定模型”,又作Logistic regression,“逻辑回归”,是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。
逻辑分布(Logistic distribution)公式其中参数β常用极大似然估计。
具体解释如下:
逻辑分布:假设我们有一个线性回归模型,预测值是介于0和1之间的概率。
当这个线性回归模型的预测值被转换为分类标签时,它被称为逻辑回归模型。
逻辑回归模型的预测值通常通过将预测值与0.5阈值进行比较来转换为二进制分类标签。
参数β:在逻辑回归模型中,参数β被称为逻辑回归系数。
它表示线性回归模型中的斜率,用于解释输入特征对预测结果的影响。
极大似然估计:在统计推断中,极大似然估计是一种参数估计方法,它通过最大化样本数据的似然函数来估计参数的值。
在逻辑回归模型中,极大似然估计用于估计逻辑回归系数β的值。
总之,Logit回归模型是一种用于处理二元分类问题的统计模型,它通过逻辑函数将线性回归模型的预测值转换为介于0和1之间的概率,从而可以用于预测二元分类标签。
logit回归结果解读【实用版】目录1.Logit 回归简介2.Logit 回归结果的主要组成部分3.如何解读 Logit 回归结果4.实际案例应用正文1.Logit 回归简介Logit 回归是一种广义线性模型,主要用于解决二分类问题。
与线性回归不同,Logit 回归的输出变量是逻辑斯蒂函数,其取值范围在 0 到 1 之间。
当输出变量大于 0.5 时,我们预测样本属于类别 1;当输出变量小于 0.5 时,预测样本属于类别 0。
Logit 回归可以帮助我们理解两个类别之间的概率关系,为二分类问题提供有效的预测依据。
2.Logit 回归结果的主要组成部分Logit 回归的结果主要包括以下几个部分:(1)系数:系数表示自变量对因变量的影响程度。
正系数表示自变量与因变量正相关,负系数表示负相关。
系数的绝对值越大,相关性越强。
(2)标准误差:标准误差是对系数的一种不确定性度量。
标准误差越小,表示系数的估计越精确。
(3)z 值:z 值表示系数的标准化程度,即系数除以标准误差。
z 值越大,表示自变量对因变量的影响程度越大。
(4)P>|z|:P>|z|表示在零假设成立的情况下,观察到这样的系数的概率。
该值越小,拒绝零假设的证据越强。
3.如何解读 Logit 回归结果当我们得到 Logit 回归的结果后,可以通过以下几个步骤来解读:(1)观察系数:根据系数的正负,可以判断自变量与因变量之间的相关性。
正系数表示正相关,负系数表示负相关。
(2)分析标准误差:标准误差越小,表示对系数的估计越精确。
在实际应用中,可以关注标准误差较小的自变量,因为它们对因变量的影响可能更为显著。
(3)关注 z 值:z 值可以帮助我们判断自变量对因变量的影响程度。
z 值较大的自变量,对因变量的影响可能更为显著。
(4)判断 P>|z|:P>|z|越小,拒绝零假设的证据越强。
可以关注P>|z|较小的自变量,它们对因变量的影响可能具有统计学意义。
第十章 logitic 回归本章导读:Logitic 回归模型是离散选择模型之一,属于多重变数分析范畴,是社会学、生物统计学、临床、数量心理学、市场营销、会计与财务等实证分析的常用方法。
10.1 logit 模型和原理Logistic 回归分析是对因变量为定性变量的回归分析。
它是一种非线性模型。
其基本特点是:因变量必须是二分类变量,若令因变量为y ,则常用y=1表示“yes ”,y=0表示“no ”。
[在发放股利与不发放股利的研究中,分别表示发放和不发放股利的公司]。
自变量可以为虚拟变量也可以为连续变量。
从模型的角度出发,不妨把事件发生的情况定义为y=1,事件未发生的情况定义为0,这样取值为0、1的因变量可以写作:⎩⎨⎧===事情未发生事情发生01y 我们可以采用多种方法对取值为0、1的因变量进行分析。
通常以P 表示事件发生的概率(事件未发生的概率为1-P ),并把P 看作自变量x 的线性函数。
由于y 是0-1型Bernoulli 分布,因此有如下分布:P=P (y=1|x ):自变量为x 时y=1的概率,即发放现金股利公司的概率1-P=P (y=0|x ):自变量为x 时y=0的概率,即不发放现金股利公司的概率 事件发生和不发生的概率比成为发生比,即相对风险,表现为PP odds -=1.因为是以 对数形式出现的,故该发生比为对数发生比(log odds ),表现为)1ln(P P odds -=。
对数发生比也是事件发生概率P 的一个特定函数,通过logistic 转换,该函数可以写成logistic 回归的logit 模型:)1(log )(log PP P it e -= Logit 一方面表达出它是事件发生概率P 的转换单位;另一方面,它作为回归的因变量就可以自己与自变量之间的依存关系保持传统回归模式。
根据离散型随即变量期望值的定义,可得:E(y)=1(P)+0(1-P)=P进而得到x P y E 10)(ββ+==因此,从以上分析可以看出,当因变量的取值为0、1时,均值x y E 10)(ββ+=总是代表给定自变量时y=1的概率。
虽然这是从简单线性回归分析而得,但也适合复杂的多元回归函数情况。
k k x x x itP y E ββββ++++==Λ22110log )(β0为常数项,β1,β2,…,βk 分别为k 个自变量的回归系数。
因此,logistic 模型为:kk k k x x x x x x P P e e e e P f ββββββββ+++++++++=+=ΛΛ221102211011)(10.2 模型的stata 程序Stata 有两个命令可进行二元logistic 回归分析:logit 和logistic 。
其分析的结果的实质是一样的。
但输出的结果的表现形式有所不同。
前者提供参数估计,后者提供发生比。
Logit 命令:Logit 因变量 变量1 变量2… 变量m/*二元非线性回归的基本命令,输出回归系数*/Logistic 命令:logistic 因变量 变量1 变量2… 变量m/*二元非线性回归的基本命令,输出发生比*/lfit/* lfit 是模型适定性诊断命令*/clogit 因变量 变量1 变量2… 变量m ,strata(配对编号变量) [or]/* clogit 是条件logistic 回归命令*/10.3 关于股利政策的logit 模型及解释use E:\stata\logit.dta/*打开stata 数据集*/(1)logit 命令. logit cashdum roa td size lagcashdum growth cg12 firstIteration 0: log likelihood = -753.6759Iteration 1: log likelihood = -464.64549Iteration 2: log likelihood = -413.47149Iteration 3: log likelihood = -384.32824Iteration 4: log likelihood = -376.73079Iteration 5: log likelihood = -376.20593Iteration 6: log likelihood = -376.20303Logistic regression Number of obs = 1116 LR chi2(7) = 754.95 Prob > chi2 = 0.0000 Log likelihood = -376.20303 Pseudo R2 = 0.5008------------------------------------------------------------------------------cashdum | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+----------------------------------------------------------------roa | 36.27163 3.999394 9.07 0.000 28.43296 44.11029 td | -.3322466 .4976051 -0.67 0.504 -1.307535 .6430414 size | .1079257 .0839493 1.29 0.199 -.0566119 .2724633 lagcashdum | 2.815261 .2006755 14.03 0.000 2.421944 3.208578growth | .4252429 .2686294 1.58 0.113 -.1012611 .9517469 cg12 | .1585007 .0477705 3.32 0.001 .0648722 .2521292 first | 1.665727 .5831852 2.86 0.004 .5227054 2.80875 _cons | -6.445765 1.332788 -4.84 0.000 -9.057982 -3.833548这里,log likelihood 即对数似然值,乘以2即为-2LL ,是模型的估计方法。
在进行逐步回归时,通过比较不同模型的-2LL ,判断模型的拟合程度。
取值越小,模型的适应性越好;取值越大,模型的效果越差。
Number of obs 是我们所使用的样本量。
LR chi2(7)即为卡方检验统计量,也就是回归模型无效假设(即所有协变量的发生比均为1)所对应的似然比检验量,其中的(7)为自由度,Prob > chi2是模型无效假设检验对应的P 值。
这两个指标与线性回归的F 统计量和其P 值的功能大体一致。
0.0000数值表明,该模型是显著的。
另一个统计量Pseudo R2是伪决定系数R 2。
虽不完全等于R 2,但大致提供模型中自变量对因变量变异的解释能力。
Coef.是每个自变量对应的系数估计。
在logistic 回归分析中,该系数为对数;Std.Err 即系数对应的标准误;OLS 通过t 检验来判断自变量对因变量的影响是否显著,logistic 模型使用z 检验来达到该目的。
因此,z 是单个系数检验的统计量;P>|z|是系数检验的P 值;最后两列为系数95%的置信区间。
二元logit 回归分析中系数的解释与多元线性回归分析中回归系数的解释并无不同,βi 表示,x i 改变一个单位时,logitP 的平均变化量。
Logit 回归中的常数项(β0)表示,在不接触任何潜在危险(或保护因素)条件下,因变量发生与不发生的概率之比的对数值。
Logit 回归中的回归系数(βi )表示,某一自变量改变一单位时,因变量发生与不发生时间的概率之比的对数变化值,即发生比(Odds Ratio )的对数值。
由于系数为对数,故不能像线性回归那样将其直接解释为自变量对因变量的影响程度。
只有将其转换为风险比后,系数才更有明确的意义。
比如,分析结果显示,size (单位为千元)的回归系数为0.11。
但我们不能将系数解释为size 每增加一单位,发放股利的概率增加11%。
事实上,我们并不知道规模对股利发放概率的影响程度,虽然我们知道其影响性质和显著水平。
就变量lagcashdum 来说,上期发放股利的公司的概率高于上期不发放股利的公司,但我们并不知道二者之间的差别有多大。
当自变量为连续性变量时(如size ),e (βi )表示xi 增加一个计量单位的对数比;当自变量为二分类变量时(如:lagcashdum ),发生/是=1,不发生/否=0,则logistic 回归中的系数即为是/否的对数值。
若上面的系数转化为风险比(Odds Ratio ),则可直接比较组间差异以及自变量对因变量的影响程度。
转化公式为:)1/()1/(0011p p p p OR --= (2)logistic 命令Stata 另外一个命令可以直接输出风险比:. logistic cashdum roa td size2 lagcashdum growth cg12 firstLogistic regression Number of obs = 1116LR chi2(7) = 754.95Prob > chi2 = 0.0000Log likelihood = -376.20303 Pseudo R2 = 0.5008------------------------------------------------------------------------------cashdum | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+----------------------------------------------------------------td | .7173104 .3569373 -0.67 0.504 .2704861 1.902258 size2 | 1.113965 .0935166 1.29 0.199 .9449608 1.313195 lagcashdum | 16.69753 3.350786 14.03 0.000 11.26774 24.74386 growth | 1.529962 .4109928 1.58 0.113 .903697 2.590231cg12 | 1.171753 .0559752 3.32 0.001 1.067023 1.286762first | 5.28952 3.08477 2.86 0.004 1.686584 16.58916roa | 5.66e+15 2.26e+16 9.07 0.000 2.23e+12 1.44e+19 ------------------------------------------------------------------------------Odds Ratio为自变量各自对应的风险比;Std.Err.即相应的风险比的标准差;z是单个风险比=1检验的z统计量;P>|z|是耽搁风险比=1检验的P值;最后两列为95%的置信区间。