第十章_logit回归
- 格式:doc
- 大小:51.50 KB
- 文档页数:4
2011・6・23通知:考试时间改为,2011・6・29下午2:30, A405教室参考资料1、陈峰等,医用多元统计分析方法,中国统计出版社,2000年12月第1版2、张尧庭,定性数据的统计分析,广西师范大学出版社,佃91年11月第1版年4月第1版,39.00元3、阮敬,SAS变量的分类'宀日’连续/计量例如,身高疋量<i离散/计数例如,人数■=有序例如,学历定性L v'二分类例如,性别名义彳、‘〔多分类例如,职业注:计量指标与计数指标一般好区别。
特殊情形下不好区别,如年龄】、两分类变量的logistic 回归1、logit 变换考虑上市公司中企业类型(ST 与非ST )与财务指标的关系。
常常需要研究事件A 发生的概率p 大小与某些因素有关。
例如,讨论某特定人群(例如糖尿病患者)中患动脉硬化的概率与年龄的关系。
显然 人群中只有两种状态“动脉硬化”和“非动脉硬化” (简称为“患病”和“不患病”),人群 的状态记为y ,则“患病”和“不患病”对应着 y 的两个取值:y =1,y = 0。
用事件表示 即{y =1}—“患病”=“动脉硬化” ,{y = 0}—“不患病”=“非动脉硬化”若患病率记为p ,则 显然pfy n_p{y =1丄1一 p讨论患病率p 与年龄X 的关系,显然,患病率随着年龄X 的增加而增长。
例,观察了 123位糖尿病患者,记录了他们的年龄 x 以及是否患动脉硬化y 。
数据格 式见下表,详细数据见附录一2。
表1、 糖尿病原始数据 (注:此为简表,详见附录3数据)编号动脉硬化分类 年龄n y x 132123178符号说明符号 解释 注编号是否动脉硬化年龄根据这些数据如何分析是否患病 y 与年龄X 的关系?能否建立y 关于x 的回归方程?不行。
因为y 的取值并无实际意义。
将数据分组,得到各组的患病率 p (见表2),能否建立p 关于x 的回归方程? (如何将表1的原始数据整理成表2的分组数据?详见附录1)。
第十章 logitic 回归本章导读:Logitic 回归模型是离散选择模型之一,属于多重变数分析范畴,是社会学、生物统计学、临床、数量心理学、市场营销、会计与财务等实证分析的常用方法。
10.1 logit 模型和原理Logistic 回归分析是对因变量为定性变量的回归分析。
它是一种非线性模型。
其基本特点是:因变量必须是二分类变量,若令因变量为y ,则常用y=1表示“yes ”,y=0表示“no ”。
[在发放股利与不发放股利的研究中,分别表示发放和不发放股利的公司]。
自变量可以为虚拟变量也可以为连续变量。
从模型的角度出发,不妨把事件发生的情况定义为y=1,事件未发生的情况定义为0,这样取值为0、1的因变量可以写作:⎩⎨⎧===事情未发生事情发生01y 我们可以采用多种方法对取值为0、1的因变量进行分析。
通常以P 表示事件发生的概率(事件未发生的概率为1-P ),并把P 看作自变量x 的线性函数。
由于y 是0-1型Bernoulli 分布,因此有如下分布:P=P (y=1|x ):自变量为x 时y=1的概率,即发放现金股利公司的概率1-P=P (y=0|x ):自变量为x 时y=0的概率,即不发放现金股利公司的概率 事件发生和不发生的概率比成为发生比,即相对风险,表现为PP odds -=1.因为是以 对数形式出现的,故该发生比为对数发生比(log odds ),表现为)1ln(P P odds -=。
对数发生比也是事件发生概率P 的一个特定函数,通过logistic 转换,该函数可以写成logistic 回归的logit 模型:)1(log )(log PP P it e -= Logit 一方面表达出它是事件发生概率P 的转换单位;另一方面,它作为回归的因变量就可以自己与自变量之间的依存关系保持传统回归模式。
根据离散型随即变量期望值的定义,可得:E(y)=1(P)+0(1-P)=P进而得到x P y E 10)(ββ+==因此,从以上分析可以看出,当因变量的取值为0、1时,均值x y E 10)(ββ+=总是代表给定自变量时y=1的概率。
虽然这是从简单线性回归分析而得,但也适合复杂的多元回归函数情况。
k k x x x itP y E ββββ++++== 22110log )(β0为常数项,β1,β2,…,βk 分别为k 个自变量的回归系数。
因此,logistic 模型为:kk k k x x x x x x P P e e e e P f ββββββββ+++++++++=+= 221102211011)(10.2 模型的stata 程序Stata 有两个命令可进行二元logistic 回归分析:logit 和logistic 。
其分析的结果的实质是一样的。
但输出的结果的表现形式有所不同。
前者提供参数估计,后者提供发生比。
Logit 命令:Logit 因变量 变量1 变量2… 变量m/*二元非线性回归的基本命令,输出回归系数*/Logistic 命令:logistic 因变量 变量1 变量2… 变量m/*二元非线性回归的基本命令,输出发生比*/lfit/* lfit 是模型适定性诊断命令*/clogit 因变量 变量1 变量2… 变量m ,strata(配对编号变量) [or]/* clogit 是条件logistic 回归命令*/10.3 关于股利政策的logit 模型及解释use E:\stata\logit.dta/*打开stata 数据集*/(1)logit 命令. logit cashdum roa td size lagcashdum growth cg12 firstIteration 0: log likelihood = -753.6759Iteration 1: log likelihood = -464.64549Iteration 2: log likelihood = -413.47149Iteration 3: log likelihood = -384.32824Iteration 4: log likelihood = -376.73079Iteration 5: log likelihood = -376.20593Iteration 6: log likelihood = -376.20303Logistic regression Number of obs = 1116 LR chi2(7) = 754.95 Prob > chi2 = 0.0000 Log likelihood = -376.20303 Pseudo R2 = 0.5008------------------------------------------------------------------------------cashdum | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+----------------------------------------------------------------roa | 36.27163 3.999394 9.07 0.000 28.43296 44.11029 td | -.3322466 .4976051 -0.67 0.504 -1.307535 .6430414 size | .1079257 .0839493 1.29 0.199 -.0566119 .2724633 lagcashdum | 2.815261 .2006755 14.03 0.000 2.421944 3.208578growth | .4252429 .2686294 1.58 0.113 -.1012611 .9517469 cg12 | .1585007 .0477705 3.32 0.001 .0648722 .2521292 first | 1.665727 .5831852 2.86 0.004 .5227054 2.80875 _cons | -6.445765 1.332788 -4.84 0.000 -9.057982 -3.833548这里,log likelihood 即对数似然值,乘以2即为-2LL ,是模型的估计方法。
在进行逐步回归时,通过比较不同模型的-2LL ,判断模型的拟合程度。
取值越小,模型的适应性越好;取值越大,模型的效果越差。
Number of obs 是我们所使用的样本量。
LR chi2(7)即为卡方检验统计量,也就是回归模型无效假设(即所有协变量的发生比均为1)所对应的似然比检验量,其中的(7)为自由度,Prob > chi2是模型无效假设检验对应的P 值。
这两个指标与线性回归的F 统计量和其P 值的功能大体一致。
0.0000数值表明,该模型是显著的。
另一个统计量Pseudo R2是伪决定系数R 2。
虽不完全等于R 2,但大致提供模型中自变量对因变量变异的解释能力。
Coef.是每个自变量对应的系数估计。
在logistic 回归分析中,该系数为对数;Std.Err 即系数对应的标准误;OLS 通过t 检验来判断自变量对因变量的影响是否显著,logistic 模型使用z 检验来达到该目的。
因此,z 是单个系数检验的统计量;P>|z|是系数检验的P 值;最后两列为系数95%的置信区间。
二元logit 回归分析中系数的解释与多元线性回归分析中回归系数的解释并无不同,βi 表示,x i 改变一个单位时,logitP 的平均变化量。
Logit 回归中的常数项(β0)表示,在不接触任何潜在危险(或保护因素)条件下,因变量发生与不发生的概率之比的对数值。
Logit 回归中的回归系数(βi )表示,某一自变量改变一单位时,因变量发生与不发生时间的概率之比的对数变化值,即发生比(Odds Ratio )的对数值。
由于系数为对数,故不能像线性回归那样将其直接解释为自变量对因变量的影响程度。
只有将其转换为风险比后,系数才更有明确的意义。
比如,分析结果显示,size (单位为千元)的回归系数为0.11。
但我们不能将系数解释为size 每增加一单位,发放股利的概率增加11%。
事实上,我们并不知道规模对股利发放概率的影响程度,虽然我们知道其影响性质和显著水平。
就变量lagcashdum 来说,上期发放股利的公司的概率高于上期不发放股利的公司,但我们并不知道二者之间的差别有多大。
当自变量为连续性变量时(如size ),e (βi )表示xi 增加一个计量单位的对数比;当自变量为二分类变量时(如:lagcashdum ),发生/是=1,不发生/否=0,则logistic 回归中的系数即为是/否的对数值。
若上面的系数转化为风险比(Odds Ratio ),则可直接比较组间差异以及自变量对因变量的影响程度。
转化公式为:)1/()1/(0011p p p p OR --= (2)logistic 命令Stata 另外一个命令可以直接输出风险比:. logistic cashdum roa td size2 lagcashdum growth cg12 firstLogistic regression Number of obs = 1116LR chi2(7) = 754.95Prob > chi2 = 0.0000Log likelihood = -376.20303 Pseudo R2 = 0.5008------------------------------------------------------------------------------cashdum | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+----------------------------------------------------------------td | .7173104 .3569373 -0.67 0.504 .2704861 1.902258 size2 | 1.113965 .0935166 1.29 0.199 .9449608 1.313195 lagcashdum | 16.69753 3.350786 14.03 0.000 11.26774 24.74386 growth | 1.529962 .4109928 1.58 0.113 .903697 2.590231cg12 | 1.171753 .0559752 3.32 0.001 1.067023 1.286762first | 5.28952 3.08477 2.86 0.004 1.686584 16.58916roa | 5.66e+15 2.26e+16 9.07 0.000 2.23e+12 1.44e+19 ------------------------------------------------------------------------------Odds Ratio为自变量各自对应的风险比;Std.Err.即相应的风险比的标准差;z是单个风险比=1检验的z统计量;P>|z|是耽搁风险比=1检验的P值;最后两列为95%的置信区间。