SAS logistic 逻辑回归
- 格式:pptx
- 大小:216.59 KB
- 文档页数:11
Logistic回归方法的正确应用及结果的正确解释金水高Logistic回归是研究当因变量为二分变量时,因变量与自变量关系的常用方法,自80年代初引入国内后,随着计算机技术的发展,统计软件的日益成熟而得到了十分广泛的应用。
但是并不是所有的研究者对于Logistic回归的方法都能正确使用,对结果都能正确解释。
近年来的文献中经常出现对方法错用、误用及对结果的错误解释的现象。
下面仅就在使用Logistic方法时经常出现的错误进行探讨。
一、Logistic回归中分类变量的数量化方法在Logistic回归中,自变量可以有多种形式。
以连续变量形式表示的如年龄;以等级变量形式进入方程的如不同的污染等级。
而更多的却是以分类变量(定性变量)形式出现的,如性别、地区及职业等。
对于多水平分类变量(如职业)的各个水平的赋值方式,尽管在正规的教科书上有详细的介绍,但有些作者经常将多水平的分类变量按等级来进行赋值(1)。
下面摘引的是文献1的作者对其中一些分类变量取值的赋值(表1)。
表1 某个吸烟调查中一些自变量的意义及赋值变量名变量意义变量可能取值研究者对变量的赋值————————————————————————————————————D1如果想要烟,你认为非常容易; 1你能容易得到吗?有点容易; 2作者单位: 100050北京,中国疾病预防控制中心有点困难; 3非常困难。
4M2在过去的一个月里,没有看到过; 1你是否在电视里看到看到过,是关于反对吸烟的; 2过有关吸烟的任何内容?看到过,是关于赞成吸烟的;3看到过,反对与赞成的都有。
4J4你的祖母是否吸烟?不吸;1不知道;2吸烟。
3作者将第一个变量不同水平赋为具有等级关系的4个值,虽然比较勉强,还可以接受,因为变量的4个取值确实存在程度的差异(但为什么相邻之间都相差1,这就没有太多的道理了)。
而对后面的两个变量(M2及J4)的不同水平也赋予具有等级关系的值,而且相邻之间都相差1,那就没有任何道理了。
SAS统计分析软件和Logistic回归1.概况:SAS系统全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。
SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。
SAS现在的版本为9.0版,大小约为1G。
经过多年的发展,SAS已被全世界120多个国家和地区的近三万家机构所采用,直接用户则超过三百万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。
在英美等国,能熟练使用SAS进行统计分析是许多公司和科研机构选材的条件之一。
在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在96~97年度被评选为建立数据库的首选产品。
堪称统计软件界的巨无霸。
在此仅举一例如下:在以苛刻严格著称于世的美国FDA新药审批程序中,新药试验结果的统计分析规定只能用SAS进行,其他软件的计算结果一律无效!哪怕只是简单的均数和标准差也不行!由此可见SAS的权威地位。
SAS系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是BASE SAS模块。
BASE SAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。
也就是说,SAS系统的运行,首先必须启动BASE SAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。
它除可单独存在外,也可与其他产品或模块共同构成一个完整的系统。
各模块的安装及更新都可通过其安装程序非常方便地进行。
SAS系统具有灵活的功能扩展接口和强大的功能模块,在BASE SAS的基础上,还可以增加如下不同的模块而增加不同的功能:SAS/STAT(统计分析模块)、SAS/GRAPH (绘图模块)、SAS/QC(质量控制模块)、SAS/ETS(经济计量学和时间序列分析模块)、SAS/OR(运筹学模块)、SAS/IML(交互式矩阵程序设计语言模块)、SAS/FSP(快速数据处理的交互式菜单系统模块)、SAS/AF(交互式全屏幕软件应用系统模块)等等。
[SAS] Logistic回归程序代码和输出结果基于贝叶斯判别的房地产信用评级研究本文首先采用Logistic回归法筛选出4个财务指标作为评价函数的计量参数,再构造Bayes判别算法建立信用评估模型,将其应用于某些房地产企业的实际数据分析,并评估其评判效果。
程序代码data LOGIT;input g x1-x10 @@ ; /* 输入数据和对应的变量名称,指定数据是按顺序对应变量(@@) */cards;1 76.02 112.16 52.65 16.24 4.17 88.54 -1.93 98.07 -58.63 -1.931 50.15 53.55 6.18 5.81 0.77 6.91 5.89 105.89 18.21 5.891 35.94 8.04 0.25 12.89 0.04 11.54 0.25 100.25 3.56 0.252 36.03 65.44 5.07 4.71 0.77 -4.21 2.42 102.42 47.27 2.422 76.95 86.32 -6.38 14.28 -0.51 101.50 -6.18 93.82 34.19 -6.182 36.36 37.91 6.01 10.78 0.87 -11.03 6.20 106.20 43.43 6.202 45.44 46.41 -1.09 14.04 -0.14 82.45 130.53 230.53 -82.56 130.532 48.80 43.19 6.97 11.15 0.94 20.58 8.62 108.62 7.67 8.622 21.09 45.85 6.10 13.79 0.00 32.70 6.86 106.86 -91.48 6.862 26.38 1.14 16.25 7.98 2.26 -31.83 15.26 115.26 63.42 15.262 32.61 26.18 8.51 22.08 1.45 10.71 8.89 108.89 6.14 8.892 25.16 57.63 20.94 23.88 3.44 -0.98 30.46 130.46 60.45 30.462 48.47 39.56 8.23 10.76 1.06 7.67 8.56 108.56 45.65 8.563 52.05 75.95 24.12 13.18 2.50 -7.47 24.90 124.90 18.17 24.903 86.92 14.00 4.55 10.96 0.38 -23.56 -79.83 20.17 36.01 -79.833 39.96 41.87 7.10 12.04 -0.12 8.20 3.24 103.24 5.98 3.241 65.00 29.00 1.50 2.00 0.16 54.55 -0.63 99.37 -58.34 -0.632 66.20 30.52 21.51 23.18 1.77 16.29 23.42 123.42 31.15 23.42…………;proc logistic data=LOGIT des; /* 选择Logistic回归模型对这个数据进行分析,对因变量设置des概率 */model g=x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 /selection=stepwise slentry=0.15 slstay=0.15; /* 指定因变量和自变量,逐步选择变量,设置stepwise显著性水平0.15*/run;输出结果SAS 系统 2012年05月26日星期六下午12时31分22秒 1The LOGISTIC ProcedureModel InformationData Set W ORK.LOGITResponse Variable gNumber of Response Levels 3Model cumulative logitOptimization Technique Fisher's scoringNumber of Observations Read 48Number of Observations Used 48Response ProfileOrdered TotalValue g Frequency1 3 132 2 313 1 4Probabilities modeled are cumulated over the lower Ordered Values.Stepwise Selection ProcedureStep 0. Intercepts entered:Model Convergence StatusConvergence criterion (GCONV=1E-8) satisfied.-2 Log L = 80.949。
LOGISTIC 回归二、Logit 回归模型除这三个特殊点之外,还应有一个自然的要求,就是i Y ˆ的极限存在,至少iY ˆ随X 的增加而变化的速率应该越来越慢,而不能象线性模型那样直来直去成比例增长。
以住房——收入模型而言,XY 1048.09873.0+-=当收入为10时,有住房的可能性是0.0607;当收入提高到20时,有住房的可能性为1.1087,已超过100%;当收入为30时,则为2.1567,等等。
显然,这个模型需要改进。
图 A改进的目标可以用图A 表示。
如果有一个这样的模型函数,则它满足ˆ01iY ≤≤,同时变化速率在起始阶段比较慢,中期越来越快,到后期又越来越缓,比较符合实际。
怎样找到这样一个函数呢? 函数1o1()11xx xe f x e e-==++ 具有此性质 原来是i i i X X Y E P 10)|1(ββ+===如果改进为)(1011)|1(i X i i eX Y E P ββ+-+===则01i P ≤≤,并且i P 在X →±∞时变化越来越缓。
记01i i Z X ββ=+,则iZ i eP -+=11 111ii i Z Q P e =-=+ iii Z Z Z i i e e e P P =++=--111i i iiX Z P P 1011nββ+==-这就得到了我们需要的Logit 模型函数,原来是对它取了对数,故名Log it 。
这个函数不是i P 与i X 呈线性关系,而是iiP P -11n与i X 呈线性关系。
当X →±∞时, 10<<i P 。
i P 与i X 的关系曲线正是上图表示的S 形曲线。
将自变量扩充为多元,加上随机项,就得到一般的Logit 回归模型:i i iiX P P εβ+'=-11n如果我们从这个模型中得到β的估计βˆ,就可以估计出第i 个样本有(或无)的可能性iP ˆ。
但是又产生一个新问题,我们如何得到βˆ呢? 如果从原来的二值选择数据出发,我们连回归模型都建立不起来。
SA S软件计算条件L og istic回归的方法比较娄冬华,于浩[摘要] 在病因学研究中,常用1:1配对的L ogistic回归来探讨危险因素的作用,SA S软件中作条件L ogistic回归的方法很多,本文介绍几种常用方法,对几种方法作出比较,发现使用SA S软件的宏程序可以很方便地解决此问题。
[关键词] 条件L ogistic回归;宏程序[中图分类号]O21214 [文献标识码]A [文章编号]100328507(2003)0620769202THE COM PAR ING OF S OM E M ETHOD S T O CALCULATE COND IT I ONAL LOGIST I C REGRESSI ON IN USING SAS S OFT W ARE1L OU D ong2hua,YU H ao1Ep id e m iology and B iostatistics D ep art m ent N anj ing M ed ical U nivari2 ate,N anj ing,2100291Abstract:In study of disease cau se,w e often u se1:1m atch ing to study the risk facto r1T here is m any m ethods to calcu late conditi onal logistic regressti on in SA S softw are,th is paper take som e m ethods and compare them1T he resu lt is that u sing m acro p rocedu re in SA S softw are can easily so lve th is questi on1Key words:Conditi onal logistic regressi on;M acro p rocedu re SA S软件(Statistical A nalysis System)是当前国际上最流行的、最具权威性的统计分析软件。