条件logistic回归模型的SAS计算程序
- 格式:pdf
- 大小:68.99 KB
- 文档页数:2
利用SAS宏程序进行单因素Logistic回归分析在做单因素logistic回归时,如果有十几个自变量,每个自变量都运行一遍程序,然后把sas结果黏贴到word里再修改,最后合并生成一个汇总的数据,无疑是件很麻烦的事情,所以我编了一段程序,可以自动的汇总生成报表,省了很多事啊!欢迎大家共同交流宏程序如下:%macro log1(data,yy,xx,num); /*data=分析数据集,yy=应变量,xx=自变量,num=自变量个数%do i=1 %to #%let var_=%sysfunc(scan(&xx,&i,’ ‘));ods output ParameterEstimates=&var_.1 OddsRatios=&var_.2;proc logistic data=&data desc ;model &yy=&var_; run;data &var_.1(drop=i);set &var_.1;i=_n_;if i=1 then delete; run;data &var_ (drop=effect df);merge &var_.1 &var_.2;run;proc delete data=&var_.1 &var_.2;run;%end;data log1;set &xx;proc print noobs data=log1;proc delete data=log1 &xx;run;%mend;测试一下:%log1(factor,tw1,sex agegroup b4 b5 b6 b7 b10 b11 b12 b32a b32b b32c b32d,13);效果显示如下,(sas9.2自动生成html格式结果,stype选择journal)以上程序注意,logistic回归增加了desc选项,表示取2的概率。
[SAS] Logistic回归程序代码和输出结果基于贝叶斯判别的房地产信用评级研究本文首先采用Logistic回归法筛选出4个财务指标作为评价函数的计量参数,再构造Bayes判别算法建立信用评估模型,将其应用于某些房地产企业的实际数据分析,并评估其评判效果。
程序代码data LOGIT;input g x1-x10 @@ ; /* 输入数据和对应的变量名称,指定数据是按顺序对应变量(@@) */cards;1 76.02 112.16 52.65 16.24 4.17 88.54 -1.93 98.07 -58.63 -1.931 50.15 53.55 6.18 5.81 0.77 6.91 5.89 105.89 18.21 5.891 35.94 8.04 0.25 12.89 0.04 11.54 0.25 100.25 3.56 0.252 36.03 65.44 5.07 4.71 0.77 -4.21 2.42 102.42 47.27 2.422 76.95 86.32 -6.38 14.28 -0.51 101.50 -6.18 93.82 34.19 -6.182 36.36 37.91 6.01 10.78 0.87 -11.03 6.20 106.20 43.43 6.202 45.44 46.41 -1.09 14.04 -0.14 82.45 130.53 230.53 -82.56 130.532 48.80 43.19 6.97 11.15 0.94 20.58 8.62 108.62 7.67 8.622 21.09 45.85 6.10 13.79 0.00 32.70 6.86 106.86 -91.48 6.862 26.38 1.14 16.25 7.98 2.26 -31.83 15.26 115.26 63.42 15.262 32.61 26.18 8.51 22.08 1.45 10.71 8.89 108.89 6.14 8.892 25.16 57.63 20.94 23.88 3.44 -0.98 30.46 130.46 60.45 30.462 48.47 39.56 8.23 10.76 1.06 7.67 8.56 108.56 45.65 8.563 52.05 75.95 24.12 13.18 2.50 -7.47 24.90 124.90 18.17 24.903 86.92 14.00 4.55 10.96 0.38 -23.56 -79.83 20.17 36.01 -79.833 39.96 41.87 7.10 12.04 -0.12 8.20 3.24 103.24 5.98 3.241 65.00 29.00 1.50 2.00 0.16 54.55 -0.63 99.37 -58.34 -0.632 66.20 30.52 21.51 23.18 1.77 16.29 23.42 123.42 31.15 23.42…………;proc logistic data=LOGIT des; /* 选择Logistic回归模型对这个数据进行分析,对因变量设置des概率 */model g=x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 /selection=stepwise slentry=0.15 slstay=0.15; /* 指定因变量和自变量,逐步选择变量,设置stepwise显著性水平0.15*/run;输出结果SAS 系统 2012年05月26日星期六下午12时31分22秒 1The LOGISTIC ProcedureModel InformationData Set W ORK.LOGITResponse Variable gNumber of Response Levels 3Model cumulative logitOptimization Technique Fisher's scoringNumber of Observations Read 48Number of Observations Used 48Response ProfileOrdered TotalValue g Frequency1 3 132 2 313 1 4Probabilities modeled are cumulated over the lower Ordered Values.Stepwise Selection ProcedureStep 0. Intercepts entered:Model Convergence StatusConvergence criterion (GCONV=1E-8) satisfied.-2 Log L = 80.949。
LOGISTIC 回归二、Logit 回归模型除这三个特殊点之外,还应有一个自然的要求,就是i Y ˆ的极限存在,至少iY ˆ随X 的增加而变化的速率应该越来越慢,而不能象线性模型那样直来直去成比例增长。
以住房——收入模型而言,XY 1048.09873.0+-=当收入为10时,有住房的可能性是0.0607;当收入提高到20时,有住房的可能性为1.1087,已超过100%;当收入为30时,则为2.1567,等等。
显然,这个模型需要改进。
图 A改进的目标可以用图A 表示。
如果有一个这样的模型函数,则它满足ˆ01iY ≤≤,同时变化速率在起始阶段比较慢,中期越来越快,到后期又越来越缓,比较符合实际。
怎样找到这样一个函数呢? 函数1o1()11xx xe f x e e-==++ 具有此性质 原来是i i i X X Y E P 10)|1(ββ+===如果改进为)(1011)|1(i X i i eX Y E P ββ+-+===则01i P ≤≤,并且i P 在X →±∞时变化越来越缓。
记01i i Z X ββ=+,则iZ i eP -+=11 111ii i Z Q P e =-=+ iii Z Z Z i i e e e P P =++=--111i i iiX Z P P 1011nββ+==-这就得到了我们需要的Logit 模型函数,原来是对它取了对数,故名Log it 。
这个函数不是i P 与i X 呈线性关系,而是iiP P -11n与i X 呈线性关系。
当X →±∞时, 10<<i P 。
i P 与i X 的关系曲线正是上图表示的S 形曲线。
将自变量扩充为多元,加上随机项,就得到一般的Logit 回归模型:i i iiX P P εβ+'=-11n如果我们从这个模型中得到β的估计βˆ,就可以估计出第i 个样本有(或无)的可能性iP ˆ。
但是又产生一个新问题,我们如何得到βˆ呢? 如果从原来的二值选择数据出发,我们连回归模型都建立不起来。
SA S软件计算条件L og istic回归的方法比较娄冬华,于浩[摘要] 在病因学研究中,常用1:1配对的L ogistic回归来探讨危险因素的作用,SA S软件中作条件L ogistic回归的方法很多,本文介绍几种常用方法,对几种方法作出比较,发现使用SA S软件的宏程序可以很方便地解决此问题。
[关键词] 条件L ogistic回归;宏程序[中图分类号]O21214 [文献标识码]A [文章编号]100328507(2003)0620769202THE COM PAR ING OF S OM E M ETHOD S T O CALCULATE COND IT I ONAL LOGIST I C REGRESSI ON IN USING SAS S OFT W ARE1L OU D ong2hua,YU H ao1Ep id e m iology and B iostatistics D ep art m ent N anj ing M ed ical U nivari2 ate,N anj ing,2100291Abstract:In study of disease cau se,w e often u se1:1m atch ing to study the risk facto r1T here is m any m ethods to calcu late conditi onal logistic regressti on in SA S softw are,th is paper take som e m ethods and compare them1T he resu lt is that u sing m acro p rocedu re in SA S softw are can easily so lve th is questi on1Key words:Conditi onal logistic regressi on;M acro p rocedu re SA S软件(Statistical A nalysis System)是当前国际上最流行的、最具权威性的统计分析软件。
[SAS] Logistic回归程序代码和输出结果基于贝叶斯判别的房地产信用评级研究本文首先采用Logistic回归法筛选出4个财务指标作为评价函数的计量参数,再构造Bayes判别算法建立信用评估模型,将其应用于某些房地产企业的实际数据分析,并评估其评判效果。
程序代码data LOGIT;input g x1-x10 @@ ; /* 输入数据和对应的变量名称,指定数据是按顺序对应变量(@@) */cards;1 76.02 112.16 52.65 16.24 4.17 88.54 -1.93 98.07 -58.63 -1.931 50.15 53.55 6.18 5.81 0.77 6.91 5.89 105.89 18.21 5.891 35.94 8.04 0.25 12.89 0.04 11.54 0.25 100.25 3.56 0.252 36.03 65.44 5.07 4.71 0.77 -4.21 2.42 102.42 47.27 2.422 76.95 86.32 -6.38 14.28 -0.51 101.50 -6.18 93.82 34.19 -6.182 36.36 37.91 6.01 10.78 0.87 -11.03 6.20 106.20 43.43 6.202 45.44 46.41 -1.09 14.04 -0.14 82.45 130.53 230.53 -82.56 130.532 48.80 43.19 6.97 11.15 0.94 20.58 8.62 108.62 7.67 8.622 21.09 45.85 6.10 13.79 0.00 32.70 6.86 106.86 -91.48 6.862 26.38 1.14 16.25 7.98 2.26 -31.83 15.26 115.26 63.42 15.262 32.61 26.18 8.51 22.08 1.45 10.71 8.89 108.89 6.14 8.892 25.16 57.63 20.94 23.88 3.44 -0.98 30.46 130.46 60.45 30.462 48.47 39.56 8.23 10.76 1.06 7.67 8.56 108.56 45.65 8.563 52.05 75.95 24.12 13.18 2.50 -7.47 24.90 124.90 18.17 24.903 86.92 14.00 4.55 10.96 0.38 -23.56 -79.83 20.17 36.01 -79.833 39.96 41.87 7.10 12.04 -0.12 8.20 3.24 103.24 5.98 3.241 65.00 29.00 1.50 2.00 0.16 54.55 -0.63 99.37 -58.34 -0.632 66.20 30.52 21.51 23.18 1.77 16.29 23.42 123.42 31.15 23.42…… ……;proc logistic data=LOGIT des; /* 选择Logistic回归模型对这个数据进行分析,对因变量设置des概率 */model g=x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 /selection=stepwise slentry=0.15 slstay=0.15; /* 指定因变量和自变量,逐步选择变量,设置stepwise显著性水平0.15*/run;输出结果SAS 系统 2012年05月26日星期六下午12时31分22秒 1The LOGISTIC ProcedureModel InformationData Set WORK.LOGITResponse Variable gNumber of Response Levels 3Model cumulative logitOptimization Technique Fisher's scoringNumber of Observations Read 48Number of Observations Used 48Response ProfileOrdered TotalValue g Frequency1 3 132 2 313 1 4Probabilities modeled are cumulated over the lower Ordered Values.Stepwise Selection ProcedureStep 0. Intercepts entered:Model Convergence StatusConvergence criterion (GCONV=1E-8) satisfied.-2 Log L = 80.949Residual Chi-Square TestChi-Square DF Pr > ChiSq13.0922 8 0.1087NOTE: No (additional) effects met the 0.05 significance level for entry into the model.Analysis of Maximum Likelihood EstimatesStandard WaldParameter DF Estimate Error Chi-Square Pr > ChiSqIntercept 3 1 -0.9904 0.3248 9.2980 0.0023Intercept 2 1 2.3979 0.5222 21.0830 <.0001SAS 系统2012年05月26日星期六下午12时31分22秒 2The LOGISTIC ProcedureModel InformationData Set WORK.LOGITResponse Variable gNumber of Response Levels 3Model cumulative logitOptimization Technique Fisher's scoringNumber of Observations Read 48Number of Observations Used 48Response ProfileOrdered TotalValue g Frequency1 3 132 2 313 1 4Probabilities modeled are cumulated over the lower Ordered Values.Stepwise Selection ProcedureStep 0. Intercepts entered:Model Convergence StatusConvergence criterion (GCONV=1E-8) satisfied.-2 Log L = 80.949Residual Chi-Square TestChi-Square DF Pr > ChiSq13.0922 8 0.1087Step 1. Effect x4 entered:Model Convergence StatusConvergence criterion (GCONV=1E-8) satisfied.Score Test for the Proportional Odds AssumptionChi-Square DF Pr > ChiSq4.7698 1 0.0290SAS 系统2012年05月26日星期六下午12时31分22秒 3The LOGISTIC ProcedureModel Fit StatisticsInterceptIntercept andCriterion Only CovariatesAIC 84.949 83.246SC 88.691 88.859-2 Log L 80.949 77.246Testing Global Null Hypothesis: BETA=0Test Chi-Square DF Pr > ChiSqLikelihood Ratio 3.7032 1 0.0543Score 3.7112 1 0.0540Wald 3.2133 1 0.0730Residual Chi-Square TestChi-Square DF Pr > ChiSq10.0282 7 0.1870NOTE: No effects for the model in Step 1 are removed.Step 2. Effect x6 entered:Model Convergence StatusConvergence criterion (GCONV=1E-8) satisfied.Score Test for the Proportional Odds AssumptionChi-Square DF Pr > ChiSq5.0078 2 0.0818Model Fit StatisticsInterceptIntercept andCriterion Only CovariatesAIC 84.949 81.703SC 88.691 89.187-2 Log L 80.949 73.703Testing Global Null Hypothesis: BETA=0Test Chi-Square DF Pr > ChiSqLikelihood Ratio 7.2465 2 0.0267Score 6.9374 2 0.0312Wald 6.1144 2 0.0470SAS 系统2012年05月26日星期六下午12时31分22秒 4The LOGISTIC ProcedureResidual Chi-Square TestChi-Square DF Pr > ChiSq7.4184 6 0.2839NOTE: No effects for the model in Step 2 are removed.Step 3. Effect x5 entered:Model Convergence StatusConvergence criterion (GCONV=1E-8) satisfied.Score Test for the Proportional Odds AssumptionChi-Square DF Pr > ChiSq6.0306 3 0.1101Model Fit StatisticsInterceptIntercept andCriterion Only CovariatesAIC 84.949 80.027SC 88.691 89.383-2 Log L 80.949 70.027Testing Global Null Hypothesis: BETA=0Test Chi-Square DF Pr > ChiSqLikelihood Ratio 10.9224 3 0.0122Score 9.5728 3 0.0226Wald 8.8338 3 0.0316Residual Chi-Square TestChi-Square DF Pr > ChiSq3.7605 5 0.5844Step 4. Effect x4 is removed:Model Convergence StatusConvergence criterion (GCONV=1E-8) satisfied.Score Test for the Proportional Odds AssumptionChi-Square DF Pr > ChiSq1.4638 2 0.4810SAS 系统2012年05月26日星期六下午12时31分22秒 5The LOGISTIC ProcedureModel Fit StatisticsInterceptIntercept andCriterion Only CovariatesAIC 84.949 78.987SC 88.691 86.471-2 Log L 80.949 70.987Testing Global Null Hypothesis: BETA=0Test Chi-Square DF Pr > ChiSqLikelihood Ratio 9.9625 2 0.0069Score 8.5919 2 0.0136Wald 8.0936 2 0.0175Residual Chi-Square TestChi-Square DF Pr > ChiSq4.6568 6 0.5885NOTE: No effects for the model in Step 4 are removed.NOTE: No (additional) effects met the 0.15 significance level for entry into the model.Summary of Stepwise SelectionEffect Number Score WaldStep Entered Removed DF In Chi-Square Chi-Square Pr > ChiSq1 x4 1 1 3.7112 0.05402 x6 1 2 3.3464 0.06743 x5 1 3 3.6124 0.05734 x4 1 2 0.9037 0.3418Analysis of Maximum Likelihood EstimatesStandard WaldParameter DF Estimate Error Chi-Square Pr > ChiSqIntercept 3 1 -0.2253 0.4165 0.2927 0.5885Intercept 2 1 3.7752 0.8090 21.7733 <.0001x5 1 -0.7061 0.2951 5.7259 0.0167x6 1 -0.0203 0.00878 5.3502 0.0207Odds Ratio EstimatesPoint 95% WaldEffect Estimate Confidence Limitsx5 0.494 0.277 0.880x6 0.980 0.963 0.997SAS 系统2012年05月26日星期六下午12时31分22秒 6The LOGISTIC ProcedureAssociation of Predicted Probabilities and Observed ResponsesPercent Concordant 72.7 Somers' D 0.459Percent Discordant 26.8 Gamma 0.462Percent Tied 0.5 Tau-a 0.236Pairs 579 c 0.730。
条件logistic 回归模型的SAS 计算程序
第四军医大学卫生统计学教研室 宇传华 徐勇勇
病例-对照研究资料的条件logistic 回归模
型计算比较复杂,常需借助统计软件进行计算,国际通用软件S AS (6.04版本)有LOGISTIC 和PHREG 两个过程步能较好拟合各种条件lo gistic 回归模型。
文献〔1〕利用SAS 软件的这两个过程步分别拟合了1 1和m n 配对的条件lo gistic 回归模型。
本文拟定在此基础上进一步探讨这两个过程之间的联系,对配对四格表资料和1 m 配对资料给出条件logistic 回归模型的SAS 计算程序。
一、LO GIS TIC 和PHREG 两个过程步之间的联系
病例-对照研究资料为1 1配对时,这两个过程步均可选用。
文献〔1〕的第208页用LO-GIS TIC 过程步对10例胃癌的1 1配对资料作了拟合,给出了拟合程序和结果〔1〕。
如果对此资料用PHREG 过程步作拟合,则程序为:D A TA a ;
IN PUT pdh y x 1-x 3@@
yy =1-y ;CA RDS ;
数据集;
PROC P HR EG ;MOD EL yy #y (0)=x 1-x 3/SELECTION =S TEPW I SE SLE =0.5SL S =0.3;S TR A TA pdh ; RUN ;
此程序产生1个哑变量yy ,取0(病例)和1(对
照)两个值,用y 指示病例(用1表示)和对照(用0表示),x 1、x 2和x 3表示3个危险因素,pdh 表示配对序号。
程序须用配对序号进行分层,语句为“S TRA TA pdh ;”。
运行该程序获得的结果与文献〔1〕利用LOGISTIC 过程步获得的结果不同之处在于:该程序按RR=ex p(β)多计算了危险比(Risk Ratio ),而LOGISTIC 过程步多计算了标准化参数估计值(Standardized Esti -mate ),其他结果完全一致。
这里要说明的是MODEL 语句后的“SE -LECT ION =ST EPW ISE SLE =0.5SLS =0.3”是选择项,如果需要所有自变量均包括在模型内可不写入此选项。
如果选了此选项,则应根据专业知识和实际需要改变SLE (选变量进入方程的显著水准)和SLS (从方程中剔除变量的显著水准)等号后的值。
PHREG 过程步编写的程序与LO GIS TIC 过程步编写的程序比较有以下特点: 1.不仅可用于1 1配对资料,对程序稍加修改还可用于1 m 配对和m n 配对资料的分析。
2.不需要按病例和对照分别产生两组变量,以这两组相应变量之差作为自变量放入模型;而只需设立一个指示变量(y )指示是病例还是对照,直接将自变量放入模型。
当自变量比较多时这一特点更为重要。
3.条件lo gistic 回归通常需要计算相对危险比及其(1-T )%可信区间,在PHREG 过程步M ODEL 语句的选择项写入“ALPHA =αRISKLIM ITS ”可实现这一计算,如需计算99%危险比的可信区间,可在选择项写入“AL-PHA=0.01RISKLIM IT S ”。
ALPHA=0.05为
·
50· 中国卫生统计1997
年第14卷第5期
隐含值,如需计算95%危险比的可信区间,可不写“ALPHA=0.05”,只在选择项写“RISKLIM ITS”。
二、配对四格表资料的分析
文献〔2〕介绍了计算并检验配对四格表资料的logistic回归系数的方法〔2〕,如果运用SAS 软件实现这一计算与检验可用下列程序:
D A TA b;y=0;
IN PU T x freq@@;
CA RDS;
03114-15062
;
P ROC LOGI S TIC;
MODEL y=x/NO IN T;
W E IG H T f req;RUN;
因为是11配对,所以反应变量y=0。
x表示病例与对照的危险因素暴露情况,如果病例与对照均暴露或均不暴露,则x=0;如果病例暴露而对照不暴露,则x=1;如果病例不暴露而对照暴露则x=-1。
freq表示每个x情况下发生的频数。
因为是频数资料,所以应使用“W EIGHT freq;”语句对x作加权。
程序中的数据来自文献〔2〕中第386页儿童白血病与孕期X线照射关系的配对调查资料。
程序运行结果与文献结果一致。
实际上x=0时的频数并不参加logistic回归系数的计算,如果只需计算并检验回归系数,可将数据集中前面的0与3、后面的0与62删除,此时的计算结果除标准化参数估计值、x的均数与标准差外,其他均相同。
三、1m配对病例-对照研究资料的分析
11配对资料是1m配对资料的一种特例。
当病例较少时,为了增加信息,提高统计效率,可采用1m配对病例-对照研究。
m可以是固定的,也可以是不固定的。
为了说明1m配对病例-对照研究资料的SAS计算程序,这里利用文献〔3〕第234页资料拟合12条件logistic回归模型〔3〕。
可对程序1稍作修改来分析此资料。
因为该资料只有x1(肥胖)和x2(雌激素)两个危险因素,所以应将程序1中的“x1-x3”改为“x1x2”。
将MODEL语句后面的选择项不要或将STEPW ISE改为NONE,即可建立包含x1和x2的条件logistic回归模型。
如果要作单因素分析,则只需将x1或x2放入模型中。
例如对x1作单因素分析,则MO DEL语句可写为:
M ODEL yy*y(0)=x1;
这样修改的程序运行后得到的结果与文献〔3〕给出的结果一致。
参 考 文 献
1.胡良平,主编.现代统计学与S AS应用.北京:军事医学科学
出版社,1996;207~214
2.金丕焕,主编.医用统计方法.上海:上海医科大学出版社,
1993:384~386
3.余松林,编著.医学现场研究中的统计分析方法(修订本).
武汉:同济医科大学,1985:229~231
·
51
·。