SPSS操作方法:逻辑回归
- 格式:doc
- 大小:252.50 KB
- 文档页数:11
第八章回归分析回归分析是处理两个及两个以上变量间线性依存关系的统计方法。
在医学领域中,此类问题很普遍,如人头发中某种金属元素的含量与血液中该元素的含量有关系,人的体表面积与身高、体重有关系;等等。
回归分析就是用于说明这种依存变化的数学关系。
第一节Linear过程8.1.1 主要功能调用此过程可完成二元或多元的线性回归分析。
在多元线性回归分析中,用户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法,等)。
8.1.2 实例操作[例8.1]某医师测得10名3岁儿童的身高(cm)、体重(kg)和体表面积(cm2)资料如下。
试用多元回归方法确定以身高、体重为自变量,体表面积为应变量的回归方程。
8.1.2.1 数据准备激活数据管理窗口,定义变量名:体表面积为Y,保留3位小数;身高、体重分别为X1、X2,1位小数。
输入原始数据,结果如图8.1所示。
图8.1 原始数据的输入8.1.2.2 统计分析激活Statistics菜单选Regression中的Linear...项,弹出Linear Regression对话框(如图8.2示)。
从对话框左侧的变量列表中选y,点击 钮使之进入Dependent框,选x1、x2,点击 钮使之进入Indepentdent(s)框;在Method处下拉菜单,共有5个选项:Enter(全部入选法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)。
本例选用Enter法。
点击OK钮即完成分析。
图8.2 线性回归分析对话框用户还可点击Statistics...钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析;点击Plots...钮选择是否作变量分布图(本例要求对标准化Y预测值作变量分布图);点击Save...钮选择对回归分析的有关结果是否作保存(本例要求对根据所确定的回归方程求得的未校正Y预测值和标准化Y预测值作保存);点击Options...钮选择变量入选与剔除的α、β值和缺失值的处理方法。
线性回归是很重要的一种回归方法,但是线性回归只适用于因变量为连续型变量的情况,那如果因变量为分类变量呢比方说我们想预测某个病人会不会痊愈,顾客会不会购买产品,等等,这时候我们就要用到logistic回归分析了。
Logistic回归主要分为三类,一种是因变量为二分类得logistic回归,这种回归叫做二项logistic回归,一种是因变量为无序多分类得logistic回归,比如倾向于选择哪种产品,这种回归叫做多项logistic回归。
还有一种是因变量为有序多分类的logistic回归,比如病重的程度是高,中,低呀等等,这种回归也叫累积logistic回归,或者序次logistic回归。
二值logistic回归:选择分析——回归——二元logistic,打开主面板,因变量勾选你的二分类变量,这个没有什么疑问,然后看下边写着一个协变量。
有没有很奇怪什么叫做协变量在二元logistic回归里边可以认为协变量类似于自变量,或者就是自变量。
把你的自变量选到协变量的框框里边。
细心的朋友会发现,在指向协变量的那个箭头下边,还有一个小小的按钮,标着a*b,这个按钮的作用是用来选择交互项的。
我们知道,有时候两个变量合在一起会产生新的效应,比如年龄和结婚次数综合在一起,会对健康程度有一个新的影响,这时候,我们就认为两者有交互效应。
那么我们为了模型的准确,就把这个交互效应也选到模型里去。
我们在右边的那个框框里选择变量a,按住ctrl,在选择变量b,那么我们就同时选住这两个变量了,然后点那个a*b的按钮,这样,一个新的名字很长的变量就出现在协变量的框框里了,就是我们的交互作用的变量。
然后在下边有一个方法的下拉菜单。
默认的是进入,就是强迫所有选择的变量都进入到模型里边。
除去进入法以外,还有三种向前法,三种向后法。
一般默认进入就可以了,如果做出来的模型有变量的p值不合格,就用其他方法在做。
再下边的选择变量则是用来选择你的个案的。
学习二元Logistic回归有一段时间了,今天跟大家分享一下学习心得,希望多指教!二元Logistic,从字面上其实就可以理解大概是什么意思,Logistic中文意思为“逻辑”但是这里,并不是逻辑的意思,而是通过logit变换来命名的,二元一般指“两种可能性”就好比逻辑中的“是”或者“否”一样,Logistic 回归模型的假设检验——常用的检验方法有似然比检验(likelihood ratio test) 和 Wald检验)似然比检验的具体步骤如下:1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL02:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值InL13:最后比较两个对数似然函数值的差异,若两个模型分别包含l个自变量和P个自变量,记似然比统计量G的计算公式为G=2(InLP - InLl). 在零假设成立的条件下,当样本含量n较大时,G统计量近似服从自由度为 V = P-l 的 x平方分布,如果只是对一个回归系数(或一个自变量)进行检验,则 v=1.wald 检验,用u检验或者X平方检验,推断各参数βj是否为0,其中u= bj / Sbj, X的平方=(bj / Sbj), Sbj 为回归系数的标准误这里的“二元”主要针对“因变量”所以跟“曲线估计”里面的Logistic曲线模型不一样,二元logistic回归是指因变量为二分类变量是的回归分析,对于这种回归模型,目标概率的取值会在(0-1),但是回归方程的因变量取值却落在实数集当中,这个是不能够接受的,所以,可以先将目标概率做Logit变换,这样它的取值区间变成了整个实数集,再做回归分析就不会有问题了,采用这种处理方法的回归分析,就是Logistic回归设因变量为y, 其中“1” 代表事件发生, “0”代表事件未发生,影响y的 n个自变量分别为 x1, x2 ,x3 xn等等记事件发生的条件概率为 P那么P= 事件未发生的概理为 1-P事件发生跟”未发生的概率比 为( p / 1-p ) 事件发生比,记住Odds将Odds做对数转换,即可得到Logistic回归模型的线性模型:还是以教程“blankloan.sav"数据为例,研究银行客户贷款是否违约(拖欠)的问题,数据如下所示:上面的数据是大约700个申请贷款的客户,我们需要进行随机抽样,来进行二元Logistic回归分析,上图中的“0”表示没有拖欠贷款,“1”表示拖欠贷款,接下来,步骤如下:1:设置随机抽样的随机种子,如下图所示:选择“设置起点”选择“固定值”即可,本人感觉200万的容量已经足够了,就采用的默认值,点击确定,返回原界面、2:进行“转换”—计算变量“生成一个变量(validate),进入如下界面:在数字表达式中,输入公式:rv.bernoulli(0.7),这个表达式的意思为:返回概率为0.7的bernoulli分布随机值如果在0.7的概率下能够成功,那么就为1,失败的话,就为"0"为了保持数据分析的有效性,对于样本中“违约”变量取缺失值的部分,validate变量也取缺失值,所以,需要设置一个“选择条件”点击“如果”按钮,进入如下界面:如果“违约”变量中,确实存在缺失值,那么当使用"missing”函数的时候,它的返回值应该为“1”或者 为“true", 为了剔除”缺失值“所以,结果必须等于“0“ 也就是不存在缺失值的现象点击 ”继续“按钮,返回原界面,如下所示:将是“是否曾经违约”作为“因变量”拖入因变量选框,分别将其他8个变量拖入“协变量”选框内, 在方法中,选择:forward.LR方法将生成的新变量“validate" 拖入"选择变量“框内,并点击”规则“设置相应的规则内容,如下所示:设置validate 值为1,此处我们只将取值为1的记录纳入模型建立过程,其它值(例如:0)将用来做结论的验证或者预测分析,当然你可以反推,采用0作为取值记录点击继续,返回,再点击“分类”按钮,进入如下页面在所有的8个自变量中,只有“教育水平”这个变量能够作为“分类协变量” 因为其它变量都没有做分类,本例中,教育水平分为:初中,高中,大专,本科,研究生等等, 参考类别选择:“最后一个” 在对比中选择“指示符” 点击继续按钮,返回再点击—“保存”按钮,进入界面:在“预测值"中选择”概率, 在“影响”中选择“Cook距离” 在“残差”中选择“学生化”点击继续,返回,再点击“选项”按钮,进入如下界面:分析结果如下:1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替, 在“分类变量编码”中教育水平分为5类, 如果选中“为完成高中,高中,大专,大学等,其中的任何一个,那么就取值为 1,未选中的为0,如果四个都未被选中,那么就是”研究生“ 频率分别代表了处在某个教育水平的个数,总和应该为 489个1:在“分类表”中可以看出: 预测有360个是“否”(未违约) 有129个是“是”(违约)2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为-1.026, 标准误差为:0.103那么wald =( B/S.E)²=(-1.026/0.103)² = 99.2248, 跟表中的“100.029几乎接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小,B和Exp(B) 是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中自由度为1, sig为0.000,非常显著1:从“不在方程中的变量”可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型内表中分别给出了,得分,df , Sig三个值, 而其中得分(Score)计算公式如下:(公式中 (Xi- X¯) 少了一个平方)下面来举例说明这个计算过程:(“年龄”自变量的得分为例)从“分类表”中可以看出:有129人违约,违约记为“1” 则 违约总和为 129, 选定案例总和为489那么: y ¯ = 129/489 = 0.2638036809816x ¯ = 16951 / 489 = 34.664621676892所以:∑(Xi-x ¯)² = 30074.9979y¯(1-y¯)=0.2638036809816 *(1-0.2638036809816 )=0.19421129888216则:y¯(1-y¯)* ∑(Xi-x ¯)² =0.19421129888216 * 30074.9979 = 5 840.9044060372则:[∑Xi(yi - y¯)]^2 = 43570.8所以:=43570.8 / 5 840.9044060372 = 7.4595982010876 = 7.46 (四舍五入)计算过程采用的是在 EXCEL 里面计算出来的,截图如下所示:从“不在方程的变量中”可以看出,年龄的“得分”为7.46,刚好跟计算结果吻合!!答案得到验证~!!!!1:从“块1” 中可以看出:采用的是:向前步进 的方法, 在“模型系数的综合检验”表中可以看出: 所有的SIG 几乎都为“0” 而且随着模型的逐渐步进,卡方值越来越大,说明模型越来越显著,在第4步后,终止,根据设定的显著性值 和 自由度,可以算出 卡方临界值, 公式为:=CHIINV(显著性值,自由度) ,放入excel就可以得到结果2:在“模型汇总“中可以看出:Cox&SnellR方 和 Nagelkerke R方 拟合效果都不太理想,最终理想模型也才:0.305 和0.446,最大似然平方的对数值 都比较大,明显是显著的似然数对数计算公式为:计算过程太费时间了,我就不举例说明 计算过程了Cox&SnellR方的计算值 是根据:1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL0 (指只包含“常数项”的检验)2:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值InLB (包含自变量的检验)再根据公式: 即可算出:Cox&SnellR方的值!提示: 将Hosmer 和 Lemeshow 检验 和“随机性表” 结合一起来分析1:从 Hosmer 和 Lemeshow 检验表中,可以看出:经过4次迭代后,最终的卡方统计量为:11.919, 而临界值为:CHINV(0.05,8) = 15.507卡方统计量< 临界值,从SIG 角度来看: 0.155 > 0.05 , 说明模型能够很好的拟合整体,不存在显著的差异。
若何用spss进行二元和多元logistic回归剖析一.二元logistic回归剖析二元logistic回归剖析的前提为因变量是可以转化为0.1的二分变量,如:逝世亡或者生计,男性或者女性,有或无,Yes或No,是或否的情形.下面以医学中不合类型脑梗塞与年纪和性别之间的互相关系来进行二元logistic回归剖析.(一)数据预备和SPSS选项设置第一步,原始数据的转化:如图1-1所示,个中脑梗塞可以分为ICAS.ECAS和NCAS三种,但如今我们仅斟酌性别和年纪与ICAS 的关系,是以将分组数据ICAS.ECAS和NCAS转化为1.0分类,是ICAS赋值为1,否赋值为0.年纪为数值变量,可直接输入到spss 中,而性别须要转化为(1.0)分类变量输入到spss当中,假设男性为1,女性为0,但在后续剖析中体系会将1,0置换(下面还会介绍),是以为便利时代我们这里先将男女赋值置换,即男性为“0”,图 1-1女性为“1”.第二步:打开“二值Logistic 回归剖析”对话框:沿着主菜单的“剖析(Analyze)→回归(Regression)→二元logistic(Binary Logistic)”的路径(图1-2)打开二值Logistic 回归剖析选项框(图1-3).如图1-3左侧对话框中有很多变量,但在单身分方差剖析中与ICAS明显相干的为性别.年纪.有无高血压,有无糖尿病等(P<0.05),是以我们这里选择以性别和年纪为例进行剖析.图1-3图1-2图1-3在图1-3中,因为我们要剖析性别和年纪与ICAS的相干程度,是以将ICAS选入因变量(Dependent)中,而将性别和年纪选入协变量(Covariates)框中,在协变量下方的“办法(Method)”一栏中,共有七个选项.采取第一种办法,即体系默认的强制回归办法(进入“Enter”).接下来我们将对分类(Categorical),保管(Save),选项(Options)按照如图1-4.1-5.1-6中所示进行设置.在“分类”对话框中,因为性别为二分类变量,是以将其选入分类协变量中,参考类别为在剖析中是以最小数值“0(第一个)”作为参考,照样将最大数值“1(最后一个)”作为参考,这里我们选择第一个“0”作为参考.在“存放”选项框中是指将不将数据输出到编辑显示区中.在“选项”对话框中要勾选如图几项,个中“exp(B)的CI(X)”必定要勾选,这个就是输出的OR和CI值,后面的95%为体系默认,不须要更改.图1-4 分类图1-5 保管图1-6 选项别的在“选项”对话框中,“输出”一栏中,体系默以为“在每个步调中”,这里更改为“在最后一个步调中”,即:输出成果将仅仅给出最终成果,而省略每一步的盘算进程.因为我们采取强制回归,慢慢回归概率选项可以不管此外还有一个选项须要解释.一是分类临界值(Classification cutoff),默认值为,即按四舍五入的原则将概率猜测值化为0 或者1.假如将数值改为,则大于等于0.6 的概率值才暗示为1,不然为0.其情形余依此类推.二是最大迭代值(Maximum Iterations),划定体系运算的迭代次数,默认值为20 次,为安然起见,我们将迭代次数增长到50.原因是,有时迭代次数太少,盘算成果不克不及真正收敛.三是模子中包含常数项(Include constant in model),即模子中保存截距.除了迭代次数之外,其余两个选项均采取体系默认值.完成后,点击各项中“持续(Continue)”按钮.返回图1-3,单击“肯定”按钮.(二)成果解读其他成果参照文章《应用SPSS进行Logistic回归剖析》中解读,这里重点将两点:第一,分类变量编码(图1-7),因为这里包含性别分类变量,而我们对性别赋值为1和0,但在spss中体系会默认把我们的数值进行置换,即1→参数编码0,0→参数编码1,而最终输出成果是以1来盘算的,而0为参考数据.所以这也就是为什么我么之前要对研讨组男性的赋值进行置换了.假如男性为1那么spss中最终输出的将是女性的剖析成果.图1-7第二,最终输出数据(图1-8)在该成果中,Exp(B)即为文献中说起的OR值,而EXP(B)的95%C.I.即为文献中说起的CI值.个中Exp(B)暗示某身分(自变量)内该类别是其响应参考类别具有某种偏向性的倍数.而有的文献中提到的Crode OR和Adjust OR则分离为单身分优势率(Crode odds ratio)和多身分优势率(Adjust odds ratio),即仅对性别单个变量的单身分剖析或者对性别和年纪等多个变量进行多身分剖析后所得到的不合成果.CI 则为可托区间(Confidence interval).Sig.即我们常说的P值,P<0.05为明显(无效假说不成立,具有统计学意义),P>0.05为不明显(无效假说成立,不具有统计学意义).图1-8二.多项(多元.多分类.Multinomial)logistic回归剖析前面讲的二元logistic回归剖析仅合适因变量Y只有两种取值(二分类)的情形,当Y具有两种以上的取值时,就要用多项logistic回归(Mutinomial Logistic Regression)剖析了.这种剖析不但可以用于医疗范畴,也可以用于社会学.经济学.农业研讨等多个范畴.如不合阶段(初一.初二.初三)学生目力降低程度,不合龋齿情形(轻度.中度.重度)下与刷牙.饮食.年纪的关系等.下面我们以图1-2中,对apoba1(ApoB/AI)项中数值做四分位数后,将病人的ApoB/AI的比值划分为低.较低.中.高四个分位后应用多项logistic回归剖析其与ICAS之间的互相关系.起首来做四分位数,很多人在做四分位数的时刻都是本身算出来的,其其实SPSS里面给出了做四分位数的程度即剖析(Aanlyze)→描写统计(Descriptive Statistics)→频率(Frequencies).打如图2-1开频率对话框.将我们要剖析的数值图2-1变量Apoba1选入到变量对话框中.选择统计量,按照图2-2中勾选四分位数选项,其他选项按照本身须要勾选,然后点击图2-1中的肯定按钮,开端运算.在图2-3中可以读取我们的四分位数值.图中百分数暗示的是对该变量做的图2-2 图2-3四分位数的百分比,25暗示前25%的,50暗示前50%的,75暗示前75%的.每一项对应的后面数值即为响应的四分位数,如0.5904,即为前25%的个别与后75%个别的分位数.按照如上办法得出ApoB/AI的比率后≤ApoB/AI的比率≤≤ApoB/AI的比率≤1.0886时为中,当ApoB/AI的比率>1.0886时为高.然后将这一划分如图1-1中“四分位数”一项用分类数值暗示即1代表低,2代表较低,3代表中,4代表高.这里还要强调的是我们要研讨其与ICAS之间的互相关系,那么我们须要将其设为二分类变量,等于ICAS的情形为1,不然为0,但多项logistic回归剖析也会将1,0置换,所以我们须要在这里将我们须要研讨的情形置换为0,然后将其他置换为1.下面就可以进行多项logistic回归剖析了.如图2-4打开多项logistic回归剖析对话框(图2-5).如图2-5所示,在”因变量”中选入适才我们输入的四分位数分类变量,在因子中输入分类变量ICAS(这里必定是分类变量,可所以一个也可所以多个),在“协变量”中输入数值变量如年纪(这里必定是数值变量,可所以一个也可所以多个),但因本次没有对年纪进行剖析,仅对ICAS进行了单身分剖析,所以我们把年纪移出协变量选项.在SPSS中对因变量的界说是,假如因变量Y有J个值(即Y 有J类),以个中一个类别作为参考类别,其他类别都同他比拟较生成J-1个冗余的Logit变换模子,而作为参考类此外其模子中所有系数均为0.在SPSS中可以对所选因变量的参考类别进行设置,如图2-5在因变量对话框下有一“参考类别”选项.点击后会弹出图2-6对话框.在该对话框中我们选中设定,输入数值1,这代表我们以分类数值1所代表的类别作为参考类别,即最低数值作为参考类别.单击持续.当然也可以选择“第一类别”和“最后类别”,入选平分离暗示以最低数值或最高数值作为参考类别.其他设置与二元Logistic剖析类似,将我们要输出的项勾选即可,点击图2-5中肯定,输出数据.图2-4图2-5 图2-6 输出数据根本与二元Logistic剖析类似,我们重点讲下最后一项“参考估量”,如图2-7所示,个中参考类别为ICAS=1的分类情形,而个中的ICAS=0分为2.3.4三种,分离给出了ICAS=0时的数值.而个中Exp(B)(即OR值)暗示某身分(自变量)内该类别是其响应参考类别具有某种偏向性的倍数.如Exp(B).这里面的明显程度即为P值.这里要强调的是,一些文献中在输出数据的时刻经常会给出“Referent(参考)”项,这里的Referent,即为我们这里所选的参考类别1,因为1作为参考类别,所以其所稀有值为0,即很多据输出.是以在文中需标注其为Referent.图2-7。
SPSS学习笔记之——二项Logistic回归分析[转载]SPSS学习笔记之——二项Logistic回归分析一、概述Logistic回归主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。
他可以从多个自变量中选出对因变量有影响的自变量,并可以给出预测公式用于预测。
因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。
下面学习一下Odds、OR、RR的概念:在病例对照研究中,可以画出下列的四格表:------------------------------------------------------暴露因素病例对照-----------------------------------------------------暴露 a b非暴露 c d-----------------------------------------------比值、比数,是指某事件发生的可能性(概率)与不发生的可能Odds: 称为性(概率)之比。
在病例对照研究中病例组的暴露比值为:odds1 = (a/(a+c))/(c(a+c)) = a/c,对照组的暴露比值为:odds2 = (b/(b+d))/(d/(b+d)) = b/dOR:比值比,为:病例组的暴露比值(odds1)/对照组的暴露比值(odds2) =ad/bc换一种角度,暴露组的疾病发生比值:odds1 = (a/(a+b))/(b(a+b)) = a/b非暴露组的疾病发生比值:odds2 = (c/(c+d))/(d/(c+d)) = c/dOR = odds1/odds2 = ad/bc与之前的结果一致。
OR的含义与相对危险度相同,指暴露组的疾病危险性为非暴露组的多少倍。
OR>1说明疾病的危险度因暴露而增加,暴露与疾病之间为“正”关联;OR<1说明疾病的危险度因暴露而减少,暴露与疾病之间为“负”关联。
28. 二元Logistic回归二元或多元线性回归的因变量都是连续型变量,若因变量是分类变量(例如:患病与不患病;不重要、重要、非常重要),就需要用Logistic回归。
Logistic回归分析可以从统计意义上估计出在其它自变量固定不变的情况下,每个自变量对因变量取某个值的概率的数值影响大小。
Logistic回归模型有“条件”与“非条件”之分,前者适用于配对病例对照资料的分析,后者适用于队列研究或非配对的病例-对照研究成组资料的分析。
对于二分类因变量,y=1表示事件发生;y=0表示事件不发生。
事件发生的条件概率P{ y=1 | x i } 与x i之间是非线性关系,通常是单调的,即随着x i的增加/减少,P{ y=1 | x i } 也增加/减少。
,图形如下图所示:Logistic函数F(x)=11+e−x该函数值域在(0,1)之间,x趋于-∞时,F(x)趋于0;x趋于+∞时,F(x)趋于1. 正好适合描述概率P{ y=1 | x i }. 例如,某因素x导致患病与否:x 在某一水平段内变化时,对患病概率的影响较大;而在x 较低或较高时对患病概率影响都不大。
记事件发生的条件概率P{ y =1 | x i } = p i ,则p i =11+e −(α+βx i )=e α+βx i 1+e α+βx i记事件不发生的条件概率为1- p i =11+e α+βx i则在条件x i 下,事件发生概率与事件不发生概率之比为p i 1−p i= e α+βx i称为事件的发生比,简记为odds. 对odds 取自然对数得到ln (p i1−p i)= α+βx i 上式左边(对数发生比)记为Logit(y), 称为y 的Logit 变换。
可见变换之后的Logit(y)就可以用线性回归,计算出回归系数α和β值。
若分类因变量y 与多个自变量x i 有关,则变换后Logit(y)可由多元线性回归:11logit()ln()1k k pp x x p αββ==++-或 111()1(1|,,)1k k k x x p y x x e αββ-++==+一、简单的二元Logistic 回归出现某种结果的概率与不出现的概率之比,称为优势比OR. 问题1:研究“低体重出生儿”与“孕妇是否吸烟”之间的关系 有数据文件:因变量low:是否“低体重出生儿”(0=正常,1=低体重);自变量smoke:是否吸烟(0=不吸烟,1=吸烟)【分析】——【回归】——【二元Logistic】,打开“Logistic回归”窗口,将变量“low”选入【因变量】框,变量“smoke”选入【协变量】框;点【确定】,得到因变量编码初始值内部值正常0低出生体重 1块 0: 起始块若模型只含常数项,预测正确率为68.8%(=130/189);方程中的变量B S.E, Wals df Sig. Exp (B)步骤 0 常量-.790 .157 25.327 1 .000 .454 B=-0.79为模型常数项估计值,S.E为B的标准误;Wals为Wald卡方检验,原假设H0:回归系数=0;Exp(B)=0.454(表示患病率与未患病率之比:(1-68.8%)/68.8%);引入变量后的得分,以及该变量的回归系数是否为0的检验,原假设H0:回归系数=0;(主要针对逐步引进多个变量时的变量筛选)块 1: 方法 = 输入似然比卡方值,上一模型(常数项模型)与当前模型似然比值之差,检验两个模型有无差异,原假设H0:无差异。
如何用spss实现配比的条件logistics回归分析孙大鹏sundapeng87@仅以此篇献给那些专注于使用spss而不会使用sas、R、epiinfo 等统计软件的同志,spss是大家用的非常广泛的统计工具,它的数据管理非常直观,但是有一点就是它的回归分析中没有条件logistics回归分析模块。
而这个分析模块在后三个软件中可以轻松实现。
下面就给大家介绍一下如何使用spss进行条件logistics回归分析。
原理就是利用生存分析中的cox回归模型。
一、变量准备。
(一)首先我们准备好的数据应该有个因变量y,为0,1格式的,0代表对照或未发病,1代表病例或已发病。
(二)我们要分析的自变量x1,x2,一般为二分类变量,1或0,是否。
当然也可以是多组的分类变量,这个比较麻烦(一般不推荐,后面结果分析会说一下)。
(三)分组变量标注分组的代码group。
假设1:4配比,这5个个案为一组,共用一个group号。
(四)Cox回归模型,需要一个time的生存时间变量,这个变量我们这样设置,首先有个因变量y,为0,1格式的,计算time=2-y。
这样子就是设置成病例生存时间为1,对照生存时间为2。
病例发病对照不发病,对照的生存时间必然要长于病例。
数据见附件1二、操作步骤(一)数据导入spss。
不会的回家自己学去。
(二)分析----生存函数----Cox回归打开对话框(三)选取变量,第一时间选入time变量;第二个状态选入y 即病例和对照,定义事件为为1;协变量选择X,你要分析的因素方法选择向前条件分层选择group;重要选项中可以设置计算可信区间(四)结果判读Sig 为P值;B为系数;Exp(B)为OR值,后面为OR值可信区间三、关于x为分类变量,并且为多组时的问题(一)需要对协变量设置分类,选择第一个后,记得要点击更改。
如果选入变量,分类按钮为灰色,这是请点击分层的变量,移出再移入,分类按钮就变换过来了。
(二)这个样子就可以计算分析了,但是结果的显示数据正确,但是结果表格OR值和X分类变量的对应关系混乱。
SPSS操作方法之五
SPSS操作方法:逻辑回归
例证: 在一次关于公共交通的社会调查中,一个调查项目是“乘公交车上下班,还是骑自行车上下班”因变量Y=1表示乘车,Y=0表示骑车。
自变量X1表示年龄;X2表示表示月收入;X3表示性别,取1时为男性,取0时为女性。
调查对象为工薪族群体。
数据见下表:试建立Y与自变量之间的Logistic回归。
表8-4
逻辑回归SPSS操作方法的具体步骤:
1.选择Analyze→Regreessin→Binary Logistic,打开对话框如图1所示:
图1 主对话框Logistic回归。
2.选择因变量Y进入Dependent框内,将自变量选择进入 Convariates框。
也可以将不同的自变量组放在不同的块(block)中,可以分析不同的自变量组对因变量的贡献。
3.在Mothed框内选择自变量的筛选策略:
Enter表示强行进入法;(本例选择)
Forword和Bacword都表示逐步筛选策略;Forword 为自变量逐步进入,Bacword是自变量逐步剔出。
Conditional ;LR; Wald分别表示不同的检验统计量,如Forword Wald 表示自变量进入方程的依据是Wald统计量。
4.在Selection中选择一个变量作为条件变量,只有满足条件的变量数据才能参与回归分析。
5.单击Categorical打开Categorical对话框如图2所示:对定性变量的自变量选择参照类。
常用的方法是Indicator,即以某个特定的类为参照类,Last表示以最大值对应的类为参照类(系统默认),First表示以最小值对应的类为参照类。
选择后点击Continue 按钮返回主对话框。
(本例不作选择性)
图2 Categorical对话框
6.单击Option按钮,打开Option对话框如图3所示
图3:Option对话框
(1)从Statistics and Plots框中选择输出图和分析结果。
Classification Plots:表示绘制因变量实际值与预测分类值的关系图(本例选择)。
Hosmer-lemeshow goodness-of-fit:表示拟合优度指标(本例选择)。
Casewise Listing of residuals:表示输出各样本数据残差列表,有因变量的观察
值,预测值,相应的预测概率,残差(非标准化残差,标准化残差)等。
Correlations of estimations:表示输出估计参数的相关矩阵(本例选择)。
Iteration history:表示输出估计参数迭代过程中的参数与对数似然值(本例选择)。
CI for exp(B):表示输出发生比N%的置信区间(默认95%)。
(2)从Display框中选择输出方式。
At each step 表示输出模型建立过程中的每一步结果(系统默认),At last step 表示只输出最终结果。
(3)从Propbability for Stepwise框中指定自变量进入方程或剔除方程的显著性水平α。
Entry表示回归系数Score检验的概率p值小于时相应变量可进入方程; Removal 表示回归系数Score检验的概率p值大于时相应变量应当剔除出回归方程.。
(4)Classification Cutoff设置概率分界值,预测概率大于分界值(默认)时,分类预测值为1, 否则为预测值为0。
(本例选择系统默认项)
(5)从Maximum Iterations框内指定极大似然估计的最大迭代次数(默认值是20)7.单击Save按钮,打开Save对话框如图4所示:从中选择需要保存预测结果到数据窗口。
v1.0 可编辑可修改
图4:Save对话框
(1)从Predieted Values框中,Probalities 表示保存因变量取1 的预测概率值,Croup membership 表示保存分类预测值。
(本例选择)
(2)Residuals和Influence表示保存残差及影响点,具体含义与线性回归相同。
选择结束,后可以从输出窗口观看输出结果如下:
表1 案例处理摘要
未加权的案例a N百分比
已选定的案例包括在分析中28
缺失案例0.0
总计28
未选定的案例0.0
总计28
a. 如果权重有效,请参见分类表以获得案例总数。
表2 因变量编码
初始值内部值
00
11
以上两个表是数据个数,分类,及因变量的概况。
表6 不在方程中的变量
得分df显著性
步骤 0变量x31.024
x11.014
x21.086
总统计量3.015
注意:表3至表6表示只有常数项的模型,没有实际意义,可以不考虑。
表7表示的是迭代历史,表示每一次迭代中-2LL值和系数值。
表8 模型系数的综合检验
卡方df显著性
步骤 1步骤3.005
块3.005
模型3.005
表8模型综合检验是模型拟合优度检验的,用-2LL度量。
最好的模型有-2LL=0,步骤1
中的“步骤”中的卡方值是当前-2LL 与下一步-2LL 的差值,“块”中的卡方值为当前值-2LL 与后一组变量进入模型后的-2LL 的差值,“模型”中的卡方统计量是当前模型中的-2LL 与只含常数项模型的-2LL 的差值,因所有自变量是强行进入,只有一个步骤,一个块和一个模型,所以三者的卡方值相等。
本例中假设检验的P 值等于,小于,故模型中至少有一个回归系数不为0。
从表9中看出-22LN 值不算太大,模型拟合程度一般。
Cox & Snell R 2和 Nagelkerke R 2类似于线性模型中的拟合优度检验。
其中:
Cox & Snell R 2
=n L
L 201)(-
Nagelkerke R 2
=
n
L R Snell Cox 202
1)
(&-
从表中得出Cox & Snell R 2和 Nagelkerke R 2类不是太高,似合优度一般。
表11 Hosmer 和 Lemeshow 检验的随机性表
出行方式 = 0 出行方式 = 1 总计
观察值
期望值
观察值
期望值
步骤 1 1
3 0 .173 3 2 2 1 .336 3 3 3 0 .527 3
4 3 0 .953
3 5
1
2
3
6 2 1 3
7 0 3 3
8 0 .556 3 3 9
1
.172
3
4
表10 和表11是逻辑方程的拟合程度的检验,由于观察值和理论频数的差异不大,检验通过。
但是理论频数都小于5,原因是数据个数太少造成的,所以检验结果有待进一步检验。
表12 分类表a
观察值 预测值
出行方式
百分比校正
1
步骤 1
出行方式
0 13 2 1
3
10
总百分比
a. 切割值为 .500
表12也称错判矩阵。
从表10中看出,如出行方式为坐公交车15人中,预测值为13人,正确率为%。
表13 方程中的变量
B
.
Wald
df
显著性
Exp(B)
步骤 1a
x3 1 .031 .082
x1 .082 .052 1 .115 x2 .002
.002
.661
1 .416 常量
1
.081
.026
a. 在步骤 1 中输入的变量: x3, x1, x2.
从表13中可以得到回归系数、回归系数的标准误、Wald 检验统计量、P 值、发生比等。
其中第二个与第三个变量的回归系数没有通过检验。
i i
S S Wald i
βββ2
⎪⎪⎭
⎫ ⎝⎛
=为回归系数i β的
标准误。
)
Exp表示一个自变量的发生比,指当其它自变量不变时,该自变量每增加一(β
个单位,将引起发生比扩大)
Exp。
(β
表14 相关矩阵
Constant x3 x1 x2
步骤 1Constant.311
x3 .311
x1
x2
表14中表示的是回归系数的相关矩阵。
Step number: 1
Observed Groups and Predicted Probabilities
Predicted Probability is of Membership for 1
The Cut Value is .50
Symbols: 0 - 0
图5 预测分类图
预测分类图中显示预测值的分布,横坐标表示预测概率值,大于的预测值将预测为1,小于的预测值为0。
图中0表示实际观察值为Y=0,1表示观察值Y=1,纵向四个同样
的数字表示一个样本观察值。
实验题:为研究某商品消费特点和趋势,收集以往的消费数据,数据包括:因变量Y 为是否购买,购买取值为1,否则Y取值为0。
自变量有性别,年龄和收入水平。
数据见表。
试采用逻辑回归的方法进行分析。
1111。