当前位置：文档之家› 利用SPSS进行logistic回归分析(二元、多项)

利用SPSS进行logistic回归分析(二元、多项)

线性回归是很重要的一种回归方法，但是线性回归只适用于因变量为连续型变量的情况，那如果因变量为分类变量呢？比方说我们想预测某个病人会不会痊愈，顾客会不会购买产品，等等，这时候我们就要用到logistic回归分析了。Logistic回归主要分为三类，一种是因变量为二分类得logistic回归，这种回归叫做二项logistic回归，一种是因变量为无序多分类得logistic回归，比如倾向于选择哪种产品，这种回归叫做多项logistic回归。还有一种是因变量为有序多分类的logistic回归，比如病重的程度是高，中，低呀等等，这种回归也叫累积logistic回归，或者序次logistic回归。

二值logistic回归：

选择分析——回归——二元logistic，打开主面板，因变量勾选你的二分类变量，这个没有什么疑问，然后看下边写着一个协变量。有没有很奇怪什么叫做协变量？在二元logistic回归里边可以认为协变量类似于自变量，或者就是自变量。把你的自变量选到协变量的框框里边。

细心的朋友会发现，在指向协变量的那个箭头下边，还有一个小小的按钮，标着a*b，这个按钮的作用是用来选择交互项的。我们知道，有时候两个变量合在一起会产生新的效应，比如年龄和结婚次数综合在一起，会对健康程度有一个新的影响，这时候，我们就认为两者有交互效应。那么我们为了模型的准确，就把这个交互效应也选到模型里去。我们在右边的那个框框里选择变量a，按住ctrl，在选择变量b，那么我们就同时选住这两个变量了，然后点那个a*b的按钮，这样，一个新的名字很长的变量就出现在协变量的框框里了，就是我们的交互作用的变量。

然后在下边有一个方法的下拉菜单。默认的是进入，就是强迫所有选择的变量都进入到模型里边。除去进入法以外，还有三种向前法，三种向后法。一般默认进入就可以了，如果做出来的模型有变量的p值不合格，就用其他方法在做。再下边的选择变量则是用来选择你的个案的。一般也不用管它。

选好主面板以后，单击分类（右上角），打开分类对话框。在这个对话框里边，左边的协变量的框框里边有你选好的自变量，右边写着分类协变量的框框则是空白的。你要把协变量里边的字符型变量和分类变量选到分类协变量里边去（系统会自动生成哑变量来方便分析，什么事哑变量具体参照前文）。这里的字符型变量指的是用值标签标注过得变量，不然光文字，系统也没法给你分析啊。选好以后，分类协变量下边还有一个更改对比的框框，我们知道，对于分类变量，spss需要有一个参照，每个分类都通过和这个参照进行比较来得到结果，更改对比这个框框就是用来选择参照的。默认的对比是指示符，也就是每个分类都和总体进行比较，除了指示符以外还有简单，差值等。这个框框不是很重要，默认就可以了。

点击继续。然后打开保存对话框，勾选概率，组成员，包含协方差矩阵。点击继续，打开选项对话框，勾选分类图，估计值的相关性，迭代历史，exp（B）的CI，在模型中包含常数，输出——在每个步骤中。如果你的协变量有连续型的，或者小样本，那还要勾选Hosmer-Lemeshow拟合度，这个拟合度表现的会较好一些。

继续，确定。

然后，就会输出结果了。主要会输出六个表。

第一个表是模型系数综合检验表，要看他模型的p值是不是小于0.05，判断我们这个logistic回归方程有没有意义。

第二个表示模型汇总表。这个表里有两个R^2，叫做广义决定系数，也叫伪R^2，作用类似于线性回归里的决定系数，也是表示这个方程能够解释模型的百分之多少。由于计算方法不同，这两个广义决定系数的值往往不一样，但是出入并不会很大。

在下边的分类表则表述了模型的稳定性。这个表最后一行百分比校正下边的三个数据列出来在实际值为0或者1时，模型预测正确的百分比，以及模型总的预测正确率。一般认为预测正确概率达到百分之五十就是良好（标准真够低的），当然正确率越高越好。

在然后就是最重要的表了，方程中的变量表。第一行那个B下边是每个变量的系数。第五行的p值会告诉你每个变量是否适合留在方程里。如果有某个变量不适合，那就要从新去掉这个变量做回归。根据这个表就可以写出logistic方程了：P=Exp(常量+a1*变量1+a2*变量2.。。。)/(1+Exp(常量+a1*变量1+a2*变量2.。。。))。如果大家学过一点统计，那就应该对这个形式的方程不陌生。提供变量，它最后算出来会是一个介于0和1的数，也就是你的模型里设定的值比较大的情况发生的概率，比如你想推算会不会治愈，你设0治愈，1为没有治愈。那你的模型算出来就是没有治愈的概率。如果你想直接计算治愈的概率，那就需要更改一下设定，用1去代表治愈。

此外倒数后两列有一个EXP（B），也就是OR值，哦，这个可不是或者的意思，OR值是优势比。在线性回归里边我们用标准化系数来对比两个自变量对于因变量的影响力的强弱，在logistic回归里边我们用优势比来比较不同的情况对于因变量的影响。举个例子。比如我想看性别对于某种病是否好转的影响，假设0代表女，1代表男，0代表不好转，1代表好转。发现这个变量的OR值为2.9，那么也就是说男人的好转的可能是女人好转的2.9倍。注意，这里都是以数值较大的那个情况为基准的。而且OR值可以直接给出这个倍数。如果是0,1,2各代表一类情况的时候，那就是2是1的2.9倍，1是0的2.9倍，以此类推。OR值对于方程没什么贡献，但是有助于直观的理解模型。在使用OR值得时候一定要结合它95%的置信区间来进行判断。

此外还有相关矩阵表和概率直方图，就不再介绍了。

多项logistic回归：

选择分析——回归——多项logistic，打开主面板，因变量大家都知道选什么，因变量下边有一个参考类别，默认的第一类别就可以。再然后出现了两个框框，因子和协变量。很明显，这两个框框都是要你选因变量的，那么到底有什么区别呢？嘿嘿，区别就在于，因子里边放的是无序的分类变量，比如性别，职业什么的，以及连续变量（实际上做logistic回归时大部分自变量都是分类变量，连续变量是比较少的。），而协变量里边放的是等级资料，比如病情的严重程度啊，年龄啊（以十年为一个年龄段撒，一年一个的话就看成连续变量吧还是）之类的。在二项logistic回归里边，系统会自动生成哑变量，可是在多项logistic 回归里边，就要自己手动设置了。参照上边的解释，不难知道设置好的哑变量要放到因子那个框框里去。

然后点开模型那个对话框，哇，好恐怖的一个对话框，都不知道是干嘛的。好，我们一点点来看。上边我们已经说过交互作用是干嘛的了，那么不难理解，主效应就是变量本身对模型的影响。明确了这一点以后，这个对话框就没有那么难选了。指定模型那一栏有三个模型，主效应指的是只做自变量和因变量的方程，就是最普通的那种。全因子指的是包含了所有主效应和所有因子和因子的交互效应的模型（我也不明白为什么只有全因子，没有全协变量。这个问题真的很难，所以别追问我啦。）第三个是设定/步进式。这个是

自己手动设置交互项和主效应项的，而且还可以设置这个项是强制输入的还是逐步进入的。这个概念就不用再啰嗦了吧啊？

点击继续，打开统计量对话框，勾选个案处理摘要，伪R方，步骤摘要，模型拟合度信息，单元格可能性，分类表，拟合度，估计，似然比检验，继续。打开条件，全勾，继续，打开选项，勾选为分级强制条目和移除项目。打开保存，勾选包含协方差矩阵。确定（总算选完了）。

结果和二项logistic回归差不多，就是多了一个似然比检验，p值小于0.05认为变量有意义。然后我们直接看参数估计表。假设我们的因变量有n个类，那参数估计表会给出n-1组的截距，变量1，变量2。我们我们用Zm代表Exp（常量m+am1*变量1+am2*变量2+。。。），那么就有第m类情况发生的概率为

Zn/1+Z2+Z3+……+Zn(如果我们以第一类为参考类别的话，我们就不会有关于第一类的参数，那么第一类就是默认的1，也就是说Z1为1)。

有序回归（累积logistic回归）：

选择菜单分析——回归——有序，打开主面板。因变量，因子，协变量如何选取就不在重复了。选项对话框默认。打开输出对话框，勾选拟合度统计，摘要统计，参数估计，平行线检验，估计响应概率，实际类别概率，确定，位置对话框和上文的模型对话框类似，也不重复了。确定。

结果里边特有的一个表是平行线检验表。这个表的p值小于0.05则认为斜率系数对于不同的类别是不一样的。此外参数估计表得出的参数也有所不同。假设我们的因变量有四个水平，自变量有两个，那么参数估计表会给出三个阈值a1,a2，a3（也就是截距），两个自变量的参数m，n。计算方程时，首先算三个Link 值，Link1=a1+m*x1+n*x2，Link2=a2+m*x1+n*x2，Link3=a3+m*x1+n*x2，（仅有截距不同）有了link值以后，p1=1/(1+exp(link1)), p1+p2=1/(1+exp

（link2）), p1+p2+p3=1/(1+exp(link3)), p1+p2+p3+p4=1..

通过上边的这几个方程就能计算出各自的概率了。

如有侵权请联系告知删除，感谢你们的配合！

实验7相关及回归分析SPSS应用

实验7 相关与回归分析 7.1实验目的熟练掌握一元线性回归分析的SPSS应用技能，掌握一元非线性回归分析的SPSS应用技能，对实验结果做出解释。 7.2相关知识（略） 7.3实验内容 7.3.1一元线性回归分析的SPSS实验 7.3.2一元非线性回归分析的SPSS实验 7.4实验要求 7.4.1准备实验数据 1.线性回归分析数据（The Wall 美国各航空公司业绩的统计数据公布在《华尔街日报1999年年鉴》 Street Journal Almanac 1999）上。航班正点到达的比率和每10万名乘客投诉的次数的数据，见表7-1所示。表7-1 美国航空公司航空正点率与乘客投诉次数资料 2.非线性回归分析数据 1992～2013年某国保费收入与国内生产总值的数据，试研究保费收入与国内生产

总值的关系的数据，见表7-2所示。表7-2 1992～2013年某国保费收入与国内生产总值数据单位：万元 7.4.2完成一元线性回归分析的SPSS 实验，对实验结果作出简要分析。 7.4.3完成一元非线性回归分析的SPSS 实验，对实验结果作出简要分析。 7.5实验步骤 7.5.1 完成一元线性回归分析的SPSS 实验步骤 1.运用SPSS 绘制散点图散点图。第一步：在excel 中输入数据图7-1 第二步：将excel 数据导入spss 单击打开数据文档按钮（或选择菜单文件→打开）→选择文件航空公司航班

正点率与投诉率.xls 图7-2 第三步：选择菜单图形→旧对话框→散点/点状，在散点图/点图对话框中，选择简单分布按钮图7-3 第三步：在简单散点图对话框中，将候选变量框中的投诉率添加到Y轴，航班正点率添加到X轴，点击确定：

SPSS软件应用于相关分析与回归分析

实验五 SPSS软件应用于相关分析与回归分析学院：动物科技学院班级：动科101 姓名：李貌学号：2010020407

实验五SPSS软件应用于相关分析与回归分析一、实验目的： 1、理解线性相关分析和回归分析的意义及应用并对有关数据进行分析。 2、熟悉SPSS软件应用于相关分析和回归分析的操作和步骤。 3、进一步掌握运用SPSS软件处理数据和分析数据的能力。二、实验内容：玉米在盐胁迫后的萎焉程度(R)与根中蛋白（R）、叶中蛋白（L）、脯氨酸（pro）之间关系如下，试进行变量间的相关分析、回归分析。萎焉度（Y）/% 根中蛋白（R）/% 叶中蛋白（L）/% 脯氨酸（pro）/% 0.9300 0.79 0.98 0.093 0.9547 0.99 1.02 0.105 0.9661 0.91 1.58 0.119 0.9678 1.01 1.47 0.155 0.9725 1.14 1.89 0.234 0.9735 1.36 1.32 0.251 0.9856 1.36 1.76 0.217 1.0032 1.19 2.61 0.271 1.0045 1.21 2.33 0.227 1.0075 1.06 2.88 0.270 1.0186 1.58 2.40 0.282 1.0201 1.30 2.40 0.557 1.0245 1.81 2.37 0.650 1.0260 1.88 2.59 0.622 1.0283 1.46 3.10 0.611 1.0364 1.68 3.36 0.657 三、实验步骤： (一、线性回归分析） 1、启动SPSS，进行变量定义和数据录入，如（图1、2）。

第六章 spss相关分析和回归分析

第六章 SPSS相关分析与回归分析 6.1 相关分析和回归分析概述客观事物之间的关系大致可归纳为两大类，即 ●函数关系：指两事物之间的一种一一对应的关系，如商品的销售额和销售量之间的关系。 ●相关关系（统计关系）：指两事物之间的一种非一一对应的关系，例如家庭收入和支出、子女身高和父母身高之间的关系等。相关关系又分为线性相关和非线性相关。相关分析和回归分析都是分析客观事物之间相关关系的数量分析方法。 6.2 相关分析相关分析通过图形和数值两种方式，有效地揭示事物之间相关关系的强弱程度和形式。 6.2.1 散点图它将数据以点的的形式画在直角坐标系上，通过观察散点图能够直观的发现变量间的相关关系及他们的强弱程度和方向。 6.2.2 相关系数利用相关系数进行变量间线性关系的分析通常需要完成以下两个步骤：第一，计算样本相关系数r； ●相关系数r的取值在-1～+1之间 ●R>0表示两变量存在正的线性相关关系；r<0表示两变量存在负的线性相关关系 ●R＝1表示两变量存在完全正相关；r＝-1表示两变量存在完全负相关；r＝0表示两变量不相关 ●|r|>0.8表示两变量有较强的线性关系；|r|<0.3表示两变量之间的线性关系较弱第二，对样本来自的两总体是否存在显著的线性关系进行推断。对不同类型的变量应采用不同的相关系数来度量，常用的相关系数主要有Pearson简单相关系数、Spearman等级相关系数和Kendall τ相关系数等。 6.2.2.1 Pearson简单相关系数（适用于两个变量都是数值型的数据） Pearson简单相关系数的检验统计量为： 6.2.2.2 Spearman等级相关系数 Spearman等级相关系数用来度量定序变量间的线性相关关系，设计思想与Pearson简 x y，而是利单相关系数相同，只是数据为非定距的，故计算时并不直接采用原始数据(,) i i

文档之家

利用SPSS进行logistic回归分析(二元、多项)

实验7相关及回归分析SPSS应用

相关分析与回归分析SPSS实现

SPSS软件应用于相关分析与回归分析

相关分析和一元线性回归分析SPSS报告

相关分析和回归分析SPSS实现

第六章 spss相关分析和回归分析