当前位置：文档之家› spssau 多分类logistic回归

spssau 多分类logistic回归

Logistic回归之多分类logistic回归分析

1多分类logistic回归分析基本说明 (1)

2 如何使用SPSSAU进行多分类logistic回归操作 (3)

3 多分类logistic相关问题？ (4)

第1点：出现奇异矩阵或质量异常 (5)

第2点：提示“Y的选项过少或过多”? (5)

第3点：OR值的意义 (5)

第4点：wald值或z值 (5)

第5点：McFadden R 方、Cox & Snell R 方和Nagelkerke R 方相关问题？ 6 Logistic回归分析（logit回归）一般可分为3类：分别是二元Logistic回归分析、多分类Logistic回归分析和有序Logistic回归分析。logistic回归分析类型如下所示。

Logistic回归选择

Logistic回归分析用于研究X对Y的影响，并且对X的数据类型没有要求，X可以为定类数据，也可以为定量数据，但要求Y必须为定类数据，并且根据Y的选项数，使用相应的数据分析方法。

如果Y有两个选项，如愿意和不愿意、是和否，那么应该使用二元Logistic回归分析(SPSSAU 进阶方法->二元logit);

●如果Y有多个选项，并且各个选项之间可以对比大小，例如，1代表“不愿意”，2代表“无所

谓”，3代表“愿意”，这3个选项具有对比意义，数值越高，代表样本的愿意程度越高，那么应该使用多元有序Logistic回归分析(SPSSAU进阶方法->有序logit)；

●如果Y有多个选项，并且各个选项之间不具有对比意义，例如，1代表“淘宝”，2代表“天

猫”，3代表“京东”，4代表“亚马逊中国”，数值仅代表不同类别，数值大小不具有对比意义，那么应该使用多元无序Logistic回归分析(SPSSAU进阶方法->多分类logit)。

1多分类logistic回归分析基本说明

只要是logistic回归，都是研究X对于Y的影响，区别在于因变量Y上，logistic回归时，因变量Y是看成定类数据的，如果为二元（即选项只有2个），那么就是二元logistic回归；如果Y 是多个类别且类别之间无法进行对比程度或者大小，则为多分类logistic回归；如果Y是多个类别且类别之间可以对比程度大小（也称为定量数据，或者有序定类数据），此时则使用有序logistic回归。

多分类logistic回归的难点在于：因变量为类别数据，研究X对Y的影响时，如果为类别数据，那么不能说越如何越如何，比如不能说越满意越愿意购买；而只能说相对小米手机来说，对于手机外观越满意越愿意购买苹果手机。这就是类别数据的特点，一定是相对某某而言。这就导致了多分类logistic回归分析时，文字分析的难度加大，最好是使用SPSSAU的智能文字分析对应查看。

单独进行多分类logistic回归时，通常需要有以下步骤，分别是数据处理，模型似然比检验，参数估计分析和模型预测效果分析共4个步骤。

1)数据处理

如果说因变量Y的类别个数很多，比如为10个，此时建议时对类别进行组合下，尽量少的减少类别数量，便于后续进行分析。此步骤可通过SPSSAU数据处理模块的数据编码功能完成。

如果说自变量X是定类数据，那么可对X进行虚拟哑变量处理，使用SPSSAU数据处理模块的生成变量功能。关于虚拟哑变量问题，可参阅SPSSAU的手册。其实定类数据在做影响关系研究时，通常都会做虚拟哑变量处理。而且做完之后，放入模型时一定要少放一项，比如专业分成理工科，文科类，体育艺术类。那么分析时一定要少放一项（少放的项是参考项），因为这涉及到分析时进行文字描述。至于少放那一项，由研究者自行决定即可。

处理完成数据，确保数据没有问题后，直接进入SPSSAU的进阶方法找到“多分类logit”进行分析即可。

2)模型似然比检验

模型似然比检验用于对整个模型的有效性进行分析，一般对应的P值小于0.05即可。同时SPSSAU还提供AIC和BIC这两个指标值，如果模型有多个，而且希望进行模型之间的优劣比

较，可使用此两个指标，此两个指标是越小越好。具体可直接查看SPSSAU的智能分析和分析建议即可。

3)参数估计分析

参数估计分析其实就已经开始进入实质性的分析了。首先可分析R方，即模型的拟合水平情况，SPSSAU提供3个R方值指标，分别是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方。此3个R 方均为伪R 方值，其值越大越好，但其无法非常有效的表达模型的拟合程度，意义相对交小，而且多数情况此3个指标值均会特别小，研究人员不用过分关注于此3个指标值。一般报告其中任意一个R方值指标即可。

接着分析回归系数，即X对于Y的影响。一定记住，分析时是先基于以***作为参照时，X对于**有正向影响。比如相对于小米手机作为参照项，用户对于手机外观的在乎程度会正向影响到用户选择苹果手机。简而言之即说明，相对小米手机，用户越在乎外观时，更加可能选择苹果手机。

4)模型预测效果分析

多分类logistic回归建模时，还可以对模型的预测效果进行分析，当然一般情况下我们关注于影响关系，因而对于预测效果等不那么看重。即模型预测质量的关注乎相对较低，多数时候直接忽略它。

2 如何使用SPSSAU进行多分类logistic回归操作

关于多分类logistic回归的操作上，SPSSAU操作如下：

此处的X为3个，分别是性别，学历和年龄，学历和年龄是定量数据直接纳入模型中即可。但是性别是定类数据，所以先做了虚拟哑变量（数据处理->生成变量功能），然后性别分为两项分别是男和女，以男作为参照项，因此把女放入了模型中。

至于分析结果如下：

多分类Logistic回归模型似然比检验

此处模型检验的原定假设为：是否放入自变量(性别_女, 学历, 年龄)两种情况时模型质量均一样；这里p值小于0.05，因而说明拒绝原定假设，即说明本次构建模型时，放入的自变量具有有效性，本次模型构建有意义。

多分类Logistic回归分析结果汇总

McFadden R 方：0.025

模型的R方值仅为0.025，但一般报告下即可，伪R方值一般都比较低。特别需要注意分析：上表格加蓝色底纹的项为P值小于0.05即呈现出显著的项，接下来逐一说明下，

性别_女的回归系数值为-0.309，并且呈现出0.05水平的显著性(z=-2.127，p=0.033<0.05)，这说明相对于男性来讲，女性更加偏好于小米手机。为什么这样阐述呢，首先在多分类logistic 回归，SPSSAU将因变量Y的第1项（此处为小米手机）作为参照项。那么性别_女呈现出负向影响，就说明‘越女性，越偏向于小米手机’，因而结论就是，相对于华为手机来讲，女性明显更加偏好于小米手机。

相对小米手机来讲，年龄的回归系数值为-0.437，并且呈现出0.01水平的显著性(z=-6.076，p=0.000<0.01)，负向影响，即说明年龄越大（此处年龄是定量数据所以可以说年龄越大越如何），用户越不偏好华为手机。那就是说年龄越大用户越偏好于小米手机。

接着，相对于小米手机来讲，在苹果手机进行对比时，性别_女的回归系数值为0.436，并且呈现出0.01水平的显著性(z=4.192，p=0.000<0.01)，意味着相对小米手机，性别_女会对苹果显著的正向影响关系。那就是说相对小米手机来讲，女性更加偏好于苹果手机的意思。

3 多分类logistic相关问题？

在使用SPSSSAU进行多分类logistic回归时，可能会出现一些问题，比如提示奇异矩阵，质量异常，Y值只能为0或1等，接下来一一说明。

第1点：出现奇异矩阵或质量异常

如果做多分类logsitic回归时提示奇异矩阵，通常有两个原因，一是虚拟哑变量设置后，本应该少放1项作为参考项但是并没有，而是把所有的哑变量项都放入框中，这会导致绝对的共线性问题即会出现奇异矩阵矩阵。二是X之间有着太强的共线性（可使用通用方法的线性回归查看下VIF值），此时也可能导致模型无法拟合等。先找出原因，然后把有问题的项移出模型中即可。

同时，如果因变量Y的分布极其不均匀，SPSSAU建议可先对类别进行组合，可使用数据处理里面的数据编码完成。

第2点：提示“Y的选项过少或过多”?

如果出现此提示，意味着因变量Y的选项不符合多分类logistic回归分析要求，通常情况下因变量Y的分类个数应该介于3~8个之间。

1.用户可使用频数分析功能进行查看因变量Y的选项个数情况；

2.如果选项个数过多需要进行合并处理等，可使用【数据处理->数据编码】功能操作。

第3点：OR值的意义

OR值=exp(b)值，即回归系数的指数次方，该值在医学研究里面使用较多，实际意义是X增加1个单位时，Y的增加幅度。如果仅仅是研究影响关系，该值意义较小。

第4点：wald值或z值

z 值=回归系数/标准误，该值为中间过程值无意义，只需要看p 值即可。有的软件会提供wald 值（但不提供z 值，该值也无实际意义），wald值= z 值的平方。

第5点：McFadden R 方、Cox & Snell R 方和Nagelkerke R 方相关问题？

Logit回归时会提供此3个R 方值（分别是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方），此3个R 方均为伪R 方值，其值越大越好，但其无法非常有效的表达模型的拟合程度，意义相对交小，而且多数情况此3个指标值均会特别小，研究人员不用过分关注于此3个指标值。一般报告其中任意一个R方值指标即可。

第18章 Logistic回归思考与练习参考答案

第18章 Logistic 回归思考与练习参考答案一、最佳选择题 1. Logistic 回归与多重线性回归比较，（ A ）。 A ．logistic 回归的因变量为二分类变量 B ．多重线性回归的因变量为二分类变量 C ．logistic 回归和多重线性回归的因变量都可为二分类变量 D ．logistic 回归的自变量必须是二分类变量 E ．多重线性回归的自变量必须是二分类变量 2. Logistic 回归适用于因变量为（ E ）。 A ．二分类变量 B ．多分类有序变量 C ．多分类无序变量 D ．连续型定量变量 E ．A 、B 、C 均可 3. Logistic 回归系数与优势比OR 的关系为（ E ）。 A ．>β0等价于OR ＞1 B ．>β0等价于OR ＜1 C ．β＝0等价于OR ＝1 D ．β＜0等价于OR ＜1 E ．A 、C 、D 均正确 4. Logistic 回归可用于（ E ）。Ａ．影响因素分析 B ．校正混杂因素 C ．预测 D ．仅有A 和C E ．A 、B 、C 均可 5. Logistic 回归中自变量如为多分类变量，宜将其按哑变量处理，与其他变量进行变量筛选时可用（ D ）。 A ．软件自动筛选的前进法 B ．软件自动筛选的后退法 C ．软件自动筛选的逐步法 D ．应将几个哑变量作为一个因素，整体进出回归方程 E ．A 、B 、C 均可二、思考题 1. 为研究低龄青少年吸烟的外在因素，研究者采用整群抽样，在某中心城区和远城区的初中学校，各选择初一年级一个班的全部学生进行调查，并用logistic 回归方程筛选影响因素。试问上述问题采用logistic 回归是否妥当？

二分类Logistic回归的详细SPSS操作

SPSS操作：二分类Logistic回归作者：张耀文 1、问题与数据某呼吸内科医生拟探讨吸烟与肺癌发生之间的关系，开展了一项成组设计的病例对照研究。选择该科室内肺癌患者为病例组，选择医院内其它科室的非肺癌患者为对照组。通过查阅病历、问卷调查的方式收集了病例组和对照组的以下信息：性别、年龄、BMI、COPD病史和是否吸烟。变量的赋值和部分原始数据见表1和表2。该医生应该如何分析？表1. 肺癌危险因素分析研究的变量与赋值表2. 部分原始数据 ID gender age BMI COPD smoke cancer 1 0 34 0 1 1 0 2 1 32 0 1 0 1 3 0 27 0 1 1 1 4 1 28 0 1 1 0 5 1 29 0 1 0 0 6 0 60 0 2 0 0 7 1 29 0 0 1 1 8 1 29 1 1 1 1 9 1 37 0 1 0 0 10 0 17 0 0 0 0 11 0 20 0 0 1 1 12 1 35 0 0 0 0 13 0 17 1 0 1 1

………………… 2、对数据结构的分析该设计中，因变量为二分类，自变量（病例对照研究中称为暴露因素）有二分类变量（性别、BMI和是否吸烟）、连续变量（年龄）和有序多分类变量（COPD 病史）。要探讨二分类因变量与自变量之间的关系，应采用二分类Logistic回归模型进行分析。在进行二分类Logistic回归（包括其它Logistic回归）分析前，如果样本不多而变量较多，建议先通过单变量分析（t检验、卡方检验等）考察所有自变量与因变量之间的关系，筛掉一些可能无意义的变量，再进行多因素分析，这样可以保证结果更加可靠。即使样本足够大，也不建议直接把所有的变量放入方程直接分析，一定要先弄清楚各个变量之间的相互关系，确定自变量进入方程的形式，这样才能有效的进行分析。本例中单变量分析的结果见表3（常作为研究报告或论文中的表1）。表3. 病例组和对照组暴露因素的单因素比较病例组（n=85）对照组(n=259) χ2 /t统计量P 性别，男（%）56 (65.9) 126 (48.6) 7.629 <0.01 年龄（岁），x± s40.3 ±14.0 38.6 ±12.4 1.081 0.28 BMI，n (%) 正常48 (56.5) 137 (52.9) 0.329 0.57 超重或肥胖37 (43.5) 122 (47.1) COPD病史，n (%) 无21 (24.7) 114 (44.0) 14.123 <0.01 轻中度24 (28.2) 75 (29.0) 重度40 (47.1) 70 (27.0) 是否吸烟，n(%) 否18 (21.2) 106 (40.9) 10.829 <0.01 是67 (78.8) 153 (59.1) 单因素分析中，病例组和对照组之间的差异有统计学意义的自变量包括：性别、COPD病史和是否吸烟。此时，应当考虑应该将哪些自变量纳入Logistic回归模型。一般情况下，建议纳入的变量有：1）单因素分析差异有统计学意义的变量（此时，最好将P值放宽一些，比如0.1或0.15等，避免漏掉一些重要因素）；2）单因素分析时，

logistic回归方程

Logistic回归：实际上属于判别分析，因拥有很差的判别效率而不常用。 1．应用范围： ①适用于流行病学资料的危险因素分析 ②实验室中药物的剂量-反应关系 ③临床试验评价 ④疾病的预后因素分析 2． Logistic回归的分类： ①按因变量的资料类型分：二分类多分类其中二分较为常用 ②按研究方法分：条件Logistic回归非条件Logistic回归两者针对的资料类型不一样，后者针对成组研究，前者针对配对或配伍研究。 3．Logistic回归的应用条件是： ①独立性。各观测对象间是相互独立的； ② LogitP与自变量是线性关系； ③样本量。经验值是病例对照各50例以上或为自变量的5-10倍（以10倍为宜），不过随着统计技术和软件的发展，样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析，此时要求分析变量不能太多，且变量分类不能太多； ④当队列资料进行logistic回归分析时，观察时间应该相同，否则需考虑观察时间的影响（建议用Poisson回归）。 4．拟和logistic回归方程的步骤： ①对每一个变量进行量化，并进行单因素分析； ②数据的离散化，对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散，或是按照四分、五分位数法来确定等级，也可采用聚类方法将计量资料聚为二类或多类，变为离散变量。 ③对性质相近的一些自变量进行部分多因素分析，并探讨各自变量（等级变量，数值变量）纳入模型时的适宜尺度，及对自变量进行必要的变量变换；

④在单变量分析和相关自变量分析的基础上，对P≤α（常取0.2，0.15或0.3）的变量，以及专业上认为重要的变量进行多因素的逐步筛选；模型程序每拟合一个模型将给出多个指标值，供用户判断模型优劣和筛选变量。可以采用双向筛选技术：a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量)，用户确定P值临界值如：0.05、0.1或0.2，选择统计量显著且最大的变量进入模型；b剔除变量的选择用Z统计量(Wald统计量)，用户确定其P值显著性水平，当变量不显者，从模型中予以剔除。这样，选入和剔除反复循环，直至无变量选入，也无变量删除为止，选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定，一般地，当纳入模型的变量偏多，可提高选入界值或降低剔除标准，反之，则降低选入界值、提高删除标准。但筛选标准的不同会影响分析结果，这在与他人结果比较时应当注意。 ⑤在多因素筛选模型的基础上，考虑有无必要纳入变量的交互作用项；两变量间的交互作用为一级交互作用，可推广到二级或多级交互作用，但在实际应用中，各变量最好相互独立(也是模型本身的要求)，不必研究交互作用，最多是研究少量的一级交互作用。 ⑥对专业上认为重要但未选入回归方程的要查明原因。 5．回归方程拟合优劣的判断（为线性回归方程判断依据，可用于logistic回归分析）①决定系数(R2)和校正决定系数( )，可以用来评价回归方程的优劣。R2随着自变量个数的增加而增加，所以需要校正；校正决定系数( )越大，方程越优。但亦有研究指出R2是多元线性回归中经常用到的一个指标，表示的是因变量的变动中由模型中自变量所解释的百分比，并不涉及预测值与观测值之间差别的问题，因此在logistic回归中不适合。 ② C p选择法：选择C p最接近p或p＋1的方程（不同学者解释不同）。C p无法用SPSS 直接计算，可能需要手工。1964年CL Mallows提出： Cp接近（p+1）的模型为最佳，其中p为方程中自变量的个数，m为自变量总个数。 ③ AIC准则：1973年由日本学者赤池提出AIC计算准则，AIC越小拟合的方程越好。

(整理)多项分类Logistic回归分析的功能与意义1.

“年龄”使之进入“协变量”列表框。

还是以教程“blankloan.sav"数据为例，研究银行客户贷款是否违约（拖欠）的问题，数据如下所示：上面的数据是大约700个申请贷款的客户，我们需要进行随机抽样，来进行二元Logistic 回归分析，上图中的“0”表示没有拖欠贷款，“1”表示拖欠贷款，接下来，步骤如下： 1：设置随机抽样的随机种子，如下图所示：

选择“设置起点”选择“固定值”即可，本人感觉200万的容量已经足够了，就采用的默认值，点击确定，返回原界面、 2：进行“转换”—计算变量“生成一个变量（validate)，进入如下界面：在数字表达式中，输入公式：rv.bernoulli（0.7），这个表达式的意思为：返回概率为0.7的bernoulli分布随机值如果在0.7的概率下能够成功，那么就为1，失败的话，就为"0" 为了保持数据分析的有效性，对于样本中“违约”变量取缺失值的部分，validate变量也取缺失值，所以，需要设置一个“选择条件” 点击“如果”按钮，进入如下界面：

多项分类Logistic回归研究分析的功能与意义-()

多项分类Logistic回归分析的功能与意义-()

————————————————————————————————作者：————————————————————————————————日期：

多项分类Logistic回归分析的功能与意义我们经常会遇到因变量有多个取值而且无大小顺序的情况，比如职业、婚姻情况等等，这时一般的线性回归分析无法准确地刻画变量之间的因果关系，需要用其它回归分析方法来进行拟合模型。SPSS的多项分类Logistic回归便是一种简便的处理该类因变量问题的分析方法。例子：下表给出了对山东省某中学20名视力低下学生视力监测的结果数据。试用多项分类Logistic回归分析方法分析视力低下程度（由轻到重共3级）与年龄、性别（1代表男性，2代表女性）之间的关系。山东省某中学20名学生视力监测结果数据编号视力低下程度性别年龄 11115 21115 32114 42216 53216 63217 72217 82118 91114 103218 111117 121217 131115 142118 151215 161215 173217 181115 191115 202216 分析步骤： 1、进入SPSS，打开“分析”|“回归”|“多项Logistic” 命令。 2、选择进行Logistic 回归的变量。如下图所示对话框左侧的列表中，选中“视力低下程度”

并单击向右的箭头按钮使之进入“因变量”列表框，选择“性别”使之进入“因子”列表框，选择“ 年龄”使之进入“协变量”列表框。 6.jpg(38.14 KB, 下载次数: 47) 下载附件 2012-8-13 23:20 上传 3、其它设置使用系统默认设置即可。 4、设置完毕，单击“确定”按钮，等待输出结果。模型拟合信息模型模型拟合标准似然比检验 -2 倍对数似然值卡方df显著水平仅截距32.633 最终18.80413.8284.008 伪R 方 Cox 和 Snell .499 Nagelkerke.572 McFadden.336

Logistic回归分析报告结果解读分析

Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如，若探讨胃癌的危险因素，可以选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群有不同的临床表现和生活方式等，因变量就为有或无胃癌，即“是”或“否”，为二分类变量，自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量，也可以为分类变量。通过Logistic 回归分析，就可以大致了解胃癌的危险因素。 Logistic回归与多元线性回归有很多相同之处，但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量；Logistic回归的因变量为二分类变量或多分类变量，但二分类变量更常用，也更加容易解释。回归的用法一般而言，Logistic回归有两大用途，首先是寻找危险因素，如上文的例子，找出与胃癌相关的危险因素；其次是用于预测，我们可以根据建立的Logistic 回归模型，预测在不同的自变量情况下，发生某病或某种情况的概率(包括风险评分的建立)。 2.用Logistic回归估计危险度所谓相对危险度(risk ratio，RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的比值。Logistic回归给出的OR(odds ratio)值与相对危险度类似，常用来表示相对于某一人群，另一人群发生终点事件的风险超出或减少的程度。如不同性别的胃癌发生危险不同，通过Logistic回归可以求出危险度的具体数值，例如，这样就表示，男性发生胃癌的风险是女性的倍。这里要注意估计的方向问题，以女性作为参照，男性患胃癌的OR是。如果以男性作为参照，算出的OR将会是(1/，表示女性发生胃癌的风险是男性的倍，或者说，是男性的％。撇开了参照组，相对危险度就没有意义了。

二分类与多分类Logistic回归模型

二分类Logistic 回归模型在对资料进行统计分析时常遇到反应变量为分类变量的资料，那么，能否用类似于线性回归的模型来对这种资料进行分析呢？答案是肯定的。本章将向大家介绍对二分类因变量进行回归建模的Logistic 回归模型。第一节模型简介一、模型入门在很多场合下都能碰到反应变量为二分类的资料，如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等。对于分类资料的分析，相信大家并不陌生，当要考察的影响因素较少，且也为分类变量时，分析者常用列联表(contingency T able)的形式对这种资料进行整理，并使用2 χ检验来进行分析，汉存在分类的混杂因素时，还可应用Mantel-Haenszel 2χ检验进行统计学检验，这种方法可以很好地控制混杂因素的影响。但是这种经典分析方法也存在局限性，首先，它虽然可以控制若干个因素的作用，但无法描述其作用大小及方向，更不能考察各因素间是否存在交互任用；其次，该方法对样本含量的要求较大，当控制的分层因素较多时，单元格被划分的越来越细，列联表的格子中频数可能很小甚至为0，将导致检验结果的不可靠。最后，2χ检验无法对连续性自变量的影响进行分析，而这将大大限制其应用范围，无疑是其致使的缺陷。那么，能否建立类似于线性回归的模型，对这种数据加以分析？以最简单的二分类因变量为例来加以探讨，为了讨论方便，常定义出现阳性结果时反应变量取值为1，反之则取值为0 。例如当领导层有女性职员、下雨、痊愈时反应变量1y =，而没有女性职员、未下雨、未痊愈时反应变量0y =。记出现阳性结果的频率为反应变量(1)P y =。首先，回顾一下标准的线性回归模型：

Logistic回归分析报告结果解读分析

L o g i s t i c回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如，若探讨胃癌的危险因素，可以选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群有不同的临床表现和生活方式等，因变量就为有或无胃癌，即“是”或“否”，为二分类变量，自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量，也可以为分类变量。通过Logistic回归分析，就可以大致了解胃癌的危险因素。 Logistic回归与多元线性回归有很多相同之处，但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量；Logistic回归的因变量为二分类变量或多分类变量，但二分类变量更常用，也更加容易解释。回归的用法一般而言，Logistic回归有两大用途，首先是寻找危险因素，如上文的例子，找出与胃癌相关的危险因素；其次是用于预测，我们可以根据建立的Logistic回归模型，预测在不同的自变量情况下，发生某病或某种情况的概率(包括风险评分的建立)。 2.用Logistic回归估计危险度所谓相对危险度(riskratio，RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的比值。Logistic回归给出的OR(oddsratio)值与相对危险度类似，常用来表示相对于某一人群，另一人群发生终点事件的风险超出或减少的程度。如不同性别的胃癌发生危险不同，通过Logistic回归可以求出危险度的具体数值，例如，这样就表示，男性发生胃癌的风险是女性的倍。这里要注意估计的方向问题，以女性作为参照，男性患

Logistic回归分析简介

Logistic回归分析简介 Logistic回归：实际上属于判别分析，因拥有很差的判别效率而不常用。 1．应用范围： ①适用于流行病学资料的危险因素分析 ②实验室中药物的剂量-反应关系 ③临床试验评价 ④疾病的预后因素分析 2．Logistic回归的分类： ①按因变量的资料类型分：二分类多分类其中二分较为常用 ②按研究方法分：条件Logistic回归非条件Logistic回归两者针对的资料类型不一样，后者针对成组研究，前者针对配对或配伍研究。 3．Logistic回归的应用条件是： ①独立性。各观测对象间是相互独立的； ②LogitP与自变量是线性关系； ③样本量。经验值是病例对照各50例以上或为自变量的5-10倍（以10倍为宜），不过随着统计技术和软件的发展，样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析，此时要求分析变量不能太多，且变量分类不能太多； ④当队列资料进行logistic回归分析时，观察时间应该相同，否则需考虑观察时间的影响（建议用Poisson回归）。 4．拟和logistic回归方程的步骤： ①对每一个变量进行量化，并进行单因素分析； ②数据的离散化，对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散，或是按照四分、五分位数法来确定等级，也可采用聚类方法将计量资料聚为二类或多类，变为离散变量。

③对性质相近的一些自变量进行部分多因素分析，并探讨各自变量（等级变量，数值变量）纳入模型时的适宜尺度，及对自变量进行必要的变量变换； ④在单变量分析和相关自变量分析的基础上，对P≤α（常取0.2，0.15或 0.3）的变量，以及专业上认为重要的变量进行多因素的逐步筛选；模型程序每拟合一个模型将给出多个指标值，供用户判断模型优劣和筛选变量。可以采用双向筛选技术：a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量)，用户确定P值临界值如：0.05、0.1或0.2，选择统计量显著且最大的变量进入模型；b剔除变量的选择用Z统计量 (Wald统计量)，用户确定其P值显著性水平，当变量不显者，从模型中予以剔除。这样，选入和剔除反复循环，直至无变量选入，也无变量删除为止，选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定，一般地，当纳入模型的变量偏多，可提高选入界值或降低剔除标准，反之，则降低选入界值、提高删除标准。但筛选标准的不同会影响分析结果，这在与他人结果比较时应当注意。 ⑤在多因素筛选模型的基础上，考虑有无必要纳入变量的交互作用项；两变量间的交互作用为一级交互作用，可推广到二级或多级交互作用，但在实际应用中，各变量最好相互独立(也是模型本身的要求)，不必研究交互作用，最多是研究少量的一级交互作用。 ⑥对专业上认为重要但未选入回归方程的要查明原因。 5．回归方程拟合优劣的判断（为线性回归方程判断依据，可用于logistic回归分析） ①决定系数(R2)和校正决定系数( )，可以用来评价回归方程的优劣。R2 随着自变量个数的增加而增加，所以需要校正；校正决定系数()越大，方程越优。但亦有研究指出R2是多元线性回归中经常用到的一个指标，表示的是因变量的变动中由模型中自变量所解释的百分比，并不涉及预测值与观测值之间差别的问题，因此在logistic回归中不适合。 ②C p选择法：选择C p最接近p或p＋1的方程（不同学者解释不同）。C p 无法用SPSS直接计算，可能需要手工。1964年CL Mallows提出：

利用SPSS进行logistic回归分析(二元、多项)

线性回归是很重要的一种回归方法，但是线性回归只适用于因变量为连续型变量的情况，那如果因变量为分类变量呢？比方说我们想预测某个病人会不会痊愈，顾客会不会购买产品，等等，这时候我们就要用到logistic回归分析了。Logistic回归主要分为三类，一种是因变量为二分类得logistic回归，这种回归叫做二项logistic回归，一种是因变量为无序多分类得logistic回归，比如倾向于选择哪种产品，这种回归叫做多项logistic回归。还有一种是因变量为有序多分类的logistic回归，比如病重的程度是高，中，低呀等等，这种回归也叫累积logistic回归，或者序次logistic回归。二值logistic回归：选择分析——回归——二元logistic，打开主面板，因变量勾选你的二分类变量，这个没有什么疑问，然后看下边写着一个协变量。有没有很奇怪什么叫做协变量？在二元logistic回归里边可以认为协变量类似于自变量，或者就是自变量。把你的自变量选到协变量的框框里边。细心的朋友会发现，在指向协变量的那个箭头下边，还有一个小小的按钮，标着a*b，这个按钮的作用是用来选择交互项的。我们知道，有时候两个变量合在一起会产生新的效应，比如年龄和结婚次数综合在一起，会对健康程度有一个新的影响，这时候，我们就认为两者有交互效应。那么我们为了模型的准确，就把这个交互效应也选到模型里去。我们在右边的那个框框里选择变量a，按住ctrl，在选择变量b，那么我们就同时选住这两个变量了，然后点那个a*b的按钮，这样，一个新的名字很长的变量就出现在协变量的框框里了，就是我们的交互作用的变量。然后在下边有一个方法的下拉菜单。默认的是进入，就是强迫所有选择的变量都进入到模型里边。除去进入法以外，还有三种向前法，三种向后法。一般默认进入就可以了，如果做出来的模型有变量的p值不合格，就用其他方法在做。再下边的选择变量则是用来选择你的个案的。一般也不用管它。选好主面板以后，单击分类（右上角），打开分类对话框。在这个对话框里边，左边的协变量的框框里边有你选好的自变量，右边写着分类协变量的框框则是空白的。你要把协变量里边的字符型变量和分类变量选到分类协变量里边去（系统会自动生成哑变量来方便分析，什么事哑变量具体参照前文）。这里的字符型变量指的是用值标签标注过得变量，不然光文字，系统也没法给你分析啊。选好以后，分类协变量下边还有一个更改对比的框框，我们知道，对于分类变量，spss需要有一个参照，每个分类都通过和这个参照进行比较来得到结果，更改对比这个框框就是用来选择参照的。默认的对比是指示符，也就是每个分类都和总体进行比较，除了指示符以外还有简单，差值等。这个框框不是很重要，默认就可以了。点击继续。然后打开保存对话框，勾选概率，组成员，包含协方差矩阵。点击继续，打开选项对话框，勾选分类图，估计值的相关性，迭代历史，exp（B）的CI，在模型中包含常数，输出——在每个步骤中。如果你的协变量有连续型的，或者小样本，那还要勾选Hosmer-Lemeshow拟合度，这个拟合度表现的会较好一些。继续，确定。然后，就会输出结果了。主要会输出六个表。第一个表是模型系数综合检验表，要看他模型的p值是不是小于0.05，判断我们这个logistic回归方程有没有意义。

第十七章多因素回归分析简介

第十七章多因素回归分析的Stata实现例17-4 某研究者为了研究某种避孕药对人体血糖的影响，分别在正在使用这种避孕药的人群、6个月前曾经使用过这种避孕药的人群、从未使用过避孕药的人群中各随机抽取6人。考虑到血糖可能与年龄有关，所以该研究者不仅测定了这18位对象的血糖，而且也记录了这18位对象的年龄，具体资料见表17－4。请根据研究问题作统计分析。表17-4 三种避孕药使用情况下的年龄（X，岁）与血糖水平(Y，mg％) 现服药者曾服药者从未服药者 X Y X Y X Y 20 120 24 126 28 135 21 122 26 130 32 137 23 124 27 132 34 138 23 126 29 131 35 137 24 125 29 134 35 139 24 127 30 136 37 144 本研究的问题是比较三种用药情况下的血糖平均水平是否不同，因此首先考虑以下总体均数的情况。解：Stata数据如下：

Stata命令如下： reg y x g1 g2 结果： g1代表曾服药者和未服药者的比较，p=0.773，说明曾服药者和未服药者血糖平均水平没有差别。g2代表现服药者和未服药者的比较，p=0.260，说明现服药者和未服药者血糖平均水平没有差别。接着比较曾服药者和现服药者： test g1= g2 结果： P=0.1252，曾服药者和现服药者血糖平均水平没有差别。

例17-5为了研究影响肥胖者瘦素（Leptin）的主要危险因素，某研究者调查了某医院肥胖门诊的500名肥胖就诊者的瘦素、年龄、体重指数、总胆固醇、甘油三酯、是否患糖尿病、是否患高血压、饮食、运动、服药情况等，并用逐步线性回归模型分析影响瘦素的主要因素。为了简化问题，仅取自变量为年龄（X1，岁）、体重指数(X2，kg/m2)、总胆固醇(X3，mmol/L)、是否患糖尿病（X4，患糖尿病为1，不患糖尿病为0）和是否患高血压（X5，患高血压为1，不患高血压为0），应变量为瘦素（Y，ng/ml）。为了说明的方便，这里仅从500名肥胖就诊者中随机取30例，具体数据如表17-11所示，试用逐步线性回归分析寻找主要的影响因素。表17-11 例17-5的数据 Stata数据如下： X1X2X3X4X5Y 63 31 14.1 0 0 10.4 43 27.7 8.5 1 0 6.5 51 27.6 11.8 1 1 9.3 57 30.7 12.9 1 0 11.1 49 27.9 8.8 0 0 7.1 38 29.5 6.2 0 1 6.7 57 28.5 11.6 0 1 8.6 34 26.8 5.3 0 0 3 44 29.3 9 0 0 6.9 62 29.5 14.7 1 0 11.4

多分类Logistic回归

多分类logistic回归步骤： Analyze——Regression——multinomial logistic regression,将应变量“结果”调入dependent，由于所有自变量均为分类变量，所以将“感染时间”、ALT、病毒载量、alt一过、病毒下降，所有自变量调入factor，其他均采用默认操作，点OK，最终结果如下：（你发给我的结果我没打开，所以怕你也打不开，我截图了啊）。到这里，回归操作已经进行完毕，接下来根据得到的以上回归结果进行预测。在做多分类logistic回归时，如果应变量Y有n个值，以其中一个类别做为参考类别（baseline category），其他类别都同它相比较生成n-1个非冗余的logit变量模型。如，y=n做为参考类别，则对于y=i，其logit模型为：

（公式1）对于参考类别，其模型中所有系数均为0. SPSS中默认将最大类别做为参考类别。本例应变量y分三类：1=联合应答，2=部分应答，3=不应答。因此，将3=不应答做为应变量的参考类别。所以，出现结果方框下第一行字：The reference category is：3不应答。因为“3不应答”做了参考类别，所以“3不应答”的所有系数均为0，所以执行结果中不显示。同样，感染时间=3、病毒载量=3、基因型=3、alt一过=2、病毒下降=2、 alt=3，分别做为各个自变量的参考变量，其系数也均为0. 回归的目的是为了预测。假设已知一患者，其感染时间=1，病毒载量=2，基因型=1，alt一过=1，病毒下降=1，alt=2，预测该患者的结果是联合应答、部分应答、不应答的可能性分别是多大？第一步：根据公式1计算各种应答水平的g值。对于联合应答：g1=-2.813+3.056+0.439+1.059+0.392+2.290-1.501=2.922 对于部分应答：g2=-1.104+1.829-0.125-0.737-0.214+1.491-1.389=-0.249 对于不应答：g3=0. 因为不应答组是应变量y的参考组，所有系数均为0. 第二步：根据公式2计算各种应答水平的P值。（公式2）

如何用spss17.0进行二元和多元logistic回归分析

如何用spss17.0 进行二元和多元logistic 回归分析一、二元logistic 回归分析二元logistic 回归分析的前提为因变量是可以转化为0、1 的二分变量，如：死亡或者生存，男性或者女性，有或无，Yes 或No，是或否的情况。下面以医学中不同类型脑梗塞与年龄和性别之间的相互关系来进行二元logistic 回归分析。（一）数据准备和SPSS 选项设置第一步，原始数据的转化：如图1-1 所示，其中脑梗塞可以分为ICAS、ECAS 和NCAS 三种，但现在我们仅考虑性别和年龄与ICAS 的关系，因此将分组数据ICAS、ECAS 和NCAS 转化为1、0 分类，是ICAS 赋值为1，否赋值为0。年龄为数值变量，可直接输入到spss中，而性别需要转化为（1、0）分类变量输入到spss当中，假设男性为1，女性为0，但在后续分析中系统会将1，0 置换（下面还会介绍），因此为方便期间我们这里先将男女赋值置换，即男性为“0”，女性为“1”。图1-1 第二步：打开“二值Logistic 回归分析”对话框：沿着主菜单的“分析（Analyze）→回归（Regression）→二元logistic（Binary Logistic）” 的路径（图1-2）打开二值Logistic 回归分析选项框（图1-3）。如图1-3左侧对话框中有许多变量，但在单因素方差分析中与ICAS显著相关的为性别、年龄、有无高血压，有无糖尿病等（P<0.05），因此我们这里选择以性别和年龄为例进行分析。

图1-2 图1-3 在图1-3中，因为我们要分析性别和年龄与ICAS的相关程度，因此将ICAS选入因变量（Dependent）中，而将性别和年龄选入协变量（Covariates）框中，在协变量下方的“方法（Method）”一栏中，共有七个选项。采用第一种方法，即系统默认的强迫回归方法（进入“Enter”）。接下来我们将对分类（Categorical），保存（Save），选项（Options）按照如图1-4、1-5、1-6中所示进行设置。在“分类”对话框中，因为性别为二分类变量，因此将其选入分类协变量中，参考类别为在分析中是以最小数值“0（第一个）”作为参考，还是将最大数值“1（最后一个）”作为参考，这里我们选择第一个“0”作为参考。在“存放”选项框中是指将不将数据输出到编辑显示区中。在“选项”对话框中要勾选如图几项，其中“exp（B）的CI（X）”一定要勾选，这个就是输出的OR和CI值，后面的95%为系统默认，不需要更改。

spssau 多分类logistic回归

Logistic回归之多分类logistic回归分析目录 1多分类logistic回归分析基本说明 (1) 2 如何使用SPSSAU进行多分类logistic回归操作 (3) 3 多分类logistic相关问题？ (4) 第1点：出现奇异矩阵或质量异常 (5) 第2点：提示“Y的选项过少或过多”? (5) 第3点：OR值的意义 (5) 第4点：wald值或z值 (5) 第5点：McFadden R 方、Cox & Snell R 方和Nagelkerke R 方相关问题？ 6 Logistic回归分析（logit回归）一般可分为3类：分别是二元Logistic回归分析、多分类Logistic回归分析和有序Logistic回归分析。logistic回归分析类型如下所示。 Logistic回归选择 Logistic回归分析用于研究X对Y的影响，并且对X的数据类型没有要求，X可以为定类数据，也可以为定量数据，但要求Y必须为定类数据，并且根据Y的选项数，使用相应的数据分析方法。如果Y有两个选项，如愿意和不愿意、是和否，那么应该使用二元Logistic回归分析(SPSSAU 进阶方法->二元logit);

●如果Y有多个选项，并且各个选项之间可以对比大小，例如，1代表“不愿意”，2代表“无所谓”，3代表“愿意”，这3个选项具有对比意义，数值越高，代表样本的愿意程度越高，那么应该使用多元有序Logistic回归分析(SPSSAU进阶方法->有序logit)； ●如果Y有多个选项，并且各个选项之间不具有对比意义，例如，1代表“淘宝”，2代表“天猫”，3代表“京东”，4代表“亚马逊中国”，数值仅代表不同类别，数值大小不具有对比意义，那么应该使用多元无序Logistic回归分析(SPSSAU进阶方法->多分类logit)。 1多分类logistic回归分析基本说明只要是logistic回归，都是研究X对于Y的影响，区别在于因变量Y上，logistic回归时，因变量Y是看成定类数据的，如果为二元（即选项只有2个），那么就是二元logistic回归；如果Y 是多个类别且类别之间无法进行对比程度或者大小，则为多分类logistic回归；如果Y是多个类别且类别之间可以对比程度大小（也称为定量数据，或者有序定类数据），此时则使用有序logistic回归。多分类logistic回归的难点在于：因变量为类别数据，研究X对Y的影响时，如果为类别数据，那么不能说越如何越如何，比如不能说越满意越愿意购买；而只能说相对小米手机来说，对于手机外观越满意越愿意购买苹果手机。这就是类别数据的特点，一定是相对某某而言。这就导致了多分类logistic回归分析时，文字分析的难度加大，最好是使用SPSSAU的智能文字分析对应查看。

第十七章多因素回归分析的Stata实现

第十七章多因素回归分析的Stata实现本章使用的Stata命令：多因素回归regress depvar [indepvars] 逐步回归stepwise [, options ] : command Logistic回归logistic depvar indepvars [weight] 生存时间数据设定stset timevar [weight] [, failure(failvar[==numlist])] Cox回归stcox [varlist] 例17-4 某研究者为了研究某种避孕药对人体血糖的影响，分别在正在使用这种避孕药的人群、6个月前曾经使用过这种避孕药的人群、从未使用过避孕药的人群中各随机抽取6人。考虑到血糖可能与年龄有关，所以该研究者不仅测定了这18位对象的血糖，而且也记录了这18位对象的年龄，具体资料见表17－4。请根据研究问题作统计分析。表17-4 三种避孕药使用情况下的年龄（，岁）与血糖水平(，mg％) 现服药者曾服药者从未服药者 201202412628135 211222613032137 231242713234138 231262913135137 241252913435139 241273013637144

本研究的问题是比较三种用药情况下的血糖平均水平是否不同，因此首先考虑以下总体均数的情况。解：Stata数据如下： x y g1g2 2012001 2112201 2312401 2312601 2412501 2412701 2412610 2613010 2713210 2913110 2913410 3013610 2813500 3213700 3413800 3513700 3513900 3714400 Stata命令如下： reg y x g1 g2 结果： Source | SS df MS Number

(整理)利用SAS宏程序进行单因素Logistic回归分析.

利用SAS宏程序进行单因素Logistic回归分析在做单因素logistic回归时，如果有十几个自变量，每个自变量都运行一遍程序，然后把sas结果黏贴到word里再修改，最后合并生成一个汇总的数据，无疑是件很麻烦的事情，所以我编了一段程序，可以自动的汇总生成报表，省了很多事啊！欢迎大家共同交流宏程序如下： %macro log1(data,yy,xx,num); /*data=分析数据集，yy=应变量，xx=自变量，num=自变量个数%do i=1 %to # %let var_=%sysfunc(scan(&xx,&i,’ ‘)); ods output ParameterEstimates=&var_.1 OddsRatios=&var_.2; proc logistic data=&data desc ; model &yy=&var_; run; data &var_.1(drop=i);set &var_.1;i=_n_;if i=1 then delete; run; data &var_ (drop=effect df);merge &var_.1 &var_.2;run; proc delete data=&var_.1 &var_.2;run; %end; data log1;set &xx;proc print noobs data=log1;proc delete data=log1 &xx;run; %mend; 测试一下： %log1(factor,tw1,sex agegroup b4 b5 b6 b7 b10 b11 b12 b32a b32b b32c b32d,13); 效果显示如下，（sas9.2自动生成html格式结果，stype选择journal）

SPSS 10.0高级教程十三：分类资料的Logistic回归分析

SPSS 10.0高级教程十三：分类资料的Logistic回归分析 (2009-02-05 15:32:54) 转载所谓Logistic模型，或者说Logistic回归模型，就是人们想为两分类的应变量作一个回归方程出来，可概率的取值在0~1之间，回归方程的应变量取值可是在实数集中，直接做会出现0~1范围之外的不可能结果，因此就有人耍小聪明，将率做了一个Logit变换，这样取值区间就变成了整个实数集，作出来的结果就不会有问题了，从而该方法就被叫做了Logistic回归。随着模型的发展，Logistic家族也变得人丁兴旺起来，除了最早的两分类Logistic外，还有配对Logistic模型，多分类Logistic模型、随机效应的Logistic模型等。由于SPSS的能力所限，对话框只能完成其中的两分类和多分类模型，下面我们就介绍一下最重要和最基本的两分类模型。 10.3.1 界面详解与实例例11.1 某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中，收集了一批行根治性肾切除术患者的肾癌标本资料，现从中抽取26例资料作为示例进行logistic回归分析（本例来自《卫生统计学》第四版第11章）。 ?i：标本序号 ?x1：确诊时患者的年龄(岁) ?x2：肾细胞癌血管内皮生长因子(VEGF)，其阳性表述由低到高共3 个等级 ?x3：肾细胞癌组织内微血管数(MVC) ?x4：肾癌细胞核组织学分级，由低到高共4级 ?x5：肾细胞癌分期，由低到高共4期 ?y：肾细胞癌转移情况(有转移y=1; 无转移y=0)。 i x1 x2 x3 x4 x5 y 1 59 2 43.4 2 1 0 2 36 1 57.2 1 1 0 3 61 2 190 2 1 0 4 58 3 128 4 3 1

多元线性回归与logistic回归

第十一章多元线性回归与logistic 回归一、教学大纲要求（一）掌握内容 1．多元线性回归分析的概念：多元线性回归、偏回归系数、残差。 2．多元线性回归的分析步骤：多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。 3．多元线性回归分析中的假设检验：建立假设、计算检验统计量、确定P 值下结论。 4．logistic 回归模型结构：模型结构、发病概率比数、比数比。 5．logistic 回归参数估计方法。 6．logistic 回归筛选自变量：似然比检验统计量的计算公式；筛选自变量的方法。（二）熟悉内容常用统计软件（SPSS 及SAS ）多元线性回归分析方法：数据准备、操作步骤与结果输出。（三）了解内容标准化偏回归系数的解释意义。二、教学内容精要 (一) 多元线性回归分析的概念将直线回归分析方法加以推广，用回归方程定量地刻画一个应变量Y 与多个自变量X 间的线形依存关系，称为多元线形回归（multiple linear regression ），简称多元回归（multiple regression ）基本形式： 01122?k k Y b b X b X b X =+++???+ 式中Y ?为各自变量取某定值条件下应变量均数的估计值，1X ，2X ，…，k X 为自变量，k 为自变量个数，0b 为回归方程常数项，也称为截距，其意义同直线回归，1b ，2b ，…, k b 称为偏回归系数（partial regression coefficient ），j b 表示在除j X 以外的自变量固定条件下，j X 每改变一个单位后Y 的平均改变量。 (二) 多元线性回归的分析步骤 Y ?是与一组自变量1X ，2X ，…，k X 相对应的变量Y 的平均估计值。多元回归方程中的回归系数1b ，2b ，…, k b 可用最小二乘法求得，也就是求出能使估计值Y ?和实际观察值Y 的残差平方和22)?(∑∑-=Y Y e i 为最小值的一组回归系数1b ，2b ，…, k b 值。根据以上要求，用数学方法可以得出求回归系数1b ，2b ，…, k b 的下列正规方程组（normal equation ）：