当前位置：文档之家› 第18章-Logistic回归思考与练习参考答案.docx

第18章-Logistic回归思考与练习参考答案.docx

第18 章 Logistic 回归思

考与练习参考答案

一、最佳选择题

1.Logistic回归与多重线性回归比较，（A）。

A．logistic 回归的因变量为二分类变量B．多重线性

回归的因变量为二分类变量

C．logistic 回归和多重线性回归的因变量都可为二分类变量

D．logistic 回归的自变量必须是二分类变量E．多重线性回归

的自变量必须是二分类变量

2.Logistic回归适用于因变量为（E ）。

A．二分类变量B．多分类有序变量C．多分类无序变量

D．连续型定量变量E．A、B、C均可

3. Logistic回归系数与优势比OR的关系为

（

E）。

A．β0 等价于OR＞1B．β0 等价于OR＜1C．β＝0等价于OR＝1D．β

＜ 0 等价于4. Logistic OR＜1 E回

归可用于（

． A、 C、 D 均正确

E）。

Ａ．影响因素分析

D．仅有 A 和 C E B．校正混杂因素

． A、 B、C 均可

C．预测

5. Logistic回归中自变量如为多分类变量，宜将其按哑变量处理，与其他变量进行变量筛

选时可用（D）。

A．软件自动筛选的前进法B．软件自动筛选的后退法

C．软件自动筛选的逐步法D．应将几个哑变量作为一个因素，整体进出回归方程

E．A、 B、 C 均可

二、思考题

1.为研究低龄青少年吸烟的外在因素，研究者采用整群抽样，在某中心城区和远城区的初中

学校，各选择初一年级一个班的全部学生进行调查，并用logistic回归方程筛选影响因素。

试问上述问题采用logistic回归是否妥当

答：上述问题采用logistic回归不妥当，因为logistic回归中参数的极大似然估计要

求样本结局事件相互独立，而研究的问题中低龄青少年吸烟行为不独立。

2.分类变量赋值不同对logistic回归有何影响分析结果一致吗

答：（ 1）若因变量交换赋值，两个logistic回归方程的参数估计绝对值相等，符号相反；

优势比互为倒数，含义有所区别，实质意义一样；模型拟合检验与回归系数的假设检验结果

相同。

（ 2）若改变自变量参照类或哑变量设置方法，logistic回归方程形式、参数含义虽有不

同，但是模型实质与应用结果相同，可以根据研究需要选择不同赋值方法。Logistic回归结果报告中，一定要说明分类变量赋值方法及其参照，否则无法理解模型意义。

3.例18-6研究性别对吸烟行为的影响，采用logistic回归校正了年龄对居民吸烟行为的影

响，请考虑有无其他混杂因素需要校正

答：例18-6 的主要目的是研究吸烟行为与性别的联系及其强度，例题采用logistic回

归只校正了年龄对居民吸烟行为的影响。事实上，除年龄外，仍有其他因素会影响吸烟行为与

性别的联系强度，如家庭人均年收入、受教育程度、主动获取保健知识等。建立回归模型

时，首先应根据专业知识确定可能的影响因素，再采用logistic回归，将性别作为强制引入

变量，对其他可能的影响因素进行变量筛选，最后将性别与筛选出的因素作为自变量建立

logistic 回归方程，从而正确回答校正混杂因素后吸烟行为与性别的联系及其强度。

4.配对病例 - 对照研究资料若采用非条件logistic 回归进行分析，对结果有何影响答：采用

配对（匹配）方法的目的是对可能的混杂因素加以控制，有助于提高研究效率

和可靠性。配对设计的特点是对子内部控制的混杂变量一致，有较好的可比性。配对（匹配）

资料若采用非条件logistic回归进行分析，则忽视了这种可比性，降低了分析方法的检验效

能。

三、计算题

探讨肾细胞癌转移有关的因素研究中，收集了26 例行根治性肾切除术患者的肾癌标本资

料（教材表18-19 ），有关变量说明如下，试进行logistic回归分析。

X1：确诊时患者的年龄（岁）。

X 2：肾细胞癌血管内皮生长因子，其阳性表达由低到高共 3 个等级，分别赋值1、2、3。

X 3：肾细胞癌组织内微血管数。

X 4：肾细胞癌细胞核组织学分级，由低到高共 4 级，分别赋值1、 2、 3、4。

X 5：肾细胞癌分期，由低到高共 4 期，分别赋值1、 2、 3、4。

Y ：肾细胞癌转移情况，有转移＝1，无转移＝ 0。

教材表 18-19 26例行根治性肾切除术患者的肾癌标本资料

i X 1X 2X 3X 4X 5Y i X 1X 2 159221014311 236111015363 361221016421 458343117143 555334118321 661121019351 738111020703 842132021652 950111022452 1058322023683 1168342024312 1225243125581 1352111026603数据摘自倪宗瓒.卫生统计学 4 版，人民卫生出版社，2004。

解：

Variables in the Equation

B SE Wald df

X21

X41 Constant–1X 3X 4X 5Y

210

311

210

331

230

210

431

441

240

331

230

430

431 Sig.Exp(B)

Logistic回归分析结果显示：肾细胞癌转移与肾细胞癌血管内皮生长因子和肾细胞癌细胞

核组织学分级有关。肾细胞癌血管内皮生长因子X 2和肾细胞癌细胞核组织学分级X 4的回归系数均为正值，说明两个变量取值越大，则肾细胞癌转移的危险性越大。在肾细胞癌细胞核

组织学分级不变条件下，肾细胞癌血管内皮生长因子每增加一级，肾细胞癌转移的优势增至

倍，增加倍；在肾细胞癌血管内皮生长因子不变条件下，肾细胞癌细胞核组织学分级每增加

一级，肾细胞癌转移的优势增至倍，增加倍。

（毛宗福余红梅）

SPSS实验8-二项Logistic回归分析

SPSS作业8：二项Logistic回归分析为研究和预测某商品消费特点和趋势，收集到以往胡消费数据。数据项包括是否购买，性别，年龄和收入水平。这里采用Logistic回归的方法，是否购买作为被解释变量（0/1二值变量），其余各变量为解释变量，且其中性别和收入水平为品质变量，年龄为定距变量。变量选择采用Enter方法，性别以男为参照类，收入以低收入为参照类。（一）基本操作：（1）选择菜单Analyz e－Regression－Binary Logistic; （2）选择是否购买作为被解释变量到Dependent框中，选其余各变量为解释变量到Covariates框中，采用Enter方法，结果如下：分析：上表显示了对品质变量产生虚拟变量的情况，产生的虚拟变量命名为原变量名（编码）。可以看到，对收入生成了两个虚拟变量名为Income（1）和Income（2），分别表示是否中收入和是否高收入，两变量均为0时表示低收入；对性别生成了一个虚拟变量名为Gedder（1），表示是否女，取值为0

时表示为男。消费的二项Logistic分析结果（二）（强制进入策略）分析：上表显示了Logistic分析初始阶段（第零步）方程中只有常数项时的错判矩阵。可以看到：269人中实际没购买且模型预测正确，正确率为100％；162人中实际购买了但模型均预测错误，正确率为0%。模型总的预测正确率为62.4％。消费的二项Logistic分析结果（三）（强制进入策略）

分析：上表显示了方程中只有常数项时的回归系数方面的指标，各数据项的含义依次为回归系数，回归系数标准误差，Wald检验统计量的观测值，自由度，Wald检验统计量的概率p值，发生比。由于此时模型中未包含任何解释变量，因此该表没有实际意义。分析：上表显示了待进入方程的各个变量的情况，各数据项的含义依次为Score检验统计量的观测值，自由度和概率p值。可以看到，如果下一步Age 进入方程，则Score检验统计量的观测值为1.268，概率p值为0.26。如果显著性水平a为0.05，由于Age的概率p值大于显著性水平a，所以是不能进入方程的。但在这里，由于解释变量的筛选策略为Enter，所以这些变量也被强行进入方程。

Logistic回归分析简介

Logistic回归分析简介 Logistic回归：实际上属于判别分析，因拥有很差的判别效率而不常用。1．应用范围： ①适用于流行病学资料的危险因素分析 ②实验室中药物的剂量-反应关系 ③临床试验评价 ④疾病的预后因素分析 2．Logistic回归的分类： ①按因变量的资料类型分：二分类多分类其中二分较为常用 ②按研究方法分：条件Logistic回归非条件Logistic回归两者针对的资料类型不一样，后者针对成组研究，前者针对配对或配伍研究。 3．Logistic回归的应用条件是： ①独立性。各观测对象间是相互独立的； ②LogitP与自变量是线性关系； ③样本量。经验值是病例对照各50例以上或为自变量的5-10倍（以10倍为宜），不过随着统计技术和软件的发展，样本量较小或不能进行似然

估计的情况下可采用精确logistic回归分析，此时要求分析变量不能太多，且变量分类不能太多； ④当队列资料进行logistic回归分析时，观察时间应该相同，否则需考虑观察时间的影响（建议用Poisson回归）。 4．拟和logistic回归方程的步骤： ①对每一个变量进行量化，并进行单因素分析； ②数据的离散化，对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散，或是按照四分、五分位数法来确定等级，也可采用聚类方法将计量资料聚为二类或多类，变为离散变量。 ③对性质相近的一些自变量进行部分多因素分析，并探讨各自变量（等级变量，数值变量）纳入模型时的适宜尺度，及对自变量进行必要的变量变换； ④在单变量分析和相关自变量分析的基础上，对P≤α（常取0.2，0.15或 0.3）的变量，以及专业上认为重要的变量进行多因素的逐步筛选；模型程序每拟合一个模型将给出多个指标值，供用户判断模型优劣和筛选变量。可以采用双向筛选技术：a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量)，用户确定P值临界值如：0.05、0.1或0.2，选择统计量显著且最大的变量进入模型；b剔除变量的选择用Z统计量(Wald 统计量)，用户确定其P值显著性水平，当变量不显者，从模型中予以剔除。这样，选入和剔除反复循环，直至无变量选入，也无变量删除为止，选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定，一般

SPSS—二元Logistic回归结果分析报告

SPSS—二元Logistic回归结果分析 2011-12-02 16:48 身心疲惫，睡意连连，头不断往下掉，拿出耳机，听下歌曲，缓解我这严重的睡意吧！今天来分析二元Logistic回归的结果分析结果如下： 1：在“案例处理汇总”中可以看出：选定的案例489个，未选定的案例361个，这个结果是根据设定的validate = 1得到的，在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替，在“分类变量编码”中教育水平分为5类，如果选中“为完成高中，高中，大专，大学等，其中的任何一个，那么就取值为 1，未选中的为0，如果四个都未被选中，那么就是”研究生“ 频率分别代表了处在某个教育水平的个数，总和应该为489个

1：在“分类表”中可以看出：预测有360个是“否”（未违约）有129个是“是”（违约） 2：在“方程中的变量”表中可以看出：最初是对“常数项”记性赋值，B为 -1.026，标准误差为：0.103 那么wald =( B/S.E)2=(-1.026/0.103)2 = 99.2248, 跟表中的“100.029几乎接近，是因为我对数据进行的向下舍入的关系，所以数据会稍微偏小， B和Exp(B) 是对数关系，将B进行对数抓换后，可以得到：Exp(B) = e^-1.026 = 0.358, 其中自由度为1， sig为0.000，非常显著

1：从“不在方程中的变量”可以看出，最初模型，只有“常数项”被纳入了模型，其它变量都不在最初模型表中分别给出了，得分，df , Sig三个值, 而其中得分（Score)计算公式如下：（公式中（Xi- Xˉ) 少了一个平方）下面来举例说明这个计算过程：(“年龄”自变量的得分为例）从“分类表”中可以看出：有129人违约，违约记为“1”则违约总和为 129，选定案例总和为489 那么： yˉ = 129/489 = 0.16 xˉ = 16951 / 489 = 34.2 所以：∑(Xi-xˉ)2 = 30074.9979

二分类Logistic回归的详细SPSS操作

SPSS操作：二分类Logistic回归作者：张耀文 1、问题与数据某呼吸内科医生拟探讨吸烟与肺癌发生之间的关系，开展了一项成组设计的病例对照研究。选择该科室内肺癌患者为病例组，选择医院内其它科室的非肺癌患者为对照组。通过查阅病历、问卷调查的方式收集了病例组和对照组的以下信息：性别、年龄、BMI、COPD病史和是否吸烟。变量的赋值和部分原始数据见表1和表2。该医生应该如何分析？表1. 肺癌危险因素分析研究的变量与赋值表2. 部分原始数据 ID gender age BMI COPD smoke cancer 1 0 34 0 1 1 0 2 1 32 0 1 0 1 3 0 27 0 1 1 1 4 1 28 0 1 1 0 5 1 29 0 1 0 0 6 0 60 0 2 0 0 7 1 29 0 0 1 1 8 1 29 1 1 1 1 9 1 37 0 1 0 0 10 0 17 0 0 0 0 11 0 20 0 0 1 1 12 1 35 0 0 0 0 13 0 17 1 0 1 1

………………… 2、对数据结构的分析该设计中，因变量为二分类，自变量（病例对照研究中称为暴露因素）有二分类变量（性别、BMI和是否吸烟）、连续变量（年龄）和有序多分类变量（COPD 病史）。要探讨二分类因变量与自变量之间的关系，应采用二分类Logistic回归模型进行分析。在进行二分类Logistic回归（包括其它Logistic回归）分析前，如果样本不多而变量较多，建议先通过单变量分析（t检验、卡方检验等）考察所有自变量与因变量之间的关系，筛掉一些可能无意义的变量，再进行多因素分析，这样可以保证结果更加可靠。即使样本足够大，也不建议直接把所有的变量放入方程直接分析，一定要先弄清楚各个变量之间的相互关系，确定自变量进入方程的形式，这样才能有效的进行分析。本例中单变量分析的结果见表3（常作为研究报告或论文中的表1）。表3. 病例组和对照组暴露因素的单因素比较病例组（n=85）对照组(n=259) χ2 /t统计量P 性别，男（%）56 (65.9) 126 (48.6) 7.629 <0.01 年龄（岁），x± s40.3 ±14.0 38.6 ±12.4 1.081 0.28 BMI，n (%) 正常48 (56.5) 137 (52.9) 0.329 0.57 超重或肥胖37 (43.5) 122 (47.1) COPD病史，n (%) 无21 (24.7) 114 (44.0) 14.123 <0.01 轻中度24 (28.2) 75 (29.0) 重度40 (47.1) 70 (27.0) 是否吸烟，n(%) 否18 (21.2) 106 (40.9) 10.829 <0.01 是67 (78.8) 153 (59.1) 单因素分析中，病例组和对照组之间的差异有统计学意义的自变量包括：性别、COPD病史和是否吸烟。此时，应当考虑应该将哪些自变量纳入Logistic回归模型。一般情况下，建议纳入的变量有：1）单因素分析差异有统计学意义的变量（此时，最好将P值放宽一些，比如0.1或0.15等，避免漏掉一些重要因素）；2）单因素分析时，

logistic回归分析案例

1. 数据制备（栅格数据）（1）宝塔区基底图层.tif （2）居民点扩增.tif 、坡度.tif 、坡向.tif 等要素数据。在 environment settings ------ p rocessing extent ------ snap raster （选中基底图层），保证栅格数据像元无偏移，且行列的数量一致。化:Raster to ASCII Inyul r aiLtvl- 匚” k 『号樹 ± 如葡让也\1非*订kilt :f 10. 2 'iiStati EeiT-SlaT 14t L J. KT 2.通过CLUE-S 莫型中的fileconvert 模块，获得logistic 回归分析的数据集。（1）将上一步骤中的因变量 y 和影响因素x 的.txt 文档后缀改为.asc 格式，并将文件放在CLUE-S 模型所在的文件夹中。（2）打开FileCo nvert V2软件，按下图勾选，填写"file list "内容，点击start con version ， 3 田F1 曰 It:. （3）栅格数据转为 ASCII 码，生成txt 文档。匚onversion Tools Ejicel From GPS From KML From Raster 气 Raster to ASCII y Raster to Fist 声.Raster to Point

生成stat .txt文档。祥Fi le 荃 flFfijie? I1id J?1Ji w ■■ 1 ? 9><4 P t414 Tl ?J19 12词 ■M*￡LD|i4I# ■ Q电兀列心￡i k1lf\ 15?1 *■4JE RI7 <1- I 4 話M3 IS r擠uSstalB-^aG 齬￡淨珀bCMir 二i缶 pad... ■ 枝jfcsurrT^cM.a^t 炉 MBlOrtTIdH■: 护 xVcomr-.iic / rll asc 播Tann砂￡]T (2)logistic回归分析按图设置参数因变量、自变量；由于x3属于分类变量，点击分类按钮，按图设置参数。 >M!L4M|昨T祜lt?M? 曲唱-Hl'F1 wB-j' MtF M|T ffl￥ g： ZTStiRiiri SHilfi VTU '_'■ rt 舖C r TI薔色Z4d* ■i aa ■；? 1 iTdlfAflWVK4Wt4「利 E 呻■■} 1■ IdfcWM^U.一尉仇■臂H xlAftL lAMDf Jfit 1Q1?7r -iwns ■B-13磁MT 13 J 工 '-恫fl T l￡j v-IIHH M4Q J0W PW回沐神to 型 rwa： wm 1 H teiiy- 卩厲 4a13 4 ■ira 401?wa 70i-221 ?d'131fefl 加ifUnm 片nu t013*Ozmwkt他 w p1W址?囲血|淞：幽 11013 1 Qm Sft?t 121JJ V s? 014*」； 11 H?iKa； H013 5 *旳 ti a IM■ KK MS V；941 ti Q144T f 7W filwvjcfic OH