当前位置:文档之家› 第18章-Logistic回归思考与练习参考答案.docx

第18章-Logistic回归思考与练习参考答案.docx

第18章-Logistic回归思考与练习参考答案.docx
第18章-Logistic回归思考与练习参考答案.docx

第18 章 Logistic 回归思

考与练习参考答案

一、最佳选择题

1.Logistic回归与多重线性回归比较,(A)。

A.logistic 回归的因变量为二分类变量B.多重线性

回归的因变量为二分类变量

C.logistic 回归和多重线性回归的因变量都可为二分类变量

D.logistic 回归的自变量必须是二分类变量E.多重线性回归

的自变量必须是二分类变量

2.Logistic回归适用于因变量为(E )。

A.二分类变量B.多分类有序变量C.多分类无序变量

D.连续型定量变量E.A、B、C均可

3. Logistic回归系数与优势比OR的关系为

E)。

A.β0 等价于OR>1B.β0 等价于OR<1C.β=0等价于OR=1D.β

< 0 等价于4. Logistic OR<1 E回

归可用于(

. A、 C、 D 均正确

E)。

A.影响因素分析

D.仅有 A 和 C E B.校正混杂因素

. A、 B、C 均可

C.预测

5. Logistic回归中自变量如为多分类变量,宜将其按哑变量处理,与其他变量进行变量筛

选时可用(D)。

A.软件自动筛选的前进法B.软件自动筛选的后退法

C.软件自动筛选的逐步法D.应将几个哑变量作为一个因素,整体进出回归方程

E.A、 B、 C 均可

二、思考题

1.为研究低龄青少年吸烟的外在因素,研究者采用整群抽样,在某中心城区和远城区的初中

学校,各选择初一年级一个班的全部学生进行调查,并用logistic回归方程筛选影响因素。

试问上述问题采用logistic回归是否妥当

答:上述问题采用logistic回归不妥当,因为logistic回归中参数的极大似然估计要

求样本结局事件相互独立,而研究的问题中低龄青少年吸烟行为不独立。

2.分类变量赋值不同对logistic回归有何影响分析结果一致吗

答:( 1)若因变量交换赋值,两个logistic回归方程的参数估计绝对值相等,符号相反;

优势比互为倒数,含义有所区别,实质意义一样;模型拟合检验与回归系数的假设检验结果

相同。

( 2)若改变自变量参照类或哑变量设置方法,logistic回归方程形式、参数含义虽有不

同,但是模型实质与应用结果相同,可以根据研究需要选择不同赋值方法。Logistic回归结果报告中,一定要说明分类变量赋值方法及其参照,否则无法理解模型意义。

3.例18-6研究性别对吸烟行为的影响,采用logistic回归校正了年龄对居民吸烟行为的影

响,请考虑有无其他混杂因素需要校正

答:例18-6 的主要目的是研究吸烟行为与性别的联系及其强度,例题采用logistic回

归只校正了年龄对居民吸烟行为的影响。事实上,除年龄外,仍有其他因素会影响吸烟行为与

性别的联系强度,如家庭人均年收入、受教育程度、主动获取保健知识等。建立回归模型

时,首先应根据专业知识确定可能的影响因素,再采用logistic回归,将性别作为强制引入

变量,对其他可能的影响因素进行变量筛选,最后将性别与筛选出的因素作为自变量建立

logistic 回归方程,从而正确回答校正混杂因素后吸烟行为与性别的联系及其强度。

4.配对病例 - 对照研究资料若采用非条件logistic 回归进行分析,对结果有何影响答:采用

配对(匹配)方法的目的是对可能的混杂因素加以控制,有助于提高研究效率

和可靠性。配对设计的特点是对子内部控制的混杂变量一致,有较好的可比性。配对(匹配)

资料若采用非条件logistic回归进行分析,则忽视了这种可比性,降低了分析方法的检验效

能。

三、计算题

探讨肾细胞癌转移有关的因素研究中,收集了26 例行根治性肾切除术患者的肾癌标本资

料(教材表18-19 ),有关变量说明如下,试进行logistic回归分析。

X1:确诊时患者的年龄(岁)。

X 2:肾细胞癌血管内皮生长因子,其阳性表达由低到高共 3 个等级,分别赋值1、2、3。

X 3:肾细胞癌组织内微血管数。

X 4:肾细胞癌细胞核组织学分级,由低到高共 4 级,分别赋值1、 2、 3、4。

X 5:肾细胞癌分期,由低到高共 4 期,分别赋值1、 2、 3、4。

Y :肾细胞癌转移情况,有转移=1,无转移= 0。

教材表 18-19 26例行根治性肾切除术患者的肾癌标本资料

i X 1X 2X 3X 4X 5Y i X 1X 2 159221014311 236111015363 361221016421 458343117143 555334118321 661121019351 738111020703 842132021652 950111022452 1058322023683 1168342024312 1225243125581 1352111026603数据摘自倪宗瓒.卫生统计学 4 版,人民卫生出版社,2004。

解:

Variables in the Equation

B SE Wald df

X21

X41 Constant–1X 3X 4X 5Y

210

311

210

331

230

210

431

441

240

331

230

430

431 Sig.Exp(B)

Logistic回归分析结果显示:肾细胞癌转移与肾细胞癌血管内皮生长因子和肾细胞癌细胞

核组织学分级有关。肾细胞癌血管内皮生长因子X 2和肾细胞癌细胞核组织学分级X 4的回归系数均为正值,说明两个变量取值越大,则肾细胞癌转移的危险性越大。在肾细胞癌细胞核

组织学分级不变条件下,肾细胞癌血管内皮生长因子每增加一级,肾细胞癌转移的优势增至

倍,增加倍;在肾细胞癌血管内皮生长因子不变条件下,肾细胞癌细胞核组织学分级每增加

一级,肾细胞癌转移的优势增至倍,增加倍。

(毛宗福余红梅)

SPSS实验8-二项Logistic回归分析

SPSS作业8:二项Logistic回归分析 为研究和预测某商品消费特点和趋势,收集到以往胡消费数据。数据项包括是否购买,性别,年龄和收入水平。这里采用Logistic回归的方法,是否购买作为被解释变量(0/1二值变量),其余各变量为解释变量,且其中性别和收入水平为品质变量,年龄为定距变量。变量选择采用Enter方法,性别以男为参照类,收入以低收入为参照类。 (一)基本操作: (1)选择菜单Analyz e-Regression-Binary Logistic; (2)选择是否购买作为被解释变量到Dependent框中,选其余各变量为解释变量到Covariates框中,采用Enter方法,结果如下: 分析:上表显示了对品质变量产生虚拟变量的情况,产生的虚拟变量命名为原变量名(编码)。可以看到,对收入生成了两个虚拟变量名为Income(1)和Income(2),分别表示是否中收入和是否高收入,两变量均为0时表示低收入;对性别生成了一个虚拟变量名为Gedder(1),表示是否女,取值为0

时表示为男。 消费的二项Logistic分析结果(二)(强制进入策略) 分析:上表显示了Logistic分析初始阶段(第零步)方程中只有常数项时的错判矩阵。可以看到:269人中实际没购买且模型预测正确,正确率为100%;162人中实际购买了但模型均预测错误,正确率为0%。模型总的预测正确率为62.4%。 消费的二项Logistic分析结果(三)(强制进入策略)

分析:上表显示了方程中只有常数项时的回归系数方面的指标,各数据项的含义依次为回归系数,回归系数标准误差,Wald检验统计量的观测值,自由度,Wald检验统计量的概率p值,发生比。由于此时模型中未包含任何解释变量,因此该表没有实际意义。 分析:上表显示了待进入方程的各个变量的情况,各数据项的含义依次为Score检验统计量的观测值,自由度和概率p值。可以看到,如果下一步Age 进入方程,则Score检验统计量的观测值为1.268,概率p值为0.26。如果显著性水平a为0.05,由于Age的概率p值大于显著性水平a,所以是不能进入方程的。但在这里,由于解释变量的筛选策略为Enter,所以这些变量也被强行进入方程。

Logistic回归分析简介

Logistic回归分析简介 Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。1.应用范围: ①适用于流行病学资料的危险因素分析 ②实验室中药物的剂量-反应关系 ③临床试验评价 ④疾病的预后因素分析 2.Logistic回归的分类: ①按因变量的资料类型分: 二分类 多分类 其中二分较为常用 ②按研究方法分: 条件Logistic回归 非条件Logistic回归 两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍 研究。 3.Logistic回归的应用条件是: ①独立性。各观测对象间是相互独立的; ②LogitP与自变量是线性关系; ③样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10倍 为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然

估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多; ④当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观 察时间的影响(建议用Poisson回归)。 4.拟和logistic回归方程的步骤: ①对每一个变量进行量化,并进行单因素分析; ②数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等 级资料。可采用的方法有依据经验进行离散,或是按照四分、五分位数 法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离 散变量。 ③对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级 变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量 变换; ④在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或 0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型 程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变 量。可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计 量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选 择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald 统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔 除。这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般

SPSS—二元Logistic回归结果分析报告

SPSS—二元Logistic回归结果分析 2011-12-02 16:48 身心疲惫,睡意连连,头不断往下掉,拿出耳机,听下歌曲,缓解我这严重的睡意吧!今天来分析二元Logistic回归的结果 分析结果如下: 1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替,在“分类变量编码”中教育水平分为5类,如果选中“为完成高中,高中,大专,大学等,其中的任何一个,那么就取值为 1,未选中的为0,如果四个都未被选中,那么就是”研究生“ 频率分别代表了处在某个教育水平的个数,总和应该为489个

1:在“分类表”中可以看出:预测有360个是“否”(未违约)有129个是“是”(违约) 2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为 -1.026,标准误差为:0.103 那么wald =( B/S.E)2=(-1.026/0.103)2 = 99.2248, 跟表中的“100.029几乎接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小, B和Exp(B) 是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中自由度为1, sig为0.000,非常显著

1:从“不在方程中的变量”可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型 表中分别给出了,得分,df , Sig三个值, 而其中得分(Score)计算公式如下: (公式中(Xi- Xˉ) 少了一个平方) 下面来举例说明这个计算过程:(“年龄”自变量的得分为例) 从“分类表”中可以看出:有129人违约,违约记为“1”则违约总和为 129,选定案例总和为489 那么: yˉ = 129/489 = 0.16 xˉ = 16951 / 489 = 34.2 所以:∑(Xi-xˉ)2 = 30074.9979

二分类Logistic回归的详细SPSS操作

SPSS操作:二分类Logistic回归 作者:张耀文 1、问题与数据 某呼吸内科医生拟探讨吸烟与肺癌发生之间的关系,开展了一项成组设计的病例对照研究。选择该科室内肺癌患者为病例组,选择医院内其它科室的非肺癌患者为对照组。通过查阅病历、问卷调查的方式收集了病例组和对照组的以下信息:性别、年龄、BMI、COPD病史和是否吸烟。变量的赋值和部分原始数据见表1和表2。该医生应该如何分析? 表1. 肺癌危险因素分析研究的变量与赋值 表2. 部分原始数据 ID gender age BMI COPD smoke cancer 1 0 34 0 1 1 0 2 1 32 0 1 0 1 3 0 27 0 1 1 1 4 1 28 0 1 1 0 5 1 29 0 1 0 0 6 0 60 0 2 0 0 7 1 29 0 0 1 1 8 1 29 1 1 1 1 9 1 37 0 1 0 0 10 0 17 0 0 0 0 11 0 20 0 0 1 1 12 1 35 0 0 0 0 13 0 17 1 0 1 1

………………… 2、对数据结构的分析 该设计中,因变量为二分类,自变量(病例对照研究中称为暴露因素)有二分类变量(性别、BMI和是否吸烟)、连续变量(年龄)和有序多分类变量(COPD 病史)。要探讨二分类因变量与自变量之间的关系,应采用二分类Logistic回归模型进行分析。 在进行二分类Logistic回归(包括其它Logistic回归)分析前,如果样本不多而变量较多,建议先通过单变量分析(t检验、卡方检验等)考察所有自变量与因变量之间的关系,筛掉一些可能无意义的变量,再进行多因素分析,这样可以保证结果更加可靠。即使样本足够大,也不建议直接把所有的变量放入方程直接分析,一定要先弄清楚各个变量之间的相互关系,确定自变量进入方程的形式,这样才能有效的进行分析。 本例中单变量分析的结果见表3(常作为研究报告或论文中的表1)。 表3. 病例组和对照组暴露因素的单因素比较 病例组(n=85)对照组(n=259) χ2 /t统计量P 性别,男(%)56 (65.9) 126 (48.6) 7.629 <0.01 年龄(岁),x± s40.3 ±14.0 38.6 ±12.4 1.081 0.28 BMI,n (%) 正常48 (56.5) 137 (52.9) 0.329 0.57 超重或肥胖37 (43.5) 122 (47.1) COPD病史,n (%) 无21 (24.7) 114 (44.0) 14.123 <0.01 轻中度24 (28.2) 75 (29.0) 重度40 (47.1) 70 (27.0) 是否吸烟,n(%) 否18 (21.2) 106 (40.9) 10.829 <0.01 是67 (78.8) 153 (59.1) 单因素分析中,病例组和对照组之间的差异有统计学意义的自变量包括:性别、COPD病史和是否吸烟。 此时,应当考虑应该将哪些自变量纳入Logistic回归模型。一般情况下,建议纳入的变量有:1)单因素分析差异有统计学意义的变量(此时,最好将P值放宽一些,比如0.1或0.15等,避免漏掉一些重要因素);2)单因素分析时,

logistic回归分析案例

1. 数据制备(栅格数据) (1) 宝塔区基底图层.tif (2) 居民点扩增.tif 、坡度.tif 、坡向.tif 等要素数据。 在 environment settings ------ p rocessing extent ------ snap raster (选中基底图层),保证栅格数据 像元无偏移,且行列的数量一致。 化:Raster to ASCII Inyul r aiLtvl- 匚” k 『号樹 ± 如葡让也\1非*订kilt :f 10. 2 'iiStati EeiT-SlaT 14t L J. KT 2.通过CLUE-S 莫型中的fileconvert 模块,获得logistic 回归分析的数据集。 (1) 将上一步骤中的因变量 y 和影响因素x 的.txt 文档后缀改为.asc 格式,并将文件 放在CLUE-S 模型所在的文件夹中。 (2) 打开FileCo nvert V2软件,按下图勾选,填写"file list "内容,点击start con version , 3 田F1 曰 It:. (3)栅格数据转为 ASCII 码,生成txt 文档。 匚onversion Tools Ejicel From GPS From KML From Raster 气 Raster to ASCII y Raster to Fist 声.Raster to Point

生成stat .txt文档。 祥Fi le 荃 flFfijie? I1id J?1Ji w ■■ 1 ? 9><4 P t414 Tl ?J19 12词 ■M*£LD|i4I# ■ Q电兀列心£i k1lf\ 15?1 *■4JE RI7 <1- I 4 話M3 IS r擠uSstalB-^aG 齬£ 淨珀bCMir 二i缶 pad... ■ 枝jfcsurrT^cM.a^t 炉 MBlOrtTIdH■: 护 xVcomr-.iic / rll asc 播Tann砂£]T (2)logistic回归分析 按图设置参数因变量、自变量;由于x3属于分类变量,点击分类按钮,按图设置参数。 >M!L4M|昨T祜lt?M? 曲唱-Hl'F1 wB-j' MtF M|T ffl¥ g: ZTStiRiiri SHilfi VTU '_'■ rt 舖C r TI薔色Z4d* ■i aa ■;? 1 iTdlfAflWVK4Wt4「利 E 呻■■} 1■ IdfcWM^U.一尉仇■臂H xlAftL lAMDf Jfit 1Q1?7r -iwns ■B-13磁MT 13 J 工 '-恫fl T l£j v-IIHH M4Q J0W PW回沐神to 型 rwa: wm 1 H teiiy- 卩厲 4a13 4 ■ira 401?wa 70i-221 ?d'131fefl 加ifUnm 片nu t013*Ozmwkt他 w p1W址?囲血|淞:幽 11013 1 Qm Sft?t 121JJ V s? 014*」; 11 H?iKa; H013 5 *旳 ti a IM■ KK MS V;941 ti Q144T f 7W filwvjcfic OH

(整理)多项分类Logistic回归分析的功能与意义1.

多项分类Logistic回归分析的功能与意义 我们经常会遇到因变量有多个取值而且无大小顺序的情况,比如职业、婚姻情况等等,这时一般的线性回归分析无法准确地刻画变量之间的因果关系,需要用其它回归分析方法来进行拟合模型。SPSS的多项分类Logistic回归便是一种简便的处理该类因变量问题的分析方法。 例子:下表给出了对山东省某中学20名视力低下学生视力监测的结果数据。试用多项分类Logistic回归分析方法分析视力低下程度(由轻到重共3级)与年龄、性别(1代表男性,2代表女性)之间的关系。

“年龄”使之进入“协变量”列表框。

还是以教程“blankloan.sav"数据为例,研究银行客户贷款是否违约(拖欠)的问题,数据如下所示: 上面的数据是大约700个申请贷款的客户,我们需要进行随机抽样,来进行二元Logistic 回归分析,上图中的“0”表示没有拖欠贷款,“1”表示拖欠贷款,接下来,步骤如下: 1:设置随机抽样的随机种子,如下图所示:

选择“设置起点”选择“固定值”即可,本人感觉200万的容量已经足够了,就采用的默认值,点击确定,返回原界面、 2:进行“转换”—计算变量“生成一个变量(validate),进入如下界面: 在数字表达式中,输入公式:rv.bernoulli(0.7),这个表达式的意思为:返回概率为0.7的bernoulli分布随机值 如果在0.7的概率下能够成功,那么就为1,失败的话,就为"0" 为了保持数据分析的有效性,对于样本中“违约”变量取缺失值的部分,validate变量也取缺失值,所以,需要设置一个“选择条件” 点击“如果”按钮,进入如下界面:

多项分类Logistic回归研究分析的功能与意义-()

多项分类Logistic回归分析的功能与意义-()

————————————————————————————————作者:————————————————————————————————日期:

多项分类Logistic回归分析的功能与意义 我们经常会遇到因变量有多个取值而且无大小顺序的情况,比如职业、婚姻情况等等,这时一般的线性回归分析无法准确地刻画变量之间的因果关系,需要用其它回归分析方法来进行拟合模型。SPSS的多项分类Logistic回归便是一种简便的处理该类因变量问题的分析方法。 例子:下表给出了对山东省某中学20名视力低下学生视力监测的结果数据。试用多项分类Logistic回归分析方法分析视力低下程度(由轻到重共3级)与年龄、性别(1代表男性,2代表女性)之间的关系。 山东省某中学20名学生视力监测结果数据 编号视力低下程度性别年龄 11115 21115 32114 42216 53216 63217 72217 82118 91114 103218 111117 121217 131115 142118 151215 161215 173217 181115 191115 202216 分析步骤: 1、进入SPSS,打开“分析”|“回归”|“多项Logistic” 命令。 2、选择进行Logistic 回归的变量。如下图所示对话框左侧的列表中,选中“视力低下程度”

并单击向右的箭头按钮使之进入“因变量”列表框,选择“性别”使之进入“因子”列表框,选择“ 年龄”使之进入“协变量”列表框。 6.jpg(38.14 KB, 下载次数: 47) 下载附件 2012-8-13 23:20 上传 3、其它设置使用系统默认设置即可。 4、设置完毕,单击“确定”按钮,等待输出结果。 模型拟合信息 模型 模型拟合 标准 似然比检验 -2 倍对数 似然值 卡方df显著水平 仅截距32.633 最终18.80413.8284.008 伪R 方 Cox 和 Snell .499 Nagelkerke.572 McFadden.336

Logistic回归分析报告结果解读分析

Logistic 回归分析报告结果解读分析 Logistic 回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是” 或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量,也可以为分类变量。通过Logistic 回归分析,就可以大致了解胃癌的危险因素。 Logistic 回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量;Logistic 回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。 1. Logistic 回归的用法 一般而言,Logistic 回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic 回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。 2. 用Logistic回归估计危险度 所谓相对危险度(risk ratio , RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的 比值。Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。如不同性别的

胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,

图文举例详细讲解Logistic曲线的回归分析

Logistic曲线的回归分析 例某一品种玉米高度与时间(生长周期,每个生长周期为2-3天,与气温有关)的数据如 表1.所示。用转化为线性方程的方法估计其logistic曲线预测模型。设最大值k为300(cm)。 表1.玉米高度与时间(生长周期)的关系 时间(生长周期)高度/cm时间(生长周期)高度/cm时间(生长周期)高度/cm 10.671212.752297.4620.851316.5523112.7 31.281420.124135.141.751527.3525153.652.271632.5526160.362.751737.55271 67.173.691844.7528174.984.711953.3829177.996.362071.6130180.2 107.732183.8931180.8119.91 3.1基本绘图操作 在Excel中输入时间x与高度y的数据。 选择插入->图表 图87 点击图表,选择“标准类型”中的xy散点图,并点击子图表类型的第一个。

图88 点击下一步,得到如图89。 图89

点击下一步。 图90 分别点击标题、网格线、图例进行修改,然后点击下一步。 图91 点击完成。 图92 右击绘图区,修改绘图区格式,双击做表格,修改坐标轴刻度,最后的散点图。

图93 观察散点图,其呈S型曲线,符合logistic曲线。采用转化为线性方程的方法求解模型。 3.2Logistic曲线方程及线性化 Logistic曲线方程为: y 1 k at me(12) (1)将数据线性化及成图 转化为线性方程为: y'aat 01 (13 ) 其中,y'ln(k/y1),a 0lnm,a1a 具体操作为: 向excel表格中输入y’数据。

Logistic回归分析报告结果解读分析.docx

Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量,也可以为分类变量。通过Logistic回归分析,就可以大致了解胃癌的危险因素。 Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。 1.Logistic回归的用法 一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。 2.用Logistic回归估计危险度 所谓相对危险度(risk ratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的 比值。Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,

这样就表示,男性发生胃癌的风险是女性的1.7倍。这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是1.7。如果以男性作为参照,算出的OR将会是0.588(1/1.7),表示女性发生胃癌的风险是男性的0.588倍,或者说,是男性的58.8%。撇开了参照组,相对危险度就没有意义了。 Logistic回归在医学研究中广泛使用的原因之一,就是模型直接给出具有临床实际意义的OR值,很大程度上方便了结果的解读与推广。 图1 相对危险度(risk ratio,RR)与OR(odds ratio)的表达 3. Logistic报告OR值或β值 在Logistic回归结果汇报时,往往会遇到这样一个问题:是应该报告OR值,

二分类与多分类Logistic回归模型

二分类Logistic 回归模型 在对资料进行统计分析时常遇到反应变量为分类变量的资料,那么,能否用类似于线性回归的模型来对这种资料进行分析呢?答案是肯定的。本章将向大家介绍对二分类因变量进行回归建模的Logistic 回归模型。 第一节 模型简介 一、模型入门 在很多场合下都能碰到反应变量为二分类的资料,如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等。对于分类资料的分析,相信大家并不陌生,当要考察的影响因素较少,且也为分类变量时,分析者常用列联表(contingency T able)的形式对这种资料进行整理,并使用2 χ检验来进行分析,汉存在分类的混杂因素时,还可应用Mantel-Haenszel 2χ检验进行统计学检验,这种方法可以很好地控制混杂因素的影响。但是这种经典分析方法也存在局限性,首先,它虽然可以控制若干个因素的作用,但无法描述其作用大小及方向,更不能考察各因素间是否存在交互任用;其次,该方法对样本含量的要求较大,当控制的分层因素较多时,单元格被划分的越来越细,列联表的格子中频数可能很小甚至为0,将导致检验结果的不可靠。最后,2χ检验无法对连续性自变量的影响进行分析,而这将大大限制其应用范围,无疑是其致使的缺陷。 那么,能否建立类似于线性回归的模型,对这种数据加以分析?以最简单的二分类因变量为例来加以探讨,为了讨论方便,常定义出现阳性结果时反应变量取值为1,反之则取值为0 。例如当领导层有女性职员、下雨、痊愈时反应变量1y =,而没有女性职员、未下雨、未痊愈时反应变量0y =。记出现阳性结果的频率为反应变量(1)P y =。 首先,回顾一下标准的线性回归模型:

第18章 Logistic回归思考与练习参考答案

第18章Logistic回归 思考与练习参考答案 一、最佳选择题 1. Logistic回归与多重线性回归比较,( A )。 A.logistic回归的因变量为二分类变量 B.多重线性回归的因变量为二分类变量 C.logistic回归和多重线性回归的因变量都可为二分类变量 D.logistic回归的自变量必须是二分类变量 E.多重线性回归的自变量必须是二分类变量 2. Logistic回归适用于因变量为( E )。 A.二分类变量B.多分类有序变量C.多分类无序变量 D.连续型定量变量E.A、B、C均可 3. Logistic回归系数与优势比OR的关系为( E )。 A.> β0等价于OR<1 C.β=0等价于OR=1 β0等价于OR>1 B.> D.β<0等价于OR<1 E.A、C、D均正确 4. Logistic回归可用于( E )。 A.影响因素分析B.校正混杂因素C.预测 D.仅有A和C E.A、B、C均可 5. Logistic回归中自变量如为多分类变量,宜将其按哑变量处理,与其他变量进行变量筛选时可用( D )。 A.软件自动筛选的前进法B.软件自动筛选的后退法 C.软件自动筛选的逐步法D.应将几个哑变量作为一个因素,整体进出回归方程E.A、B、C均可 二、思考题 1. 为研究低龄青少年吸烟的外在因素,研究者采用整群抽样,在某中心城区和远城区的初中学校,各选择初一年级一个班的全部学生进行调查,并用logistic回归方程筛选影响因素。试问上述问题采用logistic回归是否妥当?

答:上述问题采用logistic回归不妥当,因为logistic回归中参数的极大似然估计要求样本结局事件相互独立,而研究的问题中低龄青少年吸烟行为不独立。 2. 分类变量赋值不同对logistic回归有何影响? 分析结果一致吗? 答:(1)若因变量交换赋值,两个logistic回归方程的参数估计绝对值相等,符号相反;优势比互为倒数,含义有所区别,实质意义一样;模型拟合检验与回归系数的假设检验结果相同。 (2)若改变自变量参照类或哑变量设置方法,logistic回归方程形式、参数含义虽有不同,但是模型实质与应用结果相同,可以根据研究需要选择不同赋值方法。Logistic回归结果报告中,一定要说明分类变量赋值方法及其参照,否则无法理解模型意义。 3. 例18-6研究性别对吸烟行为的影响,采用logistic回归校正了年龄对居民吸烟行为的影响,请考虑有无其他混杂因素需要校正? 答:例18-6的主要目的是研究吸烟行为与性别的联系及其强度,例题采用logistic回归只校正了年龄对居民吸烟行为的影响。事实上,除年龄外,仍有其他因素会影响吸烟行为与性别的联系强度,如家庭人均年收入、受教育程度、主动获取保健知识等。建立回归模型时,首先应根据专业知识确定可能的影响因素,再采用logistic回归,将性别作为强制引入变量,对其他可能的影响因素进行变量筛选,最后将性别与筛选出的因素作为自变量建立logistic回归方程,从而正确回答校正混杂因素后吸烟行为与性别的联系及其强度。 4. 配对病例-对照研究资料若采用非条件logistic回归进行分析,对结果有何影响? 答:采用配对(匹配)方法的目的是对可能的混杂因素加以控制,有助于提高研究效率和可靠性。配对设计的特点是对子内部控制的混杂变量一致,有较好的可比性。配对(匹配)资料若采用非条件logistic回归进行分析,则忽视了这种可比性,降低了分析方法的检验效能。 三、计算题 探讨肾细胞癌转移有关的因素研究中,收集了26例行根治性肾切除术患者的肾癌标本资料(教材表18-19),有关变量说明如下,试进行logistic回归分析。 X:确诊时患者的年龄(岁)。 1 X:肾细胞癌血管内皮生长因子,其阳性表达由低到高共3个等级,分别赋值1、2、3。 2 X:肾细胞癌组织内微血管数。 3 X:肾细胞癌细胞核组织学分级,由低到高共4级,分别赋值1、2、3、4。 4

SPSS与社会统计学逻辑回归分析Logistic课程

SPSS与社会统计学逻辑回归分析Logistic课程作业二[1]陈昱,陈银蓉,马文博. 基于Logistic模型的水库移民安置区居民土地流转意愿分析——四川、湖南、湖北移民安置区的调查[J]. 资源科学,2011,06:1178-1185. 一、变量赋值 1.被解释变量用0表示不愿意流转,1表示愿意流转,有意愿上的状态表示效果。 2.性别分别用1和2表示男女,男女不存在有没有状态的表征,所以用1、2赋值非常合适;它的预计影响方向为负,是基于学者张林秀、刘承芳等认为:由于农村男性外出打工的几率高于女性,女性更愿意在家耕种土地,这就可能导致女性不愿意转出土地的基础上设定的。 3.教育程度越高赋值越高,且预测影响为正,这个也是在文章前面定量分析的时候引用学者李实的观点说明赋值的理由。 4.职业类型中,兼业化程度越高赋值越高,且为正向。从家庭收入对农业收入的依赖性原理角度来看这个不难理解。 5.其它变量的赋值依据实际情况初步判断也不能理解其赋值的缘由。然而对于“是否为村干部”这一变量来看,预测的趋向是:是村干部则不愿

意流转,前面的分析并没有说明为什么会是这样。虽然这知识一种预判,但是若能够给出预判的一丁点理由就更好了。 二、系数解读 1. 标准化系数中,x1,x3,x7,x9,x11,x12系数为付,意味着性 别是男、与市中心距离越近、家庭人口和劳动力人数越少、农业 收入占比越少、认为土地经营权权属则土地流转的意愿越强; 2. 其中X3(与市中心距离),x9(劳动力人数)影响系数绝对值较大, 分别为0.815,0.322。在显著性检验方面,x3、x9、x11分别通过 了15%、1%、5%的显著性检验。也就是说,土地不愿意流转与 劳动力人数多有显著相关性,与农业收入占比高有较显著的相 关,与市中心距离近相关性不显著。 3. 系数为正的变量中,影响系数均不高,但能通过显著性检验的

第十二章+Logistic回归分析

第十二章 Logistic 回归分析 一、Logistic 回归概述: Logistic 回归主要用于筛选疾病的危险因素、预后因素或评价治疗措施;通常以疾病的死亡、痊愈等结果发生的概率为因变量,以影响疾病发生和预后的因素为自变量建立模型。 二、Logistic 回归的分类及资料类型: 第一节 非条件Logistic 回归分析 一、Logistic 回归模型: Logistic 回归模型: logit (P )= ln( p p -1) = β0+β1χ1 + … +βn χn 二、回归系数的估计(参数估计): 回归模型的参数估计:Logistic 回归模型的参数估计通常利用最大似然估计法。 三、假设检验: 1.Logistic 回归方程的检验: ·检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性关系,也即方程是否成立。 ·检验的方法有似然比检验、比分检验(score test )和Wald 检验(wald test )。上述三种方法中,似然比检验最可靠。 ·似然比检验(likehood ratio test ):通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G=-2ln(L)(又称Deviance )。无效假设H 0:β=0。当H 0成立时,检验统计量G 近似服从自由度为N-P-1的X 2分布。当G 大于临界值时,接受H 1,拒绝无效假设,认为从整体上看适合作Logistic 回归分析,回归方程成立。 2.Logistic 回归系数的检验: ·为了确定哪些自变量能进入方程,还需要对每个自变量的回归系数进行假设检验,判断其对模型是否有贡献。 ) (11011011011011)](exp[11 )exp(1)exp(p p X X p p p p p p e X X X X X X p ββββββββββββ+++-+= +++-+=+++++++=

如何用SPSS做logistic回归分析

如何用spss17.0进行二元和多元logistic回归分析 一、二元logistic回归分析 二元logistic回归分析的前提为因变量是可以转化为0、1的二分变量,如:死亡或者生存,男性或者女性,有或无,Yes或No,是或否的情况。 下面以医学中不同类型脑梗塞与年龄和性别之间的相互关系来进行二元logistic回归分析。 (一)数据准备和SPSS选项设置 第一步,原始数据的转化:如图1-1所示,其中脑梗塞可以分为ICAS、ECAS和NCAS三种,但现在我们仅考虑性别和年龄与ICAS的关系,因此将分组数据ICAS、ECAS和NCAS转化为1、0分类,是ICAS赋值为1,否赋值为0。年龄为数值变量,可直接输入到spss中,而性别需要转化为(1、0)分类变量输入到spss当中,假设男性为1,女性为0,但在后续分析中系统会将1,0置换(下面还会介绍),因此为方便期间我们这里先将男女赋值置换,即男性为“0”,女性为“1”。 图1-1 第二步:打开“二值Logistic 回归分析”对话框: 沿着主菜单的“分析(Analyze)→回归(Regression)→二元logistic (Binary Logistic)”的路径(图1-2)打开二值Logistic 回归分析选项框(图1-3)。

如图1-3左侧对话框中有许多变量,但在单因素方差分析中与ICAS 显著相关的为性别、年龄、有无高血压,有无糖尿病等(P<0.05),因此我们这里选择以性别和年龄为例进行分析。

在图1-3中,因为我们要分析性别和年龄与ICAS的相关程度,因此将ICAS选入因变量(Dependent)中,而将性别和年龄选入协变量(Covariates)框中,在协变量下方的“方法(Method)”一栏中,共有七个选项。采用第一种方法,即系统默认的强迫回归方法(进入“Enter”)。 接下来我们将对分类(Categorical),保存(Save),选项(Options)按照如图1-4、1-5、1-6中所示进行设置。在“分类”对话框中,因为性别为二分类变量,因此将其选入分类协变量中,参考类别为在分析中是以最小数值“0(第一个)”作为参考,还是将最大数值“1(最后一个)”作为参考,这里我们选择第一个“0”作为参考。在“存放”选项框中是指将不将数据输出到编辑显示区中。在“选项”对话框中要勾选如图几项,其中“exp(B)的CI(X)”一定要勾选,这个就是输出的OR和CI值,后面的95%为系统默认,不需要更改。

利用SPSS进行logistic回归分析(二元、多项)

线性回归是很重要的一种回归方法,但是线性回归只适用于因变量为连续型变量的情况,那如果因变量为分类变量呢?比方说我们想预测某个病人会不会痊愈,顾客会不会购买产品,等等,这时候我们就要用到logistic回归分析了。Logistic回归主要分为三类,一种是因变量为二分类得logistic回归,这种回归叫做二项logistic回归,一种是因变量为无序多分类得logistic回归,比如倾向于选择哪种产品,这种回归叫做多项logistic回归。还有一种是因变量为有序多分类的logistic回归,比如病重的程度是高,中,低呀等等,这种回归也叫累积logistic回归,或者序次logistic回归。 二值logistic回归: 选择分析——回归——二元logistic,打开主面板,因变量勾选你的二分类变量,这个没有什么疑问,然后看下边写着一个协变量。有没有很奇怪什么叫做协变量?在二元logistic回归里边可以认为协变量类似于自变量,或者就是自变量。把你的自变量选到协变量的框框里边。 细心的朋友会发现,在指向协变量的那个箭头下边,还有一个小小的按钮,标着a*b,这个按钮的作用是用来选择交互项的。我们知道,有时候两个变量合在一起会产生新的效应,比如年龄和结婚次数综合在一起,会对健康程度有一个新的影响,这时候,我们就认为两者有交互效应。那么我们为了模型的准确,就把这个交互效应也选到模型里去。我们在右边的那个框框里选择变量a,按住ctrl,在选择变量b,那么我们就同时选住这两个变量了,然后点那个a*b的按钮,这样,一个新的名字很长的变量就出现在协变量的框框里了,就是我们的交互作用的变量。 然后在下边有一个方法的下拉菜单。默认的是进入,就是强迫所有选择的变量都进入到模型里边。除去进入法以外,还有三种向前法,三种向后法。一般默认进入就可以了,如果做出来的模型有变量的p值不合格,就用其他方法在做。再下边的选择变量则是用来选择你的个案的。一般也不用管它。 选好主面板以后,单击分类(右上角),打开分类对话框。在这个对话框里边,左边的协变量的框框里边有你选好的自变量,右边写着分类协变量的框框则是空白的。你要把协变量里边的字符型变量和分类变量选到分类协变量里边去(系统会自动生成哑变量来方便分析,什么事哑变量具体参照前文)。这里的字符型变量指的是用值标签标注过得变量,不然光文字,系统也没法给你分析啊。选好以后,分类协变量下边还有一个更改对比的框框,我们知道,对于分类变量,spss需要有一个参照,每个分类都通过和这个参照进行比较来得到结果,更改对比这个框框就是用来选择参照的。默认的对比是指示符,也就是每个分类都和总体进行比较,除了指示符以外还有简单,差值等。这个框框不是很重要,默认就可以了。 点击继续。然后打开保存对话框,勾选概率,组成员,包含协方差矩阵。点击继续,打开选项对话框,勾选分类图,估计值的相关性,迭代历史,exp(B)的CI,在模型中包含常数,输出——在每个步骤中。如果你的协变量有连续型的,或者小样本,那还要勾选Hosmer-Lemeshow拟合度,这个拟合度表现的会较好一些。 继续,确定。 然后,就会输出结果了。主要会输出六个表。 第一个表是模型系数综合检验表,要看他模型的p值是不是小于0.05,判断我们这个logistic回归方程有没有意义。

图文举例详细讲解Logistic曲线的回归分析

Logistic 曲线的回归分析 例 某一品种玉米高度与时间(生长周期,每个生长周期为2-3天,与气温有关)的数据如表1.所示。用转化为线性方程的方法估计其logistic 曲线预测模型。设最大值k 为300(cm )。 表1. 玉米高度与时间(生长周期)的关系 时间(生长周期) 高度/cm 时间(生长周期) 高度 /cm 时间(生长周期) 高度/cm 1 2 3 4 5 6 7 8 9 10 11 0.67 0.85 1.28 1.75 2.27 2.75 3.69 4.71 6.36 7.73 9.91 12 13 14 15 16 17 18 19 20 21 12.75 16.55 20.1 27.35 32.55 37.55 44.75 53.38 71.61 83.89 22 23 24 25 26 27 28 29 30 31 97.46 112.7 135.1 153.6 160.3 167.1 174.9 177.9 180.2 180.8 3.1 基本绘图操作 在Excel 中输入时间x 与高度y 的数据。 选择插入->图表 图87 点击图表,选择“标准类型”中的xy 散点图,并点击子图表类型的第一个。

图88 点击下一步,得到如图89。 图89

点击下一步。 图90 分别点击标题、网格线、图例进行修改,然后点击下一步。 图91 点击完成。 图92 右击绘图区,修改绘图区格式,双击做表格,修改坐标轴刻度,最后的散点图。

图93 观察散点图,其呈S 型曲线,符合logistic 曲线。采用转化为线性方程的方法求解模型。 3.2 Logistic 曲线方程及线性化 Logistic 曲线方程为: 1at k y me -= + (12) (1) 将数据线性化及成图 转化为线性方程为: 01'y a a t =+ (13) 其中,'ln(/1)y k y =-,0ln a m =,1a a =- 具体操作为: 向excel 表格中输入y ’数据。

多分类Logistic回归

多分类logistic回归 步骤: Analyze——Regression——multinomial logistic regression,将应变量“结果”调入dependent,由于所有自变量均为分类变量,所以将“感染时间”、ALT、病毒载量、alt一过、病毒下降,所有自变量调入factor,其他均采用默认操作,点OK,最终结果如下: (你发给我的结果我没打开,所以怕你也打不开,我截图了啊)。 到这里,回归操作已经进行完毕,接下来根据得到的以上回归结果进行预测。 在做多分类logistic回归时,如果应变量Y有n个值,以其中一个类别做为参考类别(baseline category),其他类别都同它相比较生成n-1个非冗余的logit变量模型。如,y=n做为参考类别,则对于y=i,其logit模型为:

(公式1) 对于参考类别,其模型中所有系数均为0. SPSS中默认将最大类别做为参考类别。本例应变量y分三类:1=联合应答,2=部分应答,3=不应答。因此,将3=不应答做为应变量的参考类别。所以,出现结果方框下第一行字:The reference category is:3不应答。因为“3不应答”做了参考类别,所以“3不应答”的所有系数均为0,所以执行结果中不显示。 同样,感染时间=3、病毒载量=3、基因型=3、alt一过=2、病毒下降=2、 alt=3,分别做为各个自变量的参考变量,其系数也均为0. 回归的目的是为了预测。假设已知一患者,其感染时间=1,病毒载量=2,基因型=1,alt一过=1,病毒下降=1,alt=2,预测该患者的结果是联合应答、部分应答、不应答的可能性分别是多大? 第一步:根据公式1计算各种应答水平的g值。 对于联合应答:g1=-2.813+3.056+0.439+1.059+0.392+2.290-1.501=2.922 对于部分应答:g2=-1.104+1.829-0.125-0.737-0.214+1.491-1.389=-0.249 对于不应答:g3=0. 因为不应答组是应变量y的参考组,所有系数均为0. 第二步:根据公式2计算各种应答水平的P值。 (公式2)

相关主题
文本预览
相关文档 最新文档