当前位置：文档之家› 二元logistic逻辑回归分析8)

二元logistic逻辑回归分析8)

《应用二分类Logistic回归模型分析浅表淋巴结良恶性的超声诊断结果》文中把与恶性相关的指标赋值记录为1，与良性相关的指标赋值记录为0：单发（记

为0），多发（记为1）。测量淋巴结最大切面的长径和短径，计算长短径比值，大于等于2 记为0，小于2记为1。边界以淋巴结周围亮线样回声完整为清晰（记为0），回声不完整或与其他淋巴结融合为不清晰（记为1）。内部回声及分布主要分析皮质回声，低于髓质为低回声（记为0），高于髓质为高回声（记为1）；分布均匀一致（记为1），内部回声混杂多样（记

为0）。如果淋巴结内存在无回声区则为透声（记为0），否则为无透声（记为1）。淋巴结门结构主要分析髓质，以中心高回声带存在为清晰（记为0），消失为不清晰（记为1）。肿大淋巴结彼此孤立为不融合（记为0），不同肿大淋巴结不能区分开为相互融合（记为1）。淋巴结血供以清晰显示多条血管状血流信号为丰富（记为1），无明显血流或只有少量点状血流信号为不丰富（记为0）。其血流信号类型为无血流型（0 型），血流信号沿淋巴门分布为淋巴门型血流（1 型），淋巴结内有血流信号但无规则分布为中心型血流（2 型），淋巴门处无血流信号而血流信号主要分布在淋巴结周围为周边型血流（3 型），淋巴结内部及周边均有血流为混合型血流（4 型）。

本文以超声检查淋巴结的各观察值为自变量，以淋巴结的良恶性为因变量，构建二分类Logistic回归模型，采用偏最大似然估计前进法进行对因变量逐步回归，对模型的拟合优度进行Hosmer-Lemeshow（HL）检验，并采用2x检验,自由度为8，P=（>），证明模型拟合得较好，说明当前数据中的信息以及被充分提取，并且可以排除混杂因素的影响。模型判断恶性淋巴结概率预测值的ROC曲线中，得到AUC为±,P<，95%可信区间为（，），证明该模型的拟合效果较好，用于预测淋巴结的良恶性效果也很好。另外，血流类型亚变量分析结果显示，均以无血流信号型血流为参照水平，淋巴门型血流的OR值小于1，提示支持良性诊断，中心型血流的OR 值大于1，提示支持恶性诊断，但两组P值均大于，无显著统计学意义。而与无血流信号型相比，周边型血流和混合型血流的OR值均大于1，支持恶性诊断，且P值均小于，有非常显著的统计学意义。

在良恶性淋巴结超声诊断指标的对比结果中，其中边界是否清晰、内部回声是否均匀、有无淋巴门结构、血流是否丰富、是否有透声区以及长短径比值的赋值在良恶性淋巴结比较中P 值均小于，说明有显著统计学差异。血流类型的统计结果显示，淋巴结的良恶性与血流类型的P值小于，表示有非常显著统计学相关性。

因此，二分类Logistic 回归多元分析模型能够很好地描述和分析良恶性淋巴结的超声鉴别

诊断的过程，据此筛选出有意义的鉴别诊断指标，有一定的实际应用价值。

二、《农村居民点整理意愿影响因素分析——以张掖市甘州区为例》

本文中因变量Y为整理意愿，Y=1表示愿意整理，Y=0表示不愿意整理。总变量分为内部特征变量和外部特征变量。其中，内部特征变量有：X1为性别，X1=1为男性，X1=0为女性，X2为年龄，X3为受教育程度，X4为从事职业，X5为家庭总人口，X6为家庭年收入。外部特征变量有：X7现居住房建造时间，X8为现居住房建筑结构，X9为家庭拥有宅基地面积，X10为居民对整理政策的了解程度，X11为了解相关土地政策的途径，X12为希望的政策补偿方式，X13为希望进行的整理方式，X14为整理后希望老宅基地的处理方式，X15为是否认为能从农村居民点整理中得到好处，X16为希望新建房面积，X17为是否认为新建房可以改善居住条件，X18为影响您居民点整理的因素，X19为对居民点整理后的顾虑。变量中除了性别赋值为0、1外，其他变量都以其程度进行划分，分别赋值从1到6不等。

在第一次模型回归中，主要分析居民个人及家庭的具体特征对农村居民点整理意愿的影响。方程－2Log likelihood为，Chi－square为，对应的显著性水平为Sig= <，说明模型整体拟合程度较好。在变量中年龄（X2）和家庭年收入（X6）的logistic回归系数对应的发生比率OR均小于1，但是显著性水平Sig均小于，所以说明年龄和家庭年收入对农村居民点整理意愿的影响显著。且年龄的估计参数为正，表明村民的年龄越大整理的意愿越明显。家庭年收入的估计参数也为正，表明家庭的年收入越高进行农村居民点整理的意愿越显著。

在第二次模型回归中，主要分析现居住房的建造时间、结构和面积对居民整理意愿的影响。方程－2Log likelihood为，Chi－square为25．348，对应的显著性水平Sig=<，说明模型整体拟合度较好。其中，现住房建筑结构（X8）和家庭拥有宅基地面积（X9）的logistic回归系数所对应的的显著性水平Sig均小于，说明现住房建筑结构和家庭拥有宅基地面积对农村居民点整理意愿的影响显著。且现居住房建筑结构的估计参数B为负，且大于1，发生比率Exp(B)=，表示居民对现居住房建筑结构越不满意，整理意愿越明显。而家庭拥有宅基地面积的估计系数为正，表明家庭拥有宅基地面积越大居民的整理意愿越明显。

在第三次模型回归中，分析政策及其他因素对居民点整理意愿的影响，本次回归中采用了前向逐步法，经过三次筛选，只有是否认为能从农村居民点整理中得到好处（X15）最终进入回归方程。其中，方程－2Log likelihood为102．326，Chi－square为11．066，对应的显著性水平Sig=<，说明模型整体拟合度较好。且X15的logistic回归系数所对应的显著性水平为小于，

说明是否认为能从农村居民点整理中得到好处对农村居民点整理意愿的影响显著。且是否认为能从农村居民点整理中得到好处的估计参数为为负，表明农民对是否能从居民点整理中得到好处没有信心，整理意愿越不明显。

在第四次模型回归中，综合分析所有特征变量对居民点整理意愿的影响。与前三次的模型回归一样，为了进一步分析总体变量与居民点整理意愿的关系，采用前向逐步法对总体变量进行了回归。进过三次筛选，最终三个显著变量进入回归方程，分别是年龄、家庭年收入和现居住房建筑结构。其中，方程－2Log likelihood为95．332，Chi－square为35．125，对应的显著性水平Sig=<，说明模型整体拟合度较好，同时大部分变量的显著性与单独回归相比都有明显变化。其中，年龄和家庭年收入的估计参数均为正，表明年龄和家庭年收入与农村居民点整理意愿成正相关关系，与第一次模型回归的结论相一致。而现居住房建筑结构估计参数为为负，且发生比率Exp(B)=，表明与农村居民点整理意愿成较强的负相关关系，与第二次回归模型结论相一致。

综上所述，表明本文构建的logistic回归分析模型整体拟合度较好，为对农村居民点整理意愿的调查提供了理论依据。

参考文献

[1]韩治宇，李欣，邵秋杰.应用二分类Logistic回归模型分析浅表淋巴结良恶性的超声诊断结果[J].中国临床医学影像杂志，2007，02：118-120.

[2]何娟娟，石培基，高小琛，郑晖.农村居民点整理意愿影响因素分析——以张掖市甘州区为例[J].干旱区资源与环境，2013，10：38-43.

SPSS实验8-二项Logistic回归分析

SPSS作业8：二项Logistic回归分析为研究和预测某商品消费特点和趋势，收集到以往胡消费数据。数据项包括是否购买，性别，年龄和收入水平。这里采用Logistic回归的方法，是否购买作为被解释变量（0/1二值变量），其余各变量为解释变量，且其中性别和收入水平为品质变量，年龄为定距变量。变量选择采用Enter方法，性别以男为参照类，收入以低收入为参照类。（一）基本操作：（1）选择菜单Analyz e－Regression－Binary Logistic; （2）选择是否购买作为被解释变量到Dependent框中，选其余各变量为解释变量到Covariates框中，采用Enter方法，结果如下：分析：上表显示了对品质变量产生虚拟变量的情况，产生的虚拟变量命名为原变量名（编码）。可以看到，对收入生成了两个虚拟变量名为Income（1）和Income（2），分别表示是否中收入和是否高收入，两变量均为0时表示低收入；对性别生成了一个虚拟变量名为Gedder（1），表示是否女，取值为0

时表示为男。消费的二项Logistic分析结果（二）（强制进入策略）分析：上表显示了Logistic分析初始阶段（第零步）方程中只有常数项时的错判矩阵。可以看到：269人中实际没购买且模型预测正确，正确率为100％；162人中实际购买了但模型均预测错误，正确率为0%。模型总的预测正确率为62.4％。消费的二项Logistic分析结果（三）（强制进入策略）

分析：上表显示了方程中只有常数项时的回归系数方面的指标，各数据项的含义依次为回归系数，回归系数标准误差，Wald检验统计量的观测值，自由度，Wald检验统计量的概率p值，发生比。由于此时模型中未包含任何解释变量，因此该表没有实际意义。分析：上表显示了待进入方程的各个变量的情况，各数据项的含义依次为Score检验统计量的观测值，自由度和概率p值。可以看到，如果下一步Age 进入方程，则Score检验统计量的观测值为1.268，概率p值为0.26。如果显著性水平a为0.05，由于Age的概率p值大于显著性水平a，所以是不能进入方程的。但在这里，由于解释变量的筛选策略为Enter，所以这些变量也被强行进入方程。

Logistic回归分析简介

Logistic回归分析简介 Logistic回归：实际上属于判别分析，因拥有很差的判别效率而不常用。1．应用范围： ①适用于流行病学资料的危险因素分析 ②实验室中药物的剂量-反应关系 ③临床试验评价 ④疾病的预后因素分析 2．Logistic回归的分类： ①按因变量的资料类型分：二分类多分类其中二分较为常用 ②按研究方法分：条件Logistic回归非条件Logistic回归两者针对的资料类型不一样，后者针对成组研究，前者针对配对或配伍研究。 3．Logistic回归的应用条件是： ①独立性。各观测对象间是相互独立的； ②LogitP与自变量是线性关系； ③样本量。经验值是病例对照各50例以上或为自变量的5-10倍（以10倍为宜），不过随着统计技术和软件的发展，样本量较小或不能进行似然

估计的情况下可采用精确logistic回归分析，此时要求分析变量不能太多，且变量分类不能太多； ④当队列资料进行logistic回归分析时，观察时间应该相同，否则需考虑观察时间的影响（建议用Poisson回归）。 4．拟和logistic回归方程的步骤： ①对每一个变量进行量化，并进行单因素分析； ②数据的离散化，对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散，或是按照四分、五分位数法来确定等级，也可采用聚类方法将计量资料聚为二类或多类，变为离散变量。 ③对性质相近的一些自变量进行部分多因素分析，并探讨各自变量（等级变量，数值变量）纳入模型时的适宜尺度，及对自变量进行必要的变量变换； ④在单变量分析和相关自变量分析的基础上，对P≤α（常取0.2，0.15或 0.3）的变量，以及专业上认为重要的变量进行多因素的逐步筛选；模型程序每拟合一个模型将给出多个指标值，供用户判断模型优劣和筛选变量。可以采用双向筛选技术：a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量)，用户确定P值临界值如：0.05、0.1或0.2，选择统计量显著且最大的变量进入模型；b剔除变量的选择用Z统计量(Wald 统计量)，用户确定其P值显著性水平，当变量不显者，从模型中予以剔除。这样，选入和剔除反复循环，直至无变量选入，也无变量删除为止，选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定，一般

SPSS—二元Logistic回归结果分析报告

SPSS—二元Logistic回归结果分析 2011-12-02 16:48 身心疲惫，睡意连连，头不断往下掉，拿出耳机，听下歌曲，缓解我这严重的睡意吧！今天来分析二元Logistic回归的结果分析结果如下： 1：在“案例处理汇总”中可以看出：选定的案例489个，未选定的案例361个，这个结果是根据设定的validate = 1得到的，在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替，在“分类变量编码”中教育水平分为5类，如果选中“为完成高中，高中，大专，大学等，其中的任何一个，那么就取值为 1，未选中的为0，如果四个都未被选中，那么就是”研究生“ 频率分别代表了处在某个教育水平的个数，总和应该为489个

1：在“分类表”中可以看出：预测有360个是“否”（未违约）有129个是“是”（违约） 2：在“方程中的变量”表中可以看出：最初是对“常数项”记性赋值，B为 -1.026，标准误差为：0.103 那么wald =( B/S.E)2=(-1.026/0.103)2 = 99.2248, 跟表中的“100.029几乎接近，是因为我对数据进行的向下舍入的关系，所以数据会稍微偏小， B和Exp(B) 是对数关系，将B进行对数抓换后，可以得到：Exp(B) = e^-1.026 = 0.358, 其中自由度为1， sig为0.000，非常显著

1：从“不在方程中的变量”可以看出，最初模型，只有“常数项”被纳入了模型，其它变量都不在最初模型表中分别给出了，得分，df , Sig三个值, 而其中得分（Score)计算公式如下：（公式中（Xi- Xˉ) 少了一个平方）下面来举例说明这个计算过程：(“年龄”自变量的得分为例）从“分类表”中可以看出：有129人违约，违约记为“1”则违约总和为 129，选定案例总和为489 那么： yˉ = 129/489 = 0.16 xˉ = 16951 / 489 = 34.2 所以：∑(Xi-xˉ)2 = 30074.9979

逻辑回归模型分析见解

1.逻辑回归模型 1.1逻辑回归模型考虑具有p个独立变量的向量,设条件概率为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为（1.1）上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。其中。如果含有名义变量，则将其变为dummy变量。一个具有k个取值的名义变量，将变为k-1个dummy变量。这样，有（1.2）定义不发生事件的条件概率为（1.3）那么，事件发生与事件不发生的概率之比为（1.4）这个比值称为事件的发生比(the odds of experiencing an event),简称为odds。因为00。对odds取对数，即得到线性函数，（1.5） 1.2极大似然函数假设有n个观测样本，观测值分别为设为给定条件下

得到的概率。在同样条件下得到的条件概率为。于是，得到一个观测值的概率为（1.6）因为各项观测独立，所以它们的联合分布可以表示为各边际分布的乘积。（1.7）上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是，最大似然估计的关键就是求出参数，使上式取得最大值。对上述函数求对数（1.8）上式称为对数似然函数。为了估计能使取得最大的参数的值。对此函数求导，得到p+1个似然方程。（1.9），j=1,2,..,p. 上式称为似然方程。为了解上述非线性方程，应用牛顿－拉斐森(Newton-Raphson)方法进行迭代求解。 1.3牛顿－拉斐森迭代法对求二阶偏导数，即Hessian矩阵为（1.10）如果写成矩阵形式，以Ｈ表示Hessian矩阵，Ｘ表示（1.11）令

logistic回归分析案例

1. 数据制备（栅格数据）（1）宝塔区基底图层.tif （2）居民点扩增.tif 、坡度.tif 、坡向.tif 等要素数据。在 environment settings ------ p rocessing extent ------ snap raster （选中基底图层），保证栅格数据像元无偏移，且行列的数量一致。化:Raster to ASCII Inyul r aiLtvl- 匚” k 『号樹 ± 如葡让也\1非*订kilt :f 10. 2 'iiStati EeiT-SlaT 14t L J. KT 2.通过CLUE-S 莫型中的fileconvert 模块，获得logistic 回归分析的数据集。（1）将上一步骤中的因变量 y 和影响因素x 的.txt 文档后缀改为.asc 格式，并将文件放在CLUE-S 模型所在的文件夹中。（2）打开FileCo nvert V2软件，按下图勾选，填写"file list "内容，点击start con version ， 3 田F1 曰 It:. （3）栅格数据转为 ASCII 码，生成txt 文档。匚onversion Tools Ejicel From GPS From KML From Raster 气 Raster to ASCII y Raster to Fist 声.Raster to Point

生成stat .txt文档。祥Fi le 荃 flFfijie? I1id J?1Ji w ■■ 1 ? 9><4 P t414 Tl ?J19 12词 ■M*￡LD|i4I# ■ Q电兀列心￡i k1lf\ 15?1 *■4JE RI7 <1- I 4 話M3 IS r擠uSstalB-^aG 齬￡淨珀bCMir 二i缶 pad... ■ 枝jfcsurrT^cM.a^t 炉 MBlOrtTIdH■: 护 xVcomr-.iic / rll asc 播Tann砂￡]T (2)logistic回归分析按图设置参数因变量、自变量；由于x3属于分类变量，点击分类按钮，按图设置参数。 >M!L4M|昨T祜lt?M? 曲唱-Hl'F1 wB-j' MtF M|T ffl￥ g： ZTStiRiiri SHilfi VTU '_'■ rt 舖C r TI薔色Z4d* ■i aa ■；? 1 iTdlfAflWVK4Wt4「利 E 呻■■} 1■ IdfcWM^U.一尉仇■臂H xlAftL lAMDf Jfit 1Q1?7r -iwns ■B-13磁MT 13 J 工 '-恫fl T l￡j v-IIHH M4Q J0W PW回沐神to 型 rwa： wm 1 H teiiy- 卩厲 4a13 4 ■ira 401?wa 70i-221 ?d'131fefl 加ifUnm 片nu t013*Ozmwkt他 w p1W址?囲血|淞：幽 11013 1 Qm Sft?t 121JJ V s? 014*」； 11 H?iKa； H013 5 *旳 ti a IM■ KK MS V；941 ti Q144T f 7W filwvjcfic OH