Logistic回归分析2019
- 格式:ppt
- 大小:688.52 KB
- 文档页数:68
Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活与死亡、患病与未患病等)与多个自变量得关系。
比较常用得情形就是分析危险因素与就是否发生某疾病相关联。
例如,若探讨胃癌得危险因素,可以选择两组人群,一组就是胃癌组,一组就是非胃癌组,两组人群有不同得临床表现与生活方式等,因变量就为有或无胃癌,即“就是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、就是否幽门螺杆菌感染等。
自变量既可以就是连续变量,也可以为分类变量。
通过Logistic回归分析,就可以大致了解胃癌得危险因素。
Logistic回归与多元线性回归有很多相同之处,但最大得区别就在于她们得因变量不同。
多元线性回归得因变量为连续变量;Logistic回归得因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。
1、Logistic回归得用法一般而言,Logistic回归有两大用途,首先就是寻找危险因素,如上文得例子,找出与胃癌相关得危险因素;其次就是用于预测,我们可以根据建立得Logistic 回归模型,预测在不同得自变量情况下,发生某病或某种情况得概率(包括风险评分得建立)。
2、用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)就是用来描述某一因素不同状态发生疾病(或其它结局)危险程度得比值。
Logistic回归给出得OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件得风险超出或减少得程度。
如不同性别得胃癌发生危险不同,通过Logistic回归可以求出危险度得具体数值,例如1、7,这样就表示,男性发生胃癌得风险就是女性得1、7倍。
这里要注意估计得方向问题,以女性作为参照,男性患胃癌得OR就是1、7。
如果以男性作为参照,算出得OR将会就是0、588(1/1、7),表示女性发生胃癌得风险就是男性得0、588倍,或者说,就是男性得58、8%。
19Logistic回归分析第十九章 Logistic 回归分析[教学要求]了解:logistic 回归模型的基本结构;参数估计的基本思想;如何用logistic 回归模型做预测。
熟悉:logistic 回归系数的假设检验和区间估计方法;条件logistic 回归与非条件logistic 回归的适用条件;如何用logistic 回归校正混杂因素和筛选因素。
掌握:logistic 回归分析的用途;logistic 回归系数的流行病学意义及其与优势比或相对危险度的关系。
[重点难点]第一节 Logistic 回归模型的基本概念基本概念线性logistic 回归模型为X PP Y ββ+=?=0)1ln(。
Logistic 回归模型又可表示为XX e e P ββββ+++=001。
第二节 Logistic 回归的参数估计及假设检验一、基本概念最大似然法的基本思想:先建立似然函数和对数似然函数;求似然函数或对数似然函数达到极大时参数的取值,称为参数的最大似然估计值。
Logistic 回归模型常数项:表示在其它自变量均为零时死亡(或发病)优势(odds) 的对数值,当死亡(或发病)概率很低时,不死亡(或不发病)的概率接近1,该值近似等于自然死亡率(或发病率)。
βLogistic 回归系数的意义:设是变量X 的logistic 回归系数,exp()是其它变量取值固定时,该变量与疾病关联的优势比(),反映了危险因素X 与疾病关联的程度。
ββ?∧OR二、计算似然比检验的统计量是G =-2ln L -(-2ln L ’)Wald 检验统计量是22))?(?(ββχSE =回归系数的区间估计: )?(?2/ββαSE Z ±第三节条件l ogistic 回归模型一、基本概念条件logistic 回归模型的结构:设只有一个自变量X ,假定个体得病的概率正比于)exp(0X ββ+,即)exp()1(0A A X Y P ββ+∝=,)exp()1(0B B X Y P ββ+∝=。
Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。
比较常用的情形是分析危险因素与是否发生某疾病相关联。
例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。
自变量既可以是连续变量,也可以为分类变量。
通过Logistic 回归分析,就可以大致了解胃癌的危险因素。
Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。
多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。
1.Logistic回归的用法一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic 回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。
2.用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的比值。
Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。
如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,这样就表示,男性发生胃癌的风险是女性的1.7倍。
这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是1.7。
如果以男性作为参照,算出的OR将会是0.588(1/1.7),表示女性发生胃癌的风险是男性的0.588倍,或者说,是男性的58.8%。
撇开了参照组,相对危险度就没有意义了。
L o g i s t i c回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。
比较常用的情形是分析危险因素与是否发生某疾病相关联。
例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。
自变量既可以是连续变量,也可以为分类变量。
通过Logistic回归分析,就可以大致了解胃癌的危险因素。
Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。
多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。
1.Logistic回归的用法一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。
2.用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的比值。
Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。
如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,这样就表示,男性发生胃癌的风险是女性的1.7倍。
这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是1.7。
如果以男性作为参照,算出的OR将会是0.588(1/1.7),表示女性发生胃癌的风险是男性的0.588倍,或者说,是男性的58.8%。
Logistic回归分析简介Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。
1.应用范围:①适用于流行病学资料的危险因素分析②实验室中药物的剂量-反应关系③临床试验评价④疾病的预后因素分析2.Logistic回归的分类:①按因变量的资料类型分:二分类多分类其中二分较为常用②按研究方法分:条件Logistic回归非条件Logistic回归两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。
3.Logistic回归的应用条件是:①独立性。
各观测对象间是相互独立的;②LogitP与自变量是线性关系;③样本量。
经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;④当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观察时间的影响(建议用Poisson回归)。
4.拟和logistic回归方程的步骤:①对每一个变量进行量化,并进行单因素分析;②数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料。
可采用的方法有依据经验进行离散,或是按照四分、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离散变量。
③对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量变换;④在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变量。
可以采用双向筛选技术:a进入变量的筛选用score统计量或G 统计量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔除。