logistic回归方程
- 格式:docx
- 大小:23.48 KB
- 文档页数:4
26. Logistic回归(一)Logistic回归一、原理二元或多元线性回归的因变量都是连续型变量,若因变量是分类变量(例如:患病与不患病;不重要、重要、非常重要),就需要用Logistic回归。
Logistic回归分析可以从统计意义上估计出在其它自变量固定不变的情况下,每个自变量对因变量取某个值的概率的数值影响大小。
Logistic回归模型有“条件”与“非条件”之分,前者适用于配对病例对照资料的分析,后者适用于队列研究或非配对的病例-对照研究成组资料的分析。
对于二分类因变量,y=1表示事件发生;y=0表示事件不发生。
事件发生的条件概率P{ y=1 | x i } 与x i之间是非线性关系,通常是单调的,即随着x i的增加/减少,P{ y=1 | x i } 也增加/减少。
Logistic函数F(x)=1,图形如下图所示:1+e−x该函数值域在(0,1)之间,x 趋于-∞时,F(x )趋于0;x 趋于+∞时,F(x )趋于1. 正好适合描述概率P{ y =1 | x i }. 例如,某因素x 导致患病与否:x 在某一水平段内变化时,对患病概率的影响较大;而在x 较低或较高时对患病概率影响都不大。
记事件发生的条件概率P{ y =1 | x i } = p i ,则p i =11+e −(α+βx i )=e α+βx i 1+e α+βx i记事件不发生的条件概率为1- p i =11+e α+βx i则在条件x i 下,事件发生概率与事件不发生概率之比为p i 1−p i= e α+βx i称为事件的发生比,简记为odds. 对odds 取自然对数得到ln (p i1−p i)= α+βx i 上式左边(对数发生比)记为Logit(y), 称为y 的Logit 变换。
可见变换之后的Logit(y)就可以用线性回归,计算出回归系数α和β值。
若分类因变量y 与多个自变量x i 有关,则变换后Logit(y)可由多元线性回归:11logit()ln()1k k pp x x p αββ==++-或 111()1(1|,,)1k k k x x p y x x eαββ-++==+二、回归参数的解释1. 三个名词发生比(odds)= 事件发生频数事件未发生频数= p k1−p k例如,事件发生概率为0.6,不发生概率为0.4,则发生比为1.5(发生比>1,表示事件更可能发生)。
logistic方程Logistic方程,也被称为逻辑回归方程,是一种广泛应用于机器学习和统计学的有用工具。
其基本原理是,利用一系列的自变量(称为预测变量)x1,x2,…,xn来预测一个因变量(称为响应变量)y的概率。
它的公式可以用数学表达为:p = 1/(1+ e^-(-θ^T X))其中p代表响应变量y取正类(即“1”)的概率,而e是自然常数,θ是一组参数,X是自变量向量。
Logistic方程以贝叶斯概率论为基础,它是从一个因变量(y)和一些自变量(X)中建立联系的模型,称为回归模型。
这种模型的主要目的是建立在一组自变量的基础上来预测一个因变量的取值,特别是一个类别型变量(如果该变量有两个可能的取值,如“正类”或“负类”)。
Logistic方程最初是用来拟合二元逻辑回归模型的,它便于理解,因为它是基于概率模型来表达因变量与自变量之间的关系的,其所拟合出来的曲线称为Logistic函数曲线。
Logistic函数曲线非常好用,因为它提供了在某一特定点处响应变量发生的概率,当选择了它作为响应变量的算法时,它可以极大的简化计算。
另外,Logistic函数曲线具有S字形,它比较容易让人理解,并可以容易地用于模型分析。
Logistic方程还有另外一些优点,它可以让计算任务更加容易,从而加快计算速度。
此外,Logistic方程能够提供准确的预测结果,它所生成的输出结果可以使预测准确率达到90%以上,从而可以减少错误的决策,提高决策的准确性。
但Logistic方程也有一些不足,其中最明显的是它对输入数据的要求高,需要把输入数据整理成规范的格式,以便将其输入到Logistic方程中进行分析。
另外,它也要求输入数据量是足够大,以便能够准确地预测结果。
此外,Logistic方程也不能处理非线性关系,以及多重共线性(multicollinearity)的情况。
总之,Logistic方程是一种强大的机器学习工具,能够提供准确且可靠的预测结果,在机器学习领域得到了广泛的应用,如在分类问题上,在计算统计学上、在决策树上以及在生物信息学等领域得到了广泛的应用。
logistic回归原理
Logistic回归是一种有效的、相对简单的数据分类技术,用于确定某个事件或观测值属于某类的概率。
它可以解释二元数据和多类数据,并且能够应用于各种场景,比如风险分析、金融建模、社会研究等等。
Logistic回归源自线性模型,它是一种称为逻辑斯蒂(logit)模型的回归模型,该模型基于概率理论。
Logistic回归模型是由概率对数函数构建而成的,即:
Y = log(P/(1-P))
其中,P代表事件Y发生的概率。
Logistic归模型在数据分析中最主要的用途就是用于分类,它的原理是:假定输入的数据可以用一个线性函数来描述,并且拟合一条S型函数来获得概率,这个概率决定了每个样本点属于某一类的概率大小。
在使用Logistic回归之前,首先要处理好数据集,确保它具有足够的观测值,并且有合理的分类标签(例如“是”、“否”)。
接下来,要使用回归的模型,先把正确的观测值用正向的系数系数,将错误的观测值用负向的系数进行编码。
然后,确定正确的估计量结果,比如系数、拟合度指标和参数检验,以及误差分析。
最后,定义一个提升指标来评估结果,例如:准确率、召回率和精确率。
Logistic回归在机器学习中有各种应用,比如文本分类、情感分析和预测分析;在图像识别中,它可以用于目标检测、纹理识别和
边缘检测;在金融行业,它可以应用于信贷分析、欺诈检测和市场风险分析。
它也可以用于生物药物研究、病毒鉴别;在医学领域,它可以用于数据分析、诊断分析和临床预测等。
简而言之,Logistic回归是一种用于预测任意事件的概率发生的有效模型,可以用于多类数据的分类,在数据挖掘领域扮演着重要的角色,是结构化数据建模的常用工具。
Logistic 回归模型1 Logistic 回归模型的基本知识 1.1 Logistic 模型简介主要应用在研究某些现象发生的概率p ,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率p 与那些因素有关。
显然作为概率值,一定有10≤≤p ,因此很难用线性模型描述概率p 与自变量的关系,另外如果p 接近两个极端值,此时一般方法难以较好地反映p 的微小变化。
为此在构建p 与自变量关系的模型时,变换一下思路,不直接研究p ,而是研究p 的一个严格单调函数)(p G ,并要求)(p G 在p 接近两端值时对其微小变化很敏感。
于是Logit 变换被提出来:ppp Logit -=1ln)( (1)其中当p 从10→时,)(p Logit 从+∞→∞-,这个变化范围在模型数据处理上带来很大的方便,解决了上述面临的难题。
另外从函数的变形可得如下等价的公式:XT XT T ee p Xppp Logit βββ+=⇒=-=11ln )( (2)模型(2)的基本要求是,因变量(y )是个二元变量,仅取0或1两个值,而因变量取1的概率)|1(X y P =就是模型要研究的对象。
而Tk x x x X ),,,,1(21 =,其中i x 表示影响y 的第i 个因素,它可以是定性变量也可以是定量变量,Tk ),,,(10ββββ =。
为此模型(2)可以表述成:kx k x k x k x kk eep x x pp βββββββββ+++++++=⇒+++=- 11011011011ln (3)显然p y E =)(,故上述模型表明)(1)(lny E y E -是k x x x ,,,21 的线性函数。
此时我们称满足上面条件的回归方程为Logistic 线性回归。
Logistic 线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。
广义估计方程(GEE)是一种统计方法,用于处理观察对象之间的相关性,尤其适用于纵向数据。
有序logistic 回归是一种处理有序分类因变量(有序分类变量)的logistic 回归模型。
以下是一个使用GEE 方法进行有序logistic 回归的步骤和解释:**步骤一:数据准备**首先,我们需要准备数据。
对于有序logistic 回归,因变量通常是有序的分类变量,如等级评分(如1-5分)。
自变量可以是任何你认为可能影响因变量的变量。
对于GEE 方法,我们需要将数据分为一系列时间点(例如,每个月或每季度),并且每个观察对象在每个时间点都有数据。
**步骤二:选择模型**在有序logistic 回归中,我们通常会选择有序logit 模型,这是一种特定的有序logistic 回归模型,它假设因变量的概率分布遵循logit 函数。
**步骤三:使用GEE 方法**一旦我们有了数据和模型,我们就可以使用GEE 方法进行分析。
GEE 方法通常会通过贝叶斯方法进行参数估计。
以下是一个简单的GEE 分析步骤:1. **初始化参数**:选择初始参数值。
这通常是通过一些简单的方法进行的,例如从已有研究或理论推断。
2. **计算后验分布**:使用GEE 方法计算每个观察对象的后验分布。
这通常需要使用一些统计软件包,如R 或SPSS。
3. **推断参数**:根据后验分布,我们可以推断每个观察对象的参数值。
这通常包括估计参数的均值、标准差和置信区间等。
4. **模型评估**:使用一些统计指标(如AIC、BIC 等)评估模型的拟合效果。
如果模型拟合效果不佳,可能需要调整模型或重新考虑自变量和因变量的关系。
下面是一个简化的步骤流程:* 将有序logistic回归问题用GEE 方法表示出来。
在这个模型中,每一个观察对象和每一个时间点都是一个独立单元,需要处理的数据包括有序因变量和可能影响它的自变量以及时间变量。
然后利用贝叶斯方法来推断这些变量的后验分布。
第十二章Logistic 回归分析一、Logistic 回归概述:Logistic 回归主要用于筛选疾病的危险因素、预后因素或评价治疗措施; 通常以疾病的死亡、痊愈等结果发生的概率为因变量,以影响疾病发生和预后的 因素为自变量建立模型。
、Logistic 回归的分类及资料类型:第一节非条件Logistic 回归分析、Logistic 回归模型:Logistic 回归模型:exp ( • :i X i ——亠」p X p )p 二1 +exp ( B o + B i X i i + Pp X p ) 1二、回归系数的估计(参数估计):回归模型的参数估计:Logistic 计法。
二、假设检验: 1. Logistic 回归方程的检验:•检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性 关系,也即方程是否成立。
检验的方法有似然比检验、比分检验(score test )和Wald 检验(wald test )。
上述三种方法中,似然比检验最可靠。
•似然比检验(likehood ratio test ):通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为 G=-2l n(L)(又称Devia nee )。
无效假设H O : B =0。
当H 0成立时,检验统计量 G 近似服从自由度为N-P-1的X 2分布。
当G 大于临界值时,接受H,拒绝无效假设, 认为从整体上看适合作Logistic 回归分析,回归方程成立。
2. Logistic 回归系数的检验:•为了确定哪些自变量能进入方程,还需要对每个自变量的回归系数进行假 设检验,判断其对模型是否有贡献。
•检验方法常用 WaldX 检验,无效假设H0 B =0。
当X 2大于临界值时,拒 绝无效假设,自变量能进入方程。
1亠elogit (P )= ln (±)=B o +B * 1 x 1 + , + B n x n回归模型的参数估计通常利用最大似然估3.Logistic 回归模型的拟合优度检验:•Logistic 回归模型的拟合优度检验是通过比较模型预测的与实际观测的事件发生与不发生的频数有无差别来进行检验。
Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。
1.应用范围:
①适用于流行病学资料的危险因素分析
②实验室中药物的剂量-反应关系
③临床试验评价
④疾病的预后因素分析
2. Logistic回归的分类:
①按因变量的资料类型分:
二分类
多分类
其中二分较为常用
②按研究方法分:
条件Logistic回归
非条件Logistic回归
两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。
3.Logistic回归的应用条件是:
①独立性。
各观测对象间是相互独立的;
② LogitP与自变量是线性关系;
③样本量。
经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;
④当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观察时间的影响(建议用Poisson回归)。
4.拟和logistic回归方程的步骤:
①对每一个变量进行量化,并进行单因素分析;
②数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料。
可采用的方法有依据经验进行离散,或是按照四分、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离散变量。
③对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量变换;
④在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变量。
可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔除。
这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般地,当纳入模型的变量偏多,可提高选入界值或降低剔除标准,反之,则降低选入界值、提高删除标准。
但筛选标准的不同会影响分析结果,这在与他人结果比较时应当注意。
⑤在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项;两变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,但在实际应用中,各变量最好相互独立(也是模型本身的要求),不必研究交互作用,最多是研究少量的一级交互作用。
⑥对专业上认为重要但未选入回归方程的要查明原因。
5.回归方程拟合优劣的判断(为线性回归方程判断依据,可用于logistic回归分析)
①决定系数(R2)和校正决定系数( ),可以用来评价回归方程的优劣。
R2随着自变量个数的增加而增加,所以需要校正;校正决定系数()越大,方程越优。
但亦有研究指出R2是多元线性回归中经常用到的一个指标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预测值与观测值之间差别的问题,因此在logistic回归中不适合。
② C p选择法:选择C p最接近p或p+1的方程(不同学者解释不同)。
C p无法用SPSS 直接计算,可能需要手工。
1964年CL Mallows提出:
Cp接近(p+1)的模型为最佳,其中p为方程中自变量的个数,m为自变量总个数。
③ AIC准则:1973年由日本学者赤池提出AIC计算准则,AIC越小拟合的方程越
好。
在logistic回归中,评价模型拟合优度的指标主要有Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标、Akaike信息准则(AIC)、SC指标等。
Pearson χ2、偏差(deviance)主要用于自变量不多且为分类变量的情况,当自变量增多且含有连续型变量时,用HL指标则更为恰当。
Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标值均服从χ2分布,χ2检验无统计学意义(P>0.05)表示模型拟合的较好,χ2检验有统计学意义(P≤0.05)则表示模型拟合的较差。
AIC和SC指标还可用于比较模型的优劣,当拟合多个模型时,可以将不同模型按其AIC和SC指标值排序,AIC和SC值较小者一般认为拟合得更好。
6.拟合方程的注意事项:
①进行方程拟合对自变量筛选采用逐步选择法[前进法(forward)、后退法(backward)、逐步回归法(stepwise)]时,引入变量的检验水准要小于或等于剔除变量的检验水准;
②小样本检验水准α定为0.10或0.15,大样本把α定为0.05。
值越小说明自变量选取的标准越严;
③在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感兴趣的研究变量选入方程;
④强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此。
有些样本点(记录)对回归模型影响很大。
对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。
⑤多重共线性的诊断(SPSS中的指标):a容许度:越近似于0,共线性越强;b 特征根:越近似于0,共线性越强;c条件指数:越大,共线性越强;
⑥异常点的检查:主要包括特异点(outher)、高杠杆点(high leverage points)以及强影响点(influential points)。
特异点是指残差较其他各点大得多的点;高杠杆点是指距离其他样品较远的点;强影响点是指对模型有较大影响的点,模型中包含该点与不包含该点会使求得的回归系数相差很大。
单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的“有害”点。
对特异点、高杠杆点、强影响点诊断的指标有Pearson残差、Deviance残差、杠杆度统计量H(hat
matrix diagnosis)、Cook 距离、DFBETA、Score检验统计量等。
这五个指标中,Pearson 残差、Deviance残差可用来检查特异点,如果某观测值的残差值>2,则可认为是一个特异点。
杠杆度统计量H可用来发现高杠杆点, H值大的样品说明距离其他样品较远,可认为是一个高杠杆点。
Cook 距离、DFBETA指标可用来度量特异点或高杠杆点对回归模型的影响程度。
Cook距离是标准化残差和杠杆度两者的合成指标,其值越大,表明所对应的观测值的影响越大。
DFBETA指标值反映了某个样品被删除后logistic回归系数的变化,变化越大(即DFBETA指标值越大),表明该观测值的影响越大。
如果模型中检查出有特异点、高杠杆点或强影响点,首先应根据专业知识、数据收集的情况,分析其产生原因后酌情处理。
如来自测量或记录错误,应剔除或校正,否则处置就必须持慎重态度,考虑是否采用新的模型,而不能只是简单地删除就算完事。
因为在许多场合,异常点的出现恰好是我们探测某些事先不清楚的或许更为重要因素的线索。
7.回归系数符号反常与主要变量选不进方程的原因:
①存在多元共线性;
②有重要影响的因素未包括在内;
③某些变量个体间的差异很大;
④样本内突出点上数据误差大;
⑤变量的变化范围较小;
⑥样本数太少。
8.参数意义
① Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。
② Logistic回归中的回归系数(b i)表示,其它所有自变量固定不变,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR或RR的对数值。
需要指出的是,回归系数β的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病联系最强呢? (InL(t-1)-InL(t))三种方法结果基本一致。
③存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。
④模型估计出OR,当发病率较低时,OR≈RR,因此发病率高的疾病资料不适合使用该模型。
另外,Logistic模型不能利用随访研究中的时间信息,不考虑发病时间上的差异,因而只适于随访期较短的资料,否则随着随访期的延长,回归系数变得不稳定,标准误增加。