logistic回归分析及其应用共41页文档
- 格式:ppt
- 大小:155.00 KB
- 文档页数:41
logistic回归模型的原理与应用Logistic回归模型是一种重要的统计学习方法,在分类问题中得到广泛应用。
本文将介绍Logistic回归模型的原理及其在实际应用中的场景。
一、原理1.1 Logistic回归模型的基本概念Logistic回归模型是一种用于解决分类问题的线性模型,旨在通过将输入特征与相应的概率联系起来,实现对不同类别的分类。
1.2 Logistic函数在Logistic回归模型中,使用了一种称为Logistic函数(也称为Sigmoid函数)的特殊函数作为模型的基础。
Logistic函数的公式如下:$$g(z) = \frac{1}{1 + e^{-z}}$$其中,z表示线性模型的预测值(z = wx+b),g(z)表示通过Logistic函数获得的概率值。
1.3 损失函数与最大似然估计Logistic回归模型通过极大似然估计来确定模型参数。
常用的损失函数是交叉熵损失函数(Cross-Entropy Loss),其目标是最小化观测样本的预测概率与真实标签之间的差异。
1.4 参数估计为了确定Logistic回归模型的参数,通常使用梯度下降等优化方法进行参数估计。
通过迭代更新模型参数,使得损失函数逐渐减小,从而得到最优的参数估计结果。
二、应用场景2.1 二分类问题Logistic回归模型常用于解决二分类问题,如判断邮件是否为垃圾邮件、预测患有某种疾病的概率等。
通过将特征与相应的概率联系起来,可以根据阈值将样本分为两个类别。
2.2 多分类问题Logistic回归模型还可以扩展到多分类问题。
常见的应用包括手写数字识别、图像分类等。
通过对每个类别进行一对其他类别的二分类,可以得到每个类别的概率,从而实现多分类问题的解决。
2.3 风险预测在金融领域,Logistic回归模型被广泛应用于风险预测。
通过建立预测模型,可以根据客户的信用评分、借贷记录等因素,对客户是否存在违约风险进行预测。
2.4 市场营销Logistic回归模型还可以用于市场营销领域。
Logistic回归的介绍与实际应用摘要本文通过对logistic回归的介绍,对logistic回归模型建立的分析,以与其在实际生活中的运用,我们可以得出所建立的模型对实际例子的数据拟合结果不错.关键词:logistic回归;模型建立;拟合;一、logistic回归的简要介绍1、Logistic回归的应用范围:①适用于流行病学资料的危险因素分析②实验室中药物的剂量-反应关系③临床试验评价④疾病的预后因素分析2、Logistic回归的分类:①按因变量的资料类型分:二分类、多分类;其中二分较为常用②按研究方法分:条件Logistic回归、非条件Logistic回归两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究.3、Logistic回归的应用条件是:①独立性.各观测对象间是相互独立的;②LogitP与自变量是线性关系;③样本量.经验值是病例对照各50例以上或为自变量的5-10倍〔以10倍为宜〕,不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;④当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观察时间的影响〔建议用Poisson回归〕.4、拟和logistic回归方程的步骤:①对每一个变量进行量化,并进行单因素分析;②数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料.可采用的方法有依据经验进行离散,或是按照四分、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离散变量.③对性质相近的一些自变量进行部分多因素分析,并探讨各自变量〔等级变量,数值变量〕纳入模型时的适宜尺度,与对自变量进行必要的变量变换;④在单变量分析和相关自变量分析的基础上,对P≤α〔常取0.2,0.15或0.3〕的变量,以与专业上认为重要的变量进行多因素的逐步筛选;模型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变量.可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计量或LRS<似然比统计量>,用户确定P值临界值如:0.05、0.1或0.2,选择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量<Wald统计量>,用户确定其P值显著性水平,当变量不显者,从模型中予以剔除.这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般地,当纳入模型的变量偏多,可提高选入界值或降低剔除标准,反之,则降低选入界值、提高删除标准.但筛选标准的不同会影响分析结果,这在与他人结果比较时应当注意.⑤在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项;两变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,但在实际应用中,各变量最好相互独立<也是模型本身的要求>,不必研究交互作用,最多是研究少量的一级交互作用.⑥对专业上认为重要但未选入回归方程的要查明原因.5、回归方程拟合优劣的判断〔为线性回归方程判断依据,可用于logistic回归分析〕①决定系数<R2>和校正决定系数<>,可以用来评价回归方程的优劣.R2随着自变量个数的增加而增加,所以需要校正;校正决定系数<>越大,方程越优.但亦有研究指出R2是多元线性回归中经常用到的一个指标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉与预测值与观测值之间差别的问题,因此在logistic回归中不适合.②C p选择法:选择C p最接近p或p+1的方程〔不同学者解释不同〕.C p无法用SPSS直接计算,可能需要手工.1964年CL Mallows提出:Cp接近〔p+1〕的模型为最佳,其中p为方程中自变量的个数,m为自变量总个数.③AIC准则:1973年由日本学者赤池提出AIC计算准则,AIC越小拟合的方程越好.在logistic回归中,评价模型拟合优度的指标主要有Pearson χ2、偏差<deviance>、Hosmer- Lemeshow <HL>指标、Akaike信息准则<AIC>、SC指标等.Pearson χ2、偏差<deviance>主要用于自变量不多且为分类变量的情况,当自变量增多且含有连续型变量时,用HL指标则更为恰当.Pearsonχ2、偏差<deviance>、Hosmer- Lemeshow <HL>指标值均服从χ2分布,χ2检验无统计学意义<P>0.05>表示模型拟合的较好,χ2检验有统计学意义<P≤0.05>则表示模型拟合的较差.AIC和SC指标还可用于比较模型的优劣,当拟合多个模型时,可以将不同模型按其AIC和SC指标值排序,AIC和SC值较小者一般认为拟合得更好.6、拟合方程的注意事项:①进行方程拟合对自变量筛选采用逐步选择法[前进法〔forward〕、后退法〔backward〕、逐步回归法〔stepwise〕]时,引入变量的检验水准要小于或等于剔除变量的检验水准;②小样本检验水准α定为0.10或0.15,大样本把α定为0.05.值越小说明自变量选取的标准越严;③在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感兴趣的研究变量选入方程;④强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此.有些样本点〔记录〕对回归模型影响很大.对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除.⑤多重共线性的诊断〔SPSS中的指标〕:a容许度:越近似于0,共线性越强;b特征根:越近似于0,共线性越强;c条件指数:越大,共线性越强;⑥异常点的检查:主要包括特异点<outher>、高杠杆点<high leverage points>以与强影响点<influential points>.特异点是指残差较其他各点大得多的点;高杠杆点是指距离其他样品较远的点;强影响点是指对模型有较大影响的点,模型中包含该点与不包含该点会使求得的回归系数相差很大.单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的"有害"点.对特异点、高杠杆点、强影响点诊断的指标有Pearson残差、Deviance残差、杠杆度统计量H〔hat matrix diagnosis〕、Cook距离、DFBETA、Score检验统计量等.这五个指标中,Pearson残差、Deviance残差可用来检查特异点,如果某观测值的残差值>2,则可认为是一个特异点.杠杆度统计量H可用来发现高杠杆点,H值大的样品说明距离其他样品较远,可认为是一个高杠杆点.Cook距离、DFBETA指标可用来度量特异点或高杠杆点对回归模型的影响程度.Cook距离是标准化残差和杠杆度两者的合成指标,其值越大,表明所对应的观测值的影响越大.DFBETA指标值反映了某个样品被删除后logistic回归系数的变化,变化越大<即DFBETA指标值越大>,表明该观测值的影响越大.如果模型中检查出有特异点、高杠杆点或强影响点,首先应根据专业知识、数据收集的情况,分析其产生原因后酌情处理.如来自测量或记录错误,应剔除或校正,否则处置就必须持慎重态度,考虑是否采用新的模型,而不能只是简单地删除就算完事.因为在许多场合,异常点的出现恰好是我们探测某些事先不清楚的或许更为重要因素的线索.7、回归系数符号反常与主要变量选不进方程的原因:①存在多元共线性;②有重要影响的因素未包括在内;③某些变量个体间的差异很大;④样本内突出点上数据误差大;⑤变量的变化范围较小;⑥样本数太少.8、参数意义①Logistic回归中的常数项〔b0〕表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值.②Logistic回归中的回归系数〔b i〕表示,其它所有自变量固定不变,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR或RR的对数值.需要指出的是,回归系数β的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病联系最强呢? <InL<t-1>-InL<t>>三种方法结果基本一致.③存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心.④模型估计出OR,当发病率较低时,OR≈RR,因此发病率高的疾病资料不适合使用该模型.另外,Logistic模型不能利用随访研究中的时间信息,不考虑发病时间上的差异,因而只适于随访期较短的资料,否则随着随访期的延长,回归系数变得不稳定,标准误增加.9、统计软件能够进行logistic回归分析的软件非常多,常用的有SPSS、SAS、Stata、EGRET <Epidemiological Graphics Estimation and Testing Package>等.二、logistic回归模型的建立1、实际的例子:在一次住房展销会上,与房地产商签订初步购房意向书的共有n=313名顾客.在随后的3个月的时间内,只有部分顾客确实购买了房屋.购买房屋的顾客记为1,没有购买房屋的顾客记为0.以顾客的年家庭收入〔万元〕为自变2、模型的建立:Logistic 回归方程:)exp(1)exp(00i i i i i x x p ββββ+++=,i=1,2,...,c 〔1〕〔1〕式中c 为分组数据的组数.本例中,c=9.将以上回归方程做线性变换,令)1ln('iii p p p -= 〔2〕式〔2〕的变换称为逻辑变换,变换后的线性回归模型为:i i i i x p εββ++=1' 〔3〕 式〔3〕是一个普通的一元线性回归模型.式〔3〕没有给出误差项的形式,我们认为其误差项的形式就是做线性变换所需要的形式.对表1中的数据,算出经验回归方程为:x p 156.0886.0'+-=∧, 〔4〕 判别系数9243.02=r ,显著性检验P 值≈0,高度显著.将式〔4〕还原为式〔1〕的Logistic 回归方程为:)156.0886.0ex p(1)156.0886.0ex p('x x p +-++-=∧ 〔5〕三、运用模型进行预测利用式〔5〕可以对购房比例做预测,例如80=x ,则有)156.0886.0ex p(1)156.0886.0ex p('x x p +-++-=∧=0.590.四、结果的实际意义这表明在住房展销会上与房地产商签订初步购房意向书的年收入8万元家庭中,预计实际购房比例为59%.或者说,一个签订初步购房意向书的年收入8万元的家庭,其购房概率为59%. 五、模型的拟合效果分析我们用Logistic 回归模型成功地拟合了因变量为定性变量的回归模型,但是仍然存在一个不足之处,即异方差性并没有解决.式〔3〕的回归模型不是等方差的,应该对式〔3〕,用加权最小二乘估计.当i n 较大,'i p 的近似方差为:)1(1)('i i i i n p D ππ-≈〔6〕,其中)(i i y E =π,因而选取权数:)1(i i i ip p n w -=,〔7〕对例题重新用加权最小二乘做估计.利用SPSS 软件操作,点选分析→回归→线性回归,因变量:逻辑变换;自变量:年家庭收入;WLS 权重:权重i w .得到结果如用加权最小二乘法得到的Logistic 回归方程为:)149.0849.0ex p(1)149.0849.0ex p(x x p i +-++-=∧,〔8〕利用〔8〕式可以对80=x 时的购房比例做预测,有:)149.0849.0ex p(1)149.0849.0ex p(x x p i +-++-=∧=0.585,所以,年收入8万元的家庭预计实际购房比例为58.5%,这个结果与未加权的结果很接近.结束语本文对Logistic 回归的应用范围和拟和logistic 回归方程的步骤进行了简要介绍,以与对回归方程拟合优劣的判断,提与了一些拟合方程的注意事项;明确了参数意义;其实能够进行logistic 回归分析的软件非常多,常用的有SPSS 、SAS 、Stata 、EGRET <Epidemiological Graphics Estimation and Testing Package>等,本文中实际的例子利用了SPSS 进行了分析,发现拟合效果还不错.。