第十六章 Logistic回归分析
- 格式:ppt
- 大小:464.00 KB
- 文档页数:21
LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。
那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。
参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。
若等于1的话,该组变量对事件发⽣概率没有任何作⽤。
参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。
同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。
极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。
但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。
模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。
若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。
P<1-P,则为不和谐对(discordant)。
P=1-P,则称为结。
在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。
数据分析知识:数据分析中的Logistic回归分析Logistic回归分析是数据分析中非常重要的一种统计分析方法,它主要用于研究变量之间的关系,并且可以预测某个变量的取值概率。
在实际应用中,Logistic回归分析广泛应用于医学疾病、市场营销、社会科学等领域。
一、Logistic回归分析的原理1、概念Logistic回归分析是一种分类分析方法,可以将一个或多个自变量与一个二分类的因变量进行分析,主要用于分析变量之间的关系,并确定自变量对因变量的影响。
Logistic回归分析使用的是逻辑回归模型,该模型是将自变量与因变量的概率映射到一个范围为0-1之间的变量上,即把一个从负无穷到正无穷的数映射到0-1的范围内。
这样,我们可以用这个数值来表示某个事件发生的概率。
当这个数值大于0.5时,我们就可以判定事件发生的概率比较高,而当这个数值小于0.5时,我们就可以判定事件发生的概率比较小。
2、方法Logistic回归分析的方法有两种:一是全局最优化方法,二是局部最优化方法。
其中全局最优化方法是使用最大似然估计方法,而局部最优化方法则是使用牛顿法或梯度下降算法。
在进行Logistic回归分析之前,我们首先要对数据进行预处理,将数据进行清洗、变量选择和变量转换等操作,以便进行回归分析。
在进行回归分析时,我们需要先建立逻辑回归模型,然后进行参数估计和模型拟合,最后进行模型评估和预测。
在进行参数估计时,我们通常使用最大似然估计方法,即在估计参数时,选择最能解释样本观测数据的参数值。
在进行模型拟合时,我们需要选取一个合适的评价指标,如准确率、召回率、F1得分等。
3、评价指标在Logistic回归分析中,评价指标包括拟合度、准确性、鲁棒性、可解释性等。
其中最常用的指标是拟合度,即模型对已知数据的拟合程度,通常使用准确率、召回率、F1得分等指标进行评价。
此外,还可以使用ROC曲线、AUC值等指标评估模型的性能。
二、Logistic回归分析的应用1、医学疾病预测在医学疾病预测中,Logistic回归分析可以用来预测患某种疾病的概率,如心脏病、肺癌等。