图文举例详细讲解Logistic曲线的回归分析
- 格式:doc
- 大小:3.15 MB
- 文档页数:9
LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。
那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。
参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。
若等于1的话,该组变量对事件发⽣概率没有任何作⽤。
参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。
同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。
极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。
但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。
模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。
若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。
P<1-P,则为不和谐对(discordant)。
P=1-P,则称为结。
在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。
因变量是定性变量的回归分析—L o g i s t i c回归分析This model paper was revised by the Standardization Office on December 10, 2020因变量是定性变量的回归分析—Logistic 回归分析一、 从多元线性回归到Logistic 回归例 这是200个不同年龄和性别的人对某项服务产品的认可的数据(logi.sav). 其中: 年龄是连续变量,性别是有男和女(分别用1和0表示)两个水平的定性变量,而变量“观点”则为包含认可(用1表示)和不认可(用0表示)两个水平的定性变量。
从这张图可以看出什么呢从这张图又可以看出什么呢这里观点是因变量, 只有两个值;所以可以把它看作成功概率为p 的Bernoulli 试验的结果.但是和单纯的Bernoulli 试验不同,这里的概率p 为年龄和性别的函数. 必须应用Logistic 回归。
二、 多元线性回归不能应用于定性因变量的原因首先,多元线性回归中使用定性因变量严重违反本身假设条件,即:因变量只能取两个值时,对于任何给定的自变量值,e 本身也只能取两个值。
这必然会违背线性回归中关于误差项e 的假设条件。
其次,线性概率概型及其问题:由于因变量只有两个值;所以可以把它看作成功概率p ,取值范围必然限制在0—1的区间中,然而线性回归方程不能做到。
另外概率发生的情况也不是线性的。
三、 Logistic 函数Logistic 的概率函数定义为:我们将多元线性组合表示为:于是,Logistic 概率函数表示为:经过变形,可得到线性函数:这里, 事件发生概率=P (y=1)事件不发生概率=1-P (y=0) 发生比:Ω=-=pp odds 1)( 对数发生比:)(log )1(ln )log(p it p p odds =⎥⎦⎤⎢⎣⎡-= 这样,就可将logistic 曲线线性化为:从P 到logit P 经历了两个步骤变换过程:第一步:将p 转换成发生比,其值域为0到无穷第二步:将发生比换成对数发生比,其值域科为[]∞+∞-经过转换, 将P →logit P,在将其作为回归因变量来解释就不再有任何值域方面的限制了,即可线性化!四、 Logistic 回归系数的意义以logit P 方程的线性表达式来解释回归系数,即:在logistic 回归的实际研究中,通常不是报告自变量对P 的作用,而是报告自变量对logit P 的作用。
Logistic 曲线的回归分析例 某一品种玉米高度与时间(生长周期,每个生长周期为2-3天,与气温有关)的数据如表1.所示。
用转化为线性方程的方法估计其logistic 曲线预测模型。
设最大值k 为300(cm )。
表1. 玉米高度与时间(生长周期)的关系时间(生长周期) 高度/cm 时间(生长周期) 高度/cm 时间(生长周期) 高度/cm12 3 4 5 6 7 8 9 10 11 0.67 0.85 1.28 1.75 2.27 2.75 3.69 4.71 6.36 7.73 9.9112 13 14 15 16 17 18 19 20 21 12.75 16.55 20.1 27.35 32.55 37.55 44.75 53.38 71.61 83.89 22 23 24 25 26 27 28 29 30 31 97.46 112.7 135.1 153.6 160.3 167.1 174.9 177.9 180.2 180.83.1 基本绘图操作在Excel 中输入时间x 与高度y 的数据。
选择插入->图表图87点击图表,选择“标准类型”中的xy 散点图,并点击子图表类型的第一个。
图88 点击下一步,得到如图89。
图 89点击下一步。
图90分别点击标题、网格线、图例进行修改,然后点击下一步。
图91点击完成。
图92右击绘图区,修改绘图区格式,双击做表格,修改坐标轴刻度,最后的散点图。
图93观察散点图,其呈S 型曲线,符合logistic 曲线。
采用转化为线性方程的方法求解模型。
3.2 Logistic 曲线方程及线性化Logistic 曲线方程为:1atk y me-=+ (12)(1) 将数据线性化及成图转化为线性方程为:01'y a a t =+ (13)其中,'ln(/1)y k y =-,0ln a m =,1a a =-具体操作为:向excel 表格中输入y ’数据。
Logistic曲线的回归分析
例某一品种玉米高度与时间(生长周期,每个生长周期为2-3天,与气温有关)的数据如
表1.所示。
用转化为线性方程的方法估计其logistic曲线预测模型。
设最大值k为300(cm)。
表1.玉米高度与时间(生长周期)的关系
时间(生长周期)高度/cm时间(生长周期)高度/cm时间(生长周期)高度/cm
10.671212.752297.4620.851316.5523112.7
31.281420.124135.141.751527.3525153.652.271632.5526160.362.751737.55271
67.173.691844.7528174.984.711953.3829177.996.362071.6130180.2
107.732183.8931180.8119.91
3.1基本绘图操作
在Excel中输入时间x与高度y的数据。
选择插入->图表
图87
点击图表,选择“标准类型”中的xy散点图,并点击子图表类型的第一个。
图88 点击下一步,得到如图89。
图89
点击下一步。
图90
分别点击标题、网格线、图例进行修改,然后点击下一步。
图91
点击完成。
图92
右击绘图区,修改绘图区格式,双击做表格,修改坐标轴刻度,最后的散点图。
图93
观察散点图,其呈S型曲线,符合logistic曲线。
采用转化为线性方程的方法求解模型。
3.2Logistic曲线方程及线性化
Logistic曲线方程为:
y
1
k
at me(12)
(1)将数据线性化及成图
转化为线性方程为:
y'aat
01 (13
)
其中,y'ln(k/y1),a
0lnm,a1a
具体操作为:
向excel表格中输入y’数据。
图94 并依据上面同方法做y’与x的散点图。
图95 如图96所示,选择线性类型。
图96
2
选项中选择显示公式和显示R。
图97 添加趋势线,如图98所示。
图98 由上图知,线性方程为
y'0.2297x5.974(13) 因而,求得的Logistic方程为:
y
300
0.2297t 1393.063e(14)
(2)线性回归检验
选择“工具-数据分析”选项,点击确认。
图99 后选择弹出框的回归,并点击确定
图100 弹出回归框。
图101
选择y、x值输入区域,及输出选项中的输出区域,并选择残差项的残差、标准残差、(残差图、线性拟合图)可选。
图102
最后得到线性回归分析图103。
图103
图104
(3)回归分析解释
回归统计结果如图103和104所示,其中:
MultipleR为复相关系数,RSquare为决定系数,其值为0.987。
AdjustedRSquare:调整过的R
2,即考虑了自变量的个数。
df为自由度,SS为平方和,MS为均方。
SignificanceF即为P值。
当0.05时,图
106中的P值小于,表明回归效果显著。
因而由决定系数和方差P值确定所作回归方程有效。
因而,所求得的Logistic方程为:
300
y
0.2297t
1393.063e(15)。