十三、logistic回归模型

格式：ppt
大小：681.50 KB
文档页数：82

下载文档原格式

Logistic 回归模型

• 反对数变换得到 OR e1
11
实例1
研究急性心肌梗塞(AMI)患病与饮酒的关系，采用横断面调查。
饮酒不饮酒合计
(X=1) (X=0)
患病(y=1) 55 74 129
未患病(y=0) 104663 212555 317218
合计
104718 21262Odds分别为
O R e1e1 .7 9 1 7 5 96
95% CI=(4.3, 8.5)
34
实例3：Logistic模型的交互作用
• 由于本例模型为
L o g i t( P ) 0 1 x 1 2 x 2 3 x 1 x 2
• 3，P＝，差别有统计学意义，可以认为吸烟和家属史对患肺癌有交互作用。
33
实例3：Logistic模型的交互作用
• 由于本例模型为 L o g i t( P ) 0 1 x 1 2 x 2 3 x 1 x 2
• 对于无家属史，x2=0代入模型，得到
Logit(P)01x1
• 由回归系数与OR的关系，得到吸烟的：
2
数据分析的背景
• 单因素的分类资料统计分析，一般采用 Pearson 2进行统计检验，用Odds Ratio 及其95%可信区间评价关联程度。
• 考虑多因素的影响，对于反应变量为分类变量时，用线性回归模型P=a+bx就不合适了，应选用Logistic回归模型进行统计分析。
3
Logistic回归模型
• 在本例中，对于同为吸烟或不吸烟的对象而言(x2相对固定不变)，
• 饮酒(x1=1)的对数Odds为
L o g (O d d s x 1 1 )0 1 2 x 2
• 不饮酒(x1=0)的对数Odds为

logistic回归模型结果解读

logistic回归模型结果解读
x
一、 logistic回归模型结果解读
Logistic回归模型是一种分类数据模型，主要用于对不同类别的输出结果进行预测，因此，其结果解读也要以分类的形式来解释。

1、系数与因变量之间的关系
Logistic回归模型通过对因变量的分析，来推断被解释变量的概率。

结果中的系数提供了因变量与被解释变量之间的关系，比如我们可以分析不同系数值大小，从而获得因变量对被解释变量的影响程度，正相关的影响是系数的正值，反之是负值。

2、P值
P值是从回归结果中获取的，它可以反映特定因变量对被解释变量的重要性，P值越小，表明相对于其它因变量，该因变量对被解释变量影响越明显，则说明该因变量是重要因素。

3、R-Square和平均绝对值
R-Square是可决系数，它反映回归结果的好坏，R-Square的值越大，表明模型的预测效果越好，也就是越能够准确的来预测被解释变量的值。

平均绝对值也是可以用来判断模型好坏的指标，它比较每个样本的预测值和实际值之间的误差，值越小则表示模型的预测精度越高。

4、改进模型
可以通过以上结果，来判断模型的预测效果好坏，从而思考如何改进模型：比如可以进行特征选择，去掉系数值较小或者P值较大的因变量；也可以使用其它模型，如决策树或神经网络模型来进行比较，看哪一个模型对被解释变量的预测效果更好。

logistic回归模型——方法与应用

logistic回归模型——方法与应用
logistic回归模型是一种广泛应用于分类问题的统计学习方法。

它主要用于预测二分类问题，但也可以通过多类logistic回归
处理多分类问题。

方法：
1. 模型定义：logistic回归模型是一种线性分类模型，它
使用一个Logistic函数(也称为sigmoid函数)将线性模型生成
的线性组合转换为概率分数。

Logistic函数将线性组合映射到
0到1之间的值，表示输入属于正面类别的概率。

2. 模型训练：logistic回归模型的训练目标是找到一个权
重向量，使得模型能够最大化正面类别的概率。

训练算法通常采用最大似然估计方法，通过迭代优化权重向量来最小化负对数似然损失函数。

3. 预测：给定一个测试样本，logistic回归模型通过计算
样本的得分(也称为Logit)，将其映射到0到1之间的概率分数。

如果概率分数超过一个预先定义的阈值，则将测试样本分类为正面类别，否则将其分类为负面类别。

应用：
1. 二分类问题：logistic回归模型最常用于解决二分类问题，例如垃圾邮件过滤、欺诈检测等。

2. 多类问题：通过多类logistic回归模型，可以将多个类别映射到0到1之间的概率分数，然后根据概率分数将测试样本分配到不同的类别中。

3. 特征选择：logistic回归模型可以用于特征选择，通过计算每个特征的卡方得分，选择与类别最相关的特征。

4. 文本分类：logistic回归模型在文本分类问题中得到广泛应用，例如情感分析、主题分类等。

logistic回归模型

逻辑斯蒂(Logistic)回归
Logistic回归模型
• 列联表中的数据是以概率的形式把属性变量联系起来的，而概率p的取值在0与1之间，因此，要把
概率 p (x)与 x 之间直接建立起函数关系是不合
适的。即 (x) x
Logistic回归模型
• 因此，人们通常把p的某个函数f(p)假设为变量的函数形式，取 f ( p) ln (x) ln p
1 (x) 1 p
• 称之为logit函数，也叫逻辑斯蒂变换。 • 因此，逻辑斯蒂变换是取列联表中优势的对数。
当概率在0-1取值时，Logit可以取任意实数，避免了线性概率模型的结构缺陷。
Logistic回归模型
假设响应变量Y是二分变量，令 p P(Y 1) ,影响Y
的因素有k个 x1, xk，则称：
多项logit模型
• 前面讨论的logit模型为二分数据的情况，有时候响应变量有可能取三个或更多值，即多类别的属性变量。
• 根据响应变量类型的不同，分两种情况：
–响应变量为定性名义变量； –响应变量为定性有序变量；
• 当名义响应变量有多个类别时，多项logit模型应采取把每个类别与一个基线类别配成对，通常取最后一类为参照，称为基线-类别logit.
• 为二分数据的逻辑斯ln 1蒂pp回归g(模x1,型,，xk简) 称逻辑斯蒂回归模型。其中的k个因素称为逻辑斯蒂回归模型的协变量。
• 最重要的逻辑斯蒂回归模型是logistic线性回归模型，多元logit模型的形式为：
ln
p 1 p
0
1x1
k xk
Logistic回归模型
• 其中，0, 1, , k 是待估参数。根据上式可以得到
多项logit模型

logistic回归模型参数

logistic回归模型参数Logistic回归模型参数Logistic回归是一种常用的分类模型，它通过将线性回归模型的输出映射到[0,1]区间上，来进行二分类任务。

在Logistic回归模型中，有一些重要的参数需要考虑和理解。

本文将详细介绍这些参数的含义和作用。

1. 截距项（Intercept）截距项是Logistic回归模型中的一个重要参数。

它表示当所有自变量的取值都为0时，模型预测的概率为多少。

截距项可以理解为模型在没有考虑任何自变量的情况下的基准预测概率。

如果截距项较大，说明基准预测概率较高，反之则较低。

2. 斜率项（Coefficients）斜率项是Logistic回归模型中各自变量的系数。

每个自变量都有一个对应的系数，表示该自变量对模型预测的影响程度。

系数的正负可以告诉我们自变量与因变量之间的正负关系，系数的大小可以告诉我们自变量对因变量的影响程度。

3. 偏置（Bias）偏置是Logistic回归模型中的一个重要参数，它可以理解为模型的容忍度。

偏置越高，模型对噪声和异常值的容忍度越高，但可能会导致过拟合；偏置越低，模型对噪声和异常值的容忍度越低，但可能会导致欠拟合。

合适的偏置可以使模型在训练集和测试集上都有较好的表现。

4. 阈值（Threshold）阈值是Logistic回归模型中用于分类的一个重要参数。

当模型输出的概率大于等于阈值时，将样本划分为正类；当模型输出的概率小于阈值时，将样本划分为负类。

阈值的选择对模型的分类结果有重要影响。

较高的阈值会使正类的判定更加严格，较低的阈值会使正类的判定更加宽松。

5. 正则化参数（Regularization）正则化参数是Logistic回归模型中的一个重要参数，用于控制模型的复杂度。

正则化参数越大，模型的复杂度越低，有助于防止过拟合；正则化参数越小，模型的复杂度越高，有助于提高模型的拟合能力。

合适的正则化参数可以使模型在训练集和测试集上都有较好的表现。

logistic回归模型和logit模型

logistic回归模型和logit模型引言部分：在机器学习领域中，分类问题一直是研究的热点之一。

Logistic回归模型和Logit模型是二分类问题中，表现优异的分类算法。

基于二项分布的原理，这两个模型能够有效的进行分类，因此受到了广泛的应用和研究。

正文部分：一、Logistic回归模型Logistic回归模型是一种广义线性模型，被广泛应用于分类问题中。

它通过Sigmoid函数将线性回归的结果映射到概率值，在进行分类时，将概率值与设定的阈值进行比较，从而进行分类。

Logistic回归模型的形式如下：$$ P(Y=1|X)=\frac{1}{1+e^{-(w^TX+b)}} $$其中，$w$表示特征的权值，$b$表示偏置的值，$X$表示输入的特征向量，$Y$表示输出的标签。

该模型的训练过程通常采用最大似然估计方法进行优化，从而得到最佳的模型参数。

二、Logit模型Logit模型也是一种二分类模型，它的实现基于对数几率的概念。

在Logit模型中，将正例的对数几率表示为输入向量的线性函数，而负例的对数几率为其相反数。

模型的形式如下：$$ \log(\frac{P(Y=1|X)}{1-P(Y=1|X)})=w^TX+b $$Logit模型使用最大似然估计法进行参数的学习，使得模型尽可能地对训练数据进行拟合。

通过计算输入向量对应的对数几率，可以得到相应的输出标签，从而进行分类。

三、Logistic回归模型与Logit模型的异同1. 形式不同：Logistic回归模型采用的是Sigmoid函数进行分类，而Logit模型则是基于对数几率的理论进行分类。

2. 拟合效果不同：Logistic回归模型在分类效果上表现出更好的鲁棒性，能够在处理多重共线性等情况下表现出较好的效果；而Logit模型的拟合效果较为稳定，能够更好地应对噪声和异常点的干扰。

3. 处理方式不同：Logistic回归模型通常采用迭代法和正则化方法来优化模型参数；而Logit模型常常采用牛顿法等基于优化的方法来更新模型参数。

logistic回归模型分析和总结

含有名义数据的logit
含有名义数据的logit
• 例：某地25岁及以上人中各类婚姻状况居民的死
亡情况见表，试建立死亡率关于年龄和婚姻状况
的logit模型。
ln p 1 p

A 1M1
2M 2
3M3
• 其中，A表示年龄(取中值)，M1、M2、M3表示婚姻状况
• 于是，估计的logit方程为：
多项logit模型
【例】研究三个学校、两个课程计划对学生偏好何种学习方式的影响。调查数据见表:
• 其中，三个学校对应两个哑变量x1和x2，两个课程计划为常规(x3=1)和附加(x3=0)，学习方式分为：自修(y=1)、小组(y=2)、上课(y=3)
• 从题目可以看出，响应变量是学习方式有三类，属于多项逻辑斯蒂回归问题。于是，建模为：
ln ln
p1 p3 p2 p3
10 11x1 12 x2 13 x3 20 21x1 22 x2 23x3
多项logit模型
多项logit模型
• 应用统计软件可以得到模型的参数估计和回归方程：
ln
p1 p3
0.5931.134 x1 0.618 x3
ln
p2 p3
0.603 0.635 x3
ln p A E
1 p
• 其中A为年龄，E为文化程度
含有有序数据的logit
含有有序数据的logit
• 于是，估计的logit方程为：
ln p 11.637 0.124A 0.164E 1 p
• 其中，年龄的系数0.124，说明年龄越大死亡率会越高；
• 文化程度的系数-0.164，说明文化程度与死亡率呈负相关，文化程度越高，死亡率越低。

Logistic回归模型

Logistic 回归模型1 Logistic 回归模型的基本知识 1.1 Logistic 模型简介主要应用在研究某些现象发生的概率p ，比如股票涨还是跌，公司成功或失败的概率，以及讨论概率p 与那些因素有关。

显然作为概率值，一定有10≤≤p ，因此很难用线性模型描述概率p 与自变量的关系，另外如果p 接近两个极端值，此时一般方法难以较好地反映p 的微小变化。

为此在构建p 与自变量关系的模型时，变换一下思路，不直接研究p ，而是研究p 的一个严格单调函数)(p G ，并要求)(p G 在p 接近两端值时对其微小变化很敏感。

于是Logit 变换被提出来：ppp Logit -=1ln)( （1）其中当p 从10→时，)(p Logit 从+∞→∞-，这个变化范围在模型数据处理上带来很大的方便，解决了上述面临的难题。

另外从函数的变形可得如下等价的公式：XT X T T eep X ppp Logit βββ+=⇒=-=11ln)( （2）模型(2)的基本要求是，因变量（y ）是个二元变量，仅取0或1两个值，而因变量取1的概率)|1(X y P =就是模型要研究的对象。

而T k x x x X ),,,,1(21 =，其中i x 表示影响y 的第i 个因素，它可以是定性变量也可以是定量变量，Tk ),,,(10ββββ =。

为此模型(2)可以表述成：kx k x kxk x k k ee p x x p p βββββββββ+++++++=⇒+++=- 11011011011ln （3）显然p y E =)(，故上述模型表明)(1)(ln y E y E -是k x x x ,,,21 的线性函数。

此时我们称满足上面条件的回归方程为Logistic 线性回归。

Logistic 线性回归的主要问题是不能用普通的回归方式来分析模型，一方面离散变量的误差形式服从伯努利分布而非正态分布，即没有正态性假设前提；二是二值变量方差不是常数，有异方差性。

logistic回归原理

logistic回归原理
Logistic回归是一种有效的、相对简单的数据分类技术，用于确定某个事件或观测值属于某类的概率。

它可以解释二元数据和多类数据，并且能够应用于各种场景，比如风险分析、金融建模、社会研究等等。

Logistic回归源自线性模型，它是一种称为逻辑斯蒂(logit)模型的回归模型，该模型基于概率理论。

Logistic回归模型是由概率对数函数构建而成的，即：
Y = log（P/(1-P)）
其中，P代表事件Y发生的概率。

Logistic归模型在数据分析中最主要的用途就是用于分类，它的原理是：假定输入的数据可以用一个线性函数来描述，并且拟合一条S型函数来获得概率，这个概率决定了每个样本点属于某一类的概率大小。

在使用Logistic回归之前，首先要处理好数据集，确保它具有足够的观测值，并且有合理的分类标签（例如“是”、“否”）。

接下来，要使用回归的模型，先把正确的观测值用正向的系数系数，将错误的观测值用负向的系数进行编码。

然后，确定正确的估计量结果，比如系数、拟合度指标和参数检验，以及误差分析。

最后，定义一个提升指标来评估结果，例如：准确率、召回率和精确率。

Logistic回归在机器学习中有各种应用，比如文本分类、情感分析和预测分析；在图像识别中，它可以用于目标检测、纹理识别和
边缘检测；在金融行业，它可以应用于信贷分析、欺诈检测和市场风险分析。

它也可以用于生物药物研究、病毒鉴别；在医学领域，它可以用于数据分析、诊断分析和临床预测等。

简而言之，Logistic回归是一种用于预测任意事件的概率发生的有效模型，可以用于多类数据的分类，在数据挖掘领域扮演着重要的角色，是结构化数据建模的常用工具。

十三、logistic回归模型

二分类logistic回归模型
非条件logistic回归
模型简介
❖
简单分析实例
内
容
哑变量设置
提
自变量的筛选方法与逐步回归
要
模型拟合效果与拟合优度检验
模型的诊断与修正
条件logistic回归
模型简介
对分类变量的分析，当考察的影响因素较少，且也为分类变量时，常用列联表（Contingency Table）进行整理，并用2检验或分层2检验进行分析，但存在以下局限性：
.184
Wal d 6.391
30.370 6.683 4.270
33.224
df 1 1 1 1
1
Sctep lwt
3
ptl
-.015
.007
5.584
1
.728
.327
4.961
1
ht
1.789
.694
6.639
1
Constant
.893
.829
1.158
1
a. Variable(s) entered on step 1: ptl.
模型拟合效果检验
结果分析
Area Under the Curv e
Test Result Variable(s): Predicted probability
Area Std. Errora
.708
.043
Asymptotic Sigb. .000
Asymptotic 95% Confidence Interval
❖ 给出了模型拟合过程中每一步的-2log（L）及两个伪决定系数。
逐步回归
结果分析
Variables in the Equation

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

e
x x
(2)
1 e
即单因素曲线LOGISTIC 回归模型公式。
单因素LOGISTIC模型参数的解释
ln [p/(1-p)] = + x
：与变量 x 无关的因素的影响：自变量 x 的回归系数，大小由因素 x 决定。 = 0 表明 P与 x 无关，发病不由因素 x 决定； > 0 表明 P与 x 有关，变量 x 是疾病发生的危险因素； < 0 表明 P与 x 有关，变量 x 是疾病发生的保护因素。
二分类logistic回归模型
非条件logistic回归
模型简介
内容提要
简单分析实例哑变量设置自变量的筛选方法与逐步回归模型拟合效果与拟合优度检验模型的诊断与修正条件logistic回归
模型简介
对分类变量的分析，当考察的影响因素较少，且也为分类变量时，常用列联表（Contingency Table）进行整理，
则受试者A因改变吸烟行为，其在12年间发生CHD 风险将上升为原来的3.16倍。可用相对危险度RR公式进行计算，即： RR ＝PA2 / PA1 = 0.1526 / 0.048 = 3.16
应用多变量logistic回归注意事项
（1）因变量必须是二分变量，或任何取值为0或 1的属性数据。
（2）logistic回归分析对自变量的正态性、方差齐性不作要求，对自变量类型也不作要求。但应注意自变量与logit y之间应符合线性关系。如自变量为连续变量，且与logit y之间不存在线性关系，应作适当变量转换，否则参数估计会发生偏倚，结论不可靠。
表1.
CHD危险因素定群研究(12年追踪观察结果）
变量参数i
i估计值
-13.2573
0.1216 0.0070 0.0068 0.0257 -0.0010 0.4223 0.7206
i标准误
标化i
截距
年龄(岁) 胆固醇(mg/dl) BP(mmHg) 相对体重(W/H) 血红蛋白(mg%) 吸烟(0,1,2,3) ECG(0,1)
4) 用于预测发病率: 可根据该公式预测某人在不同因素暴露条件下CHD的发病率。如某受试者A暴露于因素xi的情况为： X＝(45, 210, 130, 100, 120, 0, 0) 利用该模型计算该受试者A在暴露上述各种研究因素的条件下，12年间CHD的发病率为： PA1 = 1/{1+exp[-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.7206 x 0)]} = 1/[1+exp(-2.9813)] = 0.048
问题的提出（续）
• 但在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等； • 分析“母亲怀孕期间体重增加”对“新生儿出生低体重”的影响
二、概念的引入
• 如按线性回归思想建立模型： P=α +β X • P的意义是发生出生低体重的概率
• 在线性回归模型中,X的取值是任意的,P值可能大于1或小于0,无法从医学意义进行解释, 显然不适宜用线性回归建立预测模型。
根据OR定义，得： OR=[ P1 / (1-P1 )] / [P0 / (1-P0)] 两边取自然对数，得： ln OR=ln[ P1 / (1-P1 )] - ln[P0 / (1-P0)] 用Logit P的值带入，得： ln OR=Logit P1-Logit P0=(1+1x1)-(0+0x0)
• 对于队列研究，假设研究一个二值暴露变量X与某一疾病之间的关联: • 设暴露组(E+)发病的概率为P1,则其发病与不发病的概率比为: Odds= P1 /(1- P1) (3) • 设非暴露组(E-)发病的概率为P0,则其发病与不发病的概率比为: Odds= P0 /(1- P0) (4)
• 为避免P值大于1或小于0, 我们对P进行logit（即 logistic）变换, 把logit（P）作为因变量，即： Logit（P）=ln [p/(1-p)] = + x • logit（P）可以从–∞到+ ∞之间取任何值 • 如：计算logit（0.1），logit（0.95） logit（0.1）=ln（0.1/0.9）=-2.20 logit（0.95）=ln（0.95/0.05）=2.94
P e 1 e P 1 e

x
i
i

x
i
i
1
(
x)
i i 1 2 2
P e 1 e P 1 e

x x
1

x
i
(9)i i源自 x x1 1 2
2

x
i
(
x x
1 1 2
1
2

x)
• 1．如果以logitP为因变量，暴露因素X为自变量，建立直线回归方程： Logit P = + x 由 Logit P = ln [p/(1-p)] 可导出: ln [p/(1-p)] = + x (1) 即单因素线性LOGISTIC 回归模型公式； “p=在暴露变量E下有病D的概率 ” 解(1)式中以p为反应变量的方程，得：
并用2检验或分层2检验进行分析，但存在以下局限性：
无法描述其作用大小和方向，更不能考察各因素间是否有交互作用；当控制的分层因素较多时，将导致检验结果不可靠； 2检验无法对连续性自变量进行分析（致命缺陷）。
模型简介
logistic回归模型适合于应变量为二项分类的资料，在医学研究领域中的应用广泛。如流行病病因学研
如果自变量为定性指标：（1）如果自变量为二分类变量，常用0， 1或1，2表示。如x为性别指标，0代表女性，1代表男性(如何解释结果？）。（2）如果自变量为多分类指标，需要用亚（哑）变量（dummy）表示，又称指示变量（indicator variables）
（3）如果自变量为等级资料，可以用两种方法处理：一是将等级数量化后直接进入分析，如果y 的改变在每个等级上是近似相等的，则该法效果很好；二是视为定性指标，用亚变量表示，一般用于y在每个等级上的变化不相等时。
如果自变量为定量指标：（1）同时自变量与logit y之间为线性关系，则可以直接以原变量的形式进入分析；（2）如果自变量与logit y之间为非线性关系，则需做适当转换，如x2，log（x），ex等。
也就是说，如果自变量是定量指标的话，在进行回归分析之前一定要首先判断此变量是否与结局变量logit y 之间呈线性关系；定性或等级指标则不用考虑这个问题。
(5) (6)
队列研究中假定暴露人群和非暴露人群影响疾病发生的其他因素均相同，则可认为： 1 = 0 ; 在非暴露人群中不暴露研究因素，可知：x0 = 0, 带入，得： lnOR = (1 + 1x1) - (0 + 0x0 ) = 1x1 则: OR=Exp[(1 + 1x1) - (0 + 0x0 )]=Exp(1x1) (7) 即: OR=e1
i < 0: 表明 P 与 xi 有关，变量 xi 是疾病发生的保护因素。
模型简介－适用条件
反应变量为二分类变量或某事件的发生率；自变量与logit（P）之间为线性关系；
残差合计为0，且服从二项分布；
各观测间相互独立。 logistic回归模型应该使用最大似然法来解决方程的估计和检验问题，不应当使用以前的最小二乘法进行参数估计。
举例
• 1. 定群研究资料分析…弗明汉心脏研究 • 742名居住在弗明汉年龄为40-49岁的男性，在各自暴露不同水平的影响因素(详见下表中的7种因素)，经12年追踪观察CHD 发病情况。根据此742名受试者每人暴露各项因素的水平和CHD发病与否的资料，采用多因素LOGISTIC回归模型进行分析，结果见表1。
该多因素LOGISTIC回归分析模型的用途: (1) 确定研究因素的性质: 根据值的正和负，确定所分析因素是危险因素还是保护因素。表中7种因素中，除血红蛋白为保护因素外，其他均为危险因素。 (2) 计算描述因素与疾病间联系强度指标OR值的大小: (A) 由于胆固醇的值为0.0070，根据估计OR值的公式计算 CHD与胆固醇的联系强度为： OR = e3 ＝e0.0070 = 1.007
表明胆固醇上升1mg/dl时，CHD发病是原胆固醇水平的1.007倍。
(B) 当ECG的值为0.7206时，根据估计OR值的公
式计算CHD与ECG异常的联系强度为： OR = e7 = e7 X 1 / e7 X 0 = e7 X (1-0) = e0.7206 = 2.056
表明ECG异常者CHD发病是正常者的2.056倍。 (3) 比较各变量对方程贡献的大小: 根据标化的值大小，确定各因素对CHD发病影响的大小。在此项研究中，危险因素中吸烟对方程贡献最大，其他依次为相对体重、年龄、胆固醇、ECG和BP。
0
1 2 3 4 5 6 7
0.0437 0.0025 0.0060 0.0091 0.0098 0.1031 0.4009
0.3370 0.3034 0.1320 0.3458 -0.0012 0.4952 0.1750
根据表1结果，可建立的CHD影响因素的Logistic回归模型，公式如下: p=1/{1+exp[-(-13.2573 + 0.1216x1 + 0.0070x2 + + 0.7206 x1)]}
样本量
• 用logistic回归模型，样本含量要求较大。小样本不适宜。样本含量至少是变量数的 10倍以上，否则方程不稳定，系数估计或标准误估计常出现异常，结果无法解释。

十三、logistic回归模型

合集下载

Logistic 回归模型

logistic回归模型结果解读

logistic回归模型——方法与应用

logistic回归模型

logistic回归模型参数

logistic回归模型和logit模型

logistic回归模型分析和总结

Logistic回归模型

logistic回归原理

十三、logistic回归模型

文档推荐

最新文档