非条件Logistic 回归分析
- 格式:pdf
- 大小:334.90 KB
- 文档页数:23
LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。
那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。
参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。
若等于1的话,该组变量对事件发⽣概率没有任何作⽤。
参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。
同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。
极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。
但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。
模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。
若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。
P<1-P,则为不和谐对(discordant)。
P=1-P,则称为结。
在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。
多因素非条件logistic回归多因素非条件logistic回归是一种常用的统计分析方法,用于研究多个自变量对于二分类结果的影响程度。
本文将介绍多因素非条件logistic回归的基本原理、应用场景以及步骤。
一、基本原理多因素非条件logistic回归是一种广义线性模型,用于建立自变量与二分类结果之间的关系。
它基于logistic函数(也称为S型函数),通过将自变量的线性组合映射到[0,1]的范围内,来描述自变量与二分类结果之间的概率关系。
二、应用场景多因素非条件logistic回归广泛应用于医学、社会科学、市场营销等领域的研究中。
例如,在医学领域,研究人员可以使用多因素非条件logistic回归来分析各种因素对于患病与否的影响程度,以便预测和预防疾病的发生。
三、步骤进行多因素非条件logistic回归分析时,通常需要以下步骤:1. 收集数据:收集包括自变量和二分类结果在内的相关数据。
2. 数据预处理:对数据进行清洗、缺失值处理、异常值处理等预处理工作。
3. 变量选择:根据领域知识和统计方法,选择与二分类结果相关的自变量进行分析。
4. 模型拟合:将选定的自变量输入logistic回归模型,拟合出模型参数。
5. 模型评估:通过各种指标(如AIC、BIC、似然比检验等)评估模型的拟合效果。
6. 结果解释:根据模型参数的正负和大小,解释自变量对于二分类结果的影响程度。
7. 预测与应用:根据已建立的模型,进行未知样本的预测,或者根据模型结果制定相应的决策。
多因素非条件logistic回归的优点是可以考虑多个自变量的影响,更贴近实际情况。
然而,它也有一些限制,比如对于样本量较小或者自变量之间存在共线性的情况,可能会导致模型参数的不准确性。
多因素非条件logistic回归是一种重要的统计分析方法,可以应用于各种领域的研究。
通过充分利用多个自变量,我们可以更全面地了解自变量对于二分类结果的影响,从而做出科学合理的预测和决策。
非条件
前言
z
z
z
原理z
原理z
原理
z对概率进行转换,可建立线性回归模型–
–
–
原理
z
z
z
基本语句
z
z
z
z
Proc logistic z
z
MODEL
z关于变量选择:–
–
–
–
MODEL z
MODEL
z
两个协变量的
例2:研究性别、疾病的严重程度对疾病疗效的影响,得数据如下拟合回归方程
程序
data
input sex degree effect count @@;
cards;
0 0 1 21 0 0 0 6 0 1 1 9 0 1 0 9
1 0 1 8 1 0 0 10 1 1 1 4 1 1 0 11
;
proc
freq count;
model effect=sex degree/scale=none aggregate; /*模型的拟合优度检验
run;
输出
Deviance and Pearson Goodness-of-Fit Statistics
Criterion DF Value Value/DF Chi-Square Deviance 1 0.2141 0.2141
Pearson 1 0.2155 0.2155
z
-
输出
Model Fitting Information and Testing Global Null Hypothesis BETA=0 Criterion Only Covariates
-2LOGL
Score
z模型检验:
z似然比的卡方=
量的-
df=2(
可以认为两个协变量的回归系数至少有一个不为
认为模型有意义
输出
Variable DF Estimate Error Chi-Square Chi-Square
INTERCPT 1 1.1568 0.4036 8.2167 0.0042 .
SEX 1 -1.2770 0.4980 6.5750 0.0103 -0.350072 0.279 DEGREE 1 -1.0545 0.4980 4.4844 0.0342 -0.289086 0.348
回归系数检验:Wald 卡方:大样本时近似标准正态分布,小样本时可能不如似然比检验
输出
z回归方程:
logit[p/(1-p)]= 1.1568-1.2770sex -
z男性治愈与未愈的比值为
z女性治愈与未愈的比值为
z两个比值的比
各子组的模型预测的有效概率和基于有效水平的
SEX
1
多分类无序自变量的
z n
需转变成(
z例
否影响。
数据如下
男(sex=m)
女(sex=f)
z由于治疗方式是
2水平的哑变量
z需拟合模型
z方案
z方案
z方案
程序
data b;
input sex $ treat $ response $ count @@;
dsex=(sex=‘m’);
treata=(treat='A');
treatb=(treat=‘B’); /*
cards;
m A cured 78 m A not 28
m B cured 101 m B not 11
m C cured 68 m C not 46
f A cured 40 f A not 5
f B cured 54 f B not 5
f C cured 34 f C not 6
;
proc logistic; freq count;
model response = dsex
run;
输出
Variable DF Estimate Error Chi-Square Chi-Square
INTERCPT 1 1.4184 0.2987 22.5505 0.0001 .
DSEX 1 -0.9616 0.2998 10.2885 0.0013 -0.243789 0.382 TREATA 1 0.5847 0.2641 4.9020 0.0268 0.150196
TREATB 1 1.5608 0.3160 24.4010 0.0001 0.413281
P/1-P=exp(1.4184-0.9616*dsex+0.5847*treata+1.5608*treatb)
SEX
1
z
z
proc
run
z需拟合模型z方案
z方案
z方案
proc
run
使用
连续型自变量的z
z
多分类有序反应变量
z
z
表7.7 性别和两种治疗方法对某病疗效的影响研究 性别
女
(sex=1)
男
(sex=0)
多分类有序反应变量
z
z
多分类有序反应变量
多分类有序反应变量
z对例题资料应拟合以下两个累加型:
logit(
logit(
=
程序
data d;
cards;
;
proc logistic order=data; run;
z
z
Odds
Sex
预测概率
多分类无序反应变量z
z
z
z
(communit)
z
z
z
z
z
z
proc catmod [ direct model
程序
data communit;
input communit
cards;
1 male media 20 1 male network 35 1 male educate 26
1 female media 10 1 female network 27 1 female educate
2 male media 42 2 male network 17 2 male educate 26
2 female media 16 2 female network 12 2 female educate 26
3 male media 15 3 male network 15 3 male educate 16
3 female media 11 3 female network 12 3 female educate 20 ;
proc catmod
weight count;
model method=communit
run;
z
z
Analysis of Maximum Likelihood Estimates
Parameter Number Estimate Error Square Pr
------------------------------------------------------------------------Intercept 1 -0.4474 0.1333 11.26 0.0008 communit
sex male 1 0.5301 0.1292 16.84
logistic回归模型为
logithi1=logit(media/educate)=-0.447-0.554*communit1+0.451*communit2+0.530*sex logithi2=logit(network/educate)=-0.383+0.132*communit1-0.245*communit2+0.360*sex 比数
自变量不同水平组合的比数
-比数的构成是根据自变量的不同水平,不同的模型来完成的。
-自变量是什么水平,
之,就减去代表这个水平的模型参数。