当前位置:文档之家› Logistic回归模型

Logistic回归模型

Logistic回归模型
Logistic回归模型

Logistic 回归模型

1 Logistic 回归模型的基本知识 1.1 Logistic 模型简介

主要应用在研究某些现象发生的概率p ,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率

p 与那些因素有关。显然作为概率值,一定有10≤≤p ,因此很难用线性模型描述概率p 与自变量的关

系,另外如果p 接近两个极端值,此时一般方法难以较好地反映p 的微小变化。为此在构建p 与自变量关系的模型时,变换一下思路,不直接研究p ,而是研究p 的一个严格单调函数)(p G ,并要求)(p G 在p 接近两端值时对其微小变化很敏感。于是Logit 变换被提出来:

p

p

p Logit -=1ln

)( (1)

其中当p 从10→时,)(p Logit 从+∞→∞-,这个变化范围在模型数据处理上带来很大的方便,

解决了上述面临的难题。另外从函数的变形可得如下等价的公式:

X

T X T T e

e

p X p

p

p Logit βββ+=

?=-=11ln

)( (2)

模型(2)的基本要求是,因变量(y )是个二元变量,仅取0或1两个值,而因变量取1的概率

)|1(X y P =就是模型要研究的对象。而T k x x x X ),,,,1(21 =,其中i x 表示影响y 的第i 个因素,它可以

是定性变量也可以是定量变量,T

k ),,,(10ββββ =。为此模型(2)可以表述成:

k

x k x k

x

k x k k e

e p x x p p βββββββββ+++++++=?+++=- 1101

1011011ln (3)

显然p y E =)(,故上述模型表明)

(1)

(ln y E y E -是k x x x ,,,21 的线性函数。此时我们称满足上面条件

的回归方程为Logistic 线性回归。

Logistic 线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。不同于多元线性回归的最小二乘估计法则(残差平方和最小),Logistic 变换的非线性特征采用极大似然估计的方法寻求最佳的回归系数。因此评价模型的拟合度的标准变为似然值而非离差平方和。

定义1 称事件发生与不发生的概率比为 优势比(比数比 odds ratio 简称OR),形式上表示为

OR=

k

x k x e p

p βββ+++=- 1101 (4) 定义2 Logistic 回归模型是通过极大似然估计法得到的,故模型好坏的评价准则有似然值来表征,称

-2?ln ()L β

为估计值β?的拟合似然度,该值越小越好,如果模型完全拟合,则似然值?()L β为1,而拟合似然度达到最小,值为0。其中?()lnL β

表示β?的对数似然函数值。

定义3 记)?(β

Var 为估计值β?的方差-协方差矩阵,2

1

)]?([)?(ββVar S =为β?的标准差矩阵,则称 k i S w ii

i i ,,2,1,]?[

2 ==β (5)

为i

β?的Wald 统计量,在大样本时,i w 近似服从)1(2

χ分布,通过它实现对系数的显著性检验。

定义4 假定方程中只有常数项0β,即各变量的系数均为0,此时称

20

??2[ln ()ln ()]L L χββ=-- (6) 为方程的显著性似然统计量,在大样本时,2

χ近似服从)(2k χ分布。

1.2 Logistic 模型的分类及主要问题

根据研究设计的不同,Logistic 回归通常分为成组资料的非条件Logistic 回归和配对资料的条件

Logistic 回归两种大类。还兼具两分类和多分类之分,分组与未分组之分,有序与无序变量之分。具体如

下: 两分类非条件Logistic 回归:分组数据的Logistic 回归,未分组数据的Logistic 回归; 多分类非条件Logistic 回归:无序变量Logistic 回归,无序变量Logistic 回归; 条件Logistic 回归:1:1型、1:M 型和M:N 型Logistic 回归。

关于Logistic 回归,主要研究的内容包括: 1. 模型参数的估计及检验 2. 变量模型化及自变量的选择 3. 模型评价和预测问题 4. 模型应用

2 Logistic 模型的参数估计及算法实现

2.1 两分类分组数据非条件Logistic 回归

因变量(反应变量)分为两类,取值有两种,设事件发生记为y=1,不发生记为 y=0,设自变量

T k x x x X ),,,(21 =是分组数据,取有限的几个值;研究事件发生的概率)|1(X y P =与自变量X 的关

系,其Logistic 回归方程为:

k k x x X y P X y P βββ+++=== 110)|0()|1(ln 或 k

x k x k

x

k x e

e X y P ββββββ+++++++== 1101101)|1( 例2.1.1 分组数据[1] 在一次住房展销会上,与房地产商签订初步购房意向书的有n=325人,在随后的3个月时间内,只有一部分顾客购买了房屋。购买房屋的顾客记为1,否则记为0。以顾客的年家庭收入(万元)作为自变量X ,对数据统计后如表2.1.1所示,建立Logistic 回归模型。

例2.1.2 药物疗效数据[2] 为考察某药物疗效,随机抽取220例病人并分配到治疗组和对照组,治疗组采用治疗药物,对照组采用安慰剂。治疗一段时间后观察病人的疗效,得到表2.1.2数据。设y 为疗效指标(y=1 有效,y=0无效),1x 为治疗组指标(1为治疗组,0为对照组),2x 为年龄组指标(1为>45岁,0为其他)。

表2.1.2 药物疗效数据

上述两个例子数据都是经过统计加工后的分组数据,对此类数据进行Logistic 回归,首先要明确应变量对应事件的发生概率如何确定和进行Logit 变换,其次才能建立Logistic 回归。为便于数据处理,我们将此类数据的格式作个约定,排列格式为(组序号,自变量X ,该组事件发生数,该组总例数)。

表2.1.3 分组数据的标准格式

表2.1.1 改造表

表2.1.2 改造表 经过改造后,可得我们关心的事件的发生的频率为 n i n m p i ,,2,1,i

i

==

该组总例数该组发生事件数。其中n 为

分组数,然后作Logit 变换,即i

i

i i p p p Logit p -==1ln )(~

。变换后的数据,形式上已经可以采用一般的线

性回归的处理方式来估计回归参数了。此时方程变为:∑==+=k j ij j i n i x p 1

0,,2,1,~

ββ 当然这样处理并没有解决异方差性,当i n 较大时,i p ~

的近似方差为: )(,)

1(1

)~(i i i i i i y E n p D =-≈

πππ (7)

所以选择权重 n i p p n i i i i ,,2,1),1( =-=ω,最后采用加权最小二乘法估计参数。

注意,分组数据的Logistic 回归只适用于大样本分组数据,对小样本的为分组数据不适用,并且以组数n 为回归拟合的样本量,明显降低了拟合精度,在实际应用中必须谨慎。

求解算法及步骤:

1.依据分组数据的标准格式,计算频率i p 、Logit 变换i p ~

和权重i ω 2.构建加权最小二乘估计:

∑∑∑∑====--=--n

i k

j ij j i i i i n

i k

j ij j i i x y x y 1

1

201

1

2

0)(min )(min βωβωωββω (8)

令 i i i y y ω=

*

,T ik i i i i i x x X ),,,(1*ωωω =,T k ),,,(10ββββ =

则方程又变成一般的线性回归模型:∑=-n

i i T i X y

1

2**)(min

β (9)

3.构造增广矩阵21***

*][+?+k k T T

Y X X X 利用消去法得]?)?([ββ

Var I =矩阵,得到估计β?

其中2,1++K K I 为残差平方和SE , 回归方差1

?2

--=k n SE σ

各系数检验采用 )1(~??--=

k n t I t ii i i σ

β

总平方和∑∑∑===-=

n

i n

i i

n

i i

i i i y y ST 1

1

2

1

2

2

)

()

(ωωω,回归平方和SE ST SR -=

总平方和求解相当于拟合i i y ωβ*

0*=方程的残差平方和,故得上式ST

所以方程的检验为)1,(~)

1/(/----=

k n k F k n SE k

SR F

例2.1.1的求解过程如下(由LLLStat 统计软件计算):

表2.1.4 数据Logit 变换及权重

家庭年收入x 实际购买mi 签订意向ni 比例pi 逻辑变换Logit 权重ni*pi(1-pi) 1.500000 8 25 0.320000 -0.753772 5.440000 2.500000 13 32 0.406250 -0.379490 7.718750 3.500000 26 58 0.448276 -0.207639 14.344828 4.500000 22 52 0.423077 -0.310155 12.692308 5.500000 20 43 0.465116 -0.139762 10.697674 6.500000 22 39 0.564103 0.257829 9.589744 7.500000 16 28 0.571429 0.287682 6.857143 8.500000 12 21 0.571429 0.287682 5.142857 9.500000 10 15

0.666667

0.693147

3.333333

表2.1.5 回归模型基本信息

总样本 9 求解方法 加权最小二乘 仅常数项beta0 -0.095029 方程F 统计量 51.982160 F 分布自由度 1,7 方程检验p 值 0.000176 总平方和 8.798294 回归平方和 7.754112 残差平方和 1.044181

表2.1.6 分组Logistic 回归系数检验

序号

均值 回归系数 系数标准误 t 统计量 自由度df 检验P 值 常数项

2.837815 -0.848882 0.113578 -7.473994 7 0.000056 家庭年收入x

14.901140 0.149323 0.020711 7.209865 7

0.000056

表2.1.7 1

][-X X T

0.086479 -0.014517

-0.014517 0.002876

本例Logistic 模型的回归方程:x

e x e p

i 149323.0848882.0149323.0848882.01?+-+-+=

对于多分类无序自变量的Logistic 回归,即某个自变量为m 个水平的名义变量(如治疗方法

A,B,C ),只需要引入m -1(2个)个哑变量,然后采用上述方法进行分析。 例2.1.3 研究三种治疗方法对不同性别病人的治疗效果[2],数据如表2.1.4

表2.1.4 性别和治疗法对某病治愈情况的影响

由于治疗方法有三种,没有等级关系,所以属于无序的名义变量,故引入两个哑变量32,x x 分别代表A 和B 疗法,其中0,132==x x 表示方法A, 1,032==x x 表示方法B, 0,032==x x 表示方法C ,将上述数据转化成标准格式,得表2.1.5。

表2.1.5 性别和治疗法对某病治愈情况的影响

对于分类数据,也可以采用极大似然法进行参数估计,具体见2.2节最后部分内容。

2.2 两分类未分组(连续)非条件Logistic 回归

应变量y 取值为0和1,设事件发生记为y=1,否则为0,设自变量T

k x x x x ),,,(21 =,n 组观测数据记为),,,,(21i ik i i y x x x ,n i ,,2,1 =。记T

ik i i i x x x X ),,,,1(21 =,10=i x ,则i y 与ik i i x x x ,,,21 的

Logistic 回归模型是:

i

X T i X T ik

x k i x ik x k i x ik k i i i e

e

e

e

x x f y E βββββββββββπ+=

+=

+++==++++++11)()(110110110 (10)

易知,i y 是均值为i π的0-1型分布,其分布律为

i

y i i

y i

i y f --=1)

1()(ππ,n i y i ,,2,1;1,0 ==

则n y y y ,,,21 的似然函数和对数似然函数分别为: ∏=--=

n

i i

y i i y i L 11)1(ππ

∑∑==-+-=--+=n

i i i

i

i n

i i i i i y y y L 1

1

)]1ln(1ln

[)]1ln()1(ln [ln πππππ 代入ik

x k i x ik x k i x i e

e

ββββββπ+++++++=

1101101,得

∑∑==++++-=+-+++=n

i i

X

T i T i n

i ik

x k i x ik k i i e

X y e

x x y L 1

1110110)]

1ln([)]

1ln()([ln ββββββββ (11)

记)(ln )(ββL LL =,选取T k ),,,(10ββββ =的估计T k

)?,,?,?(?10ββββ =使得)(βLL 达到极大,这就是Logistic 回归模型的极大似然估计,该过程的求解需要采用牛顿迭代法。

构造得分函数k g LL F g

g ,,2,1,0,)

()( =??=

βββ,共k +1个非线性方程组,令其=0求解β,其中 k g e

e

x x y F n

i i

X T i X T ig ig i g ,,2,1,0,]1[)(0 =+-

=∑=βββ (12 )

构造信息矩阵k h g h

g LL I gh ,,2,1,0,,)

()(2 =???-

=ββ,即)(βLL 二阶导矩阵的负矩阵,其中 k h g e

e x x I n

i i

X T i

X T ih ig gh ,,2,1,0,,)

1()(0

2

=+=∑

=βββ (13 ) 很明显)()(ββhg gh I I =,故)(βI 是一个对称矩阵。

求解算法及步骤:

1. 根据公式(12 ) 计算得分函数)(βg F ,公式(13)计算信息矩阵)(βgh I

给定初值)0,,0,0(0

==0β, k =1 和精度ε,可取0.000001

2. 采用牛顿迭代式 βββ?+=-1k k , )()]([111---=?k k F I βββ,通过以下方式求解。

构造增广矩阵)(1

-k IF β=))()((11--k k F I ββ,通过对IF 矩阵作k +1次ij 消去变换求解β?

若εβ

β

?∑=k

g g

02|||| 或者 εββ

g g 0

|||||| 或者 εβ

g ,则转3

否则k = k +1,继续执行第2步

3. 此时k

β就是回归系数β的数值估计β

?,k 就是迭代次数,消去变换后的IF 矩阵的前11+?+k k 子阵就是β方差-协方差矩阵的估计阵11)()?(+?+=k k gh V Var β=V ,下面给出检验有关计算:

计算Wald 统计量 gg

g g V W 2?β=,近似服从)1(2

χ分布,检验p 值 ))1((2

g g W P p >=χ

标准误gg

g V E S =).(.β, g

g e

OR ββ?)(=, k g ,,1,0 =

例2.2.1 公共交通调查数据[1] 在一次关于公共交通的社会调查中,调查项目为“是乘坐公共汽车上下班,还是骑自行车上下班”。因变量y=1表示乘坐公共汽车,y=0表示骑自行车。自变量1x 是年龄,作为连续变量;2x 是月收入(元);3x 是性别,3x =1表示男性,3x =0表示女性。调查对象为工薪族群体,数据如表2.2.1所示。

表2.2.1 公共交通社会调查

序号 年龄1x 月收入2x 性别3x 交通 y 1

18 850 0 0

2 21 1200 0 0

3 23 850 0 1

4 23 950 0 1

5 28 1200 0 1

6 31 850 0 0

7 36 1500 0 1

8 42 1000 0 1

9 46 950 0 1 10 48 1200 0 0 11 55 1800 0 1 12 56 2100 0 1 13 58 1800 0 1 14 18 850 1 0 15 20 1000 1 0 16 25 1200 1 0 17 27 1300 1 0 18 28 1500 1 0 19 30 950 1 1 20 32 1000 1 0 21 33 1800 1 0 22 33 1000 1 0 23 38 1200 1 0 24 41 1500 1 0 25 45 1800 1 1 26 48 1000 1 0 27 52 1500 1 1 28 56 1800 1 1

以下计算结果采用LLLStat 1.0 软件得到:

表2.2.2 主要计算结果

序号 均值 回归系数 系数标准误 wald 统计量 自由度df 检验p 值

OR=Exp(B) 常数项 0.535714 -3.655016 2.091223 3.054766 1 0.080501 0.025861 年龄 1273.214286 0.082168 0.052119 2.485516 1 0.114899 1.085639 月收入 0.464286 0.001517 0.001865 0.661466 1 0.416043 1.001518 性别 36.107143 -2.501844 1.157818 4.669175 1

0.030709

0.081934

表2.2.3 Logistic 模型基本信息

总样本 28 求解方法 极大似然法 & Newton 迭代 迭代次数(仅beta0) 7(4)

-2LogLikelihood(Beta) 25.970652 仅常数项beta0 -0.143101 -2LogLikelihood(beta0) 38.673263 方程Wald 值(相减) 12.702611 方程自由度 4 方程检验p 值 0.012824

对于例2.1.3分组数据的极大似然估计法,主要过程如下:

∏=--=n

i i

m i n i i m

i m n i

i

C L 1)1(ππ

∑∑==-+-+=--++=n

i i i i i

i m n n

i i i i i i m n n m C m n m C L i

i

i

i

1

1)]

1ln(1ln [ln )]1ln()(ln [ln ln πππππ代入ik

x k i x ik x k i x i e

e

ββββββπ+++++++=

1101101,得 ∑=+-+=

n

i i

X T i i T i m n e

n X m C L i i 1

)]1ln([ln ln ββ

则有 g g LL F βββ??=

)

()(k g e e x n x m n

i i

X T i

X T ig i ig i ,,2,1,0,]1[1 =+-=∑=ββ =

???-=h

g LL I gh )

()(2

ββk h g e

e x x n n

i i

X T i

X T ih ig i ,,2,1,0,,)

1(1

2

=+∑

=ββ; 其中i m ,i n 分别表示分组i 中事件发生次数和总观察数,如表2.1.4和2.1.5所示。然后可采用Newton-Raphson 迭代法进行求解。由LLLStat 计算得到如下结果。

表2.2.4 性别和疗法对某病治愈的影响(未分组Logistic 似然估计法) 序号 均值 回归系数 系数标准误 wald 统计量 自由度df 检验P 值 常数项 1.000000 1.418399 0.298690 22.550513 1 0.000002 性别 0.500000 -0.961618 0.299797 10.288472 1 0.001339 治疗A 0.333333 0.584745 0.264108 4.901966 1 0.026826 治疗B

0.333333 1.560763 0.315961 24.400993 1 0.000001

表2.2.5回归系数方差矩阵V(beta)(信息矩阵I(Beta)的逆矩阵)

0.089215 -0.072957 -0.029931 -0.030097 -0.072957 0.089878 -0.000078 0.000128 -0.029931 -0.000078 0.069753 0.029993 -0.030097 0.000128 0.029993 0.099831

2.3 条件Logistic 回归[2,3]

条件Logistic 回归是配对设计(病例-对照)中常用的一种统计分析方法,通过配对方法收集资料:每一配对组可包括一个病例和一个或多个对照,有1:1型、1:m 型配对。假设收集了如下数据:

n i x x p Logit k

k i ,,2,1,)(110 =+++=βββ

为此需要估计的参数有n 个常数项n

01

0,,ββ 和k 个回归系数k ββ,,1 ,配对数越多估计的参数就越多,但是一般的数据量难以支撑这样的估计,故一般的Logistic 回归不适合配对资料。不过在参数估计时,常数项会被消去,所以方程组减少了n 个常数项n

01

0,,ββ 的估计,复杂度大大降低。对于回归参数的估计采用条件似然函数替代一般的似然函数进行。

对于第i 个配对组而言,共有m +1个观察对象,记为m B B B A ,,,,21 ,其中仅有一例发病,且正好是病例组A 发病,而对照组均没有发病的条件概率i p (类似Bayes 概率)可以表示成:

∑=+=

m

j m j m m i B B B A P B B B A P B B B A P p 112121)

()()

( (14)

其中)(21m B B B A P = )|0()|0()|1(1100m

i m i i i i i X y P X y P X y P === ,而

j

i X T j i X T j i j i e

e

X y P ββ+=

=1)|1(,j

i X T j

i j i e

X y P β+=

=11)|0(,m j ,,2,1 = (15 )

故n 个配对组的条件似然函数表示为:

∏∏

=-=-==-==≠===∑+=∑+=++++++++=n

i m

j i X j i X T n

i m

j i X j i X T n

i m

k m

k

j j j

i X T k

i X T k i X T i X T m

j j i X T i X T i X T m

j j

i X T i X T i X T e

e

e

e e

e

e

e e

e e

e

L 1

1

1

)0(11

)

0(1110

1

01

0]

1[11

11111

111111)(βββββββββββββ (16 )

则对数似然函数)()(ββLnL LL =为:

∑==-∑+-==n

i m

j i X j i X T e

LnL LL 1

1

)

0()1ln()()(βββ (17)

令 )(0i j i j i X X D -=,它是一个与第i 个样本点有关的k 维向量,j

ig D 表示向量中的第g 个元素,

则有如下得分函数和信息矩阵:

g g LL F βββ??=)()(=∑===∑+∑-n i m j j

i

D T m

j j

i D T j

ig

e e D 111

1ββ h

g LL I gh ???-=)

()(2ββ

=

k h g e

e

D e D e

e

D D m

j j

i D T m

j j

i D T j ih

m

j j i D T j ig

n

i m

j j

i D T m

j j

i D T j ih

j ig ,,2,1,])1(1[

2

1

1

1

1

1

1

=∑+∑∑-

∑+∑======∑βββββ

注意此时的T

k ),,,(21ββββ =,没有常数项0β。至此(17)式中的参数β可采用Newton-Raphson 迭

代法求解了,β初值依然取为0向量。不过该方程的求解已经相对复杂多了。

方程似然度检验和回归系数的wald 检验同非条件Logistic 回归。

例2.3.1 研究肥胖、口服避孕药雌激素与子宫内膜癌的关系,随机抽取20名患者,对于每名患者,在随机抽取年龄相近的正常人作为对照。检测患者与正常人的肥胖程度和雌激素服用情况[3]。

例2.3.1 求解的主要结果,由LLLStat软件计算得到:

表2.3.2 条件Logistic回归系数检验

序号均值(病例) 回归系数系数标准误wald统计量自由度df 检验P值

肥胖0.650000 1.823914 0.547192 11.110390 1 0.000859 雌激素0.850000 1.589621 0.450544 12.448367 1 0.000419

表2.3.3条件Logistic回归模型基本信息

样本量20

求解方法极大似然+牛顿迭代

迭代次数45

-2LogLikelihood(Beta) 33.306763

-2LogLikelihood(0) 43.944492

方程Wald值(相减) 10.637728

方程自由度 2

方程检验p值0.004898

2.4 多分类有序反应变量Logistic 回归

在实际应用中,经常遇到反应变量为多分类有序变量的情况,例如评价指标分为差、中、良、优等,各等级之间是有序的。这种资料的Logistic 回归分析通常称为比例比数模型(累积概率模型) [4],它需要拟合m -1 (m 为水平或等级个数)个Logistic 回归模型。

有序累积概率Logistic 模型:

1,,2,1;,,2,1,1)|(-==+=

≤++m j n i e

e

X j y P i

X T j a i X T j a i i ββ 或 (18)

1,,2,1,

)

|(1)

|(ln

1

1

-=+==-=∑∑==m j X X k y P X k y

P i T j j k i i j

k i i

βα (19)

有序累积概率模型参数的极大似然估计就是寻找参数使得联合概率实现最大化,由于观测之间相互独立,联合概率被分解成边缘概率之积。而观测到j y i =的概率就是累积概率之差:

)|1()|()|(i i i i i i X j y P X j y P X j y P -≤-≤==

第i 个观测值对应似然值的贡献取决于观测到哪一个j 值,因此对于次序响应的每个j 值,取所有j y i =的观测之的乘积,有似然函数:

∏∏====n i m

j ij

d i i X j y P L 11

)

|(,其中若j y i =,则1=ij d ,否则0=ij d

并且对于任一个观测i X 而言,只有一个等级事件发生,即

∑===m

j i i

X j y

P 1

1)|(,故有(19)式。其对数

似然函数如下(对于分组数据,似然函数变为:∏∏====

n

i m

j ij

d i n i i X j y P L 1

1

)

|(,i n 分组中各分类例数)。

]

)11ln(

)11ln(1ln

[)

|(ln ln 1

1

2

111111111∑∑∑∑=-=+-+-+++-+-++==+-

+++-

++===n

i m j i

X T j a i X T j a i

X T j a i X T j a ij i

X T m a i X T m a im i

X T a i X T a i n i m

j i i ij e

e

e e

d e

e

d e

e

d X j y P d L ββββββββ (20)

其中:m

j m j j e

e e e e e

e e X j y P i X T m a i X T m a i

X T j a i X T j a i X T j a i X T j a i X T a i X T a =-≤<=?????????

??

??+-+-

++==+-+-+-+-++++111

11111)|(111111ββββββββ (21)

然后就可以通过极大似然法,就上Newton-Raphson 方法加以求解参数β,,,11-m a a 了,注意的是

121-<<

)}

1ln()]1ln([]

)1ln()1ln()ln([{ln 11111

1

2

11

i

X T m a im i

X T a i T

i n i m j i

X T j a i

X T j a j a j

a i T

ij e

d e

X a d e

e

e

e

X d L ββββββ+-+=-=+-+-+-+-+++-+--+=∑∑ (22)

∑=+++++--+=??n

i i X T a i

X T a a a a i i X T a i e e

e e e d e d a L 111121

2111)]1(11[ln βββ (23) ∑=+-+-+-+------+-+--=??n

i i X T m a i

X T m a im i X T m a i X T m a m a m a m a im m e e d e e e e e d a L 11

111211

11]1)1([ln ββββ (24) 2,,2,)]1()1([ln 1111-=++--+--=??∑=++++++-m g e

e e e e d e e e e e d a L n

i i X T g a i

X T g a g a g a g

a ig i X T g a i

X T g a g a g a g

a ig g ββββ (25) k

g e e e e d e e d e d x L n

i m j i X T j a i

X T j a i X T j a i

X T j a ij i X T m a i

X T m a im i X T a i ig g ,,2,1,])111(111[ln 11

21

11111 =+-+-++-+=??∑∑=-=+-+-+++-+-+ββββββββ (26) ∑=+++++++-++-=???n

i i X T a i

X T a a a a a i i X T a i

X T a i e e

e e e d e e d a a L 12112122

122111112)])1()(()1([ln ββββ (27) ∑=+-+-+-+----+----++++--=???n

i i X T m a i

X T m a im i X T m a i X T m a m a m a m a m a im m m e e

d e e e e e d a a L 12112112212

11112])

1())1()(([ln ββββ (28) 2

,,2)])1()

(())1()(([ln 12

2

1

112

211

2

-=++

-+++--=???∑=++++++++--+m g e

e

e e

e d e

e

e e e d a a L n

i i

X T g a i X T g a g

a g a g

a g a ig i

X T g a i X T g a g a g a g a g a ig g g ββββ (29)

2,,2,1,)

(ln 1211

112-=---=???∑=+++++m g e e e d a a L n

i g a g a g a

g a ig g g (30) k h m g e

e

d d x a L

n

i i

X T g a i X T g a ig ig ih h g ,,2,1;1,,1,)1()

(ln 1

2

12 =-=++-=???∑=+++βββ (31) k

h g e e

e e d e e d e e d x x L n

i m j i X T j a i

X T j a i X T j a i

X T j a ij i X T m a i

X T m a im i X T a i

X T a i ih ig h g ,,2,1,)])

1()1(()1()1([ln 11

2211221121112

=+++++++-=???∑∑=-=+-+-+++-+-++ββββββββββ (32)

由此构建信息矩阵),(βa I 和),(βa F ,并可迭代求解了。注:若为分组数据,上述每项乘以i n 。

例2.4.1 研究性别和两种治疗方法对某种疾病疗效的影响[3],将疗效分成效果显、有效和无效三个等级,根据试验调查,得到如下资料。

表2.4.2 多分类有序反应变量数据格式 行号 性别 治疗方法 频数 疗效等级 1 1 1 16 1 2 1 1 5 2 3 1 1 6 3 4 1 0 6 1

5 1 0 7 2

6 1 0 19 3

7 0 1 5 1

8 0 1 2 2

9 0 1 7 3

10 0 0 1 1

11 0 0 0 2

12 0 0 10 3

计算结果,由LLLStat统计软件给出:

表2.4.3 回归系数方差矩阵V(beta)(信息矩阵I(Beta)的逆矩阵)

0.374733 0.324880 -0.257757 -0.192823

0.324880 0.323782 -0.244457 -0.169612

-0.257757 -0.244457 0.289488 0.069404

-0.192823 -0.169612 0.069404 0.236257

表2.4.4 有序分类因变量Logistic回归系数检验

序号回归系数系数标准误wald统计量自由度df 检验P值常数项a1 -2.693576 0.612155 19.361377 1 0.000011

常数项a2 -1.812040 0.569018 10.141059 1 0.001450 性别 1.052352 0.538041 3.825528 1 0.050477 治疗方法 2.187272 0.486063 20.249800 1 0.000007

表2.4.5 有序分类因变量Logistic回归模型基本信息

样本分组数12

求解方法极大似然+牛顿迭代

迭代次数17

注意:该结果与 SAS, DPS不一致。

Poisson 回归模型

1 简介

一般情况下,单位容积水中的细菌数,单位时间内某些事件发生的次数,单位面积上降落的灰尘的颗粒数等,都可以用Poisson 分布来描述。一般Poisson 分布描述成随机变量)(~λP Y ,概率分布律为:

,2,1,0,!

)(===-y y e

y Y P y

λλ

易知λ=EY ,通常λ可能受到众多因素的影响,不妨假设这些因素为k x x x ,,,21 (自变量,协变

量),令),,,,1(21k x x x X =,对于分组数据,Poisson 分布的期望发生数假设为[7]

i

X T i ik

x k i x i i i i e

n e

n X y E ββββλ===+++ 110)|( (1)

其中T

k ),,,(10ββββ =为回归参数,i n 为第i 组的总观测数。回归模型的似然函数为Poisson 分

布条件下各个格子概率函数的乘积,因此Poisson 分布的极大似然函数和对数似然函数具体形式分别为:

∏∏=∑=-=-====n

i i i

y i n i i n

i i i

y i

i

n i i y e

y e

p L 1

1

11

!

!

λλλλ

∑∑∑===-+-=n i n

i i i i n

i i y y L 1

1

1

)!ln(ln ln λλ

代入i

X

T i i e

n βλ=,得

∑∑∑∑∑∑======--+=--=n

i n

i i

y j i

X T i i T i i i n

i n

i i

y j i

X T i i

X T i i j

e

n X y n y j

e

n e

n y L 1

11

111

ln ])ln([ln ]ln([ln ββββ (2)

∑=-=??=n

i i

X T ig i ig i g g e X n X y L F 1

][)(ln )(ββββ (3)

∑==???-=n

i i

X T ih ig i h g gh e

X X n L I 1

2)(ln )(βββββ,k h g ,,1,0, = (4) 则可采用Newton-Raphson 迭代法求解参数T

k ),,,(10ββββ =的极大似然估计了。

对于仅有常数项的Poisson 模型,其估计值为∑∑===n

i i

n

i i

n

y 11

ln ?β,用于计算对数似然比。

2.案例分析

例1[ 3] Doll 和Hill(1966)研究英国男性医生患冠心病与抽烟、年龄关系。由于死亡与追踪人数和追踪时间有关,故用追踪人数和追踪时间的乘积(人年)作为观察单位数。假定其目标变量(死亡人数)近似服从Poisson 分布,其调查取样共74588调查单位,死亡598例。主要研究因素有抽烟(1为抽烟,0为不抽烟);调查对象年龄分成4组(35-44岁,45-54岁,55-64岁,65-74岁),此为多分类变量,需要设置三个变量加以区分,可将其中一个年龄组作为参照组,不妨取35-44岁,计算时不考虑对照组信息。

表1 英国男性医生患冠心病与抽烟、年龄关系

分组 抽烟 34-44岁

45-54岁

55-64岁

65-74岁

死亡数 总例数 1 1 1 0 0 0 32 52307 2 1 8 3 1 2 4 1

3

5

6 3

7

8

由LLLStat软件计算的如下结果:

表2 回归系数方差矩阵V(beta)(信息矩阵I(Beta)的逆矩阵)

0.040354 -0.013325 -0.028763 -0.028467 -0.028496

-0.013325 0.016227 -0.000790 -0.001151 -0.001115

-0.028763 -0.000790 0.038071 0.029468 0.029466

-0.028467 -0.001151 0.029468 0.033767 0.029491

-0.028496 -0.001115 0.029466 0.029491 0.034161

表3 分组Poisson回归系数检验

logistic回归模型总结

[转载]logistic回归模型总结 logistic回归模型是最成熟也是应用最广泛的分类模型,通过学习和实践拟通过从入门、进阶到高级的过程对其进行总结,以便加深自己的理解也为对此有兴趣者提供学习的便利。 一、有关logistic的基本概念 logistic回归主要用来预测离散因变量与一组解释变量之间的关系 最常用的是二值型logistic。即因变量的取值只包含两个类别例如:好、坏;发生、不发生;常用Y=1或Y=0表示X 表示解释变量则 P(Y=1|X)表示在X的条件下Y=1的概率,logistic回归的数学表达式为: log(p/1-p)=A+BX =L其中p/1-p称为优势比(ODDS)即发生与不发生的概率之比 可以根据上式反求出P(Y=1|X)=1/(1+e^-L) 根据样本资料可以通过最大似然估计计算出模型的参数 然后根据求出的模型进行预测 下面介绍logistic回归在SAS中的实现以及输出结果的解释 二、logistic回归模型初步

SAS中logistic回归输出结果主要包括预测模 型的评价以及模型的参数 预测模型的评价与多元线性回归模型的评价类似主要从以 下几个层次进行 (1)模型的整体拟合优度 主要评价预测值与观测值之间的总体一致性。可以通过以下两个指标来进行检验 1、Hosmer-Lemeshowz指标 HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据。 在SAS中这个指标可以用LACKFIT选项进行调用 2、AIC和SC指标即池雷准则和施瓦茨准则 与线性回归类似AIC和SC越小说明模型拟合的越好 (2)从整体上看解释变量对因变量有无解释作用 相当于多元回归中的F检验在logistic回归中可以通过似然比(likelihood ratio

逻辑回归模型分析见解

1.逻辑回归模型 1.1逻辑回归模型 考虑具有p个独立变量的向量,设条件概率为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为 (1.1) 上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。 其中。如果含有名义变量,则将其变为dummy变量。一个具有k个取值的名义变量,将变为k-1个dummy变量。这样,有 (1.2) 定义不发生事件的条件概率为 (1.3) 那么,事件发生与事件不发生的概率之比为 (1.4) 这个比值称为事件的发生比(the odds of experiencing an event),简称为odds。因为00。对odds取对数,即得到线性函数, (1.5) 1.2极大似然函数 假设有n个观测样本,观测值分别为设为给定条件下

得到的概率。在同样条件下得到的条件概率为。于是,得到一个观测值的概率为 (1.6) 因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积。 (1.7) 上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是,最大似然估计的关键就是求出参数,使上式取得最大值。 对上述函数求对数 (1.8) 上式称为对数似然函数。为了估计能使取得最大的参数的值。 对此函数求导,得到p+1个似然方程。 (1.9) ,j=1,2,..,p. 上式称为似然方程。为了解上述非线性方程,应用牛顿-拉斐森(Newton-Raphson)方法进行迭代求解。 1.3牛顿-拉斐森迭代法 对求二阶偏导数,即Hessian矩阵为 (1.10) 如果写成矩阵形式,以H表示Hessian矩阵,X表示 (1.11) 令

Logistic回归模型基本知识

Logistic 回归模型 1 Logistic 回归模型的基本知识 1.1 Logistic 模型简介 主要应用在研究某些现象发生的概率p ,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率 p 与那些因素有关。显然作为概率值,一定有10≤≤p ,因此很难用线性模型描述概率p 与自变量的关 系,另外如果p 接近两个极端值,此时一般方法难以较好地反映p 的微小变化。为此在构建p 与自变量关系的模型时,变换一下思路,不直接研究p ,而是研究p 的一个严格单调函数)(p G ,并要求)(p G 在p 接近两端值时对其微小变化很敏感。于是Logit 变换被提出来: p p p Logit -=1ln )( (1) 其中当p 从10→时,)(p Logit 从+∞→∞-,这个变化范围在模型数据处理上带来很大的方便, 解决了上述面临的难题。另外从函数的变形可得如下等价的公式: X T X T T e e p X p p p Logit ββ β+= ?=-=11ln )( (2) 模型(2)的基本要求是,因变量(y )是个二元变量,仅取0或1两个值,而因变量取1的概率) |1(X y P =就是模型要研究的对象。而T k x x x X ),,,,1(21 =,其中i x 表示影响y 的第i 个因素,它可以是定性变量也可以是定量变量,T k ),,,(10ββββ =。为此模型(2)可以表述成: k x k x k x k x k k e e p x x p p βββββββββ+++++++= ?+++=- 11011011011ln (3) 显然p y E =)(,故上述模型表明) (1) (ln y E y E -是k x x x ,,,21 的线性函数。此时我们称满足上面条件 的回归方程为Logistic 线性回归。 Logistic 线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。不同于多元线性回归的最小二乘估计法则(残差平方和最小),Logistic 变换的非线性特征采用极大似然估计的方法寻求最佳的回归系数。因此评价模型的拟合度的标准变为似然值而非离差平方和。 定义1 称事件发生与不发生的概率比为 优势比(比数比 odds ratio 简称OR),形式上表示为 OR= k x k x e p p βββ+++=- 1101 (4) 定义2 Logistic 回归模型是通过极大似然估计法得到的,故模型好坏的评价准则有似然值来表征,称

Logistic回归分析报告结果解读分析

Logistic 回归分析报告结果解读分析 Logistic 回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是” 或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量,也可以为分类变量。通过Logistic 回归分析,就可以大致了解胃癌的危险因素。 Logistic 回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量;Logistic 回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。 1. Logistic 回归的用法 一般而言,Logistic 回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic 回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。 2. 用Logistic回归估计危险度 所谓相对危险度(risk ratio , RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的 比值。Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。如不同性别的

胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,

二分类Logistic回归模型

二分类Logistic 回归模型 在对资料进行统计分析时常遇到反应变量为分类变量的资料,那么,能否用类似于线性回归的模型来对这种资料进行分析呢?答案是肯定的。本章将向大家介绍对二分类因变量进行回归建模的Logistic 回归模型。 第一节 模型简介 一、模型入门 在很多场合下都能碰到反应变量为二分类的资料,如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等。对于分类资料的分析,相信大家并不陌生,当要考察的影响因素较少,且也为分类变量时,分析者常用列联表(contingency Table)的形式对这种资料进行整理,并使用2 χ检验来进行分析,汉存在分类的混杂因素时,还可应用Mantel-Haenszel 2 χ检验进行统计学检验,这种方法可以很好地控制混杂因素的影响。但是这种经典分析方法也存在局限性,首先,它虽然可以控制若干个因素的作用,但无法描述其作用大小及方向,更不能考察各因素间是否存在交互任用;其次,该方法对样本含量的要求较大,当控制的分层因素较多时,单元格被划分的越来越细,列联表的格子中频数可能很小甚至为0,将导致检验结果的不可靠。最后,2 χ检验无法对连续性自变量的影响进行分析,而这将大大限制其应用范围,无疑是其致使的缺陷。 那么,能否建立类似于线性回归的模型,对这种数据加以分析?以最简单的二分类因变量为例来加以探讨,为了讨论方便,常定义出现阳性结果时反应变量取值为1,反之则取值为0 。例如当领导层有女性职员、下雨、痊愈时反应变量1y =,而没有女性职员、未下雨、未痊愈时反应变量0y =。记出现阳性结果的频率为反应变量(1)P y =。 首先,回顾一下标准的线性回归模型: μ11m m Y x x αββ=+++L 如果对分类变量直接拟合,则实质上拟合的是发生概率,参照前面线性回归方程 ,很 自然地会想到是否可以建立下面形式的回归模型: μ11m m P x x αββ=+++L 显然,该模型可以描述当各自变量变化时,因变量的发生概率会怎样变化,可以满足 分析的基本要求。实际上,统计学家们最早也在朝这一方向努力,并考虑到最小二乘法拟合时遇到的各种问题,对计算方法进行了改进,最终提出了加权最小二乘法来对该模型进行拟合,至今这种分析思路还偶有应用。 既然可以使用加权最小二乘法对模型加以估计,为什么现在又放弃了这种做法呢?原因在于有以下两个问题是这种分析思路所无法解决的: (1)取值区间:上述模型右侧的取值范围,或者说应用上述模型进行预报的范围为整 个实数集(,)-∞+∞,而模型的左边的取值范围为01P ≤≤,二者并不相符。模型本身不能

Logistic回归分析报告结果解读分析

L o g i s t i c回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量,也可以为分类变量。通过Logistic回归分析,就可以大致了解胃癌的危险因素。 Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。 回归的用法 一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。 2.用Logistic回归估计危险度 所谓相对危险度(riskratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的 比值。Logistic回归给出的OR(oddsratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如,这样就表示,男性发生胃癌的风险是女性的倍。这里要注意估计的方向问题,以女性作为参照,男性患

Logistic回归模型

Logistic回归模型 1 Logistic回归模型的基本知识 1.1Logistic模型简介 主要应用在研究某些现象发生的概率,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率与那些因素有关。显然作为概率值,一定有,因此很难用线性模型描述概率与自变量的关系,另外如果接近两个极端值,此时一般方法难以较好地反映p的微小变化。为此在构建与自变量关系的模型时,变换一下思路,不直接研究,而是研究的一个严格单调函数,并要求在接近两端值时对其微小变化很敏感。于是Logit 变换被提出来: (1)其中当从时,从,这个变化范围在模型数据处理上带来很大的方便,解决了上述面临的难题。另外从 函数的变形可得如下等价的公式: (2)模型(2)的基本要求是,因变量(y)是个二元变量,仅取0或1两个值,而因变量取1的概率就是模型要研究的对象。而,其中表示影响的第个因素,它可以是定性变量也可以是定量变量,。为此模型(2)可以表述成: (3)显然,故上述模型表明是的线性函数。此时我们称满足上面条件的回归方程为Logistic线性回归。 Logistic线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯 努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。不同于多元线性回归的最小二乘估计法则(残差平方和最小),Logistic变换的非线性特征采用极大似然估计的方法寻求最佳的回归系数。因此评价模型的拟合度的标准变为似然值而非离差平方和。 定义1 称事件发生与不发生的概率比为优势比(比数比odds ratio 简称OR),形式上表示为 OR= (4) 定义2Logistic回归模型是通过极大似然估计法得到的,故模型好坏的评价准则有似然值来表征,称-2为估计值的拟合似然度,该值越小越好,如果模型完全拟合,则似然值为1,而拟合似然度达到最小,值为0。其中表示的对数似然函数值。 定义3记为估计值的方差-协方差矩阵,为的标准差矩阵,则称 (5)为的Wald统计量,在大样本时,近似服从分布,通过它实现对系数的显著性检验。 定义4 假定方程中只有常数项,即各变量的系数均为0,此时称 (6)为方程的显著性似然统计量,在大样本时,近似服从分布。 1.2 Logistic模型的分类及主要问题 根据研究设计的不同,Logistic回归通常分为成组资料的非条件Logistic回归和配对资料的条件Logistic 回归两种大类。还兼具两分类和多分类之分,分组与未分组之分,有序与无序变量之分。具体如下:

logistic回归与线性回归得比较.

这个表类似于北京5环左右的房屋价钱,我们可以做出一个图,x轴是房屋的面积。y轴是房屋的售价,如下:

如果来了一个新的面积,假设在销售价钱的记录中没有的,我们怎么办呢? 我们可以用一条曲线去尽量准的拟合这些数据,然后如果有新的输入过来,我们可以在将曲线上这个点对应的值返回。如果用一条直线去拟合,可能是下面的样子: 绿色的点就是我们想要预测的点。 首先给出一些概念和常用的符号。 房屋销售记录表:训练集(training set)或者训练数据(training data), 是我们流程中的输入数据,一般称为x 房屋销售价钱:输出数据,一般称为y 拟合的函数(或者称为假设或者模型):一般写做 y = h(x) 训练数据的条目数(#training set),:一条训练数据是由一对输入数据和输出数据组成的输入数据的维度n (特征的个数,#features)

这个例子的特征是两维的,结果是一维的。然而回归方法能够解决特征多维,结果是一维多离散值或一维连续值的问题。 3 学习过程 下面是一个典型的机器学习的过程,首先给出一个输入数据,我们的算法会通过一系列的过程得到一个估计的函数,这个函数有能力对没有见过的新数据 给出一个新的估计,也被称为构建一个模型。就如同上面的线性回归函数。 4 线性回归 线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大,每个特征对结果的影响强弱可以由前面的参数体现,而且每个特征变量可以首 先映射到一个函数,然后再参与线性计算。这样就可以表达特征与结果之间的 非线性关系。 我们用X1,X2..Xn 去描述feature里面的分量,比如x1=房间的面积, x2=房间的朝向,等等,我们可以做出一个估计函数:

logistic 回归与线性回归的比较

1 logistic回归 logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。 1.1 logistic回归概述 logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有w…x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w…x+b 作为因变量,即y =w…x+b,而logistic回归则通过函数L将w…x+b对应一个隐状态p,p =L(w…x+b),然后根据p 与1-p的大小决定因变量的值。如果L是logistic 函数,就是logistic回归,如果L是多项式函数就是多项式回归。 logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多类可以使用softmax方法进行处理。实际中最为常用的就是二分类的logistic回归。 Logistic回归模型的适用条件 1 因变量为二分类的分类变量或某事件的发生率,并且是数值型变量。但是需要注意,重复计数现象指标不适用于Logistic回归。 2 残差和因变量都要服从二项分布。二项分布对应的是分类变量,所以不是正态分布,进而不是用最小二乘法,而是最大似然法来解决方程估计和检验问题。 3 自变量和Logistic概率是线性关系 4 各观测对象间相互独立。 原理:如果直接将线性回归的模型扣到Logistic回归中,会造成方程二边取值区间不同和普遍的非直线关系。因为Logistic中因变量为二分类变量,某个概

Logistic回归分析报告结果解读分析

Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量,也可以为分类变量。通过Logistic回归分析,就可以大致了解胃癌的危险因素。 Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。 1.Logistic回归的用法 一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。 2.用Logistic回归估计危险度 所谓相对危险度(risk ratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的 比值。Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,

这样就表示,男性发生胃癌的风险是女性的1.7倍。这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是1.7。如果以男性作为参照,算出的OR将会是0.588(1/1.7),表示女性发生胃癌的风险是男性的0.588倍,或者说,是男性的58.8%。撇开了参照组,相对危险度就没有意义了。 Logistic回归在医学研究中广泛使用的原因之一,就是模型直接给出具有临床实际意义的OR值,很大程度上方便了结果的解读与推广。 图1 相对危险度(risk ratio,RR)与OR(odds ratio)的表达 3. Logistic报告OR值或β值 在Logistic回归结果汇报时,往往会遇到这样一个问题:是应该报告OR值,

对线性回归,logistic回归和一般回归的认识

假设有一个房屋销售的数据如下: 面积(m^2)销售价钱(万元) 123250 150320 87160 102220 …… 这个表类似于北京5环左右的房屋价钱,我们可以做出一个图,x轴是房屋的面积。y轴是房屋的售价,如下: 如果来了一个新的面积,假设在销售价钱的记录中没有的,我们怎么办呢? 我们可以用一条曲线去尽量准的拟合这些数据,然后如果有新的输入过来,我们可以在将曲线上这个点对应的值返回。如果用一条直线去拟合,可能是下面的样子: 绿色的点就是我们想要预测的点。

首先给出一些概念和常用的符号。 房屋销售记录表:训练集(training set)或者训练数据(training data), 是我们流程中的输入数据,一般称为x 房屋销售价钱:输出数据,一般称为y 拟合的函数(或者称为假设或者模型):一般写做y = h(x) 训练数据的条目数(#training set),:一条训练数据是由一对输入数据和输出数据组成的输入数据的维度n (特征的个数,#features) 这个例子的特征是两维的,结果是一维的。然而回归方法能够解决特征多维,结果是一维多离散值或一维连续值的问题。 3 学习过程 下面是一个典型的机器学习的过程,首先给出一个输入数据,我们的算法会通过一系列的过程得到一个估计的函数,这个函数有能力对没有见过的新数据给出一个新的估计,也被称为构建一个模型。就如同上面的线性回归函数。 4 线性回归 线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大,每个特征对结果的影响强弱可以由前面的参数体现,而且每个特征变量可以首先映射到一个函数,然后再参与线性计算。这样就可以表达特征与结果之间的非线性关系。 我们用X1,X2..Xn 去描述feature里面的分量,比如x1=房间的面积,x2=房间的朝向,等等,我们可以做出一个估计函数: θ在这儿称为参数,在这的意思是调整feature中每个分量的影响力,就是到底是房屋的面积更重要还是房屋的地段更重要。为了如果我们令X0 = 1,就可以用向量的方式来表示了:

logistic回归模型总结

[]logistic回归模型总结 logistic回归模型是最成熟也是应用最广泛的分类模型,通过学习和实践拟通过从入门、进阶到高级的过程对其进行总结,以便加深自己的理解也为对此有兴趣者提供学习的便利。 一、有关logistic的基本概念 logistic回归主要用来预测离散因变量与一组解释变量之间的关系 最常用的是二值型logistic。即因变量的取值只包含两个类别例如:好、坏;发生、不发生;常用Y=1或Y=0表示X表示解释变量则 P(Y=1|X)表示在X的条件下Y=1的概率,logistic回归的数学表达式为: log(p/1-p)=A+BX =L其中p/1-p称为优势比(ODDS)即发生与不发生的概率之比 可以根据上式反求出P(Y=1|X)=1/(1+e^-L) 根据样本资料可以通过最大似然估计计算出模型的参数 然后根据求出的模型进行预测 下面介绍logistic回归在SAS中的实现以及输出结果的解释 二、logistic回归模型初步

SAS中logistic回归输出结果主要包括预测模型的评价以及模型的参数 预测模型的评价与多元线性回归模型的评价类似主要从以下几个层次进行 (1)模型的整体拟合优度 主要评价预测值与观测值之间的总体一致性。可以通过以下两个指标来进行检验 1、Hosmer-Lemeshowz指标 HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据。 在SAS中这个指标可以用LACKFIT选项进行调用 2、AIC和SC指标即池雷准则和施瓦茨准则 与线性回归类似AIC和SC越小说明模型拟合的越好 (2)从整体上看解释变量对因变量有无解释作用 相当于多元回归中的F检验在logistic回归中可以通过似然比(likelihood ratio

第十二章 Logistic回归分析

第十二章 Logistic 回归分析 一、Logistic 回归概述: Logistic 回归主要用于筛选疾病的危险因素、预后因素或评价治疗措施;通常以疾病的死亡、痊愈等结果发生的概率为因变量,以影响疾病发生和预后的因素为自变量建立模型。 二、Logistic 回归的分类及资料类型: 第一节 非条件Logistic 回归分析 一、Logistic 回归模型: Logistic 回归模型: logit (P )= ln( p p -1) = β0+β1χ 1 + … +βn χn 二、回归系数的估计(参数估计): 回归模型的参数估计:Logistic 回归模型的参数估计通常利用最大似然估计法。 三、假设检验: 1.Logistic 回归方程的检验: ·检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性关系,也即方程是否成立。 ·检验的方法有似然比检验、比分检验(score test )和Wald 检验(wald test )。上述三种方法中,似然比检验最可靠。 ·似然比检验(likehood ratio test ):通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G=-2ln(L)(又称Deviance )。无效假设H 0:β=0。当H 0成立时,检验统计量G 近似服从自由度为N-P-1的X 2 分布。当G 大于临界值时,接受H 1,拒绝无效假设,认为从整体上看适合作Logistic 回归分析,回归方程成立。 2.Logistic 回归系数的检验: ·为了确定哪些自变量能进入方程,还需要对每个自变量的回归系数进行假设检验,判断其对模型是否有贡献。 ) (1101101101 1 11)](exp[11 )exp(1)exp(p p X X p p p p p p e X X X X X X p ββββββββββββ+++-+= +++-+=+++++++=

如何用spss17.0进行二元和多元logistic回归分析

如何用spss17.0进行二元和多元logistic 回归分析 一、二元logistic 回归分析 二元logistic 回归分析的前提为因变量是可以转化为0、1的二分变量,如:死亡或者生存,男性或者女性,有或无,Yes 或No ,是或否的情况。 下面以医学中不同类型脑梗塞与年龄和性别之间的相互关系来进行二元logistic 回归分析。 (一)数据准备和SPSS 选项设置 第一步,原始数据的转化:如图1-1所示,其中脑梗塞可以分为ICAS 、ECAS 和NCAS 三种,但现在我们仅考虑性别和年龄与ICAS 的关系,因此将分组数据ICAS 、ECAS 和NCAS 转化为1、0分类,是ICAS 赋值为1,否赋值为0。年龄为数值变量,可直接输入到spss 中,而性别需要转化为(1、0)分类变量输入到spss 当中,假设男性为1,女性为0,但在后续分析中系统会将1,0置换(下面还会介绍),因此为方便期间我们这里先将男女赋值置换,即男性为“0”,女性为“1”。 第二步:打开“二值Logistic 回归分析”对话框: 沿着主菜单的“分析(Analyze )→回归(Regression )→二元logistic (Binary Logistic )”的路径(图1-2)打开二值Logistic 回归分析选项框(图1-3)。 如图1-3左侧对话框中有许多变量,但在单因素方差分析中与ICAS 显著相关的为性别、年龄、有无高血压,有无糖尿病等(P<0.05),因此我们这里选择以性别和年龄为例进行分析。 图 1-1

在图1-3中,因为我们要分析性别和年龄与ICAS 的相关程度,因此将ICAS 选入因变量(Dependent )中,而将性别和年龄选入协变量(Covariates )框中,在协变量下方的“方法(Method )”一栏中,共有七个选项。采用第一种方法,即系统默认的强迫回归方法(进入“Enter ”)。 接下来我们将对分类(Categorical ),保存(Save ),选项(Options )按照如图1-4、1-5、1-6中所示进行设置。在“分类”对话框中,因为性别为二分类变量,因此将其选入分类协变量中,参考类别为在分析中是以最小数值“0(第一个)”作为参考,还是将最大数值“1(最后一个)”作为参考,这里我们选择第一个“0”作为参考。在“存放”选项框中是指将不将数据输出到编辑显示区中。在“选项”对话框中要勾选如图几项,其中“exp(B)的CI(X)”一定要勾选,这个就是输出的OR 和CI 值,后面的95%为系统默认,不需要更改。 图 1-2 图1-3

相关主题
文本预览
相关文档 最新文档