多因素分析

  • 格式:ppt
  • 大小:2.09 MB
  • 文档页数:68

下载文档原格式

  / 68
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

方程的假设检验
整个模型的假设检验: 方差分析法 (ANOVA)
H0 : 1 2 3 4 0
F=17.000,P<0.001,拒绝H0,以下模型是有意义的.
ˆ 58.1991.030X 0.131X 0.811X 0.579X Y 1 2 3 4
来自百度文库
是不是每个自变量的偏回归系数均有统计学 意义呢?t检验
N为个体数,k为自变量个数 并不是每个自变量都有意 义!,在alpha=0.05,x1 x2 x4三个 变量没有统计学意义
bi ti ~ t( n k 1) sbi
自变量筛选常用方法
All possible subsets selection 最优子集回归,全局择优法 Stepwise selection include 逐步回归法
logit P 0 1x1 2x 2 m x m
p(y 1) log it( p ) log(odds ) log[ ] 1 p
1 x1 2 x2 m xm
e P 1 x1 2 x2 m xm 1 e
10
评价指标:
1 残差平方和与决定系数
SSR SSE R 1 SST SST
2
残差平方和越小越好,R2越大越好
11
2 残差均方与调整确定系数
2 p ( 1 R ) 2 2 Ra R n p 1
SSE MS E n p 1
考虑了引入变量的个数p
12
3 Cp统计量( Cp statistic)
24.22 10.0 5.75 13.6 29.36 24.22 3.0 9.32 6.2 14.31
24.14 5.0 26.45 4.0 25.22 2.3 27.22 3.0 25.93 6.0
10.21 7.4 19.31 5.1 8.65 8.54 7.21 7.6 8.6 8.9 7.0
30名糖尿病患者脂联素ADI(Y,ng/ml)与体重指数BMI(x1,kg/m2)、病程 (x2,year)、 瘦素LEP(x3,ng/ml)、空腹血糖FPG(x4,mmol/L)关系分析
Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 x1 x2 x3 x4 y Obs 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 x1 x2 x3 x4 y 16.01 19.03 17.46 20.36 15.92 15.34 8.05 12.31 5.59 8.59 8.89 14.10 11.74 5.18 6.12
本方法教学要求 • 适用资料 • 回归方程表达 • 偏回归系数与比数比OR • 模型检验与偏回归系数检验 • 哑变量设置 • 变量筛选 • 应用
• Logistic回归分析思路同多元线性回归 要考虑和解决如下几个问题: 1、Y中的1,0的比例,比例接近0或1都不好 2、模型的全局检验,似然比检验LR(多元线 性回归是ANOVA) 3、方程中每个系数的检验:wald或LR,多元 线性回归是t-test) 4、变量筛选:向前,向后(条件LR,LR,Wald) 5、个体概率预测,判断
OR 1 OR 1
疾病与暴露无关 有关 1 ‘ 危险’ 因素 因素 1 ‘ 保护’
28
高血压1
超重或肥胖1 正常0 1656 a 1331 c
非病人0
2492 b 5461 d
合计
4148 6792
合计
2987
7953
10940
29
回归系数的解释 logit P 0 1x1 2x 2 m x m
方 程
向 后 法 (删)
方 程
向 前 法 (进)
自变量框中变量全 部进入方程 强迫删除
方 程
逐 步 法
Yˆ 53.481 1.087X 1 0.753X 3
最终得到对脂联素有意义的影响因素为BMI与瘦素,(非标准 化偏回归系数)生物学意义为BMI、瘦素增加,脂联素含量是 下降的,(标准化偏回归系数)瘦素的影响作用大于BMI的影 响。
体重指数 病程 瘦素 空腹血糖 -1.030意思为在x2、x3、x4为给定值的情况下,体重指数每增加一个单 位,脂联素平均减少1.030 (ng/ml) For a given x2,x3,x4, each 1kg/m2 increase in x1 is associated with an average decrease in Y of 1.030ng/ml.
• 由Mallows CL.提出。
C p ( n p 1 )[
( MS残 )p ( MS残 )all
1] p 1
当p个自变量拟合的方程理论上“最优”时,Cp 的期望值为p+1,因此应选择Cp越接近于p+1 的回归方程为“最优”方程。
13
SAS运行结果
14
二、逐步回归法
规定进入,保留(删)的P值,且要 求P进<P删,P值大小如何选取?
19.03 15.0 2.50 11.1 26.08 23.39 3.0 19.49 4.0 24.38 6.0 19.03 2.9 21.11 9.0 23.32 5.0 24.34 2.0 23.82 8.0 5.66 9.7 2.83 7.3 6.86 7.3 3.22 7.7 4.90 6.0 3.54 6.7 4.51 7.2 8.47 9.1 19.62 42.82 22.76 31.00 17.28 30.25 24.28 18.94 16.08 29.50 25.64 32.26
26.99 12.0 8.75 25.71 7.0 28.41 4.0 26.39 4.0
13.07 13.5 8.90 13.5
23.26 8.2
28.73 10.0 19.05 6.9 27.46 16.0 19.44 6.5 27.99 10.0 17.33 6.1 28.41 2.0 30.69 1.5 29.39 3.0 14.59 6.8 22.06 8.1 20.56 7.5
适用资料
• 应变量Y为二分类:二元Logistic 回归 • Y为无序多分类:多项Logistic 回归 • Y为有序多分类:有序Logistic 回归 自变量类型不限,变量个数单个多个均可 本次课只讲二分类Logistic 回归,且是完全随 机设计资料,因此也称非条件Logistic 回归
回归方程表达
30
模型检验与偏回归系数检验 似然比检验(likelihood test)
• 似然比检验是通过比较两个相嵌套模型的对数似 然函数统计量G(又称Deviance)来进行的,其统 计量为: G=GP- GK =-2ln(LP)+2ln(LK) • G服从自由度为K-P的2分布。 • 所以似然比检验既可对模型进行整体检验,又可 以对每个(引进/剔除)的变量进行检验
4
• 偏回归系数的计算:最小二乘原理 • 假设检验:偏回归系数检验-t检验 模型整体检验-方差分析 • 前提条件:线性、独立性、正态性、方 差相等,LINE
SPSS操作步骤
• 分析→回归→线性→因变量:Y;自变量:x1-x4 →ok
ˆ 58.1991.030X 0.131X 0.811X 0.579X Y 1 2 3 4
22.86 20.0 9.92 8.1 24.49 12.0 6.01 7.0 23.37 6.0 20.81 7.0 4.31 6.3 3.46 7.1
3
根据样本得到的回归方程
Yˆ b 0 b1 x 1 b 2 X 2 b k x k
• 偏回归系数 partial regression coefficient 表示在其他自变量固定条件下,某自变量每 增减一个单位对y的平均效应影响。 • 标准化偏回归系数(standardized ~) ,表示 在其他自变量固定条件下,某自变量每增减 一个标准单位,y改变的平均标准单位数。其 大小反映了该自变量的重要性 • 多因素的分析更加切合实际;提高回归方程的 估计精度;从多个可能的因素中选择真正有意 义的因素
31
似然比检验
• 检验变量X1是否有统计学意义: 模型1:不考虑, -2lnL1=12827.236 模型2:考虑X , -2lnL2= 12301.503
G=-2lnL1-(-2lnL2)
L为对数似然函数值
G= 12301.503 -12827.236=174.267, =1,P<0.001
• P为发病的概率, 0≤P≤1,广义线性模型。
Log,就是自然对数 ln;ex ,可写成exp(x)
23
偏回归系数计算基本原理:极大似然法(Maximum likelihood, ML)
e 1 L 1 x1 2 x2 m xm 1 x1 2 x2 m xm 1 e 1 e i 1
n
1 x1 2 x2 m xm
yi
1 yi
要求lnL 达到最大。
复习:优势odds与优势比odds ratio
优势(比势)为某病患者(或非患者) 某暴露因素存在的比例P(E)和不存在的 比例(1-P(E))的比例。
Odds=P(E)/[1-P(E)]
25
优势比odds ratio,OR患者与非患者某因素优势的比值 被称作优势比(比数比)。OR=odds1/odds0
高血压1 超重或肥胖1 正常0 合计 1656 a 1331 c 2987 非病人0 2492 b 5461 d 7953 合计 4148 6792 10940
例 病人有超重或肥胖史(BMI>=25)的优势
odds1=(1656/2987)/(1331/2987)=1.2442
非病人有超重或肥胖史史的优势 Odds0=2492/5461=0.4563
• logistic回归中的系数,与OR的关系: =ln(OR)
设P1 为X=1的得病概率, P0 为X=0的得病概率
P 1 /(1 P 1) ln(OR) ln P /( 1 P ) 0 0 P0 P 1 ln ln 1 P 1 1 P0 (( (1 0 0 1 ) 0) 0 1 1) ) ( 1 =
◦ forward selection 前向选择 ◦ backward elimination 后向选择 ◦ stepwise regression 逐步选择
由于变量之间是有关联的,因此并不是简单 地将三个变量从方程中去除!
9
一 最优子集法
最优子集法是对自变量各种不同的组合 所建立的回归方程进行比较,从而选出一 个“最优”的回归方程。
思考
• • • • 多元线性回归中应变量Y是什么类型的变量? 偏回归系数与标准偏回归系数的意义 控制混杂因素有哪些方法? 方差分析与t检验在多元线性回归分析中的作 用有何不同?
• 变量筛选有哪些方法?在应用逐步法筛选变 量时是不是一定取alpha=0.05?如何选取?
第二部分 Logistic 回归
OR=odds1/Odds0= 1.2442 / 0.4563 =2.727
26
病例中暴露的比例 OR 对照中暴露的比例
病例中非暴露的比例 对照中非暴露的比例
ad 1656 * 5461 OR 2 .727 bc 1331 * 2492
27
若y=1为disease,y=0为non-disease, 有
多因素分析
多元线性回归 Logistic回归 生存分析
第一部分 多元线性回归
• 简单线性回归只考虑一个X对Y的影响;多元线性回 归(multiple linear regression)考虑多个自变量X对Y 的影响 • 此时要考虑: 1. Y是否满足LINE 2.所建回归方程是否有意义:AVOVA 3.回归方程中的每个自变量是否都有意义:t检验 4.如何获得变量最少,解释Y变异又较多的方程? 筛选变量方法