回归分析思路

  • 格式:pptx
  • 大小:534.07 KB
  • 文档页数:45

下载文档原格式

  / 45
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

t Value 1.59 7.18
Pr > |t| 0.1251 <.0001
地区、气温的多因素分析结果

Variable
district temp
DF 1 1
Parameter Estimate 13.56288 1.43461
Standard Error 3.57262 0.15541
应用条件检查
其它常用替代方法:
零膨胀Poisson回归(zero-inflated Poisson)
可用于计数资料中含有大量0值的情形 如: 吸烟数量,很多人不吸烟,记为0,吸烟的人才开始记录 为1、2、3、……
应用条件检查
其它常用替代方法:
竞争风险模型(competing risk model)
标准:大于 2/ n DFFITS:删除某观测值后对模型拟合的影响 标准:大于2 (k 1)/(n - k - 1) ,k为自变量数
回归诊断
强影响点(influential points) Cook’D:杠杆值和残差的综合度量
标准:大于4/(n-k-1),k为自变量个数
COVRATIO:杠杆值和残差的综合度量,受残差的影
用于生存分析中出现结局以外的其它事件的情形 如: 观察胃癌发生的影响因素,结局为胃癌发生,但中间可能 会出现其它结局,如其它疾病所致的死亡
进入分析阶段
自变量形式审查: 检查自变量与因变量或因变量的变换形式(如logit)之 间是否为线性关系
80 70 手 60 足 50 口 40 病 发 30 病 20 率 10 0 1 3 5 7 月份 9 11
的影响,反映了第i个观测与所有观测在自变量矩阵X 上的平均值之间的距离 根据hii值判断,通常大于(k+1)/n(k为自变量个数), 提示可能是高杠杆点
回归诊断
强影响点(influential points) 对模型有较大影响,包含或不包含该点可导致模型的
参数估计值发生较大改变
DFBETA:删除某观测值后对参数估计值的影响
分析阶段
单因素分析
是否一定要做单因素分析?(一直有争议)
Βιβλιοθήκη Baidu变量较多时,排除意义不大的变量
初步探索每一自变量与因变量的大致关系
分析阶段
多因素分析
寻找所谓的“独立预后”因子
多因素分析的变量筛选原则:
“少而精”原则,尽量保留所有对因变量有影响的
变量,尽可能地剔除掉可有可无的变量
离群点(outliners)
高杠杆点(high leverage points) 强影响点(influential points)
回归诊断
离群点(outliners) 主要针对因变量而言,远离其它因变量的值。 ri ei / MSE 标准化残差 内部学生化残差 外部学生化残差
因变量为连续资料 因变量为分类资料 因变量为计数资料 因变量为生存资料 因变量为截取资料
Cox回归
Tobit回归 Weibull回归
服从Weibull分布 服从gamma分布
Gamma回归 …………
应用条件检查
线性回归: 线性(linearity)
可简单通过绘制散点图来观察 独立性(independent) 通常可根据专业知识来判断 正态性(normality) 可绘制残差的正态概率图,或对残差进行正态性检验 等方差性(equal variance) 可通过绘制残差与因变量预测值的散点图来观察


Number 1 2 3 4 5
Condition ------------------------Proportion of Variation-----------------------Eigenvalue Index Intercept age sbp dbp lwbc 4.93648 1.00000 0.00024614 0.00097341 0.00035412 0.00044024 0.00073452 0.02951 12.93424 0.00020887 0.59401 0.01020 0.05172 0.06232 0.02374 14.41944 0.00675 0.00071741 0.05990 0.10842 0.43894 0.00563 29.61956 0.03024 0.01926 0.92954 0.69965 0.01194 0.00465 32.59568 0.96255 0.38504 0.00000203 0.13977 0.48607
回归模型评价
Logistic回归、Poisson回归等
Pearson χ2 ——比较预测值和观测值的差别。若χ2值很
小,意味着观测值和预测值无“显著差别”,模型很好 地拟合了数据。反之,若χ2值很大,统计检验便有“显 著差别”,提示拟合了不佳的模型。
Deviance——比较饱和模型和现有模型的差别。 该值越
t Value Pr > |t| -2.08 0.0430 2.22 0.0311 3.27 0.0019 0.48 0.6345 2.21 0.0318
Tolerance . 0.91387 0.49948 0.50374 0.95559
Variance Inflation 0 1.09424 2.00208 1.98514 1.04647
回归诊断

Parameter Variable DF Estimate Intercept 1 -19.81963 age 1 0.16384 sbp 1 0.20371 dbp 1 0.04428 lwbc 1 6.81149

Standard Error 9.54699 0.07392 0.06231 0.09259 3.08482
ri ei / s 1 - hii ri ei / s( i ) 1 - hii
通常绝对值大于2,考虑可能是离群点 SPSS通常给出标准化残差 SAS通常给出两个学生化残差
回归诊断
高杠杆点(high leverage points) 针对自变量而言,远离其它自变量的值。 ˆ XB X ( X ' X )1 X ' Y HY Y ˆ Y HY (1 H )Y e Y Y H称为帽子矩阵,对角线元素为hii ,度量了第i个观测
assumption)
应用条件检查
不满足条件怎么办? 线性回归: 线性不满足:非线性回归,广义可加模型 独立性不满足:多水平模型,空间回归模型 正态性不满足:变量变换,非参数回归,分位数回归 等方差性不满足:加权最小二乘回归,gamma回归
应用条件检查
不满足条件怎么办? 累积比数logit模型: 不满足比例优势假定:偏比例优势模型 Cox回归: 不满足等比例风险假定:非等比例Cox回归
分析阶段
最常遇到的问题:
单因素分析和多因素分析结果差别较大
分析阶段
地区、温度对手足口发病率的单因素分析结果
Variable district
temp
DF 1 1
Parameter Estimate 12.51083 1.41579
Standard Error 7.84584 0.19707
冯国双
回归家族
线性回归 Logistic回归 Poisson回归 负二项回归 Weibull回归 Cox回归 分位数回归 Tobit回归 …………
研究目的
比较组间差异 寻找危险因素 数据分类 发展趋势预测 …………
数据类型/分布
线性回归 Logistic回归 Poisson回归
应用条件检查
其它常用替代方法:
Tobit回归:
解决因变量超出某一界限无法测量的问题 如: 某实验室检测指标,一旦超出1000,便检测不出结果,只 能用大于1000表示 工资的纳税,低于一定值,没有纳税 某问卷调查中,询问去年每周性生活频率 (1)完全没有 (2)<1次 (3)1次 (4)2-3次 (4)>3次
大,表示现有模型与饱和模型的偏差越大,拟合效果越 差。
回归诊断
1. 多重共线性(multi-collinearity)
通俗讲即自变量之间存在高度相关
诊断指标(多数回归通用):
方差扩大因子(Variance Inflation Factor,VIF),指由于
共线性所导致的参数估计值的方差增加量,当VIF大于 10,通常表示共线性很强 容忍度(Tolerance, TOL),方差扩大因子VIF的倒数。 当TOL小于0.1,通常表示共线性很强 条件指数(condition index),最大条件指数即条件数大 于10,可能存在共线性;大于30,可能存在严重共线性
回归诊断
存在多重共线性怎么办
(1)根据专业情况,删除其中不重要的变量
(2)采用统计学方法处理,如: 主成分回归、主成分logistic回归
岭回归 偏最小二乘回归(partial least square regression)
SAS和SPSS中均可实现
回归诊断
2. 异常点
0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 0 1 2 妊娠次数 3 4
logit P
进入分析阶段
关于自变量的形式
理论上,回归分析中的自变量可以使任何形式,定量资料
和定性资料均可。 实际中分析数据时,可结合专业解释角度,对自变量的取 值和形式进行适当调整。 如logistic回归、Poisson回归等更倾向于自变量以分类的形 式进入方程,主要出于解释方便的原因。
应用条件检查
Logistic回归 独立性 线性:logit P与自变量满足线性 有序logistic回归/累积比数logit模型 需满足比例优势假定条件(Proportional odds
assumption)
应用条件检查
Cox回归 需满足等比例风险假定条件(Proportional hazards
分析阶段
选择不同的参数检验方法
似然比检验
得分检验(score test)
/拉格朗日乘数检验 /求导检验 Wald χ2检验
分析阶段
考虑交互效应
交互效应的分析应以专业为主!
如果交互效应有意义,关注点就不再是变量的主效
应,而是变量之间的交互效应
回归模型评价
通用指标 R2——反映自变量对因变量的解释能力,值越大,表示自变量 对因变量的解释能力越强 校正R2 ——对决定系数的修正,当加入无意义变量时,该值反 而会有所降低 AIC——增加了对自由度的“惩罚”,可用于嵌套或非嵌套模 型的比较。 SC——AIC的一种修正方法,对自由度的“惩罚”力度不同 BIC——贝叶斯信息准则,基于似然比的一种指标 残差residual——反映了模型预测值与实际值差别的大小,其值 越小,表示模型拟合效果越好
t Value 3.80 9.23
Pr > |t| 0.0011 <.0001
提示:城市的平均温度高于农村(13.29 vs 12.56)
分析阶段
变量筛选技术
前进法、后退法、逐步法、最优子集法
有人称为数据驱动过程(data-driven procedure)
只要你对数据严刑拷打,它总会招供!
响更大 标准:|COVRATIO-1|大于3(k+1)/n
回归诊断

内部学生 化残差
Std Error Mean Predict 22.6312 19.2172 16.5538 16.5538 16.0357 39.9076 13.7319 13.6156 13.5126 13.4234 13.2015 14.6273 16.7333 16.2049 16.4653 Std Error Student Residual Residual 45.791 2.873 47.325 -1.280 48.321 -1.050 48.321 -1.030 48.496 -0.878 31.881 -0.883 49.198 -0.620 49.230 -0.130 49.258 -0.0878 49.283 0.198 49.343 0.271 48.939 0.338 48.259 0.484 48.439 0.643 48.352 0.977