SAS 报表 - 线性模型SpeedLev2
- 格式:pdf
- 大小:1.16 MB
- 文档页数:12
一般混合线性模型SAS的M IXED过程实现———混合线性模型及其SAS软件实现(一)山西医科大学卫生统计教研室(030001) 张岩波 何大卫 刘桂芬 王琳娜 郭明英 【提 要】 目的 系统结构数据在医学领域广泛存在,其统计分析方法各异,可统称之为混合模型。
本文研讨其实现方法。
方法 以多水平模型例证一般混合线性模型的SAS M IX ED实现过程。
结果 以JSP数据为实例显示SAS的拟合结果与M Ln相一致。
结论 SAS M IXED可灵活地拟合包括多水平模型的各类混合模型。
【关键词】 系统结构数据 混合线性模型 多水平模型 M IX ED过程 近些年,国内医学统计学界对系统结构数据有了较多的认识,并进行了大量实效的研究和应用。
徐勇勇教授对系统结构数据做了全面的表述〔1〕。
由于常规的统计方法分析这类数据时忽略了误差结构,因此分析方法多采用以下模型:混合线性模型(Mixed lin-ear,M LM)、分层线性模型(Hierarchical linear, H LM)、广义线性混合模型(Generalized linear mixed, GLM M)、分层广义线性模型(Hierarchical generalized linear,HGLM)、多水平模型(Multilevel,M LM)、方差成分模型(Variance components,VCM)、随机系数模型(Random coefficients,RCM)等,以下且统称之为混合模型。
分析模型相应的软件有自行开发的软件(如陈长生博士针对重复测量数据自行开发的REP软件)及国外开发的专业软件,如M Ln(或M lw iN)软件,其他还有BUGS、H LM、VARCL等软件。
由于至今各种方法仍处于发展完善阶段,加之工具软件的限制,大大制约了此类方法的实际应用。
目前国内SAS软件已相当普及,其新增的M IXED模块及宏程序GLIM-M IX、NLINM IX可以有效、灵活地拟合各类混合模型,无疑为上述数据提供了有力的分析工具〔2,3〕。
22. 一元线性回归回归分析是研究一个或多个变量(因变量)与另一些变量(自变量)之间关系的统计方法。
主要思想是用最小二乘法原理拟合因变量与自变量间的最佳回归模型(得到确定的表达式关系)。
其作用是对因变量做解释、控制、或预测。
回归与拟合的区别:拟合侧重于调整曲线的参数,使得与数据相符;而回归重在研究两个变量或多个变量之间的关系。
它可以用拟合的手法来研究两个变量的关系,以及出现的误差。
回归分析的步骤:(1)获取自变量和因变量的观测值;(2)绘制散点图,并对异常数据做修正;(3)写出带未知参数的回归方程;(4)确定回归方程中参数值;(5)假设检验,判断回归方程的拟合优度;(6)进行解释、控制、或预测。
一、一元线性回归模型为Y=0+1X+ε其中X是自变量,Y是因变量,0,1是待求的未知参数,0也称为截距;ε是随机误差项,也称为残差,通常要求ε满足:① ε的均值为0; ② ε的方差为 2;③ 协方差COV(εi , εj )=0,当i≠j 时。
即对所有的i≠j, εi 与εj 互不相关。
二、用最小二乘法原理,得到最佳拟合效果的01ˆˆ,ββ值: 1121()()ˆ()niii n ii x x yy x x β==--=-∑∑, 01ˆˆy x ββ=- 三、假设检验1. 拟合优度检验 总偏差平方和及其自由度:回归平方和及其自由度:残差平方和及其自由度:TSS=RSS+ESS21RSS ESSR TSS TSS==-通常可以认为当R 2大于0.9时,所得到的回归直线拟合得较好,而当R 2小于0.5时,所得到的回归直线很难说明变量之间的依赖关系。
2. 回归方程参数的检验回归方程反应了因变量Y 随自变量X 变化而变化的规律,若 1=0,则Y 不随X 变化,此时回归方程无意义。
所以,要做如下假设检验:H 0: 1=0, H 1: 1≠0; (1) F 检验若 1=0为真,则回归平方和RSS 与残差平方和ESS/(N-2)都是 2的无偏估计,因而采用F 统计量:来检验原假设β=0是否为真。
sas分类模型的混淆矩阵性能评估跑完分类模型(Logistic回归、决策树、神经网络等),我们经常面对一大堆模型评估的报表和指标,如Confusion Matrix、ROC、Lift、Gini、K-S之类(这个单子可以列很长),往往让很多在业务中需要解释它们的朋友头大:“这个模型的Lift是4,表明模型运作良好。
——啊,怎么还要解释ROC,ROC如何如何,表明模型表现良好……”如果不明白这些评估指标的背后的直觉,就很可能陷入这样的机械解释中,不敢多说一句,就怕哪里说错。
本文就试图用一个统一的例子(SAS Logistic回归),从实际应用而不是理论研究的角度,对以上提到的各个评估指标逐一点评,并力图表明:1.这些评估指标,都是可以用白话(plain English, 普通话)解释清楚的;2.它们是可以手算出来的,看到各种软件包输出结果,并不是一个无法探究的“黑箱”;3.它们是相关的。
你了解一个,就很容易了解另外一个。
本文从混淆矩阵(Confusion Matrix,或分类矩阵,Classification Matrix)开始,它最简单,而且是大多数指标的基础。
数据本文使用一个在信用评分领域非常有名的免费数据集,German Credit Dataset,你可以在UCI Machine Learning Repository找到(下载;数据描述)。
另外,你还可以在SAS系统的Enterprise Miner的演示数据集中找到该数据的一个版本(dmagecr.sas7bdat)。
以下把这个数据分为两部分,训练数据train和验证数据valid,所有的评估指标都是在valid数据中计算(纯粹为了演示评估指标,在train数据里计算也未尝不可),我们感兴趣的二分变量是good_bad,取值为{good, bad}:Train data good_bad Frequency Percent-------------------------------------------bad 154 25.67 good 446 74.33Valid data good_bad Frequency Percent--------------------------------------------bad 146 36.50 good 254 63.50信用评分指帮助贷款机构发放消费信贷的一整套决策模型及其支持技术。