第21章 诊断试验的ROC分析【SAS从入门到精通】
- 格式:pptx
- 大小:663.29 KB
- 文档页数:29
400 SAS 统计分析与应用从入门到精通ROC 曲线从原点垂直上升到图的左上角,然后水平到达右上角;完全无价值的诊断有TPF=FPF ,是一条从原点到右上角的对角线;一般的ROC 曲线位于正方形的上三角。
图20-1就是ROC 曲线的一个示例。
ROC 曲线对诊断的准确性提供了直观的视觉印象,描述了相反两种状态间诊断系统的判别能力。
曲线上的每一点代表了随着病例诊断阈值或置信阈变化的灵敏度与特异度的折中。
严栺的标准产生较低的灵敏度和较高的特异度,ROC 点位于曲线的左下方;宽松的标准产生较高的灵敏度和较低的特异度,ROC 点位于曲线的右上方。
如果比较的诊断系统曲线不交叉,则较高的ROC 曲线具有较好的诊断性能。
如果曲线交叉,可在考虑费用与效益的前提下结合统计学检验判断其诊断性能。
一般可以用ROC 曲线下的面积反映诊断系统的准确性。
理论上这一指标的取值范围为0.5至1,完全无价值的诊断为0.5,完善的诊断为1。
该指标及其标准误的计算目前有非参数、半参数和参数等方法,其中得到广泛应用的方法有Wilcoxon 非参数法和最大似然估计双正态参数法。
21.2 ROC 分析及SAS 分析实例在SAS 系统中,可以利用LOGISTIC 过程步迚行ROC 分析。
例21-2 假设某诊断试验的病例组和对照组分别有25和20例受试者,其检测结果见表21-3。
试迚行ROC 分析,确定合适的临界点。
表21-3病例组与对照组的检测值【SAS 程序】data ex21_1;input group num; do i=1 to num; input value@@; output;end; cards; 1 256.5 13.5 12.8 6.2 13.9 14.7 9.5 9.0 6.9 16.8 13.3 10.8 12.2 14.9 13.7 12.8 5.3 11.8 12.47.6 13.3 11.9 11.2 12.3 12.7 0 208.5 6.4 4.6 1.7 9.7 5.3 4.9 5.7 3.8 6.5 6.3 5.4 3.3 4.7 8.6 6.3 5.9 4.8 4.5 5.2图20-1 非光滑的ROC 曲线示意图真阳性率(T P F )1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 假阳性率(FPF )0.2 0.40.6 0.81。
SAS统计分析与应用从入门到精通汪海波罗莉汪海玲徐俊杰编著
北京
内容提要
SAS统计软件是目前应用最广泛的统计软件之一,已广泛应用于医学、财经和社会科学等领域中进行数据管理和数据分析处理。
本书以Windows操作系统下的SAS软件为基础,以实践中常用的统计分析方法为基本内容,介绍了SAS程序的编写以及结果解释。
本书重点介绍了各种多元统计分析方法的基本原理及其应用,包括方差分析、多元线性回归、Logistic回归分析、生存分析、主成分分析、因子分析、聚类分析、判别分析以及典型相关分析等。
每一章详细讨论了统计分析方法的基本原理和分析过程,介绍了SAS程序的使用方法及应用实例说明、结果解释及结论分析等。
本书可以作为从事数据分析和数据管理人员的参考用书,有关科研人员和科研管理者进一步提高统计分析水平的参考书,也可以作为高等院校师生统计教材。
SAS统计分析与应用从入门到精通
♦编著汪海波罗莉汪海玲徐俊杰
责任编辑张涛
♦人民邮电出版社出版发行北京市崇文区夕照寺街14号
邮编100061 电子函件315@
网址
中国铁道出版社印刷厂印刷
♦开本:787⨯1092 1/16
印张:28.75
字数:758千字2010年7月第1版
印数:1 – 3 000册2010年7月北京第1次印刷
ISBN 978-7-115-22846-8
定价:59.00元(附光盘)
读者服务热线:(010)67132692 印装质量热线:(010)67129223
反盗版热线:(010)67171154。
第二章ROC曲线分析概要本文先介绍了ROC理论的一些基础知识如特异度和灵敏度等,然后简要介绍了非参数ROC分析方法,并建立了ROC模型。
最后介绍了ROC曲线及在R软件中的绘制。
2.1 ROC分析的基本要素ROC分析的基本要素包括真阳性和假阳性也称灵敏度和特异度,以及“金标准”“金标准”划分被测试者的真实状态为对照组和病例组两类。
常见的金标准有跟踪随访、活组织检查、尸体解剖、手术探查等。
虽然“金标准”没有必要是十全十美的,但“金标准”应与评价的诊断系统无关,而且比要评价的诊断系统更可靠。
“金标准”不够完美时,可用采用Bayesian、模糊金标准、EM估计等方法解决。
对按照“金标准”确定的二分类总体,对照组和病例组分别用阴性和阳性表示诊断试验结果。
假定总体样本量是N,诊断试验的可能结果总共有四种:被测试者患病且被正确诊断为患病者,被测试者无病且被错误诊断为患病者,被测试者无病且被正确诊断为无病者,被测试者无病且被错误诊断为患病者。
我们可以用一个2×2的列联表来表示它们之间的关系。
诊断结果“金标准”合计患病者健康者阳性a(真阳性) b(假阳性) a+b阴性c(假阴性) d(真阴性) c+d合计a+c b+d a+b+c+d=N在医学研究中,诊断试验准确度指标最常用的是灵敏度与特异度。
灵敏度(sensitivity),也叫真阳率(true positive rate,即TPR)是被测试者患病且被正确诊断为患病者的样本量在阳性总体中占的比例。
灵敏度值越大,假阴率越小。
据表2-1 其计算公式是:灵敏度(sensitivity) = 真阳率(TPR)= 1 −假阴率(FNR)=标准误为:特异度(specificity),也叫真阴率(true non-positive rate,即TNPR),是受试者无病且被正确诊断为无病者的样本量占阴性总体的比例。
假阳率(false positive rate,即FPR) = 1−特异度特异度值越大,假阳率越小。
SAS统计分析与应用从入门到精通19.2 判别分析SAS实例判别分析在医学研究中有着非常广泛的应用,目前主要用在疾病的计算机辅助诊断研究中。
方法是从经验丰富的教授专家那里收集一批已经确诊的病人和正常人的有关资料,如临床的疾病诊断、化验诊断、X线诊断、心电图、CT诊断等诊断指标来建立判别函数,然后利用建立的判别函数为尚未确诊的患者的病情提供一个有效的参考性意见,这也是计算机辅助诊断法的基本原理。
除此乊外,由于判别分析还可以分析出各种指标对判别所起的作用大小,从而可以对多个指标迚行筛选,使鉴别诊断的可靠性得到提高。
在SAS系统里,用来迚行判别分析的过程步有DISCRIM、STEPDISC和CANDISC。
CANDISC 过程步用来迚行正交判别分析,正交判别分析是一种减少维数(指标个数)的判别分析,作用类似于主成分分析。
较常用的过程步是DISCRIM和STEPDISC,它们的区别是后者仅用来筛选指标变量,且仅适用于类内为多元正态分布,具有相同方差协方差矩阵的数据。
前者可以筛选指标,适用于各种数据,且类内为多元正态分布时,不要求具有相同的方差协方差矩阵。
一般来说,当指标变量较多时,可以将两者结合使用,即首先使用STEPDISC过程步筛选指标变量,然后用DISCRIM 过程步为筛选出来的指标变量建立判别函数。
19.2.1 DISCRIM过程实例在SAS系统中,可利用DISCRIM过程步迚行判别分析。
DISCRIM过程的语法格式如下:PROC DISCRIM DATA= OUTSTAT= OUT= SIMPLE ANOVA MANOVA POOL=YES/NO /TEST LISTERR POSTERR;CLASS 分类变量;VAR 指标变量;PRIOR PROP ‘数值1’=p1,…,‘数值k’=p k ;RUN;PROC DISCRIM DATA= TESTDATA= TESTLIST POSTERR;CLASS 分类变量;VAR 指标变量;RUN;各语句选项的说明如下。
诊断试验的ROC 曲线一、ROC 曲线的概念在诊断试验中,对诊断指标每一个可能的诊断界值,都能得到一个四格表:诊断试验金标准诊断病人非病人合计+ ab 1m- cd0m合计1n 0nn计算出这些四格表的灵敏度e S 和特异度p S ,以假阳性率p S 1为横轴,以真阳性率e S 为纵轴,在算术坐标纸上作图,所得到的线图称为ROC 曲线(Receiver Operator Characteristic)。
例如:为了研究肌酸激酶(CK )诊断心肌梗塞的作用,对金标准诊断为心肌梗塞的230例病人和130名正常人分别测定了每个人的CK 值,有如下频数表:CK 值 病人组 正常人组合计 1~ 2 88 90 40~ 13 26 39 80~ 118 15 133 280~ 97 1 98 合计230130将这4种诊断方法的结果列成下表:诊断界值e Sp Sp S -11 1 0 1 40 0.9913 0.6769 0.3231 80 0.9348 0.8769 0.1231 2800.41270.99230.0077对上表的数据,以假阳性率p S -1为横轴,以真阳性率e S 为纵轴,在算术坐标纸上描点,将点连成曲线,就得到了ROC 曲线:二、ROC 曲线的用途 1.评价指标的诊断能力; 2.确定最佳诊断界值;3.比较两个诊断指标的诊断能力。
三、ROC 曲线评价指标的诊断能力 ROC 曲线下的面积计算(1)参数法如果诊断试验的指标在病人和非病人总体中均服从正态分布,可用参数法估计ROC 曲线下的面积。
设诊断指标x 在非病人总体中服从)(200σμN ,在病人总体中服从)(211σμN 。
如果01μμ>,101)(σμμ-=a ,10σσ=b 如果01μμ<,110)(σμμ-=a ,1σσ=bROC 曲线下的面积为:)1(2b a A +Φ=)(u Φ是标准正态分布曲线下(-∞,u )范围中的面积,可通过《医学统计学》中的附表1查到。
诊断试验评价与ROC分析方法一、诊断试验评价方法的基本概念和指标1.灵敏度和特异性:灵敏度是指真正例中被正确诊断为阳性的比例,即阳性的患者能够被正确判断出来的概率。
特异性是指真反例中被正确诊断为阴性的比例,即阴性的健康人能够被正确判断出来的概率。
灵敏度和特异性是评价诊断试验准确性的两个基本指标。
2.阳性预测值和阴性预测值:阳性预测值是指被诊断为阳性的人中,实际为阳性的比例。
阴性预测值是指被诊断为阴性的人中,实际为阴性的比例。
阳性预测值和阴性预测值与灵敏度和特异性密切相关。
3. ROC曲线:ROC曲线是用来评价诊断试验的灵敏度和特异性之间的权衡关系的一种图示工具。
ROC曲线的横轴是1-特异性(false positive rate, FPR),纵轴是灵敏度。
曲线下面积即AUC值,是评价诊断试验准确性的重要指标,值越高说明诊断试验越准确。
二、ROC分析方法的步骤和应用ROC分析方法是用来绘制ROC曲线并计算AUC值的一种方法,具体步骤如下:1.收集数据:收集与诊断结果相关的数据,包括真实结果和诊断试验结果。
2.绘制ROC曲线:将横轴设为1-特异性(FPR),纵轴设为灵敏度,然后根据不同的诊断试验结果,计算不同的FPR和灵敏度,并将这些点连接起来,得到ROC曲线。
3.计算AUC值:根据绘制的ROC曲线计算曲线下面积,即AUC值。
通常情况下,AUC值在0.5和1之间,值越高说明诊断试验准确性越高。
ROC分析方法的应用非常广泛:1.临床应用:可用于评价各种诊断试验的准确性,包括各种新型影像学检查、实验室检验、病理学检查等。
2.试验研究:可用于评价新治疗方法或新药物的疗效,比较不同治疗方法或药物的效果。
3.生物标志物研究:可用于评价生物标志物在临床诊断中的价值,确定最优的诊断阈值。
三、ROC分析方法的优势和局限性1.优势:ROC分析方法能够综合考虑灵敏度和特异性,能够克服单一指标不足的问题。
ROC曲线直观清晰,AUC值可直接用于评价诊断试验准确性。
SAS课件第讲基本知识1. 引言SAS(Statistical Analysis System)是一种通用的统计分析软件,被广泛应用于数据处理、数据管理和数据分析领域。
本课件将介绍SAS的基本知识,包括SAS 的起源和发展、SAS的应用领域、SAS的主要特点以及SAS的安装和配置。
2. SAS的起源和发展2.1 起源SAS起源于上世纪60年代,最初是由北卡罗来纳州立大学开发的一个统计分析系统。
起初,SAS主要用于大规模的数据处理和统计分析,随着时间的推移,SAS逐渐发展成为一个全面的数据处理和分析平台。
2.2 发展在过去的几十年里,SAS经历了快速的发展,成为全球最受欢迎的数据分析软件之一。
SAS的发展主要得益于其强大的功能和灵活性,同时也得益于SAS公司对产品研发和技术支持的不断投入。
3. SAS的应用领域SAS在各个行业和领域都有广泛的应用,包括金融、医疗、营销、制造业等。
下面将介绍SAS在几个典型领域的应用。
3.1 金融在金融领域,SAS被广泛用于风险管理、信用评级、欺诈检测等方面。
SAS提供了一系列的数据处理和分析功能,可以帮助金融机构更好地理解和管理风险,提高运营效率。
3.2 医疗在医疗领域,SAS被用于疾病预测、临床试验分析、医疗资源管理等方面。
SAS可以帮助医疗机构从大量的医疗数据中发现规律和趋势,为医疗决策提供科学依据。
3.3 营销在营销领域,SAS的应用主要集中在市场调研、客户细分和推荐系统等方面。
SAS可以帮助企业分析大量的市场数据,了解消费者需求和行为,从而制定更有效的营销策略。
3.4 制造业在制造业领域,SAS被用于供应链管理、质量控制和生产优化等方面。
SAS可以帮助制造企业优化供应链流程,提高产品质量和生产效率,降低成本。
4. SAS的主要特点4.1 数据处理能力强SAS具有强大的数据处理能力,可以处理大规模的数据集。
SAS提供了丰富的数据处理函数和过程,可以对数据进行清洗、转换、合并等操作。
11同济大学基础医学院预防医学教研究(200092)21东南大学公共卫生学院卫生统计教研室(210009)31南京市口腔医院内科(210008)指标联合的R OC 曲线分析邹莉玲1 沈其君2 陈启光2 王文梅3 临床上对于同一种疾病的诊断或筛检,往往有各种不同的诊断方法或手段,涉及的诊断指标是非常多的。
不同的指标对疾病各方面敏感性是不一样的,因此在对疾病做出诊断时如何充分利用这些指标的诊断信息,就显得非常重要。
评价某个诊断试验或诊断指标时常用到的是灵敏度和特异度,综合指标有ROC 曲线下的面积。
对于两种或多种诊断试验的评价和比较,已有的方法主要包括比较各自ROC 曲线下的面积,在特异度固定条件下比较灵敏度的大小,以及James 于1989年提出的以灵敏度的加权平均为基础的多指标比较的统计量〔1〕。
而将多个指标结合起来综合分析的方法仍以传统的多元统计分析方法为主,包括多元线性回归、参数和非参数判别分析以及指标的聚类分析等。
多指标结合的ROC 曲线分析方法目前仍处在探索阶段,已见诸报道的有以logistic 回归模型为基础的ROC 曲线分析,可用于协变量存在条件下的诊断数据的分析〔2〕。
本文基于Fisher 的判别准则,给出多变量线性组合的ROC 曲线分析方法。
多变量线性组合的R OC 曲线及面积计算假定病例组和对照组的人数分别为n 和m ,各测得p 个指标值。
以X ik (k =1,…,p )表示对照组中第i 个个体的第k 个指标值,Y jl (l =1,…,p )表示病例组中第j 个个体的第l 个指标值,这里X =(X 1,…,X p )T,Y =(Y 1,…,Y p )T。
X 和Y 均为服从正态分布的二元随机变量,即X ~N (μx ,∑x )和Y ~N (μy ,∑y )。
由于多维数据的处理通常是非常困难的,因此我们通过有效地构建多个指标间的线性组合来实现降维。
U =a T X ~N (a T μx ,a T∑xa ),V =a T Y ~N (a T μy ,aT ∑ya )(1)a =(a 1,…,a p )T表示多个指标的线性组合系数,也即是Fisher 判别函数的系数。
【统计学小知识】ROC曲线,那些必须要知道的事想要了解ROC曲线吗?不急,先来看看下面的小情景。
【情景设置】牛逼的我:师傅,您能对我上点心吗?!文章还没发,明年快毕业了啊。
豆逼导师:小牛啊,我是挺中意你的。
牛逼的我:师傅,你想多了。
我是指对我的【论文】上点心。
豆逼导师:(故作正经)昨天你师兄的实验结束了。
咱们这里有2组人群。
一组是病人,一组是健康人。
我们检测了他们血清中X指标。
你看看,怎么才能根据X的数值,来判断一个人是病人还是健康人?判断的效果好不好。
我先走了。
明天到我办公室来汇报。
牛逼的我:哦。
【统计方法】来听听统计学砖家和叫兽是怎么考虑“豆逼导师”给小牛的问题的。
这是一个典型的诊断试验数据分析。
每个人的血清X指标都不太一样,有大有小。
一般是病人高,健康人低。
实际上,小牛需要找到一个X指标的阈值。
如果X指标超过阈值,则判断某一对象为病例;低于阈值,则判断某一对象为健康人。
显然,这么判断,肯定会出现错判的情况。
也就是常说的假阳性和假阴性。
如图1所示:假阳性就是误诊,假阴性就是漏诊。
按照“豆逼导师”的要求,咱们应该找到一个比较好的阈值,尽可能使得误诊和漏诊的比例尽可能低。
现在假设我们选定了一个阈值,并且将判断的结果整理成图2所示:金标准,就是一个人真实的情况,是患者还是非患者。
诊断试验的结果,就是根据你的阈值,判断某一对象是患者还是非患者。
据此,我们可以计算以下几个常见的统计学指标,来评价判断的效果好还是不好。
见下图3、图4。
实际上,判断效果好,就是要求灵敏度和特异度要高。
如下图5,所示。
那么问题来了:如何确定一个最佳的阈值,使得灵敏度和特异度相对达到最大?我们可以这么做。
尝试设置不同的阈值。
不同的阈值,判断结果不同,灵敏度和特异度不同。
可以绘制以下一张图形。
横轴是不同的阈值。
考虑的简单一点,咱们这里假设X的范围是0 ~ 1。
蓝色的线代表的不同阈值下,灵敏度的变化。
红色的线,代表的特异度的变化。
SAS学习系列21.相关分析21. 相关分析相关分析和回归分析是研究变量与变量间相互关系的重要⽅法。
相关分析是研究两个或两组变量之间的线性相关情况,回归分析是拟合出变量间的表达式关系。
(⼀)Pearson直线相关⼀、适⽤于两个变量均为服从正态分布,每对数据对应的点在直⾓坐标系中(即散点图)呈现直线趋势。
做相关分析时,要注意剔除异常值;相关关系不⼀定是因果关系。
⼆、⽤相关系数r∈[-1,1]来表⽰相关程度的⼤⼩:r>0: 正相关;r<0: 负相关;r=0: 不相关;r=1: 完全正相关;r=-1: 完全负相关。
相关程度的判断标准:看相关系数的平⽅r2,若r2<0.5,结果⽆实际价值。
注:相关系数只是刻画直线相关(Y=X2相关系数≠1)。
三、假设检验1. H0: 总体相关系数ρ=0;H1: ρ≠0;计算r值,P值,若P值≤α,则在显著⽔平α下拒绝H0;2. 若H0成⽴,从ρ=0的总体中抽样,所得到的样本相关系数r 呈对称分布(近似正态分布),此时可⽤t 检验。
3. 必要时对相关系数做区间估计从相关系数ρ≠0的总体中抽样,样本相关系数的分布是偏态的。
⽤Z变换后,服从某种正态分布,估计z,再变换回r.(⼆)Spearman等级相关,也称Spearman秩相关对于不符合正态分布的资料,不⽤原始数据计算相关系数,⽽是将原始观察值由⼩到⼤编秩,然后根据秩次来计算秩相关系数r s, 以此来说明两个变量间相关关系的密切程度。
适⽤于某些不能准确地测量指标值⽽只能以严重程度、名次先后、反映⼤⼩等定出的等级资料;也适⽤于某些不呈正态分布或难于判断分布的资料。
关于编秩将各X i由⼩到⼤编秩得R Xi(1,…n),当遇到相等的值时要⽤平均秩,例如X2=X4,按编秩为3和4,应该取平均秩R x2=R x4=(3+4)/2=3.5假设检验H0: 总体相关系数ρs=0;H1: ρs≠0;计算r值,P值,若P值≤α,则在显著⽔平α下拒绝H0;另外,Kendall等级相关系数τ∈[-1,1],也可以对两个变量作等级相关分析,⽽且可对多个变量作等级相关分析。
ROC分析的基本原理宇传华徐勇勇ROC是受试者工作特征或相对工作特征的缩写后来应用于雷达信号观察能力的评价Lusted首次提出了ROC分析可用于医学决策评价该方法广泛用于医学诊断性能的评价[]2ʵÑéÊÒҽѧÓÈÆäÊÇҽѧӰÏñÕï¶Ï׼ȷÐÔµÄÆÀ¼ÛÈç¶ÔÕÕÓ벡ÀýÕý³£ÓëÒì³£Æä×ÊÁÏ¿ÉÁгɱí1的四格表形式[3]ÁéÃô¶È¼ÆË㹫ʽ¼û±í1这几个指标均可不同程度反映诊断的准确性它很大程度上依赖患病率完全无价值地诊断所有样本为阴性其次相同的正确百分率可能有十分不同的假阴性和假阳性它也受诊断阈值的限制它们的值越高灵敏度是病例被正确诊断为阳性的比例true positive fraction/rateÒ²½ÐÕæÒõÐÔÂÊ.1-特异度false positive fraction/rate±È½ÏÁ½¸öÕï¶Ïϵͳʱ¶øÁíÒ»¸öÌØÒì¶È¸ß´Ëʱ¿É½«ÁéÃô¶ÈºÍÌØÒì¶È½áºÏ»ñµÃ¶à¶ÔÁéÃô¶ÈºÍ»æÖÆROC曲线×四格表表1 诊断资料22诊断结果病例对照合计a(真阳性) b a+bc(假阴性真阴性TPF假阳性率]=1第四军医大学卫生统计学教研室西安 710032 疾病 疾病 合计 Disease(+) Disease(-) Total试验(+) 真阳性 假阳性 试验阳性数 Test(+) True positives False positives Test positives试验(-) 假阴性 真阴性 试验阴性数 Test(-) False negatives True negatives Test negatives合计 实际病人数 实际非病人数 所有受试者 Total Disease positives Disease negatives All subjects2 ROC分析资料收集与整理一个诊断系统获得的原始资料可记录成连续性和离散性两种形式它是利用仪器为了叙述的方便其检验结果为8.29, 6.24, 4.61, 1.77Æä¼ìÑé½á¹ûΪ15.90, 13.35, 12.87, 10.22, 5.01ÒÔǰ8个数据的每一个作为诊断阈值(或截断点)СÓÚ¸ÃãÐֵΪÒõÐÔ¶¼¿ÉÕûÀí³ÉÀàËÆ±í1的四格表FPF,TPF(0/4,2/5)(0/4,4/5)(2/4,4/5)(3/4,5/5)Á½¸ö×éµÄÑù±¾Á¿ÍùÍùºÜ´óÒÔ×éÖÐֵΪÕï¶ÏãÐÖµ×éÊý-1Ò²¿É¸ù¾ÝÁÙ´²ÐèҪȡÈô¸É¸öÕï¶ÏãÐÖµ³£½«Õï¶Ï½á¹û»®·ÖΪÀàÀà¿ÉÄÜÕý³£¿ÉÄÜÒì³£·Ö±ð¼ÇΪÀýÈçÆäÖÐÓÐ58份正常一影像工作者对这些CT影像进行分类 表2 109份CT影像分类诊断分类实际情况1,2,,肯定异常对于可从分类高到低以前即分类为置信阈计算ROC 工作点该类以下例数的和为阴性如以表2分类4为置信阈时+11=13异常组阳性例数为33+11=44同样3FPF,TPF(0.3296,0.9020)假设正常组和异常组均服从正态分布图中左边钟型曲线为正常组同时采用4个置信阈将实验结果分为5类即分类越高置信阈越宽松阳性决策的置信度越低也可类似理解同时采用4个置信阈分类1234分类5阳性决策置信度低高图 1 5分类等级资料图解3 ROC 曲线的构建以假阳性率为横轴TPF ºáÖáÓë×ÝÖ᳤¶ÈÏàµÈÔÚͼÖн«ROC 工作点标出构建光滑曲线需要假设对照组和病例组服从某种分布直接用参数产生注意曲线一定通过(0,0)和(1,1)这两点而特异度为而特异度为理论上FPF=0然后水平到达右上角是一条从原点到右上角的对角线表2资料对应的ROC 曲线见图2FPFT P FÃèÊöÁËÏà·´Á½ÖÖ״̬¼äÕï¶ÏϵͳµÄÅбðÄÜÁ¦»òÖÃÐÅãÐÑϸñµÄ±ê×¼²úÉú½ÏµÍµÄÁéÃô¶ÈºÍ½Ï¸ßµÄÌØÒì¶È¿íËɵıê×¼²úÉú½Ï¸ßµÄÁéÃô¶ÈºÍ½ÏµÍµÄÌØÒì¶ÈÈç¹û±È½ÏµÄÕï¶ÏϵͳÇúÏß²»½»²æÈç¹ûÇúÏß½»²æ½áºÏͳ¼ÆÑ§¼ìÑéÅÐ¶ÏÆäÕï¶ÏÐÔÄÜROC 曲线下面积理论上完善的诊断为1半参数和参数方法Wilcoxon非参数法和最大似然估计参数法可根据二项分布标准误计算公式n pp Sp) 1(−=计算FPF和TPF的标准误p=FPF对于TPF n=病例组总例数的标准误为(0.0548,0.0023)0.0548)0.0023)]对于诊断系统的准确性评价,首先应知道受试者(人即哪些是对照组划分它们的标准就是金标准跟踪随访尸体解剖等金标准但是它们应比评价的诊断系统更可靠5.3 最佳工作点的选择阳性似然比为真阳性率与假阳性率之比TPF/FPF约登指数为真阳性率与假阳性率之差TPF-FPF一般选择阳性似然比[]4或约登指数[5]最大者为最佳工作点[(1-P)/P]计算最佳工作点的斜率B和P分别表示花费在假定对病例组实施治疗这一表达式表示治疗疾病的花费和收益之比与(1-患病率)和患病率之比的乘积从(FPF,TPF)=(0,0)到(1,1)´Ó±í´ïʽ¿ÉÒÔ¿´³öÊÕÒæÉÙÔòбÂÊ´óÈç¹û¼²²¡ÖÎÁÆ»¨·ÑÉÙ»ò»¼²¡Âʸß×î¼Ñ¹¤×÷µã½Ó½ü(1,1确保了假阴性的减少Metz CE, Herman BA, Shen JH. Maximum-likelihood estimation of receiver operating characteristic(ROC) curves from continously-distributed data. Stat Med,1998, in press.2 Metz CE. Some practical issues of experimental design and data analysis in radiological ROC studies. Invest Radiol 1989;24:234-245. 3 章扬熙. 临床流行病学(第六讲):诊断试验研究(续) . 中华流行病学杂志1997,18(3):177.4 Feinstein AR. Clinical epidemiology: architecture of clinical research. WB Saunders Company,1985,601-632.5 刘杰,林一帆,张沥等. 图象自动分析检测MG7抗原表达预测胃癌高危价值探讨. 中华预防医学杂志1996;30(5):286.6 Dwyer AJ. In pursuit of a piece of the ROC. Radiology 1997;202:621-625.。
ROC曲线分析详细解释(一)ROC曲线的概念受试者工作特征曲线(receiver operator characteristic curve, ROC 曲线),最初用于评价雷达性能,又称为接收者操作特性曲线。
ROC 曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。
传统的诊断试验评价方法有一个共同的特点,必须将试验结果分为两类,再进行统计分析。
ROC曲线的评价方法与传统的评价方法不同,无须此限制,而是根据实际情况,允许有中间状态,可以把试验结果划分为多个有序分类,如正常、大致正常、可疑、大致异常和异常五个等级再进行统计分析。
因此,ROC曲线评价方法适用的范围更为广泛。
(二)ROC曲线的主要作用1.ROC曲线能很容易地查出任意界限值时的对疾病的识别能力。
2.选择最佳的诊断界限值。
ROC曲线越靠近左上角,试验的准确性就越高。
最靠近左上角的ROC曲线的点是错误最少的最好阈值,其假阳性和假阴性的总数最少。
3.两种或两种以上不同诊断试验对疾病识别能力的比较。
在对同一种疾病的两种或两种以上诊断方法进行比较时,可将各试验的ROC曲线绘制到同一坐标中,以直观地鉴别优劣,靠近左上角的ROC曲线所代表的受试者工作最准确。
亦可通过分别计算各个试验的ROC曲线下的面积(AUC)进行比较,哪一种试验的 AUC最大,则哪一种试验的诊断价值最佳。
(三)ROC曲线分析的主要步骤1.ROC曲线绘制。
依据专业知识,对疾病组和参照组测定结果进行分析,确定测定值的上下限、组距以及截断点(cut-off point),按选择的组距间隔列出累积频数分布表,分别计算出所有截断点的敏感性、特异性和假阳性率(1-特异性)。
以敏感性为纵坐标代表真阳性率,(1-特异性)为横坐标代表假阳性率,作图绘成ROC曲线。
2.ROC曲线评价统计量计算。
ROC曲线下的面积值在1.0和0.5之间。