SAS讲义_第二十七课符号检验和Wilcoxon符号秩检验
- 格式:doc
- 大小:281.50 KB
- 文档页数:8
SAS讲义_第二十七课符号检验和Wilcoxon符号秩检验第二十七课符号检验和Wilcoxon 符号秩检验在统计推断和假设检验中,传统的检验统计量都叫做参数检验,因为它们都依赖于确定的概率分布,这个分布带有一组自由的参数。
参数检验被认为是依赖于分布假定的。
通常情况下,我们对数据进行分析时,总是假定误差项服从正态分布,这是人们易于接受的事实,因为正态分布的原始出发点就是来自于误差分布,至于当样本相当大时,数据的正态近似,这是由于大样本理论所保证的。
但有些资料不一定满足上述要求,或不能测量具体数值,其观察结果往往只有程度上的区别,如颜色的深浅、反应的强弱等,此时就不适用参数检验的方法,而只能用非参数统计方法(non-parametric statistical analysis )来处理。
这种方法对数据来自的总体不作任何假设或仅作极少的假设,因此在实用中颇有价值,适用面很广。
一、单样本的符号检验符号检验(sign test )是一种最简单的非参数检验方法。
它是根据正、负号的个数来假设检验。
首先需要将原始观察值按设定的规则,转换成正、负号,然后计数正、负号的个数作出检验。
该检验可用于样本中位数和总体中位数的比较,数据的升降趋势的检验,特别适用于总体分布不服从正态分布或分布不明的配对资料,有时当配对比较的结果只能定性的表示,如试验前后比较结果为颜色从深变浅、程度从强变弱,成绩从一般变优秀,即不能获得具体数字,也可用符号检验,例如用正号表示颜色从深变浅,用负号表示颜色从浅变深。
用于配对资料时,符号检验的计算步骤为:首先定义成对数据指定正号或负号的规则,然后计数正号的个数+S 及负号的个数-S ,由于在具体比较配对资料时,可能存在配对资料的前后没有变化,或等于假设中的中位数,此时仅需要将这些观察值从资料中剔除,当然样本大小n 也随之减少,故修正样本大小-++=S S n 。
当样本n 较小时,应使用二项分布确切概率计算法,当样本n 较大时,常利用二项分布的正态近似。
SAS的非参数检验非参数检验是一种统计方法,用于处理数据不满足正态分布或方差齐性的情况。
它们不依赖于任何概率分布的假设,因此也被称为非参数检验。
SAS(统计分析系统)是一种常用的统计软件,提供了多种非参数检验方法。
本文将介绍一些常见的非参数检验方法及其在SAS中的应用。
1. Wilcoxon符号秩检验(Wilcoxon Signed Rank Test):Wilcoxon符号秩检验是一种用于比较两个相关样本或配对样本的非参数检验方法。
它对于数据不满足正态分布的情况非常有用。
它的原假设是两个样本的中位数不同。
在SAS中,可以使用PROC UNIVARIATE来执行Wilcoxon符号秩检验。
下面是一个示例代码:```proc univariate data=mydata;var x1 x2;wilcoxon signedrank;run;```其中,mydata是数据集名称,x1和x2是要比较的两个变量。
wilcoxon signedrank选项告诉SAS执行Wilcoxon符号秩检验。
2. Mann-Whitney U检验(Mann-Whitney U Test):Mann-Whitney U检验是一种用于比较两个独立样本的非参数检验方法。
它的原假设是两个样本的总体分布相同。
在SAS中,可以使用PROC NPAR1WAY来执行Mann-Whitney U检验。
下面是一个示例代码:```proc npar1way data=mydata;var x;class group;mannwhitney u(x) / wilcoxon;run;```其中,mydata是数据集名称,x是要比较的变量,group是分组变量。
mannwhitney u选项告诉SAS执行Mann-Whitney U检验。
3. Kruskal-Wallis检验(Kruskal-Wallis Test):Kruskal-Wallis检验是一种用于比较三个或更多独立样本的非参数检验方法。
第二节Wilcoxon符号秩检验Wilcoxon符号秩检验符号检验只用了差的符号,但没有利用差值的大小。
12 3Wilcoxon符号秩检验(Wilcoxon signed-rank test) 把差的绝对值的秩分别按照不同的符号相加作为其检验统计量。
显然,相比较于符号检验,Wilcoxon符号秩检验利用了更多的信息。
Wilcoxon符号秩检验:条件u Wilcoxon符号秩检验需要一点总体分布的性质;它要求假定样本点来自连续对称总体分布;而符号检验不需要知道任何总体分布的性质。
u在对称分布中,总体中位数和总体均值是相等的;因此,对于总体中位数的检验,等价于对于总体均值的检验。
u Wilcoxon符号秩检验实际是对对称分布的总体中位数(或均值)的检验。
Wilcoxon符号秩检验:基本原理u计算差值绝对值的秩。
u分别计算出差值序列里正数的秩和(W+)以及负数的秩和(W-)。
u如果原假设成立,W+与W-应该比较接近。
如果W+和W-过大或过小,则说明原假设不成立。
u将正数的秩和或者负数的秩作为检验统计量,根据其统计分布计算p值,从而可以得出检验的结论。
具体步骤设定原假设和备择假设。
分别计算出差值序列中正数的秩和W+以及负数的秩和W-。
根据W+和W-建立检验统计量,计算p值并得出检验的结论。
在双侧检验中检验统计量可以取为W=min(W+,W-)。
显然,如果原假设成立,W+与W-应该比较接近。
如果二者过大或过小,则说明原假设不成立。
秩的计算注意问题计算差值绝对值的秩时,注意差值等于0值不参与排序。
下面一行R i就是上面一行数据Z i的秩。
Z i159183178513719 R i75918426310数据中相同的数值称为“结”。
结中数字的秩为它们所占位置的平均值Z i159173178513719 R i758.518.5426310关于P值u有了检验统计量W,我们就可根据其统计分布计算p值了,双侧检验的p值等于,式中w为检验统计量的样本观测值。
第二节Wilcoxon符号秩检验Wilcoxon符号秩检验符号检验只用了差的符号,但没有利用差值的大小。
12 3Wilcoxon符号秩检验(Wilcoxon signed-rank test) 把差的绝对值的秩分别按照不同的符号相加作为其检验统计量。
显然,相比较于符号检验,Wilcoxon符号秩检验利用了更多的信息。
Wilcoxon符号秩检验:条件u Wilcoxon符号秩检验需要一点总体分布的性质;它要求假定样本点来自连续对称总体分布;而符号检验不需要知道任何总体分布的性质。
u在对称分布中,总体中位数和总体均值是相等的;因此,对于总体中位数的检验,等价于对于总体均值的检验。
u Wilcoxon符号秩检验实际是对对称分布的总体中位数(或均值)的检验。
Wilcoxon符号秩检验:基本原理u计算差值绝对值的秩。
u分别计算出差值序列里正数的秩和(W+)以及负数的秩和(W-)。
u如果原假设成立,W+与W-应该比较接近。
如果W+和W-过大或过小,则说明原假设不成立。
u将正数的秩和或者负数的秩作为检验统计量,根据其统计分布计算p值,从而可以得出检验的结论。
具体步骤设定原假设和备择假设。
分别计算出差值序列中正数的秩和W+以及负数的秩和W-。
根据W+和W-建立检验统计量,计算p值并得出检验的结论。
在双侧检验中检验统计量可以取为W=min(W+,W-)。
显然,如果原假设成立,W+与W-应该比较接近。
如果二者过大或过小,则说明原假设不成立。
秩的计算注意问题计算差值绝对值的秩时,注意差值等于0值不参与排序。
下面一行R i就是上面一行数据Z i的秩。
Z i159183178513719 R i75918426310数据中相同的数值称为“结”。
结中数字的秩为它们所占位置的平均值Z i159173178513719 R i758.518.5426310关于P值u有了检验统计量W,我们就可根据其统计分布计算p值了,双侧检验的p值等于,式中w为检验统计量的样本观测值。
威尔可森符号秩检验威尔科克森符号秩检验(Wilcoxon signed-rank test)是一种非参数统计方法,用于比较成对样本的差异。
它基于样本数据的符号秩来进行推断。
以下是威尔科克森符号秩检验的基本步骤:1、假设检验:●零假设(H0):成对样本之间没有差异(即两个样本的中位数相等)。
●对立假设(H1):成对样本之间存在差异(即两个样本的中位数不相等)。
2、计算差异:●对每对成对样本计算差异。
●将这些差异按照绝对值大小进行排序,并为每个差异分配一个符号秩(正负号),如果有相同的差异,则取平均秩。
3、计算符号秩和:分别计算正符号秩和负符号秩的总和。
4、计算检验统计量:使用计算得到的正负符号秩和,计算检验统计量W。
5、根据检验统计量W进行假设检验:●对于小样本(n<30),可以使用查表法或精确法确定临界值,以判断是否拒绝零假设。
●对于大样本,可以使用正态近似法(z检验)进行假设检验。
威尔科克森符号秩检验用于成对样本的非参数分析,并且不要求数据满足正态分布假设。
它适用于样本大小较小或无法满足正态分布假设的情况下使用。
在Matlab中,可以使用signrank函数执行威尔科克森符号秩检验。
以下是一个示例:matlab% 假设有两组成对样本数据group1 = [5, 7, 9, 11, 13];group2 = [4, 6, 10, 12, 14];% 进行威尔科克森符号秩检验[p, h, stats] = signrank(group1, group2);% 显示结果disp(['p值:', num2str(p)]);if hdisp('拒绝零假设');elsedisp('接受零假设');enddisp(['检验统计量W:', num2str(stats.signedrank)]);disp(['样本大小n:', num2str(stats.n)]);在上述示例中,我们假设有两组成对样本数据group1 和group2,并使用signrank 函数进行威尔科克森符号秩检验。
Wilcoxon符号秩检验(配对样本)【详】-SPSS教程一、问题与数据现该研究者拟分析某种药物是否可以降低甘油三酯水平。
他招募了20位研究对象,测量基线甘油三酯水平,记录为TG1,然后对患者进行4周的药物干预,再次测量甘油三酯水平,记录为TG2,收集的部分数据如图1。
图1 部分数据二、对问题分析对于比较配对设计的连续性变量间的差异,可以选用配对t检验或Wilcoxon 符号秩检验。
配对t检验适用于两组差值近似服从正态分布的数据。
当不满足该前提时,可选择的一种方案是使用Wilcoxon符号秩检验。
研究者拟判断同一组研究对象在药物治疗前后体内甘油三酯水平的变化,本研究的数据为非正态分布(仅为模拟数据,实际使用时需要专业判断或结合正态性检验结果)。
针对这种情况,我们可以使用Wilcoxon符号秩检验。
使用Wilcoxon 符号秩检验时,需要满足3项假设:假设1:观测变量是连续变量或有序分类变量,如本研究的观测变量甘油三酯水平是一项连续变量。
假设2:研究数据可以被分为两组,如本研究数据可以分为治疗前和治疗后两组。
假设3:数据结构为配对形式,如本研究数据属于研究对象自身配对的形式。
经分析,本研究数据符合假设1-3,那么如何进行Wilcoxon符号秩检验呢?三、SPSS操作3.1 生成差值变量Wilcoxon符号秩检验是针对配对变量差值进行假设检验的,所以首先要生成差值变量。
在主界面点击Transform→Compute Variable,弹出Compute Variable对话框。
在 Target Variable栏输入“difference”,生成新变量的变量名。
接着在Numeric Expression栏输入“TG1-TG2”,计算新变量值,如图2。
图2 Compute Variable点击OK,数据视图生成一列新变量“difference”。
如图3。
图3 生成新变量3.2 计算中位数Wilcoxon符号秩检验并不直接给出中位数的具体数值,因此需要单独计算中位数。
R语⾔wilcoxon秩和检验及wilcoxon符号秩检验的操作说明wilcoxon秩和及wilcoxon符号秩检验是对原假设的⾮参数检验,在不需要假设两个样本空间都为正态分布的情况下,测试它们的分布是否完全相同。
操作#利⽤mtcars数据library(stats)data("mtcars")boxplot(mtcars$mpg~mtcars$am,ylab='mpg',names = c('automatic','manual))#执⾏wilcoxon秩和检验验证⾃动档⼿动档数据分布是否⼀致wilcox.test(mpg~am,data = mtcars)#wilcox.test(mtcars$mpg[mtcars$am==0],mtcars$mpg[mtcars$am==1])(与上⾯等价)Wilcoxon rank sum test with continuity correctiondata: mpg by amW = 42, p-value = 0.001871alternative hypothesis: true location shift is not equal to 0Warning message:In wilcox.test.default(x = c(21.4, 18.7, 18.1, 14.3, 24.4, 22.8, :⽆法精確計算带连结的p值总结执⾏wilcoxon秩和检验(也称Mann-Whitney U检验)这样⼀种⾮参数检验。
t检验假设两个样本的数据集之间的差别符合正态分布(当两个样本集都符合正态分布时,t检验效果最佳),但当服从正态分布的假设并不确定时,我们执⾏wilcoxon秩和检验来验证数据集中mtcars中⾃动档与⼿动档汽车的mpg值的分布是否⼀致,p 值<0.05,原假设不成⽴。
wilcoxon符号秩检验的作用Wilcoxon符号秩检验是一种非参数检验方法,适用于样本数据中包含离散数据或者样本数据不满足正态分布假设的情况。
该方法可以用于比较两个样本数据集的中位数是否相等。
接下来,我们将讨论Wilcoxon符号秩检验的作用,并介绍如何应用该方法进行假设检验。
Wilcoxon符号秩检验的作用Wilcoxon 符号秩检验主要作用是检验两个样本数据集中位数是否相等。
该方法的优点是不受正态分布假设的限制,并且不需要知道样本数据的总体分布,因此可以用于较小的样本数据集。
其适用于许多实际应用中的问题,例如:1. 医学研究中,想要知道某种药物是否对疾病的治疗效果有显著影响,可以将使用药物的患者组和未使用药物的患者组的治疗效果进行比较。
2. 市场营销研究中,想要知道某种市场策略是否能够提高销售额,可以将使用该策略和未使用该策略的销售额进行比较。
应用Wilcoxon符号秩检验进行假设检验若样本数据集的大小较小,可以使用Wilcoxon符号秩检验进行假设检验。
下面是一个例子,说明如何使用Wilcoxon符号秩检验进行假设检验:假设有两个样本数据集A和B,要检验它们的中位数是否相等。
样本数据集A包含n个观测值a1, a2, ..., an, 样本数据集B包含m个观测值b1, b2, ..., bm。
步骤1:统计样本数据集A和B中每个观测值的符号。
符号Si = sign(ai - bi),其中ai是样本数据集A中的第i个观测值,bi是样本数据集B中的第i个观测值。
如果两个观测值相等,则标记为0。
步骤2:计算每个Si的绝对值,并将它们从小到大排列。
将排列后的Si的绝对值用秩(从小到大)代替。
如果有多个Si的绝对值相等,则其秩的平均值为这些Si的秩。
步骤3:计算正秩和R+和负秩和R-。
其中,R+是所有正数Si的秩之和,R-是所有负数Si的秩之和。
步骤4:计算检验统计量W,W = min(R+, R-)。
第二十七课 符号检验和Wilcoxon 符号秩检验在统计推断和假设检验中,传统的检验统计量都叫做参数检验,因为它们都依赖于确定的概率分布,这个分布带有一组自由的参数。
参数检验被认为是依赖于分布假定的。
通常情况下,我们对数据进行分析时,总是假定误差项服从正态分布,这是人们易于接受的事实,因为正态分布的原始出发点就是来自于误差分布,至于当样本相当大时,数据的正态近似,这是由于大样本理论所保证的。
但有些资料不一定满足上述要求,或不能测量具体数值,其观察结果往往只有程度上的区别,如颜色的深浅、反应的强弱等,此时就不适用参数检验的方法,而只能用非参数统计方法(non-parametric statistical analysis )来处理。
这种方法对数据来自的总体不作任何假设或仅作极少的假设,因此在实用中颇有价值,适用面很广。
一、 单样本的符号检验符号检验(sign test )是一种最简单的非参数检验方法。
它是根据正、负号的个数来假设检验。
首先需要将原始观察值按设定的规则,转换成正、负号,然后计数正、负号的个数作出检验。
该检验可用于样本中位数和总体中位数的比较,数据的升降趋势的检验,特别适用于总体分布不服从正态分布或分布不明的配对资料,有时当配对比较的结果只能定性的表示,如试验前后比较结果为颜色从深变浅、程度从强变弱,成绩从一般变优秀,即不能获得具体数字,也可用符号检验,例如用正号表示颜色从深变浅,用负号表示颜色从浅变深。
用于配对资料时,符号检验的计算步骤为:首先定义成对数据指定正号或负号的规则,然后计数正号的个数+S 及负号的个数-S ,由于在具体比较配对资料时,可能存在配对资料的前后没有变化,或等于假设中的中位数,此时仅需要将这些观察值从资料中剔除,当然样本大小n 也随之减少,故修正样本大小-++=S S n 。
当样本n 较小时,应使用二项分布确切概率计算法,当样本n 较大时,常利用二项分布的正态近似。
--SAS系统和数据分析Wilcoxon秩和检验第二十八课 Wilcoxon 秩和检验一、两样本的Wilcoxon 秩和检验两样本的Wilcoxon 秩和检验是由Mann ,Whitney 和Wilcoxon 三人共同设计的一种检验,有时也称为Wilcoxon 秩和检验,用来决定两个独立样本是否来自相同的或相等的总体。
如果这两个独立样本来自正态分布和具有相同方差时,我们可以采用t 检验比较均值。
但当这两个条件都不能确定时,我们常替换t 检验法为Wilcoxon 秩和检验。
Wilcoxon 秩和检验是基于样本数据秩和。
先将两样本看成是单一样本(混合样本)然后由小到大排列观察值统一编秩。
如果原假设两个独立样本来自相同的总体为真,那么秩将大约均匀分布在两个样本中,即小的、中等的、大的秩值应该大约被均匀分在两个样本中。
如果备选假设两个独立样本来自不相同的总体为真,那么其中一个样本将会有更多的小秩值,这样就会得到一个较小的秩和;另一个样本将会有更多的大秩值,因此就会得到一个较大的秩和。
设两个独立样本为:第一个x 的样本容量为1n ,第二个y 样本容量为2n ,在容量为21n n n +=的混合样本(第一个和第二个)中,x 样本的秩和为x W ,y 样本的秩和为y W ,且有:2)1(21+=+++=+n n n W W y x Λ (28.1)我们定义:2)1(111+-=n n W W x (28.2)2)1(222+-=n n W W y (28.3)以x 样本为例,若它们在混合样本中享有最小的1n 个秩,于是2 )1(11+=n n W x ,也是xW 可能取的最小值;同样y W 可能取的最小值为2)1(22+n n 。
那么,x W 的最大取值等于混合样本的总秩和减去y W 的最小值,即2)1(2)1(22+-+n n n n ;同样,y W 的最大取值等于2)1(2)1(11+-+n n n n 。
第二十七课 符号检验和Wilcoxon 符号秩检验在统计推断和假设检验中,传统的检验统计量都叫做参数检验,因为它们都依赖于确定的概率分布,这个分布带有一组自由的参数。
参数检验被认为是依赖于分布假定的。
通常情况下,我们对数据进行分析时,总是假定误差项服从正态分布,这是人们易于接受的事实,因为正态分布的原始出发点就是来自于误差分布,至于当样本相当大时,数据的正态近似,这是由于大样本理论所保证的。
但有些资料不一定满足上述要求,或不能测量具体数值,其观察结果往往只有程度上的区别,如颜色的深浅、反应的强弱等,此时就不适用参数检验的方法,而只能用非参数统计方法(non-parametric statistical analysis )来处理。
这种方法对数据来自的总体不作任何假设或仅作极少的假设,因此在实用中颇有价值,适用面很广。
一、 单样本的符号检验符号检验(sign test )是一种最简单的非参数检验方法。
它是根据正、负号的个数来假设检验。
首先需要将原始观察值按设定的规则,转换成正、负号,然后计数正、负号的个数作出检验。
该检验可用于样本中位数和总体中位数的比较,数据的升降趋势的检验,特别适用于总体分布不服从正态分布或分布不明的配对资料,有时当配对比较的结果只能定性的表示,如试验前后比较结果为颜色从深变浅、程度从强变弱,成绩从一般变优秀,即不能获得具体数字,也可用符号检验,例如用正号表示颜色从深变浅,用负号表示颜色从浅变深。
用于配对资料时,符号检验的计算步骤为:首先定义成对数据指定正号或负号的规则,然后计数正号的个数+S 及负号的个数-S ,由于在具体比较配对资料时,可能存在配对资料的前后没有变化,或等于假设中的中位数,此时仅需要将这些观察值从资料中剔除,当然样本大小n 也随之减少,故修正样本大小-++=S S n 。
当样本n 较小时,应使用二项分布确切概率计算法,当样本n 较大时,常利用二项分布的正态近似。
1. 小样本时的二项分布概率计算当20≤n 时,+S 或-S 的检验p 值由精确计算尺度二项分布的卷积获得。
在比较配对资料试验前后有否变化,或增加或减小的假设检验时,如果我们定义试验后比试验前增加为正号,反之为负号,那么对于原假设:试验前后无变化来说,正号的个数+S 和负号的个数-S 可能性应当相等,即正号出现的概率p =0.5,于是+S 与-S 均服从二项分布)5.0,(n B ,对于太大的+S 相应太小的-S ,或者太大的-S 相应太小的+S ,都将拒绝接受原假设;对于原假设:试验后比试验前有增加来说,正号的个数+S 大于负号的个数-S 的可能性应该大,即正号出现的概率5.0>p ,对于太小的+S 相应太大的-S ,将拒绝接受原假设;对于原假设:试验后比试验前减小来说,正号的个数+S 小于等于负号的个数-S 的可能性应该大,即正号出现的概率5.0≤p ,对于太大的+S 相应太小的-S ,将拒绝接受原假设。
例27.1有一种提高学生某种素质的训练,有人说它是无效的,有人说它是有效的,那么真实情况究竟应该是怎样的呢?随机地选取15名学生作为试验样本,在训练开始前做了一次测验,每个学生的素质按优、良、中、及、差打分,经过三个月训练后,再做一次测试对每个学生打分。
数据见表27.1所示。
我们将素质提高用正号表示,反之用负号表示,没有变化用0表示。
显著性水平取0.1。
表27.1 训练前后的素质比较学生编号训练之前 训练之后 差异符号 1 中 优 + 2 及 良 + 3 良 中 - 4 差 中 + 5 良 良 0 6 中 优 + 7 差 及 + 8 良 优 + 9 中 差 - 10 差 中 + 11 中 优 + 12 及 良 + 13 中 及 - 14 中 优 + 15差中+从表27.1中15名学生训练前后的差异分析可得出:有14名学生有差异,其中+S =11,-S =3。
1名学生无差异(学生编号为5),应该从分析中去掉,所以n =15-1=14。
假设检验为:5.0:0≤p H 即训练之后学生素质没有提高。
5.0:1>p H 即训练之后学生素质有提高。
由于试验的结果只有两种可能,正号或负号,对每一个学生试验出现正号的假定概率为p =0.5,负号为1—p =0.5,这样整个试验的概率是相同的,并且每一个试验是相互独立的。
因此在n =14次独立的试验中,正号出现的次数服从二项分布)5.0,14(B ,见表27.2所示。
表27.2 二项分布的概率和累计概率n =14,p =0.5正号出现的次数正号出现的概率累计概率 0 0.0001 0.0001 1 0.0009 0.0009 2 0.0056 0.0065 30.02220.02874 0.0611 0.08985 0.1222 0.21206 0.1833 0.39537 0.2095 0.60478 0.1833 0.78809 0.1222 0.9102 10 0.0611 0.9713 11 0.0222 0.9935 12 0.0056 0.9991 13 0.0009 0.9999 140.00011.0000从表27.2的累计概率列中我们看到,正号出现的次数大于10的概率为1-0.9713=0.0287,或者换一种方法计算为=0.0001+0.0009+0.0056+0.0222=0.0287,二者的微小差异是因为小数点后舍入问题造成的。
而试验的结果:正号出现的次数为11,大于10,出现的概率不会超过0.0287,我们开始设定的显著性水平为0.1,由于0.0287<0.1,所以我们拒绝原假设,接受备选假设。
如果我们的原假设为p =0.5,既训练前后学生素质相等,那么就是双侧检验,应该加上正号出现的次数小于4的概率0.0287,即2×0.0287=0.0574<0.1,同样是拒绝原假设,接受区间为4次到10次,而拒绝区间为小于等于3次(小于4次)或大于等于11次(大于10 次)。
2. 大样本时的正态近似概率计算当20>n 时,样本可以认为是大样本。
我们可以利用二项分布的正态近似,即对于),(~p n B S ,二项分布的期望均值为np ,方差为)1(p np -,当n 比较大时,且np 和)1(p n -大于5,可以近似地认为)1,0(~)1(N p np np S z --=(27.1)公式中的S 表示正号或者负号的个数,符号检验时,p =0.5代入(27.1)式中,得到大样本时的正态近似统计量)1,0(~5.05.0N nn S z -=(27.2)当S >2/n 时,应该修正S 为S -0.5;当S <2/n 时,应该修正S 为S +0.5。
S 值加或减的0.5是连续性修正因子,目的是为了能将连续分布应用到近似的离散型分布。
二、 配对资料的Wilcoxon 符号秩检验当两组配对资料近似服从正态分布,它们差值的检验可以使用配对t 检验法。
如果配对资料的正态分布的假设不能成立,就可以使用Frank Wilcoxon (1945)符号秩检验,它是一种非参数检验方法,对配对资料的差值采用符号秩方法来检验。
它的基本要求是差值数据设置为最小的序列等级和两组配对资料是相关的(配成对)。
在两组配对资料的差异有具体数值的情况下,符号检验只利用大于0和小于0的信息,即正号和负号的信息,而对差异大小所包含的信息却未加利用,但Wilcoxon 符号秩检验方法既考虑了正、负号,又利用了差值大小,故效率较符号检验法高。
例27.2某制造商想要比较两种不同的生产方法所花费的生产时间是否有差异。
随机地选取了11个工人,每一个工人都分别使用两种不同的生产方法来完成一项相同的任务,每一个工人开始选用的生产方法是随机的,即可以先使用生产方法1再使用生产方法2,也可以先用生产方法2再使用生产方法1。
这样,在样本中的每一个工人都提供了一个配对观察。
数据见表27.3所示。
任务完成时间的正差值表示生产方法1需要更多的时间,负差值表示生产方法2需要更多的时间。
表27.3 两种不同生产方法完成任务的时间(分钟) 工人编号n生产方法M 差值D 绝对差值 秩次 R 符号秩次R M 1 M 2 D =M 1-M 2|D | - + 1 10.2 9.5 0.7 0.7 8 8 2 9.6 9.8 -0.2 0.2 2 2 3 9.2 8.8 0.4 0.4 3.5 3.5 4 10.6 10.1 0.5 0.5 5.5 5.5 5 9.9 10.3 -0.4 0.4 3.5 3.5 6 10.2 9.3 0.9 0.9 10 10 7 10.6 10.5 0.1 0.1 1 1 8 10.0 10.0 0 0 — — — 9 11.2 10.6 0.6 0.6 7 7 10 10.7 10.2 0.5 0.5 5.5 5.5 1110.69.80.80.899 符号秩次总和-T =5.5,+T =49.55.549.5为了比较两种方法的任务完成时间是否有显著差异,假设检验为::0H 任务完成时间的两个总体是相同的。
:1H 任务完成时间的两个总体是不相同的。
使用Wilcoxon 符号秩检验方法的主要步骤见表27.3中每列的计算方法和过程,先求出每对数据的差值D ,按差值绝对值|D |由小到大排列并给秩R ,从秩1开始到秩10,注意工人编号为8的配对数据,由于差值为0,在排秩中丢弃,样本数目修正为n =11-1=10。
在给秩值时,遇到相等|D |,也称为结值(tied ),使用平均秩,如工人编号3和5具有相同的绝对差值0.4,所以平分秩3和秩4,各为秩3.5。
一旦绝对差值的秩值R 给出后,然后将R 分成正和负差值的两个部分秩值+R 和-R ,最后求符号秩和∑++=RT ,∑--=RT ,如-T =2+3.5=5.5。
对于样本数目有n 个,+T 与-T 的最小可能值为0,而最大可能值为(1+2+…+n )=n (n +1)/2。
显然,应当有+T +-T = n (n +1)/2,如本例5.5+49.5=55=10(10+1)/2。
那么符号秩的平均值为n (n +1)/4。
构造Wilcoxon 符号秩统计量为4)1(+-=+n n T S (27.3)显然如果原假设为真,+T 与-T 应该有相同的值,等于n (n +1)/4,因此太大的S 值或太小的S 值都是我们拒绝的依据。
在实际工作中便于计算常取W=min (+T ,-T ),W 服从所谓的Wilcoxon 符号秩分布,对于本例n =10,=S 49.5-10(10+1)/4=22,W = min (49.5,5.5)=5.5,查表可得在显著水平=α0.05,n =10的双侧检验的临界值为8,即W 值的拒绝区域为0到8,接受区域为8到27.5。