第9章 基于秩次的非参数检验
- 格式:pdf
- 大小:2.00 MB
- 文档页数:56
基于秩次的非参数检验1. 问题的提出前面学习了连续型资料两组样本均数差异的假设检验方法:小样本用t检验,条件是变量服从正态分布和方差齐;大样本用标准正态分布的Z检验。
如果是小样本,变量的分布不清,或者已知不服从正态分布或经变量转换后仍不服从正态分布时,如何检验两个样本或多个样本均数差异的统计学意义呢?需要一种不依赖于分布假定的检验方法,即非参数检验。
2. 基本概念前面介绍的检验方法首先假定分析变量服从特定的已知分布(如正态分布),然后对分布参数(如均数)作检验。
这类检验方法称参数检验(parametric test)。
今天介绍的检验方法不对变量的分布作严格假定,检验不针对特定的参数,而是模糊地对变量的中心位置或分布位置作比较。
这类检验称非参数检验(nonparametric test),由于其对总体分布不作严格假定,所以又称任意分布检验。
(distribution-free test)非参数检验的优点:a.不受总体分布的限制,适用范围广。
b.适宜定量模糊的变量和等级变量。
c.方法简便易学。
缺点:如果是精确测量的变量,并且已知服从或者经变量转换后服从某个特定分布(如正态分布),这时人为地将精确测量值变成顺序的秩,将丢失部分信息,造成检验功效能下降。
基于秩次非参数检验(秩和检验)的基本思想假设变量X有观察值1.1, 1.3, 1.7, 4.3, 11.4显然这变量不服从正态分布,观察值间差异较大,既不对称,标准差也较大。
但如果将变量作转换,变成秩变量Y=1,2,3,4,5,则分布对称了,观察值间的差异也均匀了,标准差也减小了。
然后对这秩分布的中心位置(中位数)作检验,这就是秩和检验。
7.1 配对样本的符号秩检验(Wilcoxon signed rank test)例7.1为研究出生先后的孪生兄弟间智力是否存在差异,12对孪生兄弟测试的结果见表7.3。
表7.3 12对孪生兄弟测试结果T +=24.5,T -=41.5符号秩检验的分布理论:假定有4个差值,如果H 0成立时,这4个差值有同等的概率取正值或负值,即每个值取正值的概率等于1/2。
非参数统计中的秩和检验方法详解统计学是一门研究数据收集、分析、解释和呈现的学科,非参数统计是其中的一个重要分支。
在非参数统计中,秩和检验方法是一种常用的假设检验方法,它不依赖于总体分布的具体形式,适用于各种类型的数据。
本文将对秩和检验方法进行详细介绍,包括其原理、应用场景和计算步骤。
1. 原理秩和检验方法是基于数据的秩次而进行的假设检验方法。
在正态分布检验中,我们通常使用t检验或者方差分析,这是基于总体分布的参数进行的假设检验。
而在非参数统计中,我们无法事先确定总体分布的形式,因此需要使用秩和检验方法。
秩和检验方法的原理是将样本数据按照大小进行排序,然后用它们的秩次代替原始数值进行统计分析。
这样的做法可以减小数据的离群值对分析结果的影响,使得分析更加稳健。
同时,秩和检验方法也不受数据的分布形式的限制,适用范围更广。
2. 应用场景秩和检验方法适用于各种类型的数据,特别是对于偏态分布或者具有离群值的数据,秩和检验方法更具优势。
例如,在医学研究中,我们经常需要比较两组病人的治疗效果,由于病人的个体差异很大,数据的分布可能并不符合正态分布假设,这时使用秩和检验方法会更加合适。
此外,在实验设计中,如果数据的方差不齐或者数据不符合正态分布,也可以考虑使用秩和检验方法。
总之,秩和检验方法适用于各种类型的数据,尤其是当数据的分布形式不确定时,是一种非常有力的假设检验方法。
3. 计算步骤使用秩和检验方法进行假设检验,主要分为以下几个步骤:(1)计算秩次:首先将样本数据按照大小进行排序,然后给每个数值赋予一个秩次。
对于相同的数值,可以取它们的平均秩次。
(2)计算秩和:分别计算两组样本数据的秩和,作为检验统计量。
(3)计算临界值:根据显著性水平和自由度,查找秩和检验的临界值。
(4)假设检验:比较计算得到的检验统计量和临界值,进行假设检验。
4. 实例分析为了更好地理解秩和检验方法的应用,我们举一个简单的例子进行分析。
假设有两组样本数据,分别为:组1:5, 8, 10, 12, 15组2:6, 7, 9, 11, 14我们希望比较这两组数据的中位数是否相等。
基于秩的非参数检验介绍秩检验是一种常用的非参数检验方法,它不依赖于总体的具体分布形式,适用于数据不满足正态分布等假设的情况。
秩检验的核心思想是将原始数据转化为秩次,通过比较秩次的大小来进行假设检验。
本文将介绍基于秩的非参数检验的原理、常见的秩检验方法以及如何应用秩检验进行统计推断。
### 一、秩的概念在介绍秩检验之前,首先需要了解秩的概念。
秩是指将一组数据按照大小顺序排列后得到的位置序号,即数据在排序后的位置。
例如,对于一组数据{5, 3, 7, 2},排序后的序列为{2, 3, 5, 7},则对应的秩次为{2, 1, 3, 4}。
### 二、秩和秩次的计算在进行秩检验时,需要计算每个数据点的秩次。
对于有重复数值的情况,可以采用两种方法计算秩次:一是平均秩法,即将重复数值的秩次取平均值;二是顺序秩法,即按照数据出现的先后顺序依次赋予秩次。
### 三、秩和秩次的应用秩和秩次在非参数检验中起着重要作用。
在进行秩检验时,常用的方法包括Wilcoxon秩和检验、Mann-Whitney U检验、Kruskal-Wallis 检验等。
这些方法都是基于秩次进行统计推断,适用于不同类型的假设检验问题。
1. Wilcoxon秩和检验Wilcoxon秩和检验是一种用于比较两组相关样本的非参数检验方法。
它的原假设是两组样本来自同一总体,备择假设是两组样本来自不同总体。
通过比较两组样本的秩和来判断它们是否存在显著差异。
2. Mann-Whitney U检验Mann-Whitney U检验是一种用于比较两组独立样本的非参数检验方法。
它的原假设是两组样本来自同一总体,备择假设是两组样本来自不同总体。
通过比较两组样本的秩和来进行假设检验。
3. Kruskal-Wallis检验Kruskal-Wallis检验是一种用于比较多组独立样本的非参数检验方法。
它的原假设是多组样本来自同一总体,备择假设是多组样本来自不同总体。
通过比较多组样本的秩和来进行假设检验。
第九章 基于秩次的非参数检验一、配对资料的符号秩和检验参数检验VS. 非参数检验n参数检验的定义:在总体分布类型已知(如正态分布)的条件下,对其未 知参数检验。
如 t 检验和方差分析,都是基于总体分布为正态分布、 总体方差相等的前提下对总体均数进行的检验。
参数检验 VS. 非参数检验n非参数检验的定义:若总体分布未知或已知总体分布与检验所要求的条件不 符,经数据转换也不能使其满足参数检验的条件,这时需要 采用一种不依赖于总体分布形式的检验方法。
这种方法不是 对参数进行检验,而是检验总体分布位置是否相同,因而称 为非参数检验(nonparametric test)。
参数检验 VS. 非参数检验 n非参数检验的适用条件:1. 总体分布类型不明2. 总体分布呈偏态分布3. 数据一端或两端有不确定值的资料4. 总体方差不齐5. 有序分类变量资料基于秩次的非参数检验本章介绍的秩和检验(rank sum test),是一类常用的非参 数检验。
秩和检验是首先将数据按从小到大,或等级从弱到强转 换成秩后,再求秩和,计算检验统计量━━秩和统计量,做 出统计推断。
配对资料的符号秩和检验符号秩和检验(Wilcoxon signedrank test)──Frank Wilcoxon(1945)配对资料的符号秩和检验例1. 对11份工业污水测定氟离子浓度(mg/L),每份水样同时 采用电极法及分光光度法测定,结果见表。
问就总体而言, 这两种方法的测定结果有无差别?表1 两法测定11份工业污水中氟离子浓度结果 样品号 氟离子浓度(mg/L)差值d i 秩次电极法 分光光度法 1 10.5 8.8 1.7 42 21.6 18.8 2.8 93 14.9 13.5 1.4 34 30.2 27.6 2.6 85 8.4 9.1 0.7 -1.56 7.7 7.0 0.7 1.57 16.4 14.7 1.7 58 19.5 17.2 2.3 69 127.0 155.0 28.0 -1010 18.7 16.3 2.4 711 9.5 9.5 0.0 -差值di 正态性检验W=0.4561, P =0.0001 Wilcoxon 符号秩和检验Wilcoxon符号秩和检验 1. 建立检验假设,确定检验水准n H 0 :差值的总体中位数等于0n H 1 :差值的总体中位数不等于0n a =0.05Wilcoxon符号秩和检验2. 计算检验统计量T值(1)求差值d(2)编秩:依差值的绝对值由小到大编秩 ; 差值为0,不编秩,且总的对子数相应减少;差值的绝对值相等,称为相持,取平均秩。
第九章 基于秩次的非参数检验一、配对资料的符号秩和检验参数检验VS. 非参数检验n参数检验的定义:在总体分布类型已知(如正态分布)的条件下,对其未 知参数检验。
如 t 检验和方差分析,都是基于总体分布为正态分布、 总体方差相等的前提下对总体均数进行的检验。
参数检验 VS. 非参数检验n非参数检验的定义:若总体分布未知或已知总体分布与检验所要求的条件不 符,经数据转换也不能使其满足参数检验的条件,这时需要 采用一种不依赖于总体分布形式的检验方法。
这种方法不是 对参数进行检验,而是检验总体分布位置是否相同,因而称 为非参数检验(nonparametric test)。
参数检验 VS. 非参数检验 n非参数检验的适用条件:1. 总体分布类型不明2. 总体分布呈偏态分布3. 数据一端或两端有不确定值的资料4. 总体方差不齐5. 有序分类变量资料基于秩次的非参数检验本章介绍的秩和检验(rank sum test),是一类常用的非参 数检验。
秩和检验是首先将数据按从小到大,或等级从弱到强转 换成秩后,再求秩和,计算检验统计量━━秩和统计量,做 出统计推断。
配对资料的符号秩和检验符号秩和检验(Wilcoxon signedrank test)──Frank Wilcoxon(1945)配对资料的符号秩和检验例1. 对11份工业污水测定氟离子浓度(mg/L),每份水样同时 采用电极法及分光光度法测定,结果见表。
问就总体而言, 这两种方法的测定结果有无差别?表1 两法测定11份工业污水中氟离子浓度结果样品号 氟离子浓度(mg/L)差值d i 秩次 电极法 分光光度法1 10.5 8.8 1.7 42 21.6 18.8 2.8 93 14.9 13.5 1.4 3 4 30.2 27.6 2.6 85 8.4 9.1 0.7 -1.56 7.7 7.0 0.7 1.5 7 16.4 14.7 1.7 58 19.5 17.2 2.3 69 127.0 155.0 28.0 -10 10 18.7 16.3 2.4 7 119.59.50.0-差值d i 正态性检验 W =0.4561, P =0.0001Wilcoxon 符号秩和检验Wilcoxon符号秩和检验 1. 建立检验假设,确定检验水准n H 0 :差值的总体中位数等于0n H 1 :差值的总体中位数不等于0n a =0.05Wilcoxon符号秩和检验2. 计算检验统计量T值(1)求差值d(2)编秩:依差值的绝对值由小到大编秩 ; 差值为0,不编秩,且总的对子数相应减少;差值的绝对值相等,称为相持,取平均秩。
(3)分别求正、负秩和表1 两法测定11份工业污水中氟离子浓度结果样品号 氟离子浓度(mg/L) 差值d i 秩次 电极法 分光光度法 1 10.5 8.8 1.74.5 2 21.6 18.8 2.8 9 3 14.9 13.5 1.4 3 4 30.2 27.6 2.6 8 5 8.4 9.1 0.7 1.5 6 7.7 7.0 0.7 1.5 7 16.4 14.7 1.7 4.5 8 19.5 17.2 2.3 6 9 127.0 155.0 28.0 10 10 18.7 16.3 2.4 7 119.5 9.50.0-+ T =43.5 T =11.5Wilcoxon符号秩和检验2. 计算检验统计量T值(1)求差值d(2)编秩:依差值的绝对值由小到大编秩 ; 差值为0,不编秩,且总的对子数相应减少;差值的绝对值相等,称为相持,取平均秩。
(3)分别求正、负秩和:T+=43.5,T=11.5(4)确定统计量T :T=43.5或T=11.5Wilcoxon符号秩和检验3. 确定P值,做出推断(1) 查表法(n≤50)根据n(非零对子数)和T值,查T界值由n=10,T=11.5或T=43.5,查表,得双侧P>0.10。
按照a =0.05 ,故据此资料尚不能认为两法测定结果有差别。
水准不拒绝HWilcoxon配对符号秩和检验的基本思想n在配对样本中,由于随机误差的存在,各对差值的产生不可避 免,假定两种处理的效应相同,则差值的总体分布为对称分布, 并且差值的总体中位数为0。
若此假设成立,样本差值的正秩和 与负秩和应相差不大,均接近n(n+1)/4 ;当正负秩和相差悬殊,T + +T =n(n+1)/2超出抽样误差可解释的范围时,则有理由怀疑该假设,从而拒 绝H0。
(2)正态近似法(n >50):作正态近似检验※ 校正公式:有相同秩次t j 表示第j 次相持的个数24/ ) 1 2 )( 1 ( 5. 0 | 4 / ) 1 ( | + + - + - =n n n n n T Z 48) ( 24 ) 1 2 )( 1 ( 5. 0 | 4 / ) 1 ( | 3j j c t t n n n n n T Z - S -+ + - + - =第九章 基于秩次的非参数检验二、两组独立样本比较的秩和检验(一)两组独立样本比较的秩和检验Wilcoxon秩和检验(Wilcoxon rank sum test)推断连续型变量资料或有序变量资料的两个独立样本代 表的两个总体分布是否有差别。
两组连续型变量资料的秩和检验例2 用两种药物杀灭钉螺,采集了14批活钉螺,随机分为两 组分别用甲、乙药物,用药后清点钉螺的死亡数,并计算每 批钉螺的死亡率(%),结果见表。
问两种药物杀死钉螺的效 果有无差别?Wilcoxon秩和检验Wilcoxon秩和检验1. 建立检验假设,确定检验水准n H 0 :两种药物杀灭钉螺死亡率的总体中位数相等n H 1 :两种药物杀灭钉螺死亡率的总体中位数不相等 n a =0.05Wilcoxon 秩和检验2、计算检验统计量T 值(1) 编秩:将两组数据混合,由小到大统一编秩;不同组遇到相同数 据取平均秩次。
(2)求各组秩和:以样本例数较小者为n 1 ,其秩和为T 1。
(3) 确定检验统计量T 值 : 若n 1 ≠n 2 ,则T =T 1 ;若n 1 =n 2 ,则T =T 1 或T =T 2。
Wilcoxon 秩和检验的基本思想假设含量为n 1 与n 2 的两个样本(且n 1 ≤n 2 ),来自同一总 体或分布相同的两个总体,则n 1 样本的秩和T 1 与其理论秩和 n 1(N +1)/2相差不大,即[T 1 n 1 (N +1)/2]仅为抽样误差所致。
当 二者相差悬殊,超出抽样误差可解释的范围时,则有理由怀 疑该假设,从而拒绝H 0。
(N (N +1)/2)/2Wilcoxon秩和检验3、确定P值,做出推断(1)查表法≤10,且n 2 n 1 ≤10时,查T界值表。
当n1内大外小双侧0.01<P<0.02按照 a =0.05水准,拒绝H 0 ,可以认为两种药物杀灭钉螺的效果有 差别。
(2)正态近似法t j 表示第j 次相持的个数v n 1 >10或 n 2 n 1>10 v 相持(tie)cZ Z C =)( ) 1 33N N t t c j j- - = å - ( 12 / ) 1 ( 5 . 0 | 2 / ) 1( | 21 1 + - + - =N n n N n T Z第九章 基于秩次的非参数检验二、两组独立样本比较的秩和检验(二)两组有序分类变量资料的秩和检验例3 某医科大学营养教研室为了解居民体内核黄素营养状况, 于某年夏冬两个季节收集成年居民口服5mg核黄素后4小时的 负荷尿,测定体内核黄素含量,结果见表,试比较该地居民 夏冬两个季节体内核黄素含量有无差别?表3 某地居民夏冬两个季节体内核黄素营养状况比较核黄素 营养状况例数合计 秩次范围 平均秩次 夏季 冬季(1) (2) (3) (4) (6) (7) 缺乏 10 22 32 1~32 16.5 不足 14 18 32 33~64 48.5 适宜 16 4 20 65~84 74.5 合计 40 44 84 - -1、建立检验假设,确定检验水准n H 0 :夏冬两个季节居民体内核黄素含量的 总体分布位置相同n H 1 :夏冬两个季节居民体内核黄素含量的 总体分布位置不同n a =0.052、计算检验统计量T值(1)编秩:将两组数据合并,按等级由小到大统一编秩。
先计算各等级合计数,并确定各等级秩次范围,求出各等级的平均 秩次。
表3 某地居民夏冬两个季节体内核黄素营养状况比较核黄素 营养状况例数合计 秩次范围 平均秩次 夏季 冬季(1) (2) (3) (4) (5) (6) 缺乏 10 22 32 1~32 16.5 不足 14 18 32 33~64 48.5 适宜 16 4 20 65~84 74.5 合计 40 44 84 - -(2) 求各组秩和:各等级的平均秩次分别乘以各组在各等级的例数, 再求和,即得到各组秩和。
n 1 =40,n 2 =44,N =n 1 +n 2=84 T 1=16.5×10+48.5×14+74.5×16=2036 T 2=16.5×22+48.5×18+74.5×4=1534 (3)确定统计量T 值: T =T 1=2036。
3、确定P 值,做出推断3333 ()(3232)+(3232)+(2020)=73452j j t t - å= 331)()0.1239j j c t t NN =-- å ( - = 203640(841)/20.56.56194044(841)/12Z -´+- == ´´+ n 1=40,正态近似法 P <0.001。
按照a =0.05水准,拒绝H 0 ,接受H 1,故可认为夏冬两个 季节居民体内核黄素含量有差别。
0106. 7 = = cZZ C第九章 基于秩次的非参数检验三、多组独立样本比较的秩和检验(一)多组独立样本比较的秩和检验KruskalWallis H检验推断定量变量或有序分类变量的多个总体分布有无差别。
━ Kruskal & Wallis (1952)定量变量多组独立样本的秩和检验例4 某医院用3种不同方法治疗15例胰腺癌患者,每种方法 各治疗5例。
治疗后生存月数见表,问这3种方法对胰腺癌患 者的疗效有无差别?表4 3种方法治疗胰腺癌患者的生存月数比较甲法 乙法 丙法生存月数 秩次生存月数秩次生存月数秩次 (2) (4) (6)3 2.5 6 6 2 14 4 9 12 3 2.57 7.5 10 13 5 58 10 12 14 7 7.5 8 10 13 15 8 10 Ri34 – 60 – 26ni5 – 5 – 51、建立检验假设,确定检验水准n H0:3种方法治疗后患者生存月数的总体中位数相等n H1:3种方法治疗后患者生存月数的总体中位数不全相等 n a =0.052、计算检验统计量H值(1)编秩 将三组数据合并,其余步骤同两组定量变量资料(2)求各组秩和R i表4 3种方法治疗胰腺癌患者的生存月数比较甲法 乙法 丙法生存月数 秩次 生存月数 秩次 生存月数 秩次(1) (2) (3) (4) (5) (6)3 2.5 6 6 2 14 4 9 12 3 2.57 7.5 10 13 5 58 10 12 14 7 7.58 10 13 15 8 1034 – 60 – 26Ri5 – 5 – 5ni2、计算检验统计量H 值(1)编秩(2)求各组秩和R i : R 1 =34,R 2 =60,R 3 =26 (3)确定检验统计量H 值 :å + - + = ) 1 ( 3 ) 1 ( 12 2N n R N N H ii222 12346026 ()3(151) 6.3215(151)555H =++-´+= ´+ ) ( ) ( 1 33 N N t t c jj - - - = å cH H c=3、确定P值,做出推断(1)查H界值表≤5时,可查H界值表得到P值。