第10章__非参数检验
- 格式:doc
- 大小:97.00 KB
- 文档页数:10
常用的非参数检验(NonparametricTests)总结非参数检验(Nonparametric tests)是统计分析方法的重要组成部分,它与参数检验共同构成统计推断的基本内容。
参数检验是在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的方法。
但是,在数据分析过程中,由于种种原因,人们往往无法对总体分布形态作简单假定,此时参数检验的方法就不再适用了。
非参数检验正是一类基于这种考虑,在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。
由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验。
•两独立样本的非参数检验两独立样本的非参数检验是在对总体分布不甚了解的情况下,通过对两组独立样本的分析来推断样本来自的两个总体的分布等是否存在显著差异的方法。
独立样本是指在一个总体中随机抽样对在另一个总体中随机抽样没有影响的情况下所获得的样本。
SPSS中提供了多种两独立样本的非参数检验方法,其中包括曼-惠特尼U检验、K-S检验、W-W游程检验、极端反应检验等。
某工厂用甲乙两种不同的工艺生产同一种产品。
如果希望检验两种工艺下产品的使用是否存在显著差异,可从两种工艺生产出的产品中随机抽样,得到各自的使用寿命数据。
甲工艺:675 682 692 679 669 661 693乙工艺:662 649 672 663 650 651 646 652(1)曼-惠特尼U检验两独立样本的曼-惠特尼U检验可用于对两总体分布的比例判断。
其原假设:两组独立样本来自的两总体分布无显著差异。
曼-惠特尼U 检验通过对两组样本平均秩的研究来实现判断。
秩简单说就是变量值排序的名次,可以将数据按升序排列,每个变量值都会有一个在整个变量值序列中的位置或名次,这个位置或名次就是变量值的秩。
(2)K-S检验K-S检验不仅能够检验单个总体是否服从某一理论分布,还能够检验两总体分布是否存在显著差异。
第10章非参数检验非参数检验是指在总体不服从正态分布或分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。
SPSS提供的非参数检验共有以下几种:Chi-Square:卡方检验(举例data16-01,data16-02)在前面介绍的方法中,往往都事先假定总体服从正态分布,然后对其均值或方差作检验。
但某个随机变量是否服从某种特定的分布是需要进行检验的。
可以根据以往的经验或实际的观测数据的分布情况,推测总体可能服从某种分布函数F(x),利用这些样本数据来具体检验该总体分布函数是否真的就是F(x)。
卡方检验(Chi-Square)就是这样一种用来检验给定的概率值下数据来自同一总体的无效假设的方法。
data16-01:掷一颗六面体300次,用1、2、3、4、5、6分别代表六面的六个点,试问这颗六面体是否均匀。
表16—1 300次掷一颗六面体实验观测结果data16-02:100名健康成年女子血清总蛋白含量,试它是否服从正态分布。
Binomial:二项检验(举例data16-03)二项分布检验(Binomial test)是一种用来检验在给定的落入二项式中第一项概率值的前提下数据来自二项分布的无效假设的方法。
(二项分布是从二分类总体抽得的随机样本中可能观察到的两类比例的抽样分布。
这就是说,它给出了在零假设成立时两类比例的各种可能值。
这里,零假设是指总体值为P的假设,当一项研究的“结果”可分为两类时,就可以用二项分布来检验零假设。
这种检验属于拟合优度型。
它告诉我们是否能够认为从样本中观察到的两类比例(或频数)来自于具有指定P值的总体。
)data16-03:掷一枚球类比赛用的挑边器31次,出现A面、B面在上的次数见表16-3,取变量名为“tbh”,用数字型数据1代表“A”,用数字型数据1代表“B”,试问这枚挑边器是否均匀。
表16-3 31次掷一枚球类比赛用的挑边器实验观测结果Runs:游程检验(举例data16-04)例如,假定观察的结果用加、减号表示,得到一组这样的记录顺序:++---++----++-+我们总共观察到7个游程。
非参数检验参数检验方法,尤其是对计量资料,需要对研究的总体作一些比较严格的假定。
例如t检验法要求总体分布是正态分布等。
在实际工作中的许多资料不符合这种要求,因此以上的参数检验方法的使用受到了限制。
近代统计学家发明了对总体分布不必作限制性假定的检验技术,这种技术称为非参数检验(Nonparametric tests)。
非参数检验法是指在总体不服从正态分布或分布情况不明时,用来检验数据资料是否来自相同总体假设的一类检验方法。
由于它的假定前堤比参数检验方法少的多,而且在收集资料方面也十分简单,例如可以用“等级”或“符号”来评定观察的结果等,故这类方法在实际中有着广泛的应用。
第一节两相关样本的显著性检验1.1 符号检验法在配对实验中,将每对(或同一)实验单位(或先后)给予两种不同的处理,比较两种处理的效果有无差异或比较一组实验单位处理先后有无不同。
凡配对计量资料不服从正态分布要求时,可选用符号检验法(Sign test)。
例题1 有x,y 12对数据,它们的数值及相差符号由表1给出。
表1 本例的数据资料序号 1 2 3 4 5 6 7 8 9 10 11 12X 3 1 6 3 2 1 4 7 3 8 4 5Y 2 4 4 7 2 2 2 5 3 6 2 2 问这两个序列数值的差异是否具有显著性(α=0.05)?1.2 符号秩和检验法符号检验中只考虑配对数据x i-y i的符号,计算十分简便,但因没有考虑到x i-y i 差值的大小,因此对资料的利用不够充分,检验的灵敏度也不够好。
符号秩和检验法是上述方法的改进,由于关注到了差值的大小,故效果较好。
凡配对计量或计数的资料,可选用符号秩和检验法(Wilcoxon法)。
例题2 为研究长跑运动对增强普通高校学生的心功能效果,对某学院15名男生进行实验,经过5个月的长跑锻炼后观察其晨脉变化情况。
锻炼前后的晨脉数据如下。
问锻炼前后晨脉间的差异有无显著性(α=0.05)?表2 长跑锻炼前后的晨脉数、差值及其秩次序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 前70 76 56 63 63 56 58 60 65 65 75 66 56 59 70 后46 54 60 64 48 55 54 45 51 48 56 48 64 50 54 差值22 22 -4 -1 15 1 4 15 14 17 19 18 -8 9 16 秩次14.5 14.5 –3.5 –1.5 8.5 1.5 3.5 8.5 7 11 13 12 -5 6 101.3 用spss对两相关样本进行非参数检验spss软件包的Nonparametric Tests过程为两相关样本通常提供了3种非参数检验方法,它们是:Sign 检验,用于对两相关样本的总体做符号检验。
非参数检验的方法
嘿,你知道非参数检验吗?这可是个超厉害的统计方法呢!非参数检验不需要对总体分布做出假设,哇,这多牛啊!那它的步骤是啥呢?先确定研究问题和数据,然后选择合适的非参数检验方法,比如秩和检验啥的。
接着计算检验统计量,最后根据统计量做出决策。
这听起来是不是挺简单?但可别小瞧哦,这里面也有不少要注意的地方呢。
比如数据得独立、随机,不然结果可就不靠谱啦。
那非参数检验安全不?稳定不?嘿,放心吧!它一般都挺安全稳定的,不会像有些方法那样容易出幺蛾子。
非参数检验都啥时候用呢?当数据不满足参数检验条件的时候呗。
比如数据严重偏态,或者分布不明,这时候非参数检验就大显身手啦。
它的优势可不少呢,对数据分布要求低,适用范围广,多棒啊!就好比你去参加一场比赛,参数检验就像有很多严格规则的项目,非参数检验呢,就像那种规则比较灵活的,不管你啥情况都能玩得转。
给你举个实际案例吧。
比如说有两组病人的康复时间数据,不知道是不是有差异。
用非参数检验一分析,哇,发现真的有明显不同呢。
这效果多好啊!非参数检验就是这么厉害,在很多情况下都能帮我们解决问题。
它就像一个万能工具,随时准备为我们服务。
所以啊,非参数检验真的很不错,值得我们在数据分析中好好利用。
非参数检验的概念与过程导言在统计学中,非参数检验是一种不依赖于总体分布假设的方法,用于对数据进行统计推断。
与参数检验相比,非参数检验更加灵活,适用于各种数据类型和样本量的情况。
本文将介绍非参数检验的基本概念及其应用过程。
什么是非参数检验?在传统的统计推断中,我们通常需要假设数据的总体分布满足某种特定的参数化模型(如正态分布)。
然而,在实际应用中,我们并不总是了解或能够准确描述数据的分布。
此时,非参数检验成为一种有力的工具。
非参数检验不依赖于总体分布的假设,而是在不对数据做过多假设的情况下,通过对样本数据的排序、秩次转换等操作,进行统计推断。
非参数检验的应用场景非参数检验广泛应用于多个领域,特别是当数据不满足参数化分布假设时。
下面列举几个常见的应用场景:1. 样本量较小在样本量较小的情况下,参数化方法可能对数据分布的假设过于苛刻,导致结果不够准确。
而非参数检验则不对数据分布做过多要求,能够更灵活地处理小样本数据。
2. 数据不满足正态分布假设正态分布假设是很多参数检验方法的基础前提。
但在实际问题中,数据往往并不服从正态分布。
非参数检验不需要对数据做分布假设,因此更适用于处理不满足正态分布假设的数据。
3. 数据有序或等级性质对于无法直接度量或比较数值大小的数据,如排名数据、生活满意度评价等,非参数检验提供了一种适用的方法。
通过对数据的秩次进行比较,我们可以推断出两组数据是否存在显著差异。
非参数检验的基本过程非参数检验通常包括以下几个基本步骤:1. 建立原假设和备择假设在进行非参数检验之前,我们需要明确所研究的问题,并建立原假设(H0)和备择假设(H1)。
原假设通常是指两组样本没有显著差异,而备择假设则相反。
2. 选择合适的非参数检验方法根据实际问题和数据类型的特点,选择合适的非参数检验方法。
常用的非参数检验方法包括Wilcoxon秩和检验、Mann-Whitney U检验、Kruskal-Wallis单因素方差分析等。
第10章非参数检验平时我们使用的统计推断方法大多为参数统计方法,它们都是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。
比如单样本u检验就是假定该样本所在总体服从正态分布,然后推断总体的均数是否和已知的总体均数相同。
本节要讨论的统计方法着眼点不是总体参数,而是总体分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在的分布位置/形状是否相同。
由于这一类方法不涉及总体参数,因而称为非参数统计方法。
SPSS的Nonparametric Tests菜单中一共提供了8种非参数分析方法,它们可以被分为两大类:1、分布类型检验方法:亦称拟合优度检验方法。
即检验样本所在总体是否服从已知的理论分布。
具体包括:Chi-square test:用卡方检验来检验二项/多项分类变量的几个取值所占百分比是否和我们期望的比例有没有统计学差异。
Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一分为二。
Runs Test:用于检验样本序列随机性。
观察某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定。
一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。
One-Sample Kolmogorov-Smirnov Test:采用柯尔莫哥诺夫-斯米尔诺夫检验来分析变量是否符合某种分布,可以检验的分布有正态分布、均匀分布、Poission 分布和指数分布。
2、分布位置检验方法:用于检验样本所在总体的分布位置/形状是否相同。
具体包括:Two-Independent-Samples Tests:即成组设计的两独立样本的秩和检验。
Tests for Several Independent Samples:成组设计的多个独立样本的秩和检验,此处不提供两两比较方法。
Two-Related-Samples Tests:配对设计的两样本秩和检验。
Tests for Several Related Samples:配伍设计的多样本秩和检验,此处同样不提供两两比较。
一、分布位置检验方法1、Two Independent Samples Test与 K Independent Samples Test用于检验两独立样本/多独立样本所在总体是否相同。
Two-lndependent-Samples Test对话框:(1)Test Variable框,指定检验变量。
(2)Grouping Variable框,指定分组变量。
Define Groups对话框,Groupl 和Groupl后的栏中,可指定分组变量的值。
(3)TestType框,确定用来进行检验的方法。
Mann-Whitney U:默认值,相当于两样本秩和检验。
Kolmogorov-Smimov Z:K-S检验的一种。
Moses extreme reactions:如果施加的处理使得某些个体出现正向效应,而另一些个体出现负向效应,就应当采用该检验方法。
Wald-Wolfowitz runs:游程检验的一种,检验总体分布是否相同。
(4)Options对话框,选择输出结果形式及缺失值处理方式。
多个独立样本检验中不同之处:Define Range对话框,定义分组变量值范围。
Minimum:分组变量范围的下限。
Maximum:上限。
Test Type框,确定用来进行检验的方法。
Kruskal-WallisH:默认值,单向方差分析,检验多个样本在中位数上是否有差异; Median:中位数检验,检验多个样本是否来自具有相同中位数的总体。
2、Two Related Samples Test与 K Related Samples TestTwo Related Samples Test是考察配对样本的总体分布是否相同,或者说差值总体是否以0为中心分布;K Related Samples Test则用于检验多个配伍样本所在总体的分布是否相同。
Two-Related-SamplesTests对话框:(1)Test Pair(s)List框,指定检验变量对。
可有多对。
(2)TestType框,确定检验的方法。
Wilcoxon:默认值,配对设计差值的秩和检验,利用次序大小。
Sign:符号检验,利用正负号。
McNemar:配对卡方检验,适用于两分类资料,特别适合自身对照设计。
Marginal Homogeneity:适用于资料为有序分类情况。
(3)Options对话框中,选择输出结果形式及缺失值处理方式,K Related SamplesTest 用于多组间的非参数检验,不同之处在于:A、比较方法不同:☆ Friedman:系统默认值,即最常用的随机区组设计资料的秩和检验,也被称为M检验。
☆ Kendall's W:该指标也被称为Kendall和谐系数,它表示的是K个指标间相互关联的程度(一致性程度),取值在0~1之间。
☆ Cochrarl's Q:是两相关样本McNemar检验在多样本情形下的推广,只适用于二分类变量。
B、Statistics对话框: Descriplive,描述统计量。
Quartiles,四分位数。
二、分布类型检验方法原理:计算实际分布与理论分布间的差异,根据某种统计量求出P值。
1、Chi-square test与行×列表卡方检验区别:Chi-square test是检验分类数据样本所在总体分布(各类别所占比例)是否与已知总体分布相同,是一个单样本检验。
行×列表卡方检验是比较两个分类资料样本所在的总体分布是否相同,在spss中要用crosstable菜单来完成。
具体做法:先按照已知总体的构成比分布计算出样本中各类别的期望频数,然后求出观测频数与期望频数的差值,最后计算出卡方统计量,利用卡方分布求出P 值,得出检验结论。
例5.1 某地一周内各日死亡数的分布如表所示,请检验一周内各日的死亡危险性是否相同?周日一二三四五六日死亡数 11 19 17 15 15 16 19数据文件为death.sav:day 周日,death 死亡数。
Chi-Square Test对话框:(1)Test Variable List框,指定检验变量,可为多个变量。
(2)ExpectedRange栏,确定检验值的范围。
Get from data选项,即最小值和最大值所确定的范围,系统默认该项。
●Use specified range选项,只检验数据中一个子集的值,在Lower和Upper 参数框中键入检验范围的下限和上限。
(3)ExpectedValues栏,指定期望值。
●All categories equal选项,系统默认的检验值是所有组对应的期望值都相同,这意味着你要检验的总体是否服从均匀分布。
●Values选项,选定所要检验的与总体是否服从某个给定的分布,并在其右边的框中键人相应各组所对应的由给定分布所计算而得的期望值。
“Add”按钮,增加刚键入的期望值,必须大于0。
“Remove”按钮,移走错误值。
“Change”按钮,替换错误值。
(4)Options对话框。
A、Statistics栏,选择输出统计量。
Descriptive:输出变量的均值、标准差、最大值、最小值、非缺失个体的数量。
Quartiles 复选项,输出结果将包括四分位数的内容。
显示第25、50与75百分位数。
B、在MissingValues栏中选择对缺失值的处理方式。
具体操作如下:Data →Weight Case → Weight Case by:→ Frequency Variable: death→OK;Analyze→Nonparametic Test→Chi-Square→Test variable list:day→OK。
卡方值X2=2.875,自由度(DF)=6,P=0.824,可认为一周内各日的死亡性是相同的。
2、Binomial Test(二项分布检验)调用Binomial过程可对样本资料进行二项分布分析,检验二项分类变量是否来自概率为P的二项分布。
例5-2 某地某一时期内出生40名婴儿,其中女性12名(Sex=0),男性28名(sex=1)。
问该地出生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同?数据文件为sex.sav。
Binomial Test对话框:(1)Test Variable框,指定检验变量。
(2)Define Dichotomy栏,定义二分值。
●Get from data选项,适用于指定的变量只有两个有效值,无缺失值。
●Cut point选项,如果指定的变量超过两个值,选择该项,并在参数框中键入一个试算点的值。
(3)Test参数框,指定检验概率值。
默认的检验概率值是0.5,这意味着要检验的二项是服从均匀分布的。
(3)Options对话框,选择输出结果形式及缺失值处理方式。
具体操作如下:Binomial TestTest → Test Variable List →sex→ Test Proportion →0.50→OK。
二项分布检验表明,女婴12名,男婴28名,观察概率为0.7(即男婴占70%,检验概率为0.5,二项分布检验的结果是双侧概率为0.018,可认为男女比例的差异有高度显著性,即与通常的0.5的性比例相比,该地男婴比女婴明显多。
3、Runs Test(游程检验)一个游程是指某序列中同类元素的一个持续的最大主集,或者说一个游程是指依时间或其他顺序排列的有序数列中,具有相同的事件或符号的连续部分。
游程检验用于检验样本或任何序列的随机性。
例5-3 某村发生一种地方病,其住户沿一条河排列,调查时对发病的住户标记为1,非发病住户为0,共26户,如下表所示。
0 1 1 0 0 0 1 0 0 1 0 O 0 0 1 1 O 01 0 0 0 0 1 0 l数据文件为run.sav:住户变量为epi。
Runs Test 对话框:(1) Test Variable框,指定检验变量。
(2) Cut Point栏,确定划分二分类的试算点。
中位数、众数、均数及用户指定临界割点。
(3) Options对话框,选择输出结果形式及缺失值处理方式。
具体操作如下:Runs Test → Test Variable →epi→1→ OK从检验结果可见,本例游程个数为14,小于1有17个案例;而大于或等于1有9个案例。
Z=0.325,双尾检验概率P=0.746。
所以认为此地方病的病户沿河分布的情况无聚集性,而是呈随机分布。
4、单样本K-S检验又称单样本柯尔莫哥洛夫-斯米诺夫检验(one-sample Kolmogorov-Smirmov tes)。