第十二章 spss之非参数检验(张文彤)
- 格式:doc
- 大小:53.00 KB
- 文档页数:6
SPSS应⽤之⾮参数检验统计学的假设检验可以分为参数检验和⾮参数检验,参数检验是根据⼀些假设条件推算⽽来,当这些假设条件⽆法满⾜的时候,参数检验的效能会⼤打折扣,甚⾄出现错误的结果,⽽⾮参数检验通常是没有假设条件的,因此应⽤范围⽐参数检验要⼴。
⾮参数检验在不做任何假设的情况下,最⼤限度的使⽤样本信息,利⽤统计学、数学的⽅法和技巧构造统计量并加以检验,在某些情况下,⾮参数检验⽐参数检验拥有更⾼的效能,尽管如此,我们也不能⼀味的使⽤⾮参数检验,毕竟参数检验更加严谨,通常都是在数据不符合参数检验的条件是,才使⽤⾮参数检验,因此,对于数据的前期观察是⾮常重要的。
⾮参数检验⽅法⾮常多,但是绝⼤部分⾮参数检验⽅法都是基于秩和结来构造统计量的,中⾮参数检验是⼀个独⽴的过程,也保留了旧对话框,新对话框按照样本情况分类,根据样本情况来选择⽅法,并且更倾向于⾃动化分析,旧对话框的分类则不是很明确,分我们按照新对话框来进⾏介绍分析—⾮参数检验—单样本⼀、单样本1.⼆项式检验⼆项式检验也称为⼆项分布检验,⽤来检验样本是否来⾃⼆项分布,也就是检查样本的观测值的频数与某⼀特定⼆项分布下的期望频数是否⼀致。
不仅可以针对于⼆分类变量,对于连续变量也可以当做⼆分类变量来处理,例如成绩的及格与否,产品的合格与否等。
本例中是想检验三门学科的及格率是否都在95%以上2.卡⽅检验卡⽅检验是最常⽤的多分类⾮参数检验,卡⽅统计量也⼴泛被其他检验所引⽤,卡⽅检验依据卡⽅分布,主要包括适应性检验和独⽴性检验,适应性检验⽤于检验实际观察频数与期望频数是否⼀致,独⽴性检验⽤于检验两组或多组计数资料是否相互独⽴。
3.K-S检验全称为Kolmogorov-Smirnow检验,在探索性中,也曾出现过⽤它来检验是否服从正态分布。
该检验属于⾮参数检验,⽤来检验某⼀单样本是否服从某⼀理论分布。
4.Wilcoxon符号秩检验该检验将符号和秩相结合,效能⽐单纯的符号检验和秩和检验都⾼,因此⽐较常⽤5.游程检验我们知道样本的随机性很重要,⽽游程检验就是⽤来检验样本数据是否是随机抽取的。
使用SPSS软件进行非参数检验非参数检验是数理统计学中对样本数据进行检验的一种重要检验方法,文章具体讲述了SPSS统计软件对3个班级中21个学生的成绩样本进行非参数检验分析,得出总体成绩存在显著性差异,说明了SPSS统计软件应用于概率论与数理统计教学的可行性。
标签:SPSS软件;非参数检验;显著性差异;可行性非参数检验是数理统计学的一个分支,它与参数检验相对应。
参数检验是一种适应于在特定环境下的检验,对总体分布参数的均值或方差等进行推断的方法。
非参数检验是假定总体分布的具体形式未知,从样本的数据获得需要的信息,对总体分布的类型和位置进行检验。
1 非参数检验方法的特点和分类非参数检验适用性很广,不要求有精确的观测值,SPSS软件是一种易学易操作的软件,软件中包括8种非参数检验的分析方法,这8种方法被分为了两大类:分布类型检验方法和分布位置检验方法,在第二大类中包括以下4中检验:两个独立样本显著性差异、多个独立性样本显著性差异、两个相关样本差异的显著性检验和多个相关样本差异的显著性检验。
文章主要研究多个独立性样本的显著性差异。
2 应用实例随机抽取3个班级的学生,得到21个学生的成绩样本,成绩如表1所示,问总体成绩是否存在显著差异?(1)假设H0:總体成绩没有显著差异(2)操作步骤:a.在SPSS软件的数据编辑窗口中输入数据,两个变量(banji,chengji),21个样本,即输入2列21行;b.单击分析→非参数检验→K个独立样本命令,打开多个独立样本对话框;c.将变量chengji移入到检验变量列表,将banji移入分组变量列表,在分组变量定义框内定义分组变量的范围,最小值为1,最大值为3,选择检验类型中的前两个,第三种方法不适合本题目;如图1所示。
d.单击OK按钮,即在输出窗口显示Kruskal-Wallis检验和中值检验的计算结果。
3 结果分析在输出窗口中显示了Kruskal-Wallis检验和中值检验的计算结果,见表2、表3。
SPSS-⾮参数检验⾮参数检验(卡⽅(Chi-square)检验、⼆项分布(Binomial)检验、单样本K-S(Kolmogorov-Smirnov)检验、单样本变量值随机性检验(Runs Test)、两独⽴样本⾮参数检验、多独⽴样本⾮参数检验、两配对样本⾮参数检验、多配对样本⾮参数检验)参数检验:T检验、F检验等常⽤来估计或检验总体参数,统称为参数检验⾮参数检验:这种不是针对总体参数,⽽是针对总体的某些⼀般性假设(如总体分布)的统计分析⽅法称⾮参数检验1.总体分布的卡⽅(Chi-square)检验(Q统计量)定义:总体分布的卡⽅检验适⽤于配合度检验,是根据样本数据的实际频数推断总体分布与期望分布或理论分布是否有显著差异。
特点:⽐较适⽤于⼀个因素的多项分类数据分析。
总体分布的卡⽅检验的数据是实际收集到的样本数据,⽽⾮频数数据。
SPSS操作2.⼆项分布检验(Z统计量)⼆项分布:从这种⼆分类总体中抽取的所有可能结果,要么是对⽴分类中的这⼀类,要么是另⼀类,其频数分布称为⼆项分布⼆项分布检验:SPSS⼆项分布检验就是根据收集到的样本数据,推断总体分布是否服从某个指定的⼆项分布SPSS操作3.SPSS单样本变量值随机性检验(Z统计量)定义:单样本变量值的随机性检验是对某变量的取值出现是否随机进⾏检验,也称为游程检验(Run过程)SPSS操作4.SPSS单样本K-S检验(Z统计量)定义:单样本K-S检验是利⽤样本数据推断总体是否服从某⼀理论分布的⽅法,适⽤于探索连续型随机变量的分布形态SPSS操作5.两独⽴样本⾮参数检验定义:两独⽴样本的⾮参数检验是在对总体分布不很了解的情况下,通过分析样本数据,推断样本来⾃的两个独⽴总体分布是否存在显著差异。
⼀般⽤来对两个独⽴样本的均数、中位数、离散趋势、偏度等进⾏差异⽐较检验。
检验⽅法:①两独⽴样本的Mann-Whitney U检验(主要检验总体均值有没有显著差异)②两独⽴样本的K-S检验③两独⽴样本的游程检验④两独⽴样本的极端反应检验SPSS操作6.多独⽴样本⾮参数检验定义:多独⽴样本⾮参数检验分析样本数据是推断样本来⾃的多个独⽴总体分布是否存在显著差异SPSS多独⽴样本⾮参数检验⼀般推断多个独⽴总体的均值或中位数是否存在显著差异检验⽅法:①多独⽴样本的中位数检验②多独⽴样本的K-W检验③多独⽴样本的Jonkheere-Terpstra检验SPSS操作7.两配对样本⾮参数检验定义:两配对样本(2 Related Samples)⾮参数检验是在对总体分布不很清楚的情况下,对样本来⾃的两相关配对总体分别进⾏检验。
SPSS中非参数检验方法的使用SPSS中非参数检验方法的使用统计软件包SPSS给统计工作者提供了很大方便,SPSS for Windows版本推出后,使用者无需编写程序也可完成分析,使用更广泛了。
然而,面对软件包提供的众多统计过程(或方法),有些使用者感到迷惘。
针对这种情况,本文就如何正确使用SPSS for Windows软件包中Nonparametric Tests过程清单提供的8个非参数检验过程(或方法)逐一介绍。
一、Chi-SquareChi-Square是对单个样本作检验的推断方法,用于推断目前掌握的样本是否来自某特定分布总体,属拟合优度检验〔1〕。
要求提供假定总体的理论频数;默认总体为均匀分布时无需提供理论频数〔2〕。
Chi-Square过程通过分析实际频数与理论频数吻合的程序来完成检验,因此特别适合于频数资料的分析,也只接受和处理频数资料,如病人经治疗后治愈、好转、有效和无效的人数总的说来是否相同(实为治愈、好转、有效和无效的概率或机会是否相同),成绩优、良、中、差的学生人数总的说来是否相同,赞同某种观点的人数总的说来是否达到80%,等等。
要求样本足够大,按观察值从小到大的顺序提供理论频数。
理论频数通过主对话框中Expected Values的Values选项提供,All categories equal是默认项,即均匀分布。
若只想推断样本中某一范围内的频数是否来自某种特定分布总体,可通过主对话框中ExpectedRange的Use speciffied range选项提供范围的上、下限。
上述理论频数需根据假定总体分布计算或问题的实际背景确定。
二、BinomialBinomial过程对二值变量的单个样本作检验,推断总体中两类个体的比例是否分别为π和(1-π),π值通过T est Proportion选项提供,默认值是π=0.5〔2〕。
可借助于主对话框中Define Dichotomy的Cut point选项提供截断点,将连续变量转化成二值变量作分析;若提供的变量已经是二值变量,则不需提供截断点。
SPSS统计分析⾼级教程第3版张⽂彤课后答案SPSS统计分析⾼级教程张⽂彤董伟课后习题答案本书作者是国内*著旬的SPSS培训师,曾作为SPSS官⽅培训师,⼀⼿协助SPSS中国建⽴其统计培训体系,具有丰富的数据分析/统计软件培训经验;本书是作者多年使⽤SPSS进⾏教学、科研与项⽬实战⼯作的经验结晶;本书基于IBM SPSS Statistics 24中⽂版,从统计分析实战的⾓度详细介绍了SPSS的各种⾼级统计分析功能,和《SPSS统计分析基础教程》(第3扫⼀扫⽂末在⾥⾯回复答案+SPSS统计分析⾼级教程⽴即得到答案版)⼀起构成了对该软件的全⾯介绍。
本书既可作为⾼等学校统计学相关课程教材,也可作为培训类教材。
本书全⾯、系统地介绍了各种多变量统计模型、多元统计分析模型、智能统计分析⽅法的原理和软件实现,是⼀本使⽤SPSS进⾏⾼级统计分析的实⽤性很强的指导书和参考书。
本书共分4个部分,分别是⼀般线性模型、线性混合模型与⼴义线性模型,回归模型,多元统计分析⽅法,以及其他统计分析⽅法。
本书基于IBM SPSS Statistics 24中⽂版,并结合作者多年的统计分析实战经验和SPSS⾏业应⽤经验,侧重对统计新⽅法、新观点的讲解,在保证统计理论严谨权威的同时注重叙述的浅显易懂,使本书更加易学易⽤。
本书可作为⾼等学校本科⽣和研究⽣统计学相关课程教材,也可作为市场营销、⾦融、财务、⼈⼒资源管理等⾏业中需要做数据分析的⼈⼠,或从事咨询、研究、分析等⼯作的⼈⼠的参考书。
张⽂彤,是国内统计软件教学和统计学⽹络教学,特别是张⽂彤董伟SPSS统计分析⾼级教程课后习题答案SPSS软件教学的开拓者,2001年以来协助SPSS中国公司⼀⼿建⽴了其国内的培训体系,是国内最为知名的SPSS培训师之⼀。
张⽂彤博⼠在复旦⼤学任教期间,同时保持着与统计应⽤相关业界各前沿领域的密切接触,在数据挖掘应⽤、市场研究应⽤等领域经验丰富。
市场研究⽅⾯,曾为知名跨国公司完成了中国城市⼥性市场细分模型、销量预测模型、商圈选址模型等项⽬,数据挖掘⽅⾯则在基因数据分析、医疗费⽤数据分析、公共卫⽣应急预警系统等⽅⾯进⾏了深⼊研究,并协助完成多项IT、电信、税务、银⾏张⽂彤董伟SPSS统计分析⾼级教程课后习题答案等⾏业的数据挖掘项⽬。
非参数检验的SPSS操作前面一章介绍的二项分布的比率检验、配合度检验——卡方检验和1-Sample K-S检验等都属于非参数检验。
这一节我们主要结合前面参数假设检验一章讲过的t检验以及方差分析一章讲过的方差分析,来进一步分析,当参数检验的前提条件不满足时,两个样本和多个样本平均数差异的SPSS操作方法。
一、两个独立样本的差异显著性检验两独立样本的的差异显著性检验只有在满足如下条件时才能进行T检验:变量为正态分布的连续测量数据。
若数据不满足这样的条件,强行进行T检验容易造成错误的结论。
在数据不能满足这种参数检验的条件下,我们可以选择非参数检验方法进行。
与两独立样本差异显著性检验相对应的方法可以在SPSS主菜单Analyze / Nonparametric Tests / 2 Independent Samples…中得到。
1.数据采用本章第一节中例2的数据(数据文件“9-4-1.sav”),具体介绍操作过程。
2.理论分析对于数据文件9-4-1.sav中的数据,目的是检验男女生之间注意稳定性是否存在显著差异,注意稳定性测量的结果虽然是测量数据但是从总体上来看不满足正态分布的前提假设,另外不同性别的学生可以看成是两组独立的样本,因此对上述资料的检验可以用非参数的独立样本的检验方法。
2.操作过程(1)在SPSS主菜单中选择Analyze / Nonparametric Tests / 2 Independent Samples…得到两个独立样本非参数检验的主对话框(图9-1),把因变量atten选入到检验变量表列(Test Independent-SampleTests)中去,把gender选到分组变量(Grouping Variable)中,并单击Define Groups…,在随后打开的对话框中分别键入1与2,单击Continue回到主对话框如图9-1所示。
在Test Type中有四个可选项,其中最常用的是第一种方法Mann-Whitney U(又称秩和检验法)。
第十二章 非参数检验――Nonparametric Tests菜单详解(医学统计之星:张文彤)§12.1 概论作为二十一世纪统计理论的三大发展方向之一,非参数统计是统计分析的重要组成部分。
可是与之很不相称的是他针对一般性统计分析的理论发展远远不及参数检验完善,因而比较完善的可供使用的方法也不多。
比如多组均数间的两两比较,虽然已有好几种方法可资利用,但由于在理论上仍存在争议,几种权威的统计软件(如SAS和SPSS)均没有提供这方面的方法。
虽然这些洋统计软件没有提供两两比较的非参数方法,但国产的统计软件大都是提供了的(国情不同嘛),因此建议大家:如果真的要做这方面的非参数分析,不如直接用PEMS、SPLMWIN、NOSA等国产软件,免得用SPSS等只能做一半。
在SPSS中,几乎所有的非参数分析方法都被放入了Nonparametric Tests菜单中,具体来讲有以下几种:∙Chi-square test:用卡方检验来检验变量的几个取值所占百分比是否和我们期望的比例没有统计学差异。
比如我们在人群中抽取了一个样本,可以用该方法来分析四种血型所占的比例是否相同(都是25%),或者是否符合我们所给出的一个比例(如分别为10%、30%、40%和20%,我随便写的)。
请注意该检验和我们一般所用的卡方不太一样,我们一般左的卡方要用crosstable菜单来完成,而不是这里。
∙Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一刀两断。
∙Runs Test:用于检验某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定。
一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。
∙One-Sample Kolmogorov-Smirnov Test:采用柯尔莫诺夫-斯米尔诺夫检验来分析变量是否符合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。
第十二章非参数检验――
Nonparametric Tests菜单详解
(医学统计之星:张文彤)
最后一次更新时间:
12.1 概论
12.2 One-Sample Kolmogorov-Smirnov Test
12.3 Two-Independent-Samples Tests
§12.1概论
作为二十一世纪统计理论的三大发展方向之一,非参数统计是统计分析的重要组成部分。
可是与之很不相称的是他针对一般性统计分析的理论发展远远不及参数检验完善,因而比较完善的可供使用的方法也不多。
比如多组均数间的两两比较,虽然已有好几种方法可资利用,但由于在理论上仍存在争议,几种权威的统计软件(如SAS和SPSS)均没有提供这方面的方法。
虽然这些洋统计软件没有提供两两比较的非参数方法,但国产的统计软件大
都是提供了的(国情不同嘛),因此建议大家:如果真的要做这方面的非参数分析,不如直接用PEMS、SPLMWIN、NOSA等国产软件,免得用SPSS等只能做一半。
在SPSS中,几乎所有的非参数分析方法都被放入了Nonparametric Tests 菜单中,具体来讲有以下几种:
Chi-square test:用卡方检验来检验变量的几个取值所占百分比是否和
我们期望的比例没有统计学差异。
比如我们在人群中抽取了一个样本,可以用该方法来分析四种血型所占的比例是否相同(都是25%),或者是
否符合我们所给出的一个比例(如分别为10%、30%、40%和20%,我随便写的)。
请注意该检验和我们一般所用的卡方不太一样,我们一般左的卡方要用crosstable菜单来完成,而不是这里。
∙Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一刀两断。
∙Runs Test:用于检验某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定。
一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。
∙One-Sample Kolmogorov-Smirnov Test:采用柯尔莫诺夫-斯米尔诺夫检验来分析变量是否符合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。
∙Two-Independent-Samples Tests:即成组设计的两样本均数比较的非参数检验。
∙Tests for Several Independent Samples:成组设计的多个样本均数比较的非参数检验,此处不提供两两比较方法。
∙Two-Related-Samples Tests:配对设计两样本均数的非参数检验。
∙Tests for Several Related Samples:配伍设计多个样本均数的非参数检验,此处同样不提供两两比较。
难道两分类的变量还可能不服从二项分布?是的,比如极端的均一分布(取值都是0或1),负二项分布等。
最常见的如传染病的发病,是否发病是绝对不服从二项分布的(因两个观察结果间会有关联)。
由于上述各种统计方法都比较简单,且对话框和结果都比较相似,可以举一反三,我就不准备一一介绍了,只介绍其中有代表性的两个
--Kolmogorov-Smirnov Test和Two-Independent-Samples Tests。
其实我是想写详细点的,真正阻止我这样作的原因是我实在太忙了,真的真的太忙了。
§12.2One-Sample Kolmogorov-Smirnov Test
例12.1 请判断SPSS自带数据集anxity.sav中score的分布是否服从正态分布。
闲言少叙,操作如下:
1.Analyze==>Nonparametic test==>1-sample K-S
2.Test variable list框:选入score
3.Test distribution复选框组:选中normal复选框
4.单击OK钮
系统给出的统计分析结果非常简单,具体如下:
NPar Tests
上表给出了所检验变量的常用正态描述指标(即均数、标准差),检验的中间结果和最终结果。
从上可见P值为0.652,即score是服从正态分布的。
上表翻译如下:
§12.3Two-Independent-Samples Tests 例12.2 请用非参数方法检验anxity.sav中第一次和第二次的评分结果是否有差异。
选择Analyze==>Nonparametic test==>Two-Independent-Samples,弹出的对话框和大家最初就接触的t检验对话框非常相似,只是在下面一共给出了四种检验方法,其中第一种Mann-Whitney U检验实际上就是大家都学过的两样本均数比较的秩和检验,只是换了个名称而已。
这里我们就用它。
本例的具体操作如下:
1.Analyze==>Nonparametic test==>Two-Independent-Samples
2.Test variable list框:选入score
3.grouping variables框:选入trial
4.单击Define groups钮
5.在group1框和group2框中分别输入1和2
6.单击continue钮
7.Test type 复选框组:选中Mann-Whitney U复选框
8.单击OK钮
前几天有位网友给我来信,问我在这个例子中只比较第一次和第二次的评分结果有无差异,是不是意味着在做四组间的两两比较?即"成组设计多独立样本非参数检验"可用"两独立样本Mann-Whitney U检验"来作两两比较?我一看这封信就吓了一跳!不好意思,引起了如此大的误会!!在这里我严正声明:我在这里只是为了省事,胡乱拉了一个例子而已。
在我看来,"成组设计多独立样本非参数检验"用"两独立样本Mann-Whitney U检验"来作两两比较完全等价于用t 检验代替方差分析中的的两两比较,如果一定要做,就必须要对Alpha水准进行
调整(具体方法在倪宗瓒老师主编的《医学统计学》第二版里有),否则自然会出问题。
程序给出的分析结果如下:
NPar Tests
Mann-Whitney Test
上表为两组秩次情况的报告,可见第一次检查的智次和为212.5,平均秩次为17.71。
第二次检查的则分别为87.5和7.29,显然,差距较大。
上表为统计分析的结果,分别给出了Mann-Whitney U检验值、Wilcoxon W 检验值和Z值,以及近似P值和确切概率值。
可见P值远小于0.05,因此刚才两组的平均秩次之差是有统计学意义的。