spss非参数教程
- 格式:pdf
- 大小:1.20 MB
- 文档页数:16
一、概述
Mann-Whitney U 检验是用得最广泛的两独立样本秩和检验方法。
简单的说,该检验是与独立样本t检验相对应的方法,当正态分布、方差齐性等不能达到t 检验的要求时,可以使用该检验。
其假设基础是:若两个样本有差异,则他们的中心位置将不同。
二、问题
为了研究某项犯罪的季节性差异,警察记录了10年来春季和夏季的犯罪数量,请问该项犯罪在春季和夏季有无差异。
下面使用Mann-Whitney U检验进行分析。
SPSS版本为20。
三、统计操作
SPSS变量视图:
SPSS数据视图:
进入菜单如下图:
点击进入如下的界面,“目标”选项卡不需要手动设置
进入“字段”选项卡,将“报警数量”选入“检验字段”框,将“季节”选入“组”框中。
再进入“设置”选项卡,选中“自定义检验”单选按钮,选择“Mann-Whitney U(二样本)”检验。
点击“运行”即可。
四、结果解读
这是输出的主要结果,零假设是“报警数量的分布在季节类别上相同”,其P=0.009<0.05,故拒绝原假设,认为报警数量在季节上有统计学差异。
双击该表格,可以得到更多的信息,不再叙述。
SPSS操作:多个相关样本的⾮参数检验(CochransQ检验)点击Settings→Customize tests,勾选Cochran's Q (k samples)。
点击Define Success,在Cochran's Q: Define Success对话框中,点击Combine values into success category,在Success框中填⼊1(这⾥是“成功”对应的编码,本例中即为通过体能测试,“Passed”对应的是1,所以这⾥填“1”)。
点击OK→Run,输出结果。
3.4 不符合假设4的“精确”Cochran's Q检验当不符合假设4时,需要使⽤“精确”Cochran's Q检验。
在主界⾯点击Analyze→Nonparametric Tests→Legacy Dialogs→K Related Samples,出现Tests for Several Related Samples对话框。
将变量initial_fitness_test、month3_fitness_test和final_fitness_test选⼊Test Variables框中。
在Test Type 下⽅去掉Friedman,然后勾选Cochran's Q。
(如果数据符合假设4,则此时点击OK,结果与3.3部分的操作结果⼀致)点击Exact,在Exact Tests对话框中,点击Exact,点击Continue→OK。
3.5 “精确”Cochran's Q检验后的两两⽐较对于符合假设4的Cochran's Q检验(3.3部分),事后的两两⽐较将在结果解释部分展⽰(4.2部分)。
对于不符合假设4的“精确”Cochran's Q检验(3.4部分)事后的两两⽐较,可采⽤经Bonferroni法校正的多重McNemar检验。
在主界⾯点击Analyze→Nonparametric Tests→Legacy Dialogs→2 Related Samples。
利用SPSS进行非参数检验(卡方检验)
一、启动SPSS
二、建立数据文件
1、定义两个数值型变量:组限L和频数f(先确定变量名称,
变量类型的默认值为数值型)。
2、输入组限L和频数f的实际数据。
3、用Data菜单中的Weight cases将f变成Frequency(频率)。
三、单击Analyze s菜单,选择Nonparametric Test中的
Chi-Square选项,打开相应的对话框。
选择要进行检验的变量L。
四、根据需要选择相应的选择项:
1、在Expected Range中选择Get from data或Use specified
range,后者需指定Lower(下限)和Upper(上限)。
2、在Expected Values指定期望值:如检验总体是否服从均匀分
布,只需选定All categories equal项;如检验总体是否服从某
个给定的分布,需选定Values,并键入相应各组所对应的由
给定分布计算而得的期望值。
五、选定所需的各项后,单击Ok即可得所需结果。
spss-非参数检验-K多个独立样本检验( Kruskal-Wallis检验)案例解析最近经常失眠,好痛苦啊!大家有什么好的解决失眠的方法吗?希望知道的能够告诉我,谢谢啦,今天和大家一起探讨和分下一下SPSS-非参数检验--K个独立样本检验( Kruskal-Wallis检验)。
还是以SPSS教程为例:假设:HO: 不同地区的儿童,身高分布是相同的H1:不同地区的儿童,身高分布是不同的不同地区儿童身高样本数据如下所示:提示:此样本数为4个(北京,上海,成都,广州)每个样本的样本量(观察数)都为5个即:K=4>3 n=5, 此时如果样本逐渐增大,呈现出自由度为K-1的平方的分布,(即指:卡方检验)点击“分析”——非参数检验——旧对话框——K个独立样本检验,进入如下界面:将“周岁儿童身高”变量拖入右侧“检验变量列表”内,将“城市(CS)变量” 拖入“分组变量”内,点击“定义范围” 输入“最小值”和“最大值”(这里的变量类型必须为“数字型”)如果不是数字型,必须要先定义或者重新编码。
在“检验类型”下面选择“秩和检验”( Kruskal-Wallis检验)点击确定运行结果如下所示:对结果进行分析如下:1:从“检验统计量a,b”表中可以看出:秩和统计量为:13.900自由度为:3=k-1=4-1下面来看看“秩和统计量”的计算过程,如下所示:假设“秩和统计量”为 kw 那么:其中:n+1/2 为全体样本的“秩平均” Ri./ni 为第i个样本的秩平均 Ri.代表第i个样本的秩和, ni代表第i个样本的观察数)最后得到的公式为:北京地区的“秩和”为:秩平均*观察数(N) = 14.4*5=72上海地区的“秩和”为:8.2*5=41成都地区的“秩和”为:15.8*5=79广州地区的“秩和”为:3.6*5=18接近13.90 (由于中间的计算,我采用四舍五入,丢弃了部分数值,所以,会有部分误差)2:“检验统计量a,b”表中可以看出:“渐进显著性为0.003,由于0.003<0.01 所以得出结论:H1:不同地区的儿童,身高分布是不同的秩和检验前面介绍的均数的区间估计及假设检验,都是要求个体变量值服从正态分布,或根据中心极限定理,当样本较大时,样本均数服从正态分布。
SPSS-⾮参数检验⾮参数检验(卡⽅(Chi-square)检验、⼆项分布(Binomial)检验、单样本K-S(Kolmogorov-Smirnov)检验、单样本变量值随机性检验(Runs Test)、两独⽴样本⾮参数检验、多独⽴样本⾮参数检验、两配对样本⾮参数检验、多配对样本⾮参数检验)参数检验:T检验、F检验等常⽤来估计或检验总体参数,统称为参数检验⾮参数检验:这种不是针对总体参数,⽽是针对总体的某些⼀般性假设(如总体分布)的统计分析⽅法称⾮参数检验1.总体分布的卡⽅(Chi-square)检验(Q统计量)定义:总体分布的卡⽅检验适⽤于配合度检验,是根据样本数据的实际频数推断总体分布与期望分布或理论分布是否有显著差异。
特点:⽐较适⽤于⼀个因素的多项分类数据分析。
总体分布的卡⽅检验的数据是实际收集到的样本数据,⽽⾮频数数据。
SPSS操作2.⼆项分布检验(Z统计量)⼆项分布:从这种⼆分类总体中抽取的所有可能结果,要么是对⽴分类中的这⼀类,要么是另⼀类,其频数分布称为⼆项分布⼆项分布检验:SPSS⼆项分布检验就是根据收集到的样本数据,推断总体分布是否服从某个指定的⼆项分布SPSS操作3.SPSS单样本变量值随机性检验(Z统计量)定义:单样本变量值的随机性检验是对某变量的取值出现是否随机进⾏检验,也称为游程检验(Run过程)SPSS操作4.SPSS单样本K-S检验(Z统计量)定义:单样本K-S检验是利⽤样本数据推断总体是否服从某⼀理论分布的⽅法,适⽤于探索连续型随机变量的分布形态SPSS操作5.两独⽴样本⾮参数检验定义:两独⽴样本的⾮参数检验是在对总体分布不很了解的情况下,通过分析样本数据,推断样本来⾃的两个独⽴总体分布是否存在显著差异。
⼀般⽤来对两个独⽴样本的均数、中位数、离散趋势、偏度等进⾏差异⽐较检验。
检验⽅法:①两独⽴样本的Mann-Whitney U检验(主要检验总体均值有没有显著差异)②两独⽴样本的K-S检验③两独⽴样本的游程检验④两独⽴样本的极端反应检验SPSS操作6.多独⽴样本⾮参数检验定义:多独⽴样本⾮参数检验分析样本数据是推断样本来⾃的多个独⽴总体分布是否存在显著差异SPSS多独⽴样本⾮参数检验⼀般推断多个独⽴总体的均值或中位数是否存在显著差异检验⽅法:①多独⽴样本的中位数检验②多独⽴样本的K-W检验③多独⽴样本的Jonkheere-Terpstra检验SPSS操作7.两配对样本⾮参数检验定义:两配对样本(2 Related Samples)⾮参数检验是在对总体分布不很清楚的情况下,对样本来⾃的两相关配对总体分别进⾏检验。
一、实验名称:实验三二、实验要求:1、所有的文件上传到网络硬盘中。
2、数据文件保存,用文件名“学号+姓名+人员登记”。
3、撰写实验报告。
每个操作要写出实验步骤,及操作结果。
4、要求电子版实验报告,用文件名“学号+姓名+实验一”保存,学期结束上交。
5、练习上课讲过(第6-9章)的例子。
(无需写实验报告)。
三、实验步骤及结果:“CH6CH9CH10证券投资额与依据”的数据是对杭州市股民的调查数据,试进行以下分析。
(需写实验报告)(1)北京市股民的“证券外年收入”为4.8万元,杭州股民的“证券外年收入”和北京股民的相同吗?分析:此题为“单样本T检验”,检查相应总体均值是否为某个值。
1.1实验步骤:1)启动SPSS,调入样本值,2)点击Analyze->Compare Means->One-Sample T Test,弹出小窗口,将“券外收入”添加到Test Variable(s)中,3)在Test Value中输入4.8,如图1.114)点击OK.图1.11 单样本T检验窗口1.2实验结果:如图:1.12,T检验的最后结果p=0.164>0.05,可知杭州股民的“证券外年收入”和北京股民的没有显著差异。
图1.12 有关单样本T检验(2)杭州股民投入股市的资金超过他们的年收入吗?分析:此题为“配对样本的T检验”,即两组样本不可以颠倒顺序,不然将出现错误。
2.1实验步骤:1)点击Analyze->Compare Means->Paired-Samples T Test,2)从左框变量中选出“券外收入”和“投资总额”,用箭头放入右边的Test variables 框中,此时右框中的2个变量已差的形式出现,如图2.11。
3)点击OK。
图2.11 配对T检验窗口2.2实验结果:图2.12中的paired samples test表格中可知T检验的最后结果p=0.00<0.05,两者有显著性差异,从第一张表格中可以得知“投入总资金”>“卷外收入”。
SPSS操作:多个独立样本的非参数检验及两两比较一、问题与数据某研究者想探讨不同体力活动的人,应对职场压力的能力是否不同。
因此,研究招募了31名研究对象,测量了他们每周进行体力活动的时间(分钟),以及应对职场压力的能力。
根据体力活动的时间长短,研究对象被分为4组:久坐组、低、中、高体力活动组(变量名为group)。
利用Likert量表调查的总得分(CWWS得分)来评估应对职场压力的能力,分数越高,表明应对职场压力的能力越强(变量名为coping_stress)。
部分数据如下图。
二、对问题的分析研究者想知道不同体力活动组之间CWWS得分是否不同,可以使用Kruskal-Wallis H检验。
Kruskal-Wallis H检验(有时也叫做对秩次的单因素方差分析)是基于秩次的非参数检验方法,用于检验多组间(也可以是两组)连续或有序变量是否存在差异。
使用Kruskal-Wallis H test进行分析时,需要考虑以下3个假设。
假设1:有一个因变量,且因变量为连续变量或等级变量。
假设2:存在多个分组(≥2个)。
假设3:具有相互独立的观测值,如本研究中各位研究对象的信息都是独立的,不存在相互干扰作用。
三、SPSS操作1. Kruskal-Wallis H检验在主界面点击Analyze→Nonparametric Tests→Independent Samples,出现Nonparametric Tests: Two or More Independent Samples对话框,默认选择Automatically compare distributions across groups。
点击Fields,在Fields下方选择Use custom field assignments,将变量coping_stress放入Test Fields框中,将变量group放入Groups框中。
点击Settings→Customize tests,在Compare Median Difference to Hypothesized区域选择Kruskal-Wallis 1-way ANOVA (k samples),如下图。
非参数检验SPSS单样本非参数检验是对单个总体的分布形态等进行推断的方法,其中包括卡方检验、二项分布检验、K-S检验以及变量值随机性检验等方法。
参数检验与非参数检验的区别:参数检验是在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的方法.但是,在数据分析过程中,由于种种原因,人们往往无法对总体分布形态作简单假定,此时参数检验的方法就不再适用了。
非参数检验正是一类基于这种考虑,在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。
由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数检验”。
一、几种常见的非参数检验1、总体分布的卡方检验卡方检验方法可以根据样本数据,推断总体分布与期望分布或某一理论分布是否存在显著差异,是一种吻合性检验,通常适于对有多项分类值的总体分布的分析。
它的原假设是:样本来自的总体分布与期望分布或某一理论分布无差异。
例如,医学家在研究心脏病人猝死人数与日期的关系时发现:一周之中,星期一心脏病人猝死者较多,其他日子则基本相当.当天的比例近似为2。
8:1:1:1:1:1:1。
现收集到心脏病人死亡日期的样本数据,推断其总体分布是否与上述理论分布相吻合。
2、二项分布检验SPSS的二项分布检验正是要通过样本数据检验样本来自的总体是否服从指定的概率为P的二项分布,其原假设是:样本来自的总体与指定的二项分布无显著差异。
在生活中有很多数据的取值是二值的,例如,人群可以分成男性和女性,产品可以分成合格和不合格,学生可以分成三好学生和非三好学生,投掷硬币实验的结果可以分成出现正面和出现反面等.通常将这样的二值分别用1或0表示。
如果进行n次相同的实验,则出现两类(1或0)的次数可以用离散型随机变量X 来描述。
如果随机变量X为1的概率设为P,则随机变量X值为0的概率Q便等于1-P,形成二项分布。
从某产品中随机抽取23个样品进行检测并得到检测结果.用1表示一级品,用0表示非一级品。
实际上,方法近年来发展极
第十三章 非参数统计分析方法―― Nonparametric Tests菜单详解
非参数检验最大的缺点就是检验效能较低,实际上根据国外的一项研究, 有些方法的检验效能大约在参数检验方法的95%左右,并非低得不能接受。 ――张文彤
平时我们使用的统计推断方法大多为参数统计方法,他们都是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。比如单样本u检验就是假定该样本所在总体服从正态分布,然后推断总体的均数是否和已知的总体均数相同。本章要讨论的是另一大类统计分析方法,它的着眼点不是总体参数,而是总体的分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在总体的分布位置/形状是否相同。由于这一类方法并不涉及总体参数,因而被称为非参数方法。
非参数方法这个名称的含义指的是他的推断过程和结论均与原总体参数无关,并非说他在推断中什么分布参数都不利用,实际上,最常用的秩和检验就是基于秩次的分布特征推导出来的,即可能会利用到秩分布的参数。 SPSS的Nonparametric Tests菜单中一共提供了8种非参数分析方法,他们可以被分为两大类: 1.分布类型检验方法:亦称拟合优度检验方法,即检验样本所在总体是否服从已知的理论分布。具体包括检验二项/多项分类变量分布的Chi-Square过程;检验二项分类变量分布的Binomial过程;检验样本序列随机性的Runs过程;以及检验样本是否服从各种常用分布的1-Sample K-S过程。 2.分布位置检验方法:用于检验样本所在总体的分布位置/形状是否相同,我们平时说的最多的非参数检验方法实际上指的就是这一类方法。具体包括用于成组资料分布位置检验的2 Independent Samples与K Independent Samples过程;以及用于配伍资料分布位置检验的2 Related Samples与K Related Samples过程。
除以上两类现成的方法外,本章还将专门向大家介绍基于非参数检验原理的秩变换分析方法,它可以作为现有方法的补充和有效扩展,大家会发现这种方法将在实际工作中非常有用。
- 242 - Weight Cases by: Frequency Variable框:num 频数变量为num OK Analyze!Nonparametric Tests!Chi-Square Test Variable List框:type 要检验的变量为type Exact: Exact:Continue 要求计算确切概率 OK
§13.1 分布类型检验方法 这一大类方法的原理都是计算出实际分布和理论分布间的差异大小,然后根据某种统计量来求出P值。实际上,这些方法应用的非常广泛,比如说卡方检验就是属于这一类方法的,而它已被广泛应用于分类资料的统计推断中。
13.1.1 Chi-Square过程 许多朋友都以为这里进行的就是常用的行×列表卡方检验,这是一个不大不小的误解。行×列表卡方检验的确是属于卡方检验系列的一种,但它的分析目的是比较两个分类资料样本所在的总体分布是否相同,在SPSS中应当使用Crosstabs过程来拟合。此处的Chi-Square过程其分析目的是检验分类数据样本所在总体分布(各类别所占比例)是否与已知总体分布相同,是一个单样本检验。 具体在做法上,卡方检验是先按照已知总体的构成比分布计算出样本中各类别的期望频数,然后求出观测频数和期望频数的差值,最后计算出卡方统计量,利用卡方分布求出P值,以得出检验结论。大家只要翻翻统计书上四格表卡方检验的原理,就会明白了。 例13.1 某公司准备推出一个新品牌的矿泉水,现已万事俱备,就是在新产品的名称上几位董事意见尚未统一。董事会屡议不决之后,最终决定进行抽样调查。在受访的200人中,52人更喜欢名称A,61人更喜欢名称B,87人更喜欢名称C,请问ABC三种名称受欢迎的程度有无差异?
图14.1 数据示意 解:董事说话自然是要听的,无论他们出于什么原因选择某种名称,如果要说服他们,就必须拿出有力的证据来才行,统计结果就是最好的证据。如果以统计学的角度来看待该问题,实际上就是检验三种品牌的构成比是否均等于已知总体的33%。这可以用Chi-Square过程来完成。本例数据录入如右图所示,操作如下:
分析中用到的界面如下: 【主对话框】 1.Test Variable List框:指定需要进行检验的变量,可以同时指定多个,系统会分别进行分析。
- 243 - 图13.3 Exact子对话框 图13.4 Options子对话框
2.Expected Range单选框组:设定需要检验的变量的取值范围,在此范围之外的取值将不进入分析。默认为使用数据文件中的最大和最小值作为检验范围,可使用Use specified range框组自行指定。 3.Expected Values单选框组:指定已知总体的各分类构成比,默认为各类别构成比相等,可以使用下方的Values自行定义,注意定义时有几个类别,就应输入几个数值,并且数值的排列次序和数据文件中记录的排列次序应当相同,因为它们之间存在着一一对应的关系。
图13.2 主对话框 【Exact子对话框】 用于设定是否进行确切概率的计算,以及具体的计算方法。共有只计算近似概率、采用蒙特卡罗模拟方法计算确切概率、直接计算确切概率三种选择,具体情况我们已经在卡方检验一章中学习过了,这里不再重复。
【Options子对话框】 1.Statistics复选框组:一些可供输出的统计量。 " Descriptive:常用描述统计量,包括均数、最小值、最大值、标准差。 " Quartiles:输出四分位数。
- 244 - 第十三章 非参数统计分析方法――Nonparametric Tests菜单详解 2.Missing Values单选框组:选择对缺失值的处理方式,可以是具体分析用到的变量有缺失值才去除该记录(Excludes cases test-by-test),或只要相关变量有缺失值,则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。 分析结果如下: NPar Tests Chi-Square Test Frequencies
Test Statistics
9.9102.007.007.000Chi-SquareadfAsymp. Sig.Exact Sig.Point Probability
TYPE
0 cells (.0%) have expected frequencies less than5. The minimum expected cell frequency is 66.7.
a.
TYPE5266.7-14.76166.7-5.78766.720.32001.002.003.00Total
Observed NExpected NResidual
上面的两个表格即为分析结果:Type表显示的是三个类别的观察频数、期望频数和残差。Test Statistics表为最终的检验结果,给出了卡方值、近似的P值和确切P值。结果显示确切P值为0.007,因此结论为拒绝无效假设,认为三种名称受欢迎的程度不同。表中最后一行为点概率值,即在总体中抽得当前样本的概率,本例中没有实际意义。 上面的结论显示的是三者总体有差异,如果要进行两两比较,就需要调整α水准,此处不再详述,最终的分析结论应当为三者两两有差异。这个结果拿到董事会上去,大家应当不会有什么意见了吧。
13.1.2 Binomial过程 匆匆吃完晚饭,小王心神不宁的向晚自习的教室走去,那个女孩今天还会坐在我旁边吗? 不知从什么时候起,小王开始注意起教室中一个上自习的女孩,她长的文静可人,穿着素雅,浑身洋溢着特有的青春魅力,不可否认,小王在心底里已经喜欢上了她。但生性腼腆的他不敢向对方表白,只是每天默默的欣赏着那种醉人的美丽。 那个女孩一般都只坐最后一排左侧或右侧的两个角落中的位置,小王则习惯坐在倒数第二排的右侧,不知那女孩感觉到他了没有。上周忽然就消失了几天,等重新回来后一直都坐在小王的后面,已经连续六天了。小王真的希望这是一种暗示,可他又害怕是一种误解,害怕自己的行为导致连仅有的希望也不复存在。 其实小王并不知道,呆板乏味的统计方法在这里可以助他一臂之力:那个女孩以前总是随意坐两个位置中的一个,即概率各为0.5。现在连续6天都坐在同一个位置,相当于取得了一个样本量为6的样本,只要利用二项分布的原理计算一下,就可以知道现在她选
- 245 - 统计之星示例文档:第三部份 基础统计分析方法 择位置的概率是否发生了改变,从而可以做出是否出击的正确判断,以更大的概率得到秋天的菠菜,而不是否决的媚眼。
说句老实话,在这个问题上统计方法真正能起的作用其实不大,相反另一条准则更加有效:撑死胆大的,饿死胆小的。 好了,罗曼蒂克够了,现在我们来用一个不那么罗曼蒂克的例子来看看Binomial过程的操作过程是怎样的。
图14.5 数据格式 例13.2 根据以往经验,新生儿染色体异常率一般为1%,现某医院观察了当地共400名新生儿,只发现一例染色体异常,该地新生儿染色体异常率是否低于一般? 解:染色体是否异常可以被认为是服从二项分布,由于问题问的是“是否低于一般”,需要求得的是单侧概率,这正是Binomial过程的拿手好戏。本例数据录入极为简单,如右图所示,注意ill的取值顺序,Binomial过程计算的是第一项的概率,如果两条记录顺序颠倒,则相应设置的总体率也应改为0.99。本例操作如下: Data!Weight Cases Weight Cases by: Frequency Variable框:num 频数变量为num OK Analyze!Nonparametric Tests!Binomial Test Variable List框:ill 要检验的变量为ill Test Proportion框:0.01 已知总体概率为0.01 Exact: Exact:Continue 要求计算确切概率 OK 分析中用到的界面如下:
图13.6 主对话框 【主对话框】 1.Test Variable List框:指定需要进行检验的变量,可以同时指定多个,系统会分别进行分析。
- 246 -