非参数检验
- 格式:docx
- 大小:86.00 KB
- 文档页数:2
统计推断是从总体中抽取部分样本,通过对抽取部分所得到的带有随机性的数据进行合理的分析,进而对总体作出科学的判断,它是伴随着一定概率的推测,特点是:由样本推断总体,统计推断是数理统计的核心部分,统计推断的基本问题可以分为两大类:一类是参数估计问题;另一类是假设检验问题。
其中假设检验方法可以分为参数检验和非参数检验两大部分。
1.参数检验:
是在给定或假定总体分布形式的基础上,对总体的未知参数进行估计或检验。
它一方面以明确的总体分布为前提,另一方面需要满足某些总体参数的假定条件
2.非参数检验:
对总体分布不做严格假定,统计过程不涉及总体参数,完全依靠样本数据的顺序、秩等信息进行分析,通常在不符合参数检验的条件下使用。
参数检验的优点是针对性较强,每种方法都有其特定的使用环境,并且利用数据信息充分,一旦符合使用条件,得出的结论会非常准确。
缺点是,对总体的分布要求较高,实际工作中有时无法满足使用条件。
非参数检验的优点是对总体分布没有严格要求,对样本数据类型也没有过多要求,非正态、方差不齐等都能做,适应性较强,计算方法也比较简单。
缺点是对数据信息利用不充分,会降低功效。
由于检验的功效是我们选择分析方法的首要因素,因此在实际工作中,我们还是优先使用参数检验,只有在数据特征不符合参数检验要求时,才考虑使用非参数检验。
非参数统计分析是指不需要任何假设的情况下,对数据进行分析和处理的方法。
相对于参数统计分析,更加灵活和适用于更广泛的数据集。
在中,我们通常使用基于排列和重抽样方法的统计分析,这些方法在处理离散和连续的数据集时都十分有效。
如何进行1. 非参数检验非参数检验方法不要求数据满足特定的分布,通常分为两类:①秩和检验秩和检验是比较两组数据的中位数是否相等。
对于小样本来说,一般采用Wilcoxon签名检验。
而对于大样本,通常会使用Mann Whitney U检验。
②秩相关检验秩相关检验是比较两个或多个变量的相关性关系。
这种类型的检验最常用的是Spearman秩相关系数和Kendall Tau秩相关测试。
2. 非参数估计器由于非参数统计方法不依赖于任何先验假设,因此非参数估计器在数据少或均值和方差无法准确估计的情况下较为常用。
在非参数估计器中,常用的方法有:①核密度估计核密度估计通常是数据分析和可视化的首选。
它能够获得不同分布的概率密度函数的非参数估计器。
②基于距离的方法基于距离的方法通常使用K近邻算法或半径最邻近算法来估计密度。
这种方法特别适合于计算高维数据的密度估计。
3. 非参数回归非参数回归是一种灵活的模型,他用于数据挖掘过程中的最复杂部分。
与标准回归技术不同,非参数回归方法不需要数据满足任何特定分布。
在非参数回归中,主要的方法有:①核回归在核密度估计和非参数回归中使用的是相同的核函数。
相对于线性回归方法,核回归更加灵活,适用于非线性分布的数据。
②局部回归局部回归的本质是计算小范围或子集内的平均值,并在这些平均值上拟合局部模型。
这种方法特别适用于非线性回归和数据样本集的大小不规则的情况。
非参数统计优势非参数统计方法的最大优势在于能够在没有特定假设下应用于任何样本集,这使得无需预先了解数据的分布和性质。
此外,非参数统计方法还有其他的优势,如:1. 不受异常数据的影响:统计方法通常受异常数据的影响较大,但非参数统计方法不会使结果发生显著的变化。
常见的几种非参数检验方法非参数检验是一种不需要对数据进行假设检验的统计方法,它不需要满足正态分布等前提条件,因此被广泛应用于实际数据分析中。
在本文中,我们将介绍常见的几种非参数检验方法。
一、Wilcoxon符号秩检验Wilcoxon符号秩检验是一种用于比较两个相关样本之间差异的非参数检验方法。
它基于样本差异的符号和秩来计算统计量,并通过查表或使用软件进行显著性判断。
二、Mann-Whitney U检验Mann-Whitney U检验是一种用于比较两个独立样本之间差异的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
三、Kruskal-Wallis H检验Kruskal-Wallis H检验是一种用于比较多个独立样本之间差异的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
四、Friedman秩和检验Friedman秩和检验是一种用于比较多个相关样本之间差异的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
五、符号检验符号检验是一种用于比较两个相关样本之间差异的非参数检验方法。
它基于样本差异的符号来计算统计量,并通过查表或使用软件进行显著性判断。
六、秩相关检验秩相关检验是一种用于比较两个相关样本之间关系的非参数检验方法。
它基于样本排名来计算统计量,并通过查表或使用软件进行显著性判断。
七、分布拟合检验分布拟合检验是一种用于检验数据是否符合某个特定分布的非参数检验方法。
它基于样本数据与理论分布之间的差异来计算统计量,并通过查表或使用软件进行显著性判断。
八、重复测量ANOVA重复测量ANOVA是一种用于比较多个相关样本之间差异的非参数检验方法。
它基于样本方差和均值来计算统计量,并通过查表或使用软件进行显著性判断。
九、Bootstrap法Bootstrap法是一种用于估计总体参数和构建置信区间的非参数方法。
它基于自助重采样技术来生成大量虚拟样本,以此估计总体参数和构建置信区间。
一、秩和检验
(一)两组样本量都小于十的时候
1、将两组数据混合,按大小排序(最小的为1等级)
2、将两组中样本少的一组,各样本等级相加,用T 表示
3、把T 值与秩和检验表中的临界值比较,若T 小于1T ,或者T 大于等于2T 则表明两样本有统计学差异,否则,就没有统计学差异。
【例】在一项关于模拟训练的实验中,以技工学校的学生为对象,对5名学生用针对某一工种的模拟器进行训练,另外让6名学生下车间直接在实习中训练,经过同样时间后对两组人进行该工种的技术操作考核,结果如下:
模拟器组:56,62,42,72,76
实习组: 68,50,84,78,46,92
假设两组学生初始水平相同,问两种训练方式效果是否不同?
解:(1)排等级
(2)算秩和(等级和)
T=1+4+5+7+8=25
(3)查秩和检验表
125,6n n ==时,1T =19,2T =41(表中值为单侧检验,故这里查0.025时的临界值)
19<25<41即1T <T <2T
所以不能认为这两种训练方法不同。
(二)两组样本容量都大于十的时候
一般认为,秩和T 的分布接近正态分布,其平均数及标准差如下:
112(1)2T T n n n μσ++=
= 其中
1n 为较小的样本容量,即12n n ≤,这样,就可以按下面公式进行差异检验了
T
T T Z μσ-=
Z 值落在一1.96~1.96区间内则表明差异无统计学意义(双侧,a=0.05),落在该区间之外则表明差异有统计学意义。
若0.05水平单侧检验则Z 值在一1.65~1.65区间内差异无统计学意义,在区间之外表明差异有统计学意义。
【例】对某班学生进行注意稳定性实验,男生与女生的实验结果如下,问男女生之间注意稳定性是否不同?
男生:(
1n =14)19,32,21,34,19,25,25,31,31,27,22,26, 26,29
女生:(2n =17)25,30,28,34,23,25,27,35,30,29,29,33,
35,37,24,34,32
解:先将两组实验数据混合,从小到大排序然后标出男生、女生每个人相应的等级。
结果 男生的等级依次为:1.5,23.5,3,27,1.5,8.5,8.5,21.5,21.5,13.5,4,11.5,11.5,17。
女生的等级依次为:8.5,19.5,15,27,5,8.5,13.5,29.5,19.5,17,17,25,29.5,31,6,27,23.5
由于12n n <,根据定义,男生的等级总和
T=1.5+23.5+3+27+1.5+8.5+8.5+21.5+21.5+13.5+4+11.5+11.5+17=174
112(1)=2242
T T n n n μσ++=
= = 1.98
T
T T Z μσ-=-
答:可以认为男女生注意稳定性之间的差异有统计学意义。