非参数统计Wald-Wolfowitz游程检验
- 格式:docx
- 大小:116.15 KB
- 文档页数:6
非参数检验非参数统计分析方法(Non-parametric statistics )是相对参数统计分析方法而言的,又称为不拘分布(distribution-free statistics) 的统计分析方法或无分布形式假定(assumption free statistics )的统计分析方法。
其中包括Wilcoxon 秩和检验、Kruskal-Wallis 秩和检验、friedman 秩和检验等,它们分别对应不同设计类型的资料。
SAS中对于非参数分析方法功能的实现主要由npar1way 过程来完成,从过程名字就可以看出,在此过程的处理进程中,只能一次指定一个因素进行分析。
下面我们先来了解一下npar1way 过程的语句格式以及各语句和选项的基本功能。
一、npar1way 过程语句格式简介npar1way 过程属于SAS的STAT模块,对于统计学教科书上所涉及的非参数统计方法几乎都可以通过此过程来完成。
Npar1way 过程的基本语句格式如下。
PROC NPAR1WAY选<项> ;BY 变量名;CLASS变量名;EXACT统计量选项</ 运算选项> ;FREQ变量名;OUTPUT < OUT=数据集名> < 选项> ;VAR 变量名;RUN;QUIT;Proc npar1way 语句标志npar1way 过程的开始,默认情况下(不列举任何选项):npar1way 过程对最新创建的数据集进行分析,将缺失数据排除在分析过程之外;执行方差分析过程(等同于ANOV A 选项),对样本分布位置的差异进行检验(与选项WILCOXON, MEDIAN, SAV A GE 以及VW 等效),并进行经验分布函数检验(等同于EDF 选项)。
此语句后可用的选项见下表。
Proc npar1way 语句选项及其含义选项名称选项功能或含义AB 运用Ansari-Bradley 评分进行分析DATA=数据集名指定要进行分析的数据集MEDIAN 运用中位数评分进行分析,即进行中位数检验NOPRINT 禁止所有的输出,用在仅需要创建输出数据集时ST 运用Siegel-Tukey 评分进行分析ANOVA 对原始数据进行方差分析EDF 要求计算基于经验分布的统计量MISSING 指定分组变量的缺失值为一有效的分组水平SAVAGE 运用Savage 评分进行分析VW 运用Van der Waerden评分进行分析计算CORRECT=NO 在两样本时,禁止Wilcoxon 和Siegel-Tukey 检验的连续性校正过程KLOTZ 运用Klotz 评分进行分析MOOD 运用Mood评分进行分析SCORES=DATA 以原始数据为评分值进行分析WILCOXON 对两样本进行Wilcoxon 秩和检验,对多样本进行Kruskal-Wallis 检验1. exact 语句exact 语句要求SAS 对指定的统计量(选项)进行精确概率的计算。
Wald-Wolfowitz定理引言Wald-Wolfowitz定理是一个统计学中的重要定理,它是由阿伯拉罕·沃尔多夫(Abraham Wald)和约瑟夫·沃尔夫维茨(Jacob Wolfowitz)于20世纪40年代提出的。
该定理主要用于检验两个独立样本是否来自同一总体分布。
本文将介绍Wald-Wolfowitz定理的基本原理、应用场景以及计算步骤。
基本原理Wald-Wolfowitz定理的基本原理是基于两个样本的秩次统计量。
秩次统计量是将样本观测值按照大小排序后,记录其在排序后序列中的位置。
对于两个独立样本,我们可以计算它们的秩次统计量,并将两个样本的秩次统计量进行比较。
Wald-Wolfowitz检验的步骤Wald-Wolfowitz检验的步骤如下:1.将两个样本的观测值按照大小进行排序,得到排序后的序列。
2.计算两个样本的秩次统计量。
3.将两个样本的秩次统计量进行比较,得到一个统计量。
4.根据统计量的分布,计算出一个p值。
5.根据显著性水平,判断两个样本是否来自同一总体分布。
应用场景Wald-Wolfowitz定理可以应用于很多实际问题中,特别是在生物学、医学和工程领域。
下面是一些常见的应用场景:遗传学研究在遗传学研究中,我们经常需要比较两组遗传数据是否来自同一总体分布。
例如,我们可以使用Wald-Wolfowitz检验来比较两个群体的染色体的长度分布是否相同。
药物疗效评估在药物疗效评估中,我们常常需要比较两种不同药物的疗效是否相同。
通过对两组患者的治疗结果进行比较,我们可以使用Wald-Wolfowitz检验来判断两种药物是否来自同一总体分布。
工程质量控制在工程领域,我们经常需要比较两个生产批次的产品质量是否一致。
通过对两个批次的产品进行抽样检验,我们可以使用Wald-Wolfowitz检验来判断两个批次的产品质量是否来自同一总体分布。
优缺点Wald-Wolfowitz检验的优点是简单易行,不需要对总体分布进行任何假设。
非参数卡方检验1.理论非参数检验是在总体分布未知或知道甚少的情况下,不依赖于总体布形态,在总体分布情况不明时,用来检验不同样本是否来自同一总体的统计方法进。
由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验。
非参数检验优势:检验条件宽松,适应性强。
针对,非正态、方差不等的已及分布形态未知的数据均适用。
检验方法灵活,用途广泛。
运用符号检验、符号秩检验解决不能直接进行四则运算的定类和定序数据。
非参数检验的计算相对简单,易于理解。
但非参数检验方法对总体分布假定不多,缺乏针对性,且使用的是等级或符号秩,而不是实际数值,容易失去较多信息。
非参数卡方检验:用于检验样本数据的分布是否与某种特定分布情况相同。
非参数卡方检验通过三步检验:1.卡方统计量:X2=B 其中K 是样本分类的个数,0表示实际观测的频数,B 表示理论分布下的频数。
2.拟合优度检验:A.对总体分布建立假设。
B.抽样并编制频率分布表。
C.以原假设为真,导出期望频率。
D.计算统计量。
E.确定自由度,并查x2表,得到临界值。
F.比较x2值与临界值,做出判断。
3.独立性检验A.对总体分布建立假设。
B.抽样并编制r*c 列联表。
C.计算理论频数。
D.计算检验统计量。
E.确定自由度,并查x2表,得到临界值。
F.比较x2值与临界值,做出判断。
2.非参数卡方检验操作步骤第一步:将需检验的数据导入spss中并进行赋值后,点击分析非参数检验、旧对话框、卡方。
图2操作步骤第一步第二步:进入图中对话框后点击,首先将需检验的数据放入检验变量列表中,后在期望值选项中所以类别相等或者值(值:需要手动输入具体的分布情况)。
如果特殊情况需要调整检验置信区间,点击精确,进入图中下方对话框后点击蒙特卡洛法框里收到填入。
点击继续、确定。
图3操作步骤第二步第三步:如果需要看描述统计结果和四分位数值可以点击选项、勾选描述、四分位数。
点击继续、确实。
图4操作步骤第二步3.非参数卡方检验结果然后非参数卡方检验的描述统计、卡方检验频率表、检验统计结果就出来了。
第四节Kolmogorov-Sirmov单样本检验一、Kolmogorov-Sirmow单样本检验Kolmogorov-Sirmov单样本检验是一种拟合优度性检验。
它的基本原理同Chi-Square检验,但比Chi-Square检验更为精确。
K-S检验是将一组样本值(观察结果)的分布和某一指定的理论分布函数(如正态分布,均匀分布,泊松分布,指数分布)进行比较,确定两者之间的符合程度。
这种检验可以确定是否有理由认为样本的观察结果来自具有该理论分布的总体。
简言之,这种检验包括确定理论分布下的累积频数分布,以及把这种累积频数分布和观察的累积频数分布进行比较(这里的理论分布系指零假设成立时所预期的分布),确定理论分布和观察分布的最大差异点,参照抽样分布并定出这样大的差异是否基于偶然。
这就是说,若观察的结果的确是从理论分布抽取的随机样本,则抽样分布将指出这种观察到的差异程度是否随机出现的。
1二、Kolmogorov-Sirmov单样本检验方法1.K-S单样本检验步骤(1)在数据输入之后,依次单击Analyze→Nonparametric Tests→ 1-Sample K-S →打开One-Sample Kolmogorov-Sirmov Test对话框;(2)在原变量栏选择所要检验的分布到Test Variable List栏;(3)在Test Distribution栏选择理论分布函数复选项:●Normal复选项:如选择此项,则检验变量是否服从正态分布,系统默认;●Uniform复选项:如选择此项,则检验变量是否服从均匀分布;●Poisson复选项:如选择此项,则检验变量是否服从泊松分布;●Exponential复选项:如选择此项,则检验变量是否服从指数分布。
(4)单击“Option”按钮,打开Options对话框:●Statistics栏:在此栏可选择Descriptive复选项,则会输出观测的均值、最小值、最大值、标准差等描述统计;选择Quartiles复选项:则输出观测的四分之一分位数、二分之一分位数和四分之三分位数。
第十三章非参数统计分析统计推断方法大体上可分为两大类。
第一大类为参数统计方法。
常常在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。
第二大类为非参数统计方法,着眼点不是总体参数,而是总体的分布情况或者样本所在总体分布的位置/形状。
非参数统计方法大约有8种,可被划分为两大类,处理各种不同情形的数据。
单样本情形:检验样本所在总体的位置参数或者分布是否与已知理论值相同。
①Chi-Square过程:针对二分类或者多分类资料例题1:见书P243。
检验样本分布情况是否与已知理论分布相同。
运用卡方检验过程。
②Binomial过程:针对二分类资料或者可转变为二分类问题的资料。
例题2 :见书P246。
检验某一比例是否与已知比例相等,运用二项分布过程。
练习:质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。
对于25包写明为净重100g的西洋参片的称重结果为(单位:克),数据见非参数。
Sav,人们怀疑厂家包装的西洋参片份量不足,要求进行检验。
③Runs过程:用于检验样本序列是否是随机出现的。
二分类资料和连续性资料均可。
游程检验:游程的含义:假定下面是由0和1组成的一个这种变量的样本:0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0其中相同的0(或相同的1)在一起称为一个游程(单独的0或1也算)。
这个数据中有4个0组成的游程和3个1组成的游程。
一共是R=7个游程。
其中0的个数为m=15,而1的个数为n=10。
游程检验的原理判断数据序列是否是真随机序列。
该检验的原假设为数据是真随机序列,备择假设为非随机序列,在原假设成立的情况下,游程的总数不应太多也不应太少。
例题3:见书P247。
检验样本数据是否是随机出现的。
例题4:从某装瓶机出来的30盒化妆品的重量(单位克),数据见非参数.sav,为了看该装瓶机是否工作正常。
提示:实际需要验证大于和小于中位数的个数是否是随机的(零假设为这种个数的出现是随机的)。
非参数统计分析――Nonparametric Tests菜单详解非参数统计分析――Nonparametric Tests菜单详解平时我们使用的统计推断方法大多为参数统计方法,它们都是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。
比如单样本u检验就是假定该样本所在总体服从正态分布,然后推断总体的均数是否和已知的总体均数相同。
本节要讨论的统计方法着眼点不是总体参数,而是总体分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在的分布位置/形状是否相同。
由于这一类方法不涉及总体参数,因而称为非参数统计方法。
SPSS的的Nonparametric Tests菜单中一共提供了8种非参数分析方法,它们可以被分为两大类:1、分布类型检验方法:亦称拟合优度检验方法。
即检验样本所在总体是否服从已知的理论分布。
具体包括:Chi-square test:用卡方检验来检验二项/多项分类变量的几个取值所占百分比是否和我们期望的比例有没有统计学差异。
Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一分为二。
Runs Test:用于检验样本序列随机性。
观察某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定。
一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。
One-Sample Kolmogorov-Smirnov Test:采用柯尔莫哥诺夫-斯米尔诺夫检验来分析变量是否符合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。
2、分布位置检验方法:用于检验样本所在总体的分布位置/形状是否相同。
具体包括:Two-Independent-Samples Tests:即成组设计的两独立样本的秩和检验。
Tests for Several Independent Samples:成组设计的多个独立样本的秩和检验,此处不提供两两比较方法。
微观交通仿真模型的验证方法邢丽;王晓原;吴芳【摘要】交通流微观仿真模型是目前广泛开展的智能运输系统项目开发、研究的重要内容.人们在研究、应用交通流微观仿真模型时,对模型验证过程重视不够.模型验证不足,使得模型本身不能达到其应有的精确程度,应用时常发生模拟结果与实际路况不能完全吻合的现象.结合一种基于投影寻踪回归的车辆跟驰模型,着重从微观角度,运用直观对比法和非参数统计方法对模型进行验证.验证结果表明,直观对比法和非参数统计方法用于模型验证是可行的.【期刊名称】《计算机工程与应用》【年(卷),期】2010(046)009【总页数】5页(P204-207,248)【关键词】微观仿真;驾驶员行为;车辆跟驰模型;游程总教检验法;游程长度检验法【作者】邢丽;王晓原;吴芳【作者单位】山东理工大学,交通与车辆工程学院,智能交通研究所,山东,淄博,255049;山东理工大学,交通与车辆工程学院,智能交通研究所,山东,淄博,255049;山东理工大学,交通与车辆工程学院,智能交通研究所,山东,淄博,255049【正文语种】中文【中图分类】U4911 引言驾驶员行为是影响交通安全和通行能力的一种重要因素[1-2]。
以计算机技术为基础的微观交通流仿真模型,可以再现各种道路、交通条件下交通流的实际动态行为,反映道路网络中单个车辆运行的随机特性和不同驾驶员组在车辆跟驰、车道变换等方面的个人偏好,逐渐成为交通运输领域,特别是目前广泛开展的智能运输系统(Intelligent Transportation Systems,ITS)项目开发、研究的重要手段[3]。
但是,人们在研究、应用交通流微观仿真模型时,往往注重模型的构建和参数标定等过程,对模型验证过程重视不够,仅对一些宏观指标进行验证或用最简单的直观对比图验证。
模型验证是保证仿真可信度的关键[4],模型验证不足,使得模型本身不能达到其应有的精确程度,以至于在后面使用时,常发生模拟结果与实际路况不能完全吻合的现象[5]。
非参数统计—期末九题汇总目录1.单样本Wilcoxon符号秩检验〔SAS〕 (2)2.Wald-Wolfowitz游程检验法 (4)3.两样本的Kolmogorov-Smirnov检验 (5)4.两个独立样本的M-W-W检验〔SAS〕 (6)5.k个样本的2 检验 (9)6.k个独立样本的Kruskal-Wallis检验(R) (10)7.k个相关样本的Friedman检验〔R〕 (11)8.k个相关样本的Cochran Q检验 (12)9.完全秩评定的Kendall协和系数〔R〕 (14)1.单样本Wilcoxon 符号秩检验〔SAS 〕设5.0ε是对称的连续型分布的中位数,现随机抽查了10名普通男子的血压如下: 98 160 136 128 130 114 123 134 129 107试用Wilcoxon 符号检验法检验假设0H :5.0ε=130,1H :5.0ε≠130,显著性水平为α=0.05。
解 手算:i)秩次和计算表ii)根据表中D 的符号和D 的秩,可以计算得到-T =9+2+6+5+1+7=30 +T =8+4+3=15根据n=9,+T =15,-T =30,查表得-T 的右尾概率为0.213,P=0.213⨯2=0.426,P 值相对于显著性水平α=0.05已足够大,因此抽查数据不拒绝0H ,即认为5.0ε=130。
机算:SPSS 输出结果表2Test Statistics by – xZ -.889aAsymp. Sig. (2-tailed) .374Exact Sig. (2-tailed) .426Exact Sig. (1-tailed) .213Point Probability .033a. Based on positive ranks.b. Wilcoxon Signed Ranks Test表1显示:y-x的负秩即满足y<x的为6,而y-x的正秩即满足y-x>3的为3,同分的既满足x=y的为1,总共10。