非参数统计学讲义(第六章)分布检验和某些卡方检验
- 格式:docx
- 大小:23.83 KB
- 文档页数:11
中国海洋大学本科生课程大纲课程属性:公共基础/通识教育/学科基础/专业知识/工作技能,课程性质:必修、选修一、课程介绍1.课程描述:非参数统计是数理统计学的一个分支,它是针对参数统计而言的。
所谓参数统计,简单地说就是建立在总体具有明确分布形式,通常多为正态分布形式的假定基础之上,所建立的统计理论和统计方法。
而非参数统计是在不假定总体分布形式或在较弱条件下,例如总体分布形式完全未知或分布形式是对称的,诸如这样一些宽泛条件下,尽量从数据本身获得的信息,建立对总体相关统计特征进行分析和推断的理论、方法。
2.设计思路:本课程是在已学数理统计基础上,通过非参数统计的学习,引导数学专业学生进一步增强对一般总体分析、推断的能力并加深对相关理论和方法的理解。
课程内容着重于基本知识点的理解,避免难度较大或较长定理的证明。
目的是使学生对理论有一个基本的理解和在应用能力上的提高。
课程内容包括以下四个方面:(1).非参数统计的基本概念:非参数统计方法的主要特点,次序统计量及其分布,U统计量,秩统计量的概念,一些统计量的近似分布。
(2).非参数估计的方法:总体分位数的估计,对称中心的估计,位置差的估计。
(3).非参数检验的方法:总体p分位数的检验,总体均值检验,两样本的比较,随机性与独立性检验,多总体的比较。
- 1 -(4).总体分布类型的估计与检验:分布函数的估计与检验,概率密度估计。
3. 课程与其他课程的关系:先修课程:《概率论》,《数理统计》,《多元统计分析》;并行课程:《应用回归分析》;后置课程:《统计软件》。
非参数统计是应用数学专业、信息与计算科学专业的选修课程,但对于今后从事统计研究和统计应用工作的学生来讲可以作为专业必修课学习。
二、课程目标非参数统计具有应用性广,稳健性好等特点。
通过本课程学习,要求学生了解或理解非参数统计的一些基本理论和方法,注重利用理论和方法、借助计算机解决问题的能力。
开课学期结束时,要求学生能够做到:(1)理解非参数统计方法的主要特点及与参数统计方法的区别。
SPSS 中非参数检验之一:总体分布的卡方(Chi-square )检验在得到一批样本数据后,在得到一批样本数据后,人们往往希望从中得到样本所来自的总体的分布形人们往往希望从中得到样本所来自的总体的分布形态是否和某种特定分布相拟合。
这可以通过绘制样本数据直方图的方法来进行粗略的判断。
略的判断。
如果需要进行比较准确的判断,如果需要进行比较准确的判断,如果需要进行比较准确的判断,则需要使用非参数检验的方法。
则需要使用非参数检验的方法。
则需要使用非参数检验的方法。
其中其中总体分布的卡方检验(也记为χ2检验)就是一种比较好的方法。
检验)就是一种比较好的方法。
一、定义总体分布的卡方检验适用于配合度检验,是根据样本数据的实际频数推断总体分布与期望分布或理论分布是否有显著差异。
它的零假设H0:样本来自的总体分布形态和期望分布或某一理论分布没有显著差异。
总体分布的卡方检验的原理是:如果从一个随机变量尤中随机抽取若干个观察样本,这些观察样本落在X 的k 个互不相交的子集中的观察频数服从一个多项分布,这个多项分布当k 趋于无穷时,就近似服从X 的总体分布。
的总体分布。
因此,假设样本来自的总体服从某个期望分布或理论分布集的实际观察频数同时获得样本数据各子集的实际观察频数,并依据下面的公式计算统计量Q ()21ki i i iO E Q E =-=å其中,Oi 表示观察频数;Ei 表示期望频数或理论频数。
可见Q 值越大,表示观察频数和理论频数越不接近;Q 值越小,说明观察频数和理论频数越接近。
SPSS 将自动计算Q 统计量,由于Q 统计量服从K-1个自由度的X 平方分布,因此SPSS 将根据X 平方分布表给出Q 统计量所对应的相伴概率值。
统计量所对应的相伴概率值。
如果相伴概率小于或等于用户的显著性水平,则应拒绝零假设H0,认为样本来自的总体分布形态与期望分布或理论分布存在显著差异;如果相伴概率值大于显著性水平,则不能拒绝零假设HO ,认为样本来自的总体分布形态与期望分布或理论分布不存在显著差异。
《非参数统计》课程教学大纲课程代码:090531007课程英文名称:Non-parametric Statistics课程总学时:40 讲课:32 实验:8 上机:0适用专业:应用统计学大纲编写(修订)时间:2017.6一、大纲使用说明(一)课程的地位及教学目标《非参数统计》是应用统计学专业的一门专业基础课,是统计学的一个重要分支。
课程主要研究非参数统计的基本概念、基本方法和基本理论。
本课程在教学内容方面除基本知识、基本理论和基本方法的教学外,着重培养学生的统计思想、统计推断和决策能力。
通过本课程的学习,学生将达到以下要求:1.掌握非参数统计方法原理、方法,具有统计分析问题的能力;2.具有根据具体情况正确选用非参数统计方法,正确运用非参数统计方法处理实际数据资料的能力;3.具有运用统计软件分析问题,对计算结果给出合理解释,从而作出科学的定论的能力;4.了解非参数统计的新发展。
(二)知识、能力及技能方面的基本要求1.基本知识:掌握符号检验、Wilcoxon符号秩检验、Cox-Stuart趋势检验、游程检验、Brown-Mood中位数检验、Wilcoxon秩和检验、Kruskal-Wallis检验、Jonckheere-Terpstra检验、Friedman检验、Page检验、Siegel-Tukey检验、Mood检验、Ansari-Bradley检验、Fligner-Killeen检验等非参数统计方法。
2.基本理论和方法:掌握单样本模型、两样本位置模型、多样本数据模型中的位置参数非参数统计检验方法,掌握检验尺度参数是否相等的各种非参数方法,掌握各种回归的方法,掌握分布检验的各种方法,要求能在真实案例中应用相应的方法。
3.基本技能:掌握非参数统计方法的计算机实现。
(三)实施说明1. 本大纲主要依据应用统计学专业2017版教学计划、应用统计学专业建设和特色发展规划和沈阳理工大学编写本科教学大纲的有关规定并根据我校实际情况进行编写。
卡方检验与非参数检验卡方检验与非参数检验是统计学中常用的两种假设检验方法。
它们在样本数据不满足正态分布或方差齐性等假设条件的情况下,仍可以进行假设检验,因此被称为非参数检验方法。
本文将详细介绍卡方检验与非参数检验的原理、应用以及比较。
一、卡方检验卡方检验是一种用于检验两个或多个分类变量之间是否存在相关性的统计方法。
它将实际观察到的频数与期望的频数进行比较,从而判断两个分类变量是否存在相关性。
卡方检验主要包括卡方拟合度检验、卡方独立性检验和卡方配对检验等。
1.卡方拟合度检验卡方拟合度检验适用于比较观察到的频数与理论上期望的频数是否有显著差异。
例如,我们可以通过卡方拟合度检验来判断一组骰子的点数是否是均匀分布的。
该方法首先根据理论假设计算每个类别的期望频数,然后计算观察频数与期望频数的差异,并根据差异的大小判断是否有显著差异。
2.卡方独立性检验卡方独立性检验适用于比较两个分类变量之间是否存在相关性。
例如,我们可以使用卡方独立性检验来判断性别与喜好类别之间是否存在相关性。
该方法首先根据理论假设计算每个类别的期望频数,然后计算观察频数与期望频数的差异,并根据差异的大小判断是否有显著差异。
3.卡方配对检验卡方配对检验适用于比较同一组体在两个时间点或处理条件下的观测值是否有差异。
例如,我们可以使用卡方配对检验来判断一种药物在服药前后对疾病症状的治疗效果。
该方法通过比较观察值和期望值之间的差异来判断是否有显著差异。
非参数检验是一种不依赖于总体分布的统计方法,它不对总体的分布形态做出任何假设,因此适用于任何类型的数据。
常见的非参数检验方法包括Wilcoxon符号秩检验、Mann-Whitney U检验、Kruskal-Wallis H检验等。
1. Wilcoxon符号秩检验Wilcoxon符号秩检验适用于比较两组配对样本数据是否存在差异。
例如,我们可以使用Wilcoxon符号秩检验来判断一种药物在服药前后对患者血压的影响。
《-⾮参数统计-》课程教学⼤纲上课讲义《⾮参数统计》课程教学⼤纲Non-parametric statistics课程代码:课程性质:专业⽅向理论课/选修适⽤专业:统计开课学期:5总学时数:32 总学分数:2.0编写年⽉:2007.5 修订年⽉:2007.7执笔:孙琳⼀、课程的性质和⽬的本课程是学习⾮参数统计和了解统计前沿的基本课程。
本课程结合S-Plus 或R 软件来讲解⾮参数统计⽅法的原理与应⽤。
本课程的⽬的是使学⽣认识到⾮参数统计⽅法是统计中最常⽤的推断⽅法之⼀,理解⾮参数统计⽅法和参数统计⽅法的区别,理解⾮参数统计的基本概念,掌握⾮参数统计的基本⽅法,能应⽤⾮参数统计⽅法去解决实际问题。
⼆、课程教学内容及学时分配第⼀章引⾔(2学时)本章内容:统计的概念,⾮参数统计的⽅法,参数统计与⾮参数统计的⽐较,本章要求:了解⾮参数统计的历史,了解⾮参数统计⽅法和参数统计⽅法的区别,认识⾮参数统计⽅法的必要性。
第⼆章 S-Plus基础(6学时)本章内容:S-Plus环境,向量的定义和表⽰,向量的基本操作,向量的基本运算,向量的逻辑运算,S-Plus 的图形功能,本章要求:熟悉在S-Plus命令⾏中S-Plus基本数据处理,掌握在S-Plus命令⾏中进⾏基本数据基本运算,能编写简单的计算函数,会绘制基本图形。
第三章单⼀样本的推断问题(6学时)本章内容:单样本推断问题,中⼼位置推断,符号检验,游程检验,Cox-staut趣势检验,分位数检验,Wilcoxon符号秩检验,分布检验,Kolmogorov-smirnov正态检验,Liliefor正态检验,中位数检验问题、定性数据检验问题和成对数据检验问题,秩和检验。
本章要求:掌握符号检验,能⽤符号检验解中位数检验问题、定性数据检验问题和成对数据检验问题。
由成对数据检验问题引出符号秩和检验。
掌握Wilcoxon秩和检验法,掌握符号秩和检验,能⽤符号秩和检验解对称中⼼的检验问题和成对数据检验问题,初步理解秩的概念。
非参数统计》课程教学大纲课程编号:06542 制定单位:统计学院制定人(执笔人):潘文荣审核人:徐海云制定(或修订)时间:2014年2月28日江西财经大学教务处《非参数统计》课程教学大纲、课程总述、教学时数分配三、单元教学目的、教学重难点和内容设置第一章绪论教学目的】理解非参数统计学习目的和内容。
重点难点】学习非参数统计学的应用意义,明确非参数统计的优缺点。
教学内容】第一节测量的层次第二节假设测验的回顾第三节非参数统计方法第二章单个样本的非参数检验【教学目的】了解符号检验、Wilcoxon 检验、正态计分检验、Cox-Start 趋势检验、游程经验的原理和计算方法,并进行上机操作。
【重点难点】符号检验、游程检验、Wilcoxon 检验的原理和计算方法。
【教学内容】第一节符号检验第二节Wilcoxon 检验第三节正态计分检验第四节Cox-Start 趋势检验第五节游程经验第三章两个相关样本的非参数检验【教学目的】了解符号检验、Wilcoxon 检验在两个相关中的检验,并进行上机操作。
【重点难点】在上一章学习的知识进一步应用到相关处理的比较上。
【教学内容】第一节符号检验第二节Wilcoxon 符号秩检验第四章两个独立样本的非参数检验【教学目的】了解Brown-mood 中位数检验的原理及计算方法,并进行上机操作。
【重点难点】秩和检验的原理和方法【教学内容】第一节Brown-mood 中位数检验第二节秩和检验第五章多个相关样本的非参数检验【教学目的】了解Cochran检验、Friedman检验的原理及计算方法,并进行上机操作。
【重点难点】Fiedman 检验的原理和方法【教学内容】第一节Cochran 检验第二节Friedman 检验第六章多个独立样本的非参数检验【教学目的】了解Kruskal-Wallis 检验、正态计分检验的原理及计算方法,并进行上机操作。
【重点难点】独立样本比较的非参数统计方法。
非参数统计学讲义(第六章)分布检验和某些卡方检验非参数统计学讲义主讲:统计系袁靖第六章分布检验和某些卡方检验§1 引言本章属于拟合优度检验问题,即模型检验或分布的检验,属于非参数检验的范畴。
在初等统计中,人们要想知道数据是否服从某一特定分布,可以通过直方图,或P-P 图,Q-Q 图来直接判断,但这种直观的方式很不精确。
本章将介绍几种分布的检验:K-S 检验,Lilliefors 检验和2χ检验。
实际上,K-S 检验是在针对2χ检验的缺点1上提出的。
它们是建立在经验分布函数基础上的检验结果。
§2 Kolmogorov 检验一、基本假设一般地要检验手中的样本是否来自某个已知0()F x ,假定其真实分布为()F x ,对应的检验类型有00:()()A H F x F x = 对x ? 10:()()H F x F x ≠ 至少有一个x 00:()()B H F x F x = 对x ? 10:()()H F x F x < 至少有一个x 00:()()CH F x F x = 对x ? 10:()()H F x F x > 至少有一个x设()S x 为该组数据的经验分布函数,则()()i i I X x X x S x n n≤≤==∑的目二、基本方法Kolmogorov 于三十年代提出了一种基于经验分布的检验方法,基本思想是:由格里文科定理,当n →∞时,样本经验分布?nF 以概率1一致收敛到总体分布F ,为此可以定义()S x 到0()F x 的距离为 00((),())sup ()()D S x F x S x F x =-当H 0成立时,由格氏定理,D 以概率1收敛到0,因此D 的大小可以度量0()F x 对总体分布拟合的好12χ检验与K-S 检验均属拟合优度检验,但2χ检验常用于定类尺度测量数据,K-S 检验还用于定序尺度测量数据;当预期频数较小时,2χ检验常需要合并邻近的类别才能计算,K-S 检验则不需要,因此它能比2χ检验保留更多的信息;对于特别小的样本数目,2χ检验不能应用,而K-S 检验则不受限制。
此外,2χ检验需要人为对总体分布的支撑集进行划分,将总体分布转化成一种导出分布,后果:①样本信息利用不充分;②实际检验的是导出分布对数据的拟合优度,而不是假设分布对数据的拟合优度。
坏。
可供选择的检验统计量分别为;类型A 0()()sup xD S x F x =-类型B 0(()())sup xD F x S x +=-类型C 0((()())sup xD S x F x -=-在实际操作时,如果有n 个观察值,用下面的统计量代替上面的D(){}0101max max ()(),()()n i i i i i nD S x F x S x F x -≤≤=--NOTE :①由()S x 的取值是离散的,考虑到跳跃性,该n D 能够保证S 与F 0之间取得最大距离;②n D 在H 0下的分布有表可查,P201③在大样本时,有近似分布)()n P d K d <→,这里的分布函数()Kd 有表达式,P122,该分布有表可查P203:三、应用举例【例6-1】轴承的内径检验检验某车间生产的20个轴承外座圈的内径,测得数据如下(单位:mm )15.04 15.36 14.57 14.53 15.57 14.69 15.37 14.66 14.52 15.41 15.34 14.28 15.01 14.76 14.38 15.87 13.66 14.97 15.29 14.9515μ=,方差220.2σ=的正态分布。
分析:方法一,可以利用直方图、Q-Q 图、P-P 图进行直观判断;由P122表中数据得:200.020.3390.32866D d =>=,拒绝H 0,认为不满足要求。
近似1.516ξ==,P-值=0.979>0.05,接受H 0。
【例6-2】《数理统计与管理》论文作者服从洛特卡分布2将46期的《数理统计与管理》的文章按第一作者统计,得到表7-2的结果。
论文作者数是否服从洛特卡分布。
分析:洛特卡得出这样的一个关系:若以x 表示每一作者所著的论文数,与其相应的写x 篇论文的作者数为y ,则y 与x 成反比关系。
即有m x y N C =(0.1)式中,N 为论文总数,m 、C 为两个特定的常数,在不同的学科领域数值不同。
假定根据表6—2提供的数据,认为论文作者服从洛特卡分布,并对其真实性进行检验,首先必须确定它的理论分布,即计算出m 、C 的值。
估计m 的值,通常采用最小二乘法。
将(6.1)式进行对数变换,使其线性化,得到:ln ln ln y N C m x =- (0.2)m 相当于一元线性回归方程?Ya bx =+中的回归系数b ,根据表中的数据运用最小二乘法,得到m=3.0550。
关于C 值,可以用这样一个公式进行近似计算。
这是1985年美国情报学家M.L.Pao 教授在数学家的协助之下提出的。
计算式为:191111/1/(219)1/[(1)19]/(2419)mm m m x C xm m +==++-+∑经计算,1/(1.19080.0000620.0011460.0000008)0.8389C =+++ 。
因此46期《数理统计与管理》的论文与作者数的理论洛特卡分布为3.055()0.8389/f y x =(0.3)为了判定《数理统计与管理》论文作者的实际分布是否与理论分布一致,可以采用Kolmogorov 检验。
建立的假设组为00:()()n H S x F x = 对x ? 10:()()n H S x F x ≠ 至少有一个x理论累积频率0()F x 的各个值,可以将x 分别代入(6.3)式计算得到,实际累积频率是将累计的作者2洛特卡定律是1926年6月19日洛特卡(Vlachy )在美国颇有影响的学术刊物《华盛顿科学院杂志》上首先提出,它第一次提示了作者与文献量的统计规律性。
在这之后,洛特卡进一步发展了洛特卡定律,得出这样的一个关系:若以x 表示每一作者所著的论文数,与其相应的写x 篇论文的作者数为y ,则y 与x 成反比关系。
数y ∑分别除以作者总人数得到。
计算结果,作者实际累积频率及理论累积频率及各个差值如表6-3。
1 2 3 4 5 6 7 0()F x 0.8389 0.9398 0.9690 0.9811 0.9872 0.9907 0.9929 ()n S x0.89320.9635 0.9870 0.9896 0.9922 0.9948 1.00000max ()()0.0543n D S x F x =-=根据显著性水平0.01α=,作者人数384n y ==∑,查表,由于45n >,得临界值0.0832d α=。
显然0.05430.0832D d α=<=因此数据在1%的显著性水平上不能拒绝H 0,若显著性水平0.05α=,查表得临界值0.0694d α==。
显然0.05430.0694D d α=<=因此,数据在5%的显著性水平上也不能拒绝H 0,可以认为,《数理统计与管理》作者的分布服从洛特卡分布。
§3 Lilliefors 正态性检验Lilliefors 正态性检验实质上是对Kolmogorov 检验的一个改进。
当用Kolmogorov 检验某样本是否来自一正态总体2(,)N μσ时,当μ和2σ未知时,就会用样本均值X 作为总体均值μ的估计,样本方差2S 作为总体方差2σ的估计,从而将数据i X 标准化为:i X Z μσ-=,再用标准正态分布()x Φ作0()F x 来计算K 氏统计量n D 。
但这时统计量n D 在H 0下的分布发生了改变,Lilliefors (1976)对Kolmogorov 的检验临界值表作了修正。
【例6-3】以例6-1为例在该例中,?14.91X μ==,?0.52S σ==,200.050.11599130.19D d =<=,对于5%的显著性水平,不能拒绝原假设。
而按照Kolmogorov 的临界值表,在5%显著性水平下的临界值为0.294,要比Lilliefors 检验保守。
§4 Smir nov 两样本检验一、 Smirnov 检验主要用来检验两个样本是否同时来自于某一总体,设样本12,,,m X X X 来自()F x 分布,而样本12,,,n Y Y Y 来自分布为()G y 的总体。
Smirnov 检验的基本思想和Kolmogorov 检验一样,因此经常通称这两个检验为Kolmogorov-Smirnov 拟合优度检验,简称K-S 检验。
1.基本假设检验类型为:类型A 0:()()H F x G x = 对x ? 1:()()H F x G x ≠ 至少有一个x 类型B 0:()()H F x G x = 对x ? 1:()()H F x G x < 至少有一个x 类型C 0:()()H F x G x = 对x ? 1:()()H F x G x > 至少有一个x2.基本方法设()m F x 和()n G y 分别为这两个样本的经验分布函数。
则检验A 的统计量可以取()(){}max max ()(),max ()()N m i n i m j n j ijD F x G x F y G y =--(0.4)式中N m n =+NOTE :①含义②其它检验类型的统计量仿此可以写出③N D 的分布有表可查,P204,P205④大样本时,有近似分布()N P d K d ?<→二、应用举例【例6-4】检验两个地区的GDP 指数是否具有相同的分布华北五省市区和华东七省市1996年的GDP 指数(前一年为100)数据如下:109.2 114.3 113.5 111.0 112.7 华东113.0112.2112.7114.4115.4113.4112.2检验这两个地区的GDP 指数的分布是否相同。
分析:数据的计算过程详见P1260.22/50.40.5714N D d ==<=接受H 0。
§5 χ2拟合优度检验检验目的:检验样本是否来自于某一特定的分布或总体。
在20世纪初,Pearson 提出了拟合优度的2χ统计量。
其基本做法是:首先将样本区间进行分割,抽取n 个观察值(相当于做了n 次试验),则X 落在每个区间中的数目服从多项分布,我们就是让这个多项分布去逼近X 的分布22211()1~(1)kk i i i i i i i n np n Q n k r np n p χ==-==---∑∑(0.5)其中:r 为总体分布里待估参数的个数,k 为划分的组数。