第九讲 分布拟合检验
- 格式:ppt
- 大小:930.00 KB
- 文档页数:37
分布拟合检验分布拟合检验是一种统计方法,用于验证一个随机变量是否符合某个特定的概率分布。
在许多实际问题中,我们常常需要根据观测数据来推断数据的分布情况,而分布拟合检验可以帮助我们判断观测数据是否与我们假设的分布相符合。
我们需要明确什么是分布拟合检验。
分布拟合检验通过计算观测数据与理论分布之间的差异程度,来判断观测数据是否服从某个特定的概率分布。
常用的分布拟合检验方法有卡方检验和Kolmogorov-Smirnov检验。
卡方检验是一种基于频数的检验方法,它将观测数据根据某个分布的概率密度函数进行分组,并计算观测频数与理论频数之间的差异。
通过比较观测频数和理论频数之间的差异程度,我们可以判断观测数据是否符合某个特定的概率分布。
Kolmogorov-Smirnov检验是一种基于累积分布函数的检验方法,它通过计算观测数据的经验分布函数与理论分布的累积分布函数之间的最大差异,来判断观测数据是否符合某个特定的概率分布。
下面以一个例子来说明分布拟合检验的具体步骤。
假设我们有一组观测数据,表示某种产品的寿命。
我们想要验证这些数据是否符合指数分布。
我们需要根据观测数据计算出经验分布函数。
经验分布函数是指在某个点上,小于或等于该点的观测值的比例。
通过计算观测数据的经验分布函数,我们可以得到一个累积分布函数的曲线。
然后,我们需要计算出指数分布的理论累积分布函数。
指数分布是一种常见的连续概率分布,它描述了独立随机事件发生的时间间隔的概率分布。
根据指数分布的参数估计,我们可以计算出理论累积分布函数的曲线。
接下来,我们使用Kolmogorov-Smirnov检验来比较观测数据的经验分布函数与指数分布的理论累积分布函数之间的差异。
具体来说,我们计算出两个分布函数之间的最大差异,并根据该差异值和显著性水平,来判断观测数据是否符合指数分布。
我们还可以使用卡方检验来验证观测数据是否符合指数分布。
卡方检验通过计算观测频数与理论频数之间的差异,来判断观测数据是否符合指数分布。
分布拟合检验1.检验数据是否服从正态分布一、图示法1、P-P图以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点。
如果资料服从整体分布,则样本点应围绕第一象限的对角线分布。
2、Q-Q图以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。
如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。
以上两种方法以Q-Q图为佳,效率较高。
3、直方图判断方法:是否以钟形分布,同时可以选择输出正态性曲线。
4、箱式图判断方法:观测离群值和中位数。
5、茎叶图类似与直方图,但实质不同。
二、计算法1、偏度系数(Skewness)和峰度系数(Kurtosis)计算公式:g1表示偏度,g2表示峰度,通过计算g1和g2及其标准误σg1及σg2然后作U检验。
两种检验同时得出U<U0.05=1.96,即p>0.05的结论时,才可以认为该组资料服从正态分布。
由公式可见,部分文献中所说的“偏度和峰度都接近0……可以认为……近似服从正态分布”并不严谨。
2、非参数检验方法非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro- Wilk(W 检验)。
SAS中规定:当样本含量n≤2000时,结果以Shapiro – Wilk(W检验)为准,当样本含量n >2000时,结果以Kolmogorov – Smirnov(D检验)为准。
SPSS中则这样规定:(1)如果指定的是非整数权重,则在加权样本大小位于3和50之间时,计算Shapiro-Wilk统计量。
对于无权重或整数权重,在加权样本大小位于3和5000之间时,计算该统计量。
由此可见,部分SPSS教材里面关于“Shapiro –Wilk适用于样本量3-50之间的数据”的说法是在是理解片面,误人子弟。
(2)单样本Kolmogorov-Smirnov检验可用于检验变量(例如income)是否为正态分布。
09分布拟合检验-统计软件实践例7.4.2 卢琴福在2608个等时间间隔内观测一枚放射性物质放射的粒子数X,表7.4.1是观测结果的汇总,其中ni表示2608次观测中放射粒子数为i的次数I 0 1 2 3 4 5 6 7 8 9 10 11 ni 57 203 383 525 532 408 273 193 45 27 10 6试利用该组数检验该放射性物质在单位时间内放射出的粒子数是够服从指数分布。
主要内容:数据集:Eg7.4.2数据集说明:12条记录,2个变量数据表:质点数i 频数0 571 2032 3833 5254 5325 4086 2737 1398 459 2710 1011 6A.SAS实现a)Insight实现以数据集WORK.EG070402为例,在Insight中,要制作变量ni的经验分布,只需在调入数据集并由分析进入分布(Y)的菜单后,点击Output.然后在弹出的菜单选:1.cumulative distribution (累积分布)。
2.在弹出的累积分布窗口选Empirical(经验),并在置信带(confidence band)下选定置信水平,取95%3.OK---> OK----> OK (确定-→确定--→确定)在显示的图形中,中间是经验分布曲线,两侧是置信限,图下面有一个表说明置信水平,若用光标拖动其中的滑动条,置信水平和置信限曲线都随之变动。
对于分布拟合检验,例如要得到检验变量ni的总体分布与正态分布是否有显著差异,在已经得到了常规的一些结果后,可在结果窗口中使用下拉菜单:1.Curves(曲线)-→Test for Dittribution(分布检验)2.然后在弹出的分布检验窗口中选指数,在它前面的圆圈选中3.OK(确定)随机提供该变量的应验分布和拟合分布的正态累计分布曲线,检验结果汇总在分布检验表中,其中列举了拟合正态分布的均值(217.3333,即样本均值),并提供了Kolmogorov统计量的数值为0.1860,相应的p值>1.5,可以接受总体分布为指数分布。
第9章 资料分布的拟合优度检验统计资料的分布是统计描述与统计推断的基础。
统计资料是否服从某统计分布,或能否用某已知的分布或分布族拟合实际数据?拟合效果好坏的标准是什么?这就是资料分布拟合优度检验(goodness of fit test)要解决的问题。
分布的拟合优度检验方法非常丰富,本章重点介绍两种有代表性的适用于各种分布的拟合优度检验方法,即Pearson χ2检验及Kolmogorov 检验。
在9.3节介绍正态分布的矩法检验。
§ 9.1 Pearson χ 2检验在第7章介绍了用于率的比较和构成比比较的Pearson χ2检验,其理论公式是: ()∑=-=ki TT A 122χ (9.1)其中A 表示实际频数,T 表示理论频数。
因此,Pearson χ2检验实际上是用于实际频数与理论频数比较的一个检验统计量。
实际频数与理论频数相差愈大,则χ2值愈大,反之愈小。
由此可见,Pearson χ2检验可用于资料分布的拟合优度检验,统计量χ2服从自由度为: ν =组数-1-s (9.2) 的χ2分布。
其中s 为根据样本估计理论分布时所用参数的个数,这就是Fisher 在1942年提出的“增加一个估计参数,就减少一个自由度”的原则。
式(9.1)中要求理论频数大于5,但没有对理论分布形式提出要求,故Pearson χ2检验适用于任意分布的拟合优度检验。
例9.1 (多项分布的拟合) ABO 血型受控于A 、B 、O 三个等位基因。
据报道,汉族人的三个等位基因频率分别为:p =0.2019,q =0.2512和r =0.5469。
则根据遗传学中Hardy-Weinberg 平衡法则,估计得汉族人四种血型的理论频率为:O 型: P O =r 2=(0.5469)2=0.2991A 型: P A =p 2+2pr =0.20192+2⨯0.2019⨯0.5469=0.2616B 型: P B =q 2+2qr =0.25122+2⨯0.2512⨯0.5469=0.3379 AB 型: P AB =2pq =2⨯0.2019⨯0.2512=0.1014 且P O +P A +P B +P AB =(p +q +r ) 2=1。