第九讲 分布拟合检验
- 格式:ppt
- 大小:930.00 KB
- 文档页数:37
分布拟合检验分布拟合检验是一种统计方法,用于验证一个随机变量是否符合某个特定的概率分布。
在许多实际问题中,我们常常需要根据观测数据来推断数据的分布情况,而分布拟合检验可以帮助我们判断观测数据是否与我们假设的分布相符合。
我们需要明确什么是分布拟合检验。
分布拟合检验通过计算观测数据与理论分布之间的差异程度,来判断观测数据是否服从某个特定的概率分布。
常用的分布拟合检验方法有卡方检验和Kolmogorov-Smirnov检验。
卡方检验是一种基于频数的检验方法,它将观测数据根据某个分布的概率密度函数进行分组,并计算观测频数与理论频数之间的差异。
通过比较观测频数和理论频数之间的差异程度,我们可以判断观测数据是否符合某个特定的概率分布。
Kolmogorov-Smirnov检验是一种基于累积分布函数的检验方法,它通过计算观测数据的经验分布函数与理论分布的累积分布函数之间的最大差异,来判断观测数据是否符合某个特定的概率分布。
下面以一个例子来说明分布拟合检验的具体步骤。
假设我们有一组观测数据,表示某种产品的寿命。
我们想要验证这些数据是否符合指数分布。
我们需要根据观测数据计算出经验分布函数。
经验分布函数是指在某个点上,小于或等于该点的观测值的比例。
通过计算观测数据的经验分布函数,我们可以得到一个累积分布函数的曲线。
然后,我们需要计算出指数分布的理论累积分布函数。
指数分布是一种常见的连续概率分布,它描述了独立随机事件发生的时间间隔的概率分布。
根据指数分布的参数估计,我们可以计算出理论累积分布函数的曲线。
接下来,我们使用Kolmogorov-Smirnov检验来比较观测数据的经验分布函数与指数分布的理论累积分布函数之间的差异。
具体来说,我们计算出两个分布函数之间的最大差异,并根据该差异值和显著性水平,来判断观测数据是否符合指数分布。
我们还可以使用卡方检验来验证观测数据是否符合指数分布。
卡方检验通过计算观测频数与理论频数之间的差异,来判断观测数据是否符合指数分布。
分布拟合检验1.检验数据是否服从正态分布一、图示法1、P-P图以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点。
如果资料服从整体分布,则样本点应围绕第一象限的对角线分布。
2、Q-Q图以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。
如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。
以上两种方法以Q-Q图为佳,效率较高。
3、直方图判断方法:是否以钟形分布,同时可以选择输出正态性曲线。
4、箱式图判断方法:观测离群值和中位数。
5、茎叶图类似与直方图,但实质不同。
二、计算法1、偏度系数(Skewness)和峰度系数(Kurtosis)计算公式:g1表示偏度,g2表示峰度,通过计算g1和g2及其标准误σg1及σg2然后作U检验。
两种检验同时得出U<U0.05=1.96,即p>0.05的结论时,才可以认为该组资料服从正态分布。
由公式可见,部分文献中所说的“偏度和峰度都接近0……可以认为……近似服从正态分布”并不严谨。
2、非参数检验方法非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro- Wilk(W 检验)。
SAS中规定:当样本含量n≤2000时,结果以Shapiro – Wilk(W检验)为准,当样本含量n >2000时,结果以Kolmogorov – Smirnov(D检验)为准。
SPSS中则这样规定:(1)如果指定的是非整数权重,则在加权样本大小位于3和50之间时,计算Shapiro-Wilk统计量。
对于无权重或整数权重,在加权样本大小位于3和5000之间时,计算该统计量。
由此可见,部分SPSS教材里面关于“Shapiro –Wilk适用于样本量3-50之间的数据”的说法是在是理解片面,误人子弟。
(2)单样本Kolmogorov-Smirnov检验可用于检验变量(例如income)是否为正态分布。
09分布拟合检验-统计软件实践例7.4.2 卢琴福在2608个等时间间隔内观测一枚放射性物质放射的粒子数X,表7.4.1是观测结果的汇总,其中ni表示2608次观测中放射粒子数为i的次数I 0 1 2 3 4 5 6 7 8 9 10 11 ni 57 203 383 525 532 408 273 193 45 27 10 6试利用该组数检验该放射性物质在单位时间内放射出的粒子数是够服从指数分布。
主要内容:数据集:Eg7.4.2数据集说明:12条记录,2个变量数据表:质点数i 频数0 571 2032 3833 5254 5325 4086 2737 1398 459 2710 1011 6A.SAS实现a)Insight实现以数据集WORK.EG070402为例,在Insight中,要制作变量ni的经验分布,只需在调入数据集并由分析进入分布(Y)的菜单后,点击Output.然后在弹出的菜单选:1.cumulative distribution (累积分布)。
2.在弹出的累积分布窗口选Empirical(经验),并在置信带(confidence band)下选定置信水平,取95%3.OK---> OK----> OK (确定-→确定--→确定)在显示的图形中,中间是经验分布曲线,两侧是置信限,图下面有一个表说明置信水平,若用光标拖动其中的滑动条,置信水平和置信限曲线都随之变动。
对于分布拟合检验,例如要得到检验变量ni的总体分布与正态分布是否有显著差异,在已经得到了常规的一些结果后,可在结果窗口中使用下拉菜单:1.Curves(曲线)-→Test for Dittribution(分布检验)2.然后在弹出的分布检验窗口中选指数,在它前面的圆圈选中3.OK(确定)随机提供该变量的应验分布和拟合分布的正态累计分布曲线,检验结果汇总在分布检验表中,其中列举了拟合正态分布的均值(217.3333,即样本均值),并提供了Kolmogorov统计量的数值为0.1860,相应的p值>1.5,可以接受总体分布为指数分布。
第9章 资料分布的拟合优度检验统计资料的分布是统计描述与统计推断的基础。
统计资料是否服从某统计分布,或能否用某已知的分布或分布族拟合实际数据?拟合效果好坏的标准是什么?这就是资料分布拟合优度检验(goodness of fit test)要解决的问题。
分布的拟合优度检验方法非常丰富,本章重点介绍两种有代表性的适用于各种分布的拟合优度检验方法,即Pearson χ2检验及Kolmogorov 检验。
在9.3节介绍正态分布的矩法检验。
§ 9.1 Pearson χ 2检验在第7章介绍了用于率的比较和构成比比较的Pearson χ2检验,其理论公式是: ()∑=-=ki TT A 122χ (9.1)其中A 表示实际频数,T 表示理论频数。
因此,Pearson χ2检验实际上是用于实际频数与理论频数比较的一个检验统计量。
实际频数与理论频数相差愈大,则χ2值愈大,反之愈小。
由此可见,Pearson χ2检验可用于资料分布的拟合优度检验,统计量χ2服从自由度为: ν =组数-1-s (9.2) 的χ2分布。
其中s 为根据样本估计理论分布时所用参数的个数,这就是Fisher 在1942年提出的“增加一个估计参数,就减少一个自由度”的原则。
式(9.1)中要求理论频数大于5,但没有对理论分布形式提出要求,故Pearson χ2检验适用于任意分布的拟合优度检验。
例9.1 (多项分布的拟合) ABO 血型受控于A 、B 、O 三个等位基因。
据报道,汉族人的三个等位基因频率分别为:p =0.2019,q =0.2512和r =0.5469。
则根据遗传学中Hardy-Weinberg 平衡法则,估计得汉族人四种血型的理论频率为:O 型: P O =r 2=(0.5469)2=0.2991A 型: P A =p 2+2pr =0.20192+2⨯0.2019⨯0.5469=0.2616B 型: P B =q 2+2qr =0.25122+2⨯0.2512⨯0.5469=0.3379 AB 型: P AB =2pq =2⨯0.2019⨯0.2512=0.1014 且P O +P A +P B +P AB =(p +q +r ) 2=1。
分布拟合检验简介重点:分布拟合检验方法在很多场合下,我们连总体服从什么分布也无法知道,这时我们需要对总体的分布进行检验,这正是分布拟合检验要解决的问题。
一、 分布拟合检验的方法二、 例题例1 在某一实验中,每隔一定时间观测一次某种铀所放射的到达计数器上的α粒子数X ,共观测了100次,得结果如下表所示其中n i 为观测到i 个粒子的次数。
从理论上考虑,X 应服从泊松分布,问这种理论上的推断是否符合实际(取显著性水平α=0.05)解:原假设H 0:X 服从泊松分布Λ,1,0,!}{===-i i e i X P iλλλ的极大似然估计值为2.4ˆ==x λ。
当H 0为真时,P{X=i}的估计值为Λ,1,0,!2.4ˆ2.4==-i i e p i 。
2χ的计算如下表所示。
查表可得592.12205.0=χ由于592.128215.62<=χ,故在显著性水平α=0.05下接受H 0,即认为理论上的推断符合实际例2 自1965年1月1日至1971年2月9日共2231天中,全世界记录到的里氏震级4级和4级以上地震计162次,统计如下:试检验相继两次地震间隔天数是否服从指数分布?取显著性水平α=0.05解:原假设H 0:X 的概率密度为⎪⎩⎪⎨⎧<>=-0 x 00 x )(x e x f λλλ的极大似然估计值为0726.0ˆ=λX 是连续性随机变量,将X 可能取值的空间(0,+∞)分为k=9个互不重叠的子区间921,,,A A A Λ当H 0为真时,X 的分布函数为⎪⎩⎪⎨⎧≤>-=-0 x 00 x 1)(ˆ0726.0x e x F 由上式可得概率p i =P{X ∈A i }的估计值i pˆ,将计算结果列表如下查表可得067.14)7(205.0=χ067.145631.12<=χ故在显著性水平α=0.05下接受H 0,即认为X 服从指数分布。
例1 为检验某一骰子是否均匀,现将它投掷100次,记录各点出现的次数如下:问这枚骰子是否均匀?(10.0=α)解 设随机变量X ,i X =表示投掷这枚骰子出现点数i ,6,,2,1 =i ,若骰子均匀,则各点数出现的概率应相等,即应有{}16==P X i . 因此,设要检验的假设为 0H : {}1,1,2,,66=== P X i i 在0H 成立的条件下,统计量()5~6626122χχ∑=⎪⎭⎫ ⎝⎛-=i i n n n 由已知,()20.10100,0.10,59.236n αχ===计算可得2 1.49.236χ=<,即0H 是相容的,可以认为这枚骰子是均匀的.例2随机抽取某地50名新生男婴,测其体重如下表(单位:克):2520 3510 2600 3320 3120 3400 2900 2420 3220 3100 2980 3160 3150 3460 2740 3060 3700 3460 3500 1600 3080 3700 3280 2880 3120 3800 3740 2940 3550 2980 3700 3460 2940 3300 2980 3480 3220 3060 3400 2680 3340 2500 2960 2900 4600 2710 3340 2500 3300 3640 试在显著水平05.0=α下,检验该地新生男婴体重是否服从正态分布?解 要检验的假设为0H :总体X 服从正态分布.这里,由于假设没有给出X 的均值与方差,而仅说明它服从正态分布,因此需要先估计正态分布的两个参数2,μσ.在应用上,常使用易于计算的估计量,如用样本均值和样本方差来估计总体均值和方差,即采用22ˆ,ˆS X ==σμ根据测量数据计算得223160,465.5X S ==.在2χ检验中,一般要求对数据分组时每组中的观察个数不少于5个,现在我们选取6个数:2450,2700,2950,3200,3450,3700将()+∞∞-,分为7个区间,相应地将数据分为7组,得到各组的频数如下:下面计算相应的7,,2,1,ˆ =i pi 当0H 成立时,X 近似服从分布()25.465,3160N ,故 ()()()()()()()()()()()()()123.05.46531603700137001ˆ145.05.465316034505.4653160370034503700ˆ196.05.465316032005.4653160345032003450ˆ210.05.465316029505.4653160320029503200ˆ165.05.465316027005.4653160295027002950ˆ098.05.465316024505.4653160270024502700ˆ063.053.115.465316024502450ˆ7654321=⎪⎭⎫ ⎝⎛-Φ-=-==⎪⎭⎫ ⎝⎛-Φ-⎪⎭⎫ ⎝⎛-Φ=-==⎪⎭⎫ ⎝⎛-Φ-⎪⎭⎫ ⎝⎛-Φ=-==⎪⎭⎫ ⎝⎛-Φ-⎪⎭⎫ ⎝⎛-Φ=-==⎪⎭⎫ ⎝⎛-Φ-⎪⎭⎫ ⎝⎛-Φ=-==⎪⎭⎫ ⎝⎛-Φ-⎪⎭⎫ ⎝⎛-Φ=-==-Φ=⎪⎭⎫ ⎝⎛-Φ==F p F F p F F p F F p F F p F F p F p 将以上计算结果代入(8.16)式,计算得统计量38.42=χ,自由度为4217=--,对水平05.0=α,查表得临界值()4988.94205.0=χ.由于4988.938.42<=χ,故接受假设0H ,即认为该地新生男婴的体重服从正态分布.。