粗大误差四种判别准则的比较
- 格式:doc
- 大小:57.00 KB
- 文档页数:3
粗大误差四种判别准则的比较粗大误差是指在测量过程中,偶尔产生的某些不应有的反常因素造成的测量数值超出正常测量误差范围的小概率误差。
含有粗大误差的数据会干扰对实验结果的分析,甚至歪曲实验结果。
若不按统计的原理剔除异常值,而把一些包含较大正常误差但不属于异常值的数据舍弃或保留一些包含较小粗大误差的异常值,就会错估了仪器的精确等级。
因此,系统检验测量数据是否含有粗大误差是保证原始数据的可靠及其有关计算的准确的前提。
排除异常数据有四种较常用的准则,分别是拉伊达准则、格拉布斯准则、肖维勒准则和狄克逊准则。
每种判别准则都有其处理方法,导致用不同准则对异常值判别的结果有时会不一致。
目前异常值的剔除还没有统一的准则,本文综合判别粗大误差四种方法的特点,系统归纳各种准则的应用,以便更好地发现和判别含有粗大误差的数据。
1.四种判别粗大误差准则的特点1.1拉伊达准则拉伊达准则[4]是以三倍测量列的标准偏差为极限取舍标准,其给定的置信概率为99.73%,该准则适用于测量次数n>10或预先经大量重复测量已统计出其标准误差σ的情况。
Xi为服从正态分布的等精度测量值,可先求得它们的算术平均值 X、残差vi和标准偏差σ。
若|Xi- X|>3σ,则可疑值Xi含有粗大误差,应舍弃;若|Xi- X|≤3σ,则可疑值Xi为正常值,应保留。
把可疑值舍弃后再重新算出除去这个值的其他测量值的平均值和标准偏差,然后继续使用判别依据判断,依此类推。
1.2格拉布斯准则格拉布斯准则适用于测量次数较少的情况(n<100),通常取置信概率为95%,对样本中仅混入一个异常值的情况判别效率最高。
其判别方法如下:先将呈正态分布的等精度多次测量的样本按从小到大排列,统计临界系数G(a,n)的值为G0, 然后分别计算出G1、Gn:G1=( X-X1)/σ,Gn=(Xn- X)/σ (1)若G1≥Gn且G1>G0,则X1应予以剔除;若Gn≥G1且Gn>G0,则Xn应予以剔除;若G1<G0且Gn<G0,则不存在“坏值”。
粗大误差的剔除的四种准则粗大误差的剔除,哎呀,这可是个大话题,咱们平常做实验、搞研究的时候,常常会碰上那些“调皮捣蛋”的数据,它们就像小孩子一样,总爱跑偏。
今天咱们就聊聊,这四种准则,帮助我们把这些“捣乱分子”踢出局。
先说说第一种准则,大家都知道的——极端值法。
这一招就像是大排档里那些大菜,一眼就能看出来,放眼望去,如果某个数据跟其他的完全不搭调,就该打上“叉”了。
想象一下,大家都在吃水饺,结果你一上来就给大家端了个榴莲,这不就是极端值嘛,果断剔除,谁爱吃谁吃去。
再说说第二种准则,标准差法,听上去挺高大上的,其实也没啥,简单来说,就是把数据的波动性考虑进去。
数据之间要有个“家族感”,如果有某个数据孤零零的站在一边,距离其他数据太远,那可就得考虑是不是有问题了。
就像打麻将,四个人围着,突然你有个五个的牌,那肯定不对劲,哎哟,赶紧检查一下。
接着是第三种准则,啥?比值法,这个可以算是个“盲盒”玩法。
你得看看数据之间的比例关系,假如比例失衡,那就得好好瞅瞅了。
就像你跟朋友一起去喝酒,他喝了十瓶,你才喝了一口,那明显不对嘛,赶紧问问怎么回事。
最后一个,离群值法,名字听起来就很神秘,其实就是识别那些不合群的数据。
生活中总有些人,哪怕人群再热闹,他们的存在感也弱得可怜,像个隐形人。
数据也是一样,如果有某个数据跟大多数差得离谱,就得认真思考,究竟是数据出问题,还是测量的过程出了纰漏。
这四个准则,就像咱们生活中的小规则一样,大家都得遵守。
想想看,如果不把这些“糟心”的数据剔除掉,咱们的结论岂不是跟瞎子摸象一样,摸来摸去,根本不知道对不对。
这就好比大家一起去春游,结果你背了个五十斤的包,别的同学轻装上阵,结果到了目的地,你累得跟条狗似的,整场活动都没法好好玩儿了。
所以啊,剔除粗大误差,绝对是研究工作中的一门艺术,也是科学精神的体现,务必不能马虎。
说到底,数据就像一颗颗珍珠,得把那些不合适的剔除,才能串成一条闪闪发光的项链。
判别粗大误差的准则引言在测量和统计领域,精确度和准确度是非常重要的概念。
准确度是指测量结果与真实值之间的接近程度,而精确度是指多次测量结果之间的一致性。
然而,在实际应用中,由于各种原因,可能会出现误差,其中包括粗大误差。
粗大误差是指显著偏离真实值的异常观测值或数据点。
它可能由仪器故障、操作失误、环境变化等多种因素引起。
为了保证数据的可靠性和准确性,判别并排除这些粗大误差是必要的。
本文将介绍判别粗大误差的准则,并提供一些常用的方法和技术来检测和处理这些异常观测值。
判别粗大误差的准则1. 样本点与平均值之间的偏离程度判断一个样本点是否为粗大误差可以通过计算其与平均值之间的偏离程度来进行。
常用的方法有使用标准差或者残差来衡量。
•标准差:计算所有样本点与平均值之间的差异,并根据标准差的大小来判断是否为粗大误差。
一般来说,如果一个样本点与平均值之间的差异超过平均差异的两倍或三倍,就可以被视为粗大误差。
•残差:对于回归分析等情况,可以计算每个样本点的残差(观测值与拟合值之间的偏差),并根据残差的大小来判别是否为粗大误差。
通常情况下,如果一个样本点的残差超过平均残差的两倍或三倍,就可以被视为粗大误差。
2. 离群点检测离群点是指在数据集中与其他数据点明显不同的观测值。
离群点可能是由于异常情况、错误测量、记录错误等原因导致。
判别离群点可以使用以下方法:•离群因子(Outlier Factor):通过计算每个观测值周围其他观测值的密度来判断其是否为离群点。
如果一个观测值周围其他观测值的密度较低,则可以被认为是离群点。
•基于距离的方法:通过计算观测值与其他观测值之间的距离来判断其是否为离群点。
如果一个观测值与其他观测值之间的距离明显大于平均距离,则可以被认为是离群点。
•箱线图(Box Plot):通过绘制数据的箱线图来判断是否存在离群点。
箱线图展示了数据的四分位数和异常值,如果一个观测值超过上下四分位数的1.5倍或3倍,可以被视为离群点。
粗大误差四种判别准则的比较和应用
熊艳艳;吴先球
【期刊名称】《大学物理实验》
【年(卷),期】2010(023)001
【摘要】目前数据处理中异常值的剔除方法有多种,并没有统一的规范标准,分析了判别粗大误差的四种方法的特点,通过综合归纳给出了应用这些判别准则的建议.【总页数】3页(P66-68)
【作者】熊艳艳;吴先球
【作者单位】华南师范大学,广东广州510006;华南师范大学,广东广州510006【正文语种】中文
【中图分类】G642.423
【相关文献】
1.常用费歇判别准则的比较 [J], 周静芋;宋世德;郭满才
2.粗大误差判别准则在H-ADCP流速关系率定中的应用比较 [J], 陈澄;杨阳
3.四种判别粗大误差准则的比较与讨论 [J], 赵海霞;周少娜;肖化
4.基于支持向量的判别准则的比较 [J], 陈姣姣;范丽亚
5.基于粗大误差判别准则的测量列数据的处理与优化 [J], 唐伟;钟伟;段国艳
因版权原因,仅展示原文概要,查看原文内容请购买。
判断粗大误差的三个准则
判断粗大误差的三个准则包括:
1. 实质性误差:通过对数据进行验证和比对,确定是否存在实质性误差。
其中包括数值的偏离和异常值,以及与其他相关数据的不一致性。
2. 逻辑一致性:对数据进行逻辑分析,判断数据之间是否存在逻辑矛盾或不一致的情况。
例如,某个数据值远远超出合理范围,或者一个事件的发生时间在前后存在矛盾。
3. 内在规律性:根据统计原理和经验规律,对数据进行分析,判断数据是否符合预期的分布或趋势。
如果数据的分布与预期不符,或者存在异常的波动,可能存在粗大误差。
这三个准则可以帮助我们发现可能存在的粗大误差,并进行相应的修正和调整,以提高数据的准确性和可靠性。
粗大误差判断准则摘要: 当在测量数据中发现某个数据可能是异常数据时,一般不要不加分析就轻易将该数据直接从测量记录中删除,最好能分析出该数据出现的主客观原因。
判断粗大误差可从定性分析和定量判断两方面来考虑。
定性分析就是对测量环境、测量条...当在测量数据中发现某个数据可能是异常数据时,一般不要不加分析就轻易将该数据直接从测量记录中删除,最好能分析出该数据出现的主客观原因。
判断粗大误差可从定性分析和定量判断两方面来考虑。
定性分析就是对测量环境、测量条件、测量设备、测量步骤进行分析,看是否有某种外部条件或测量设备本身存在突变而瞬时破坏;测量操作是否有差错或等精度测量过程中是否存在其他可能引发粗大误差的因素;也可由同一操作者或另换有经验操作者再次重复进行前面的(等精度)测量,然后再将两组测量数据进行分析比较,或再与由不同测量仪器在同等条件下获得的结果进行对比,以分析该异常数据出现是否“异常”,进而判定该数据是否为粗大误差。
这种判断属于定性判断,无严格的规则,应细致和谨慎地实施。
定量判断,就是以统计学原理和误差理论等相关专业知识为依据,对测量数据中的异常值的“异常程度”进行定量计算,以确定该异常值是否为应剔除的坏值。
这里所谓的定量计算是相对上面的定性分析而言,它是建立在等精度测量符合一定的分布规律和置信概率基础上的,因此并不是绝对的。
下面介绍两种工程上常用的粗大误差判断准则。
1.拉伊达准则拉伊达准则是依据对于服从正态分布的等精度测量,其某次测量误差|Xi -X0|大于3σ的可能性仅为0.27%。
因此,把测量误差大于标准误差σ(或其估计值)的3 倍的测量值作为测量坏值予以舍弃。
由于等精度测量次数不可能无限多,因此,工程上实际应用的拉伊达准则表达式为(1)式中,Xk 为被疑为坏值的异常测量值;为包括此异常测量值在内的所有测量值的算术平均值;为包括此异常测量值在内的所有测量值的标准误差估计值;KL(=3)为拉伊达准则的鉴别值。
粗大误差四种判别准则的比较
粗大误差是指在测量过程中,偶尔产生的某些不应有的反常因素造成的测量数值超出正常测量误差范围的小概率误差。
含有粗大误差的数据会干扰对实验结果的分析,甚至歪曲实验结果。
若不按统计的原理剔除异常值,而把一些包含较大正常误差但不属于异常值的数据舍弃或保留一些包含较小粗大误差的异常值,就会错估了仪器的精确等级。
因此,系统检验测量数据是否含有粗大误差是保证原始数据的可靠及其有关计算的准确的前提。
排除异常数据有四种较常用的准则,分别是拉伊达准则、格拉布斯准则、肖维勒准则和狄克逊准则。
每种判别准则都有其处理方法,导致用不同准则对异常值判别的结果有时会不一致。
目前异常值的剔除还没有统一的准则,本文综合判别粗大误差四种方法的特点,系统归纳各种准则的应用,以便更好地发现和判别含有粗大误差的数据。
1.四种判别粗大误差准则的特点
1.1拉伊达准则
拉伊达准则[4]是以三倍测量列的标准偏差为极限取舍标准,其给定的置信概率为99.73%,该准则适用于测量次数n>10或预先经大量重复测量已统计出其标准误差σ的情况。
Xi为服从正态分布的等精度测量值,可先求得它们的算术平均值X、残差vi和标准偏差σ。
若|Xi- X|>3σ,则可疑值Xi含有粗大误差,应舍弃;
若|Xi- X|≤3σ,则可疑值Xi为正常值,应保留。
把可疑值舍弃后再重新算出除去这个值的其他测量值的平均值和标准偏差,然后继续使用判别依据判断,依此类推。
1.2格拉布斯准则
格拉布斯准则适用于测量次数较少的情况(n<100),通常取置信概率为95%,对样本中仅混入一个异常值的情况判别效率最高。
其判别方法如下:
先将呈正态分布的等精度多次测量的样本按从小到大排列,统计临界系数G(a,n)的值为G0, 然后分别计算出G1、Gn:G1=( X-X1)/σ,Gn=(Xn- X)/σ (1)
若G1≥Gn且G1>G0,则X1应予以剔除;
若Gn≥G1且Gn>G0,则Xn应予以剔除;
若G1<G0且Gn<G0,则不存在“坏值”。
然后用剩下的测量值重新计算平均值和标准偏差,还有G1、Gn和G0,重复上述步骤继续进行判断,依此类推。
1.3肖维勒准则
肖维勒准则是建立在频率p=m/n趋近于概率P{|Xi- X|>Zcσ}的前提下的(其中m是绝对值大于Ecσ的误差出现次数,P是置信概率)。
设等精度且呈正态分布的测量值为Xi,若其残差vi ≥Zcσ则Xi可视为含有粗大误差,此时把读数Xi应舍弃。
把可疑值舍弃后再重新计算和继续使用判别依据判断,依此类推。
1.4狄克逊准则
狄克逊准则是一种用极差比双侧检验来判别粗大误差的准则。
它从测量数据的最值入手,一般取显著性水平a为0.01.此准则的特点是把测量数据划分为四个组,每个组都有相应的极端异常值统计量R1、R2的计算方法,再根据测量次数n和所对应的统计临界系数D(a,n)按照以下方法来判别:
若R1>R2,R1>D(a,n),则判别X1为异常值,应舍弃;
若R2>R1,R2>D(a,n),则应舍弃Xn;
若R1<D(a,n)且R2<D(a,n),则没有异常值。
2.四种判别粗大误差准则的比较
2.1四种判别粗大误差准则的归纳
实际上教学实验中的测量样本大多比较小,四种准则所要求的正态分布前提不容易满足,标准偏差会由于偏离正态分布而不准确。
若不考虑具体的临界系数与置信水平,这四种准则的思维方法都可归纳为:首先计算某组测量值X1,X2,X3……Xn的平均值x、残差vi和标准偏差σ。
对于第i次测量值,如果vi>kσ (2)则可判别为含有粗大误差,其中k为统计临界系数。
狄克逊准则是用极差比来检测异常值的,它的统计临界系数与其他准则不具有可比性。
除狄克逊准则外,作拉伊达准则、格拉布斯准则和肖维勒准则在测量次数3≤n≤250的曲线关系,见图1。
2.2四种判别粗大误差准则的比较讨论
拉伊达准则、格拉布斯准则和肖维勒准则的对比曲线可以看出:对应于相同的测量次数,各判别准则的统计临界系数各不相同,以拉伊达准则的统计临界系数3为线索,当n=25时,格拉布斯准则(a=0.01)的统计临界系数刚好到达3以上,而当n=185时,肖维勒准则的统计临界系数刚好也到达3。
因此可把总范围分为以下三个小范围。
(1)在3≤n<25这个范围内,建议用狄克逊准则或格拉布斯准则(a=0.01)来判别可疑数据。
在少量样品时,拉伊达准则的统计临界系数相对比较大,不易及时发现异常数据,使用它会比较苛刻。
而肖维勒准则的统计临界系数太小,容易剔除仅含有较大正常误差的测量值。
因此用可一次性剔除多个异常值且无需求出样本平均值X、残差vi和标准偏差σ的狄克逊准则或格拉布斯准则(a=0.01)来判别可疑数据是合适的。
(2)在25≤n≤185的范围内,建议用格拉布斯准则(a=0.05)或肖维勒准则来判别可疑数据。
统计临界系数最大的是格拉布斯准则(a=0.01),虽然肖维勒准则的统计临界系数偏小,但在这一范围内肖维勒准则可以补充拉伊达准则的不足,因此判别数据时采用格拉布斯准则(a=0.05)或肖维勒准则比较合适。
(3)在测量次数n>185时,建议采用拉伊达准则。
因为此时肖维勒准则的统计临界系数偏大,在剔除异常值时容易把含有较小粗大误差的数据遗漏掉。
因此,为了更好地对测量数据作出确切的判断且尽量避免让被剔除的数据丢失总体信息,可以采用以下方法:
判别前最好先按照从小到大排列测量数据。
首先怀疑最值,如果最值不是异常值则其他值也就不会含有粗大误差了。
对此四种准则的综合判别方法,见表1。
表1综合判别方法
结论
综上所述,由于四种判别准则在理论上剔除异常值是各自相对于某个精度而言的,它们的检
验范围和判别效果不同,在不同的情况下应用不同的准则的严格程度不同,但不加比较随便使用某一种准则来判别测量值是否含有粗大误差,这样有时会得到相对不准确的结论,可能把仅包含正常误差的可疑值剔除了,或者保留了含有粗大误差的异常值。
本文中的图1直观明了、使用方便,因此采用本文建议的综合归纳方法可以使在数据处理中判别粗大误差有据可依,并使剔除异常数据的效率有所提高,得出相对准确的测量计算结果。
在目前还没有一个适用于所有情况的判别粗大误差的准则,因此对数据是否含有粗大误差的判别仍然是一个需要逐步研究和更多实践的问题。
本文的建议和尝试,仍需理论研究分析和进一步完善。