试验数据异常值的检验及剔除方法
- 格式:doc
- 大小:367.50 KB
- 文档页数:8
异常值的检验方法和判断标准1. 引言1.1 异常值的重要性异常值在数据分析中扮演着至关重要的角色,它们可能会对我们的分析结果产生影响,甚至导致我们做出错误的决策。
正确地检测和处理异常值至关重要。
异常值可能会影响我们对数据集的整体分布的理解。
如果数据中存在异常值,那么数据的均值、方差等统计量可能会被扭曲,从而误导我们对数据的解读。
通过寻找和排除异常值,我们可以更准确地描述数据的特征。
异常值也可能会影响我们建立的统计模型的准确性。
在一些情况下,异常值可能会对模型参数的估计造成严重偏差,从而影响我们对数据的预测能力。
及时发现和处理异常值可以提高我们建立的模型的质量。
1.2 异常值的定义异常值是指在数据集中与其他观测值明显不同的数值,它们可能是由于测量误差、数据录入错误或者真实现象导致的极端数值。
异常值在数据分析中具有重要性,因为它们可能对统计分析和模型建立产生影响,导致结果不准确或失真。
异常值的存在会影响数据的分布、均值和方差等统计性质,因此在数据处理和分析过程中需要进行检测和处理。
通常情况下,异常值可以通过与数据的整体分布进行比较来确定,例如通过绘制箱线图、直方图或散点图等可视化方法来识别异常值。
除了可视化方法外,统计学方法如Z-score、IQR等也常用于检测异常值。
机器学习方法如聚类分析、异常检测算法等也可以用来识别异常值。
专家经验在实际数据处理中也是重要的,经验丰富的专家可以通过直觉和经验判断数据中的异常值。
异常值在数据分析中起着重要作用,正确的检测和处理异常值可以确保数据分析结果的准确性和可靠性。
在实际应用中,我们需要综合考虑不同的方法来识别异常值,并根据具体情况选择合适的处理方法。
2. 正文2.1 可视化方法可视化方法是一种直观、直觉的异常值检验方法,通过图形展示数据的分布情况,可以帮助我们识别异常值。
常用的可视化方法包括箱线图、散点图、直方图等。
箱线图是一种常用的可视化方法,可以直观地展示数据的中位数、四分位数和异常值情况。
莱茵达法则检验异常值的步骤莱茵达法则(Chebyshev's theorem)是一种统计方法,用于确定数据集中的异常值。
这一方法可以根据数据集的均值和标准差,计算出在多少个标准差之内的值占据了总体数据的比例,并据此判断是否存在异常值。
莱茵达法则的步骤如下:1.获取数据集:首先需要获取要分析的数据集。
这可以是任何类型的数据,包括数值型和类别型数据。
2. 计算平均值和标准差:使用适当的方法计算数据集的平均值和标准差。
平均值(mean)表示数据集的集中趋势,标准差(standard deviation)表示数据的离散程度。
3.计算标准差倍数:根据莱茵达法则,可以通过标准差的倍数来判断一个值是否为异常值。
通常情况下,标准差倍数可以选择为2、3或更高的值。
较高的倍数可以更严格地筛选异常值,但同时也可能将一些正常但偏离平均值的值排除在外。
4.计算异常值范围:根据选择的标准差倍数,可以计算出超过多少个标准差的值应被视为异常值。
对于2倍标准差,超过平均值加减两个标准差的值可以被视为异常值;对于3倍标准差,超过平均值加减三个标准差的值可以被视为异常值。
5.判断异常值:根据计算得到的异常值范围,可以对数据集中的每个值进行判断,看其是否为异常值。
如果一些值位于异常值范围之外,则可以认为它是一个异常值。
需要注意的是,莱茵达法则只是一种粗略的判断方法,不能准确地确定数据中的异常值。
在实际应用中,可能需要结合其他方法和专业知识来判断和处理异常值。
此外,莱茵达法则假设数据集近似服从正态分布,如果数据集不满足正态分布的条件,那么莱茵达法则的准确性可能会受到影响。
因此,在使用莱茵达法则时,应该对数据的统计特性进行合理的分析和判断。
检验科学中的常见实验误差与异常处理在检验科学领域,实验是一种重要的研究方法,能够用以验证或者推翻某个假设,揭示某个规律。
然而,由于多种因素的干扰,实验结果可能会出现误差或异常情况,对研究的可靠性和准确性产生影响。
因此,了解常见的实验误差以及如何处理异常情况,对于保证实验结果的可靠性至关重要。
一、实验误差的分类与原因分析实验误差主要分为系统误差和随机误差两类。
系统误差是由于实验设备、操作方法、环境因素等引起的固定偏差,其产生的原因较为固定且可预测。
随机误差则是由于个体差异、测量仪器精度、环境噪声等引起的不确定性偏差,其产生的原因难以完全掌控。
(一)系统误差系统误差大致可分为以下几种类型:1. 仪器误差:检测仪器精度、刻度不准确等问题会导致系统误差;2. 操作误差:实验者在执行实验过程中,由于操作不准确、手动操作失误等引起的误差;3. 环境误差:实验环境的不稳定性、温度变化等因素会导致系统误差;4. 样本误差:样本的存在和选择也会造成系统误差,例如对样本的预处理方法不准确等。
(二)随机误差随机误差包括以下方面:1. 个体差异:在同一实验条件下,由于实验个体的差异性,导致观测结果的不确定性;2. 仪器精度:仪器的测量精度限制了测量的准确性;3. 环境噪声:实验环境中存在的噪声会对实验结果产生影响;4. 测量误差:因为实验者的技术能力、仪器的读数误差等导致测量结果存在偏差。
二、实验误差的减小与消除对于系统误差和随机误差,我们可以采取一些方法来减小和消除这些误差,以提高实验结果的准确性。
(一)减小系统误差1. 仪器校准:定期对实验仪器进行校准,保证其准确性和稳定性;2. 操作规范化:对实验操作步骤进行规范化,减少操作者个体差异带来的误差;3. 控制环境条件:在实验过程中,控制环境因素的变化,如温度、湿度等,以减小环境误差对结果的影响;4. 样本处理:对于样本的处理方法,应保证其准确性和完整性,避免样本误差的出现。
回归分析中异常值的诊断与处理1 引言对调查得到的大量原始数据进行加工处理,提取其中有用的信息,即统计整理,是进一步进行统计分析的前提.但是通常的统计整理方法往往都对样本数据有一个前提假设,即样本数据是来自同一个总体,而这个假设有时却不能成立.原因一是由客观因素造成的,如总体条件的突然变化或人们未知的某个因素的突然出现等等;二是由主观方面的因素造成的,即人为的差错如调查人员读错或抄错数据,不小心把另一些不同条件下的样本数据混杂进来.当样本中的个别数据明显的偏离样本中其余数据时,这些数据可能是来自不同的总体,我们称这样的数据为异常数据.若对混有异常数据的样本按常规进行统计整理、分析、推断,往往会得出不符合实际的结论.本文就样本中的异常数据提出了诊断方法和处理方法,并结合实例说明了简单回归中上述方法的具体应用.2 异常值的概念所谓异常值就是在所获统计数据中相对误差较大的观察数据,也称奇异值(Outliers).狭义地定义异常值就是一批数据中有部分数据与其余数据相比明显不一致的数据,也称离群值.社会经济统计中一切失实数据统称为异常值.由于人为或随机因素的影响,失实的数据随时都有可能出现,因而统计数据中的任何一个都有可能成为异常值,而狭义界定的异常值是指离群值,如果把统计数据按由小到大排列,若有异常值,它必位于其数据的两端,左端称为异常小值,右端的称为异常大值.残差:考虑线性回归模型y X e β=+,()0E e =,()2n Cov e I σ=. ()1其中 ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n y y y y 21,⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=---1,11,2211,111111p n n p p x x x x x x X ,⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=-110p ββββ ,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n e e e e 21. 分量形式为011,11i i i p p i y x x e βββ--=++++,n i ,, 1=. ()2定义ˆˆˆey y y X β=-=-为残差向量,其中ˆˆy X β=称为拟合值向量,βˆ为β在模型()1下的最小二乘估计.如果用n x x '',1表示X 的n 个行向量,则称 ˆˆi i i ey x β'=-, n i ,, 1=, 为第i 次试验或观测的残差.对简单回归,12111n x x X x ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n y y y y 21,⎥⎦⎤⎢⎣⎡=10βββ.则ˆˆiiie y x β'=-,n i ,, 1=,其中()1,iix x '=.于是,异常值就是在回归分析中,一组数据()i i y x ,'如果它的残差i eˆ较其它组数据的残差大的多,则称此数据为异常值.异常值的出现有主客观的原因.主观上抽样调查技术有问题,疏忽大意记错,或人为的虚报,谎报数据等都可能导致异常数据,这直接影响了统计数据的质量;客观上某些样品由于特定原因在某些变量上的确表现突出,明显超出平均水平,这也可能产生异常值.异常值的存在必将导致相应统计分析误差增大,会对分析结果(平均值与标准差)产生重要影响,会降低测量的精度.如果不预先处理它们,用通常的统计整理方法所得出的结论可靠性差.而异常值的诊断与处理是保证原始数据可靠性,平均值与标准差计算准确性的前提.3 异常值的诊断方法在讨论异常值诊断问题时,通常要假设所得样本观测值在某中意义下遵从一定的分布规律.拿到一批数据,若能从其实际背景中明确看出它服从某中分布形式时,一般的做法是在这种分布假设下,导出能较好反映异常值与正常值差异的统计量,在没有异常值的原假设下作假设检验.以下给出两种检验方法.3.1 F 分布检验法学生化残差:考虑线性回归模型()1,记ˆˆyX β=,称y ˆ为拟合值向量,称其第i 个分量βˆˆi i x y'=为第i 个拟合值,则 ()1ˆy X X X X y Hy -''==,这里()1H X X X X -''=.文献中通常称H 为帽子矩阵.前面已经定义了ˆˆi i i ey x β'=-, n i ,, 1=, 为第i 次试验或观测的残差.将其标准化为iii h e-1ˆσ,再用σˆ代替σ,得到所谓学生化残差 ii i i h e r -=1ˆˆσ, n i , ,1=,这里ii h 为H 的第i 个对角元,pn eni i-=∑=122ˆˆσ.把正态线性回归模型()1改写成分量形式i i i e x y +'=β,()2,0~σN e i ,n i ,, 1=,这里i e ,)1(n i ,, =相互独立.如果第j 组数据()j j y x ,'是一个异常点,那么它的残差就很大.它的残差之所以很大是因为它的均值()j y E 发生了非随机性漂移η.从而()ηβ+'=j j x y E .这产生了一个新的模型i i ij j jy x e y x e ββη'=+⎧⎪⎨'=++⎪⎩ ()2~0,,i i j e N σ≠ ()3 记[]0,,0,1,0,,0j d '=.将模型()3改写成矩阵的形式j y X d e βη=++, ()I N e 2,0~σ, ()4模型()3和()4称为均值漂移线性回归模型.要判定()j j y x ,'不是异常点,等价于检验假设0=η:H .引理1 用()i y ,()i X 和()i e 分别表示从Y 、X 和e 剔除第i 行所得到的向量或矩.从线性回归模型()1剔除第i 组数据后,剩余的1-n 组数据的线性回归模型为()()()i i i y X e β=+,()()0i E e =,()()21n i Cov e I σ-=. ()5将从这个模型求到的β的最小二乘估计记为()i βˆ,则 ()()i iii i x X X h e11ˆˆˆ-'--=ββ. 证明:因为()()()()()()1ˆi i i i i X X X y β-''=. ()6设A 为n n ⨯可逆阵,v u 和均为1⨯n 向量.用恒等式()vA u A v u A A v u A 111111-----'-'+='- 有()()()()()()()111111i i i i iiiiX X x x X X X X X X x x X X h -----'''''''=-=+-, ()7这里i x '为X 的第i 行.将上式两边右乘X y ',并利用()()i i i i X y X y y x ''=+以及()6式,有()()()()()()iii i ii i i i h x x X X x X X y -''-'+=--1ˆˆˆ11βββ.()8将()7式右乘i x ,可以得到如下关系式()()()()i iii iix X X h x X X 1111--'-='. 将其代入()8式,得到()()i iii i x X X h e11ˆˆˆ-'--=ββ. 引理2 对均值漂移线性回归模型()4,β和η的最小二乘估计分别为()j ββˆ=*和j jje h ˆ11-=*η, 其中()j βˆ为从非均值漂移线性回归模型()1剔除第j 组数据后得到的β的最小二乘估计.()()X X X X h H jj ''==-1,jj h 为H 的第j 个对角元.j e ˆ为从模型()2导出的第j 个残差.证明:显然,j j y y d =',1='j j d d .记()12,,,n X x x x '=.则j j x d X ='.于是,根据定义()111j j j j j j X X X X x X y Xd y d d x y βη-*-*''''⎡⎤⎛⎫⎡⎤⎡⎤⎛⎫⎡⎤==⎢⎥ ⎪ ⎪⎢⎥⎢⎥⎢⎥'''⎢⎥⎣⎦⎝⎭⎣⎦⎣⎦⎝⎭⎣⎦. 根据分块矩阵的逆矩阵公式(见附录1),以及()j j jj x X X x h 1-''=.()()()()()()()()111111111111111111ˆˆ1111ˆ111ˆˆ11ˆ1j j j jj jjj j jj jjj j j j jj jjj j jj jj j j jjj jj X X X X x x X X X X x h h X y y x X X h h X X x x X X x y h h x y h h X X x e h e h βηββββ----**----⎡⎤'''''+-⎢⎥--'⎡⎤⎡⎤⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦''-⎢⎥--⎣⎦⎛⎫'''+- ⎪--⎪= ⎪'-+ ⎪ ⎪--⎝⎭⎛'--=-⎝⎫ ⎪⎪ ⎪ ⎪ ⎪⎭. 再由引理1知命题得证.现在应用引理来求检验0=η:H 的检验统计量.注意到,对现在的情形,在约束条件0=η下,模型()4就化为模型()1,于是=H RSS 模型()1无约束情形下的残差平方和 y X y y ''-'=βˆ. 而模型()4的无约束残差平方和y d y X y y RSS j '-'-'=**'ηβ. ()9利用引理2得()2ˆˆˆ1ˆˆ111H jj j j j j jj jj jjRSS RSS X y d y e y e e x h h h ββηβ**'''-=-+'=-+=---.这里βˆˆj j j x y e'-=为第j 组数据的残差. 利用*β和*η的具体表达式将()9式作进一步化简:jj j j jjj j h y e h y e y X y y RSS ---+''-'=1ˆ1ˆˆˆβ=()jjj h e p n ---1ˆˆ22σ,其中pn eni i-=∑=122ˆˆσ.根据引理2,所求的检验统计量为()()()()22222111ˆ1ˆ1ˆ1jj jj j jj jH r p n r p n h p n e p n p n h e p n RSS RSSRSS F ----=--------=---=σ. 于是,我们证明了如下事实:定理[]2 对于均值漂移线性回归模型()4,如果假设0=η:H 成立,则()1,122~1------=p n j j j F r p n r p n F .据此,我们得到如下检验:对给定的()10<<αα,若()()α1,1221-->----=p n jj j F rp n r p n F ,则判定第j 组数据()j j y x ,'为异常点.当然,这种检验会犯“判无为有”的错误,也就是()jjy x ,'可能不是异常点,而被误判为异常点.但我们犯这种错误的概率只有α,事先我们可以把它控制的很小.显然,根据t 分布与F 分布的关系,我们也可以用t 检验法完成上面的检验.若定义()()212211⎥⎥⎦⎤⎢⎢⎣⎡----==j j j j r p n p n r F t . 对给定的α,当⎪⎭⎫⎝⎛>--21αp n j t t时,我们拒绝假设0=η:H .即判定第j 组数据()j j y x ,'为异常点.3.2 残差及残差图检验异常值前面定义了βˆˆX y e-=,称为残差向量,其分量形式ˆˆi i i e y x β'=-,()1,,i n =,称为第i 次试验或观测的残差.特别地,对简单回归,()i i x x ,1=',n i ,, 1=.⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛---=⎥⎦⎤⎢⎣⎡=∑∑==n i i n i i i x n x y x n y x x y 1221110ˆˆˆˆββββ.所以,()i i i x y e 10ˆˆˆββ+-=,n i ,, 1=. 残差是最重要的一种回归诊断量,它蕴涵了有关模型基本假设的许多重要信息.残差分析就是对残差进行统计处理,从中提炼出这些信息的方法.而残差图就是残差分析中使用的基本工具.所谓残差图就是残差i eˆ对因变量y 或自变量n X X X ,, 21,,或其它导出统计量(如拟合值i yˆ)的点子图,有时候也用残差对时间或对数据序数的点子图.最简单的图,尤其在简单回归中,为残差i eˆ对拟合值i y ˆ的图. 所谓异常数据就是相对于其它观测值来说,具有大的残差的数据点.利用残差及残差图检验异常值的方法是用所给数据计算出残差i eˆ,与其余观测值的残差进行比较,具有大的残差的数据点被怀疑为异常值.然后作出自变量与因变量的散点图,残差i e ˆ对拟合值i y ˆ的残差图以及残差i eˆ对自变量i x 的残差图,从图中观察,那些远离大多数观测点的孤立的点有理由被认为是异常点.然后从数据中删除这些点,再次估计回归方程,作出X 与Y 的散点图以及i eˆ对i y ˆ的残差图,计算标准差,与删除前进行比较. 4 提出两种处理方法4。
用Origin 剔除线性拟合中实验数据的异常值吴先球,华南师范大学 物理系,广州 510631摘要:介绍了用Microcal Origin 软件进行实验数据线性拟合的具体方法,利用其Lab Talk 编程和Data Mask 等高级功能,以肖维勒准则实现了异常数据的判断和剔除。
以核磁共振的稳态吸收中磁场强度和励磁电流的线性拟合实验为例,通过整个实验数据处理和分析的过程,展示了Origin 直观、快捷、高效的特点,适合学生在物理实验的数据处理和分析中应用。
关键词:Origin ;线性拟合;异常值剔除;肖维勒准则实验数据曲线拟合及分析的传统方法,是采用最小二乘法[4]和坐标纸作图法。
这种手工做法,计算量大,精度不高。
随着计算机的发展和普及应用,实验数据的计算机处理已成为趋势。
目前常见的方法是使用自编程序[5]或Excel [6] 、Grapher [7]等软件。
自编软件往往功能单一,可视化功能差;Excel 软件功能强,但是对实验数据的处理针对性不强,数据的分析能力弱。
经过反复研究和实践,我们发现Origin 数据分析软件适合于实验数据的处理、分析和可视化表征。
本文以核磁共振的稳态吸收实验为例,介绍用Origin 软件进行实验数据线性拟合的具体方法,利用其Lab Talk 编程和Data Mask 等高级功能,以肖维勒准则实现了异常数据的判断和剔除。
1 实验数据异常值的判断及其剔除方法在一系列测量值中混有异常值,会歪曲实验结果。
只有剔除异常值,才能符合客观实际。
但如果可疑数据在误差的准许范围之内而被抛之不用,也会歪曲实验结果。
因此,首先要掌握统计判断准则,准确判断可疑数据点是否为异常值而应该剔除,从而获得更合理的拟合曲线。
判别测量值中是否含有异常值,在统计学中已建立了多种准则。
格拉布斯准则[1]在测量次数为30次左右效果最好。
当重复测量次数较多时(如几十次以上),拉伊达准则[2](即3σ准则)是最简便的方法,但在测量次数较少时,即使存在异常值也很难剔除。
目的:制定检验中出现的异常值时应采取的措施,查明原因(生产、取样、样品保存和检验),并采取纠正预防措施,避免重复出现。
范围:适用于在质检科处进行的各项成品检测、中间体检测、原辅料检测、工艺用水检测等。
职责:1.检验人员职责:(1)检验人员的首要责任是获得准确的检验结果;(2)必须使用经过批准的检验方法;(3)使用经过校验和适当维护的仪器、设备,而且运行良好;(4)使用有效期内的标准物质、对照品和合格的试剂、试液;(5)在丢弃样品制备液、对照品液和标准制备液之前,检验人员应该核查数据对标准的符合性,并正确处理数据;(6)如在检验过程中发现差错,检验人员应立即停止检验;(7)出现OOS结果,及时控制样品、溶液至调查结束;(8)出现OOS结果,通知质检科科长,并协助调查;(9)与质检科科长等相关人员做出调查结论并完成相关调查报告。
2.质检科科长职责:(1)OOS结果进行确认,对可能的原因进行客观及时的评估;(2)与检验人员讨论方法,确认检验人员知道并执行了正确的检验方法;(3)检查原始分析中得到的记录,包括图谱、计算、溶液、检验用材料、仪器和玻璃器具。
确定有无异常和可疑信息;(4)检查仪器的性能、使用记录;(5)检查标准品、对照品、试剂、溶剂和其他用到的溶液,应满足质量控制标准的要求;(6)评估检验方法的执行情况,以保证是按照标准执行的,其标准的制定以方法验证数据和历史数据为基础;(7)如果OOS结果确定为实验室差错(培训、仪器、工作不仔细等),应组织相关人员进行根本原因分析,确定差错的来源,并采取纠正预防措施以避免再次发生;若属于检验人员错误,则需组织对检验人员进行再培训;(8)整个调查过程中的记录和证据。
3.质量部经理职责:(1)审核OOS结果的实验室调查报告;(2)若OOS是生产原因,参与生产等过程的调查;(3)负责异常调查报告归档及定期评估;(4)在产品的年度报告中对OOS结果进行评价;(5)批准检验异常情况调查报告;(6)指导实验室进行OOS结果的调查,并对调查过程及相关记录进行检查。
水质检验中的数据误差及处理方法数据误差是水质检验中常见的问题,它可能由于多种因素引起,如实验操作不当、仪器不准确、样品污染等。
为了保证水质检验结果的准确性和可靠性,需要对数据误差进行合理的处理。
数据误差可以分为系统误差和随机误差两种类型。
系统误差是指由于实验方法、仪器仪表或操作人员等方面的不确定因素引起的误差。
随机误差是指由于样品制备、批次差异、仪器仪表自身的不稳定性等因素引起的误差。
对于系统误差,可以采取以下处理方法:1. 校正和修正:根据仪器的准确度和灵敏度,可以通过校正系数来修正实验数据。
校正系数可以根据仪器的标定曲线或参考标准物质进行确定,从而提高数据的准确性。
2. 多次平均法:通过多次测量同一样品,取平均值来减小系统误差对数据的影响。
要求多次实验条件尽量一致,这样可以减小系统误差的影响。
3. 交叉比对法:使用不同方法或不同仪器进行比对,通过对比数据的一致性来发现和解决系统误差。
比对可以在实验室内部进行,也可以与其他实验室进行合作。
1. 整批平均法:如果样品数量较大,可以将样品分成若干批进行测试,然后对每批样品的测试结果进行平均,这样可以减小随机误差的影响。
2. 增加样品量:增加样品的数量可以提高数据的稳定性和可靠性,减小随机误差的影响。
3. 重复实验法:通过重复测试同一样品,并对结果进行比较和分析,来评估实验数据的可靠性。
如果重复实验结果相差较大,则可能存在较大的随机误差。
1. 删除异常值:对于明显异常的数据,可以酌情删除,以免对结果产生误导性影响。
2. 统计分析:采用统计学方法对数据进行分析,计算平均值、标准差、置信区间等统计指标,对数据的可靠性进行评价。
3. 质控检验:建立质控体系,参加有关的质量评定或认证,及时发现并纠正测试过程中的误差,确保实验数据的准确性和可靠性。
对于水质检验中的数据误差,我们可以通过校正修正、多次平均、交叉比对、整批平均、增加样品量、重复实验、删除异常值、统计分析和质控检验等方法来进行合理的处理,以提高数据的准确性和可靠性。
目录 摘要 ...................................................................................................................................................... I
关键词 ................................................................................................................................................ I
1 引言 .............................................................................................................................................. 1
2 异常值的判别方法 ............................................................................................................. 1
2.1 检验(3S)准则 ................................................................................................................ 1
2.2 狄克松(Dixon)准则 .................................................................................................... 2
2.3 格拉布斯(Grubbs)准则 ............................................................................................. 2
2.4 指数分布时异常值检验.................................................................................................. 3
2.5 莱茵达准则(PanTa) .................................................................................................... 3
2.6 肖维勒准则(Chauvenet) .......................................................................................... 4
3 实验异常数据的处理 ....................................................................................................... 4
4 结束语 ......................................................................................................................................... 6
参考文献 ........................................................................................................................................... 6 内江师范学院本科学年论文
I 试验数据异常值的检验及剔除方法 摘要:在实验中不可避免会存在一些异常数据,而异常数据的存在会
掩盖研究对象的变化规律和对分析结果产生重要的影响,异常值的检验与正确处理是保证原始数据可靠性、平均值与标准差计算准确性的前提.本文简述判别测量值异常的几种统计学方法,并利用DPS软件检验及剔除实验数据中异常值,此方法简单、直观、快捷,适合实验者用于实验的数据处理和分析.
关键词:异常值检验;异常值剔除;DPS;测量数据 内江师范学院本科学年论文
1 1 引言 在实验中,由于测量产生误差,从而导致个别数据出现异常,往往导致结果产生较大的误差,即出现数据的异常.而异常数据的出现会掩盖实验数据的变化规律,以致使研究对象变化规律异常,得出错误结论.因此,正确分析并剔除异常值有助于提高实验精度. 判别实验数据中异常值的步骤是先要检验和分析原始数据的记录、操作方法、实验条件等过程,找出异常值出现的原因并予以剔除. 利用计算机剔除异常值的方法许多专家做了详细的文献[1]报告.如王鑫,吴先球,用Origin剔除线形拟合中实验数据的异常值;严昌顺.用计算机快速剔除含粗大误差的“环值”;运用了统计学中各种判别异常值的准则,各种准则的优劣程度将体现在下文.
2 异常值的判别方法 判别异常值的准则很多,常用的有t检验(3S)准则、狄克松(Dixon)准则、格拉布斯(Grubbs)准则等准则.下面将一一简要介绍. 2.1 检验(3S)准则 t检验准则又称罗曼诺夫斯基准则,它是按t分布的实际误差分布范围来判别
异常值,对重复测量次数较少的情况比较合理. 基本思想:首先剔除一个可疑值,然后安t分布来检验被剔除的值是否为异常值. 设样本数据为123,,nxxxx,若认jx为可疑值.计算余下1n个数据平均值
1nx及标准差1ns,即21111,1,11,()12nnnininiijiijxxsxxnn. 内江师范学院本科学年论文 2 然后,按t分布来判别被剔除的值jx是否为异常值.
若1(,)njxxkna,则jx为异常值,应予剔除,否则为正常值,应予以保
留.其中:a为显著水平;n数据个数;(,)kna为检验系数,可通过查表得到.
2.2 狄克松(Dixon)准则 设有一组测量数据123nxxxx,且为正态分布,则可能为异常值的测
量数据必然出现在两端,即1x或nx.
狄克松给出了不同样本数量n时检验统计量的计算公式(见表1).当显著水平a为1%或5%时,狄克松给出了其临界值1()anD.如果测量数据的检验统计量
1()anDD,则1x为异常值,如果测量数据的检验统计量'1()anDD,则nx为异
常值. 表1 狄克松检验统计量计算公式为
数据个数n 统计量D
1x为可疑值D nx为可疑值'D
37n 211()/()nxxxx 11()/()nnnxxxx
810n 2111()/()nxxxx 12()/()nnnxxxx
1113n 3111()/()nxxxx 22()/()nnnxxxx
1430n 3121()/()nxxxx 23()/()nnnxxxx
2.3 格拉布斯(Grubbs)准则 设有一组测量数据为正态分布,为了检验数据中是否存在异常值,将其按
大小顺序排列,即123nxxxx,可能为异常值的测量数据一定出现在最大
或最小的数据中. 内江师范学院本科学年论文 3 若最小值1x是可疑的,则检验统计量1()/Gxxs.式中x是均值、s是标准
差,即2
1111,()1nniiiixxsxxnn
.
对于检验统计量G,格拉布斯导出了其统计分布,并给出了当显著水平a为1%或5%时的临界值(1)()nGn.(1)()nGn
称格拉布斯系数,可通过抽查表得到.当最
小值1x或最大值nx对应的检验统计量G大于临界值时,则认为与之对应的1x或
nx为可疑异常值,应予以剔除. 2.4 指数分布时异常值检验 设一组测量数据为指数分布,为了检验数据中是否存在异常值,将其按大
小顺序排列,即123nxxxx.检验最小值或最大值是否为异常值的检验方法
如下:
当样本量100n时,计算统计量()1/nnnniiTxx及(1)11/nniiTxx
对于给定的显著水平a(通常取0.5)和样本数量n,通过查表得到()nnT及(1)nT
分别对应的临界值()(1)nnTa和(1)()nTa.若()()(1)nnnnTTa时,认为nx为异常值;
若(1)(1)()nnTTa时,认为1x为异常值.
当样本容量100n时,计算统计量()111(1)()/()nnnnniniEnxxxx及
(1)111(1)/()nniiEnnxxnx
.
对于给定显著水平a和样本数量n,若11()2,2~2,1(1)(1)nnnnaEFna,则
判断nx为异常值;若11(1)2,22,(1)[(1)1]nnnaEFna,则判断1x为异常值.
2.5 莱茵达准则(PanTa)
对于实验数据测出值123,,,,nxxxx,求取其算术平均值11/niixnx及剩余
误差值iivxx,然后求出其均方根偏差21/2(/1)ivn.