试验大数据的异常值地检验及剔除方法
- 格式:doc
- 大小:374.00 KB
- 文档页数:10
大数据分析师的异常检测与异常值处理在大数据时代,数据分析师扮演着重要的角色,通过对庞大的数据进行分析和挖掘,帮助企业做出合理决策。
然而,由于数据的复杂性和多样性,数据中常常存在一些异常值,这些异常值可能会对分析结果产生不良影响。
因此,异常检测和异常值处理成为大数据分析师必备的技能之一。
一、异常检测的方法在大数据分析中,常用的异常检测方法包括统计学方法、聚类分析、离群点检测和机器学习方法等。
1. 统计学方法:通过利用数据的均值、方差、标准差等统计指标,来判断数据是否处于正常范围。
常见的统计学方法包括Z分数法、箱线图等。
2. 聚类分析:将数据分为若干个簇,并根据异常值在簇中的位置来判断异常数据。
聚类分析可以帮助我们找到数据集中的一些特异模式。
3. 离群点检测:通过构建数据特征模型,寻找与正常模型有明显差异的数据点。
离群点检测可以有效识别出那些在数据分布中与众不同的数据。
4. 机器学习方法:利用机器学习算法来进行异常检测,如支持向量机、随机森林等。
这些方法能够通过训练数据集构建模型,进而对新数据进行异常值判断。
二、异常值处理的方法在进行异常检测后,需要对异常值进行处理,以保证数据分析的准确性和可靠性。
1. 删除异常值:当异常值对分析结果造成的影响较大且不可修正时,可以选择直接删除异常值,以保证结果的准确性。
但需要谨慎操作,避免删除过多合理的数据。
2. 替换异常值:将异常值替换为其他合理的值,可以选择使用平均值、中位数或众数进行替换。
这样有助于保持数据集的整体特征。
3. 转换异常值:通过对异常值进行数据变换或标准化,使其在更合理的范围内。
例如,可以使用对数转换或归一化等方法将异常值进行修正。
4. 分组处理异常值:将异常值根据其特点进行分组,对不同组别的异常值采用不同的处理方式。
这样可以更准确地处理不同类型的异常值。
三、注意事项在进行异常检测和异常值处理时,需要注意以下几点:1. 综合多种方法:单一的检测方法可能无法完全覆盖所有异常情况,综合多种方法可以提高异常检测的准确性。
大数据中的异常检测和异常数据处理大数据已经成为当今社会中必不可少的一部分,随着互联网和科技的发展,我们每个人都在不经意间产生了大量的数据。
这些数据包含了各种各样的信息和模式,然而,其中也可能存在一些异常数据,在处理大数据时,如何进行异常检测和异常数据处理成为了一项重要的任务。
异常数据一般指的是与其他数据有显著差异的数据点或数据集,它们可能是由于数据采集错误、传感器故障、人为错误或其他不可控因素引起的。
异常数据的存在可能会对数据分析和模型构建产生不良影响,因此,我们需要采取合适的方法来识别和处理异常数据。
在大数据中进行异常检测的一种常用方法是基于统计学的方法。
统计学方法通常通过计算数据点的均值、标准差和分位数等统计指标来判断其是否异常。
对于大规模的数据集,我们可以使用基于随机抽样的方法进行统计推断,从而减少计算复杂度。
另外一种常用的异常检测方法是基于机器学习的方法。
机器学习方法可以通过训练模型来学习数据的分布和模式,并从而检测异常。
常见的机器学习方法包括聚类、分类和回归等算法。
聚类算法可以将数据点分为不同的簇,异常点通常位于独立的簇中;分类算法可以根据已有的标记数据对新数据进行分类,异常点通常属于少数类;回归算法可以根据已有的数据建立回归模型,异常点通常与模型预测值有较大偏差。
除了统计学和机器学习方法,还可以使用基于规则的方法进行异常检测。
规则方法基于人工定义的规则,通过检查数据是否符合规则来判断其是否异常。
例如,我们可以定义某个指标的阈值范围,如果数据超出该范围,则判断为异常。
在进行异常检测后,我们需要对异常数据进行处理。
异常数据处理的方法通常包括删除、修复和转换等。
删除异常数据是一种简单直接的方法,它会直接将异常数据从数据集中移除。
然而,删除异常数据可能会导致数据的不完整性,进而对后续的数据分析产生影响。
修复异常数据是一种尝试恢复异常数据的方法。
修复方法可以根据异常数据的特征和背景知识,对异常数据进行修正或估算。
试验数据异常值的检验及剔除方法
摘要
异常值(outliers)指的是可能存在的测试数据点,其值大大偏离了
它们的数据集的中位数或平均值,如果未及时发现和处理这些异常值,将
会严重影响实验数据的准确性和有效性,因此,检验和剔除测试数据中的
异常值是必不可少的任务。
本文将介绍测试数据异常值检验和剔除的方法,旨在有效改善测试数据的准确性和有效性。
一、异常值的定义
异常值简单来说,指的是数据集中与其他所有值有明显差异的数据点。
它可能是由于实验环境的变化,实验设备的变化,数据获取的失误而产生的,或者错误的测量结果导致的。
二、异常值的检验
在检验数据中是否存在异常值之前,首先要明确测试数据的分布类型。
根据数据的分布,可采用不同的检验方法,通常按照如下步骤检验异常值:(1)可先将测试数据按照箱线图或四分位图等形式画出,看看数据
是否符合正态分布;
(2)可以计算数据的中位数、平均数、标准偏差等,来查看异常值
的程度;
(3)可以根据数据的中位数、平均数等,计算出数据的上下限,这
样便可以将数据划分为”正常“和”异常“;
(4)可以使用基于概率的检验方法,此方法可以给出异常值的检验
结果。
测试验证中的异常数据处理策略在实际测试验证中,处理可能出现的异常数据是确保测试结果准确性和可靠性的关键步骤。
以下是处理异常数据的一些建议方法:一、异常数据的识别1.设定阈值:根据测试目标和预期结果,设定合理的数据阈值。
当测试数据超出这些阈值时,即可视为异常数据。
2.数据可视化:通过绘制图表(如直方图、箱线图等)直观地观察数据的分布情况,快速发现异常数据。
3.统计方法:利用统计方法(如Z-score、IQR等)计算数据的离群程度,识别出异常值。
二、异常数据的处理1.数据清洗:o删除:对于明显错误或无效的异常数据,可以直接删除。
但需注意,大量删除数据可能会影响结果的代表性。
o修正:如果异常数据是由于记录错误或设备故障等原因造成的,且可以追溯到正确的数据,可以进行修正。
o插补:对于缺失或异常的数据点,可以使用插补方法(如均值插补、回归插补等)进行填补,以保持数据的完整性。
2.异常检测算法:o应用基于统计、基于距离、基于密度等异常检测算法,自动识别和处理异常数据。
这些算法能够更准确地识别出隐藏在数据中的复杂异常模式。
3.重新测试:对于因测试环境、设备或操作不当等原因导致的异常数据,可以重新进行测试以获取准确的结果。
三、异常数据的原因分析1.设备故障:检查测试设备是否正常运行,是否存在故障或损坏导致的数据异常。
2.环境因素:分析测试环境是否满足测试要求,如温度、湿度、电磁干扰等是否可能对测试结果产生影响。
3.人为因素:考虑测试过程中是否存在人为操作失误或不当导致的数据异常。
四、记录和报告1.详细记录:对于识别出的异常数据及其处理过程,应详细记录在测试报告中,包括异常数据的描述、识别方法、处理措施以及原因分析等。
2.报告反馈:将测试报告及时反馈给相关人员(如开发人员、项目经理等),以便他们了解测试结果并采取相应的措施。
五、持续改进1.总结经验:每次测试后都应总结经验教训,分析测试中出现的问题和原因,提出改进措施以优化未来的测试过程。
如何检测异常值并且剔除它们异常值(Outliers)是指与大多数数据样本显著不同或者离群的数据点。
异常值可能是由数据采集错误、数据录入错误、异常事件或者其他非统计因素引起的。
检测和剔除异常值在数据分析和模型建立中非常重要,因为异常值的存在可能会明显干扰分析结果和模型性能。
以下是一些常见的方法和技巧可以用来检测和剔除异常值:1. 箱线图(Box plot):箱线图是一种可视化工具,可以显示数据的五数概括(最小值、第一四分位数、中位数、第三四分位数、最大值),同时也可以检测潜在的异常值。
箱线图会将数据点超出上下限的点标记为异常值,并且可以根据不同的判断标准来确定。
2. 3σ原则(3-sigma rule):根据正态分布的性质,在正态分布中,约有99.7%的观测值落在距离均值±3倍标准差的范围内,因此可以将超出这个范围的观测值视为异常值。
可以通过计算数据的均值和标准差,然后筛选出超出均值±3倍标准差的数据点。
3. 置信区间(Confidence interval):可以使用置信区间来检查数据点是否在预期的范围内。
根据样本的大小和置信水平,可以计算置信区间的上限和下限,并将超出这个范围的数据视为异常值。
一般来说,95%的置信区间可以覆盖绝大多数正态分布数据。
4. Z-score:Z-score可以帮助我们判断一个数据点与均值之间的差异程度。
Z-score表示一个数据点距离均值的标准差数目。
一般来说,超过±3的Z-score值可以视为异常值。
5. Tukey方法:Tukey方法是一种基于四分位数的判断异常值的方法。
该方法通过计算第一四分位数(Q1)和第三四分位数(Q3),然后计算Q3 + 1.5 * IQR和Q1 - 1.5 * IQR,其中IQR表示四分位差(Q3 - Q1),超出这个范围的数据点可以被视为异常值。
6.检查数据的物理规律:在一些情况下,可以根据数据的物理规律来判断异常值。
数据分析中的异常检测和异常值处理技巧在数据分析领域,异常值是指与其他观测值相比具有显著不同的观测值。
异常值的出现可能是由于测量误差、数据录入错误、系统故障或者真实的异常情况引起的。
对于异常值的处理,不仅可以提高数据分析的准确性和可靠性,还可以避免异常值对分析结果的影响。
本文将介绍数据分析中常用的异常检测和异常值处理技巧。
一、异常检测方法1. 统计方法统计方法是最常用的异常检测方法之一。
通过计算观测值与平均值之间的偏差或者观测值与中位数之间的偏差来判断是否为异常值。
常用的统计方法包括均值、中位数、标准差、箱线图等。
均值是一组数据的平均值,可以通过计算数据的总和除以数据的个数得到。
如果某个观测值与均值之间的偏差超过了某个阈值,就可以判断该观测值为异常值。
中位数是一组数据的中间值,可以通过将数据按照大小排序,找到中间位置的数值得到。
如果某个观测值与中位数之间的偏差超过了某个阈值,就可以判断该观测值为异常值。
标准差是一组数据的离散程度的度量,可以通过计算数据与均值之间的偏差的平方的平均值再开方得到。
如果某个观测值与均值之间的偏差超过了某个阈值的倍数乘以标准差,就可以判断该观测值为异常值。
箱线图是一种可视化的异常检测方法,通过绘制数据的分布情况来判断是否存在异常值。
箱线图包含了数据的最小值、最大值、中位数和上下四分位数,如果某个观测值超过了上下四分位数加上某个阈值的倍数乘以四分位距,就可以判断该观测值为异常值。
2. 聚类方法聚类方法是一种基于样本之间相似性度量的异常检测方法。
聚类方法将数据分成多个簇,每个簇包含相似的样本。
如果某个观测值与其他观测值之间的相似度低于某个阈值,就可以判断该观测值为异常值。
常用的聚类方法包括K均值聚类和DBSCAN聚类。
K均值聚类将数据分成K 个簇,每个簇的中心点是该簇内所有样本的平均值。
如果某个观测值与其所属簇的中心点之间的距离超过了某个阈值,就可以判断该观测值为异常值。
DBSCAN聚类是一种基于密度的聚类方法,将数据分成核心点、边界点和噪声点。
计量测试中异常数据剔除的措施计量测量,其本身便是一项对数据精准性有着极高要求的工作。
而要确保数据获取的精准性,除了需科学处理计量测量所得出的数据外,尚需找出其中的异常数据并将之剔除,如此方能作为相关科学的参考依据。
当前,国内已然根据计量测量中异常数据的出现原因提出了4种有针对性的异常数据剔除方法,这些方法可独立使用,亦可综合利用,其目的均在于判定异常值并将之剔除,以确保计量测量数据的准确性。
1 计量仪器出现误差的原因由于计量仪器对外部环境有着极高的要求,加之其本身也是一种高精密的仪器,因而任何外部环境的变化都可能导致仪器测试结果产生偏差,并最终影响到检测结果的准确性。
就当前的外部环境而言,可能導致计量仪器产生误差的原因主要包括以下几个方面:(1)仪器受到了外界诸如震动、机械动荡一类的自然或人为因素影响;(2)受电磁干扰或因供电电压不稳而导致的检测仪器出现故障;(3)操作人员本身经验不足,加之操作事物所因其的检测不准确;(4)仪器本身存在如元件损坏、零件松动一类的质量问题,这类问题一旦发生,将直接导致检测结果不准确,从而影响到工作人员的正常测量。
对于以上影响因素,操作人员在实际的操作过程中,务必全面排除,如此方能确保测量结果的准确性。
当然,在此过程中,针对异常值的剔除尚需注意采取合适的剔除方法,若剔除方法选择不当则可能收获适得其反的效果。
简言之,即针对异常值不同的产生原因需采取有针对性的剔除方法,方能确保仪器测量结果达到规定的使用标准。
在实际的判断异常值过程中,以下几种是当前人们最常用的异常值判断准则,即3∑准则、肖维勒准则、t检验法以及格拉布斯准则。
2 计量测试中异常数据剔除的措施以上所提准则,虽其实际内容各不相同,但却均是置信概率的运用基础,而所谓的置信概率,即随机变量于置信区间内的落入概率。
若实际的运用过程中,将置信区间内的测量数据实际范围用X来表示,那么以上所提之准则则能用以下方式来表达:2.1 3∑准则该式子所表达的含义为可疑数据与整租数据的算术平均差,其目的是要找出该差与3倍哒的绝对值之间的差异,若偏差较大则将此数值舍弃。
大数据分析中的异常检测与异常值处理方法研究大数据分析是当今信息技术领域的一个重要研究方向,它涵盖了数据获取、处理、存储、分析和应用等多个环节。
然而,在大数据分析应用过程中,由于数据量大、多样性复杂,常常会出现一些异常的数据。
这些异常数据不仅可能干扰分析结果,还可能引发严重的错误判断和决策,因此异常检测与异常值处理成为大数据分析中的重要一环。
异常检测是在给定数据集中,识别出与其他数据明显不同的数据点或模式的过程。
异常值处理则是针对检测到的异常数据点,采取相应的处理方法以修复、剔除或标记它们。
以下将介绍几种常见的大数据分析中的异常检测与异常值处理方法。
1. 统计方法统计方法是最常用也是最直观的异常检测方法之一。
统计方法主要基于数据点与其周围的分布关系来判断是否为异常值。
常用的统计方法包括Z-Score、箱线图和概率分布等。
例如,Z-Score 是将数据点与其均值之间的标准差进行比较,超过一定阈值的数据被认为是异常值。
箱线图则利用了数据的四分位距来判断异常值。
统计方法适用于数据的分布较为稳定的情况,但对于高度偏斜或不符合常态分布的数据则效果较差。
2. 聚类分析聚类分析是将数据点分为不同的簇或群组的过程。
异常点往往是与其他正常点有着明显的差异,因此聚类分析可以通过分析数据点之间的相似性和距离来检测异常点。
例如,基于密度的聚类算法DBSCAN可以识别异常值附近没有足够密度的数据点。
聚类分析方法可以适应多类型的数据,但对于高维数据和噪声较多的数据集效果有限。
3. 机器学习方法机器学习方法在异常检测中也得到了广泛应用。
基于监督学习的方法可以通过构建分类模型来判断数据是否为异常值。
基于无监督学习的方法则可以通过训练数据的分布特征来检测异常点。
例如,Isolation Forest是一种基于集成树的无监督学习方法,可以快速而准确地检测异常值。
机器学习方法可以处理高维数据和不规则的数据分布,但需要大量的训练样本和模型调优。
目录摘要...................................................... 错误!未定义书签。
关键词................................................... 错误!未定义书签。
1 引言...................................................... 错误!未定义书签。
2 异常值的判别方法..................................... 错误!未定义书签。
检验(3S)准则........................................ 错误!未定义书签。
狄克松(Dixon)准则.................................. 错误!未定义书签。
格拉布斯(Grubbs)准则.............................. 错误!未定义书签。
指数分布时异常值检验................................. 错误!未定义书签。
莱茵达准则(PanTa).................................. 错误!未定义书签。
肖维勒准则(Chauvenet)............................. 错误!未定义书签。
3 实验异常数据的处理 .................................. 错误!未定义书签。
4 结束语................................................... 错误!未定义书签。
参考文献.................................................... 错误!未定义书签。
试验数据异常值的检验及剔除方法摘要:在实验中不可避免会存在一些异常数据,而异常数据的存在会掩盖研究对象的变化规律和对分析结果产生重要的影响,异常值的检验与正确处理是保证原始数据可靠性、平均值与标准差计算准确性的前提.本文简述判别测量值异常的几种统计学方法,并利用DPS软件检验及剔除实验数据中异常值,此方法简单、直观、快捷,适合实验者用于实验的数据处理和分析.关键词:异常值检验;异常值剔除;DPS;测量数据1 引言在实验中,由于测量产生误差,从而导致个别数据出现异常,往往导致结果产生较大的误差,即出现数据的异常.而异常数据的出现会掩盖实验数据的变化规律,以致使研究对象变化规律异常,得出错误结论.因此,正确分析并剔除异常值有助于提高实验精度.判别实验数据中异常值的步骤是先要检验和分析原始数据的记录、操作方法、实验条件等过程,找出异常值出现的原因并予以剔除.利用计算机剔除异常值的方法许多专家做了详细的文献[1]报告.如王鑫,吴先球,用Origin 剔除线形拟合中实验数据的异常值;严昌顺.用计算机快速剔除含粗大误差的“环值”;运用了统计学中各种判别异常值的准则,各种准则的优劣程度将体现在下文.2 异常值的判别方法判别异常值的准则很多,常用的有t 检验(3S )准则、狄克松(Dixon )准则、格拉布斯(Grubbs )准则等准则.下面将一一简要介绍. 2.1 检验(3S )准则t 检验准则又称罗曼诺夫斯基准则,它是按t 分布的实际误差分布范围来判别异常值,对重复测量次数较少的情况比较合理.基本思想:首先剔除一个可疑值,然后安t 分布来检验被剔除的值是否为异常值.设样本数据为123,,n x x x x ,若认j x 为可疑值.计算余下1n -个数据平均值1n x -及标准差1n s -,即2111,1,1n n i n i i j x x s n --=≠=-∑.然后,按t 分布来判别被剔除的值j x 是否为异常值.若1(,)n j x x kn a -->,则j x 为异常值,应予剔除,否则为正常值,应予以保留.其中:a 为显著水平;n 数据个数;(,)k n a 为检验系数,可通过查表得到.2.2 狄克松(Dixon )准则设有一组测量数据123nx x x x ≤≤≤,且为正态分布,则可能为异常值的测量数据必然出现在两端,即1x 或n x .狄克松给出了不同样本数量n 时检验统计量的计算公式(见表1).当显著水平a 为1%或5%时,狄克松给出了其临界值1()a n D -.如果测量数据的检验统计量1()a n D D ->,则1x 为异常值,如果测量数据的检验统计量'1()a n D D ->,则n x 为异常值.2.3 格拉布斯(Grubbs )准则设有一组测量数据为正态分布,为了检验数据中是否存在异常值,将其按大小顺序排列,即123n x x x x ≤≤≤,可能为异常值的测量数据一定出现在最大或最小的数据中.若最小值1x 是可疑的,则检验统计量1()/G x x s =-.式中x 是均值、s 是标准差,即211,n i i x xs n ==∑. 对于检验统计量G ,格拉布斯导出了其统计分布,并给出了当显著水平a 为1%或5%时的临界值(1)()n G n -.(1)()n G n -称格拉布斯系数,可通过抽查表得到.当最小值1x 或最大值n x 对应的检验统计量G 大于临界值时,则认为与之对应的1x 或n x 为可疑异常值,应予以剔除.2.4 指数分布时异常值检验设一组测量数据为指数分布,为了检验数据中是否存在异常值,将其按大小顺序排列,即123n x x x x ≤≤≤.检验最小值或最大值是否为异常值的检验方法如下:当样本量100n ≤时,计算统计量()1/nn n n i i T x x ==∑及(1)11/nn i i T x x ==∑对于给定的显著水平a (通常取)和样本数量n ,通过查表得到()n n T 及(1)n T 分别对应的临界值()(1)n n T a -和(1)()n T a .若()()(1)n n n n T T a >-时,认为n x 为异常值;若(1)(1)()n n T T a <时,认为1x 为异常值. 当样本容量100n >时,计算统计量()111(1)()/()nn n n n i n i E n x x x x --==--+∑及(1)111(1)/()nn i i E n n x x n x ==-+∑. 对于给定显著水平a 和样本数量n ,若11()2,2~2,1(1)(1)n n n n aE F n a --->=--,则判断n x 为异常值;若11(1)2,22,(1)[(1)1]n n n a E F n a --->=---,则判断1x 为异常值. 2.5 莱茵达准则(PanTa )对于实验数据测出值123,,,,nx x x x ,求取其算术平均值11/ni i x n x ==∑及剩余误差值i i v x x =-,然后求出其均方根偏差21/2(/1)i v n σ=-∑. 判别依据(假设v 服从正态分布):3i x x σ->,则i x 相对而言误差较大,应舍去; 3i x x σ-≤,i x 为正常数据,应该保留.有概率论统计可知,如果误差服从正要分布,误差大于3σ的观测数据出现的概率小于,相当大于300次观测中有一次出现的可能.莱茵达准则只是进行粗略的剔除,取舍的概率较小,可能将不合理的异常值保留.2.6 肖维勒准则(Chauvenet )次准则也是建立在实验数据服从正态分布.假设多次测量的n 个测量值中,数据的参与误差i c v Z σ>,则剔除该数据.其中21/2(/1)i v n σ=-∑,样品容量为n 时的判别系数3c Z <,弥补了莱茵达准则的不足,故此准则优胜于莱茵达准则,但条件更为苛刻.3 实验异常数据的处理对于测定中异常数据的处理,必须慎重考虑,不能凭预感任意删除或添加.应该从所学知识上考虑,异常值有时能反映试验中的某些新现象.这类“异常值”正深化人们对客观事物的认识,如果随意删除它,可能深入了解和发现新事物的一次机会,那么对学者深入研究非常可惜.所以对任何异常数据都因首先在技术上寻找原因,如果在技术上发现原因,理应舍去.如在技术上无法作出判断,却可在上述准则中发现其高度异常,也因舍弃.其中,运用DPS 软件进行异常数据的检验与剔除特别方便,而且不许编写程序,它融合了SPSS 表格和EXCELL 表格,操作简单,实用性强.如图一下为DPS 数据处理系统对话框.图一 数据处理系统对话框只要执行菜单命令下的“数据分析——异常值检验”弹出如图二下图的窗口,然后进行选择检验分析方法及显著水平,点击确定即可.图二用户对话框在测定中,有时发现个别数据离群严重,上述检验原则为异常值,但它与其他测定值的差异在仪器的精度范围内,这种数据不应舍去,应予保留.而对于一些分析而言,需要估计总体参数,异常数据一般都要舍去.对于不同的之心度应作相应的处理,则要据实际情况而定.4结束语由上述可知,用DPS软件进行异常值检验和剔除的过程简单、直观、快捷,适用于大众学生进行各实验数据的处理和分析.将此软件运用于实验教学,可以使学生快速准确判断实验结果,也可以提高教学质量.参考文献[1] 王鑫,吴先球.用Origin剔除线形拟合中实验数据的异常值[J].山西师范大学学报,2003,17(1),56—57.[2] 严昌顺.用计算机快速剔除含粗大误差的“环值”[J].计量技术,1994(5),45—47.[3] 苏金明,傅荣华,周建斌.统计软件SPSS系列应用实战篇[M].电子工业出版社,2002[4] 唐起义.DPS数据处理系统——实验设计、统计分析及数据挖掘[M].科学出版社,2006[5] 何国伟等编著.误差分析方法.北京:国防工业出版社,1978。
试验数据异常值的检验及剔除⽅法⽬录摘要 ........................................................................................................................................................................ I 关键词 (I)1 引⾔ (1)2 异常值的判别⽅法 (1)2.1检验(3S)准则 (1)2.2 狄克松(Dixon)准则 (2)2.3 格拉布斯(Grubbs)准则 (2)2.4 指数分布时异常值检验 (3)2.5 莱茵达准则(PanTa) (3)2.6 肖维勒准则(Chauvenet) (4)3 实验异常数据的处理 (4)4 结束语 (5)参考⽂献 (6)试验数据异常值的检验及剔除⽅法摘要:在实验中不可避免会存在⼀些异常数据,⽽异常数据的存在会掩盖研究对象的变化规律和对分析结果产⽣重要的影响,异常值的检验与正确处理是保证原始数据可靠性、平均值与标准差计算准确性的前提.本⽂简述判别测量值异常的⼏种统计学⽅法,并利⽤DPS软件检验及剔除实验数据中异常值,此⽅法简单、直观、快捷,适合实验者⽤于实验的数据处理和分析.关键词:异常值检验;异常值剔除;DPS;测量数据1 引⾔在实验中,由于测量产⽣误差,从⽽导致个别数据出现异常,往往导致结果产⽣较⼤的误差,即出现数据的异常.⽽异常数据的出现会掩盖实验数据的变化规律,以致使研究对象变化规律异常,得出错误结论.因此,正确分析并剔除异常值有助于提⾼实验精度.判别实验数据中异常值的步骤是先要检验和分析原始数据的记录、操作⽅法、实验条件等过程,找出异常值出现的原因并予以剔除.利⽤计算机剔除异常值的⽅法许多专家做了详细的⽂献[1]报告.如王鑫,吴先球,⽤Origin 剔除线形拟合中实验数据的异常值;严昌顺.⽤计算机快速剔除含粗⼤误差的“环值”;运⽤了统计学中各种判别异常值的准则,各种准则的优劣程度将体现在下⽂.2 异常值的判别⽅法判别异常值的准则很多,常⽤的有t 检验(3S )准则、狄克松(Dixon )准则、格拉布斯(Grubbs )准则等准则.下⾯将⼀⼀简要介绍. 2.1 检验(3S )准则t 检验准则⼜称罗曼诺夫斯基准则,它是按t 分布的实际误差分布范围来判别异常值,对重复测量次数较少的情况⽐较合理.基本思想:⾸先剔除⼀个可疑值,然后安t 分布来检验被剔除的值是否为异常值.设样本数据为123,,nx x x x ,若认x 为可疑值.计算余下1n -个数据平均值1n x -及标准差1n s -,即2111,1,1n n i n i i j x x s n --=≠=-∑.然后,按t 分布来判别被剔除的值x 是否为异常值.若1(,)n jx x k na -->,则x 为异常值,应予剔除,否则为正常值,应予以保留.其中:a 为显著⽔平;n 数据个数;(,)k n a 为检验系数,可通过查表得到.2.2 狄克松(Dixon )准则设有⼀组测量数据123nx x x x ≤≤≤ ,且为正态分布,则可能为异常值的测量数据必然出现在两端,即1x 或n x .狄克松给出了不同样本数量n 时检验统计量的计算公式(见表1).当显著⽔平a 为1%或5%时,狄克松给出了其临界值1()a n D -.如果测量数据的检验统计量1()a n D D ->,则1x 为异常值,如果测量数据的检验统计量'1()a n D D ->,则n x 为异常值.2.3 格拉布斯(Grubbs )准则设有⼀组测量数据为正态分布,为了检验数据中是否存在异常值,将其按⼤⼩顺序排列,即123nx x x x ≤≤≤ ,可能为异常值的测量数据⼀定出现在最⼤或最⼩的数据中.若最⼩值1x 是可疑的,则检验统计量1()/G x x s =-.式中x 是均值、s 是标准差,即211,n i i x x s n ==∑. 对于检验统计量G ,格拉布斯导出了其统计分布,并给出了当显著⽔平a 为1%或5%时的临界值(1)()n G n -.(1)()n G n -称格拉布斯系数,可通过抽查表得到.当最⼩值1x 或最⼤值n x 对应的检验统计量G ⼤于临界值时,则认为与之对应的1x 或n x 为可疑异常值,应予以剔除.2.4 指数分布时异常值检验设⼀组测量数据为指数分布,为了检验数据中是否存在异常值,将其按⼤⼩顺序排列,即123n x x x x ≤≤≤ .检验最⼩值或最⼤值是否为异常值的检验⽅法如下:当样本量100n ≤时,计算统计量()1/nn n n i i T x x ==∑及(1)11/nn i i T x x ==∑对于给定的显著⽔平a (通常取0.5)和样本数量n ,通过查表得到()n n T 及(1)n T 分别对应的临界值()(1)n n T a -和(1)()n T a .若()()(1)nn nn T T a >-时,认为n x 为异常值;若(1)(1)()n n T T a <时,认为1x 为异常值. 当样本容量100n >时,计算统计量()111(1)()/()nn n n n i n i E n x x x x --==--+∑及(1)111(1)/()nn i i E n n x x n x ==-+∑. 对于给定显著⽔平a 和样本数量n ,若11()2,2~2,1(1)(1)n n n n aE F n a --->=--,则判断n x 为异常值;若11(1)2,22,(1)[(1)1]n n n aE F n a --->=---,则判断1x 为异常值. 2.5 莱茵达准则(PanT a )对于实验数据测出值123,,,,nx x x x ,求取其算术平均值11/ni i x n x ==∑及剩余误差值i i v x x =-,然后求出其均⽅根偏差21/2(/1)iv n σ=-∑. 判别依据(假设v 服从正态分布):3i x x σ->,则x 相对⽽⾔误差较⼤,应舍去; 3i x x σ-≤,x 为正常数据,应该保留.有概率论统计可知,如果误差服从正要分布,误差⼤于3σ的观测数据出现的概率⼩于0.003,相当⼤于300次观测中有⼀次出现的可能.莱茵达准则只是进⾏粗略的剔除,取舍的概率较⼩,可能将不合理的异常值保留.2.6 肖维勒准则(Chauvenet )次准则也是建⽴在实验数据服从正态分布.假设多次测量的n 个测量值中,数据的参与误差i c v Z σ>,则剔除该数据.其中21/2(/1)iv n σ=-∑,样品容量为n 时的判别系数3c Z <,弥补了莱茵达准则的不⾜,故此准则优胜于莱茵达准则,但条件更为苛刻.3 实验异常数据的处理对于测定中异常数据的处理,必须慎重考虑,不能凭预感任意删除或添加.应该从所学知识上考虑,异常值有时能反映试验中的某些新现象.这类“异常值”正深化⼈们对客观事物的认识,如果随意删除它,可能深⼊了解和发现新事物的⼀次机会,那么对学者深⼊研究⾮常可惜.所以对任何异常数据都因⾸先在技术上寻找原因,如果在技术上发现原因,理应舍去.如在技术上⽆法作出判断,却可在上述准则中发现其⾼度异常,也因舍弃.其中,运⽤DPS 软件进⾏异常数据的检验与剔除特别⽅便,⽽且不许编写程序,它融合了SPSS 表格和EXCELL 表格,操作简单,实⽤性强.如图⼀下为DPS 数据处理系统对话框.图⼀数据处理系统对话框只要执⾏菜单命令下的“数据分析——异常值检验”弹出如图⼆下图的窗⼝,然后进⾏选择检验分析⽅法及显著⽔平,点击确定即可.图⼆⽤户对话框在测定中,有时发现个别数据离群严重,上述检验原则为异常值,但它与其他测定值的差异在仪器的精度范围内,这种数据不应舍去,应予保留.⽽对于⼀些分析⽽⾔,需要估计总体参数,异常数据⼀般都要舍去.对于不同的之⼼度应作相应的处理,则要据实际情况⽽定.4结束语由上述可知,⽤DPS软件进⾏异常值检验和剔除的过程简单、直观、快捷,适⽤于⼤众学⽣进⾏各实验数据的处理和分析.将此软件运⽤于实验教学,可以使学⽣快速准确判断实验结果,也可以提⾼教学质量.参考⽂献[1] 王鑫,吴先球.⽤Origin剔除线形拟合中实验数据的异常值[J].⼭西师范⼤学学报,2003,17(1),56—57.[2] 严昌顺.⽤计算机快速剔除含粗⼤误差的“环值”[J].计量技术,1994(5),45—47.[3] 苏⾦明,傅荣华,周建斌.统计软件SPSS系列应⽤实战篇[M].电⼦⼯业出版社,2002[4] 唐起义.DPS数据处理系统——实验设计、统计分析及数据挖掘[M].科学出版社,2006[5] 何国伟等编著.误差分析⽅法.北京:国防⼯业出版社,1978。
大数据分析师的异常检测与异常值处理在大数据时代,数据的规模和复杂性不断增长,使得分析师在处理数据时面临了新的挑战。
异常值是数据分析中一个常见的问题,因为它们可能对结果产生不良影响。
因此,大数据分析师需要掌握一些异常检测的方法和技巧,以便准确识别和处理异常值。
一、异常检测的方法1. 统计方法:统计方法是最常见且最基础的异常检测方法之一。
通过计算数据的均值、标准差、中位数等统计指标,可以判断数据是否偏离正常范围。
2. 基于规则的方法:基于规则的方法是根据已知的规则或预设条件来判断数据是否异常。
例如,在销售数据分析中,如果某个产品的销售量突然大幅增加或减少,就可以判断该数据为异常数据。
3. 聚类方法:聚类分析是将数据分为若干组或簇的方法,异常数据往往属于一个特殊或孤立的簇。
通过聚类算法,可以将异常数据与正常数据分开,从而实现异常检测。
4. 机器学习方法:机器学习方法可以通过构建模型来判断数据是否异常。
常用的机器学习算法包括支持向量机(SVM)、神经网络(NN)和决策树(DT)等。
二、异常值处理的技巧1. 删除异常值:当异常值对分析结果影响较大时,可以选择直接删除异常值。
但需要注意,删除异常值可能会导致样本数据减少,从而影响结果的可靠性。
2. 替代异常值:有时可以通过将异常值替换为均值、中位数或前后数据的平均值来处理异常值。
这种方法适用于异常值对结果的影响较小的情况。
3. 技术插值:技术插值是利用已有数据的特征和规律来填补缺失值或异常值。
常见的插值方法包括线性插值、拉格朗日插值和样条插值等。
4. 分组处理:对于大规模数据集,可以将数据分组后分别处理异常值。
这样可以更好地捕捉异常数据,同时减少了异常值对整体结果的影响。
三、异常检测与处理的案例分析以金融领域的信用评估为例,大数据分析师在处理异常值时面临许多挑战。
通过应用异常检测方法,分析师可以识别信用评估中存在的异常数据,以此提高评估的准确性和可靠性。
首先,分析师可以利用统计方法计算各项指标的均值和标准差,识别出与正常值相差较大的数据。
实验结果的异常值处理在科学实验中,我们常常会遇到一些异常值,这些异常值可能会对结果的准确性和可靠性造成影响。
因此,在处理实验结果时,我们需要针对异常值采取相应的处理方法,以确保结果的准确性。
本文将介绍一些常用的异常值处理方法。
一、异常值的定义与检测异常值(outlier)指的是与大多数观测值相差较大的一些观测值。
在处理实验结果时,我们需要首先对异常值进行检测,以便后续的处理。
常用的异常值检测方法包括:箱线图法、Grubbs检验法、Dixon检验法等。
通过这些方法可以很好地检测出异常值,为后续的处理提供依据。
二、异常值处理方法1. 删除异常值最直接的处理方法是直接删除异常值。
当异常值对结果的影响较大且无法解释时,可以选择将其删除。
但需要注意,删除异常值可能会造成结果的偏差,因此需要谨慎使用。
2. 替换异常值另一种处理方法是将异常值进行替换。
常见的替换方法包括:用平均值、中位数或者众数进行替换。
选择合适的替换值需要根据具体实验场景进行判断,以保证结果的准确性。
3. 缩放异常值有时,异常值较大或较小可能是由于测量误差或实验条件造成的。
在这种情况下,可以考虑对异常值进行缩放。
例如,可以将异常值除以一个常数,使其与其他观测值的量级保持一致。
4. 分组处理当实验数据分为不同的组时,可以对每个组分别处理异常值。
对于每个组,可以使用前述的方法进行异常值检测和处理,以保证组内结果的准确性。
5. 基于模型的处理方法在某些情况下,异常值可能是由于实验设计或者模型假设的不合理性导致的。
此时,可以通过重新设计实验或者调整模型来处理异常值。
这种方法需要具备一定的专业知识和实践经验。
三、注意事项处理实验结果的异常值时,需要注意以下几个问题:1. 异常值的来源:异常值可能是由于实验操作失误、设备故障、个体差异等原因导致的。
在处理异常值时,需要分析异常值的来源,以便采取相应的处理方法。
2. 处理方法的选择:根据异常值的特点和实验要求,选择合适的处理方法。
对异常值的判别和剔除方法
异常值的判别和剔除是数据处理中的重要步骤,以下是一些常用的方法:
1. 箱线图检测:箱线图是一种常用的异常值检测方法,它以数据的分位数为基础,通过上下四分位距来判断数据是否异常。
根据箱线图,可以判断出数据中的异常值,并将其剔除。
2. 3σ原则:3σ原则是一种基于数据的均值和标准差的统计方法,用于判断数据是否异常。
在正态分布下,大约68%的数据位于均值的±1σ范围内,95%的数据位于均值的±2σ范围内,%的数据位于均值的±3σ范围内。
因此,可以基于3σ原则来剔除异常值。
3. 物理判别法:根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据值偏离正常结果,在实验过程中随时判断,随时剔除。
4. 统计判别法:给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值剔除。
在实际应用中,可以根据数据类型、分布情况和需求选择合适的方法。
同时,也要注意不同方法的适用范围和局限性。
数据分析中的异常值检测与处理数据分析在各行各业都起到了重要的作用,但在数据分析过程中,异常值的存在可能会影响结果的准确性和可靠性。
因此,异常值的检测与处理成为了数据分析中一个至关重要的环节。
本文将介绍数据分析中异常值的概念、检测方法以及处理策略。
一、异常值的概念异常值(Outlier)是指在样本中与其他观测值有明显差异的观测值。
这些差异可能由于测量误差、实验错误或者真实偏离所带来。
异常值的存在对数据分析结果有着重要的影响,可能导致统计模型偏离真实情况,因此需要进行异常值的检测与处理。
二、异常值的检测方法在数据分析中,常用的异常值检测方法包括以下几种:1. 基于统计学方法的异常值检测统计学方法主要依靠数据的基本统计特征来判断是否存在异常值。
常见的统计学方法包括3σ原则、箱线图、Z-score等。
2. 基于机器学习方法的异常值检测机器学习方法通过建立合适的模型来检测异常值。
常见的机器学习方法包括聚类、离群点分析(Outlier Detection)、孤立森林(Isolation Forest)等。
3. 基于距离度量的异常值检测距离度量方法通过计算样本之间的距离来判断是否存在异常值。
常见的距离度量方法包括KNN(K-Nearest Neighbors)算法、LOF (Local Outlier Factor)算法等。
三、异常值的处理策略在检测到异常值后,需要根据具体情况进行相应的处理。
以下是几种常用的异常值处理策略:1. 删除异常值删除异常值是最常见的异常值处理策略之一。
当异常值对数据分析结果产生较大的影响且无法修正时,可以选择将其删除。
2. 替换异常值替换异常值是异常值处理中的常用策略之一。
可以通过使用均值、中位数或者插值等方法来替换异常值,使得异常值对结果的影响减小。
3. 分组处理将数据进行分组处理,对每个组的异常值采取相应的处理策略。
这样可以在不丢失数据的前提下,减少异常值对整体结果的影响。
4. 使用鲁棒统计方法鲁棒统计方法能够在存在异常值时仍然保持较好的性能。
剔除异常值的方法剔除异常值是指在数据分析中,对于偏离正常范围的极端数据进行处理或排除的方法。
异常值可能是由于测量或记录错误、无效数据、异常事件等原因导致的,如果将异常值包括在分析中,可能会对结果产生显著的偏差。
因此,剔除异常值是很重要的数据预处理步骤,下面是常用的剔除异常值的方法:1.标准差法:标准差是描述数据集合离散程度的统计量,如果一些数据点与平均值的偏离程度超过了一定的标准差范围,可以判定为异常值。
根据经验,在正态分布的情况下,采用平均值加减3倍标准差的范围内的数据是比较典型的数据集合。
2.箱线图法:箱线图是一种常用的异常值检测方法,它能够直观地显示数据的分组情况及异常值。
箱线图通过绘制数据集的上四分位数(Q3), 下四分位数(Q1)和中位数(Median)以及上下边界,可以看出数据中是否存在异常值。
根据箱线图,异常值被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的数据点,其中IQR指的是四分位距。
3.3σ原则:3σ原则是指在正态分布的情况下,大约99.73%的数据位于平均值加减3倍标准差的范围之内。
因此,可以根据3σ原则剔除超出平均值加减3倍标准差范围之外的数据点。
4.多元异常值检测:多元异常值检测是指通过多个变量之间的关系检测异常值。
常用的方法有杠杆性和学生化残差。
杠杆性指的是一个数据点对回归结果的影响程度,可以使用杠杆值来判定异常值。
学生化残差是指将残差标准化后的值,可以通过学生化残差的阈值来检测异常值。
5.离群点分数法:离群点分数法是一种基于分位数的异常值检测方法,通过计算数据点相对于其他数据点的离散程度来评估异常值。
常用的离群点分数包括Z-Score、箱线图的方法以及帕累托法则。
6.局部离群点因子法:局部离群点因子(Local Outlier Factor, LOF)是一种基于密度的异常值检测方法。
LOF通过计算每个数据点相对于其邻居数据点的离散程度来评估异常值。
LOF值越大,表示越可能是异常值。
异常试验数据的剔除方法1.观察剔除法:观察剔除法是最简单直接的异常数据剔除方法,它基于对实验数据进行观察和分析的方法。
通过观察数据的分布情况和实验是否出现了明显的异常情况,可以剔除异常的试验数据。
2.3σ原则:3σ原则是一种常用的统计学剔除异常数据的方法。
这种方法假设试验数据服从正态分布,基于标准差进行判断。
根据3σ原则,平均值加减3倍标准差之外的数据可以被判定为异常数据,并进行剔除。
3.箱线图剔除法:箱线图剔除法是一种基于统计学的方法。
通过绘制箱线图,可以直观地观察数据的分布情况和是否存在异常值。
箱线图将数据的中位数、上下四分位数和离群值可视化,根据经验判断是否有离群值,从而进行剔除。
4. Grubbs检验:Grubbs检验是一种常用的单变量异常值检验方法。
它基于假设检验的思想,通过计算试验数据的离群程度,判断是否应该剔除该数据。
Grubbs检验根据试验数据的最大/最小值与均值的差异,计算统计量,并与临界值进行比较,从而判断数据是否异常。
5. Hampel校正:Hampel校正是一种鲁棒性更强的异常值处理方法。
它通过对数据的多次迭代,识别具有较大偏差的异常值,并对其进行剔除或修正。
这种方法不仅可以剔除异常值,还可以对异常值进行修正,提高数据的稳定性和可靠性。
需要注意的是,异常数据的剔除应该谨慎进行。
在进行剔除操作之前,需要对试验数据进行充分的分析和检验,确保剔除的准确性和合理性。
此外,剔除异常数据可能会导致原始数据的丢失,因此需要根据实际情况进行权衡和决策。
总结起来,异常试验数据的剔除是科学研究和数据分析中不可或缺的一项工作。
合理有效地剔除异常数据可以提高数据的准确性和可靠性,从而得出更加科学和可靠的结论。
以上介绍的方法只是其中的一部分,根据实际情况可以选择合适的方法进行异常数据的剔除。
异常值检测与处理方法:数据质量提升的关键
确定异常值的存在和影响可以采用多种方法,以下是一些常用的方法:
1.观察数据分布:通过观察数据的分布情况,可以初步判断是否存在异常值。
例如,可以绘制数据的直方图或散点图,观察是否有一些数据点明显偏离其他数据点。
2.统计检验:通过统计检验的方法可以更准确地判断异常值的存在。
例如,
可以使用Z-score、IQR等方法来检测异常值。
这些方法可以通过计算每个数据点与平均值或中位数的偏差,或与上下四分位数范围的偏差,来判断该数据点是否为异常值。
3.专业知识:专业知识和经验也可以帮助我们判断异常值的存在。
例如,对
于某些领域的数据,我们可以根据专业知识来判断某个数据点是否为异常值。
4.可解释性分析:如果数据集较大或较为复杂,可以通过可解释性分析的方
法来进一步了解异常值的影响。
例如,可以查看异常值出现的时间、地点、原因等,以更好地理解其影响。
在确定异常值的存在和影响后,我们需要采取适当的措施来处理异常值。
处理方法的选择取决于具体情况和数据集的特性,可能包括前面提到的删除含有异常值的记录、用插值或填充方法处理、用平均值修正等方法。
总的来说,处理异常值的目的是提高数据的质量和可靠性,以便更好地进行数据分析、模型预测和决策制定。
目录
摘要 (I)
关键词 (I)
1 引言 (1)
2 异常值的判别方法 (1)
2.1检验(3S)准则 (1)
2.2 狄克松(Dixon)准则 (2)
2.3 格拉布斯(Grubbs)准则 (3)
2.4 指数分布时异常值检验 (3)
2.5 莱茵达准则(PanTa) (4)
2.6 肖维勒准则(Chauvenet) (4)
3 实验异常数据的处理 (4)
4 结束语 (6)
参考文献 (7)
试验数据异常值的检验及剔除方法
摘要:在实验中不可避免会存在一些异常数据,而异常数据的存在会掩盖研究对象的变化规律和对分析结果产生重要的影响,异常值的检验与正确处理是保证原始数据可靠性、平均值与标准差计算准确性的前提.本文简述判别测量值异常的几种统计学方法,并利用DPS软件检验及剔除实验数据中异常值,此方法简单、直观、快捷,适合实验者用于实验的数据处理和分析.
关键词:异常值检验;异常值剔除;DPS;测量数据
1 引言
在实验中,由于测量产生误差,从而导致个别数据出现异常,往往导致结果产生较大的误差,即出现数据的异常.而异常数据的出现会掩盖实验数据的变化规律,以致使研究对象变化规律异常,得出错误结论.因此,正确分析并剔除异常值有助于提高实验精度.
判别实验数据中异常值的步骤是先要检验和分析原始数据的记录、操作方法、实验条件等过程,找出异常值出现的原因并予以剔除.
利用计算机剔除异常值的方法许多专家做了详细的文献[1]报告.如王鑫,吴先球,用Origin 剔除线形拟合中实验数据的异常值;严昌顺.用计算机快速剔除含粗大误差的“环值”;运用了统计学中各种判别异常值的准则,各种准则的优劣程度将体现在下文.
2 异常值的判别方法
判别异常值的准则很多,常用的有t 检验(3S )准则、狄克松(Dixon )准则、格拉布斯(Grubbs )准则等准则.下面将一一简要介绍.
2.1 检验(3S )准则
t 检验准则又称罗曼诺夫斯基准则,它是按t 分布的实际误差分布围来判别异常值,对重复测量次数较少的情况比较合理.
基本思想:首先剔除一个可疑值,然后安t 分布来检验被剔除的值是否为异常值.
设样本数据为123,,n x x x x L ,若认j x 为可疑值.计算余下1n 个数据平均值
1n x -及标准差1n s -
,即2111,1,1n n i n i i j x x s n --=≠=-∑.
然后,按t 分布来判别被剔除的值j x 是否为异常值. 若1(,)n j x x kn a --
>,则j x 为异常值,应予剔除,否则为正常值,应予以保留.其中:a 为显著水平;n 数据个数;(,)k n a 为检验系数,可通过查表得到.
2.2 狄克松(Dixon )准则
设有一组测量数据123n
x x x x ≤≤≤L ,且为正态分布,则可能为异常值的测量数据必然出现在两端,即1x 或n x .
狄克松给出了不同样本数量n 时检验统计量的计算公式(见表1).当显著水平a 为1%或5%时,狄克松给出了其临界值1()a n D -.如果测量数据的检验统计
量1()a n D D ->,则1
x 为异常值,如果测量数据的检验统计量'1()a n D D ->,则n x 为异常值.
表1 狄克松检验统计量计算公式为
2.3 格拉布斯(Grubbs )准则
设有一组测量数据为正态分布,为了检验数据中是否存在异常值,将其按大小顺序排列,即123n
x x x x ≤≤≤L ,可能为异常值的测量数据一定出现在最大或最小的数据中.
若最小值1x 是可疑的,则检验统计量1
()/G x x s =-.式中x 是均值、s 是标准
差,即211,n i i x xs n ==∑. 对于检验统计量G ,格拉布斯导出了其统计分布,并给出了当显著水平a 为1%或5%时的临界值(1)()n G n -.(1)()n G n
-称格拉布斯系数,可通过抽查表得到.当最小值1x 或最大值n x 对应的检验统计量G 大于临界值时,则认为与之对应的1x 或n x 为可疑异常值,应予以剔除.
2.4 指数分布时异常值检验
设一组测量数据为指数分布,为了检验数据中是否存在异常值,将其按大
小顺序排列,即123n
x x x x ≤≤≤L .检验最小值或最大值是否为异常值的检验方法如下:
当样本量100n ≤时,计算统计量()1/n n n n i i T x x ==∑及(1)11/n
n i i T x x ==∑ 对于给定的显著水平a (通常取0.5)和样本数量n ,通过查表得到()n n T 及(1)
n T 分别对应的临界值()(1)n n T a -和(1)()n T a .若()()
(1)n n n n T T a >-时,认为n x 为异常值;若(1)(1)(
)n n T T a <时,认为1x 为异常值. 当样本容量100n >时,计算统计量()11
1(1)()/()n
n n n n i n i E n x x x x --==--+∑及(1)11
1(1)/()n
n i i E n n x x n x ==-+∑.
对于给定显著水平a 和样本数量n ,若11()2,2~2,1(1)(1)n n n n a
E F n a --->=--,则判断n x 为异常值;若11(1)2,22,(1)[(1)1]n n n a
E F n a --->=---,则判断1x 为异常值. 2.5 莱茵达准则(PanTa )
对于实验数据测出值123,,,,n
x x x x L ,求取其算术平均值1
1/n
i i x n x ==∑及剩余误差值i i v x x =-,然后求出其均方根偏差21/2(/1)i v n σ=-∑. 判别依据(假设v 服从正态分布):
3i x x σ->,则i x 相对而言误差较大,应舍去;
3i x x σ-≤,i x 为正常数据,应该保留.
有概率论统计可知,如果误差服从正要分布,误差大于3σ的观测数据出现的概率小于0.003,相当大于300次观测中有一次出现的可能.莱茵达准则只是进行粗略的剔除,取舍的概率较小,可能将不合理的异常值保留.
2.6 肖维勒准则(Chauvenet )
次准则也是建立在实验数据服从正态分布.假设多次测量的n 个测量值中,数据的参与误差i c v Z σ>,则剔除该数据.其中21/2(/
1)i v n σ=-∑,样品容量为n 时的判别系数3c Z <,弥补了莱茵达准则的不足,故此准则优胜于莱茵达准则,但条件更为苛刻.
3 实验异常数据的处理
对于测定中异常数据的处理,必须慎重考虑,不能凭预感任意删除或添加.应该从所学知识上考虑,异常值有时能反映试验中的某些新现象.这类“异常值”
正深化人们对客观事物的认识,如果随意删除它,可能深入了解和发现新事物的一次机会,那么对学者深入研究非常可惜.所以对任何异常数据都因首先在技术上寻找原因,如果在技术上发现原因,理应舍去.如在技术上无法作出判断,却可在上述准则中发现其高度异常,也因舍弃.
其中,运用DPS软件进行异常数据的检验与剔除特别方便,而且不许编写程序,它融合了SPSS表格和EXCELL表格,操作简单,实用性强.如图一下为DPS数据处理系统对话框.
图一数据处理系统对话框
只要执行菜单命令下的“数据分析——异常值检验”弹出如图二下图的窗口,然后进行选择检验分析方法及显著水平,点击确定即可.
图二用户对话框
在测定中,有时发现个别数据离群严重,上述检验原则为异常值,但它与其他测定值的差异在仪器的精度围,这种数据不应舍去,应予保留.
而对于一些分析而言,需要估计总体参数,异常数据一般都要舍去.对于不同的之心度应作相应的处理,则要据实际情况而定.
4结束语
由上述可知,用DPS软件进行异常值检验和剔除的过程简单、直观、快捷,适用于大众学生进行各实验数据的处理和分析.将此软件运用于实验教学,可以使学生快速准确判断实验结果,也可以提高教学质量.
参考文献
[1] 王鑫,吴先球.用Origin剔除线形拟合中实验数据的异常值[J].师
大学学报,2003,17(1),56—57.
[2] 严昌顺.用计算机快速剔除含粗大误差的“环值”[J].计量技术,
1994(5),45—47.
[3] 苏金明,傅荣华,周建斌.统计软件SPSS系列应用实战篇[M].电
子工业,2002
[4] 唐起义.DPS数据处理系统——实验设计、统计分析及数据挖掘
[M].科学,2006
[5] 何国伟等编著.误差分析方法.:国防工业,1978。