剔除法及迭代法异常下限计算模板
- 格式:xls
- 大小:920.00 KB
- 文档页数:246
目录摘要...................................................... 错误!未定义书签。
关键词................................................... 错误!未定义书签。
1 引言...................................................... 错误!未定义书签。
2 异常值的判别方法..................................... 错误!未定义书签。
检验(3S)准则........................................ 错误!未定义书签。
狄克松(Dixon)准则.................................. 错误!未定义书签。
格拉布斯(Grubbs)准则.............................. 错误!未定义书签。
指数分布时异常值检验................................. 错误!未定义书签。
莱茵达准则(PanTa).................................. 错误!未定义书签。
肖维勒准则(Chauvenet)............................. 错误!未定义书签。
3 实验异常数据的处理 .................................. 错误!未定义书签。
4 结束语................................................... 错误!未定义书签。
参考文献.................................................... 错误!未定义书签。
试验数据异常值的检验及剔除方法摘要:在实验中不可避免会存在一些异常数据,而异常数据的存在会掩盖研究对象的变化规律和对分析结果产生重要的影响,异常值的检验与正确处理是保证原始数据可靠性、平均值与标准差计算准确性的前提.本文简述判别测量值异常的几种统计学方法,并利用DPS软件检验及剔除实验数据中异常值,此方法简单、直观、快捷,适合实验者用于实验的数据处理和分析.关键词:异常值检验;异常值剔除;DPS;测量数据1 引言在实验中,由于测量产生误差,从而导致个别数据出现异常,往往导致结果产生较大的误差,即出现数据的异常.而异常数据的出现会掩盖实验数据的变化规律,以致使研究对象变化规律异常,得出错误结论.因此,正确分析并剔除异常值有助于提高实验精度.判别实验数据中异常值的步骤是先要检验和分析原始数据的记录、操作方法、实验条件等过程,找出异常值出现的原因并予以剔除.利用计算机剔除异常值的方法许多专家做了详细的文献[1]报告.如王鑫,吴先球,用Origin 剔除线形拟合中实验数据的异常值;严昌顺.用计算机快速剔除含粗大误差的“环值”;运用了统计学中各种判别异常值的准则,各种准则的优劣程度将体现在下文.2 异常值的判别方法判别异常值的准则很多,常用的有t 检验(3S )准则、狄克松(Dixon )准则、格拉布斯(Grubbs )准则等准则.下面将一一简要介绍. 2.1 检验(3S )准则t 检验准则又称罗曼诺夫斯基准则,它是按t 分布的实际误差分布范围来判别异常值,对重复测量次数较少的情况比较合理.基本思想:首先剔除一个可疑值,然后安t 分布来检验被剔除的值是否为异常值.设样本数据为123,,n x x x x ,若认j x 为可疑值.计算余下1n -个数据平均值1n x -及标准差1n s -,即2111,1,1n n i n i i j x x s n --=≠=-∑.然后,按t 分布来判别被剔除的值j x 是否为异常值.若1(,)n j x x kn a -->,则j x 为异常值,应予剔除,否则为正常值,应予以保留.其中:a 为显著水平;n 数据个数;(,)k n a 为检验系数,可通过查表得到.2.2 狄克松(Dixon )准则设有一组测量数据123nx x x x ≤≤≤,且为正态分布,则可能为异常值的测量数据必然出现在两端,即1x 或n x .狄克松给出了不同样本数量n 时检验统计量的计算公式(见表1).当显著水平a 为1%或5%时,狄克松给出了其临界值1()a n D -.如果测量数据的检验统计量1()a n D D ->,则1x 为异常值,如果测量数据的检验统计量'1()a n D D ->,则n x 为异常值.2.3 格拉布斯(Grubbs )准则设有一组测量数据为正态分布,为了检验数据中是否存在异常值,将其按大小顺序排列,即123n x x x x ≤≤≤,可能为异常值的测量数据一定出现在最大或最小的数据中.若最小值1x 是可疑的,则检验统计量1()/G x x s =-.式中x 是均值、s 是标准差,即211,n i i x xs n ==∑. 对于检验统计量G ,格拉布斯导出了其统计分布,并给出了当显著水平a 为1%或5%时的临界值(1)()n G n -.(1)()n G n -称格拉布斯系数,可通过抽查表得到.当最小值1x 或最大值n x 对应的检验统计量G 大于临界值时,则认为与之对应的1x 或n x 为可疑异常值,应予以剔除.2.4 指数分布时异常值检验设一组测量数据为指数分布,为了检验数据中是否存在异常值,将其按大小顺序排列,即123n x x x x ≤≤≤.检验最小值或最大值是否为异常值的检验方法如下:当样本量100n ≤时,计算统计量()1/nn n n i i T x x ==∑及(1)11/nn i i T x x ==∑对于给定的显著水平a (通常取)和样本数量n ,通过查表得到()n n T 及(1)n T 分别对应的临界值()(1)n n T a -和(1)()n T a .若()()(1)n n n n T T a >-时,认为n x 为异常值;若(1)(1)()n n T T a <时,认为1x 为异常值. 当样本容量100n >时,计算统计量()111(1)()/()nn n n n i n i E n x x x x --==--+∑及(1)111(1)/()nn i i E n n x x n x ==-+∑. 对于给定显著水平a 和样本数量n ,若11()2,2~2,1(1)(1)n n n n aE F n a --->=--,则判断n x 为异常值;若11(1)2,22,(1)[(1)1]n n n a E F n a --->=---,则判断1x 为异常值. 2.5 莱茵达准则(PanTa )对于实验数据测出值123,,,,nx x x x ,求取其算术平均值11/ni i x n x ==∑及剩余误差值i i v x x =-,然后求出其均方根偏差21/2(/1)i v n σ=-∑. 判别依据(假设v 服从正态分布):3i x x σ->,则i x 相对而言误差较大,应舍去; 3i x x σ-≤,i x 为正常数据,应该保留.有概率论统计可知,如果误差服从正要分布,误差大于3σ的观测数据出现的概率小于,相当大于300次观测中有一次出现的可能.莱茵达准则只是进行粗略的剔除,取舍的概率较小,可能将不合理的异常值保留.2.6 肖维勒准则(Chauvenet )次准则也是建立在实验数据服从正态分布.假设多次测量的n 个测量值中,数据的参与误差i c v Z σ>,则剔除该数据.其中21/2(/1)i v n σ=-∑,样品容量为n 时的判别系数3c Z <,弥补了莱茵达准则的不足,故此准则优胜于莱茵达准则,但条件更为苛刻.3 实验异常数据的处理对于测定中异常数据的处理,必须慎重考虑,不能凭预感任意删除或添加.应该从所学知识上考虑,异常值有时能反映试验中的某些新现象.这类“异常值”正深化人们对客观事物的认识,如果随意删除它,可能深入了解和发现新事物的一次机会,那么对学者深入研究非常可惜.所以对任何异常数据都因首先在技术上寻找原因,如果在技术上发现原因,理应舍去.如在技术上无法作出判断,却可在上述准则中发现其高度异常,也因舍弃.其中,运用DPS 软件进行异常数据的检验与剔除特别方便,而且不许编写程序,它融合了SPSS 表格和EXCELL 表格,操作简单,实用性强.如图一下为DPS 数据处理系统对话框.图一 数据处理系统对话框只要执行菜单命令下的“数据分析——异常值检验”弹出如图二下图的窗口,然后进行选择检验分析方法及显著水平,点击确定即可.图二用户对话框在测定中,有时发现个别数据离群严重,上述检验原则为异常值,但它与其他测定值的差异在仪器的精度范围内,这种数据不应舍去,应予保留.而对于一些分析而言,需要估计总体参数,异常数据一般都要舍去.对于不同的之心度应作相应的处理,则要据实际情况而定.4结束语由上述可知,用DPS软件进行异常值检验和剔除的过程简单、直观、快捷,适用于大众学生进行各实验数据的处理和分析.将此软件运用于实验教学,可以使学生快速准确判断实验结果,也可以提高教学质量.参考文献[1] 王鑫,吴先球.用Origin剔除线形拟合中实验数据的异常值[J].山西师范大学学报,2003,17(1),56—57.[2] 严昌顺.用计算机快速剔除含粗大误差的“环值”[J].计量技术,1994(5),45—47.[3] 苏金明,傅荣华,周建斌.统计软件SPSS系列应用实战篇[M].电子工业出版社,2002[4] 唐起义.DPS数据处理系统——实验设计、统计分析及数据挖掘[M].科学出版社,2006[5] 何国伟等编著.误差分析方法.北京:国防工业出版社,1978。
土壤化探中异常下限的确定土壤化探中异常下限的确定摘要土壤地球化学异常下限的确定是勘查地球化学的一个基本问题,也是勘查地球化学应用于矿产勘查时决定成败的一个关键性环节。
但由于地质背景和成矿模式的复杂多样,迄今为止仍然没有一种普遍适用的异常下限计算方法诞生,各种计算方法各有优势,同时又有假设条件的制约和使用的局限性。
为此,采取多种方法计算异常下限并根据地质背景进行综合比较以确定异常下限是当前圈定异常的一种有效途径。
地球化学异常下限值是区分背景区与异常区的基本指标,而计算异常下限值的准确性也直接关系到下一步探矿工作开展的关键。
本文分为三个部分论述土壤化探异常下限的确定。
首先介绍一些土壤化探异常下限的确定的相关概念;其次介绍各种方法,如:剖面图法、直方图解法、面积校正累积频率法、马氏距离法、单元素计算法、累积频率法、迭代法、传统统计方法、多重分形法分形、均值标准差法、含量-面积(C-A)分形方法、概率格纸图解法等);最后用一些矿床应用实例来验证及评价一些方法。
本文选取新疆西天山成矿带托逊地区1:50000土壤X荧光化探样品中Mn、Fe、Zn、As四种元素为例,使用传统统计方法、多重分形方法、85%累计频率法分别对化探数据进行处理后得出结论:传统统计方法计算出的异常范围小,且较为分散;多重分形方法对弱小异常的固定效果明显,但范围过大;85%累计频率法与传统方法所得异常下限值比较接近,但对弱小异常的识别效果相对于传统方法显著;对化探找金中背景值、异常下限的传统计算方法进行了讨论;土壤元素异常下限值的确定对环境地球化学评价具有重要意义。
传统异常下限值计算方法仅适用于元素含量数据呈正态分布的情况, 而事实上土壤元素含量的空间分布极其复杂, 很可能具有多重分形分布特征。
本文利用校正累积频率分形方法确定铜陵矿区土壤中的异常下限值为1.687 mg / kg , 并据此圈定了异常范围。
与传统方法所确定的异常下限值及相应异常区域对比, 分形方法圈定的异常区域范围更广, 更为合理、有效。
数据预处理——剔除异常值及平滑处理测量数据在其采集与传输过程中,由于环境干扰或人为因素有可能造成个别数据不切合实际或丢失,这种数据称为异常值。
为了恢复数据的客观真实性以便将来得到更好的分析结果,有必要先对原始数据剔除异常值。
另外,无论是人工观测的数据还是由数据采集系统获取的数据,都不可避免叠加上“噪声”干扰(反映在曲线图形上就是一些“毛刺和尖峰”)。
为了提高数据的质量,必须对数据进行平滑处理(去噪声干扰)。
(一)剔除异常值。
注:若是有空缺值,或导入Matlab 数据显示为“NaN ”(非数),需要忽略整条空缺值数据,或者填上空缺值。
填空缺值的方法,通常有两种:A. 使用样本平均值填充;B. 使用判定树或贝叶斯分类等方法推导最可能的值填充(略)。
一、基本思想:规定一个置信水平,确定一个置信限度,凡是超过该限度的误差,就认为它是异常值,从而予以剔除。
二、常用方法:拉依达方法、肖维勒方法、一阶差分法。
注意:这些方法都是假设数据依正态分布为前提的。
1. 拉依达方法(非等置信概率)如果某测量值与平均值之差大于标准偏差的三倍,则予以剔除。
3x i x x S ->其中,11n i i x x n ==∑为样本均值,12211()1nx i i S x x n =⎛⎫ ⎪⎝⎭=--∑为样本的标准偏差。
注:适合大样本数据,建议测量次数≥50次。
代码实例(略)。
2. 肖维勒方法(等置信概率)在 n 次测量结果中,如果某误差可能出现的次数小于半次时,就予以剔除。
这实质上是规定了置信概率为1-1/2n ,根据这一置信概率,可计算出肖维勒系数,也可从表中查出,当要求不很严格时,还可按下列近似公式计算:10.4ln()n n ω=+Tab1. 肖维勒系数表如果某测量值与平均值之差的绝对值大于标准偏差与肖维勒系数之积,则该测量值被剔除。
n x i x x S ω->例1. 利用肖维勒方法对下列数据的异常值(2.5000)进行剔除: 1.5034 1.5062 1.5034 1.5024 1.4985 2.5000 1.50071.5067 1.4993 1.4969上述数据保存于文件erro.dat代码:x=load('error.dat');n=length(x);subplot(2,1,1);plot(x,'o');title('原始数据')axis([0,n+1,min(x)-1,max(x)+1]);w=1+0.4*log(n);yichang = abs(x-mean(x)) > w*std(x);% 若用拉依达方法,把w改成3即可,但本组数据将不能成功剔除异常值。
异常数据剔除EXCEL于异常数据剔除中的应用数据是关于自然、社会现象和科学试验的定量或定性的记录,是科学研究最重要的基础。
数据作为研究依赖的基础资源,其质量好坏直接关系到以此为据的正确性和科学性。
所谓异常数据就是数据集中与其它数据明显不一致的数据。
异常数据的产生原因有很多,可能是数据产生机制内在特性决定的,也可能是抽样调查技术问题;数据采集设备不完善;数据录入及传输错误;测量单位混乱;虚报、瞒报使统计数据失真;丢失数据等人力可控因素造成的。
异常数据的出现会极大程度地降低数据的质量,导致统计分析,如参数估计、假设检验、方差分析、相关分析、回归分析、聚类分析等得到的分析结果发生显著变异,使得样本对总体的推断、控制与预测等工作可能会不准确或者出现错误,进一步甚至可能造成宏观决策上的失误,带来不可挽回的损失。
因此,异常数据的识别和剔除具有重要意义。
异常数据识别有物理识别法和统计识别法。
物理识别法是根据人们对客观事物已有的认识,识别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中识别,随时剔除的一种方法。
统计识别法是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常数据剔除的一种方法。
当物理识别异常数据不易做到时,一般采用统计识别法。
对于多次重复测定的数据,异常数据常用的统计识别与剔除法有拉依达准则(3@准则)法、格拉布斯(Grubbs)准则法、狄克逊(Dixon)准则法、肖维勒(Chauvenet)准则法、罗马诺夫斯基(t检验)准则法。
拉依达准则法简单,无需查表,用起来方便,测量次数较多或要求不高时用,当测量次数小于或等于10时,拉依达准则法失效。
肖维勒准则是经典方法,改善了拉依达准则,过去应用较多,但它没有固定的概率意义,特别是测量数据n无穷大时,该准则失效。
狄克逊准则法对数据中只存在一个异常数据时,效果良好,但当数据中异常数据的个数不止一个且出现在同侧时,该方法的检验效果不好,尤其同侧的异常数据很接近时效果更差,易遭受到屏蔽效应。
化探数据处理说明平顺项⽬化探数据处理⽅法⼀、基本概念1、异常⾯积:⽤GeoCIPS 软件直接统计异常⾯积,计量单位为km 2。
2、异常强度:异常区内⼤于下限数据的算术平均值。
3、最⼤值:异常区内数据最⼤值。
4、异常下限:根据作图结果调整异常下限。
5、异常衬度:异常均值/异常下限。
6、⾯⾦属量:元素剩余含量(异常均值减去异常下限)与异常⾯积的乘积。
7、NAP 值:异常衬度×异常⾯积。
8、异常排序:各异常按NAP 值⼤⼩排序,⼤的在前。
9、⾦计量单位⽤×10-9(ppb ),其余元素⽤×10-6(ppm )。
⼆、单元素异常的圈定1、异常下限的确定表5-1 各元素异常下限⼀览表单位:Au 为ppb ,其它元素为ppm 。
逐步剔除法剔除⼤于+3S 的值、⼩于-3S 的值后求元素的平均值和标准差S ,选择+2S 定为计算下限,计算下限作为参考,根据表4-1分析结果对各分析指标的下限适当调整,对于有找矿可能的分析指标根据成图效果稍降低了下限,保留了较多的异常,对于找矿指⽰意义⼩的分析指标则提⾼了异常下限,仅保留了异常强度⾼的异常,将部分异常⾯积⼩、异常极⼤值/下限⼩、异常点数为1(少数为2)的异常删除,⼒求异常图可以直观的反x x x x映预查区的元素特征。
具体采⽤的异常下限及浓度分级见表5-1。
2、浓度分级预查区各分析指标尽量采⽤1、2、4分带。
由于预查区各分析指标整体含量低,仅Au、W采⽤了1、2、4分带,部分变异系数⼩和采⽤下限较⼤的分析指标,灵活调整了浓度分带。
三、综合异常的圈定与类别划分1、综合异常的圈定根据预查区内单元素异常分布及组合特征,以主要成矿元素的异常为主,把在空间上分布基本⼀致,相互重合的多个单元素异常圈定为⼀个综合异常。
共圈定以Ag、As、Au、Bi、Cu、Hg、Mo、Pb、Sb、Sn、W、Zn为主要异常元素的综合异常7个。
按所处地质环境、找矿意义和已有资料现阶段的认识⽔平,将各综合异常按下列标准进⾏分类,其中⼄2类异常1个,⼄3类异常4个,丁类异常2个。
地球化学元素含量的异常确定是勘查地球化学中最重要的工作之一,但迄今为止还没有找到一个完全令人满意的具有科学依据的方法。
长期以来,人们主要是使用经典的统计学方法,以样品数据呈正态分布为假设前提,通过计算数据的统计学参数(如均值、标准离差等)对异常进行筛选和评价。
一般是以平均值(X)与2倍(也有为1.5倍或3倍)的标准离差(δ)之和作为地球化学的异常下限值。
该方法仅适用于地球化学数据呈正态分布的情况,但实际上对于元素的地球化学分布而言正态分布并不是唯一的一种分布,人们已经发现许多元素,特别是微量元素并不遵循正态分布,而是呈明显的正向偏斜或表现为一种幂型的拖尾分布。
其他几种用来筛选和评价地球化学异常的方法,如移动平均法、趋势面法、克里格法以及概率格纸法等,除了概率格纸法仍是基于正态分布这一观点外,其他的几种方法虽然注意到了元素含量分布的空间信息,但都是以地球化学含量数据在空间上呈连续变化,且是一个光滑的连续曲面这一假设为基础建立的。
事实上,地球化学元素含量的空间分布是极其复杂、十分粗糙而并非处处可微的。
正如李长江等(1995)研究揭示的地球化学景观可能是一个具有低维(D=2.9)吸引子的混沌系统,是分形。
考虑到方法的实用性、有效性、易操作,通过几种方法在工作区的试验对比,叠代法确定的背景值及异常下限较低,更有利于突出弱异常。
因此,工作区背景值和异常下限的确定选用叠代法。
叠代法处理的步骤:①计算全区各元素原始数据的均值(X1)和标准偏差(S1);②按X1+3S1的条件剔除一批高值后获得一个新数据集,再计算此数据集的均值(X2)和标准偏差(S2);③重复第二步,直至无特高值点存在,求出最终数据集的均值(X)和标准偏差(S),则X做为背景值C0,X+nS(n根据情况选1.5或2,3)做为异常下限Ca。
地球化学背景值及异常下限确定确定地球化学背景值与异常下限的方法有很多种。
早期采用简单的统计方法求平均值与标准偏差;用直方图法确定的众值或中位数作为地球化学背景值。
以后又发展到用概率格纸求背景值与异常下限等。
随着对地球化学背景认识的加深,采用求趋势面或求移动平均值等方法来确定背景值和异常下限,70年代以来,多元回归法、稳健多元线性回归分析法、克立格法、马氏距离识别离散点群法等多种方法常作来研究地球化学的背景值和异常下限。
考虑到方法的实用性、有效性、易操作,通过几种方法在工作区的试验对比,迭代法确定的背景值及异常下限较低,更有利于突出弱异常。
因此,工作区背景值和异常下限的确定选用迭代法。
迭代法处理的步骤:①计算全区各元素原始数据的均值(X1)和标准偏差(Sd1);②按X1+nSd1的条件剔除一批高值后获得一个新数据集,再计算此数据集的均值(X2)和标准偏差(Sd2);③重复第二步,直至无特高值点存在,求出最终数据集的均值(X)和标准偏差(Sd),则X做为背景值C,X+nSd(n根据情况选1.5或2,3)做为异常下限Ca。
采用迭代法求出工作区各地球化学元素特征值及各参数(见表1)。
表1工作区元素地球化学特征值及参数表化探数据是以多元素或多变量为特征的。
化探数据处理既研究元素之间的相互关系,又研究样品之间的相互关系,前者叫做R方式分析,后者叫做Q方式分析。
分析结果是将数据按变量或按样品划分成若干类,使各类内部性质相似而各类之间性质相异。
如果参加分析的数据含有已知类别(如矿或非矿的作用)能起训练组作用时,数据处理的结果可给出明确的地质解释,否则所做的地质解释就含有较大程度的推测性。
在特定情况下地球化学数据可能只反映单一的地质过程,这样的化探数据是所谓“来自一个母体”的。
一般情况是几种地质过程作用在同一地区,他们相互重叠或部分重叠,这反映在地球化学数据上就具有“多个母体”的特征。
化探数据处理需要鉴别和分离这些母体,即对化探数据值进行分解,确定出不同母体的影响在数据中所产生的分量。
化探-异常下限-计算方法大全及详解谭亲平地球化学研究所目录1.传统方法,均值加标准差 (1)2.直方图解法 (2)3.概率格纸图解法.34.多重分形法。
(6)5.85%累计频率法。
(7)小结 (8)传统方法,均值加标准差在excel中用过函数,求均值,求标准差,先对数据中的极大/极小值进行剔除,大于/小于三倍标准差的剔除掉,直到无剔除点。
然后用均值加2倍标准差求异常下限。
图,D列中的函数,E列中的结果。
图一中的化探数据的异常下限114.86.。
直方图解法图2首先,做频率直方图,(图1的数据是某化探区数据)含量频率分布图上呈现双峰曲线,左边是背景部分,右边是异常部分,双峰间谷底处(0.7)为异常下限。
求真值得5.所以,异常下限位5。
图2另一个化探区的数据,是单峰曲线,在频率极大值的0.6倍处画一条平行直线,与曲线一侧相交,其横坐标长度即为σ。
用Ca=Co+2*σ=0.16+2*0.665=1.49,求得为真值为31。
概率格纸图解法.图3,图3是概率格纸。
发现纵坐标(累计频率)是不均匀的。
把样本值小于或等于某个样本ni的数据频率累加,即得到小于或等于ni的累积频率。
概率格纸用excel能轻松的做出来。
制造方法如下。
图4.图4显示了概率格纸的制造过程。
原理就是把标准正态分布曲线投影到纵坐标上。
首先确定纵坐标数值,如B列,0.1、1、5、10、20、30、40、50、60、70、80、90、95、99、99.9.。
如果想要纵坐标线密一点,也可以插入更多的数。
然后在C列中用NORMSINV 函数,求对应频率的分位数(如果把标准正态分布,正着放,分位数就是横坐标)。
这时的原点(0)在50%处,我们想要原点在0处,那么把C列的数统一加-03.090232(C5),---(处理化探数据的时候,加的也是相同的数)。
即输入公式”D5” =C5-$C$5…。
E列为x 值,根据实际化探数据,设定最大和最小值。
我们这里随便设为0、25。