第三章 误差分析理论
- 格式:pdf
- 大小:866.42 KB
- 文档页数:33
第三章测试误差分析及处理在机器学习领域,测试误差是对模型性能的评估指标,它反映了模型在新数据上的表现。
通过分析测试误差,我们可以发现模型的弱点,并采取相应的措施来提升模型的性能。
偏差是由于模型太简单而造成的错误,它表示了模型对于训练数据的错误拟合程度。
当模型具有高偏差时,会导致模型在训练集和测试集上的误差都较大。
方差代表了模型对于训练数据的紧密拟合程度,即模型对训练数据的变化的敏感程度。
当模型具有高方差时,会导致模型在训练集上表现很好,但在测试集上表现较差。
2.进行误差分析误差分析是通过观察模型在测试集上的错误情况来发现模型的弱点。
我们可以通过以下几个步骤进行误差分析:-分析误差类型:观察误差的类型,包括误分类、误差偏差方向的分布等。
3.处理测试误差根据误差分析的结果,我们可以采取一些措施来处理测试误差,提升模型的性能:-增加数据量:数据量不足可能导致模型过拟合。
通过增加数据量,可以减少模型的方差,提高泛化能力。
-调整模型复杂度:当模型具有高偏差时,可以增加模型的复杂度,如增加网络层数、增加神经元数量等。
-正则化:对于具有高方差的模型,可以采用正则化技术(如L1、L2正则化)来减小模型的方差,提高泛化能力。
-特征工程:对于模型在特定特征上出现的误差,可以对这些特征进行优化处理,如特征选择、特征提取、特征变换等。
-参数调优:对于模型中的超参数,可以通过交叉验证等方法进行调优,选择合适的参数组合。
4.使用验证集为了能够量化地评估模型的性能,并避免对测试集过拟合,我们通常需要划分出一个验证集。
在训练过程中,我们可以使用验证集来调整模型的超参数,以及用来评估模型的性能。
通过验证集,我们可以更准确地估计模型的测试误差,从而更好地进行误差分析和处理。
总结:测试误差分析及处理是机器学习模型中十分重要的一环。
通过分析测试误差,我们可以了解模型在新数据上的表现情况,发现模型的弱点,并采取相应措施来提升模型的性能。
第三章 错误!未定义书签。
错误!未定义书签。
错误!未定义书签。
误差分析与处理任何试验总是不可避免地存在误差,为提高测量精度,必须尽可能消除或减小误差,因此有必要对多种误差的性质、出现规律、产生原因,发现与消除或减小它们的主要方法以及测量结果的评定等方面作研究。
误差的定义:绝对误差=实测值-真值相对误差=绝对误差/真值≈绝对误差/实测值 误差的来源:测量装置误差(如标准量具、仪器、附件等)环境误差(如温度、湿度、气压、振动、照明、重力场、电磁场等) 方法误差 人员误差 误差分类: 系统误差 随机误差 粗大误差§3—1。
随机误差同一测量值在等精度情况下的多次重复,有可能会得一系列不同的测量值,每个值均有一定的误差,且无规律(但有一定的统计规律),这样的误差称为随机误差. 产生原因:测量装置(精度、器件性能不稳定等)环境方面(湿度、温度、电压、光照、磁场等) 人为因素:(素质、技能)随机误差一般不能消除,但通过统计平均可以减小,大多情况认为随机误差符合正态分布情况,即:221()exp()(2)2f――标准差(均方根误差),越小,精度就越高的大小只说明在一定条件下,等精 度测量值的随机误差的概率分布情况。
经n 次等精度测量后的均方差为:222212()/()/n i n nσδδδδ=++⋅⋅⋅⋅⋅⋅+=∑ (3-1)i δ是第i 次测量的误差。
0i i l L δ=- i l 是第i 次测量值,0L 是真值.当真值为未知时,应该说上式不能求得标准差。
在有限次测量情况下,可用残余误差iv 代替真值误差。
i i v l x =-, x 是测量平均值,()/i x l n=∑。
i v 是i l 的残余误差。
我们将0iil L 作一些变形替换,并令,展开: 100i n n l x x L l x x Lδδ=-+-⋅⋅=-+-⎧⎪⎨⎪⎩令0x x L δ=-为算术平均值的误差=0i i v l nx =-∑∑(当il x n =∑代入时)上式又为 11xn n xv v δδδδ=+⎧⎪⋅⎨⎪=+⎩ (3-2)所有项相加:i i xv n δδ=+∑∑11x ii v n n δδ⇒=-∑∑其中:=0iv ∑ /0iiiiv l nx l n ln =-=-=∑∑∑∑,()∴1x i n δδ=∑ 即算术平均值的误差将(3-2)式平方后相加(2222i i ixxv v )222222ii x x i i x v n v v n δδδδ=++=+∑∑∑∑ (3-3)将式1x i n δδ=∑ 的 两边平方2222111()(2)x i i i j i jn n δδδδδ≤≤==+∑∑∑当n 足够大时,ijδδ∑认为趋于零,将2221x i n δδ=∑,代入(3-3)式2221i i i v n δδ=+∑∑∑由(3-1)式可知 22in δσ=∑∴222i n v σσ=+∑ 2()(1)i v n σ⇒=-∑ (3-4)式(3-4)称为Bessel 公式,由残余误差求得单次测量的标准差的估计值。
第三章测试误差分析及处理1、误差的分类1)系统误差——在重复条件下,对同一物理量无限多次测量结果的平均值减去该被测量的真值。
系统误差大小、方向恒定一致或按一定规律变化。
2)随机误差——测量示值减去在重复条件下同一被测量无限多次测量的平均值。
随机误差具有抵偿特性。
产生原因主要是温度波动、振动、电磁场扰动等不可预料和控制的微小变量。
3)过失误差——明显超出规定条件下预期的误差,它是统计异常值。
应剔除含有粗大误差的测量值。
产生原因主要是读数错误、仪器有缺陷或测量条件突变等。
2、系统误差1.定义:测量值中含有固定(恒值系统误差)或按某种规律变化的误差(变值系统误差)2.特点:重复测量不能减小此类误差,也难以发现,有时误差值可以很大3.发现手段:改变测量条件或用不同测量方法进行对比分析,对测量系统进行检定4.消除方法1)消除系统误差的根源测量之前应对全部的测最条件〔设备、环境、方法等)进行仔细的检查、分析。
凡是估计有可能产生系统误差的根源,都要尽力消除。
例如,所用仪器设备的安放布局要规范、合理,检查仪器零位,正确调整与使用仪器.注意观察并排除环境场的干扰,合理选择基准等等.2)修正测量值这是一种常用方法。
它是对所用测量仪器设备事先进行检查,若发现仪器设备本身有系统误差.则给出校正值表或校正曲线、校正公式等,在用该仪器设备进行侧量后,将侧盆值与修正值相加,就可消除由仪器设备不准造成的系统误差。
3)常用消除系统误差具体方法:(1) 交换抵消法:将测量中某些条件相互交换,使产生系统误差的原因相互抵消。
(2) 替代消除法:在一定测量条件下,用一个精度较高的已知量,在测量系统中取代被测量,而使测量仪器的指示值保持不变,则被测量即等于该已知量。
(3) 预检法:将测量仪器与较高精度的基准仪器对同一物理量进行多次重复测量。
两组测量数据的差值作为测量仪器在对该物理量测量时的系统误差。
5.系统误差的分类:按产生原因可分为:仪器误差、安装误差、环境误差、方法误差、操作误差、动态误差。
第三章测量误差的传递在间接测量中,待求量通过间接测量的方程式y = f (x 1,x 2^ , x n )获得。
通过测量获得量X i ,X 2,…,X n 的数值后,即可由上面的函数关系计算出待求量y 的数值。
那么测量数据的误差怎样作用于间接量y ,即给定测量数据X i ,X 2,…,X n 的测量误差,怎样求出所得间接量y 的误差值?对于更一般的情形,测量结果的误差是测量方法各环节的诸误差因素共同作用的结 果。
这些误差因素通过一定的关系作用于测量结果。
现研究怎样确定这一传递关系,即怎样由诸误差因素分量计算出测量的总误差。
研究测量误差的传递规律有重要意义,它不仅可直接用于已知系统误差的传递计算, 并且是建立不确定度合成规则的依据,因而是精度分析的基础①。
3.1 按定义计算测量误差现在按测量误差的定义给出测量结果的误差,这是研究误差传递关系的基本出发点。
若对量Y 用某种方法测得结果 y ,则按测量误差的定义,该数据的测量误差应为、y =y -Y (3-1) 设有如下测量方程y = f (X 1,X 2,X n )式中y ――间接测量结果;X i ,X 2, , X n ——分别为各直接测得值。
直接量的测量数据 X 1,X 2/ ,X n 的测量误差分别为式中,X 1 , %,•••, X n 分别为相应量的实际值(真值)。
则间接测量结果的误差可写为y 二 y -丫 二 f X 1,X 2,,召 一 f X 1,X 2, ,X .二 f X 1X 1,X 2 %, ,X n X n - f X"?, X (3-2)上式给出了由测量数据的误差计算间接量 y 的误差的传递关系式,这一误差关系是 准确无误的。
直接按定义计算测量结果误差的方法在误差传递计算中经常使用,特别是在单独分 析某项误差因素对测量结果的影响时,若这一影响关系不便或不能化成简单的线性关系, 则这一方法更常使用。
因此直接按定义作误差传递计算的方法不能完全用下面所述的线二 X n - X nV =性化的误差传递方法代替。
第三章误差分析理论测量的目的是确定被测量的量值,然而由于下列因素的存在:1.测量设备的不完善;2.测量方法的不完善;3.测量环境的影响;4.测量人员的能力有限;使得测量值与被测量的真值之间,不可避免地存在差异,这种差异的数值表现即为误差。
一、误差概述测量是将被测的物理量与所规定的参考标准进行比较的过程。
例如,测量某一起重机械的外形尺寸大小,就是用米尺与其比较。
至于测量的标定就是为了提供进行比较的参考标准。
实验测定某一机械量,目的在于测出该机械量的真值。
但是在实测中,只能得到在一定程度上接近于真值的测量值,因此测量结果必然产生失真,这种失真则称为误差,即误差=测量值-真值用符号表示为第一节误差的分类μ-=∆i x x真值:与给定的特定量的定义一致的值。
理论真值:已知的,如三角形内角和为180°约定真值:不确定的,根据多次测量给出,如平均值误差必然存在:误差产生的必然性已被大量实践所证实,也就是说,一切实验结果都会产生误差。
随着科技的发展,测量误差控制得越来越小,但不论小到什么程度误差总是存在的。
在实际测量中,对给定的测量任务只需达到规定的精度要求就行了,决不是精度愈高愈好,否则将导致浪费。
因此,在实际测量中,必须根据测量目的,全面考虑测量的可靠性、精度、经济性和使用简便性。
(一)按误差本身因次分类1.绝对误差某被测量的绝对误差定义为该量的测量值与真值之差,即:绝对误差=测量值-真值绝对误差可为正或负。
例1:某一标准长度,其约定真值为X =100.02mm ,现有A 、B 两台仪器对其进行测量,测量结果如下:X A =100.05mm ,X B =100.00mm ,试比较两台仪器绝对误差的大小。
解:A仪器的测量误差为:V A =X A -X =100.05-100.02=0.03mmB仪器的测量误差为:V B =X B -X =100.00-100.02=-0.02mm由于|V A |>|V B |,所以B仪器的绝对误差小。
二、误差的分类(表示方法)例3.2:某电压表量程为50V,准确度级别为1.5级,在对其进行校准时,测30V的标准电压时其最大示值误差为1V,问该电压表是否处于合格状态?’=1/50×100%=2%解:rα即α’=2.0,根据实际测量得到的该表的准确度级别为2,达不到1.5级别要求,所以该电表处于不合格状态。
精度等级α:表征测试系统或装置在符合一定的计量要求情况下,能保持其误差在规定的极限范围内。
结果表明,用1.0级仪表比用0.5级仪表的示值相对误差反而小,所以更合适。
(二)测量误差根据其产生原因的分类1.仪器误差:由于仪器的结构、制造不完善,或调整、校正不当等原因而引起的。
(如仪器的结构、制造不完善)2.人为误差:由于测量工作者技术不熟练或其它主观原因而引起的。
(如测量人员视觉存在近视,斜视,弱听等,测量人员的精神状态的变化也会引入误差)3.环境误差:由于测量环境的影响或测量条件的变化而引起的。
(如温度变化引起传感器零漂等等)4.方法误差:由于测量方法不正确而引起的误差。
(如测量仪器的使用方法不对,压力表,航空用高度表)这种误差也称为理论误差和原理误差。
(三)测量误差根据其性质及变化规律的分类1)系统误差:保持一定数值或按一定规律变化的误差,称为系统误差。
例如,由于仪器标度尺刻划得不准确,测量时的温度与仪器的校正温度不相等,测量者观察仪器指针时习惯于斜视等原因引起的误差。
系统误差是有规律的,这种规律体现在每一次具体的测量之中。
因此,通过试验找到这种规律之后,就可以对测量值进行修正,以消除系统误差的影响。
2)随机误差:即使在相同的条件下,对同一个参数重复地进行多次测量,所得到的测定值也不可能完全相同。
这时,测量误差具有各不相同的数值与符号,这种误差称为随机误差。
随机误差反映了许多互相独立的因素有细微变化时的综合影响。
例如,在测量过程中,外界条件(温度、湿度、空气振动和电压波动)的瞬间变化,仪器内部或观测者视线的细微变化,都会导致随机误差的产生。
就个体而言,从单次测量结果来看时没有规律的,但就总体而言,即对一个量进行等精度的多次测量后就会发现,随机误差服从一定的统计规律。
3)疏失(粗大)误差:由于测量工作中的错误、疏忽大意等原因引起的误差,称为疏失(粗大)误差。
例如,仪器操作的错误,观察时读错了数字或小数点位置等等。
疏失(粗大)误差的数值和符号是没有任何规律的。
只要在测量时,做到认真仔细,反复核对数据,疏失误差是可以避免的。
加拿大魁北克省的铁桥多伦多大学Engineering ring根据误差的性质和特点将误差分为3类,但是各类误差之间在一定条件下可以相互转换,尤其是系统误差和随机误差。
三、测量的精密度、准确度和精度⏹在任何测量工作中,测量误差是不可避免的,测量值只是被测参数真值的某个近似值。
由于误差的性质不同,它们对测量值的影响程度也各不相同。
因此,在测量工作中,要使用精密度、准确度和精度等概念,用来判别测量误差的大小和好坏程度。
⏹精密度是指在测量某一参数中测量值的密集(或重复性)程度。
⏹准确度是指测量值与真值符合的程度。
⏹精度是综合地反映精密度和准确度的指标,它反映了测量的总误差,即表达测量结果与被测量的真值的接近程度。
精度反映了测试系统中系统误差和随机误差的综合影响在一组测量中,尽管精密度很好,但准确度不一定很好。
反之,若准确度很好,但精密度也不一定很好。
只有精密度和准确度都好,精度才能达到所需的要求。
四、随机误差的分布规律在讨论随机误差的规律时,一般假设系统误差、疏失(粗大)误差已被消除。
大量试验结果表明,虽然个别的随机误差可能大也可能小,可能为正也可能为负,它们的发生具有随机性(偶然性),但是它们的总体却符合统计规律。
重复测量的次数越多,这种规律性就越明显。
实践证明随机误差是遵循正态分布规律的。
随机误差的特性:1)对称性——绝对值相等的正负误差,其出现的概率相同;2)有限性——绝对值很大的误差出现的概率接近于零,亦即误差的绝对值有一定的限度;3)分布规律性——绝对值小的误差出现的概率大,而绝对值大的误差出现的概率小;4)相互补偿性——随机误差的算术平均值随测量次数增加而趋于零。
因此,可以用增加测量次数来减小随机误差的影响。
第二节:直接测量与间接测量的误差分析在实际测量中,测量方法一般采用直接测量与间接测量两种方法。
所谓直接测量就是将被测量与标准量直接进行比较。
如用米尺测量起重机的工作幅度、用拉力计测量钢丝绳张力、用位移传感器测量构件变形位移等,都属于直接测量。
间接测量是指被测量不能或不易直接与标准量进行比较,而是通过另外几个可以直接测得的其他参数量与其构成某种函数关系式而求得。
如构件应力测量,是通过测量微应变,然后按一定的公式计算求得。
又如电机驱动功率的测量是通过分别测量输出轴的扭矩和转速,再通过公式计算求得。
诸如此类的测量都属于间接测量。
一、直接测量的误差分析1.测量结果的求取在直接测量中,测量的目的是要求如何从一组测量值中决定最接近真值的数值,也就是说通过有限次的测量求得一个最能代表这些测量数据的确定值。
由于随机误差具有相互补偿性,所以,当测量数据个数超过无穷大时,其算术平均值(数学期望值)不含有随机误差。
如果考虑随机误差的影响,可见算术平均值最能代表测量数据。
因此,可以知道真值的最佳估计就是测量数据的算术平均值。
2.直接测量误差分析1)测量的精密度参数在直接测量中,常用极差R 、标准偏差、变异系数、最大可能误差及概率误差等参数来描述测量精密度。
因此,这些参数被称为测量精密度参数。
①极差R :极差R 是数据中最大值与最小值之差,即(3-10)式中:x max ——数据中的最大值;x min ——数据中的最小值。
极差R 是一种简单反映测量精密度的参数,反映实际情况的精密度较低,因为它没有利用最大值与最小值之间的其它数据作为评价数据。
min max x x R -=③最大可能误差与概率误差ρ误差之值出现在某一区间内的概率,可以通过式(3-4)来计算。
由于误差分布曲线是对称的,通常取对称区间[-b ,+b ]来估计值出现的概率,即是:一般令b =kσ,其中k 称为置信系数。
m δ)()(}|{|}{x d x p b x p b x b p b b∆∆=<∆=≤∆≤-⎰-当k =3时,p =99.7%,即误差介于±3σ范围内出现的概率为99.7%,这就是说随机误差的可能取值,几乎全部在±3σ之间。
同样当计算p =50%的区间时,k =0.6745,称为概率误差。
二、间接测量的误差分析间接测量的误差分析是在直接测量的误差分析基础上进行的,如何由直接测量的误差来计算间接测量的误差,此即误差传递规律问题。
1.间接测量结果的求取间接测量结果的求取就是把直接测量的各个参数,根据它们存在的一定函数关系,将直接测得的各参量的算术平均值代人该系数关系式,以求得间接测量的结果。
2.间接测量的误差分析间接测量中经常遇到这样两个问题:一种是已知直接测量值的误差,求间接测量的误差。
另一种是给定间接测量值的误差,求各直接测量值允许的最大误差。
1)由直接测量的误差计算间接测量的误差间接测量值y 与各直接测量参数x 1,x 2,…,x n 之间的关系用函数关系式表示为:y=f (x 1,x 2,…,x n )若各个直接误差导致间接误差为,则有:y +=f (x 1+,x 2+,…,x n +)i x ∆y ∆y ∆1x ∆2x ∆n x ∆例:测量一圆柱体的直径D 和高度H ,欲通过函数关系求出其体积,测量结果如下,试求圆柱体的体积及其偏差范围(置信概率为95%)。
4/2H D V π=n 12345D 9.810.010.19.910.2H1039997101100。