当前位置:文档之家› 离群点的判定和处理

离群点的判定和处理

离群点的判定和处理
离群点的判定和处理

承诺书

我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。

我们参赛选择的题号是(从题目编号中选择一项填写): A

题目:数学建模竞赛

参赛队员:

姓名专业班级所在学院电话(手机)是否报名全国竞赛

A题:离群点的判定

摘要

离群点是指数据中,远离数值的一般水平的极端大值和极端小值,也称之为歧异值,有时也称其为野值,其对后续的数据处理有很大的影响;本文研究的目的是拟建立适当的数学模型,评判出一组数据中的离群点,并对出现的离群点进行处理。

对于问题一的第一小问,本文拟将一维数据分成确定数据和不确定数据两类,对于确定数据建立残差绝对值模型发现离群点,当残差绝对值y(n)>y1-a(n)时,残差绝对值对应的Xi即为离群点;对于不确定数据,建立可能世界模型确定数据的邻居对象,在传统确定性数据判定方法的基础上,离群点的概率还需要满足所给出的概率阀值;同时满足两个条件即为离群点。

对于问题一的第二小问,本文拟采用aggarwal等所提出的评价指标体系评价残差绝对值模型判定离群点的有效性,计算真正的离群点数占该方法所找出的离群点的比例,比例越大残差绝对值模型判定离群点的有效性越好。

对于问题二,对离群点的处理本文拟分为标准偏差预知和标准偏差未知两类,对于标准偏差预知,本文拟采用统计量T=(X-X)/σ,T值大于舍弃界限中相应置信度下的临界值则舍弃否则保留;对于标准偏差未知,本文分别采用拉依达准则、狄克松法、肖维特法、格鲁布斯法、学生化残差绝对值法对离散点进行处理,更科学决定离散点的舍与留。

对于问题三,对于n维数据离群点的判定,本文拟采用神经网络模型求解,运用DPS数据处理系统将n维数据分为离群点和非离群点两类,输出的离群值即为要发现的离群点;本文拟采用蠓分类试验对神经网络模型来检验其有效性。

一、问题重述

离群点(outlier )是指数值中,远离数值的一般水平的极端大值和极端小值。因此,也称之为歧异值,有时也称其为野值。

形成离群点的主要原因有:首先可能是采样中的误差,如记录的偏误,工作人员出现笔误,计算错误等,都有可能产生极端大值或者极端小值。其次可能是被研究现象本身由于受各种偶然非正常的因素影响而引起的。例如:在人口死亡序列中,由于某年发生了地震,使该年度死亡人数剧增,形成离群点;在股票价格序列中,由于受某项政策出台或某种谣传的刺激,都会出现极增,极减现象,变现为离群点。

不论是何种原因引起的离群点对以后的分析都会造成一定的影响。从造成分析的困难来看,统计分析人员说不希望序列中出现离群点,离群点会直接影响模型的拟合精度,甚至会得到一些虚伪的信息。因此,离群点往往被分析人员看作是一个“坏值”。但是,从获得信息来看,离群点提供了很重要的信息,它不仅提示我们认真检查采样中是否存在差错,在进行分析前,认真确认,而且,当确认离群点是由于系统受外部突发因素刺激而引起的时候,他会提供相关的系统稳定性,灵敏性等重要信息。

问题一:针对一维数据,建立判别离群点的数学模型;并对模型的计算结果进行评价或检验。

问题二:如果数据中出现离群点应该如何处理?并举例说明该处理方法对后续建模分析的影响。

问题三:针对n 维数据,建立判别离群点的数学模型;并对模型的计算结果进行评价或检验。

二、模型假设

假设:

(1)假设同一样本中的数据相互独立; (2)假设已事先确定样本数据的置信度;

(3)假设本文中讨论的离群点均是同一组分析数据中产生的,不涉及同一主体中不同样本间的离群点问题;

(4)假设随机变量的测量值服从正态分布;

三、符号的约定

x : 样本数据的算术平均值 i v : 样本数据的残差

s : 样本数据的标准偏差

i y : 样本残差

1()a y n -: 实验残差

σ

: 不包括离群点在内的其他实验测定值求得的样本偏差

T : 统计量

d X : 待检验的离群点 Q : 狄克松法中的统计量

ω: 肖维特法中的统计量

G : 格鲁布斯法中的统计量

K :

t 检验法中的统计量

R t : 极差法中的统计量

四、问题分析与模型的建立

离群点(outlier )是指数值中,远离数值的一般水平的极端大值和极端小值。因此,也称之为歧异值,有时也称其为野值,显然离群点的出现给数据处理造成了很大的麻烦,本文则就如何处理数据中出现的离群点建立了数学模型。

对问题一,本文对于一维数据建立了基于距离的离群点判别模型,本文把现实数据中一维数据分为两类:1.传统确定性数据2.不确定数据,并分别进行了处理,然后本文通过试验的方法验证了基于距离的离群点检测方法的性能;

对问题二,如果数据中出现离群点,首先应从技术上设法判断其出现的原因,如果查明确由实验技术上的失误或者人为记录失误造成的,不管这样的测定值是否为异常值,都应该舍弃,而不必进行统计;如果由于存在某些原因不能从技术上找到离群点出现的原因,在这样的情况下应该首先对它进行统计检验,以便确定离群点应该舍弃还是保留,然后本文采用七种不同的方法对离群点进行处理,并举例说明了各处理方法对后续建模分析的影响,而且对给出的处理方法进行了比较,给出了各自的适用范围。 对问题三,因为高维数据的特性完全不同于低维数据,因此离群点的发现方法也会不同于传统的低维离群点发现方法,由于维数的增加,微小量积累效应,会使高维空间的数据分布得比较稀疏,使高维空间中数据之间的距离尺度及区域密度失去了直观意义,因此本文借用神经网络模型来求解并对建立的模型进行了 检验。

五、模型的建立与求解

问题一:

(一)针对一维数据,建立判别离群点的数学模型

对于一维数据本文拟采用基于距离的离群点判别模型,本文把现实数据中一维数据分为两类:1.传统确定性数据,其数据的存在性和可信性是确凿无疑的,本文采用残差绝对值法剔除离群点。

2.不确定数据,数据的收集和处理受到多种因素的影响,其数据的存在性和可信性也将不确定,本文拟采用残差绝对值法与概率阀值相结合的方法判别不确定数据的离群点。

(1)对于传统确定性数据

设对某量进行n 次独立测量, 得到的测量列X 为:

{}()

12=,,1,2,n X x x x i n =

它的算术平均值x 及其残差i v 分别为:

1

n

i

i x

x n

==

i i v x x

=-

残差与实验标准差之比为实验残差,即:

i

i v y s

=

式中:s 为试验标准差,其值为:

21

1n

i i v s n ==

-∑

残差与样本标准差之比为样本残差,即:

()

1(1)

i i v y s =

式中:

(1)

s 为样本标准差,其值为:

21(1)n

i i v s n

==

残差的绝对值与实验标准差之比为实验残差的绝对值,即:

`i i v y s

=

残差的绝对值与样本标准差之比为样本残差的绝对值,即:

(1)

i i v y s =

实验残差的绝对值与样本残差的绝对值均可称为残差的绝对值。

取残差绝对值:

max ()i

v y n s

=

确定置信概率a 值,查蒙特卡洛法研究得出的残差绝对值法剔除离群值的临界值

1()a y n -见表1,当1()()

a y n y n ->时,认为

max i

v 对应的i x

为离群

点,应当予以剔除,否则该测量列不含离群点。若剔除一个离群点,则对剩余的n-1个测量值重复使用该准则进行判断,,直至检验不出离群值为止。 由蒙特卡洛法研究得出的残差绝对值法剔除离群值的临界值表如下:

表1残差绝对值临界值表

n

10.05()s n - 10.01()s n - 3 1.154 1.155 4 1.481 1.496 5 1.715 1.764 6 1.886 1.973 7 2.025 2.152 8 2.132 2.280 9 2.218 2.390 10

2.290

2.485

11 2.360 2.570

12 2.415 2.646

13 2.469 2.702

14 2.511 2.761

15 2.554 2.809

16 2.587 2.858

17 2.625 2.892

18 2.654 2.936

19 2.681 2.970

20 2.707 3.002

21 2.736 3.037

22 2.761 3.069

23 2.781 3.090

24 2.800 3.115

25 2.823 3.148

26 2.843 3.168

27 2.863 3.191

28 2.879 3.211

29 2.893 3.236

30 2.911 3.252

31 2.928 3.268

32 2.943 3.282

33 2.956 3.297

34 2.969 3.309

35 2.981 3.321

36 2.933 3.340

37 3.002 3.351

38 3.012 3.367

39 3.027 3.376

40 3.040 3.386

41 3.051 3.398

42 3.062 3.410

43 3.070 3.424

44 3.080 3.437

45 3.089 3.448

46 3.095 3.462

47 3.103 3.471

48 3.115 3.479

49 3.124 3.488

50 3.132 3.495

(2)对于不确定性数据

在很多现实的应用领域中,数据的收集和处理受到多种因素的影响,在数据

集成领域,由于数据源的不一致性和模式映射的复杂多样,集成后的数据不可避免地会引入不确定性,其数据的存在性和可信性也将不确定,由于数据项引入了概率值,概率值表示该数据出现可能性;应用于传统数据的技术无法直接应用于不确定性数据。

例:表2为一个典型的不确定数据表,该表可视为在某种应用中获得的原始数据经过某种处理得到的抽象表,这里不考虑其数据来源,只用来说明概率值对离群点检测的影响。

表2 不确定数据

元组t i 属性 概率值P i t 1 35 0.7 t 2 41 0.6 t 3 24 0.4 t 4 43 0.8

在传统确定性数据判定方法的基础上,不确定性数据中判断一个对象是基于

距离的离群点不仅需要满足:1()()

a y n y n ->还需要对象是离群点的概率满足所给出的概率阀值。在不确定数据中评价一个对象是否为离群点的最基本方法就是利用可能世界模型,将对象的邻居展开成为多个可能世界实例,然后利用确定性数据的处理方法逐个处理;对每个样本点ti 找到它的近邻点,然后计算每个近邻点出现的概率值,将近邻点概率值之和与概率阀值比较,看是否满足概率阀值;例如对表1中的数据取邻居对象数量阈值k=2得t 1的邻居组成的可能世界及概率,其中所有邻居对象概率之和为1。

表3 t 1的邻居组成的可能世界及概率

邻居对象 概率值 邻居对象 概率值

W 0=Φ 0.0144 W 8={t 2,t 3} 0.0144 W 1={t 1} 0.0336 W 9={t 2,t 4} 0.0864 W 2={t 2} 0.0216 W 10={t 3,t 4} 0.0384 W 3={t 3} 0.0096 W 11={t 1,t 2,t 3} 0.0366 W 4={t 4} 0.0576 W 12={t 1,t 2,t 4} 0.1344 W 5={t 1,t 2} 0.0504 W 13={t 1,t 3,t 4} 0.0896

W 6={t 1,t 3} 0.0224 W 14={t 2,t 3,t 4} 0.0576 W 7={t 1,t 4} 0.1344 W 15={t 1,t 2,t 3,t 4} 0.1344

满足邻居对象数量阈值k 的概率和是0.1398,如果此值满足概率阀值则t 1是离群点,否则不是。

(二)对模型的计算结果进行评价或检验

为了验证残差绝对值法剔除离群点的有效性,本文将通过试验来验证基于距离的离群点检测方法的性能,试验中,在数据集上我们采用aggarwal 等所提出的

评价指标体系来评测离群点检测方法的性能,该评价体系是目前最常用的一类离群点检测方法评价体系。.给定一个数据集以及数据集中每个对象所属的类,要评价一个离群点检测方法的好坏,可以通过在给定的数据集上来运行该方法,并且计算在由该方法所找出的离群点数B ,真正的离群点数b ,计算真正的离群点

数占该方法所找出的离群点数得比例

z b B =

,比例越高,则表明该方法的有效性越好。

问题二:

如果数据中出现离群点应该如何处理?

(1)如果数据中出现离群点,首先应从技术上设法判断其出现的原因,如果查明确由实验技术上的失误或者人为记录失误造成的,不管这样的测定值是否为异常值,都应该舍弃,而不必进行统计。 (2)如果由于存在某些原因不能从技术上找到离群点出现的原因,在这样的情况下应该首先对它进行统计检验,以便确定离群点应该舍弃还是保留。

离群点的检验方法:

离群点的检验可以分为两大类:一类是标准偏差预先已知的情况,另一种是标准偏差未知的情况。

1:标准偏差预先已知 检验时使用统计量

d X X

T σ

-=

进行检验,式中d X 是被检验的离群点,X

是一组测定值的算术平均值,

σ

是不包括离群点在内的其他实验测定值求得的。

如果根据上式求的的T 值大于舍弃界限中相应置信度下的临界值,则将离群点

d X 作为异常值舍弃掉。

2:标准偏差未知

如果是标准偏差未知的情况,则只能利用待检验的一组分析数据本身来检验其中的离群点是否应该保留或舍弃,本文将利用几种方法或准则进行探讨并进行比较几种方法的优缺点。

拉依达准则:

拉依达准则又被称为3s 准则,首先求得一组测定值的标准偏差,如果离群点

d X 与测量平均值之差的绝对值大于3倍的标准偏差,即

3d X X s

->

则可以认为离群点d X

是异常值,应从该组分析数据中舍弃,如果不大于3倍的标准偏差,则应将离群点保留。

狄克松法:

由于离群点(outlier )是指数值中,远离数值的一般水平的极端大值和极端小值。所以首先将分析数据由小到大进行排列:1231,,,,,n n X X X X X - ,

则其中的离群点为

1X 或者n X 。

首先求出离群点与其最邻近值之差()1n n X X --,或者

()2

1

X X -,

然后求出极差()1n X X -,

计算出统计量

1

1n n n X X Q X X --=

-或者

211n X X Q X X -=-

Q 值越大,说明1X 或n X 离群越远。

根据测定次数和所要求的置信度,若

Q 大于所查数值,则应予以舍弃,否则予

以保留。

肖维特法:

用肖维特法检验离群点,首先求出统计量

ω,

d X X s

ω-=

其中d X

指被检验的离群点,X

是一组测定值的算术平均值,

s 一组测定值

的标准偏差。

根据上式算出的

ω值,如果大于肖维特系数表中相应测定系数时的值,则该被

检验的离群点d X 为异常值,应该予以舍弃,否则应予以保留。

格鲁布斯法:

首先将分析数据由小到大进行排列:

1231,,,,,n n X X X X X - ,则其中的离群点为

1X 或者n X ;然后计算出该组数据的算术平均值X

和标准偏差

s ,再计算出统计量

1X X G s -=或n X X

G s

-=

根据事先确定的置信度和测定次数查表,如果G 大于所查数值,则相对于G 的

1X 或者n X 为异常值,应予以舍弃,否则应予以保留。

t 检验法:

用t 检验法检验离群点,使用统计量

d X X K s

-=

其中d X

指被检验的离群点,X 和s

是由不包括离群点在内的1n -个数据计算得到的算术平均值和标准偏差。根据事先确定的置信度和测定次数查表,如果K 大于所查数值,则离群点d X 为异常值,应予以舍弃,否则应予以保留。

极差法:

利用极差法检验一组数据中的离群点时,使用统计量

d R X X t R

-=

式中

R 为极差,根据事先确定的置信度和测定次数查表,如果R t 大于所查数

值,则离群点d X

为异常值,应予以舍弃,否则应予以保留。

学生化残差绝对值法:

首先将分析数据由小到大进行排列:

1231,,,,,n n X X X X X - ,则其中的离群点为

1X 或者n X ;计算统计量

()max i

n v S s

=

其中残差i

i v

X X =-,

X

s 是这组数据的算术平均值和标准偏差。

根据事先确定的显著性水平

a ,查学生化残差绝对值临界值表得出临界值

()

1a S n -,当

()

()1n a n S S ->,认为

max i

v 对应的

i X 为离群点,应予

以舍弃,否则应予以保留。

例:对某量进行了16次等精度的独立测量,测量结果为(单位:mm ):

1125,1248,1250,1259,1273,1279,1285,1285,1293,1300,1305,1312,1324,1315,1325,1350;

计算得残差的绝对值i v 分别为:

158,35,33,24,10,4,,2,2,10,17,22,29,41,32,42,47;

用学生化残差绝对值法解:

这组数据的算术平均值及标准偏差分别为

1

1283n

i

i X

X n

==

=∑,

21

50.76

1

n

i i v s n ==

=-∑

取显著性水平0.05a =,由16n =查学生化残差绝对值临界值表得到临界

值:

()10.0516 2.59

S -=,

由于

()116max 158

3.11 2.5950.76i

v v S s

s =

===>,

所以第一个测量数值1125应予以舍弃;

当15n

=时重新计算算术平均值及标准偏差,得到临界值为2.55,

()15max 56.47 1.93 2.5529.30i

v S s

=

==<,

因此测量值中不再含有离群点。

用其他几种方法分别对离群点进行检验,可以得到相同的结果。

几种方法的比较:

上述几种检验处理离群点的方法有着各自的适用范围和特点。

拉依达法使用方便,不需要查表,但严密性不足,当测定次数不多或者题目的要求不高时可以应用它,但有时候如果只有一组测定数据的情况下,即使离群点是异常值,应该予以舍弃的时候,也有可能存在检验不出来的情况; 肖维特法比拉依达法有所改善,而狄克松法,格鲁布斯法,

t 检验法和极差法

因为有了置信度的限制,则显得更为科学合理;

其中狄克松法使用起来比较简便,当测定次数较少(3 5次测定)时,可以使用;

t 检验法因为在数据处理之前,预先剔除了被检验的离群点,保证了数据标准偏差s 的正确性和独立性,在理论上则更为严格,提高了测定的精度和数据检验

的灵敏度,但如果被检验的离群点不是异常值,只是数据中的极值,此时会导致计算得到的标准偏差

s 较真实值偏小,原来位于临界点的一些极值也可能会被

错认为是异常值舍弃掉;

极差法则有可能会把本来是异常值的离群点作为正常值保留下来;

而学生化残差绝对值法则可以避免上述情况,使得判断的结果更为准确。

问题三:

高维数据的特性完全不同于低维数据,因此离群点的发现方法也会不同于传统的低维离群点发现方法,由于维数的增加,微小量积累效应,会使高维空间的数据分布得比较稀疏,使高维空间中数据之间的距离尺度及区域密度失去了直观意义,因此借用神经网络模型求解比较方便、准确。

假设数据集D是n个点的集合(P1,P2,P3,P4 ……PN),这n个点都有m个属性(W1,W2,W3,W4……WM),可建立一个有m个输入,1个输出的若干层BP神经网络模型,用于判定某点是否为离群值点。

在此以区分两种蠓A和B来说明离群点和非离群点的判别问题。某地区的一种蠓A经过自然选择,变异积累,出现了更能适应环境的蠓B,我们把蠓B 看作是该种群点集合中的离群点,来判别出哪些是蠓B。这两种蠓是根据触角长和翼长加以区分的,怎么识别触角长和翼长分别为(1.24,1.8),(1.28,1.84),(1.4,2.04)的三只蠓?

序号触角长翼长类别序号触角长翼长类别

1 1.24 1.7

2 1 10 1.14 1.78 2

2 1.36 1.74 1 11 1.18 1.96 2

3 1.38 1.6

4 1 12 1.2 1.86 2

4 1.38 1.82 1 13 1.26 2 2

5 1.38 1.9 1 14 1.28 2 2

6 1.4 1.

7 1 15 1.3 1.96 2

7 1.48 1.82 1 16 1.24 1.8 0

8 1.54 1.82 1 17 1.28 1.84 0

9 1.56 2.08 1 18 1.4 2.04 0

构造两层神经网络模型:

a1(1)

a0(1)

a2

W2

a0(2) a1(2) W2

W1

用DPS 数据处理系统进行数据处理,详见附录,

拟合结果: No: y1

样本1 0.89783 样本2 0.89976 样本3 0.89793 样本4 0.10563 样本5 0.89950 样本6 0.89918 样本7 0.89365 样本8 0.10000 样本9 0.10000 样本10 0.10013 样本11 0.10441 样本12 0.10000 样本13 0.10000 样本14 0.10000 样本15 0.10032 待识别样本识别结果: No: y1

样本1 0.10000 样本2 0.10000 样本3 0.10000

模型检验:

设12,n x x x ???为数据点集每维的平均数,计算出偏离各点偏离平均值的

量的绝对值,按降序排列,使其构成向量12=(,)n W w w w ???,然后构造m 个判

断矩阵

11

1122221

21

2

P1=n n n n n n w w w w w w w w w w w w w w w w w w ????????????

?

?

???????

?????????????????????

????

P2=???

??

?

本题实例验证如下:

触角长与平均值之比与1之差与1之差的绝

对值

1-绝对值(w i)

1.36 1.0156833458 0.01568334578 0.015683345

78

0.98431665422

1.3 0.97087378641 -0.029********

2

0.029126213

592

0.97087378641

1.38 1.0306198656 0.030619865571 0.030619865

571

0.96938013443

1.38 1.0306198656 0.030619865571 0.030619865

571

0.96938013443

1.38 1.0306198656 0.030619865571 0.030619865

571

0.96938013443

1.28 0.95593726662 -0.0440*******

3

0.044062733

383

0.95593726662

1.4 1.0455563854 0.0455******** 0.045556385

362

0.95444361464

1.26 0.94100074683 -0.05899925317

4

0.058999253

174

0.94100074683

1.24 0.92606422704 -0.0739*******

5

0.073935772

965

0.92606422704

1.2 0.89619118745 -0.10380881255 0.103808812

55

0.89619118745

1.48 1.1053024645 0.10530246453 0.105302464

53

0.89469753547

1.18 0.88125466766 -0.11874533234 0.118745332

34

0.88125466766

1.14 0.85138162808 -0.14861837192 0.148618371

92

0.85138162808

1.54 1.1501120239 0.1501120239 0.150112023

9

0.8498879761

1.56 1.1650485437 0.16504854369 0.165048543

69

0.83495145631

翼长与平均值之比与1之差与1之差的绝

对值

1-绝对值(w i)

1.86 1.0036151729 0.003615172934

8

0.003615172

9348

0.99638482707

1.82 0.98203205094 -0.01796794906

4

0.017967949

064

0.98203205094

1.82 0.98203205094 -0.017967949060.0179679490.98203205094

由以上数据知,n=15,m=2,算得1=1.339x ,2=1.8533

x ,根据所有蠓触角长和翼长的基准范围,据其偏离平均值的大小排序,在权衡比重及考虑实际情况的基础上,最终确立各级权重。

Aij>0,Aij=wi/wj,Aji=1/Aij,Aii=1 ,=1,2

,31

i j

4

064 1.82 0.98203205094

-0.01796794906

4 0.017967949

064 0.98203205094 1.9 1.025******* 0.025********* 0.025198294

933 0.97480170507 1.78 0.96044892894

-0.0395*******

2

0.039551071

062 0.96044892894 1.96 1.0575729779 0.0575******** 0.057572977

931 0.94242702207 1.96 1.0575729779 0.0575******** 0.057572977

931 0.94242702207 1.72 0.92807424594 -0.0719******* 0.071925754

06 0.92807424594 2 1.0791560999 0.0791******* 0.079156099

93 0.92084390007 2 1.0791560999

0.0791*******

0.079156099

93 0.92084390007 1.7 0.91728268494 -0.0827******* 0.082717315

06 0.91728268494 1.64 0.88490800194 -0.11509199806 0.115091998

06 0.88490800194 2.08 1.1223223439

0.12232234393

0.122322343

93 0.87767765607 1.14 0.61511897696 -0.38488102304

0.384881023

04

0.61511897696

100100199859950110043P1=8543110050

????????????

?

?

???

??

??????????

??

?????????

?

??? 10050199

319925110022P2=3122150

25?

?

??????????

?

?

?????

????????

?????????????

?

???

和法:①将两矩阵的元素分别按列归一化

P1=

,=1,21

ij

ij ij

i

w i j w

???∑’

P2=

,=1,215

ij

ij ij

i

w i j w

???∑’

归一化后得矩阵P1’,P2’

②将归一化后的个元素按行相加得W1’,W2’

15

=1

W1=A '

ij j ∑’

15

=1

W2=A '

ij j ∑’

12W1=,)T n w w w ???’(’’’ 12W2=,)T

n w w w ???’(’’’

③将每个和数除以15,即得每只蠓触角长和翼长的权重

W1W1=15i i ’ W2W2=

15i i ’

算得W1i ,W2i ,最后将每只蠓的两项权值用matlab 进行函数拟合,算出每一项全部个体的残差,取绝对值,用excel 进行排序,降序排列,排名肯前的即为变异蠓。剔除6只变异蠓变异蠓之后的9只蠓与待识别的3只蠓合起,构造12*12矩阵,按照以上步骤,逐步求解。

针对数据点有多个属性,即多项权值时,可拟合多个函数,算残差,将所有数据点的项残差值分类排降序,然后找出有多项差值排名肯前者或者单项差值异常大者,即为所找离群点。当已知某些项的重要性不及其它项时,可赋予每项残差以不同的优先因子,最后建立目标函数,求最小值。

六、模型评价

优点:

(1)本文的数学模型最大的优点在于模型比较简单,易于被理解,没有利用比较深奥的数学专业知识;

(2)本文在对离群点进行处理时,首先将离群点出现的不同情况进行了分类,然后再进行处理;

(3)本文列举了不同的处理离群点的方法,并给出了各自的适用范围,进行了各种方法之间的比较;

(4)针对n维数据,本文建立了神经网络模型进行求解,较为地有效解决高维空间中的数据稀疏问题,并且易于理解;

缺点:

(1)本文没有很好的对模型的计算结果进行评价或检验;

(2)本文没有很好地给出离群点出现的具体原因,在对离群点进行处理时,有可能会造成把数据中的极值作为异常值舍弃的情况;

(3)针对n维数据,本文建立了神经网络模型不能适用于没有具体数值意义的点的求解。

七、模型的改进与应用

(1)选取不同的例子对本文建立的模型进行检验,验证模型的正确性,并确定模型的适用范围;

(2)确定不同方法处理离群点的适用范围,并得到普遍使用的简单的处理方法;

(3)理解DPS数据处理系统的使用方法,对高维数据进行处理;

(4)本文建立的模型可以对简单的离群点进行处理,得到较为准确的结果。

八、参考文献

[1] 邓勃,数理统计方法在分析测试中的应用[M], 北京:化学工业出版社,1984;

[2] 王文波,数学建模及其基础知识详解[J],武汉:武汉大学出版社,2006;

[3] 王庚王敏生,现代数学建模方法[J],北京:科学出版社,2006

九、附录

DPS数据处理系统:

在DPS平台上输入;

1.78 1.14 0.9

1.96 1.18 0.9

1.86 1.2 0.9

1.72 1.24 0.1

2.00 1.26 0.9

2.00 1.28 0.9

1.96 1.3 0.9

1.74 1.36 0.1

1.64 1.38 0.1

1.82 1.38 0.1

1.90 1.38 0.1

1.70 1.40 0.1

1.82 1.42 0.1

1.82 1.54 0.1

2.08 1.56 0.1

1.24 1.8 0.9

1.28 1.84 0.1

1.40

2.04 0.9

运行时选精度为0.00001,标准化,隐藏层节点为2,。得如下计算结果:第一隐含层各个结点的权重矩阵

-0.610620 4.17571

7.95819 -4.91774

输出层各个结点的权重矩阵

-10.66855

7.89885

拟合结果:

No: y1

样本1 0.89783 样本2 0.89976 样本3 0.89793 样本4 0.10563 样本5 0.89950 样本6 0.89918 样本7 0.89365 样本8 0.10000 样本9 0.10000 样本10 0.10013 样本11 0.10441 样本12 0.10000 样本13 0.10000 样本14 0.10000 样本15 0.10032

待识别样本识别结果:

No: y1

样本1 0.10000

样本2 0.10000

样本3 0.10000

线性相关和线性无关的结论

§3.2性质定理总结: 一、线性相关的判别: 1、m ααα ,,21线性相关?存在不全为零的数m k k k ,,,21 ,使得 1122m m k k k .ααα++= 0 2、1α线性相关? 1α=0. 3、12,αα线性相关? 1α与2α的对应分量成比例. 4、m ααα ,,21线性相关?其中至少有一个向量能用其余向量线性表示. 5、n 个n 维向量线性相关?它们构成的行列式等于零. 6、m ααα ,,21线性相关 ?m ααα ,,21的秩小于m . 7、对调坐标不改变向量组的线性相关性. 8、部分相关?整体相关. 9、m 个n 维 (m >n ) 向量线性相关. 二、线性无关的判别: 1、m ααα ,,21线性无关?如果1122,m m k k k ααα++= 0则有 .021====m k k k 2、整体无关?部分无关. 3、无关则加长无关 三、线性相关的性质: m ααα ,,21线性无关,12m ,,,αααβ 线性相关?β可由m ααα ,,21线性表 示,且表示法唯一. 四、线性无关的性质: 1、若向量组Ⅰ能由向量组Ⅱ线性表示,且向量组Ⅰ线性无关,则Ⅰ的元素个数≤Ⅱ的元素个数. 2、等价线性无关向量组的向量个数相同.

五、向量组的秩的性质: 1、矩阵A的秩等于A的行(列)向量组的秩. A的不等于零的子式对应于A的行(列)向量组的线性无关组; A的行(列)向量组的线性无关组对应于A的不等于零的子式. 2、若向量组Ⅰ能由向量组Ⅱ线性表示,则Ⅰ的秩≤Ⅱ的秩. 3、等价向量组的秩相同. 六、矩阵的初等行(列)变换不改变列(行)向量组的线性关系.

离群值判别方法比较

离群值判别方法比较 文章介绍了离群值定义及分类,对几种常用的离群值判别方法进行比较,给出了不同情况下应采用的判别方法。希望通过文章的论述,可以为相关工作人员提供帮助,仅供参考。 标签:计量;离群值;判别方法对比 1 概述 离群值是样本中的一个或几个观测值,它们离开其他观测值较远,暗示它们可能来自不同的总体。离群值有两类来源,第一类离群值是总体固有变异性的极端表现,这类离群值与样本中其余观测值属于同一总体。第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果,或产生于观测、记录、计算中的失误,这类离群值与样本中其余观测值不属于同一总体[1]。 在计量领域,对在规定测量条件下测量的量值,测量条件下测得的量值用统计分析的方法进行的测量不确定度分量的评定,是测量不确定度的A类评定。测量中的失误或突发因素不属于测量不确定度的来源。在测量不确定度评定中,应剔除测得值中的离群值(异常值)。离群值的剔除应通过对数据的适当检验后进行[2]。 离群值分为单侧情形和双侧情形,单侧情形分为上侧情形与下侧情形。若无法认定单侧情形,按双侧情形处理。 2 抽样检验理论 文章介绍的离群值判别方法,均是建立在样本服从正态分布的假设上。抽样检验理论主要是建立均值与方差的估计。 2.1 符号及定义 文章符号及定义如表1所示。 2.2 均值及标准差 当不知道总体标准差时,用样本标准差估计作为总体标准差。样本标准差的计算有两种估计方法:贝塞尔公式、极差法。其中,贝塞尔公式法是方差的无偏估计,用于测量次数较多情况;极差法在测量次数较少时(2≤n≤9)应用。公式(1)-(3)分别为样本均值、贝塞尔公式,极差法。 3 离群值的判别

数学建模钢管下料问题

重庆交通大学 学生实验报告 实验课程名称数学建模 ^ 开课实验室数学实验室 学院信息院11 级软件专业班 1 班 学生姓名 学号 ¥ 开课时间2013 至2014 学年第 1 学期

! 】 )

/ 实验一 钢管下料问题 摘要 ( 生产中常会遇到通过切割、剪裁、冲压等手段,将原材料加工成规定大小的某种,称为原料下料问题.按照进一步的工艺要求,确定下料方案,使用料最省,或利润最大是典型的优化问题.下面我们采用数学规划模型建立线性规划模型并借助LINGO 来解决这类问题. 关键词线性规划最优解钢管下料 一,问题重述 1、问题的提出 某钢管零售商从钢管厂进货,将钢管按照顾客的要求切割出售.从钢管厂进货得到的原材料的钢管的长度都是1850mm ,现在一顾客需要15根290 mm,28根315 mm,21根350 mm和30根455 mm的钢管.为了简化生产过程,规定所使用的切割模式的种类不能超过4种,使用频率最高的一种切割模式按照一根原料钢管价值的1/10增加费用,使用频率次之的切割模式按照一根原料钢管价值的2/10增加费用,以此类推,且每种切割模式下的切割次数不能太多(一根原钢管最多生产5根产品),此外为了减少余料浪费,每种切割模式下的余料浪费不能超过100 mm,为了使总费用最小,应该如何下料 ` 2、问题的分析 首先确定合理的切割模式,其次对于不同的分别进行计算得到加工费用,通

过不同的切割模式进行比较,按照一定的排列组合,得最优的切割模式组,进而使工加工的总费用最少. 二,基本假设与符号说明 1、基本假设 假设每根钢管的长度相等且切割模式理想化.不考虑偶然因素导致的整个切割过程无法进行. 2、定义符号说明 (1)设每根钢管的价格为a ,为简化问题先不进行对a 的计算. (2)四种不同的切割模式:1x 、2x 、3x 、4x . 》 (3)其对应的钢管数量分别为:i r 1、i r 2、i r 3、i r 4(非负整数). 三、模型的建立 由于不同的模式不能超过四种,可以用i x 表示i 按照第种模式(i =1,2,3,4)切割的原料钢管的根数,显然它们应当是非负整数.设所使用的第i 种切割模式下 每根原料钢管生产290mm ,315mm,,350mm 和455mm 的钢管数量分别为i r 1,i r 2,i r 3,i r 4(非负整数). 决策目标 切割钢管总费用最小,目标为: Min=(1x ?+2x ?+3x ?+4x ?)?a (1) 为简化问题先不带入a 约束条件 为满足客户需求应有 11r ?1x +12r ?2x +13r ?3x +14r ?4x ≧15 (2) ( 21r ?1x +22r ?2x +23r ?3x +24r ?4x ≧28 (3) 31r ?1x +32r ?2x +33r ?3x +34r ?4x ≧21 (4) 41r ?1x +42r ?2x +43r ?3x +44r ?4x ≧15 (5) 每一种切割模式必须可行、合理,所以每根钢管的成品量不能大于1850mm 也不能小于1750mm.于是: 1750≦290?11r +315?21r +350?31r +455?41r ≦1850 (6) 1750≦290?12r +315?22r +350?32r +455?42r ≦1850 (7) 1750≦290?13r +315?23r +350?33r +455?43r ≦1850

数学建模之钢管下料问题案例分析

钢管下料问题 某钢管零售商从钢管厂进货,将钢管按照顾客的要求切割后售出,从钢管厂进货时得到的原料钢管都是19m 。 (1)现在一客户需要50根4m 、20根6m 和15根8m 的钢管。应如何下料最节省? (2) 零售商如果采用的不同切割模式太多,将会导致生产过程的复杂化,从而增加生产和管理成本,所以该零售商规定采用的不同切割模式不能超过3种。此外,该客户除需要(1)中的三种钢管外,还需要10根5m 的钢管。应如何下料最节省。 问题(1)分析与模型建立 首先分析1根19m 的钢管切割为4m 、6m 、8m 的钢管的模式,所有模式相当于求解不等式方程: 12346819 k k k ++≤ 的整数解。但要求剩余材料12319(468)4r k k k =-++<。 容易得到所有模式见表1。 决策变量 用i x 表示按照第i 种模式(i=1,2,…,7)切割的原料钢管的根数。 以切割原料钢管的总根数最少为目标,则有 1234567min z x x x x x x x =++++++ 约束条件 为满足客户的需求,4米长的钢管至少50根,有

1236743250x x x x x ++++≥ 6米长的钢管至少20根,有 25673220x x x x +++≥ 8米长的钢管至少15根,有 346215x x x ++≥ 因此模型为: 1234567min z x x x x x x x =++++++ 123672567346432503220..215,1,2,,7 i x x x x x x x x x s t x x x x i ++++≥??+++≥??++≥??=? 取整 解得: 12345670,12,0,0,0,15,0x x x x x x x ======= 目标值z=27。 即12根钢管采用切割模式2:3根4m ,1根6m ,余料1m 。 15根钢管采用切割模式6:1根4m ,1根6m ,1根8m ,余料1m 。 切割模式只采用了2种,余料为27m ,使用钢管27根。 LINGO 程序: model: sets: model/1..7/:x; endsets min=x(1)+x(2)+x(3)+x(4)+x(5)+x(6)+x(7); 4*x(1)+3*x(2)+2*x(3)+x(6)+x(7)>=50; x(2)+3*x(5)+x(6)+2*x(7)>=20; x(3)+2*x(4)+x(6)>=15; @for(model(i):@gin(x(i))); end 问题(2)模型建立 首先分析1根19m 的钢管切割为4m 、6m 、8m 、5m 的钢管的模式,所有模式相当

线性回归方程中的相关系数r

线性回归方程中的相关系数r r=∑(Xi-X的平均数)(Yi-Y平均数)/根号下[∑(Xi-X平均数)^2*∑(Yi-Y平均数)^2]

R2就是相关系数的平方, R在一元线性方程就直接是因变量自变量的相关系数,多元则是复相关系数 判定系数R^2 也叫拟合优度、可决系数。表达式是: R^2=ESS/TSS=1-RSS/TSS 该统计量越接近于1,模型的拟合优度越高。 问题:在应用过程中发现,如果在模型中增加一个解释变量,R2往往增大 这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。 ——但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。 这就有了调整的拟合优度: R1^2=1-(RSS/(n-k-1))/(TSS/(n-1)) 在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响: 其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。 总是来说,调整的判定系数比起判定系数,除去了因为变量个数增加对判定结果的影响。R = R接近于1表明Y与X1,X2 ,…,Xk之间的线性关系程度密切; R接近于0表明Y与X1,X2 ,…,Xk之间的线性关系程度不密切 相关系数就是线性相关度的大小,1为(100%)绝对正相关,0为0%,-1为(100%)绝对负相关 相关系数绝对值越靠近1,线性相关性质越好,根据数据描点画出来的函数-自变量图线越趋近于一条平直线,拟合的直线与描点所得图线也更相近。 如果其绝对值越靠近0,那么就说明线性相关性越差,根据数据点描出的图线和拟合曲线相差越远(当相关系数太小时,本来拟合就已经没有意义,如果强行拟合一条直线,再把数据点在同一坐标纸上画出来,可以发现大部分的点偏离这条直线很远,所以用这个直线来拟合是会出现很大误差的或者说是根本错误的)。 分为一元线性回归和多元线性回归 线性回归方程中,回归系数的含义 一元: Y^=bX+a b表示X每变动(增加或减少)1个单位,Y平均变动(增加或减少)b各单位多元: Y^=b1X1+b2X2+b3X3+a 在其他变量不变的情况下,某变量变动1单位,引起y平均变动量 以b2为例:b2表示在X1、X3(在其他变量不变的情况下)不变得情况下,X2每变动1单位,y平均变动b2单位 就一个reg来说y=a+bx+e a+bx的误差称为explained sum of square e的误差是不能解释的是residual sum of square

数学建模之下料问题

数学建模第三次作业 下料问题 摘要 本文是针对如何对钢管进行下料问题,根据题目要求以及下料时有关问题进行建立切割费用最少以及切割总根数最少两个目标函数通过结果分析需要使用何种切割模式。 生产方式所花费的成本价格或多或少有所不同,如何选取合理的生产方式以节约成本成为了很多厂家的急需解决的问题。这不仅仅关系到厂家的利益,也影响到一个国家甚至整个人类星球的可利用资源,人们的生活水平不断提高对物资的需求量也不断上升,制定有效合理的生产方式不仅可以为生产者节约成本也可以为社会节约资源,以达到资源利用最大化。本文以用于切割钢管花费最省及切割总根数最少为优化目标,通过构建多元函数和建立线性整数规划模型,利用数学及相关方面的知识对钢管的切割方式进行优化求解最佳方案。 本文最大的特色在于通过求解出切割钢管花费最省及切割总根数最少时分别得出两种目标函数取最小值时的切割模式。通过结果发现两种目标函数取最小值时所需切割根数都一样。于是选择切割钢管花费最省为目标函数,此时的切割模式达到最少,这样既满足了总根数最小有满足了切割费用最小。 关键词:切割模式LINGO软件线性整数

一、问题的提出 某钢管零售商从钢管厂进货,将钢管按照顾客的要求切割后出售。从钢管厂进货时得到的原料钢管的长度都是1850mm。现有一客户需要15根290mm、28根315mm、21根350mm和30根455mm的钢管。为了简化生产过程,规定所使用的切割模式的种类不能超过4种,使用频率最高的一种切割模式按照一根原料钢管价值的1/10增加费用,使用频率次之的切割模式按照一根原料钢管价值的2/10增加费用,依次类推,且每种切割模式下的切割次数不能太多(一根钢管最多生产5根产品)。此外,为了减少余料浪费,每种切割模式下的余料不能超过100mm。为了使总费用最小,应如何下料? 二、基本假设 1、假设所研究的每根钢管的长度均为1850mm的钢管。 2、假设每次切割都准确无误。 3、假设切割费用短时间内不会波动为固定值。 5、假设钢管余料价值为0. 6、假设一切运作基本正常不会产生意外事件。 7、每一根钢管的费用都一样,为一常值。 三、符号说明

实验离群数据的判断和处理

实验离群数据的判断和处理 离群数据来源与判断: 1、离群值按产生原因分为两类: a)第一类离群值是总体固有变异性的极端表现,这类离群值与样本中其余观测值属于同一总体; b)第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果,或产生于观测、记录、计算中的失误,这类离群值与样本中其余观测值不属于同一总体。对离群值的判定通常可根据技术上或物理上的理由直接进行,例如当试验者已经知道试验偏离了规定的试验方法,或测试仪器发生问题等。当上述理由不明确时,可用本标准规定的方法。 2、离群值的三种情形: 本标准在下述不同情形下判断样本中的离群值: a)上侧情形:根据实际情况或以往经验,离群值都为高端值 ;b)下侧情形:根据实际情况或以往经验,离群值都为低端值; c)双侧情形:根据实际情况或以往经验,离群值可为高端值,也可为低端值。 3、检出离群值个数的上限 应规定在样本中检出离群值个数的上限(与样本量相比应较小),当检出离群值个数超过了这个上限时,对此样本应作慎重的研究和处理。 4、单个离群值情形 a)依实际情况或以往经验选定,选定适宜的离群值检验规则(格拉布斯检验、狄克逊检验等); b)确定适当的显著性水平, c)根据显著性水平及样本量,确定检验的临界值;d)由观测值计算相应统计量的值,根据所得值与临界值的比较结果作出判断。 5、判定多个离群值的检验规则 在允许检出离群值的个数大于1的情况下,重复使用检验规则进行检验。若没有检出离群值,则整个检验停止;若检出离群值,当检出的离群值总数超过上限时,检验停止,对此样本应慎重处理,否则,采用相同的检出水平和相同的规则,对除去已检出的离群值后余下的观测值继续检验。 离群值处理 1、处理方式 处理离群值的方式有: a)保留离群值并用于后续数据处理; b)在找到实际原因时修正离群值,否则予以保留; c)剔除离群值,不追加观测值; d)剔除离群值,并追加新的观测值或用适宜的插补值代替。

数学建模论文——下料问题

3.下料问题 班级:计科0901班姓名:徐松林学号:2009115010130 摘要: 本文建立模型,以最少数量的原材料以及最少的余料浪费来满足客户的需求。主要考虑到两方面的问题。钢管零售商是短时间内出售钢管,则应该以最少原材料根数为目标函数来建模模型;钢管零售商是长时间内出售钢管,则应该以最少余料浪费为目标函数。有效地使用背包问题及线性规划、非线性规划等算法,算出最优解。特别是钢管零售商是短时间内出售钢管,需要分析切割模式的种类1到4种的各个情况的整数最优解,再依次比较每个情况的最优解得出总的最优解。 关键词:余料、原材料、加工费、总费用。 一、问题背景 工厂在实际生产中需要对标准尺寸的原材料进行切割,以满足进一步加工的需要,成为下料问题。 相关数据表明,原材料成本占总生产成本的百分比可以高达45%~60%,而下料方案的优劣直接影响原材料的利用率,进而影响原材料成本。因此需要建立优化的下料方案,以最少数量的原材料以及最少的余料浪费,尽可能按时完成需求任务。 二.问题描述及提出 某钢管零售商从钢管厂进货,将钢管按照顾客的要求切割后售出.从钢管厂进货时得到的原料钢管长度都是1850mm.现有一客户需要15根290mm、28根315mm、21根350mm 和30根455mm的钢管.为了简化生产过程,规定所使用的切割模式的种类不能超过4种,使用频率最高的一种切割模式按照一根原料钢管价值的1/10增加费用,使用频率次之的切割模式按照一根原料钢管价值的2/10增加费用,依此类推,且每种切割模式下的切割次数不能太多(一根原料钢管最多生产5根产品)。此外,为了减少余料浪费,每种切割模式下的余料浪费不能超过100mm.为了使总费用最小,应如何下料? 在该目标下要求考虑下面两个问题: 1.若钢管零售商是短时间内出售钢管(即每次将钢管按照顾客的要求切割后售 出,多余的零件不准备下次售出),则每次应该以最少原材料根数为目标函数。

离群点的判定汇编

离群点的判定 摘要 本文首先对离群点进行了定义,离群点(outlier)是指数值中,远离数值的一般水平的极端大值和极端小值。因此,也称之为歧异值,有时也称其为野值。深入了解了形成离群点的原因,并建立数学模型来找出一维、n维数据中的离群点,主要利用聚类的离群挖掘法。 针对问题一,考虑到数据的杂乱性,先对数据进行排序,由于在实际生活中我们需要处理的数据量往往比较多,离群点的个数也不确定,就考虑对数据进行分类处理,利用离群值跳跃度比较大的特点,采用斜率比较的方法进行分类,在分类的过程中我们就会很容易的发现离群点。最后再对完成分类的数据进行分析。完成分类的数据往往差距更小,可以近似的认为数据服从正态分布,利用正态分布的性质可以找出每类数据中的离群点,这样就找出了数据中所有的离群点。 针对问题二,我们主要采用具体的数据绘制具体的图形来分析存在的离群点,并说明离群点带来的影响。 针对问题三,我们主要利用基于聚类的离群挖掘方法,先利用一趟算法对数据集进行聚类;然后再计算每个簇的离群因子,并按离群因子对簇进行排序,最终确定离群簇,也即确定离群对象。确定算法以后再利用具体的数据进行检测,看该模型是否可行。 关键词:数据的分类处理聚类的离群挖掘方法(CBOD)

一、问题重述 A题:离群点的判定 离群点(outlier)是指数值中,远离数值的一般水平的极端大值和极端小值。因此,也称之为歧异值,有时也称其为野值。 形成离群点的主要原因有:首先可能是采样中的误差,如记录的偏误,工作人员出现笔误,计算错误等,都有可能产生极端大值或者极端小值。其次可能是被研究现象本身由于受各种偶然非正常的因素影响而引起的。例如:在人口死亡序列中,由于某年发生了地震,使该年度死亡人数剧增,形成离群点;在股票价格序列中,由于受某项政策出台或某种谣传的刺激,都会出现极增,极减现象,变现为离群点。 不论是何种原因引起的离群点对以后的分析都会造成一定的影响。从造成分析的困难来看,统计分析人员说不希望序列中出现离群点,离群点会直接影响模型的拟合精度,甚至会得到一些虚伪的信息。因此,离群点往往被分析人员看作是一个“坏值”。但是,从获得信息来看,离群点提供了很重要的信息,它不仅提示我们认真检查采样中是否存在差错,在进行分析前,认真确认,而且,当确认离群点是由于系统受外部突发因素刺激而引起的时候,他会提供相关的系统稳定性,灵敏性等重要信息。 问题一:针对一维数据,建立判别离群点的数学模型;并对模型的计算结果进行评价或检验。 问题二:如果数据中出现离群点应该如何处理?并举例说明该处理方法对后续建模分析的影响。 问题三:针对n维数据,建立判别离群点的数学模型;并对模型的计算结果进行评价或检验。

ESD—检验离群值

Generalized ESD Test for Outliers 一、广义ESD 检验是做什么的 广义ESD 检验是一个检测离群值的方法。它检验服从近似正态 分布的一个单变量数据集中的一个或多个离群值。 二、为什么要使用这个算法 许多统计技术对离群值的存在是敏感的。例如,计算一个数据集 的均值或标准差时,离群值的影响是很大的。因此,检验离群值应该 是任何数据分析的常规部分。我们对潜在的异常值进行检查,以查看 它们是否可能是错误的。如果数据点是错误的,但如果可能,应当校 正,如果不可能则删除。如果没有理由相信边远点是错误的,它不应 该在没有仔细考虑的情况下被删除。 三、对广义ESD 检验的定义 给定数据集X=(x1,x2,...,xn ),设),(~2 σμN X ,x1, x2,...,xn 相互独立且与X 有相同的概率分布。首先画出数据 集的正态概率图(运行序列图,箱线图,或直方图),观察是否存在 潜在离群值(若事先不知道数据是否服从近似正态分布,还可评估数 据是否遵循一个近似正态分布),以确定是否有必要进行离群值检验。 若存在离群值,则给定的离群值数目的上限,令为r ,则广义ESD 检 验实质上是执行r 次单独的检验:首先检验第一个可能的离群值,计

算相应的统计量,在给定的显著水品α下做出判断;再检验第二个离群值,...,检验第r个离群值。这r次检验相互独立,互不影响。具体地说,我们假设: H0 :没有离群值 H1 :最多有r个离群值 计算检验统计量Ri : s x x Ri i | | max- = x:表示样本均值s:表示样本标准差 公式中 | |x x i-的值越大,说明i x与x相差越大,该数距点是 离群值的可能性也越大。我们首先删除使 | |x x i-最大的i x,然 后重新计算余下的n-1个数据的Ri,再移除相应的i x,重复这个过程,一直到移除了r个满足条件的数据(此时,该数据集中,可能是离群值的r个数据被删除),形成r检验统计量R1,R2,...,Rr。 在显著性水平为α(置信度为1-α)的条件下,计算检验的临界值i λ

线性相关性

线性相关性 雷国强 天水师范学院数学与统计学院数学与应用数学11级四班,甘肃天水,741001 摘要 数域P 上n 维线性空间中向量组的线性相关性及其性质和相关性的应用. 关键字 n 维向量;线性组合;线性无关;线性表出. 引言 向量组的线性相关与线性无关性的判定较难理解和掌握.实际上, 向量组的线性相关与线性无关是相对的, 我们只要掌握了向量组的线性相关的判定, 线性无关的判定也就没有问题了.因此, 下面主要论述向量组的线性相关性的定义及判定方法. 1.线性组合 以下我们总是在一固定的数域P 上的n 维向量空间中进行讨论,不再每次说明. 在这里我们研究向量之间的关系.两个向量之间最简单的关系是成比例。所谓向量α 与β成比例就是说有一个数k 使 α =k β . 在多个向量之间,成比例的关系表现为线性组合. 定义9 向量α称为向量组βββs ,,,2 1 的一个线性组合,如果有数域P 中的数,,,,21 k k s k 使 β β β α s s k k k +++= 2 2 1 1 . 例如,§1的方程组(8)的三个方程可以用向量 ),1,3,1,2(1 -=α ),4,5,2,4(2-=α 1,4,1,2(3 --=α 来代表,且等价于.3213ααα-=这个等式表示α3是αα21,的一个线性组合. 又如,任一个 维向量 都是向量组 ? ???? ? ?===). ,,0,0(),0,,1,0(),0,,0,1(21 εεεn 的一个线性组合.因为

ε εεα. 2211n n a a a +++= 向量εεεn ,,,21 称为n 维单位向量. 由定义可以立即看出,零向量是任一向量组的线性组合(只要取系数全为0就行了). 2.线性表出 当向量α是向量组βββs ,,,2 1 的一个线性组合时,我们也说α可以经向量组 β β βs ,,,2 1 线性. 定义10 如果向量组αααt 21,中每一个向量αi ),,2,1(t i =都可以经过向量组 ββ βs ,,,2 1 线性表出,那么向量组 αα αt 2 1 ,就称为可以经向量组β ββs ,,,2 1 线性表出,如果两个向量组互相可以线性表出,它们就称为等价. 3.向量组等价的性质 1)反身性:每一个向量组都与它自身等价. 2)对称性;如果向量组αααs ,,,21 与 β β βt ,,,2 1 等价,那么向量组 ββ βt ,,,2 1 也与 αα αs ,,,2 1 等价. 3)传递性:如果向量组αααs ,,,21 与βββt ,,,2 1 等价,βββt ,,,2 1 与 γ γ γp ,,,2 1 等价,那么向量组αααs ,,,21 与γγγp ,,,21 等价. 4.线性相关与无关 定义11 如果向量组αααs ,,,21 (2≥s )中有一个向量可以由其余的向量线性表 出,那么向量组αααs ,,,21 称为线形相关的. 定义12 一向量组αααs ,,,21 (1≥s )不线性相关,即没有不全为零的数,,,21 k k s k 使 02211= +++αααs s k k k . 就称为线性无关;或者说,一向量组αααs ,,,21 称为线性无关,如果由 02211= +++αααs s k k k .

数学建模--钢管下料问题

钢管下料问题 摘要: 如何建立整数规划模型并得出整数规划模型的求解方法是本实验要点, 本题建立最常见的线性整数规划,利用分支定界法和Lingo 软件进行求解原料下料类问题,即生产中通过切割、剪裁、冲压等手段,将原材料加工成所需大小;按照工艺要求,确定下料方案,使所用材料最省,或利润最大。分支定界法可用于解纯整数或混合的整数规划问题,此方法灵活且便于用计算机求解,所以现在它已是解整数规划的重要方法。Lingo 软件的功能是可以求解非线性规划(也可以做线性规划,整数规划等),特点是运算速度快,允许使用集合来描述大规模的优化问题。 大规模数学规划的描述分为四个部分: model: 1.集合部分(如没有,可省略) SETS: 集合名/元素1,元素2,…,元素n/:属性1,属性2,… ENDSETS 2.目标函数与约束部分 3.数据部分(如没有,可省略) 4.初始化部分(如不需要初始值,可省略) end 关键字:材料 Lingo 软件 整数规划 问题描述: 某钢管零售商从钢管厂进货,将钢管按照顾客的要求切割后售出,从钢管厂进货时得到的原料都是19米。 (1)现有一顾客需要50根4米、20根6米和15根8 米的钢管。应如何下料最节省? (2)零售商如果采用的不同切割模式太多,将会导致生产过程的复杂化,从而增加生产和管理成本,所以该零售商规定采用的不同切割模式不能超过3种。此外,该客户除需要(1)中的三种钢管外,还需要10根5米的钢管。应如何下料最节省。 (1)问题简化: 问题1. 如何下料最节省 ? 节省的标准是什么? 原料钢管:每根19米 4米50根 6米20根 8米15根

描述统计学思考题

1、调查问卷的结构? 2、多项选择题的编码?(多重响应) 3、多项选择排序题的编码? 4、缺失值有哪些处理方法? 5、离群值如何判断与筛选出来? 6、什么就是问卷的信度与效度?怎样检验问卷的信度与效度? 7、问卷调查中的信度分析,有几种信度系数?写出三种信度的测 量方法。 8、问卷调查中的效度分析,有几种关于效度的测定方法? 9、信度与效度之间有什么关系? 10、条形图、直方图、茎叶图的区别。 11、箱线图中的离群点就是哪些点?离群程度? 12、数据特征从哪几个方面进行描述?描述统计量分别就是? 13、众数、中位数、均值的异同? 14、根据下表数据, (1)用描述统计的方法概括表中数据,并讨论您的结论。 (2)对变量数据的最大值、最小值、平均数以及适当的分位数进行评价与解释;通过这些描述统计量,您对亚太地区的商学院有何瞧法或发现? (3)对本国学生学费与外国学生学费进行比较。 (4)对要求或不要求工作经验的学校学生的起薪进行比较。 (5)对要求或不要求英语测试的学校学生的起薪进行比较。

(6)分析报告中如果有必要的图表,将更便于反映您希望反映的问题。(见下页) 表亚太地区25所知名商学院 商学院名称录取 名额 每系 人数 本国 学生 学费 ($) 外国 学生 学费 ($) 年龄 国外 学生 比例 (%) 就是 否要 求 GMAT 就是 否要 求英 语测 试 就是 否要 求工 作经 验 起薪 ($) 麦夸里商学院 (悉尼) 12 5 24420 29600 28 47 就是否就是71400 阿德莱德大学20 4 19993 32582 29 28 就是否就是65200 梅西大学(新 西兰,北帕默 斯顿) 30 5 4300 4300 22 0 否否否7100 墨尔本皇家工 商学院 30 5 11140 11140 29 10 就是否否31000 马来西亚 Sains大学(槟 城) 30 4 33060 33060 28 60 就是就是否87000 澳大利亚国立 大学(堪培拉) 42 5 7562 9000 25 50 就是否就是22800 De La Salle大 学(马尼拉) 44 5 3935 16000 23 1 就是否否7500 南洋理工大学 (新加坡) 50 6 6146 7170 29 51 就是就是就是43300 香港理工大学60 8 2880 16000 23 0 否否否7400 拉合尔管理科 学院 70 2 20300 20300 30 80 就是就是就是46600 香港大学90 5 8500 8500 32 20 就是否就是49300 柯廷理工学院 (珀思) 98 17 16000 22800 32 26 否否就是49600 日本国际大学126 2 11513 11513 26 37 就是否就是34000 昆士兰大学 (布里斯本) 138 8 17172 19778 34 27 否否就是60100 新加坡国立大 学 147 7 17355 17355 25 6 就是否就是17600 墨尔本商学院200 13 16200 22500 30 30 就是就是就是52500 Chulalongkorn 大学(曼谷) 200 10 18200 18200 29 90 否就是就是25000 新南威尔士大 学(悉尼) 228 19 16426 23100 30 10 否否就是66000

下料问题数学建模(钢管)

防盗窗下料问题 摘要 本文针对寻找经济效果最优的钢管下料方案,建立了优化模型。问题中的圆形管下料设定目标为切割原料圆形管数量尽可能少且在使用一定数量圆形管的过程中使被切割利用过的原料总进价尽可能低。问题中的方形管原料不足以提供所需截得的所用钢管,故设目标为使截得后剩余方形管总余量最小。模型的建立过程中,首先运用了C语言程序,利用逐层分析方法,罗列出针对一根钢材的截取模式;然后根据条件得出约束关系,写出函数关系并对圆形管下料建立了线性模型,对方形管下料建立了非线性模型;接着,在对模型按实际情况进行简化后,借助lingo程序对模型求解,得出了模型的最优解,并给出了最符合经济效果最优原则的截取方案。 关键词:钢管下料;最优化;lingo;

问题提出 某不锈钢装饰公司承接了一住宅小区的防盗窗安装工程,为此购进了一批型号为304的不锈钢管,分为方形管和圆形管两种,方管规格为25×25×1.2(mm),圆管规格Φ19×1.2(mm)。每种管管长有4米和6米两种,其中4米圆形管5000根,6米圆形管9000根,4米方形管2000根,6米方形管2000根。 根据小区的实际情况,需要截取1.2m圆管8000根, 1.5m圆管16500根,1.8m圆管12000根,1.4m方形管6000根,1.7m方形管4200根,3m方形管2800根。 请根据上述的实际情况建立数学模型,寻找经济效果最优的下料方案。 基本假设和符号说明 1、假设钢管切割过程中无原料损耗或损坏; 2、假设余料不可焊接; 3、假设同种钢材可采用的切割模式数量不限; 4、假设不同长度钢管运费、存储资源价值没有区别; 5、假设该304型号不锈钢管未经切割则价值不变,可在其它地方使用。 为便于描述问题,文中引入一些符号来代替基本变量,如表一所示: 问题分析与模型建立 问题中的圆形管原料足够,寻找经济效果最优的下料方案,即目标为切割原料圆形管数量尽可能少。考虑到6米圆形管与4米圆形管的采购价格应该是不同的,所以我们寻求的是在使用一定数量6米圆形管与4米圆形管的过程中使被切割利用过的原料总进价尽可能低。 首先要确定针对6米和4米不同规格的圆形管合理的截取模式各有哪几种。然后我们从所有截取模式中选取若干种截取模式,并设计出最佳的截取方案。 问题中的方形管原料不足以提供所需截得的所用钢管,所用的原料必然都要用于切割,不存在使用总钢管数量最少的说法,故我们可建立模型使截得后剩余方形管总余量最小。

向量组线性相关性判定

安阳师范学院本科学生毕业论文向量组线性相关性的判定方法 作者 院(系)数学与统计学院 专业数学与应用数学 年级2011级 学号 指导教师郭亚梅 论文成绩 日期2015年月日

学生诚信承诺书 本人郑重承诺:所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得安阳师范学院或其他教育机构的学位或证书所使用过的材料.所有合作者对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意. 作者签名:日期: 导师签名:日期: 院长签名:日期: 论文使用授权说明 本人完全了解安阳师范学院有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文. 作者签名:导师签名:日期:

向量组线性相关性的判定方法 (安阳师范学院 数学与统计学院 河南 安阳 455002) 摘要:向量组线性相关性在高等代数中是一块基石,在它的基础上我们推导和衍生出其他 许多理论。所以熟练地掌握向量组线性相关性的判定方法,可以让我们更好的理解其他理论知识.本文将向量组内向量之间的线性关系、齐次线性方程组的解、矩阵的秩、行列式的值及已知结论等知识运用于向量组线性相关性的判定,进而归纳出判定向量组线性相关性的若干方法. 关键词:向量组 线性相关 线性无关 判定方法 1 引言 线性相关性的内容是线性代数课程中的重点和难点,线性相关性的有关结论,对我们来说是很难理解的.本文总结出了判定向量组线性相关和线性无关的几种方法. 2.1 n 维向量的定义 (一维、二维、三维向量,推广到n 维向量) 定义: n 个有次序的数12,a ,,a n a 所组成的数组12(a ,a ,)n a 或12(a ,a ,)T n a 分别称为n 维行向量或列向量.这n 个数称为向量的n 个分量, 第i 个数i a 称为第i 个分量.显然,行向量即为行距阵,列向量即为列矩阵.向量通常用黑体小写希腊字母,αβ等表示.分量全为实数的向量称为实向量,分量全为复数的向量称为复向量. 2.2 向量的线性运算 行向量与列向量都按矩阵的运算规则进行运算. 特别地,向量的加法,向量的数乘,称为向量的线性运算.向量的线性运算满足8条运算律. 全体的n 维向量的集合关于线性运算是封闭的,我们将该集合称为n 维向量空间(或线性空间). 例如,全体3维向量的集合;闭区域上的连续函数的集合;一元n 次多项式的集合;实数域上可导函数的集合等,皆为向量空间. 3.向量组线性相关性的定义 3.1向量组 有限个或无限个同维数列向量(或同维数的行向量)所组成的集合称为一个向量组. 例如一个m n ?矩阵对应一个m 维列向量组, 也对应一个n 维行向量组

关于钢材下料问题的数学建模论文

B题钢管下料问题 摘要 应客户要求,某钢厂用两类同规格但不同长度的钢管切割出四种不同长度的成品钢管。故该原料下料问题为典型的优化模型。钢厂在切割钢管时,又要求每种钢管的切割模式都不能超过5种,故我们先分别列出两种原料钢管出现频率较高的切割模式,每一问都需要针对不同钢管节约要求分别求出5种切割模式的最佳组合。 第一问要求余料最少,在切割模式的选择方面,我们尽量要求余料为零,并在此基础上要求切割得成品钢管除满足客户要求外,多余客户要求的钢管数也要尽可能的少,运用Lingo软件求出余料最少时,需要65根A类钢管采用4种切割模式切割,需要40根B类钢管采用2种切割模式切割,总余料为20米。 第二问要求总根数最少,故我们只要求总根数最少,在这里我们分了两种情况:有余料时,需A类钢管65根,采用5种切割模式,需B类钢管38根,采用4种切割模式,余料各为2米;无余料时,需A类钢管75根,采用3种切割模式,需B类钢管39根,采用4种切割模式。 第三问我们运用Lingo软件求出较优解为当m=0.4时最大收益h=a-159,具体切割模式见模型求解部分。为了找到替代比例与最大收益的关系,我们分别给m赋值为0、10%、20%、30%、40%时,用Lingo解得各自的最大收益,并用四次拟合的方法大致算出了最大收益z和替代比例m的关系,为432 3 1 3 8 1 5 . 7 m = +-+-- m m h a m 6 6 . 1 1 3 8 2 4 3 1 . 7 9 . 7 2 (a为总售出额)。 第四问就是将钢厂下料问题一般化,将本文中模型进行推广,得出了可普遍应用的一般化模型。 关键词:优化模型、整数规划模型、线性规划模型、非线性规划模型、Lingo、四次拟合

2004年研究生数学建模B题(下料问题)

有关说明 2004年全国部分高校研究生数学建模竞赛组织委员会、评审委员会热烈欢迎广大研究生参加竞赛,接受挑战,真心预祝你们在竞赛中充分发挥自己的聪明才智,团结协作,顽强拼搏,赛出风格,赛出水平。衷心希望你们通过竞赛增长才干,提高能力。 本次竞赛共有A、B、C、D四道赛题,每队可任选一题参赛,只要在九月二十日十八时之前寄出参赛论文都可以参加评奖。但是由于赛题的难度不可能完全相同,差异在所难免。因此,在评奖中既要考虑四条题目之间的大致平衡,也会考虑到题目的难易程度,向选择难度较大题目的参赛队有所倾斜,特此说明。 由于各种原因,参赛队也有可能对题目有疑问,可以在 https://www.doczj.com/doc/a67443452.html,的网页上贴出疑问,我们将请命题人在同一网页尽快作出回答,以提高效率。但绝对不应借此进行讨论,请各参赛队 自觉遵守竞赛纪律。 竞赛仅仅是个手段,不是目的。因此,我们真诚欢迎广大研究生竞赛后对赛题继续进行深入的讨论,中国数学建模网页将为大家提供交流的平台。在评奖中可能参考这里的结果,更重要的是争取把这些真刀真枪的实际问题解决得更好,扩大数学建模活动的影响,同时也进一步提高我国数学建模活动的水平。评审委员会将选择讨论中出现的优秀成果(包括少量的竞赛优秀论文)在核心期刊上发表。 研究生和教师是数模活动的主体,我们真诚地盼望能经常听到你们的意见与建议,让我们共同努力把这一活动办得既扎实又有成效。 补充通知 各参赛队: 关于竞赛的几个具体问题通知如下: 1、竞赛采用统一封面,请与题目一同下载。 2、参赛队号已正式通知各校,为防止通信出现差错, 各校的参赛队号表也与题目公布在一起备查。 3、鉴于有部分学校分几次报名,有的学校对报名表的 顺序没有足够地重视,也有参赛队的成员已发生变化,同时防 止组委会登记工作中出现错误,请每个参赛队务必重填报名表, 并由学校竞赛负责人分配属于本校的队号,不要发生本单位内 或本单位与外单位重号现象。重填后的报名表应装订于论文的 封面前。

数据处理基础知识

1 一月二月三月 产品名称数量金额利润产品名称数量金额利润产品名称数量金额利润 合计合计合计 四月五月六月 产品名称数 量 金 额 利 润 产品名称 数 量 金 额 利 润 产品名称 数 量 金 额 利 润 合计合计合计 检测数据处理基础知识 来源:czyxyq 时间:2009-02-04 字体:[大中小] 收藏我要投稿误差及相关概念→真实值与标准值

误差是测量值与真实结果之间的差异,要想知道误差的大小,必须知道真实的结果,这个真实的值,我们称之“真值”。 1.真实值 从理论上说,样品中某一组分的含量必然有一个客观存在的真实数值,称之 为“真实值”或“真值”。用“μ”表示。但实际上,对于客观存在的真值,人 们不可能精确的知道,只能随着测量技术的不断进步而逐渐接近真值。实际工作中,往往用“标准值”代替“真值”。 2.标准值 采用多种可靠的分析方法、由具有丰富经验的分析人员经过反复多次测定得 出的结果平均值,是一个比较准确的结果。 实际工作中一般用标准值代替真值。例如原子量、物理化学常数:阿佛伽得 罗常数为6.02×10等。 与我们实验相关的是将纯物质中元素的理论含量作为真实值。 1.准确度 准确度是测定值与真实值接近的程度。 为了获得可靠的结果,在实际工作中人们总是在相同条件下,多测定几次,然后求平均值,作为测定值。一般把这几次在相同条件下的测定叫平行测定。如 果这几个数据相互比较接近,就说明分析的精密度高。 2.精密度 精密度是几次平行测定结果相互接近的程度。 3.精密度和准确度的关系 (1)精密度是保证准确度的先决条件。 (2)高精密度不一定保证高准确度。 1.误差 (1)定义:个别测定结果X、X …X与真实值μ之差称为个别测定的误差,简称误差。 (2)表示:各次测定结果误差分别表示为X -μ、X -μ……X -μ。 (3)计算方法: 绝对误差 相对误差 对于绝对误差——测定值大于真值,误差为正值;测定值小于真值,误差为 负值。 对于相对误差——反映误差在测定结果中所占百分率,更具实际意义。 2.偏差 偏差是衡量精密度的大小。 误差的分类→系统误差 1.定义 由某种固定的原因造成的误差,若能找出原因,设法加以测定,就可以消除,所以也叫可测误差。 2.特点 具有单向性、可测性、重复性。即:正负、大小都有一定的规律性,重复测 定时会重复出现。 3.产生原因

相关主题
文本预览
相关文档 最新文档