当前位置:文档之家› 数学建模缺失数据补充及异常数据修正

数学建模缺失数据补充及异常数据修正

数学建模缺失数据补充及异常数据修正
数学建模缺失数据补充及异常数据修正

题目:数据的预处理问题

摘要

关键词:多元线性回归,t检验法,分段线性插值,最近方法插值,三次样条插值,三次多项式插值

一、问题重述

背景

在数学建模过程中总会遇到大数据问题。一般而言,在提供的数据中,不可避免会出现较多的检测异常值,怎样判断和处理这些异常值,对于提高检测结果的准确性意义重大。

需要解决的问题

(1)给出缺失数据的补充算法;

(2)给出异常数据的鉴别算法;

(3)给出异常数据的修正算法。

二、模型分析

问题(1)的分析

属性值数据缺失经常发生甚至不可避免。

(一)较为简单的数据缺失

(1)平均值填充

如果空值为数值型的,就根据该属性在其他所有对象取值的平均

值来填充缺失的属性值;如果空值为非数值型的,则根据众数原

理,用该属性在其他所有对象的取值次数最多的值(出现频率最

高的值)来补齐缺失的属性值。

(2) 热卡填充(就近补齐)

对于包含空值的数据集,热卡填充法在完整数据中找到一个与其

最相似的数据,用此相似对象的值进行填充。

(3) 删除元组

将存在遗漏信息属性值的元组删除。

(二)较为复杂的数据缺失

(1)多元线性回归

当有缺失的一组数据存在多个自变量时,可以考虑使用多元线性回归模型。将所有变量包括因变量都先转化为标准分,再进行线性回归,此时得到的回归系数就能反映对应自变量的重要程度。

问题(2)的分析

属性值异常数据鉴别很重要。

我们可以采用异常值t 检验的方法比较前后两组数据的平均值,与临界值相比较即可辨别数据异常并剔除异常数据。

问题(3)的分析

对于数据修正,我们采用各种插值算法进行修正,这是一种行之有效的方法。 (1)分段线性插值

将每两个相邻的节点用直线连起来,如此形成的一条折线就是分段线性插值函数,记作()x I n ,它满足()i i n y x I =,且()x I n 在每个小区间[]1,+i i x x 上是线性函数()x I n ()n i ,,1,0???=。

()x I n 可以表示为

()x I n 有良好的收敛性,即对于[]b a x ,∈有,

用 ()x I n 计算x 点的插值时,只用到x 左右的两个节点,计算量与节点个数n 无关。但n 越大,分段越多,插值误差越小。实际上用函数表作插值计算时,分段线性插值就足够了,如数学、物理中用的特殊函数表,数理统计中用的概率分布表等。

(2) 三次多项式算法插值

当用已知的n+1个数据点求出插值多项式后,又获得了新的数据点,要用它连同原有的n+1个数据点一起求出插值多项式,从原已计算出的n 次插值多项式计算出新的n+1次插值多项式很困难,而此算法可以克服这一缺点。

(3)三次样条函数插值[4]

数学上将具有一定光滑性的分段多项式称为样条函数。三次样条函数为:对于[]b a ,上的分划?:n x x x a

利用样条函数进行插值,即取插值函数为样条函数,称为样条插值。

三、 模型假设

1.假设只有因变量存在数据缺失,而自变量不存在缺失。

2.利用t 检验法时,将除可疑测定值d x 以外的其余测定值当做一个总体,并假设该总体服从正态分布。

四、 问题(1)的分析与求解

问题分析

本题需要对缺失数据进行补充,情况可分为数据集中单一元素缺失及某一元组缺失两种情况。因此,对数据处理采用同上模型分析的处理方法。 问题处理

我们将(见附表一)中的数据导入matlab (程序见附录一)。首先作出散点图。

设定y(X59287)与x1(X54511)、x2(X57494)的关系为二元线性回归模型,即y=b0+b1x1+b2x2。之后作多元回归,求出系数b0=,b1=,b2=,所以多元线性回归多项式为:Y=+*x1+*x2。由matlab 编程所得结果图如下4-2所示。

图4-2

再作出残差分析图验证拟合效果,残差较小,说明回归多项式与源数据吻合得较好。若x1=,x2=时,y 的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=。类似地,若x1=,x2=时,y 的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=,即可补充缺失数据。

五、 问题(2)的分析与求解

问题分析

本题需要对给定缺失数据进行鉴别,可以采用的方法为t检验检测法。T检验用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显着。

问题处理

(一)随机产生数据

由R系统随机产生数据对其进行缺失数据鉴别,代码如附录四所示,结果图如下5-1,5-2,5-3所示。

图5-1

图5-2

图5-3

(二)给定相应数据

六、问题(3)的分析与求解

问题分析

对于问题三,我们采用了分段线性插值,最近方法插值,三次样条函数插值以及三次多项式方法插值法来修正数据异常。同时也需利用外插法修正最后一个数据的异常。详见对问题三的处理原理。

具体代码见附录三。

附录一多元线性回归matlab程序

clear;

data1=xlsread('C:\Users\Lenovo\Desktop\');

%做出散点图

figure(1)

scatter3(data1(:,4),data1(:,5),data1(:,6),'r'); x=[ones(262,1),data1(:,4),data1(:,5)];

y=data1(:,6);

[b,bint,r,rint,stats]=regress(y,x);

xlabel('X54511(x1)');

ylabel('X57494(x2)');

zlabel('X59287(y)');

text,,,'回归方程式为:y=++','color','b');

title('x1,x2,y的关系:','color','m');

%做残差分析图

figure(2)

reoplot(r,rint);

xlabel('数据');ylabel('残差');

title('残差绘制图');

%补缺失数据

x1=[,];

y1=x1*b;

x2=[,];

y2=x2*b;

附录二 t检验spss代码

GET DATA

/TYPE=XLS

/FILE='C:\Users\bwx\Desktop\'

/SHEET=name 'Sheet1'

/CELLRANGE=full

/READNAMES=on

/ASSUMEDSTRWIDTH=32767.

EXECUTE.

DATASET NAME 数据集2 WINDOW=FRONT.

T-TEST

/TESTVAL=0

/MISSING=ANALYSIS

/VARIABLES=y

/CRITERIA=CI(.95).

附录三插值修正数据matlab代码

clear

>> T=0:5:65

T =

0 5 10 15 20 25 30 35 40 45 50 55 60 65

>> X=2:5:57

X =

2 7 12 17 22 27 32 37 42 47 52 57

>> F=[,,,,,,,,,,,,,];

>> F1=interp1(T,F,X)

F1 =

+003 *

Columns 1 through 10

Columns 11 through 12

>> F1=interp1(T,F,X,'nearest')

F1 =

+003 *

Columns 1 through 10

Columns 11 through 12

>> F1=interp1(T,F,X,'nearest')%最近方法插值

F1 =

+003 *

Columns 1 through 10

Columns 11 through 12

>> F1=interp1(T,F,X,'spline')%三次样条方法插值F1 =

+003 *

>> F1=interp1(T,F,X,'cubic')%三次多项式方法插值F1 =

+003 *

附录四随机数据缺失鉴别R语言代码

(2016)

> x<-rnorm(100)

> summary(x)

Min. 1st Qu. Median Mean 3rd Qu. Max.

> summary(x)

Min. 1st Qu. Median Mean 3rd Qu. Max.

> # outliers

> (x)#out

$stats

[1]

$n

[1] 100

$conf

$out

[1]

> (x)$out

[1]

> boxplot(x)

> y<-rnorm(100)

> df<(x,y)

> rm(x,y)

> head(df)

x y

2

> attach(df)

> # find the index of outliers from x > (a <-which(x %in% (x)$out))

[1] 1 33 64 74

> # find the index of outliers from y > (b <-which(y %in% (y)$out))

[1] 24 25 49 64 74

> detach(df)

> # outliers in both x and y

> <-intersect(a,b))

[1] 64 74

> plot(df)

> points(df[,],col="red",pch="+",cex=

数学建模 戒烟问题

2014高教社杯全国大学生数学建模竞赛 承诺书 我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的 资料 我 赛):

2014高教社杯全国大学生数学建模竞赛 编号专用页 赛区评阅编号(由赛区组委会评阅前进行编号):

摘要 本文针对戒烟和各种相关因素关系,解决影响戒烟成功的因素有哪些的问题,我们利用Excel,spss,Matlab软件对相关数据进行分析,利用主成分分析法、层次分析法建立模型,并进行可靠性检验,得到影响戒烟成功的重要因素,对有志于戒烟的人士提供戒烟对策和建议。 针对问题一,首先观察数据发现数据残缺,运用spss中缺失值替换的线性插值法将缺失数据补充完整。然后求出在不同年龄段、不同性别、不同调整CO浓度下、不同每日抽烟数的条件下的发病累加率,并运用Excel,Matlab,Spss的等软件做出图像,结合图像对发病累加率的分布进行分析,得到累加发病率的基本趋势为随着每日抽烟数和调整CO浓度的增加而提高,男性比女性的累加发病率略低。 浓 y y

一、问题的重述 众所周知,吸烟不仅危害自身健康,而且由此引起的被动吸烟更是危害公众身心健康的主要原因。为此,如何帮助相关人士摆脱烟瘾的困扰也就成为一个重要的研究课题。 本文研究数据涉及234人,他们都自愿表示戒烟但还未戒烟。在他们戒烟的这一天,测量了每个人的CO(一氧化碳)水平并记下他们抽最后一支烟到CO测定时间.。CO的水平提供了一个他们先前抽烟数量的客观指标,但其值也受到抽最后一支烟的时间的影响,因此抽最后一支烟的时间可以用来调整CO的水平。记录下研究对象的性别、年龄及自述每日抽烟支数。这个调查跟踪1年,考察他们一直保持戒烟的天数,由此估计这些人中再次吸烟的累加发病率,也就是原吸烟者戒烟一段时间后又再吸烟的比例.其中假设原烟民戒烟的可信度是很低的(更恰当地说多数是再犯者)戒烟天数是从0到他(她)退出 4.1问题一的分析 针对问题一,首先对缺失数据进行补充,然后求出在不同因素下,不同年龄段、不同性别、不同每日抽烟数、不同调整CO浓度条件下的累加发病率的分布情况,并作出图表,进行分析。 4.2问题二的分析

数学建模题目及其答案

数学建模疾病的诊断 现要你给出疾病诊断的一种方法。 胃癌患者容易被误诊为萎缩性胃炎患者或非胃病者。从胃癌患者中抽取5人(编号为1-5),从萎缩性胃炎患者中抽取5人(编号为6-10),以及非胃病者 中抽取5人(编号为11-15),每人化验4项生化指标:血清铜蓝蛋白( X)、 1 蓝色反应( X)、尿吲哚乙酸(3X)、中性硫化物(4X)、测得数据如表1 2 所示: 表1. 从人体中化验出的生化指标 根据数据,试给出鉴别胃病的方法。

论文题目:胃病的诊断 摘要 在临床医学中,诊断试验是一种诊断疾病的重要方法。好的诊断试验方法将对临床诊断的正确性和疾病的治疗效果起重要影响。因此,对于不同疾病不断发现新的诊断试验方法是医学进步的重要标志。传统的诊断试验方法有生化检测、DNA检测和影像检测等方法。而本文则通过利用多元统计分析中的判别分析及SPSS软件的辅助较好地解决了临床医学中胃病鉴别的问题。在临床医学上,既提高了临床诊断的正确性,又对疾病的治疗效果起了重要效果,同时也减轻了病人的负担。 判别分析是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。 其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。 首先,由判别分析定义可知,只有当多个总体的特征具有显著的差异时,进行判别分析才有意义,且总体间差异越大,才会使误判率越小。因此在进行判别分析时,有必要对总体多元变量的均值进行是否不等的显著性检验。 其次,利用判别分析中的费歇判别和贝叶斯判别进行判别函数的建立。 最后,利用所建立的判别函数进行回判并测得其误判率,以及对其修正。 本文利用SPSS软件实现了对总体间给类变量的均值是否不等的显著性检验并根据样本建立了相应的费歇判别函数和贝叶斯判别函数,最后进行了回判并测得了误判率,从而获得了在临床诊断中模型,给临床上的诊断试验提供了新方法和新建议。 关键词:判别分析;判别函数;Fisher判别;Bayes判别 一问题的提出 在传统的胃病诊断中,胃癌患者容易被误诊为萎缩性胃炎患者或非胃病患者,为了提高医学上诊断的准确性,也为了减少因误诊而造成的病人死亡率,必须要找出一种最准确最有效的诊断方法。为诊断疾病,必须从人体中提取4项生化指标进行化验,即血清铜蓝蛋白、蓝色反应、尿吲哚乙酸、中性硫化物。但是,从人体中化验出的生化指标,必须要确定一个精准的指标来判断疾病所属的类型。设想,使用判别分析法,利用SPSS 软件对各个变量进行系统的分析,使该问题得到有效地解决。

对中国大学生数学建模竞赛历年成绩的分析与预测

2012年北京师范大学珠海分校数学建模竞赛 题目:对中国大学生数学建模竞赛历年成绩的分析与预测 摘要 本文研究的是对自数学建模竞赛开展以来各高校建模水平的评价比较和预测问题。我们将针对题目要求,建立适当的评价模型和预测模型,主要解决对中国大学生数学建模竞赛历年成绩的评价、排序和预测问题。 首先我们用层次分析法来评价广东赛区各校2008年至2011年及全国各大高校1994至2011年数学建模成绩,从而给出广东赛区各校及全国各大高校建模成绩的科学、合理的评价及排序;其次运用灰色预测模型解决广东赛区各院校2012年建模成绩的预测。 针对问题一,首先我们对比了2008到2011年参加建模比赛的学校,通过分析我们选择了四年都参加了比赛的学校进行合理的排序(具体分析过程见表13),同时对本科甲组和专科乙组我们分别进行排序比较。在具体解决问题的过程中,我们先分析得出影响评价结果的主要因素:获奖情况和获奖比例,其中获奖情况主要考虑国家一等奖、国家二等奖、省一等奖、省二等奖、省三等奖,我们采用层次分析法,并依据判断尺度构造出各个层次的判断矩阵,对它们逐个做出一致性检验,在一致性符合要求的情况下,通过公式与matlab求得各大学的权重,总结得分并进行排序(结果见表11);在对广东赛区各高校2012建模成绩预测问题中,我们采用灰色预测模型,我们以华南农业大学为例,得到该校2012年建模比赛获奖情况为:省一等奖、省二等奖、省三等奖及成功参赛奖分别为5、9、8、8(其它各高校预测结果见表10)。 针对问题二,我们对全国各院校的自建模竞赛活动开展以来建模成绩排序采用与问题一相同的数学模型,在获奖情况考虑的是全国一等奖、全国二等奖。运用matlab求解,结果见表12。 针对问题三,我们通过对一、二问排序的解答及数据的分析,得出在对院校进评价和预测时还应考虑到各院的师资力量、学校受重视程度、学生情况、参赛经验等因素,考虑到这些因素,为以后评价高校建模水平提供更可靠的依据。 关键词:层次分析法权向量灰色预测模型模型检验 matlab

数学建模中常见的十大模型

数学建模常用的十大算法==转 (2011-07-24 16:13:14) 转载▼ 1. 蒙特卡罗算法。该算法又称随机性模拟算法,是通过计算机仿真来解决问题的算法,同时可以通过模拟来检验自己模型的正确性,几乎是比赛时必用的方法。 2. 数据拟合、参数估计、插值等数据处理算法。比赛中通常会遇到大量的数据需要处理,而处理数据的关键就在于这些算法,通常使用MA TLAB 作为工具。 3. 线性规划、整数规划、多元规划、二次规划等规划类算法。建模竞赛大多数问题属于最优化问题,很多时候这些问题可以用数学规划算法来描述,通常使用Lindo、Lingo 软件求解。 4. 图论算法。这类算法可以分为很多种,包括最短路、网络流、二分图等算法,涉及到图论的问题可以用这些方法解决,需要认真准备。 5. 动态规划、回溯搜索、分治算法、分支定界等计算机算法。这些算法是算法设计中比较常用的方法,竞赛中很多场合会用到。 6. 最优化理论的三大非经典算法:模拟退火算法、神经网络算法、遗传算法。这些问题是用来解决一些较困难的最优化问题的,对于有些问题非常有帮助,但是算法的实现比较困难,需慎重使用。 7. 网格算法和穷举法。两者都是暴力搜索最优点的算法,在很多竞赛题中有应用,当重点讨论模型本身而轻视算法的时候,可以使用这种暴力方案,最好使用一些高级语言作为编程工具。 8. 一些连续数据离散化方法。很多问题都是实际来的,数据可以是连续的,而计算机只能处理离散的数据,因此将其离散化后进行差分代替微分、求和代替积分等思想是非常重要的。 9. 数值分析算法。如果在比赛中采用高级语言进行编程的话,那些数值分析中常用的算法比如方程组求解、矩阵运算、函数积分等算法就需要额外编写库函数进行调用。 10. 图象处理算法。赛题中有一类问题与图形有关,即使问题与图形无关,论文中也会需要图片来说明问题,这些图形如何展示以及如何处理就是需要解决的问题,通常使用MA TLAB 进行处理。 以下将结合历年的竞赛题,对这十类算法进行详细地说明。 以下将结合历年的竞赛题,对这十类算法进行详细地说明。 2 十类算法的详细说明 2.1 蒙特卡罗算法 大多数建模赛题中都离不开计算机仿真,随机性模拟是非常常见的算法之一。 举个例子就是97 年的A 题,每个零件都有自己的标定值,也都有自己的容差等级,而求解最优的组合方案将要面对着的是一个极其复杂的公式和108 种容差选取方案,根本不可能去求解析解,那如何去找到最优的方案呢?随机性模拟搜索最优方案就是其中的一种方法,在每个零件可行的区间中按照正态分布随机的选取一个标定值和选取一个容差值作为一种方案,然后通过蒙特卡罗算法仿真出大量的方案,从中选取一个最佳的。另一个例子就是去年的彩票第二问,要求设计一种更好的方案,首先方案的优劣取决于很多复杂的因素,同样不可能刻画出一个模型进行求解,只能靠随机仿真模拟。 2.2 数据拟合、参数估计、插值等算法 数据拟合在很多赛题中有应用,与图形处理有关的问题很多与拟合有关系,一个例子就是98 年美国赛A 题,生物组织切片的三维插值处理,94 年A 题逢山开路,山体海拔高度的插值计算,还有吵的沸沸扬扬可能会考的“非典”问题也要用到数据拟合算法,观察数据的

数学建模缺失大数据补充及异常大数据修正

题目:数据的预处理问题 摘要 关键词:多元线性回归,t检验法,分段线性插值,最近方法插值,三次样条插值,三次多项式插值

一、问题重述 1.1背景 在数学建模过程中总会遇到大数据问题。一般而言,在提供的数据中,不可避免会出现较多的检测异常值,怎样判断和处理这些异常值,对于提高检测结果的准确性意义重大。 1.2需要解决的问题 (1)给出缺失数据的补充算法; (2)给出异常数据的鉴别算法; (3)给出异常数据的修正算法。 二、模型分析 2.1问题(1)的分析 属性值数据缺失经常发生甚至不可避免。 (一)较为简单的数据缺失 (1)平均值填充 如果空值为数值型的,就根据该属性在其他所有对象取值的平均 值来填充缺失的属性值;如果空值为非数值型的,则根据众数原 理,用该属性在其他所有对象的取值次数最多的值(出现频率最 高的值)来补齐缺失的属性值。 (2) 热卡填充(就近补齐) 对于包含空值的数据集,热卡填充法在完整数据中找到一个与其 最相似的数据,用此相似对象的值进行填充。 (3) 删除元组 将存在遗漏信息属性值的元组删除。 (二)较为复杂的数据缺失 (1)多元线性回归 当有缺失的一组数据存在多个自变量时,可以考虑使用多元线性回归模型。将所有变量包括因变量都先转化为标准分,再进行线性回归,此时得到的回归系数就能反映对应自变量的重要程度。 2.2问题(2)的分析 属性值异常数据鉴别很重要。 我们可以采用异常值t检验的方法比较前后两组数据的平均值,与临界值相

2.3问题(3)的分析 对于数据修正,我们采用各种插值算法进行修正,这是一种行之有效的方法。 (1)分段线性插值 将每两个相邻的节点用直线连起来,如此形成的一条折线就是分段线性插值函数,记作()x I n ,它满足()i i n y x I =,且()x I n 在每个小区间[]1,+i i x x 上是线性函数()x I n ()n i ,,1,0???=。 ()x I n 可以表示为 ()x I n 有良好的收敛性,即对于[]b a x ,∈有, 用 ()x I n 计算x 点的插值时,只用到x 左右的两个节点,计算量与节点个数n 无关。但n 越大,分段越多,插值误差越小。实际上用函数表作插值计算时,分段线性插值就足够了,如数学、物理中用的特殊函数表,数理统计中用的概率分布表等。 (2) 三次多项式算法插值 当用已知的n+1个数据点求出插值多项式后,又获得了新的数据点,要用它连同原有的n+1个数据点一起求出插值多项式,从原已计算出的n 次插值多项式计算出新的n+1次插值多项式很困难,而此算法可以克服这一缺点。 (3)三次样条函数插值[4] 数学上将具有一定光滑性的分段多项式称为样条函数。三次样条函数为:对于[]b a ,上的分划?:n x x x a

数学建模中常见的十大模型

数学建模中常见的十大 模型 Document serial number【KKGB-LBS98YT-BS8CB-BSUT-BST108】

数学建模常用的十大算法==转 (2011-07-24 16:13:14) 1. 蒙特卡罗算法。该算法又称随机性模拟算法,是通过计算机仿真来解决问题的算法,同时可以通过模拟来检验自己模型的正确性,几乎是比赛时必用的方法。 2. 数据拟合、参数估计、插值等数据处理算法。比赛中通常会遇到大量的数据需要处理,而处理数据的关键就在于这些算法,通常使用MATLAB 作为工具。 3. 线性规划、整数规划、多元规划、二次规划等规划类算法。建模竞赛大多数问题属于最优化问题,很多时候这些问题可以用数学规划算法来描述,通常使用Lindo、Lingo 软件求解。 4. 图论算法。这类算法可以分为很多种,包括最短路、网络流、二分图等算法,涉及到图论的问题可以用这些方法解决,需要认真准备。 5. 动态规划、回溯搜索、分治算法、分支定界等计算机算法。这些算法是算法设计中比较常用的方法,竞赛中很多场合会用到。 6. 最优化理论的三大非经典算法:模拟退火算法、神经网络算法、遗传算法。这些问题是用来解决一些较困难的最优化问题的,对于有些问题非常有帮助,但是算法的实现比较困难,需慎重使用。 7. 网格算法和穷举法。两者都是暴力搜索最优点的算法,在很多竞赛题中有应用,当重点讨论模型本身而轻视算法的时候,可以使用这种暴力方案,最好使用一些高级语言作为编程工具。

8. 一些连续数据离散化方法。很多问题都是实际来的,数据可以是连续的,而计算机只能处理离散的数据,因此将其离散化后进行差分代替微分、求和代替积分等思想是非常重要的。 9. 数值分析算法。如果在比赛中采用高级语言进行编程的话,那些数值分析中常用的算法比如方程组求解、矩阵运算、函数积分等算法就需要额外编写库函数进行调用。 10. 图象处理算法。赛题中有一类问题与图形有关,即使问题与图形无关,论文中也会需要图片来说明问题,这些图形如何展示以及如何处理就是需要解决的问题,通常使用MATLAB 进行处理。 以下将结合历年的竞赛题,对这十类算法进行详细地说明。 以下将结合历年的竞赛题,对这十类算法进行详细地说明。 2 十类算法的详细说明 蒙特卡罗算法 大多数建模赛题中都离不开计算机仿真,随机性模拟是非常常见的算法之一。 举个例子就是97 年的A 题,每个零件都有自己的标定值,也都有自己的容差等级,而求解最优的组合方案将要面对着的是一个极其复杂的公式和108 种容差选取方案,根本不可能去求解析解,那如何去找到最优的方案呢随机性模拟搜索最优方案就是其中的一种方法,在每个零件可行的区间中按照正态分布随机的选取一个标定值和选取一个容差值作为一种方案,然后通过蒙特卡罗算法仿真出大量的方案,从中选取一个最佳的。另一个例子就是去年的彩票第二问,要求设计一种更好的方案,首先方案的优劣取决于很多复杂的因素,同样不可能刻画出一个模型进行求解,只能靠随机仿真模拟。

全国数学建模大赛试题——出租车模型及数据(C)

2005年全国部分高校研究生数学建模竞赛C题 城市交通管理中的出租车规划最近几年,出租车经常成为居民、新闻媒体议论的话题。某城市居民普遍反映出租车价格偏高,而另一方面,出租车司机却抱怨劳动强度大,收入相对来说偏低,甚至发生出租车司机罢运的情况,这反映出租车市场管理存在一定问题,整个出租车行业不景气,长此以往将影响社会稳定,值得关注。 我国城市在未来一段时间内,规模会不断扩大,人口会不断增长,人民生活水平将不断提高,对出租车的需求也会不断变化。如何配合城市发展的战略目标,最大限度地满足人民群众的出行需要,减少环境污染和资源消耗,协调各阶层的利益关系,是值得深入研究的。(附录中给出了某城市的相关数据)。 (1)考虑以上因素,结合该城市经济发展和自身特点,类比国内外城市情况, 预测该城市居民出行强度和出行总量,同时进一步给出该城市当前与今 后若干年乘坐出租车人口的预测模型。 (2)给出该城市出租车最佳数量预测模型。 (3)按油价调价前后(3.87元/升与4.30元/升),分别讨论是否存在能够使得 市民与出租车司机双方都满意的价格调整方案。若存在,给出最优方案。 (4)本题给出的数据的采集是否合理,如有不合理之处,请你给出更合理且 实际可行的数据采集方案。 (5)请你们站在市公用事业管理部门的立场上考虑出租车规划问题,并将你 们的研究成果写成一篇短文,向市公用事业管理部门概括介绍你们的方 案。

附录1 1、2004年某城市的城市规模和道路情况如下: (1)城市现辖6区,2004年城市建成区面积181.77平方公里,人口185.15万。 (2)道路总长度998公里,道路铺装面积928万平方米,道路广场面积1371.45万平方米,道路网密度7.71公里/平方公里,人均道路长度0.7米,人均道路面积6.16平方米。 (3)城市总体规划人口 城市总体规划人口规模(单位:万人) 通过对出行特征的分析,把出行特征相近的人口划归为一类,常住人口和暂住人口称为第一类人口,短期及当日进出人口称为第二类人口。 2、2004年某城市出租车主要状况 (1) 出租车拥有量6200辆,每辆车每年行驶里程为124640公里。每100公里耗油10升。 (2) 出租车日客运量约为36.7万人次,每日载客趟次为21.6万次,每台车日均载客68.9人次,日均载客趟次为40.52,每趟载客1.7人次 (3) 出租车的空驶率为50.46%,平均行驶速度为32公里/小时,日行驶总里程为230.7万公里,其中载客里程为114.3万公里,空驶里程为116.4万公里,里程利用率为49.5%,日营运总收入为254.96万元。日平均营业里程424.00公里/车日;平均载客里程210.07公里/车日;平均空驶里程213.93公里/车日。 (4) 出租车固定营运成本为:112616元/年?车(以捷达车为例)。 其中:1. 一次性投入的分摊35967元。 1.1购车费用。捷达车123870元(包括车价及办牌、证费用),按营运4年折旧,旧车残值作价5000 元,则每年折旧费29717元。 1.2经营权50000元按8年分摊,每年6250元。 2.资金利息6493元。按一次性投入的资金和银行一年期贷款利率6.045%逐年减折旧及分摊后平 均计算。 3.税费。共计16项,11116元。 4.保险费11000元。其中社保1800元,车辆保险9200元。 5.出租车公司管理费用4040元。 6.维修保养费6000元。 7.驾驶员工资36000元(正、副班驾驶员)。 8.其他费用(如洗车等)2000元。 某城市出租车的收费标准 ①起租基价3公里,基价租费:白天8.00元,晚上9.6元。

乳腺癌数据处理 数学建模

乳腺癌数据的处理数学模型 摘要 本文解决的是乳腺癌数据处理问题,现医院诊断肿瘤是“良性”还是“恶性”采用了九项指标,据此,我们确定了两种方法来判别肿瘤的良恶性,并通过主成分分析法进一步确定了主要指标,从而减少辅助诊断的化验指标。 针对问题一:为保证模型稳定性及检验稳定性,我们将良性数据和恶性数据的一部分用来确定判别方法,各留下10组用来检验所确定的判别法。为提高判断的准确率,我们确定了费希尔(Fisher)判别法和马氏距离判别法两种判别法。再分别对这两种判别方法进行了回判与检验,费希尔判别法的回判准确率为93.1%,检验准确率为100%,马氏距离判别法的回判准确率为96.6%,检验准确率为100%,故应采用马氏判别法进行判别。 针对问题二:问题二是在问题一的基础上,对问题一中提出的方法的应用,我们分别采用问题一中提出的两种判别法对问题二中的20组待判别数据进行了判别(判别结果详见问题二解答的表一)。 针对问题三:我们对数据进行了标准化处理,以主成分分析法为指导逐步剔除指标,并根据剩余的指标建立了三种多元经验平面回归方程对剔除指标后的回判准确率、检验准确率、F值、相关系数R等进行了检验,最后经过分析,提出了两种方案:①保留乳腺肿块的厚度,边缘的粘连,单层上皮细胞的大小,裸核,正常的核仁,有丝分裂这六项指标,建立线性回归方程可是准确率达到90%;②保留边缘的粘连,单层上皮细胞的大小,裸核,正常的核仁,有丝分裂这五项指标,建立线性回归方程可使准确率达到80%。 关键词:费希尔判别法、马氏距离判别法、主成分分析法、经验平面回归方程

1.问题重述 1.1问题背景 全世界每年约有120万妇女患乳腺癌,50万人死于乳腺癌,乳腺癌已经成为全球女性发病率最高的恶性肿瘤。 下面是某医院乳腺肿瘤患者的一组数据,其中前面9个指标分别表示乳腺肿 瘤肿块的厚度(1x)、细胞大小的均匀性(2x)、细胞形状的均匀性(3x)、边缘的粘连(4x)、单层上皮细胞的大小(5x)、裸核(6x)、温和的染色质(7x)、正 常的核仁8x)、有丝分裂(9x),尾数0表示确诊为“良性”,1表示确诊为“恶性”,数据已经归一化为0到10之间的自然数。 样 品 良性(0)恶性(1) 指 标 x1 x2 x3 x4 x5 x6 x7 x8 x9 x1 x2 x3 x4 x5 x6 x7 x8 x9 1 5 1 1 1 2 1 3 1 1 8 10 10 8 7 10 9 7 1 2 5 4 4 5 7 10 3 2 1 5 3 3 3 2 3 4 4 1 3 3 1 1 1 2 2 3 1 1 8 7 5 10 7 9 5 5 4 4 6 8 8 1 3 4 3 7 1 7 4 6 4 6 1 4 3 1 5 4 1 1 3 2 1 3 1 1 10 7 7 6 4 10 4 1 2 6 1 1 1 1 2 10 3 1 1 7 3 2 10 5 10 5 4 4 7 2 1 2 1 2 1 3 1 1 10 5 5 3 6 7 7 10 1 8 2 1 1 1 2 1 1 1 5 8 4 5 1 2 ? 7 3 1 9 4 2 1 1 2 1 2 1 1 5 2 3 4 2 7 3 6 1 10 1 1 1 1 1 1 3 1 1 10 7 7 3 8 5 7 4 3 11 2 1 1 1 2 1 2 1 1 10 10 10 8 6 1 8 9 1 12 1 1 1 1 2 3 3 1 1 5 4 4 9 2 10 5 6 1 13 4 1 1 1 2 1 2 1 1 2 5 3 3 6 7 7 5 1 14 4 1 1 1 2 1 3 1 1 10 4 3 1 3 3 6 5 2 15 6 1 1 1 2 1 3 1 1 6 10 10 2 8 10 7 3 3 16 3 1 1 1 2 1 2 1 1 5 6 5 6 10 1 3 1 1 17 1 1 1 1 2 1 3 1 1 10 10 10 4 8 1 8 10 1 18 3 2 1 1 1 1 2 1 1 3 7 7 4 4 9 4 8 1 19 5 1 1 1 2 1 2 1 1 7 8 7 2 4 8 3 8 2 20 2 1 1 1 2 1 2 1 1 9 5 8 1 2 3 2 1 5 21 1 1 3 1 2 1 1 1 1 5 3 3 4 2 4 3 4 1 22 3 1 1 1 1 1 2 1 1 10 3 6 2 3 5 4 10 2 23 2 1 1 2 2 1 3 1 1 5 5 5 8 10 8 7 3 7 24 3 1 2 1 2 1 2 1 1 10 5 5 6 8 8 7 1 1

数学建模-数据的统计分析

数学建模与数学实验 课程设计 学院数理学院专业数学与应用数学班级学号 学生姓名指导教师 2015年6月

数据的统计分析 摘要 问题:某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 (1)计算均值、标准差、极差、偏度、峰度,画出直方图;(2)检验分布的正态性; (3)若检验符合正态分布,估计正态分布的参数并检验参数; 模型:正态分布。 方法:运用数据统计知识结合MATLAB软件 结果:符合正态分布

一. 问题重述 某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 (1)计算均值、标准差、偏差、峰度,画出直方图; (2)检验分布的正态性; (3)若检验符合正态分布,估计正态分布的参数并检验参数。 二.模型假设 假设一:此组成绩没受外来因素影响。 假设二:每个学生都是独自完成考试的。 假设三:每个学生的先天条件相同。 三.分析与建立模型 像类似数据的信息量比较大,可以用MATLAB 软件决绝相关问题,将n 名学生分为x 组,每组各n\x 个学生,分别将其命为1x ,2X ……j x 由MATLAB 对随机统计量x 进行命令。此时对于直方图的命令应为 Hist(x,j) 源程序为: x1=[93 75 83 93 91 85 84 82 77 76 ] x2=[77 95 94 89 91 88 86 83 96 81 ] x3=[79 97 78 75 67 69 68 84 83 81 ]

数学建模各种分析报告方法

现代统计学 1.因子分析(Factor Analysis) 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。 运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。 2.主成分分析 主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 主成分分析和因子分析的区别 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。 和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这中区分不是绝对的。 总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,

数学建模步骤

数学建模的基本步骤 一、数学建模题目 1)以社会,经济,管理,环境,自然现象等现代科学中出现的新问题为背景,一般都有一个比较确切的现实问题。 2)给出若干假设条件: 1. 只有过程、规则等定性假设; 2. 给出若干实测或统计数据; 3. 给出若干参数或图形等。 根据问题要求给出问题的优化解决方案或预测结果等。根据问题要求题目一般可分为优化问题、统计问题或者二者结合的统计优化问题,优化问题一般需要对问题进行优化求解找出最优或近似最优方案,统计问题一般具有大量的数据需要处理,寻找一个好的处理方法非常重要。 二、建模思路方法 1、机理分析根据问题的要求、限制条件、规则假设建立规划模型,寻找合适的寻优算法进行求解或利用比例分析、代数方法、微分方程等分析方法从基本物理规律以及给出的资料数据来推导出变量之间函数关系。 2、数据分析法对大量的观测数据进行统计分析,寻求规律建立数学模型,采用的分析方法一般有: 1). 回归分析法(数理统计方法)-用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式。 2). 时序分析法--处理的是动态的时间序列相关数据,又称为过程统计方法。 3)、多元统计分析(聚类分析、判别分析、因子分析、主成分分析、生存数据分析)。 3、计算机仿真(又称统计估计方法):根据实际问题的要求由计算机产生随机变量对动态行为进行比较逼真的模仿,观察在某种规则限制下的仿真结果(如蒙特卡罗模拟)。 三、模型求解: 模型建好了,模型的求解也是一个重要的方面,一个好的求解算法与一个合

适的求解软件的选择至关重要,常用求解软件有matlab,mathematica,lingo,lindo,spss,sas等数学软件以及c/c++等编程工具。 Lingo、lindo一般用于优化问题的求解,spss,sas一般用于统计问题的求解,matlab,mathematica功能较为综合,分别擅长数值运算与符号运算。 常用算法有:数据拟合、参数估计、插值等数据处理算法,通常使用spss、sas、Matlab作为工具. 线性规划、整数规划、多元规划、二次规划、动态规划等通常使用Lindo、Lingo,Matlab软件。 图论算法,、回溯搜索、分治算法、分支定界等计算机算法, 模拟退火法、神经网络、遗传算法。 四、自学能力和查找资料文献的能力: 建模过程中资料的查找也具有相当重要的作用,在现行方案不令人满意或难以进展时,一个合适的资料往往会令人豁然开朗。常用文献资料查找中文网站:CNKI、VIP、万方。 五、论文结构: 0、摘要 1、问题的重述,背景分析 2、问题的分析 3、模型的假设,符号说明 4、模型的建立(局部问题分析,公式推导,基本模型,最终模型等) 5、模型的求解 6、模型检验:模型的结果分析与检验,误差分析 7、模型评价:优缺点,模型的推广与改进 8、参考文献 9、附录 六、需要重视的问题 数学建模的所有工作最终都要通过论文来体现,因此论文的写法至关重要:

数学建模终应聘者问题

承诺书 我们仔细阅读了“行健杯”数学建模竞赛规则. 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。 我们参赛选择的题号是(从A/B中选择一项填写): B 参赛队员(打印并签名) :1. 2. 3. 指导教师或指导教师组负责人(打印并签名):教练组 日期:年月日 评阅编号(由组委会评阅前进行编号):

编号专用页评阅编号(由组委会评阅前进行编号): 评阅记录(可供评阅时使用): 评 阅 人 评 分 备 注 统一编号: 评阅编号:

应聘者的评价问题 摘要 专家打分是现代管理决策中必不可少的一部分,具有重大意义,但专家打分由于其主观性,难免会有偏差。于是,如何科学评价专家的打分并通过专家打分做出正确决策便成为了急需解决的问题。 对于问题一,为补全专家评分表的个别缺失分数,我们引入权重分析法,把应聘者在若干方面表现成绩和专家对各个方面成绩的权重作为影响应聘者最终成绩的因子,最终通过MATLAB求解方程,解出专家的权重系数和待求应聘者的各个方面的表现成绩,加权解出最终缺失成绩。 对于问题二,为了确定这101名应聘者的的录取顺序,我们使用了加权排序算法。我们利用excel程序计算出每个专家的打分方差(见表1),再根据这个值计算出每个专家的打分权重(见表2),最后在对个人成绩进行加权计算。简便、成功地给出了应聘者的录取顺序(见表3)。 对于问题三,我们需要为专家的打分严格程度排序。利用统计学方法,通过比较每位专家评分的均分与方差大小,由于均分差异不大,所以结合实际利用方差排序得出各专家打分严格程度的差异,最后得出专家甲最严格,专家丙最宽松,其余三位专家的严格程度相差不大。 对于问题四,我们首先分析每个应聘者的得分分差,根据生活实际得分方差大的是专家主观打分误差较大组。利用excel软件,做出每个人得分的函数图象, 发现很接近正态分布(见表7,见表8),所以我们将正态分布中的大于3?的值 视为小概论事件,为保证公平这部分人需要第二次应聘机会(见表9)对于问题五,我们以专家对需要第二次面试的十四位应聘者打分的方差为指标,判断专家打分是否能真实反映应聘者的水平。再根据方差大小判断专家的打分严厉程度,选择出相对严格的专家甲、乙、戊,从而克服专家的主观性,确保面试的公平性。 关键词:MATLAB,权重分析法,正态分布模拟,函数回归分析,3?事件

数学建模之数据处理 03 版

在某海域测得一些点(x,y)处的水深z由下表给出,船的吃水深度为5英尺, (2)在矩形区域(75,200)*(-50,150)作二维三次插值法; (3)做海底曲面图; (4)作出水深小于5的海域范围,即z=5的等高线。 解: 解答: Matlab程序: x=[129,140,103.5,88,185.5,195,105,157.5,107.5,77,81,162,162,117.5]; y=[7.5,141.5,23,147,22.5,137.5,85.5,-6.5,-81,3,56.5,-66.5,84,-33.5]; z=[-4,-8,-6,-8,-6,-8,-8,-9,-9,-8,-8,-9,-4,-9]; xi=75:10:200; yi=-50:10:150; figure(1) z1i=griddata(x,y,z,xi,yi','nearest'); % 最邻近插值 surfc(xi,yi,z1i) xlabel('X'),ylabel('Y'),zlabel('Z') figure(2) z2i=griddata(x,y,z,xi,yi'); % 双线性插值 surfc(xi,yi,z2i) xlabel('X'),ylabel('Y'),zlabel('Z') figure(3) z3i=griddata(x,y,z,xi,yi','cubic'); % 双三次插值 surfc(xi,yi,z3i) xlabel('X'),ylabel('Y'),zlabel('Z') figure(4) subplot(1,3,1),contour(xi,yi,z1i,4,'b'); subplot(1,3,2),contour(xi,yi,z2i,4,'r'); subplot(1,3,3),contour(xi,yi,z3i,4,'g'); figure(5) % z=5的等高线 contour(xi,yi,z3i,7,'r');

数学建模中常用的数据处理方法

一、市场占有率问题(红色为常用信息) 一个企业的销售量(或销售额)在市场同类产品中所占的比重。直接反映企业所提供的商品和劳务对消费者和用户的满足程度,表明企业的商品在市场上所处的地位。市场份额越高,表明企业经营、竞争能力越强。市场份额根据不同市场范围有4种测算方法: 1.总体市场份额。指一个企业的销售量(额)在整个行业中所占的比重。 2.目标市场份额。指一个企业的销售量(额)在其目标市场,即它所服务的市场中所占的比重。一个企业的目标市场的范围小于或等于整个行业的服务市场,因而它的目标市场份额总是大于它在总体市场中的份额 。 3.相对于3个最大竞争者的市场份额。指一个企业的销售量和市场上最大的 3个竞争者的销售总量之比。如:一个企业的市场份额是30%,而它的3个最大竞争者的市场份额分别为20%,10%,10%,则该企业的相对市场份额就是30%÷40%=75%,如4个企业各占25%,则该企业的相对市场份额为33%。一般地,一个企业拥有33%以上的相对市场份额,就表明它在这一市场中有一定实力。 4.相对于最大竞争者的市场份额。指一个企业的销售量与市场上最大竞争者的销售量之比。若高于100%,表明该企业是这一市场的领袖。 二、顾客满意度问题(红色为常用信息) 2.1 顾客满意度概述 确定顾客满意程度的指标和顾客满意级度是对顾客满意度进行测量控制的关键问题。顾客满意度是评价企业质量管理体系业绩的重要手段。为此,要科学确定顾客满意度的指标和满意度的级度并对顾客满意度进行测量监控和分析,才能进一步改进质量管理体系。 2.2 顾客的需求结构 要建立一组科学的顾客满意程度的评价指标,首先要研究顾客的需求结构。经对顾客作大量调查分析,顾客需求的基本结构大致有以下几个方面: 1.品质需求:包括性能、适用性、使用寿命、可靠性、安全性、经济性和美学(外观)等; 2.功能需求:包括主导功能、辅助功能和兼容功能等; 3.外延需求:包括服务需求和心理及文化需求等; 4.价格需求:包括价位、价质比、价格弹性等。 组织在提供产品或服务时,均应考虑顾客的这4种基本需求。但是,由于不同国家地区、不同的消费人群对这些需求有不同的需求强度。在消费后又存在一个满意水平的高低。当顾客需求强度高时,稍有不足,他们就会有不满或强烈不满,当需求强度要求低时,只需低水平的满足即可。 例如,购买彩色电视机,由于人们收入水平和消费心理的不同,对电视机的功能、款式、价格有不同的需求强度。收入丰厚的人们,喜欢高档名牌,因此对品质和功能需求的强度要求就高,而对价格需求不强烈。也就是说,当品质和功能不满足他们的要求时,就会产生不满或强烈不满。对低收入工薪族,他们消费心理追求价廉物美,以实惠为原则,因此对价格和服务的需求强度要求高,价格高、服务差,是他们产生不满的主要因素。而对功能需求强度则不强烈。

数学建模数据分析题

中国矿业大学数学建模常规赛竞赛 承诺书 我们仔细阅读了中国矿业大学数学建模常规赛论文格式规范和2016年中国矿业大学数学建模常规赛通知。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或资料(包括网上资料),必须按照规定的参考文献的表述方式列出,并在正文引用处予以标注。在网上交流和下载他人的论文是严重违规违纪行为。 我们以中国矿业大学大学生名誉和诚信郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。 我们授权中国矿业大学数学建模协会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。 我们的参赛队号:25 参赛队员(打印并签名):1. 易阳俊 2. 令月霞 3. 刘景瑞 日期: 2016 年 10 月日 (请勿改动此页内容和格式。此承诺书打印签名后作为纸质论文的封面。以上内容请仔细核对,如填写错误,论文可能被取消评奖资格。)

中国矿业大学数学建模常规赛竞赛 编号专用页 评阅统一编号(数学建模协会填写):

题目:数据的分析问题 摘要 本文需要解决的问题是如何根据就诊人员体内7种元素含量来判别某人是否患有疾病G和确定哪些指标是影响人们患疾病G的主要因素。通过解读题目可知,此类问题为典型的分析判别问题。我们先对数据进行了预处理,剔除了有异常数据的样本,然后采用元素分布判别法、马氏距离判别法和Fisher判别法,应用Excel、SPSS和MATLAB等软件来对某人是否患病进行判别,并通过绘制7种元素含量的折线图等来确定患该疾病的主要因素,最后应用综合判别法对之前的结论进行了检验。 对于问题一,在对数据预处理之后,我们删除了序号为10这个高度异常数据样本,然后我们分别采用元素分布判别法、马氏距离判别法和Fisher判别法对49个已知病例进行判别。对于元素分布判别法,我们通过数据预处理知道7种元素含量分布均符合正态分布,然后我们确定了以均值为大致中心的元素正常含量范围,得出其判别准确度为96%;对于马氏距离判别法,通过编写MATLAB程序(见附录)来进行判别,得出其判别准确度为90%;对于Fisher判别法,通过SPSS软件来进行判别,得到线性判别函数,其判别准确度为96%; 针对问题二:我们运用问题一中建立的三个判别模型对25名就诊人员(见附录)的化验结果进行检验,判别结果如下表1: 行对分析,我们初步判定元素4与元素5是影响人们患疾病G的主要因素,然后用方法一的三种判别方法进行检验,其准确度在85%以上; 对于问题四,我们根据问题三得出的主要因素,分别用三种判别方法对25名就诊人员进行判别,再与问题二的判别结果进行对比,可知它们判断结果之间的差异性最高为24%。 对于问题五,由于三种判别法都有不足,所以我们采用了综合判别法,将三种判别方法的结果进行综合判断,最终我们通过主要因素进行判别的差异性下降到了12%,与问题一的判断结果的一致性达到了88%。 关键词:马氏距离判别,Fisher判别,综合判别,MATLAB,SPSS

相关主题
文本预览
相关文档 最新文档