当前位置:文档之家› 关于DNA序列的数学建模论文

关于DNA序列的数学建模论文

关于DNA序列的数学建模论文
关于DNA序列的数学建模论文

承诺书

我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。

我们参赛选择的题号是(从A/B/C/D中选择一项填写):A题

我们的参赛报名号为(如果赛区设置报名号的话):0531

所属学校(请填写完整的全名):德州学院

参赛队员(打印并签名) :1. 刘岩

2. 李现全

3. 孙在龙

指导教师或指导教师组负责人(打印并签名):张志广王金婵

日期:2011 年 8 月 8 日赛区评阅编号(由赛区组委会评阅前进行编号):

编号专用页

赛区评阅编号(由赛区组委会评阅前进行编号):

全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):

DNA序列分类

[摘要]:本文通过对DNA分子的研究分析,对其进行简单及更深入的分类。由提示,将20个DNA单分子链中“TAGC”数量及百分含量数学统计,并运用欧式和马氏距离判别分析分析,检验两种的准确性,选出较高优化的方式科学地把要求的DNA序列分为A类,B类,依据此方法完成后20个及182个自然DNA分子单链的分类。得出了所求20个人工制造序列及182个自然序列的分类结果如下:

(1)、20个人工序列:A类:21、24、26、28、30、31、32、33、38、40。

B类:22、23、25、27、29、34、35、36、37、39。

(2)经检验欧式优化度高,欧式进行对182个自然DNA分子分类:

A类:4、5、6、8、9、11、13、14、15、16、17、18、19、20、21、27、29、31、

32、33、35、36、38、39、41、42、44、45、46、47、49、52、53、55、58、59、

60、61、62、64、66、67、68、69、70、71、73、77、79、81、82、87、89、90、

91、93、95、96、100、101、104、105、106、108、109、110、112、115、117、118、

120、124、132、134、135、136、139、141、145、148、150、154、155、158、172、173、177.

B类:1、2、3、7、10、12、22、23、24、25、26、28、30、34、37、40、43、48、

50、51、54、56、57、63、65、72、74、75、76、78、80、83、84、85、86、92、

94、97、98、99、102、103、107、111、113、114、116、119、121、122、123、125、

126、127、128、129、130、131、137、138、140、142、143、144、146、147、149、151、152、153、156、157、159、160、161、162、163、164、165、166、167、168、169、170、171、174、175、176、178、179、180、181、182。

一、问题重述

人类基因组计划中DNA全序列草图由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究发现DNA序列具有一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。

作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:

1)请从20个已知类别的人工制造的序列(其中序列标号1—10 为A类,11-20为B类)中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入)。

2)同样方法对182个自然DNA序列(它们都较长)进行分类,写出结果。

二、模型假设特定量的假设

简单的数量统计及提取:

1、对分析的及将要分析的所有DNA分子能将其分成A类、B类或不判断分类;

2、不考虑特殊密码子的变异问题及书写密码子的格式;

3、不考虑碱基序列的非编码区和编码区的区别;

4、题目中所给的样本信息量足够大。

三、特定符号的说明

特定量的假设:

Xij 表示第i条DNA单链分子中碱基j的百分比含量,其中j =1(表示碱基A的含量),2(表示碱基C的含量),3(表示碱基G的含量),4(表示碱基T的含量)。

Gi 表示由某些具有相同属性的个体组成的类

Κa 表示A类集合的几何中心

Κb 表示B类集合的几何中心样本

Da点

X到κa的欧氏距离样本

i

Db点

X到κb的欧氏距离

i

μa,a的均值 s1,a的协方差

μb b的均值,s2,b的协方差

n1,n2 a,b的自由度

Q检验统计量

四、模型的分析

1、针对题目给出A、B类DNA单链分子的特征提取

(1)、碱基“A T G C”含量的分析,如数据所示:

A类:

1-10条链DNA碱基统计表

1-10各组碱基的百分比折线图

有以上数据显示,T+C总含量在33%左右,A+G总含量在67%左右。

B类:

11-20条链DNA碱基统计表

由以上各碱基含量的数据可将后21—40归化成A、B类。

A类:21、24、26、28、30、31、32、33、38、40。

具体统计数据如下:

DNA碱基统计表

各组碱基的百分比折线图

对于A 类来讲:A+T含量较高达63%左右,C+G含量较低在37%左右。B类:22、23、25、27、29、34、35、36、37、39。

具体统计数据如下:

DNA碱基统计表

A+T C+G碱基的百分比折线图

对于B 类来讲:C+G 含量较高达56%左右,A+T 含量相比较低在44%左右。

五、模

立 和 求 解

1)、模 型 一:Euclid (欧式距离)分类模型的建立和求解

在欧氏距离(Euclid) 分类模型中, 把每个样本视为三维空间的一个点, 以其到不同集合几何中心的欧氏距离作为判据. 具体的算法如下:

(1)计算属于A 类与属于B 类的10 个样本点的集合各自的几何中心,

由(1)的数据可以得出Ka 的中心值Ka(i ,1)=29% Ka(i ,2)=18%

Ka(i ,3)=38% Ka(i ,4)=15%

由(1)的数据可以得出Kb 的中心值Kb(i ,1)=29.55% Kb(i ,2)=10.18%

Kb(i ,3)=10.00% Kb(i ,4)=50.18%

对于给定的样本点Xij ,分别计算该点到κa 的欧氏距离Da=|κa-Xij|, 及该点到κb 的欧氏距离Db=|κb-Xij|; (2)判别准则如下:

a.若Da>Db , 则将Xij 点判为A 类;

b. 若Da<Db ,则将Xij 点判为B

c. 若Da=Db ,则将Xij 点判为C 类(C 类为不可判别类)。

用上述算法对已知样本的20个DNA 单链分子进行分类, 得到的分类结果是,

A 类:1 2 3 5 6 7 8 9 10

B 类: 4 11 12 13 14 15 16 17 18 19 20

其中只有A4被错分为B 类,其准确率达到95%,在可接受范围内,该模型可信赖。

用该模型对样本后给出的20个进行分类,得到的分类结果是, A 类:22 23 25 27 29 30 32 34 35 36 37 39 B 类:21 24 26 28 31 33 38 40

用上述算法对未知的自然序列182个 进行分类, 得到的结果见附表

2)、模型二:由于马氏距离具有统计意义,在距离判别分析时经常应用马氏距离.

在马氏距离分类模型表示数据的协方差距离,也可以表述为两个服从同一分布并且其协方差矩阵为Σ的随机变量间的差异程度。

(1)首先要判别两个总体的协方差矩阵是否相等

1,2)(i ,S i

S :1

H S i

S :0

H =≠?=

检验统计量:

)

2,1i ()

2/)1p (p (2

~)]

i S 1-S (tr p |i S |ln |S |ln )[1i n (i Q =++---=χ P 是向量维数

对给定的α,查卡方分布表得到临界值λ 若Q 0< λ ,则接受H 0,否则拒绝H 0

(2) 计算属于A 类与属于B 类的10 个样本点的集合指标各自的协方即,设S 表示指标的协差阵即:

由已学的Matlab 求协方差S 。

S 1=cov(A), S 2=cov(B)

由已学的Matlab 求μ,

μa=mean(A), μb=mean(B),

计算总体的协方差矩阵

()()2

*1*12

1

2

2

11

-+-+-=

n

n s n

s n

s ,其中n1,n2分别为两个样本的容量

样品X 到总体G 的马氏距离定义为:\

d=(x-μa)S -1(x-μa )’- (x-μb)S -1

(x-μb )’

(3). 判别准则如下:

a. d<0,则将i

X 点判为A 类;

b. d>0,则将i X 点判为B 类;

c. 若d=0,则将i X 点判为C 类(C 类为不可判别类)。 用上述算法对已知样学习样本A 1—A 20 进行分类, 结果是 A 类:21、24、26、28、31、33、38、40

B 类:22、23、25、27、29、30、32、34、35、36、37、39

六、模型的误差分析和检验

误 差 分 析: 1、系统误差

由于我们假设用4 种碱基a 、c 、g 、t 的含量作为指标来判别类别是充分的,这当然与实际情况是不符合的,实际分类过程中,评价一种分类的好坏,还要考虑到其它的因素,如:

⑴碱基的结构:碱基a 、c 、g 、t 的内部结构及其生化性没有予以予考虑;

⑵碱基的环境:包括内环境、碱基在不同细胞的表达等都可能对其产生一定的影响。2.在问题一中,对所给的A1—A40的DNA序列,我们采用从中提取特征,构造分类模型的方法,但这是不充分的,必然会引起误差。

检验:

运用Matlab和SPSS等软件都可以进行判别分析。运用上面算法对已知类别的训练本进行判定,结果为:

A类:1,2,3,5,6,7,8,9,10

B类:4,11,12,13,14,15,16,17,18,19,20

只有第4个样本发生了误判,故正确率为95%,值得信赖。

距离判别方法简单实用,容易实现,并且结论的意义明确。但是,马氏距离判别没有考虑:

(1)各总体本身出现的可能性在距离判别中没有考虑;

(2)错判造成的损失在距离判别中也没有考虑。

通过分析比较,欧式分类模型较优化。

七、模型的改进与推广

模型的优缺点:

优点:

⑴利用MATLAB软件对数据进行处理并作出各种平面图,简便,直观、快捷;

⑵运用多种数学软件进行计算,取长补短,使计算结果更加准确;

⑶本文建立的模型与实际紧密联系,使模型更贴近实际,通用性强。

⑷我们没有使用单一的模型对问题进行分析求解,而是综合运用了多种数学模型;

⑸增加了一定得检验环节,使我们所得到的数据更加合理可信,增加了论文的实际参考价值;

(6)发现异常值剔除,有助于结果的合理性。

缺点:

⑴对附件1中的DNA的序列分类,我们把从中提取特征,构造分类方法,作为充分必要条件,增加了误差;

⑵检验序列只有20列,运用的数据不是很多,不够精确;

⑶忽略了碱基存在的内环境因素及其生化结构的影响。

⑷在实际中,DNA序列分类是一个复杂的数学问题,存在着大量的不确定性。

模型的推广:

在我们的模型基础上提出的分类方法可以很好的验证已知的20 个序列,并且很好的完成了对未知类型序列的分类,我们认为这种模型,同时考虑了序列中元素的局部性质和序列的全局性质,具有相当的实际背景,当我们知道分类标准的更多信息时,我们可以很方便的调整模型中的参数,使之符合新的情况, 具有很好的自学习性,但这个模型比较复杂,在实际计算中参数选择需要花费大量计算时间进行搜索.。

八、参考文献

[1] 姜启源,谢金星,叶俊.数学模型(第三版)[M].北京:高等教育出版社,2003

[2]薛薇,《基于SPSS的数据分析》中国人民出版社 2006

[3]张韵华.Mathematica符号计算系统实用教程(第一版)[M].合肥:中国科技大学出版社,1998

九、附录

Matlab程序1:欧氏距离对A21—A40 DNA待测序列分类、对自然182个DNA进行分类,以此程序的进行A1-A20DNA分子的检验:

function f=fun(xl,xla,xlb)

countA=zeros(1,20);

countB=zeros(1,20);

countN=zeros(1,20);

ja=1;jb=1;jn=1;

for i=1:20

da=sqrt((xl(i,1)-xla(1,1)).^2+(xl(i,2)-xla(1,2)).^2+(xl(i,3)-xla(1,3)).^2+( xl(i,4)-xla(1,4)).^2);

db=sqrt((xl(i,1)-xlb(1,1)).^2+(xl(i,2)-xlb(1,2)).^2+(xl(i,3)-xlb(1,3)).^2+( xl(i,4)-xlb(1,4)).^2);

if(da

countA(1,ja)=i+20;

ja=ja+1;

end

if(da>db)

countB(1,jb)=i+20;

jb=jb+1;

end

if(da==db)

countN(1,jn)=i+20;

jn=jn+1;

end

end

countA

countB

countN

xla=[0.29 0.15 0.18 0.38];

xlb=[0.2955 0.5018 0.1018 0.10];

xi=[0.2743 0.3628 0.1947 0.1681;

0.2885 0.2212 0.2404 0.25;

0.2870 0.2222 0.2411 0.25;

0.2087 0.4087 0.1913 0.1913;

0.2857 0.2232 0.2411 0.25;

0.2193 0.3860 0.2105 0.1842;

0.2845 0.2241 0.2414 0.25;

0.2564 0.4444 0.1453 0.1538;

0.2853 0.2250 0.2417 0.25;

0.2897 0.2523 0.2430 0.2150;

0.2411 0.3571 0.1786 0.2232;

0.1743 0.3303 0.2294 0.2661;

0.2703 0.3333 0.1892 0.2072;

0.2823 0.2258 0.2419 0.25;

0.2813 0.2266 0.2422 0.25;

0.2803 0.2273 0.2424 0.25;

0.2794 0.2279 0.2426 0.25;

0.2222 0.4359 0.1709 0.1709;

0.2786 0.2286 0.2429 0.25;

0.1983 0.4310 0.1983 0.1724;];

fun(xi,xla,xlb)

countA =

Columns 1 through 11

22 23 25 27 29 30 32 34 35 36 37 Columns 12 through 20

39 0 0 0 0 0 0 0 0

countB =

Columns 1 through 11

21 24 26 28 31 33 38 40 0 0 0 Columns 12 through 20

0 0 0 0 0 0 0 0 0

countN =

Columns 1 through 11

0 0 0 0 0 0 0 0 0 0 0 Columns 12 through 20

0 0 0 0 0 0 0 0 0

Matlab程序1:马氏距离对A21—A40 DNA待测序列分类、对自然182个DNA进行分类,以此程序的进行A1-A20DNA分子的检验:

function f=fun3(a,b,x)

countA=zeros(20,1);

countB=zeros(20,1);

countN=zeros(20,1);

m1=mean(a);

m2=mean(b);

s1=cov(a);

s2=cov(b);

s=(s1+s2)/2;

A=1;B=1;N=1;

for i=1:20

d=(x(i,:)-m1)*inv(s)*(x(i,:)-m1)'-(x(i,:)-m2)*inv(s)*(x(i,:)-m2)';

if d>0

countB(B,1)=i+20;

B=B+1;

end

if d<0

countA(A,1)=i+20;

A=A+1;

end

if d==0

countN(N,1)=i+20;

N=N+1;

end

end

countA

countB

countN

>>

a=[33,15,19,44;30,17,18,46;30,7,24,50;47,32,12,20;26,12,26,47;39,14,14,44;3 9,21,11,40;31,21,18,41;23,17,23,48;20,15,30,45];

>>

b=[39,55,5,11;36,55,3,16;28,57,11,14;33,55,9,13;32,71,0,7;40,51,9,10;39,29, 27,15;32,55,13,10;24,62,16,8;22,62,19,7];

>>

x=[31,41,22,19;30,23,25,26;18,19,26,39;24,47,22,22;26,23,24,32;25,44,24,21; 24,24,21,35;30,52,17,18;15,19,22,45;31,27,26,23;27,40,20,25;19,36,25,29;30,

37,21,23;24,17,24,37;25,21,22,35;24,22,32,27;22,21,26,34;26,51,20,20;29,25, 30,22;23,50,23,20];

>> fun3(a,b,x)

countA =

Columns 1 through 11

21 24 26 28 31 33 38 40 0 0 0

Columns 12 through 20

0 0 0 0 0 0 0 0 0

countB =

Columns 1 through 11

22 23 25 27 29 30 32 34 35 36 37

Columns 12 through 20

39 0 0 0 0 0 0 0 0

countN =

Columns 1 through 11

0 0 0 0 0 0 0 0 0 0 0

Columns 12 through 20

0 0 0 0 0 0 0 0 0

经欧式与马氏的程序检验,发现欧式具有较高的分辨度,因此选择欧式对

对自然182个DNA进行分类(程序同上省略):

对自然182个DNA进行分类:

x=[271,289,314,247;340,359,282,298;304,307,236,292;271,334,355,352;186,169, 363,374;375,330,331,336;390,365,152,223;267,269,493,429;313,276,252,302;405 ,343,191,216;321,428,399,410;414,319,178,299;176,157,437,376;236,263,310,37 1;256,162,428,402;169,148,514,449;359,317,263,321;253,272,392,390;284,299,3 60,390;372,339,419,489;314,340,314,382;460,528,267,379;514,540,283,341;489,

510,304,388;449,461,344,451;483,519,335,370;224,171,549,429;429,398,264,307 ;350,481,461,459;492,532,371,365;383,413,440,533;221,197,567,445;438,410,41 3,508;525,406,219,284;384,411,443,533;407,353,304,385;458,454,466,404;388,3 74,332,376;400,421,457,533;453,345,287,250;399,427,452,537;340,331,375,450; 558,550,170,220;393,438,446,541;276,350,424,450;550,512,362,4127;441,400,34 9,400;500,581,461,394;283,254,564,541;523,501,311,361;537,421,365,387;408,4 14,432,470;500,449,366,462;542,612,382,432;375,447,547,614;512,581,463,492; 547,592,438,495;439,361,496,504;367,367,730,649;570,501,477,566;339,322,592 ,563;510,462,680,626;517,503,398,420;449,552,675,695;720,546,216,371;616,61 3,586,597;450,387,790,800;584,603,813,856;502,523,1031,942;434,464,1140,106 2;409,327,612,530;822,799,825,714;379,346,596,565;811,488,279,337;735,669,2 43,301;787,1076,644,670;565,491,398,518;827,860,875,812;378,330,673,623;700 ,579,362,375;618,884,1082,896;678,765,1036,1005;661,560,372,459;650,661,318 ,471;1056,1202,541,762;623,686,372,443;702,484,518,495;634,624,479,541;437, 417,632,744;566,674,1290,1170;673,669,1159,1179;1096,1320,685,678;725,520,5 27,617;1171,1023,906,797;986,1028,1037,1022;1311,1069,1136,1028;817,661,438 ,552;835,735,341,567;832,659,443,623;519,505,796,805;1088,1108,1133,1295;82 4,728,545,471;1358,1472,859,975;395,369,981,889;1125,1150,1128,1215;627,677 ,667,866;1348,1602,857,960;1232,1241,1296,1226;420,494,948,985;1095,906,466 ,513;844,1017,1291,1159;412,410,1042,1036;1315,1449,1121,1415;1253,890,331, 516;994,1115,1642,1627;848,896,626,664;453,432,1019,1096;953,1060,1735,1772 ;921,1109,739,562;678,527,1048,947;1057,1043,708,790;1640,1833,959,1098;147 1,1731,1110,1230;1325,1262,1957,1852;2075,1800,1267,1341;1725,1807,1472,149 8;1274,1147,587,834;1295,1034,393,638;1285,1140,657,821;1298,1128,632,845;2 103,2000,1327,1179;1420,1595,1834,1845;1685,1856,1599,1745;1543,1630,2216,2 141;1843,1933,1939,1922;797,707,1250,1223;793,1189,1054,1072;1447,1187,606, 764;1825,1936,2141,2126;2440,2394,1654,1802;821,676,1420,1200;1444,1234,679 ,874;1429,1288,644,901;2664,2756,1432,1675;2105,2099,2225,2229;1439,1273,73 9,909;1424,1130,1083,1102;1072,1139,1356,1318;2408,2665,1973,2406;1615,1094 ,1101,1071;2244,1635,901,1062;1870,1452,1403,1336;2505,2426,2208,2318;2526, 2067,2646,3664;1148,1071,1952,2270;2719,3217,1759,2220;2482,2577,2612,2408; 786,919,1835,1833;2756,3276,2004,2077;2165,2103,1686,1685;3380,3430,1788,17 40;3107,3409,2097,2001;3457,4175,2279,2128;3715,4175,2279,2128;3715,3936,33 38,3217;3769,4210,3530,3507;5847,5285,3589,3322;4918,4899,4535,4335;5716,55 65,3380,4201;5067,5558,4795,4615;6838,6962,3864,3582;1149,1037,1952,2269;59 08,5803,6786,6498;485,505,309,392;492,494,319,393;498,501,310,390;917,1052, 1404,1389;1424,1416,1272,1309;6420,6304,5261,5151;33845,3313,2213,2487;3384 ,3343,2251,2515;6915,6770,4056,4825;8611,8867,4512,4843];

A=[31.8,17.1,19.5,42.5];

B=[32.5,55.2,11.2,11.1];

for i=1:182

da(i)=sqrt((x(i,1)-A(1,1)).^2+(x(i,2)-A(1,2)).^2+(x(i,3)-A(1,3)).^2+(x(i,4) -A(1,4)).^2);

db(i)=sqrt((x(i,1)-B(1,1)).^2+(x(i,2)-B(1,2)).^2+(x(i,3)-B(1,3)).^2+(x(i,4)

-B(1,4)).^2);

d(i)=da(i)-db(i)

end

A

B

Columns 1 through 15

4 5 6 8 9 11 13 14 15 16 17 18 19 20 21

Columns 16 through 30

27 29 31 32 33 35 36 38 39 41 42 44 45 46 47

Columns 31 through 45

49 52 53 55 58 59 60 61 62 64 66 67 68 69 70

Columns 46 through 60

71 73 77 79 81 82 87 89 90 91 93 95 96 100 101

Columns 61 through 75

104 105 106 108 109 111 112 115 117 118 120 124 132 134 135

Columns 76 through 90

136 139 141 145 148 150 154 155 158 172 173 177 0 0 0

Columns 91 through 105

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Columns 106 through 120

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Columns 121 through 135

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Columns 136 through 150

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Columns 151 through 165

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Columns 166 through 180

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Columns 181 through 182

0 0

countB =

Columns 1 through 15

1 2 3 7 10 12 22 23 24 25 26 28 30 34 37

Columns 16 through 30

40 43 48 50 51 54 56 57 63 65 72 74 75 76 78

Columns 31 through 45

80 83 84 85 86 88 92 94 97 98 99 102 103 107 110

Columns 46 through 60

113 114 116 119 121 122 123 125 126 127 128 129 130 131 133

Columns 61 through 75

137 138 140 142 143 144 146 147 149 151 152 153 156 157 159

Columns 76 through 90

160 161 162 163 164 165 166 167 168 169 170 171

174 175 176

Columns 91 through 105

178 179 180 181 182 0 0 0 0 0 0 0 0 0 0

Columns 106 through 120

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Columns 121 through 135

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Columns 136 through 150

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Columns 151 through 165

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Columns 166 through 180

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Columns 181 through 182

0 0

countN =

Columns 1 through 15

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Columns 16 through 30

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Columns 31 through 45

0 0 0 0 0 0 0 0 0 0 0 0

0 0 0

Columns 46 through 60

0 0 0 0 0 0 0 0 0 0 0 0

0 0 0

Columns 61 through 75

0 0 0 0 0 0 0 0 0 0 0 0

0 0 0

Columns 76 through 90

0 0 0 0 0 0 0 0 0 0 0 0

0 0 0

Columns 91 through 105

0 0 0 0 0 0 0 0 0 0 0 0

0 0 0

Columns 106 through 120

0 0 0 0 0 0 0 0 0 0 0 0

0 0 0

Columns 121 through 135

0 0 0 0 0 0 0 0 0 0 0 0

0 0 0

Columns 136 through 150

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Columns 151 through 165

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Columns 166 through 180

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Columns 181 through 182 0 0

全国数学建模竞赛一等奖论文

交巡警服务平台的设置与调度 摘要 由于警务资源有限,需要根据城市的实际情况与需求建立数学模型来合理地确定交巡警服务平台数目与位置、分配各平台的管辖范围、调度警务资源。设置平台的基本原则是尽量使平台出警次数均衡,缩短出警时间。用出警次数标准差衡量其均衡性,平台与节点的最短路衡量出警时间。 对问题一,首先以出警时间最短和出警次数尽量均衡为约束条件,利用无向图上任意两点最短路径模型得到平台管辖范围,并运用上下界网络流模型优化解,得到A区平台管辖范围分配方案。发现有6个路口不能在3分钟内被任意平台到达,最长出警时间为5.7分钟。 其次,利用二分图的完美匹配模型得出20个平台封锁13个路口的最佳调度方案,要完全封锁13个路口最快需要8.0分钟。 最后,以平台出警次数均衡和出警时间长短为指标对方案优劣进行评价。建立基于不同权重的平台调整评价模型,以对出警次数均衡的权重u和对最远出警距离的权重v 为参数,得到最优的增加平台方案。此模型可根据实际需求任意设定权重参数和平台增数,由此得到增加的平台位置,权重参数可反映不同的实际情况和需求。如确定增加4个平台,令u=0.6,v=0.4,则增加的平台位置位于21、27、46、64号节点处。 对问题二,首先利用各区平台出警次数的标准差和各区节点的超距比例分析评价六区现有方案的合理性,利用模糊加权分析模型以城区的面积、人口、总发案次数为因素来确定平台增加或改变数目。得出B、C区各需改变2个平台的位置,新方案与现状比较,表明新方案比现状更合理。D、E、F区分别需新增4、2、2个平台。利用问题一的基于不同权重的平台调整评价模型确定改变或新增平台的位置。 其次,先利用二分图的完美匹配模型给出80个平台对17个出入口的最优围堵方案,最长出警时间12.7分钟。在保证能够成功围堵的前提下,若考虑节省警力资源,分析全市六区交通网络与平台设置的特点,我们给出了分阶段围堵方案,方案由三阶段构成。最多需调动三组警力,前后总共需要29.2分钟可将全市路口完全封锁。此方案在保证成功围堵嫌疑人的前提下,若在前面阶段堵到罪犯,则可以减少警力资源调度,节省资源。 【关键字】:不同权重的平台调整评价模糊加权分析最短路二分图匹配

2011数学建模A题优秀论文

承诺书 我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。 我们参赛选择的题号是(从A/B/C/D中选择一项填写): 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 参赛队员(打印并签名) :1. 2. 3. 指导教师或指导教师组负责人(打印并签名): 日期:年月日赛区评阅编号(由赛区组委会评阅前进行编号):

编号专用页 赛区评阅编号(由赛区组委会评阅前进行编号): 全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):

基于系统综合评价的城市表层土壤重金属污染分析 摘要 本文针对城市表层土壤重金属污染问题,首先对各重金属元素进行分析,然后对各种重金属元素的基本数据进行统计分析及无量纲化处理,再对各金属元素进行相关性分析,最后针对各个问题建立模型并求解。 针对问题一,我们首先利用EXCEL 和 SPSS 统计软件对各金属元素的数据进行处理,再利用Matlab 软件绘制出该城区内8种重金属元素的空间分布图最后通过内梅罗污染 模型:2 /12 max 22?? ? ? ??+=P P P 平均综,其中平均P 为所有单项污染指数的平均值,max P 为土壤环境中 针对问题二,我们首先利用EXCELL 软件画出8种元素在各个区内相对含量的柱状图,由图可以明显地看出各个区内各种元素的污染情况,然后再根据重金属元素污染来源及传播特征进行分析,可以得出工业区及生活区重金属的堆积和迁移是造成污染的主要原因,Cu 、Hg 、Zn 主要在工业区和交通区如公路、铁路等交通设施的两侧富集,随时间的推移,工业区、交通区的土壤重金属具有很强的叠加性,受人类活动的影响较大。同时城市人口密度,土地利用率,机动车密度也是造成重金属污染的原因。 针对问题三,我们从两个方面考虑建模即以点为传染源和以线为传染源。针对以点为传染源我们建立了两个模型:无约束优化模型()[]()[]() 22y i y x i x m D -+-=,得到污染源的位置坐标()6782,5567;有衰减的扩散过程模型得位置坐标(8500,5500),模型为: u k z u c y u b x u a h u 222 2222222-??+??+??=??, 针对以线为传染源我们建立了l c be u Y ?-+=0模型,并通过线性拟合分析线性污染源的位置。 针对问题四,我们在已有信息的基础上,还应收集不同时间内的样点对应的浓度以及各污染源重金属的产生率。根据高斯浓度模型建立高斯修正模型,得到浓度关于时间和空间的表达式ut e C C -?=0。 在本题求解过程中,我们所建立的模型与实际紧密联系,有很好的通用性和推广性。但在求点污染源时,我们假设只有一个污染源,而实际上可能有多个点污染源,从而使得误差增大,或者使污染源的位置够不准确。 关键词 内梅罗污染模型 无量纲化 相关性 回归模型 高斯浓度模型

2000年全国大学生数学建模竞赛A题 DNA序列分类

2000年全国大学生数学建模竞赛A题DNA序列分类 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。 虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3 字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。 作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题: 1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,1 1-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—4 0)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入): A类__________ ;B类_______________ 。 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。 这40个序列也放在如下地址的网页上,用数据文件Art-model-data 标识,供下载: 网易网址:https://www.doczj.com/doc/869596775.html, 教育频道在线试题; 教育网: https://www.doczj.com/doc/869596775.html, New mcm2000 教育网: https://www.doczj.com/doc/869596775.html,/mcm 2)在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列,它们都较长。用你的分类方法对它们进行分类,像1)一样地给出分类结果。 提示:衡量分类方法优劣的标准是分类的正确率,构造分类方法有许多途径,例如提取序列

2013全国数学建模大赛a题优秀论文

车道被占用对城市道路通行能力的影响 摘要 随着城市化进程加快,城市车辆数的增加,致使道路的占用现象日益严重,同时也导致了更多交通事故的发生。而交通事故发生过程中,路边停车、占道施工、交通流密增大等因素直接导致车道被占用,进而影响了城市道路的通行能力。本文在视频提供的背景下通过数据采集,利用数据插值拟合、差异对比、车流波动理论等对这一影响进行了分析,具体如下: 针对问题一,首先根据视频1中交通事故前后道路通行情况的变化过程运用物理观察测量类比法、数学控制变量法提取描述变量(如事故横断面处的车流量、车流速度以及车流密度)的数据,从而通过研究各变量的变化,来分析其对通行能力的影响。而视频1中有一些时间断层,我们可根据现有的数据先用统计回归对各变量数据插值后再进行拟合,拟合过程中利用残差计算值的大小来选择较好的模型来反应各变量与事故持续时间的关系,进而更好地说明事故发生至撤离期间,事故所处横断面实际通行能力的变化过程。 针对问题二:沿用问题一中的方法,对视频2中影响通行能力的各个变量进行数据采集,同样使用matlab对时间断层处进行插值拟合处理,再将所得到的的变化图像与题一中各变量的变化趋势进行对比分析,其中考虑到两视频的时间段与两视频的事故时长不同,从而采用多种对比方式(如以事故发生前、中、后三时段比较差值、以事故相同持续时间进行对比、以整个事故时间段按比例分配时间进行对比)来更好地说明这一差异。由于小区口的位置不同、时间段是否处于车流高峰期以及1、2、3道车流比例不同等因素的影响,采用不同的数据采集方式使采集的变量数据的实用性更强,从而最后得到视频1中的道路被占用影响程度高于视频2中的影响程度,再者从差异图像的变化波动中得到验证,使其合理性更强。 针对问题三:运用问题1、2中三个变量与持续时间的关系作为纽带,再根据附件5中的信号相位确定出车流量的测量周期为一分钟,测量出上游车流量随时间的变化情况,而事故横断面实际通行能力与持续时间的关系已在1、2问中由拟合得到,所以再根据波动理论预测道路异常下车辆长度模型的结论,结合采集数据得到的函数关系建立数学模型,最后得出事故发生后,车辆排队长度与事故横断面实际通行能力、事故持续时间以及路段上游车流量这三者之间的关系式。 针对问题四:在问题3建立的模型下,利用问题4中提供的变量数据推导出其它相关变量值,然后代入模型,估算出时间长度,以此检验模型的操作性及可靠性。 关键词:通行能力车流波动理论车流量车流速度车流密度

数学建模国家一等奖优秀论文

2014高教社杯全国大学生数学建模竞赛 承诺书 我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。 我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。 我们参赛选择的题号是(从A/B/C/D中选择一项填写):B 我们的报名参赛队号为(8位数字组成的编号): 所属学校(请填写完整的全名): 参赛队员(打印并签名) :1. 2. 3.

指导教师或指导教师组负责人(打印并签名): ?(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。以上内容请仔细核对,提交后将不再允许做任何修改。如填写错误,论文可能被取消评奖资格。) 日期: 2014 年 9 月15日 赛区评阅编号(由赛区组委会评阅前进行编号):

2014高教社杯全国大学生数学建模竞赛 编号专用页 赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):

数学建模常用模型方法总结精品

【关键字】设计、方法、条件、动力、增长、计划、问题、系统、网络、理想、要素、工程、项目、重点、检验、分析、规划、管理、优化、中心 数学建模常用模型方法总结 无约束优化 线性规划连续优化 非线性规划 整数规划离散优化 组合优化 数学规划模型多目标规划 目标规划 动态规划从其他角度分类 网络规划 多层规划等… 运筹学模型 (优化模型) 图论模型存 储论模型排 队论模型博 弈论模型 可靠性理论模型等… 运筹学应用重点:①市场销售②生产计划③库存管理④运输问题⑤财政和会计⑥人事管理⑦设备维修、更新和可靠度、项目选择和评价⑧工程的最佳化设计⑨计算器和讯息系统⑩城市管理 优化模型四要素:①目标函数②决策变量③约束条件 ④求解方法(MATLAB--通用软件LINGO--专业软件) 聚类分析、 主成分分析 因子分析 多元分析模型判别分析 典型相关性分析 对应分析 多维标度法 概率论与数理统计模型 假设检验模型 相关分析 回归分析 方差分析 贝叶斯统计模型 时间序列分析模型 决策树 逻辑回归

传染病模型马尔萨斯人口预测模型微分方程模型人口预 测控制模型 经济增长模型Logistic 人口预测模型 战争模型等等。。 灰色预测模型 回归分析预测模型 预测分析模型差分方程模型 马尔可夫预测模型 时间序列模型 插值拟合模型 神经网络模型 系统动力学模型(SD) 模糊综合评判法模型 数据包络分析 综合评价与决策方法灰色关联度 主成分分析 秩和比综合评价法 理想解读法等 旅行商(TSP)问题模型 背包问题模型车辆路 径问题模型 物流中心选址问题模型 经典NP问题模型路径规划问题模型 着色图问题模型多目 标优化问题模型 车间生产调度问题模型 最优树问题模型二次分 配问题模型 模拟退火算法(SA) 遗传算法(GA) 智能算法 蚁群算法(ACA) (启发式) 常用算法模型神经网络算法 蒙特卡罗算法元 胞自动机算法穷 举搜索算法小波 分析算法 确定性数学模型 三类数学模型随机性数学模型 模糊性数学模型

数学建模dna序列分类模型终稿

DNA序列分类模型DNA序列分类模型

毕业设计(论文)原创性声明和使用授权说明 原创性声明 本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。 作者签名:日期: 指导教师签名:日期: 使用授权说明 本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。 作者签名:日期:

学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名:日期:年月日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 涉密论文按学校规定处理。 作者签名:日期:年月日 导师签名:日期:年月日

美国大学生数学建模竞赛优秀论文翻译

优化和评价的收费亭的数量 景区简介 由於公路出来的第一千九百三十,至今发展十分迅速在全世界逐渐成为骨架的运输系统,以其高速度,承载能力大,运输成本低,具有吸引力的旅游方便,减少交通堵塞。以下的快速传播的公路,相应的管理收费站设置支付和公路条件的改善公路和收费广场。 然而,随着越来越多的人口密度和产业基地,公路如花园州公园大道的经验严重交通挤塞收费广场在高峰时间。事实上,这是共同经历长时间的延误甚至在非赶这两小时收费广场。 在进入收费广场的车流量,球迷的较大的收费亭的数量,而当离开收费广场,川流不息的车辆需挤缩到的车道数的数量相等的车道收费广场前。因此,当交通繁忙时,拥堵现象发生在从收费广场。当交通非常拥挤,阻塞也会在进入收费广场因为所需要的时间为每个车辆付通行费。 因此,这是可取的,以尽量减少车辆烦恼限制数额收费广场引起的交通混乱。良好的设计,这些系统可以产生重大影响的有效利用的基础设施,并有助于提高居民的生活水平。通常,一个更大的收费亭的数量提供的数量比进入收费广场的道路。 事实上,高速公路收费广场和停车场出入口广场构成了一个独特的类型的运输系统,需要具体分析时,试图了解他们的工作和他们之间的互动与其他巷道组成部分。一方面,这些设施是一个最有效的手段收集用户收费或者停车服务或对道路,桥梁,隧道。另一方面,收费广场产生不利影响的吞吐量或设施的服务能力。收费广场的不利影响是特别明显时,通常是重交通。 其目标模式是保证收费广场可以处理交通流没有任何问题。车辆安全通行费广场也是一个重要的问题,如无障碍的收费广场。封锁交通流应尽量避免。 模型的目标是确定最优的收费亭的数量的基础上进行合理的优化准则。 主要原因是拥挤的

对中国大学生数学建模竞赛历年成绩的分析与预测

2012年北京师范大学珠海分校数学建模竞赛 题目:对中国大学生数学建模竞赛历年成绩的分析与预测 摘要 本文研究的是对自数学建模竞赛开展以来各高校建模水平的评价比较和预测问题。我们将针对题目要求,建立适当的评价模型和预测模型,主要解决对中国大学生数学建模竞赛历年成绩的评价、排序和预测问题。 首先我们用层次分析法来评价广东赛区各校2008年至2011年及全国各大高校1994至2011年数学建模成绩,从而给出广东赛区各校及全国各大高校建模成绩的科学、合理的评价及排序;其次运用灰色预测模型解决广东赛区各院校2012年建模成绩的预测。 针对问题一,首先我们对比了2008到2011年参加建模比赛的学校,通过分析我们选择了四年都参加了比赛的学校进行合理的排序(具体分析过程见表13),同时对本科甲组和专科乙组我们分别进行排序比较。在具体解决问题的过程中,我们先分析得出影响评价结果的主要因素:获奖情况和获奖比例,其中获奖情况主要考虑国家一等奖、国家二等奖、省一等奖、省二等奖、省三等奖,我们采用层次分析法,并依据判断尺度构造出各个层次的判断矩阵,对它们逐个做出一致性检验,在一致性符合要求的情况下,通过公式与matlab求得各大学的权重,总结得分并进行排序(结果见表11);在对广东赛区各高校2012建模成绩预测问题中,我们采用灰色预测模型,我们以华南农业大学为例,得到该校2012年建模比赛获奖情况为:省一等奖、省二等奖、省三等奖及成功参赛奖分别为5、9、8、8(其它各高校预测结果见表10)。 针对问题二,我们对全国各院校的自建模竞赛活动开展以来建模成绩排序采用与问题一相同的数学模型,在获奖情况考虑的是全国一等奖、全国二等奖。运用matlab求解,结果见表12。 针对问题三,我们通过对一、二问排序的解答及数据的分析,得出在对院校进评价和预测时还应考虑到各院的师资力量、学校受重视程度、学生情况、参赛经验等因素,考虑到这些因素,为以后评价高校建模水平提供更可靠的依据。 关键词:层次分析法权向量灰色预测模型模型检验 matlab

2014年数学建模国家一等奖优秀论文设计

2014高教社杯全国大学生数学建模竞赛 承诺书 我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参 赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛下载)。 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括、电子、网上咨询等) 与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或 其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文 引用处和参考文献中明确列出。 我们重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违 反竞赛章程和参赛规则的行为,我们将受到严肃处理。 我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展 示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。 我们参赛选择的题号是(从A/B/C/D中选择一项填写): B 我们的报名参赛队号为(8位数字组成的编号): 所属学校(请填写完整的全名): 参赛队员 (打印并签名) :1. 2. 3.

指导教师或指导教师组负责人 (打印并签名): (论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。以上容请仔细核对,提交后将不再允许做任何修改。如填写错误,论文可能被取消评奖资格。) 日期: 2014 年 9 月 15日赛区评阅编号(由赛区组委会评阅前进行编号):

2014高教社杯全国大学生数学建模竞赛 编号专用页 赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):

数学建模的基本步骤

数学建模的基本步骤 一、数学建模题目 1)以社会,经济,管理,环境,自然现象等现代科学中出现的新问题为背景,一般都有一个比较确切的现实问题。 2)给出若干假设条件: 1. 只有过程、规则等定性假设; 2. 给出若干实测或统计数据; 3. 给出若干参数或图形等。 根据问题要求给出问题的优化解决方案或预测结果等。根据问题要求题目一般可分为优化问题、统计问题或者二者结合的统计优化问题,优化问题一般需要对问题进行优化求解找出最优或近似最优方案,统计问题一般具有大量的数据需要处理,寻找一个好的处理方法非常重要。 二、建模思路方法 1、机理分析根据问题的要求、限制条件、规则假设建立规划模型,寻找合适的寻优算法进行求解或利用比例分析、代数方法、微分方程等分析方法从基本物理规律以及给出的资料数据来推导出变量之间函数关系。 2、数据分析法对大量的观测数据进行统计分析,寻求规律建立数学模型,采用的分析方法一般有: 1). 回归分析法(数理统计方法)-用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式。 2). 时序分析法--处理的是动态的时间序列相关数据,又称为过程统计方法。 3)、多元统计分析(聚类分析、判别分析、因子分析、主成分分析、生存数据分析)。 3、计算机仿真(又称统计估计方法):根据实际问题的要求由计算机产生随机变量对动态行为进行比较逼真的模仿,观察在某种规则限制下的仿真结果(如蒙特卡罗模拟)。 三、模型求解: 模型建好了,模型的求解也是一个重要的方面,一个好的求解算法与一个合

适的求解软件的选择至关重要,常用求解软件有matlab,mathematica,lingo,lindo,spss,sas等数学软件以及c/c++等编程工具。 Lingo、lindo一般用于优化问题的求解,spss,sas一般用于统计问题的求解,matlab,mathematica功能较为综合,分别擅长数值运算与符号运算。 常用算法有:数据拟合、参数估计、插值等数据处理算法,通常使用spss、sas、Matlab作为工具. 线性规划、整数规划、多元规划、二次规划、动态规划等通常使用Lindo、Lingo,Matlab软件。 图论算法,、回溯搜索、分治算法、分支定界等计算机算法, 模拟退火法、神经网络、遗传算法。 四、自学能力和查找资料文献的能力: 建模过程中资料的查找也具有相当重要的作用,在现行方案不令人满意或难以进展时,一个合适的资料往往会令人豁然开朗。常用文献资料查找中文网站:CNKI、VIP、万方。 五、论文结构: 0、摘要 1、问题的重述,背景分析 2、问题的分析 3、模型的假设,符号说明 4、模型的建立(局部问题分析,公式推导,基本模型,最终模型等) 5、模型的求解 6、模型检验:模型的结果分析与检验,误差分析 7、模型评价:优缺点,模型的推广与改进 8、参考文献 9、附录 六、需要重视的问题 数学建模的所有工作最终都要通过论文来体现,因此论文的写法至关重要:

数学建模B题优秀论文

2010高教社杯全国大学生数学建模竞赛 承诺书 我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的 资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规 则的行为,我们将受到严肃处理。 我们参赛选择的题号是(从A/B/C/D中选择一项填写): B 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 参赛队员 (打印并签名) :1. 王静茹 2. 杨曼 3. 朱元霞 指导教师或指导教师组负责人 (打印并签名): 日期:年月日 赛区评阅编号(由赛区组委会评阅前进行编号):

2010高教社杯全国大学生数学建模竞赛 编 号 专 用 页 赛区评阅编号(由赛区组委会评阅前进行编号): 赛区评阅记录(可供赛区评阅时使用): 评 阅 人 评 分 备 注 全国统一编号(由赛区组委会送交全国前编号): 全国评阅编号(由全国组委会评阅前进行编号): 2010年上海世博会经济影响力的定量评估 摘要 本文选取2010年上海世博会对上海经济的影响作为研究对象,首先,我们选择了 五届影响力较大的世博会与上海世博会进行了定量的纵向评估。 利用互联网的相关数据,运用层次分析法确定了各级评价指标的相对权重,然后 利用模糊综合评判法给这六届世博会的经济影响力进行了定量评估,利用MATLAB 计算出了1933年芝加哥世博会以来六届综合性世博会的经济影响力的综合评分依次为 75.12、80.01、80、11、77.35、79.35、80.75,由表我们可以肯定上海世博会的经济影响力是继1851年伦敦世博会以来较强的。 其次我们采用投入——产出模型模型的核心思想,以年份与GDP 的对数值的二次 相关关系和上海市社会固定资产总投入与GDP 的对数值的线性关系,利用上海统计年鉴发布的数据,分别建立无世博影响的表达式i i i x x x e Q 21210904.01117.00032.06278.81-++=,与有世博影响的表达式i i i x x x e Q 21212955.00176.00019.01211.82+-+=,两式的预测误差均在1.1%以内。与 2008年真实值比较,用表达式1Q 预测2008年的GDP 的值可以得出世博会对2008年上海市经济贡献率达到20.9%。并且在得知申办世博会后第i 年上海市固定投入总额的前提下由%1002 12?-=Q Q Q η可求出世博会对上海地区经济的持续性积极影响。如假设2011年市固定资产总投资为5600亿元,则世博会对上海经济有16%的积极影响。 最后,经过对2010年上海世博会的经济影响力的两方面的评估,我们得知上海世博 会在历届世博会的经济影响力的综合评分中是最高的。由此得出,上海世博会对上海经济的影响力是非常大的,此次世博会除了对上海的直接收益影响明显外, 世博会对上海地区经济的持续性积极影响。 关键词:层次分析 模糊综合评判 投入——产出模型 回归模型 一、问题重述 2010年上海世博会是首次在中国举办的世界博览会。从1851年伦敦的“万国工业博览会”开始,世博会正日益成为各国人民交流历史文化、展示科技成果、体现合作精神、展望未来发展等的重要舞台。请你们选择感兴趣的某个侧面,建立数学模型,利用互联网数据,定量评估2010年上海世博会的影响力。 二、问题分析

数学建模竞赛试题--基因识别问题及其算法实现

基因识别问题及其算法实现 一、背景介绍 DNA 是生物遗传信息的载体,其化学名称为脱氧核糖核酸(Deoxyribonucleic acid ,缩写为DNA )。DNA 分子是一种长链聚合物,DNA 序列由腺嘌呤(Adenine, A ),鸟嘌呤(Guanine, G ),胞嘧啶(Cytosine, C ),胸腺嘧啶(Thymine, T )这四种核苷酸(nucleotide )符号按一定的顺序连接而成。其中带有遗传讯息的DNA 片段称为基因(Gene )(见图1第一行)。其他的DNA 序列片段,有些直接以自身构造发挥作用,有些则参与调控遗传讯息的表现。 在真核生物的DNA 序列中,基因通常被划分为许多间隔的片段(见图1第二行),其中编码蛋白质的部分,即编码序列(Coding Sequence )片段,称为外显子(Exon ),不编码的部分称为内含子(Intron )。外显子在DNA 序列剪接(Splicing )后仍然会被保存下来,并可在 图1真核生物DNA 序列(基因序列)结构示意图 蛋白质合成过程中被转录(transcription )、复制(replication )而合成为蛋白质(见图2)。DNA 序列通过遗传编码来储存信息,指导蛋白质的合成,把遗传信息准确无误地传递到蛋白质(protein )上去并实现各种生命功能。 DNA 序列 外显子(Exon ) 内含子(Intron)

DNA序列 剪接、转录、复制 蛋白质序列 图2蛋白质结构示意图 对大量、复杂的基因序列的分析,传统生物学解决问题的方式是基于分子实验的方法,其代价高昂。诺贝尔奖获得者W.吉尔伯特(Walter Gilbert,1932—;【美】,第一个制备出混合脱氧核糖核酸的科学家)1991年曾经指出:“现在,基于全部基因序列都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设。” 随着世界人类基因组工程计划的顺利完成,通过物理或数学的方法从大量的DNA序列中获取丰富的生物信息,对生物学、医学、药学等诸多方面都具有重要的理论意义和实际价值,也是目前生物信息学领域的一个研究热点。 二、数字序列映射与频谱3-周期性: 对给定的DNA序列,怎么去识别出其中的编码序列(即外显子),也称为基因预测,是一个尚未完全解决的问题,也是当前生物信息学的一个最基础、最首要的问题。 基因预测问题的一类方法是基于统计学的[1]。很多国际生物数据网站上也有“基因识别”的算法。比如知名的数据网站https://www.doczj.com/doc/869596775.html,/GENSCAN.html提供的基因识别软件GENSCAN(由斯坦福大学研究人员研发的、可免费使用的基因预测软件),主要就是基于隐马尔科夫链(HMM)方法。但是,它预测人的基因组中有45000个基因,相当于现在普遍认可数目的两倍。另外,统计预测方法通常需要将编码序列信息已知的DNA序列作为训练数据

全国大学生数学建模竞赛b题全国优秀论文

基于打车软件的出租车供求匹配度模型研究与分析 摘要 目前城市“出行难”、“打车难”的社会难题导致越来越多的线上打车软件出现在市场上。“打车难”已成为社会热点。以此为背景,本文将要解决分析的三个问题应运而生。 本文运用主成分分析、定性分析等分析方法以及部分经济学理论成功解决了这三个问 题,得到了不同时空下衡量出租车资源供求匹配程度的指标与模型以及一个合适的补贴 方案政策,并对现有的各公司出租车补贴政策进行了分析。 针对问题一,根据各大城市的宏观出租车数据,绘制柱形图进行重点数据的对比分 析,首先确定适合进行分析研究的城市。之后,根据该市不同地区、时间段的不同特点 选择多个数据样本区,以数据样本区作为研究对象,进行多种数据(包括出租车分布、 出租车需求量等)的采集整理。接着,通过主成分分析法确定模型的目标函数、约束条 件等。最后运用spss软件工具对数据进行计算,求出匹配程度函数F 与指标的关系式, 并对结果进行分析。 针对问题二,在各公司出租车补贴政策部分已知的情况下,综合考虑出租车司机以 及顾客两个方面的利益,分别就理想情况与实际情况进行全方位的分析。在问题一的模 型与数据结果基础上,首先分别从给司机和乘客补贴两个角度定性分析了补贴的效果。 重点就给司机进行补贴的方式进行讨论,定量分析了目前补贴方案的效果,得出了如果 统一给每次成功的打车给予相同的补贴无法改善打车难易程度的结论,并对第三问模型 的设计提供了启示,即需要对具有不同打车难易程度和需求量的区域采取分级的补贴政 策。 针对问题三,在问题二的基础上我们设计了一种根据不同区域打车难易程度和需求

量来确定补贴等级的方法。设计了相应的量化指标,以极大化各区域打车难易程度降低 的幅度之和作为目标,建立该问题的规划模型。目的是通过优化求解该模型,使得通过 求得的优化补贴方案,能够优化调度出租车资源,使得打车难区域得到缓解。通过设计 启发式原则和计算机模拟的方法进行求解,并以具体案例分析得到,本文方法相对统一 的补贴方案而言的确可以一定程度缓解打车难的程度。 关键词:主成分分析法,供求匹配度,最优化模型,出租车流动平衡 1

数学建模优秀论文全国一等奖

Haozl觉得数学建模论文格式这么样设置 版权归郝竹林所有,材料仅学习参考 版权:郝竹林 备注☆ ※§等等字符都可以作为问题重述左边的。。。。。一级标题 所有段落一级标题设置成段落前后间距13磅 二级标题设置成段落间距前0.5行后0.25行 Excel中画出的折线表字体采用默认格式宋体正文10号 图标题在图上方段落间距前0.25行后0行 表标题在表下方段落间距前0行后0.25行 行距均使用单倍行距 所有段落均把4个勾去掉 注意Excel表格插入到word的方式在Excel中复制后,粘贴,word2010粘贴选用使用目标主题嵌入当前 Dsffaf 所有软件名字第一个字母大写比如E xcel 所有公式和字母均使用MathType编写 公式编号采用MathType编号格式自己定义 公式编号在右边显示

农业化肥公司的生产与销售优化方案 摘 要 要求总分总 本文针对储油罐的变位识别与罐容表标定的计算方法问题,运用二重积分法和最小二乘法建立了储油罐的变位识别与罐容表标定的计算模型,分别对三种不同变位情况推导出的油位计所测油位高度与实际罐容量的数学模型,运用matlab 软件编程得出合理的结论,最终对模型的结果做出了误差分析。 针对问题一要求依据图4及附表1建立积分数学模型研究罐体变位后对罐容表的影响,并给出罐体变位后油位高度间隔为1cm 的罐容表标定值。我们作图分析出实验储油罐出现纵向倾斜ο14.时存在三种不同的可能情况,即储油罐中储油量较少、储油量一般、储油量较多的情况。针对于每种情况我们都利用了高等数学求容积的知识,以倾斜变位后油位计所测实际油位高度为积分变量,进行两次积分运算,运用MATLAB 软件推导出了所测油位高度与实际罐容量的关系式。并且给出了罐体倾斜变位后油位高度间隔为1cm 的罐容标定值(见表1),最后我们对倾斜变位前后的罐容标定值残差进行分析,得到样本方差为4103878.2-?,这充分说明残差波动不大。我们得出结论:罐体倾斜变位后,在同一油位条件下倾斜变位后罐容量比变位前罐容量少L 243。 表 1.1 针对问题二要求对于图1所示的实际储油罐,试建立罐体变位后标定罐容表的数学模型,即罐内储油量与油位高度及变位参数(纵向倾斜角度α和横向偏转角度β)之间的一般关系。利用罐体变位后在进/出油过程中的实际检测数据(附件2),根据所建立的数学模型确定变位参数,并给出罐体变位后油位高度间隔为10cm 的罐容表标定值。进一步利用附件2中的实际检测数据来分析检验你们模型的正确性与方法的可靠性。我们根据实际储油罐的特殊构造将实际储油罐分为三部分,左、右球冠状体与中间的圆柱体。运用积分的知识,按照实际储油罐的纵向变位后油位的三种不同情况。利用MATLAB 编程进行两次积分求得仅纵向变位时油量与油位、倾斜角α的容积表达式。然后我们通过作图分析油罐体的变位情况,将双向变位后的油位h 与仅纵向变位时的油位0h 建立关系表达式01.5(1.5)cos h h β=--,从而得到双向变位油量与油位、倾斜角α、偏转角β的容积表达式。利用附件二的数据,采用最小二乘法来确定倾斜角α、偏转角β的值,用matlab 软件求出03.3=α、04=β α=3.30,β=时总的平均相对误差达到最小,其最小值为0.0594。由此得到双向变位后油量与油位的容积表达式V ,从而确定了双向变位后的罐容表(见表2)。 本文主要应用MATLAB 软件对相关的模型进行编程求解,计算方便、快捷、准确,整篇文章采取图文并茂的效果。文章最后根据所建立的模型用附件2中的实际检测数据进行了误差分析,结果可靠,使得模型具有现实意义。 关键词:罐容表标定;积分求解;最小二乘法;MATLAB ;误差分

19398-数学建模-DNA序列分类模型

DNA序列分类模型 陈荣生张海军张旭东指导教师:数模组 海军航空工程学院 摘要本文讨论了在给定A类和B类各10个DNA序列的情况下,如何找出判断DNA 序列类型的方法,并具体分析了DNA序列的局部特征,最后将总体特征与局部特征综合考虑。 文中我们先根据给出的已知类型的20组DNA序列,考虑了四个碱基及其组合形式出现的频率,以此为研究对象进行深入研究,并建立了两个数学模型,即信息熵模型和Z曲线模型,最后还给出了模型的改进方向。 本文采取的用Z曲线来研究DNA序列的方法很有意义。 一、问题的重述 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,DNA全序列是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号。人们发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A 和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。 作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题: 1)下面有20个已知类别的人工制造的序列,其中序列标号1—10 为A类,11-20为B 类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入): A类; B类。 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。 2),用你的分类方法对182个自然DNA序列进行分类,像1)一样地给出分类结果。二、问题的分析 为了找出分类方法,我们可以省略细节,突出特征,以某 种碱基出现的频率或以两种甚至三种碱基的组合出现的频率, 或者以几种碱基出现的频率之和为依据来考虑。现分别就A、 B两组DNA序列针对以下20个方面做一些简单分析: 1)A出现的频率; 2)C出现的频率; 3)G出现的频率; 4)T出现的频率;

历年全国数学建模试题及其解法归纳

历年全国数学建模试题及解法归纳 赛题解法 93A非线性交调的频率设计拟合、规划 93B足球队排名图论、层次分析、整数规划94A逢山开路图论、插值、动态规划 94B锁具装箱问题图论、组合数学 95A飞行管理问题非线性规划、线性规划 95B天车与冶炼炉的作业调度动态规划、排队论、图论96A最优捕鱼策略微分方程、优化 96B节水洗衣机非线性规划 97A零件的参数设计非线性规划 97B截断切割的最优排列随机模拟、图论 98A一类投资组合问题多目标优化、非线性规划98B灾情巡视的最佳路线图论、组合优化 99A自动化车床管理随机优化、计算机模拟 99B钻井布局0-1规划、图论 00A DNA序列分类模式识别、Fisher判别、人工 神经网络 00B钢管订购和运输组合优化、运输问题 01A血管三维重建曲线拟合、曲面重建

赛题解法 01B 公交车调度问题多目标规划 02A车灯线光源的优化非线性规划 02B彩票问题单目标决策 03A SARS的传播微分方程、差分方程 03B 露天矿生产的车辆安排整数规划、运输问题 04A奥运会临时超市网点设计统计分析、数据处理、优化04B电力市场的输电阻塞管理数据拟合、优化 05A长江水质的评价和预测预测评价、数据处理 05B DVD在线租赁随机规划、整数规划 06A出版社书号问题整数规划、数据处理、优化06B Hiv病毒问题线性规划、回归分析 07A 人口问题微分方程、数据处理、优化07B 公交车问题多目标规划、动态规划、图 论、0-1规划 08A 照相机问题非线性方程组、优化 08B 大学学费问题数据收集和处理、统计分 析、回归分析 2009年A题制动器试验台的控制方法分析工程控制 2009年B题眼科病床的合理安排排队论,优化,仿真,综 合评价 2009年C题卫星监控几何问题,搜集数据

数学建模竞赛优秀论文

2015湖南省研究生数学建模竞赛参赛承诺书 我们仔细阅读了湖南省研究生数学建模竞赛的竞赛规则. 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。 我们授权湖南省研究生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。 我们参赛选择的题号是(从组委会提供的试题中选择一项填写): 我们的参赛报名号为(如果组委会设置报名号的话): 所属学校(请填写完整的全名): 参赛队员 (打印并签名) :1. 2. 3. 指导教师或指导教师组负责人(打印并签名): 日期:年月日 评阅编号(由组委会评阅前进行编号): 2015湖南省研究生数学建模竞赛 编号专用页 评阅编号(由组委会评阅前进行编号): 评阅记录(可供评阅时使用):

湖南省首届研究生数学建模竞赛 题目航班计划的合理编排 摘要: 本文从提高飞机利用率,降低运行成本,提高航空公司经济效益等角度出发,来研究航班计划的合理编排。我们先后建立了,相关性分析模型,0-1整数规划模型,改进的0-1整数规划,鲁棒性评价模型等模型,并运用matlab,spss等相关软件对各模型进行求解,进而对题中各问题给出了相应的解答。 针对问题1,首先对附件1中的数据进行了检查,并合理地更改了一些不合理的数据,例如对附件1中餐食费为0的数据我们进行了合理的更改(见附录附表1)。其次,为了找到影响航班收益的主要因素,我们求出了各航线的收益, 建立了相关性分析模型,并给出了附件1中各因素与航班收益的相关系数。通过对相关系数排序,我们找出了8各主要因素(见表1)。同时基于这8个主要因素,我们对亏损航线提出了相应的整改措施。 针对问题2,首先根据问题中的假设条件,我们将求解航空公司收益最大化问题转化为了求解飞机利用率最高的问题。为使飞机利用率最高,我们假设每架飞机每天的最大飞行时间为17.5小时,并针对西安、天津两个独立基地以及A320、E190两种机型分别建立了4个0-1整数规划模型,并将其转化为NP-hard问题 求解。我们利用动态规划算法,通过matlab软件求解,计算出航空公司最少需要再去租4架A320机型和2架E190机型的飞机。同时,我们还制定了下个月的航班计划(见附录附表1),并计算出公司的最大收益为4237.1万元。 针对问题3,在问题2的基础上,我们进一步考虑了飞机累计飞行130小时就必须在维修基地停场维修24小时的条件,进而建立了改进的0-1整数规划模型。通过对模型进行求解,我们计算出在问题2的基础上至少需要增加A320机型和E190机型的飞机各2架,同时列出了一份各飞机停场排班表(见表11-14)。 针对问题4,首先给出了评价航班计划“鲁棒性”的评判标准。基于该评判标准,我们对问题2中制定的航班计划的“鲁棒性”进行了评价。通过评价结果我们发现问题2的中制定的航班计划的“鲁棒性”较差。为了提高航班计划的“鲁棒性”,减少航班延误对后续航班的影响,我们根据“鲁棒性”评判标准,建立了带有“鲁棒性”约束条件的新0-1规划整数模型。通过matlab对该模型求解,我们制定了具有较好“鲁棒性”的航班计划(见附录附表2)。 关键词:相关性分析法,整数规划,动态规划 一问题重述 航班计划是航空公司运输生产计划的具体实施计划,它规定了飞行的航线、航段、机型、航班号、班次和班期、(起降)时刻等。一个合理的航班计划应该既有助于航班的安全运行,又能提高飞机的利用率,还可以有效地降低运营及维护成本,提高公司的经济效益。 国内某个以客运为主的航空公司,该公司运行指挥中心每个月的月末都会对本月各航线、

相关主题
文本预览
相关文档 最新文档