当前位置:文档之家› 数学建模 通信数据分析

数学建模 通信数据分析

通信数据分析

摘要

随着社会的发展与进步,通信技术不断发展,电话作为主要的通信工具已逐渐走进了千家万户。巨大的通信网络对当前的通信设备和业务提出了更高的要求,如何运用已知的通话记录数据改善通信设施和促进通信业务是通信公司面临的重大难题。

本文通过对300个用户连续10天的通话数据进行分析和处理,运用模糊聚类分析的基本知识,结合通话过程中实际状况,并使用MATLAB编程,建立了有效的数学模型,得到了合理的分类结果,并给出了对通信设施的具体改进建议。

针对问题1,模型一:只考虑每个用户10天总的通话时长,把用户分为高端,中端,低端3类。模型二:按照通话时长把用户分为较长,中等,较短用户,然后根据主叫多还是被叫多即主叫被叫的比值再分类,最终把用户分为6类。

针对问题2,假设公司推出的新业务是在一次通话中通话时长超过w分钟以后,降低收费为原来的b%。根据对三百个用户平均每次通话时间的分析,发现在某个时段的人数最为集中。占了总人数的71%,根据通信用户通信习惯及消费者行为分析,培养目标客户,提高客户的忠诚度,依赖度,进而实现通信公司的利润最大化

针对问题3,首先进行数据分类汇总,得到30个基站的使用率,同时综合考虑每个基站的地理位置和对基站使用的条件要求,对基站的合理性进行判断,对基站设施进行调整,去掉一些使用率低的基站,同时在使用率过高的基站附近增加新的基站,这样可以确保每一个基站都能被充分的利用,减少资源的闲置,又保证了通话质量。

关键词:聚类分析,通话时长,基站使用率

问题重述

通信技术的不断发展拉近了人与人之间的距离。电话作为主要的通信工具之一悄无声息地将我们联系在一起,形成一个巨大的社交网络。这个巨大的社交网络对当前的通信设备和业务提出了更高的要求。

如何利用现有的通话记录数据进行概括分析,以便做出合理的决策,进而改善通信设施。拓展新的通信业务,依然是许多通信公司面临的难题。

附件给出了一家通信公司公布的2009年6月份某地300个用户10天内的通话记录,试回答下列问题。

1. 请根据这些通话记录信息建立数学模型以对用户分类,并说明运用此模

型对300个用户的分类结果。

2. 如果需要推出一款新的通信业务,如何合理选择部分用户作为首选推广

人群。说明你的理由,并撰写一份不超过两页的给公司经理的建议。

3 该地现有的通信设施(如基站等)建设情况是否合理。如需改进,请给出合理的建议。

问题的分析

对于问题1,目的是对通信用户进行合理的分类,首先就要确定分类指标和分类的明确界线,通话时长是判断用户消费量的有效指标,通话时间越长则话费越高,通信公司获利越多。建立两种模型,模型一,对数据进行处理后得到每个用户10天的总通话时长,并用Excel对数据进行排序和整合,做出图表和频数直方图,然后按照10天的总通话时长分为高端用户,中端用户,低端用户。模型二,主叫被叫的多少反映了用户的通话消费习惯,按照主叫被叫比与通话总时长综合考虑,用户可分为6类。

对于问题二,假设推出的新业务是通话时间超过W分钟后,每分钟话费为原来的b%,我们通过对数据处理分析得到每个用户平均每次通话时长,观察总体通话情况,发现总体平均通话时长附近恰是用户最集中的时段,故我们确定面向中端用户的推广方案。在方案实施中,我们以利润最大化为目标,采用所有用户都可参与且愿意享受优惠的标准,先得到通话时间在x分钟内占总人数的概率函数,再对函数积分分别计算原来和推广方案实施后的话费总收入。

对于问题3,对基站的合理性进行分析,并得出具体的改进措施。

对基站进行资源优化,首先分析每个基站的使用次数和通话总时长,使用率过高的基站处要增加新的基站,分担该基站的工作量,不是该基站过于繁忙,保证通话质量。同时对于那些基站比较多并且每个基站的使用次数少通话总时长短的区域,减少适当的基站仍能满足通话需求,过多的基站反而是资源的一种浪费。所以可以根据基站工作量和基站的地理位置综合考虑,具体分析,对基站进行合理的规划。

基站的工作量反映在通话时长,根据数据可知1个用户的总通话时长与总次数成正相关关系,并且总次数代表使用频繁度,所以用总通话次数代表基站的使用效率。

四、模型的假设与符号说明

模型的假设:

(1)假设6月1号—10号是平常的10天,没有特殊日子。

(2)假设主叫之间是相互独立的,被叫之间也是相互独立的

(3)不考虑漫游费的影响。

(4)假定对被叫不收取电话费。

(5)基站的信号可以覆盖邻近的区域

(6)假设每个基站所能容纳的通话个数为W,并且在基站附近的主叫人数大于W时,若不增加基站就会影响通话质量

符号说明:

(1) i表示记录的用户者的编号

(2) k

i

表示用户i在10天内的总共的通话时长

(3) y表示基站的编号,y=1,2,3, (30)

(4) m

i

表示10天内的主叫为i的总次数

(5) n

i

表示10天内的被叫为i的总次数

(6) a为主叫比被叫的值

(7) 为主叫每分钟通话话费

(8) R为用户总人数

五、模型的建立及结果

5.1,问题1模型的建立及结果

模型一:以主叫用户10天的通话总时长k

i

为标准分3类。(其数据见附表1)对300个客户10天内通话时长进行分类,统计,求和,得到如下的处理结果:

由上表可知:时长k

i >=5000 有53人,此类为高端用户;时长3000<=k

i

<5000

有167人,此类为中端用户;时长k

i

<3000有80人,为低端用户。人数在通话时长上概率基本服从正态分布。

通话时长在每个分段上的频率直方图如下:

模型二:按照主叫与被叫比值a和10天每个用户的通话总时长分类。(其数据见附表1)

300个用户在10天的主叫被叫比值分布,如下图所示:

(其数据见附表1)

5.2,问题2模型的建立及结果

对300个用户10天数据处理,并用MATLAB编程作图,得到平均每个用户每次通话时间的散点图为:

散点图说明,每次通话的平均通话时间是3分钟附近,一般通话时间不超过

4分钟,图中红线是由总通话时间除以总次数所得到的总平均每次通话时间,散点在红线附近分别密集,较远处散点稀少,每次通话3分钟代表了通话的一般水平,是大部分用户的消费倾向。

假设推出的新的通信业务是通话时间超过W 分钟后每分钟话费是原来的b%.

通过对全体通话次数分析,得到总体平均通话时间T =()300........3,2,1=∑∑i m k i

i ,对于本题而言,计算出的用户平均通话时间为182秒,大概为3分钟。然后对每

位用户平均每次通话时间,算出单个用户平均时间t i =

k i i ,用excel

统计出每相差10秒的用户分布,得出以下图表:

上图,横轴表示平均每次通话时长,纵轴表示在该平均每次通话时长下,

相应的人数所占比例。(见附录2)

我们提出的通信业务是在客户(主叫)通话进行到第W 分钟后,降低其收

费标准,以吸引客户进行长时间通话。

当然我们的主要针对人群是平均每次通话时间在总平均通话时间附近的,原

因有二:第一,人群比较集中,覆盖面比较广,超过第一个问题中的中端人群的数量且几乎涵盖了相应的中端用户。第二,打电话时主叫占据主动权,他可以绝对通话的时间,根据这一阶段人群的消费习惯,用时低于W 会因为接近于优惠时间而延长,用时高于W 时间会因为优惠话费而将时间拉的更长,有利于公司获取更高的利润。

我们将时间单位由秒换为分钟后,拟合上表曲线,可得出一个关于通话时间与相应人数所占比例的函数式y(x)=0.003x+0. 2(见附录3),然后在(0,x )区间积分,为通话时间在x 分钟内占总人数的概率。

假设在W 分钟后,将收费定为原来的b%,那么用户通话的平均每次通话时长都愿意提高到W ,且各时段人数比例趋势整体不会改变,但时间向后延长,则这时的通话收入总费用F 2=μR ?W x dx x y )( +b%μR ?x W

dx x y )(,而原来的收入总费用为F 1=μR ?dx x y )(,则该项业务的取得的利润为F= F 2- F 1

F=μR ?W x dx x y )( +b%μR ?x W

dx x y )(-μR ?dx x y )( 只要F>0,我们的该项业务就是成功的。

5.3,问题3模型的建立及结果

每一个基站的使用次数统计如下图所示(见附录4):

由图明显可以看出,1,11,13,15,16,22,28,29,30基站的使用次数较高,4,6,9,10,12,17,20,21,23,24,25,27基站的使用次数处于中等水平,2,3,5,7,8,14,26,18,19基站的使用次数较少,使用次数之间的差距很大,所以基站的位置安排是不合理的。

根据各基站的地理位置,因为位置相近的基站可以替代使用,从而均衡各个基站的使用效率,同时保证不会因某基站被过多使用而降低通话质量,所以可以把基站位置分为五个区域。

区域一:1,2,3,4,5,6,30

区域二:7,8,9,10,11,28,29

区域三:12,13,14,15,16,17 ,18,19

区域四:20,21,22,23,24,25,26,

区域五:27

对区域一,1基站使用次数中等偏上,是合适的,2,3,5基站使用很少,4,

6基站中等偏下水平,30号基站使用率很高,工作量很多,所以可以在30号基

站附近新建一个基站来分担30号的工作量,2,3,5基站可适当减少。

对区域二,11,28,29基站的使用率很高,相应承担的工作量很大,并且它

们地理位置很近,而7,8,9,10基站工作量都偏低,所以可以在11,28,29

基站附近处建立一个新的基站,用来分担工作量,并减少8,9基站,使基站的

使用达到均衡,最大效率的利用资源。

对区域三,每个基站的使用基本保持在合理的范围,每个基站分担的工作量

基本合适,不用对基站等基础设施做较大改动。

对区域四,26基站的使用次数少,距离26基站很近的24,23,25基站的工作量比较合适,相当偏少,可以减少24基站,在依然能够保证正常工作的前提下,提高了综合使用效率,20、21工作基本合适,但22号基站使用频数很高,可以在22号基站处增加一个基站来分担22的工作量。

对区域五,只有一个基站27,基站的使用效率基本满足工作量的需求,不用

对该区域的基站做出改动。

六、对模型结果的分析与评价

6.1,对问题1结果的分析与评价

优点:模型一,通话时长表明了用户的通信消费习惯,具有高度代表性,同

时通话时长又是决定通信公司收益的关键因素,所以用通话时长分类是合理的,

在实践中又简单方便,可操作性强,分类结果明确清晰。结果的数据误差基本不

存在,分类结果的敏感度极低,可以认为不受偶然数据的影响。

模型二,用户的主叫被叫比,体现用户的通信消费习惯,并且这种习惯

是长期形成的,轻易不会改变,具有长期稳定性。通话时长又决定用户消费多少,

所以同时按两方面分类,综合考虑,更具有说服力。

缺点:在模型的建立中,只考虑了用户的通话时长和主叫被叫等消费倾向,忽

略了其它方面的因素影响。由于数据的限制,没能多因素对用户分类,分类界线

具有一定的主观性,结果与实际存在误差。

6.2,对问题2结果的分析与评价

对于问题二,虽然通过建立通话时间在x分钟内占总人数的概率函

数,并通过积分函数求收入,方法比较突出,但由于缺乏许多数据,且模型还需

要实验才能确定最终的结果,就是说我们需要数据给出一个W值和b%,在市场

中实验。得出F(W,x)的函数,才能得出最终的结果,并取得最优解。

6.3,对问题3的结果的分析与评价

由数据可得,通话次数与通话时间成正相关关系,即基站所使用的次数越多,则基站的通话时间就越长,所以仅仅考虑基站使用的频数是可以代表基站的使用率的,这样处理是合理的。

对基站的改进措施,具有不确定的答案,本文只是给出了一个相对合理的方案,并不是绝对改进措施,只要大体上具有相同效果的措施仍然是可以的。

本文的措施是在简化了复杂的现实实际情况下所得到的措施,是在假定其它因素一样下得出的改进,具有一定的局限性。

七、参考文献

(1)https://www.doczj.com/doc/5119213203.html,/view/6e61a67931b765ce05081475.html

八、附录

附录1:

总时长

2962

3058

4772

5489

2985

3349

5607

3279

3705

6428

4941

3491

6436

2373

1526

2551

7557

3835

3901

4701

5547

8442

3457

3339

12532

8512

13369

13536

9233

9111

16875

21578

13759

16809

17988

15706

17531

12383

10462

17026

23883

21747

13009

15839

22382

44796

39279

附录2:

x=[135 145 155 165 175 185 195 205 215 ]

y=[0.003 0.007 0.02 0.13 0.26 0.32 0.20 0.05 0.01];

h=135:1:216;

t=interp1(x,y,h,'cubic')

plot(h,t,x,y,'r:');

附录3:

x=[135/60 145/60 155/60 165/60 175/60 185/60 195/60 205/60 215/60 ] y=[0.003 0.007 0.02 0.13 0.26 0.32 0.20 0.05 0.01];

h=135/60:1:216/60;

t=interp1(x,y,h,'cubic')

plot(h,t,x,y,'r:');

附录4

第二讲数学建模的基本方法和步骤

第二讲 数学建模的基本方法与步骤 数学建模面临的实际问题就是多种多样的,建模的目的不同、分析的方法不同、采用的数学工具不同,所得模型的类型也不同,我们不能指望归纳出若干条准则,适用于一切实际问题的数学建模方法。下面所谓基本方法不就是针对具体问题而就是从方法论的意义上讲的。(注:用最初等的方法解决,越受人尊重) 一 数学建模的基本方法 一般说来数学建模的方法大体上可分为机理分析与测试分析两种。 ????????????? 机理分析: 是根据对客观事物特性的认识,找出反映内部机理的数 量规律,建立的数学模型常有明确的物理或现实意义。 建模方法测试分析: 将研究对象看作一个“黑箱”(意思是内部机理看不清 楚),通过对测量数据的统计分析,找出与数据拟合最 好的模型。 面对于一个实际问题用哪一种方法建模,主要取决于人们对研究对象的了解程度与建模目的。如果掌握了一些内部机理的知识,模型也要求具有反映内部特征的物理意义,建模就应以机理分析为主。而如果对象的内部机理规律基本上不清楚,模型也不需要反映内部特征,那么可以用测试分析。对于许多实际问题也常常将两种方法结合起来,用机理分析建立模型结构,用测试分析确定模型的参数。 二 数学建模的一般步骤 建模要经过哪些步骤并没有一定的模式,通常与问题性质与建模的目的等有关。下面给出建模的一般步骤,如图1、2所示。 ⑴ 模型准备:了解实际背景,明确建模目的,搜索必要信息,弄清对象的主要特征,形成一个比较清晰的“问题”(即问题的提出)。情况明才能方法对,在这个阶段要深入调查研究,虚心向实际工作者请教,尽量掌握第一手资料。

⑵模型假设:根据对象的特征与建模目的,抓住问题的本质,忽略次要因素,作出必要的、合理的简化假设。对于建模的成败这就是非常重要与困难的一步。假设不合理或太简单,会导致错误的或无用的模型;假设作得过分详细,试图把复杂对象的众多因素都考虑进去,会使您很难或无法继续下一步的工作。常常需要在合理与简化之间作出恰当的折衷,要不段积累经验,并注意培养与充分发挥对事物的洞察力与判断力。 ⑶模型的建立:根据假设,用数学的语言、符号描述对象的内在规律,得到一个数学结构。这里除了需要一些相关的专门知识外,还常常需要较为广阔的应用数学方面的知识,要善于发挥想象力,注意使用类比法,分析对象与熟悉的其她对象的共性,借用已有的数学模型。建模时还应遵循的一个原则就是尽量采用简单数学工具,因为您的模型总希望更多的人了解与使用,而不就是只供少数专家欣赏。 ⑷模型求解:使用各种数学方法、数学软件与计算机技术对模型求解。 ⑸模型分析:对求解结果进行数学上的分析,如对结果进行误差分析,分析模型对数据的稳定性或灵敏性等。 ⑹模型检验:把求解与分析结果翻译回到实际问题,与实际现象、数据进行比较,检验模型的合理性与适用性。如果结果与实际不符,问题常常出现在模型假设上,应该修改或补充假设,重新建模。这一步对于模型就是否真的有用就是非常关键的,要以严肃认真的态度对待。 ⑺模型应用:这与问题的性质、建模的目的以及最终结果有关,一般不属于本书讨论的范围。 应该指出,并不就是所有问题的建模都要经过这些步骤,有时各步骤之间的界限也不那么分明,建模时不要拘泥于形式上的按部就班。 三数学建模的全过程 数学建模的全过程可分为表述、求解、解释、验证几个阶段,并且通过这些阶段完成从现实对象到数学模型,再从数学模型回到现实对象的循环,如图1、3所示。 表述就是根据建模目的与信息将实际问题“翻译”成数学问题,即将现实问题“翻译”成抽象的数学问题,属于归纳法。数学模型的求解选择适当的数学方

第1章 数学建模与误差分析

第1章数学建模与误差分析 1.1 数学与科学计算 数学是科学之母,科学技术离不开数学,它通过建立数学模型与数学产生紧密联系,数学又以各种形式应用于科学技术各领域。数学擅长处理各种复杂的依赖关系,精细刻画量的变化以及可能性的评估。它可以帮助人们探讨原因、量化过程、控制风险、优化管理、合理预测。近几十年来由于计算机及科学技术的快速发展,求解各种数学问题的数值方法即计算数学也越来越多地应用于科学技术各领域,相关交叉学科分支纷纷兴起,如计算力学、计算物理、计算化学、计算生物、计算经济学等。 科学计算是指利用计算机来完成科学研究和工程技术中提出的数学问题的计算,是一种使用计算机解释和预测实验中难以验证的、复杂现象的方法。科学计算是伴随着电子计算机的出现而迅速发展并获得广泛应用的新兴交叉学科,是数学及计算机应用于高科技领域的必不可少的纽带和工具。科学计算涉及数学的各分支,研究它们适合于计算机编程的数值计算方法是计算数学的任务,它是各种计算性学科的联系纽带和共性基础,兼有基础性和应用性的数学学科。它面向的是数学问题本身而不是具体的物理模型,但它又是各计算学科共同的基础。 随着计算机技术的飞速发展,科学计算在工程技术中发挥着愈来愈大的作用,已成为继科学实验和理论研究之后科学研究的第三种方法。在实际应用中所建立的数学模型其完备形式往往不能方便地求出精确解,于是只能转化为简化模型,如将复杂的非线性模型忽略一些因素而简化为线性模型,但这样做往往不能满足精度要求。因此,目前使用数值方法来直接求解较少简化的模型,可以得到满足精度要求的结果,使科学计算发挥更大作用。了解和掌握科学计算的基本方法、数学建模方法已成为科技人才必需的技能。因此,科学计算与数学建模的基本知识和方法是工程技术人才必备的数学素质。 1.2 数学建模及其重要意义 数学,作为一门研究现实世界数量关系和空间形式的科学,在它产生和发展的历史长河中,一直是和人们生活的实际需要密切相关。用数学方法解决工程实际和科学技术中的具体问题时,首先必须将具体问题抽象为数学问题,即建立起能描述并等价代替该实际问题的数学模型,然后将建立起的数学模型,利用数学理论和计算技术进行推演、论证和计算,得到欲求解问题的解析解或数值解,最后用求得的解析解和数值解来解决实际问题。本章主要介绍数学建模基本过程和求解数学问题数值方法的误差传播分析。 1.2.1 数学建模的过程 数学建模过程就是从现实对象到数学模型,再从数学模型回到现实对象的循环,一般通过表述、求解、解释、验证几个阶段完成。数学建模过程如图1.2.1所示,数学模型求解方法可分为解析法和数值方法,如图1.2.2所示。 表述是将现实问题“翻译”成抽象的数学问题,属于归纳。数学模型的求解方法则属于演绎。归纳是依据个别现象推出一般规律;演绎是按照普遍原理考察特定对象,导出结论。演绎利用严格的逻辑推理,对解释现象做出科学预见,具有重要意义,但是它要以归纳的结论作为公理化形式的前提,只有在这个前提下

对中国大学生数学建模竞赛历年成绩的分析与预测

2012年北京师范大学珠海分校数学建模竞赛 题目:对中国大学生数学建模竞赛历年成绩的分析与预测 摘要 本文研究的是对自数学建模竞赛开展以来各高校建模水平的评价比较和预测问题。我们将针对题目要求,建立适当的评价模型和预测模型,主要解决对中国大学生数学建模竞赛历年成绩的评价、排序和预测问题。 首先我们用层次分析法来评价广东赛区各校2008年至2011年及全国各大高校1994至2011年数学建模成绩,从而给出广东赛区各校及全国各大高校建模成绩的科学、合理的评价及排序;其次运用灰色预测模型解决广东赛区各院校2012年建模成绩的预测。 针对问题一,首先我们对比了2008到2011年参加建模比赛的学校,通过分析我们选择了四年都参加了比赛的学校进行合理的排序(具体分析过程见表13),同时对本科甲组和专科乙组我们分别进行排序比较。在具体解决问题的过程中,我们先分析得出影响评价结果的主要因素:获奖情况和获奖比例,其中获奖情况主要考虑国家一等奖、国家二等奖、省一等奖、省二等奖、省三等奖,我们采用层次分析法,并依据判断尺度构造出各个层次的判断矩阵,对它们逐个做出一致性检验,在一致性符合要求的情况下,通过公式与matlab求得各大学的权重,总结得分并进行排序(结果见表11);在对广东赛区各高校2012建模成绩预测问题中,我们采用灰色预测模型,我们以华南农业大学为例,得到该校2012年建模比赛获奖情况为:省一等奖、省二等奖、省三等奖及成功参赛奖分别为5、9、8、8(其它各高校预测结果见表10)。 针对问题二,我们对全国各院校的自建模竞赛活动开展以来建模成绩排序采用与问题一相同的数学模型,在获奖情况考虑的是全国一等奖、全国二等奖。运用matlab求解,结果见表12。 针对问题三,我们通过对一、二问排序的解答及数据的分析,得出在对院校进评价和预测时还应考虑到各院的师资力量、学校受重视程度、学生情况、参赛经验等因素,考虑到这些因素,为以后评价高校建模水平提供更可靠的依据。 关键词:层次分析法权向量灰色预测模型模型检验 matlab

数学建模典型例题

一、人体重变化 某人的食量是10467焦/天,最基本新陈代谢要自动消耗其中的5038焦/天。每天的体育运动消耗热量大约是69焦/(千克?天)乘以他的体重(千克)。假设以脂肪形式贮存的热量100% 地有效,而1千克脂肪含热量41868焦。试研究此人体重随时间变化的规律。 一、问题分析 人体重W(t)随时间t变化是由于消耗量和吸收量的差值所引起的,假设人体重随时间的变化是连续变化过程,因此可以通过研究在△t时间内体重W的变化值列出微分方程。 二、模型假设 1、以脂肪形式贮存的热量100%有效 2、当补充能量多于消耗能量时,多余能量以脂肪形式贮存 3、假设体重的变化是一个连续函数 4、初始体重为W0 三、模型建立 假设在△t时间内: 体重的变化量为W(t+△t)-W(t); 身体一天内的热量的剩余为(10467-5038-69*W(t)) 将其乘以△t即为一小段时间内剩下的热量; 转换成微分方程为:d[W(t+△t)-W(t)]=(10467-5038-69*W(t))dt; 四、模型求解 d(5429-69W)/(5429-69W)=-69dt/41686 W(0)=W0 解得: 5429-69W=(5429-69W0)e(-69t/41686) 即: W(t)=5429/69-(5429-69W0)/5429e(-69t/41686) 当t趋于无穷时,w=81; 二、投资策略模型 一、问题重述 一家公司要投资一个车队并尝试着决定保留汽车时间的最佳方案。5年后,它将卖出所有剩余汽车并让一家外围公司提供运输。在策划下一个5年计划时,这家公司评估在年i 的开始买进汽车并在年j的开始卖出汽车,将有净成本a ij(购入价减去折旧加上运营和维修成本)ij

《数值分析与数学建模》

2007-2008学年第一学期《数值分析与数学建模》课程考核题目 说明: 本次考核题目共有五个部分,请从每一部分中任选一题作答。选择时请注意:每题难度不同分值也有所不同。 完成时间:2007-2008学年第二学期开学第一周前三个工作日,过期无效。 答卷提交方式:手写稿或打印稿请直接交到5号楼202室;电子稿可以发送Email 至 tzl99@https://www.doczj.com/doc/5119213203.html, 。 要求: (1)标清题号; (2)列出关键的数学模型及模型中各参数的含义; (3)可利用Matalb 软件中相关库函数直接求解,请注明你所用到的关键函数及其作用; (4)也可以在建立模型之后,自行选择数值分析课程中介绍的合适算法并利用Matlab 软件编程实现;如此,你将获得额外加分; (5)对得到的结果加以适当评价,以及对问题本身提出相应的思考与改进,也将获得额外加分; (6)鼓励相互讨论,不允许相互抄袭;雷同(绝大部分相同)答卷按无效答卷处理,不予记录成绩;若某些题目解答完全相同,则该题不得分。 第一部分 说明: Ex1、Ex2每题10分;Ex3~Ex6每题15分 Ex1:以定期存储为基础的储蓄账户的累积值可由“定期年金方程”确定, ]1)1[(-+= n i i P A ; 在这个方程中,A 是账户中的数额,P 是定期存储的数额,i 是n 个存储期间的每期利率。一个工程师想在20年内退休时储蓄账户上的数额达到750000美元,而为了达到这个目标他每个月能存1500美元。为实现他的储蓄值目标,最小利率应是多少?假定利息是月复利的。 Ex2:在固定的时期内需付抵押贷款的数额问题和下面的称为“普通年金方程”的公式有关, ]) 1(1[n i i P A -+-= 在这个方程中,A 是抵押贷款的数额,P 是每期付款的数额,i 是n 个付款期的每期利率。假设需要30年房屋按揭贷款135000美元,又假设借款人每月至多能付1000美元房款。借款人能付得起的最大利率是多少? Ex3:病人用的药在血流中产生的浓度由ml mg e t A t c t 3 ) (-=给出(注射了A 单位药物后的t 小时以后血液中药物的浓度)。病人能够承受的药物最大安全浓度是1 ml mg 。 (1)分别利用微积分知识以及Matlab 软件描绘出浓度随时间变化的图形; (2)应该注射多大的量来达到最大的安全浓度?什么时候达到这个最大的安全浓度? (3)在浓度下降到0.25ml mg 后,要给病人注射这种药的附加的药量。确定何时应进行第二次注射,精确到分钟; (4)假设连续注射的浓度是可加的,又假设开始注射的75%的药量仍在第二次注射中起作用。什么时候可以进行第三次注射?

最新数学建模数据分析题

中国矿业大学数学建模常规赛竞赛 承诺书 我们仔细阅读了中国矿业大学数学建模常规赛论文格式规范和2016年中国矿业大学数学建模常规赛通知。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或资料(包括网上资料),必须按照规定的参考文献的表述方式列出,并在正文引用处予以标注。在网上交流和下载他人的论文是严重违规违纪行为。 我们以中国矿业大学大学生名誉和诚信郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。 我们授权中国矿业大学数学建模协会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。 我们的参赛队号:25 参赛队员(打印并签名):1. 易阳俊 2. 令月霞 3. 刘景瑞 日期: 2016 年 10 月日 (请勿改动此页内容和格式。此承诺书打印签名后作为纸质论文的封面。以上内容请仔细核对,如填写错误,论文可能被取消评奖资格。)

中国矿业大学数学建模常规赛竞赛 编号专用页 评阅统一编号(数学建模协会填写):

题目:数据的分析问题 摘要 本文需要解决的问题是如何根据就诊人员体内7种元素含量来判别某人是否患有疾病G和确定哪些指标是影响人们患疾病G的主要因素。通过解读题目可知,此类问题为典型的分析判别问题。我们先对数据进行了预处理,剔除了有异常数据的样本,然后采用元素分布判别法、马氏距离判别法和Fisher判别法,应用Excel、SPSS和MATLAB等软件来对某人是否患病进行判别,并通过绘制7种元素含量的折线图等来确定患该疾病的主要因素,最后应用综合判别法对之前的结论进行了检验。 对于问题一,在对数据预处理之后,我们删除了序号为10这个高度异常数据样本,然后我们分别采用元素分布判别法、马氏距离判别法和Fisher判别法对49个已知病例进行判别。对于元素分布判别法,我们通过数据预处理知道7种元素含量分布均符合正态分布,然后我们确定了以均值为大致中心的元素正常含量范围,得出其判别准确度为96%;对于马氏距离判别法,通过编写MATLAB 程序(见附录)来进行判别,得出其判别准确度为90%;对于Fisher判别法,通过SPSS软件来进行判别,得到线性判别函数,其判别准确度为96%; 针对问题二:我们运用问题一中建立的三个判别模型对25名就诊人员(见附录)的化验结果进行检验,判别结果如下表1: 行对分析,我们初步判定元素4与元素5是影响人们患疾病G的主要因素,然后用方法一的三种判别方法进行检验,其准确度在85%以上; 对于问题四,我们根据问题三得出的主要因素,分别用三种判别方法对25名就诊人员进行判别,再与问题二的判别结果进行对比,可知它们判断结果之间的差异性最高为24%。 对于问题五,由于三种判别法都有不足,所以我们采用了综合判别法,将三种判别方法的结果进行综合判断,最终我们通过主要因素进行判别的差异性下降到了12%,与问题一的判断结果的一致性达到了88%。 关键词:马氏距离判别,Fisher判别,综合判别,MATLAB,SPSS

数学建模例题及解析

。 例1差分方程—-资金的时间价值 问题1:抵押贷款买房——从一则广告谈起 每家人家都希望有一套(甚至一栋)属于自己的住房,但又没有足够的资金一次买下,这就产生了贷款买房的问题。先看一下下面的广告(这是1991年1月1日某大城市晚报上登的一则广告),任何人看了这则广告都会产生许多疑问,且不谈广告中没有谈住房面积、设施等等,人们关心的是:如果一次付款买这栋房要多少钱呢?银行贷款的利息是多少呢?为什么每个月要付1200元呢?是怎样算出来的?因为人们都知道,若知道了房价(一次付款买房的价格),如果自己只能支付一部分款,那就要把其余的款项通过借贷方式来解决,只要知道利息,就应该可以算出五年还清每月要付多少钱才能按时还清贷款了,从而也就可以对是否要去买该广告中所说的房子作出决策了。现在我们来进行数学建模。由于本问题比较简单无需太多的抽象和简化。 a。明确变量、参数,显然下面的量是要考虑的: 需要借多少钱,用记; 月利率(贷款通常按复利计)用R记; 每月还多少钱用x记; 借期记为N个月。 b.建立变量之间的明确的数学关系。若用记第k个月时尚欠的款数,则一个月后(加上利息后)欠款 , 不过我们又还了x元所以总的欠款为 k=0,1,2,3, 而一开始的借款为.所以我们的数学模型可表述如下 (1) c. (1)的求解。由

(2)这就是之间的显式关系。 d.针对广告中的情形我们来看(1)和(2)中哪些量是已知的。N=5年=60个月,已知;每月还款x=1200元,已知A.即一次性付款购买价减去70000元后剩下的要另外去借的款,并没有告诉你,此外银行贷款利率R也没告诉你,这造成了我们决策的困难.然而,由(2)可知60个月后还清,即,从而得 (3) A和x之间的关系式,如果我们已经知道银(3)表示N=60,x=1200给定时0 A。例如,若R=0.01,则由(3)可算得行的贷款利息R,就可以算出0 53946元。如果该房地产公司说一次性付款的房价大于70000十53946=123946元的话,你就应自己去银行借款。事实上,利用图形计算器或Mathematica这样的 数学软件可把(3)的图形画出来,从而可以进行估算决策。以下我们进一步考虑下面两个问题。 注1问题1标题中“抵押贷款”的意思无非是银行伯你借了钱不还,因而要你用某种不动产(包括房子的产权)作抵押,即万一你还不出钱了,就没收你的不动产。 例题1某高校一对年青夫妇为买房要用银行贷款60000元,月利率0.01,贷款期25年=300月,这对夫妇希望知道每月要还多少钱,25年就可还清。假设这对

数学建模方法和步骤

数学建模的主要步骤: 第一、模型准备 首先要了解问题的实际背景,明确建模目的,搜集必需的各种信息,尽量弄清对象的特征. 第二、模型假设 根据对象的特征和建模目的,对问题进行必要的、合理的简化,用精确的语言作出假设,是建模至关重要的一步.如果对问题的所有因素一概考虑,无疑是一种有勇气但方法欠佳的行为,所以高超的建模者能充分发挥想象力、洞察力和判断力,善于辨别主次,而且为了使处理方法简单,应尽量使问题线性化、均匀化. 第三、模型构成 根据所作的假设分析对象的因果关系,利用对象的内在规律和适当的数学工具,构造各个量间的等式关系或其它数学结构.这时,我们便会进入一个广阔的应用数学天地,这里在高数、概率老人的膝下,有许多可爱的孩子们,他们是图论、排队论、线性规划、对策论等许多许多,真是泱泱大国,别有洞天.不过我们应当牢记,建立数学模型是为了让更多的人明了并能加以应用,因此工具愈简单愈有价值. 第四、模型求解 可以采用解方程、画图形、证明定理、逻辑运算、数值运算等各种传统的和近代的数学方法,特别是计算机技术.一道实际问题的解决往往需要纷繁的计算,许多时候还得将系统运行情况用计算机模拟出来,因此编程和熟悉数学软件包能力便举足轻重. 第五、模型分析 对模型解答进行数学上的分析."横看成岭侧成峰,远近高低各不?quot;,能否对模型结果作出细致精当的分析,决定了你的模型能否达到更高的档次.还要记住,不论那种情况都需进行误差分析,数据稳定性分析. 数学建模采用的主要方法有: (一)、机理分析法:根据对客观事物特性的认识从基本物理定律以及系统的结构数据来推导出模 型. 1、比例分析法:建立变量之间函数关系的最基本最常用的方法. 2、代数方法:求解离散问题(离散的数据、符号、图形)的主要方法. 3、逻辑方法:是数学理论研究的重要方法,对社会学和经济学等领域的实际问题,在决策,对策等学科中得到广泛应用. 4、常微分方程:解决两个变量之间的变化规律,关键是建立“瞬时变化率”的表达式. 5、偏微分方程:解决因变量与两个以上自变量之间的变化规律. (二)、数据分析法:通过对量测数据的统计分析,找出与数据拟合最好的模型 1、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式,由于处理的是静态的独立数据,故称为数理统计方法. 2、时序分析法:处理的是动态的相关数据,又称为过程统计方法. 3、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式,由于处理的是静态的独立数据,故称为数理统计方法.

数学建模-数据的统计分析

数学建模与数学实验 课程设计 学院数理学院专业数学与应用数学班级学号 学生姓名指导教师 2015年6月

数据的统计分析 摘要 问题:某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 (1)计算均值、标准差、极差、偏度、峰度,画出直方图;(2)检验分布的正态性; (3)若检验符合正态分布,估计正态分布的参数并检验参数; 模型:正态分布。 方法:运用数据统计知识结合MATLAB软件 结果:符合正态分布

一. 问题重述 某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 (1)计算均值、标准差、偏差、峰度,画出直方图; (2)检验分布的正态性; (3)若检验符合正态分布,估计正态分布的参数并检验参数。 二.模型假设 假设一:此组成绩没受外来因素影响。 假设二:每个学生都是独自完成考试的。 假设三:每个学生的先天条件相同。 三.分析与建立模型 像类似数据的信息量比较大,可以用MATLAB 软件决绝相关问题,将n 名学生分为x 组,每组各n\x 个学生,分别将其命为1x ,2X ……j x 由MATLAB 对随机统计量x 进行命令。此时对于直方图的命令应为 Hist(x,j) 源程序为: x1=[93 75 83 93 91 85 84 82 77 76 ] x2=[77 95 94 89 91 88 86 83 96 81 ] x3=[79 97 78 75 67 69 68 84 83 81 ]

数学建模结果分析

结果分析 综上所述,由模型求解可知,在满足模型条件的假设(4)的条件下,当所给阳性的先验概率0.3066p ≥时,在不分组的条件下每个人一次一次的检验可以使总次数最少;当所给0.29290.3066p ≤<时,进行一次检验比分两次组和不分组均可使总次数最少;当00.2929p <<时,分两次组总次数比分一次组总次数要少。 当p 固定时,为了是人群中总的检验次数最小,就需要确定每组中的人数k 。根据固定值p 的大小分类讨论: 当0.3066p ≥时,此时不需要分组,即1k =时可使检验次数最小; 当0.3066p <时,此时需要分组,要使人群总的检验次数最小,只需要使每个人的检验次数的期望值E ξ最小,通过引入与11k E q k ξ=-+ 变化趋势相同的连续性函数 )2(,11)(≥+-=x x q x f x ,对于一个给定的p ,可以求出函数(x)f 的极值,又由分析知'(x)f 是增函数,所以求出(x)f 的极值就是(x)f 的最小值的取值m x ,故取与m x 最相近的两个值(上取整和下取整),代入ξE ,然后比较两个函数值,找出较小的一个,以此类推,可以确定,每一个给定的p 要使人群中总的检验次数最小所对应的人数k 。 在0.3066p <中,当0.29290.3066p ≤<时,进行一次分组检验比进行两次分组检验和不分组检验可使检验次数最少;当00.2929p <<时,分两组比分一组总的检验次数少。 模型检验

当然这都是在假设(4)的前提下做出的,现举一例具体说明上述假设的合理性:设0.002p =时,经过上述计算可得,当23k =时可使在一次分组的情况下平均每人检验次数最小,为满足假设(4),可以取24k =(此时平均每人检验次数仅比23k =时多510-次,故在检验100000人时总次数才多一次,故可忽略),然后取112k =或更小(如16k =),此时一定可以做到分两次组比分一次组平均每人检验次数小。当然此时还可以继续求满足条件的第二次分组平均每人检验次数的最小值。 由于题给条件是人群数量很大,基本是健康人,先验概率p 很小,所以4

数学建模题目及其答案(疾病诊断)

数学建模疾病的诊断 现要你给出疾病诊断的一种方法。 胃癌患者容易被误诊为萎缩性胃炎患者或非胃病者。从胃癌患者中抽 取5人(编号为1-5),从萎缩性胃炎患者中抽取5人(编号为6-10),以及非胃病者 中抽取5人(编号为11-15),每人化验4项生化指标:血清铜蓝蛋白( X)、 1 蓝色反应( X)、尿吲哚乙酸(3X)、中性硫化物(4X)、测得数据如表1 2 所示: 表1. 从人体中化验出的生化指标 根据数据,试给出鉴别胃病的方法。

论文题目:胃病的诊断 摘要 在临床医学中,诊断试验是一种诊断疾病的重要方法。好的诊断试验方法将对临床诊断的正确性和疾病的治疗效果起重要影响。因此,对于不同疾病不断发现新的诊断试验方法是医学进步的重要标志。传统的诊断试验方法有生化检测、DNA检测和影像检测等方法。而本文则通过利用多元统计分析中的判别分析及SPSS软件的辅助较好地解决了临床医学中胃病鉴别的问题。在临床医学上,既提高了临床诊断的正确性,又对疾病的治疗效果起了重要效果,同时也减轻了病人的负担。 判别分析是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。 其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。 首先,由判别分析定义可知,只有当多个总体的特征具有显著的差异时,进行判别分析才有意义,且总体间差异越大,才会使误判率越小。因此在进行判别分析时,有必要对总体多元变量的均值进行是否不等的显著性检验。 其次,利用判别分析中的费歇判别和贝叶斯判别进行判别函数的建立。 最后,利用所建立的判别函数进行回判并测得其误判率,以及对其修正。 本文利用SPSS软件实现了对总体间给类变量的均值是否不等的显著性检验并根据样本建立了相应的费歇判别函数和贝叶斯判别函数,最后进行了回判并测得了误判率,从而获得了在临床诊断中模型,给临床上的诊断试验提供了新方法和新建议。 关键词:判别分析;判别函数;Fisher判别;Bayes判别 一问题的提出 在传统的胃病诊断中,胃癌患者容易被误诊为萎缩性胃炎患者或非胃病患者,为了提高医学上诊断的准确性,也为了减少因误诊而造成的病人死亡率,必须要找出一种最准确最有效的诊断方法。为诊断疾病,必须从人体中提取4项生化指标进行化验,即血

数学建模方法详解--三十四种常用算法

数学建模方法详解--三十四种常用算法 目录 一、主成分分析法 (2) 二、因子分析法 (5) 三、聚类分析 (9) 四、最小二乘法与多项式拟合 (16) 五、回归分析(略) (22) 六、概率分布方法(略) (22) 七、插值与拟合(略) (22) 八、方差分析法 (23) 九、逼近理想点排序法 (28) 十、动态加权法 (29) 十一、灰色关联分析法 (31) 十二、灰色预测法 (33) 十三、模糊综合评价 (35) 十四、隶属函数的刻画(略) (37) 十五、时间序列分析法 (38) 十六、蒙特卡罗(MC)仿真模型 (42) 十七、BP神经网络方法 (44) 十八、数据包络分析法(DEA) (51) 十九、多因素方差分析法()基于SPSS) (54) 二十、拉格朗日插值 (70) 二十一、回归分析(略) (75) 二十二、概率分布方法(略) (75) 二十三、插值与拟合(略) (75) 二十四、隶属函数的刻画(参考《数学建模及其方法应用》) (75) 二十五、0-1整数规划模型(参看书籍) (75) 二十六、Board评价法(略) (75) 二十七、纳什均衡(参看书籍) (75) 二十八、微分方程方法与差分方程方法(参看书籍) (75) 二十九、莱斯利离散人口模型(参看数据) (75) 三十、一次指数平滑预测法(主要是软件的使用) (75) 三十一、二次曲线回归方程(主要是软件的使用) (75) 三十二、成本-效用分析(略) (75) 三十三、逐步回归法(主要是软件的使用) (75) 三十四、双因子方差分析(略) (75)

一、主成分分析法 一)、主成分分析法介绍: 主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法。旨在利用降维的思想,把多指标转化为少数几个综合指标。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 二)、主成分分析法的基本思想: 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 三)、主成分分析法的数学模型: 其中:

数学建模方法归类(很全很有用)

在数学建模中常用的方法:类比法、二分法、量纲分析法、差分法、变分法、图论法、层次分析法、数据拟合法、回归分析法、数学规划(线性规划,非线性规划,整数规划,动态规划,目标规划)、机理分析、排队方法、对策方法、决策方法、模糊评判方法、时间序列方法、灰色理论方法、现代优化算法(禁忌搜索算法,模拟退火算法,遗传算法,神经网络)。 用这些方法可以解下列一些模型:优化模型、微分方程模型、统计模型、概率模型、图论模型、决策模型。拟合与插值方法(给出一批数据点,确定满足特定要求的曲线或者曲面,从而反映对象整体的变化趋势):matlab可以实现一元函数,包括多项式和非线性函数的拟合以及多元函数的拟合,即回归分析,从而确定函数;同时也可以用matlab实现分段线性、多项式、样条以及多维插值。 在优化方法中,决策变量、目标函数(尽量简单、光滑)、约束条件、求解方法是四个关键因素。其中包括无约束规则(用fminserch、fminbnd实现)线性规则(用linprog实现)非线性规则、(用fmincon实现)多目标规划(有目标加权、效用函数)动态规划(倒向和正向)整数规划。 回归分析:对具有相关关系的现象,根据其关系形态,选择一个合适的数学模型,用来近似地表示变量间的平均变化关系的一种统计方法(一元线性回归、多元线性回归、非线性回归),回归分析在一组数据的基础上研究这样几个问题:建立因变量与自变量之间的回归模型(经验公式);对回归模型的可信度进行检验;判断每个自变量对因变量的影响是否显著;判断回归模型是否适合这组数据;利用回归模型对进行预报或控制。相对应的有线性回归、多元二项式回归、非线性回归。 逐步回归分析:从一个自变量开始,视自变量作用的显著程度,从大到地依次逐个引入回归方程:当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉;引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步;对于每一步都要进行值检验,以确保每次引入新的显著性变量前回归方程中只包含对作用显著的变量;这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。(主要用SAS来实现,也可以用matlab软件来实现)。 聚类分析:所研究的样本或者变量之间存在程度不同的相似性,要求设法找出一些能够度量它们之间相似程度的统计量作为分类的依据,再利用这些量将样本或者变量进行分类。 系统聚类分析—将n个样本或者n个指标看成n类,一类包括一个样本或者指标,然后将性质最接近的两类合并成为一个新类,依此类推。最终可以按照需要来决定分多少类,每类有多少样本(指标)。 系统聚类方法步骤: 1.计算n个样本两两之间的距离 2.构成n个类,每类只包含一个样品 3.合并距离最近的两类为一个新类 4.计算新类与当前各类的距离(新类与当前类的距离等于当前类与组合类中包含的类的距离最小值), 若类的个数等于1,转5,否则转3 5.画聚类图 6.决定类的个数和类。 判别分析:在已知研究对象分成若干类型,并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。 距离判别法—首先根据已知分类的数据,分别计算各类的重心,计算新个体到每类的距离,确定最短的距离(欧氏距离、马氏距离) Fisher判别法—利用已知类别个体的指标构造判别式(同类差别较小、不同类差别较大),按照判别式的值判断新个体的类别 Bayes判别法—计算新给样品属于各总体的条件概率,比较概率的大小,然后将新样品判归为来自概率最大的总体 模糊数学:研究和处理模糊性现象的数学(概念与其对立面之间没有一条明确的分界线)与模糊数学相关的问题:模糊分类问题—已知若干个相互之间不分明的模糊概念,需要判断某个确定事物用哪一个模糊概念来反映更合理准确;模糊相似选择—按某种性质对一组事物或对象排序是一类常见的问题,但是用来比

数学建模数据分析题

承诺书 我们仔细阅读了中国矿业大学数学建模常规赛论文格式规范和2016年中国矿业大学数学建模常规赛通知。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或资料(包括网上资料),必须按照规定的参考文献的表述方式列出,并在正文引用处予以标注。在网上交流和下载他人的论文是严重违规违纪行为。 我们以中国矿业大学大学生名誉和诚信郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。 我们授权中国矿业大学数学建模协会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。 我们的参赛队号:25 参赛队员(打印并签名):1.易阳俊 2.令月霞 3.刘景瑞 日期: 2016年 10 月日 (请勿改动此页内容和格式。此承诺书打印签名后作为纸质论文的封面。以上内容请仔细核对,如填写错误,论文可能被取消评奖资格。)

编号专用页 评阅统一编号(数学建模协会填写):

题目:数据的分析问题 摘要 本文需要解决的问题是如何根据就诊人员体内7种元素含量来判别某人是否患有疾病G和确定哪些指标是影响人们患疾病G的主要因素。通过解读题目可知,此类问题为典型的分析判别问题。我们先对数据进行了预处理,剔除了有异常数据的样本,然后采用元素分布判别法、马氏距离判别法和Fisher判别法,应用Excel、SPSS和MATLAB等软件来对某人是否患病进行判别,并通过绘制7种元素含量的折线图等来确定患该疾病的主要因素,最后应用综合判别法对之前的结论进行了检验。 对于问题一,在对数据预处理之后,我们删除了序号为10这个高度异常数据样本,然后我们分别采用元素分布判别法、马氏距离判别法和Fisher判别法对49个已知病例进行判别。对于元素分布判别法,我们通过数据预处理知道7种元素含量分布均符合正态分布,然后我们确定了以均值为大致中心的元素正常含量范围,得出其判别准确度为96%;对于马氏距离判别法,通过编写MATLAB 程序(见附录)来进行判别,得出其判别准确度为90%;对于Fisher判别法,通过SPSS软件来进行判别,得到线性判别函数,其判别准确度为96%; 针对问题二:我们运用问题一中建立的三个判别模型对25名就诊人员(见附录)的化验结果进行检验,判别结果如下表1: 行对分析,我们初步判定元素4与元素5是影响人们患疾病G的主要因素,然后用方法一的三种判别方法进行检验,其准确度在85%以上; 对于问题四,我们根据问题三得出的主要因素,分别用三种判别方法对25名就诊人员进行判别,再与问题二的判别结果进行对比,可知它们判断结果之间的差异性最高为24%。 对于问题五,由于三种判别法都有不足,所以我们采用了综合判别法,将三种判别方法的结果进行综合判断,最终我们通过主要因素进行判别的差异性下降到了12%,与问题一的判断结果的一致性达到了88%。 关键词:马氏距离判别,Fisher判别,综合判别,MATLAB,SPSS

数学建模各种分析报告方法

现代统计学 1.因子分析(Factor Analysis) 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。 运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。 2.主成分分析 主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 主成分分析和因子分析的区别 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。 和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这中区分不是绝对的。 总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,

相关主题
文本预览
相关文档 最新文档