数学建模---数据统计与分析
- 格式:ppt
- 大小:2.00 MB
- 文档页数:48
数学建模方法与分析
数学建模是利用数学方法解决实际问题的过程。
数学建模的一般步骤包括问题定义、建立数学模型、模型求解和结果分析等阶段。
数学建模方法可以分为多种,常见的方法包括:
1. 数据分析:通过统计分析和数据挖掘等方法,对问题中的数据进行处理和分析,找出其中的规律和趋势。
2. 最优化方法:根据问题的要求,建立相应的数学规划模型,通过求解最优化问题,得到最优解。
3. 随机模型:将问题建立为随机过程或概率模型,通过概率统计的方法进行分析和求解。
4. 系统动力学模型:将问题建立为动态系统模型,通过系统动力学的方法分析系统的行为和演化规律。
5. 图论和网络分析:将问题建立为图模型或网络模型,通过图论和网络分析的方法研究其结构和性质。
6. 分数阶模型:将问题建立为分数阶微分方程或分数阶差分方程,通过分数阶
微积分的方法进行分析和求解。
数学建模的分析阶段是对模型求解结果进行解释和评估。
分析结果可以包括对模型的可行性和有效性进行验证,对模型的优化方向进行探讨,以及对问题的解释和解决方案的提出等。
总的来说,数学建模方法与分析是数学建模过程中重要的环节,通过合理选择建模方法和深入分析模型结果,可以得到对实际问题有价值的解决方案。
现代统计学1.因子分析(Factor Analysis)因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息.运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。
2.主成分分析主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的.主成分分析一般很少单独使用:a,了解数据。
(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。
(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。
主成分分析和因子分析的区别1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。
2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。
因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific fact or)之间也不相关,共同因子和特殊因子之间也不相关.4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。
5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。
数学建模问题类型
数学建模问题可以根据问题的性质和要求进行分类。
主要的数学建模问题类型有以下几种:
1.优化问题:通过最大化或最小化目标函数的值来求解最优解,包括线性规划、整数规划、非线性规划等问题。
2.约束条件的问题:通过一系列条件对未知数进行约束,包括
线性约束、非线性约束、等式约束、不等式约束等问题。
3.统计分析问题:通过数据分析和统计模型来研究和预测现象,包括回归分析、假设检验、时间序列分析等问题。
4.图论问题:通过图模型来描述和解决问题,包括最短路径问题、最小生成树问题、网络流问题等问题。
5.动态规划问题:通过将问题分解为多个子问题,并将解决子
问题的结果利用于求解整体问题,包括背包问题、最长公共子序列问题等问题。
6.随机过程问题:通过概率模型来描述和分析随机事件的发展
过程,包括马尔可夫链、排队论、蒙特卡罗方法等问题。
以上仅是数学建模问题的一部分类型,实际问题可能需要结合多种方法和技巧进行求解。
数学建模问题的关键在于将实际问题抽象为数学模型,并通过数学方法对模型进行求解。
数学建模方法分类数据分析法:通过对量测数据的统计分析,找出与数据拟合最好的模型1、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,,n,确定函数的表达式,由于处理的是静态的独立数据,故称为数理统计方法。
2、时序分析法:处理的是动态的相关数据,又称为过程统计方法。
3、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,,n,确定函数的表达式,由于处理的是静态的独立数据,故称为数理统计方法。
4、时序分析法:处理的是动态的相关数据,又称为过程统计方法。
2数学建模方法一层次分析法比较合适于具有分层交错评价指标的目标系统,而且目标值又难于定量描述的决策问题。
其用法是构造推断矩阵,求出其最大特征值。
及其所对应的特征向量W,归一化后,即为某一层次指标关于上一层次某相关指标的相对重要性权值。
层次分析法是将决策问题按总目标、各层子目标、评价准则直至具体的备投方案的顺序分解为不同的层次结构,然后得用求解推断矩阵特征向量的办法,求得每一层次的各元素对上一层次某元素的优先权重,最后再加权和的方法递归并各备择方案对总目标的最终权重,此最终权重最大者即为最优方案。
3数学建模方法二回归分析:对具有相关关系的现象,依据其关系形态,选择一个合适的数学模型,用来近似地表示变量间的平均变化关系的一种统计方法(一元线性回归、多元线性回归、非线性回归),回归分析在一组数据的基础上研究这样几个问题:建立因变量与自变量之间的回归模型(经验公式);对回归模型的可信度进行检验;推断每个自变量对因变量的影响是否显著;推断回归模型是否合适这组数据;利用回归模型对进行预报或控制。
相对应的有线性回归、多元二项式回归、非线性回归。
逐步回归分析:从一个自变量开始,视自变量作用的显著程度,从大到地依次逐个引入回归方程:当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉;引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步;关于每一步都要进行值检验,以保证每次引入新的显著性变量前回归方程中只包涵对作用显著的变量;这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。
数学建模各种分析方法数学建模是指将实际问题转化为数学问题,然后利用数学方法求解的过程。
在数学建模中,有各种各样的分析方法可以辅助研究人员进行问题分析和求解。
下面将介绍一些常用的数学建模分析方法。
1.计算方法:计算方法是数学建模中最基础也是最常用的方法之一、它可以包括求解方程组、数值积分、数值微分、插值与拟合、数值优化等。
通过这些计算方法,可以将实际问题转化为数学模型,然后利用计算机进行数值计算和模拟实验。
2.统计分析方法:统计分析在数学建模中也起着非常重要的作用。
它可以用来分析数据、建立概率模型、进行参数估计和假设检验等。
统计分析可以帮助研究人员从大量数据中提取有用的信息,深入分析问题的特征和规律,为问题解决提供参考。
3.线性规划模型:线性规划是一种优化模型,常用于解决资源分配、生产计划、物流运输等问题。
线性规划模型的目标是最大化或最小化一些线性函数,同时满足一系列线性等式或不等式约束。
通过线性规划模型,可以确定最优决策和最优解。
4.非线性规划模型:非线性规划是一种更一般的优化模型,用于解决非线性约束条件下的最优化问题。
非线性规划模型常用于经济管理、工程设计、生物医学等领域。
非线性规划模型的求解较复杂,需要借助数值计算和优化算法。
5.动态规划模型:动态规划是一种用来解决决策问题的数学方法,其特点是将问题分解为多个阶段,并利用最优子结构的性质进行递推求解。
动态规划模型常用于决策路径规划、资源调度、序列比对等问题。
它优化了逐步贪心法的局部最优解,能够得到全局最优解。
6.图论模型:图论是一种数学工具,用于研究图或网络结构及其属性。
图论模型在数学建模中可以用来分析网络拓扑、路径优化、最短路径、最小生成树等问题。
图论模型的特点是简洁明了,适用于复杂问题的分析和求解。
7.随机过程模型:随机过程是一种描述随机变量随时间变化的数学模型,常用于建立概率模型和分析具有随机性的系统。
随机过程模型常用于金融风险评估、天气预测、信号处理、优化设计等问题。
数学建模中的统计分析工具1. 比较——方差分析比较不同总体间均值有无显著差异.方差分析是处理试验数据的一种常用统计方法,其基本思想是:把指标数据的总变差(总离差平方和),分解为由所考察因素引起的变差(因素变差或组间离差平方和)和随机因素引起的变差(随机变差或组内离差平方和),然后通过比较这些变差来推断因素对指标影响是否显著.因为判定因素对指标影响是否显著时,是从指标的总变差入手,将之分解为由各因素引起的变差和随机波动引起的变差,所以称此类分析为方差分析.在方差分析中,影响指标的因素称为因子,因子的取值称为水平. 例如,考察学生性别对学习成绩的影响时,学习成绩是所考察的指标,性别是影响指标的因子,而性别的取值“男”和“女”是性别因子的水平.实质上,此处是要比较男生和女生学习成绩有无显著差异,属两组比较问题,是方差分析的特殊情况,一般的方差分析研究的是多组比较问题.试验中如果只考虑一个因子对指标的影响,这种试验称为单因子试验,相应的方差分析称为单因子方差分析.若试验中同时考虑两个因子,则称相应的试验为两因子试验,所做的方差分析称为两因子方差分析.类似地可以定义三因子、多因子试验和方差分析.① 为研究新药的降糖效果,某医院用40名病人同期随机对照实验。
实验者将病人随机等分成实验组和对照组,分别测得实验开始前和8周后空腹血糖,算得空腹血糖下降值的均数,见下表,能否认为新药对空腹血糖的降糖效果显著?(检验水平0.05α=)实验组1X -0.7 -5.6 2.0 2.8 0.7 3.5 4.0 5.8 7.1 -0.5 20人2.5 -1.6 1.73.0 0.44.5 4.6 2.5 6.0 -1.4 对照组2X3.7 6.5 5.0 5.2 0.8 0.2 0.6 3.4 6.6 -1.1 20人 6.0 3.8 2.0 1.6 2.0 2.2 1.2 3.1 1.7 -2.0② 某养鸡场为提高经济效益,研制了三种鸡饲料配方.为比较三种饲料在养鸡增肥上的效果,分别用每种饲料喂养10只小鸡,60天后测量鸡重.请通过试验数据分析,三种饲料在养鸡增肥效果上有无显著差异(检验水平皆取0.05α=)?2.相关与回归分析在生产实践中,人们关心的某项重要指标往往受一个或多个变量的影响,此时令人关注的是变量与指标之间的关系.线性回归分析研究的是一维因变量(也称响应变量)Y与回归变量(也称解释变量或自变量)之间的线性相关关系,其中回归变量是可观测或可控制的①为确定运动员耗氧量与其他因素的关系,对31个人测量了年龄age、体重weight、跑完1.5公里的时间runtime、静态心率rstpulse、跑动时心率runpulse、跑步时最大Maxpulse、每公斤体重每分钟耗氧量oxy,数据见\Sas_Ex\oxy.txt,试以oxy为因变量作回归分析。
大数据分析师行业的统计学和数学建模大数据分析师是当今信息时代中重要的职业之一。
随着互联网的迅速发展,各行各业都产生了大量的数据,而如何挖掘、分析和应用这些数据成为了一项关键的技能。
在大数据分析师行业中,统计学和数学建模是不可或缺的工具和技术。
一、统计学在大数据分析师行业中的应用统计学是大数据分析的基础,通过对数据的收集、整理和分析,统计学可以帮助大数据分析师发现数据背后的规律和趋势,做出科学的决策和预测。
1. 数据收集与整理统计学提供了一套科学的方法和技术,用于数据的收集和整理。
大数据来源广泛,可能包含结构化数据和非结构化数据,通过统计学的方法,可以将这些数据进行分类、整理和过滤,为后续的分析工作提供准备。
2. 数据分析与解释统计学中的各类分析方法,如假设检验、方差分析、回归分析等,可以帮助大数据分析师对数据进行分析和解释。
通过统计模型的建立,可以揭示数据之间的关系,并得出有效的结论。
3. 数据可视化与展示统计学包含了大量的图表和图形,可以将数据进行可视化展示。
通过图表的分析,人们可以直观地了解数据的分布情况、趋势变化等,从而更好地理解数据的含义。
大数据分析师可以利用统计学的可视化方法,将复杂的数据转化为易于理解和传播的信息。
二、数学建模在大数据分析师行业中的应用数学建模是将现实问题抽象为数学模型的过程,它能够帮助大数据分析师建立准确的预测模型和优化模型,为企业决策提供科学的依据。
1. 预测模型的建立大数据分析师可以利用数学建模中的时间序列分析、回归分析等方法,建立各类预测模型。
通过对历史数据的分析和挖掘,预测模型可以对未来的数据进行预测,帮助企业做出合理的决策。
2. 优化模型的建立在大数据分析师的工作中,经常需要面对一些优化问题,如资源分配问题、生产规划问题等。
数学建模可以帮助大数据分析师将这些问题抽象为数学模型,并利用线性规划、整数规划、动态规划等方法,求解最优解,实现资源的最大利用和效益的最大化。
(2020·广东六校第一次联考)某机构组织语文、数学学科能力竞赛,按照一定比例淘汰后,颁发一、二、三等奖(分别对应成绩等级的一、二、三等级).现有某考场所有考生的两科成绩等级统计如图1所示,其中获数学二等奖的考生有12人.图1(1)求该考场考生中获语文一等奖的人数;(2)用随机抽样的方法从获得数学和语文二等奖的考生中各抽取5人,进行综合素质测试,将他们的综合得分绘成茎叶图(如图2所示),求样本的平均数及方差并进行比较分析;图2(3)已知本考场的所有考生中,恰有3人两科均获一等奖,在至少一科获一等奖的考生中,随机抽取2人进行访谈,求这2人两科均获一等奖的概率.【解】 (1)因为获数学二等奖的考生有12人, 所以该考场考生的总人数为121-0.40-0.26-0.10=50.故该考场获语文一等奖的考生人数为50×(1-0.38×2-0.16)=4.(2)设获数学二等奖考生综合得分的平均数和方差分别为x -1,s 21,获语文二等奖考生综合得分的平均数和方差分别为x -2,s 22.x -1=81+84+92+90+935=88,x -2=79+89+84+86+875=85,s 21=15×[(-7)2+(-4)2+42+22+52]=22, s 22=15×[(-6)2+42+(-1)2+12+22]=11.6,因为88>85,11.6<22,所以获数学二等奖考生较获语文二等奖考生综合素质测试的平均分高,但是成绩差距较大.(3)两科均获一等奖的考生共有3人,则仅数学获一等奖的考生有2人,仅语文获一等奖的考生有1人,把两科均获一等奖的3人分别记为A 1,A 2,A 3,仅数学获一等奖的2人分别记为B 1,B 2,仅语文获一等奖的1人记为C ,则在至少一科获一等奖的考生中,随机抽取2人的基本事件有A 1A 2,A 1A 3,A 1B 1,A 1B 2,A 1C ,A 2A 3,A 2B 1,A 2B 2,A 2C ,A 3B 1,A 3B 2,A 3C ,B 1B 2,B 1C ,B 2C ,共15个.记“这2人两科均获一等奖”为事件M ,则事件M 包含的基本事件有A 1A 2,A 1A 3,A 2A 3,共3个, 所以P (M )=315=15,故这2人两科均获一等奖的概率为15.统计与概率“搭台”,方案选择“唱戏”破解此类频率分布直方图、分层抽样与概率相交汇的开放性问题的关键:一是会观图读数据,能从频率分布直方图中读出频率,进而求出频数;二是能根据分层抽样的抽样比或各层之间的比例,求出分层抽样中各层需取的个数;三是会转化,会对开放性问题进行转化.某校学生参与一项社会实践活动,受生产厂家委托采取随机抽样方法,调查我市市民对某新开发品牌洗发水的满意度,同学们模仿电视问政的打分制,由被调查者在0分到100分的整数分中给出自己的认可分数,现将收集到的100位市民的认可分数分为6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],绘制出如图所示的频率分布直方图.(1)求这100位市民认可分数的中位数(精确到0.1),平均数(同一组中的数据用该组区间的中点值作代表);(2)生产厂家根据同学们收集到的数据,拟随机在认可分数为80及其以上的市民中选出2位市民当产品宣传员,求这2位宣传员都来自认可分数为[90,100]的概率.解:(1)由于[40,50),[50,60),[60,70)的频率分别有0.1,0.2,0.3.故中位数位于[60,70)中,其值为60+10×23≈66.7.平均数为10×(45×0.01+55×0.02+65×0.03+75×0.025+85×0.01+95×0.005)=67.(2)认可分数位于[80,90)的人数为10,认可分数位于[90,100]的人数为5,从认可分数位于[90,100]的5人中随机选择2人的基本事件数为1+2+3+4=10,从认可分数位于[80,90)和[90,100]的15人中随机选择2人的基本事件数为1+2+3+…+14=105.故这2位宣传员都来自认可分数为[90,100]的概率为10105=2 21.图表与独立性检验相交汇(师生共研)某种常见疾病可分为Ⅰ,Ⅱ两种类型.为了了解所患该疾病类型与地域、初次患该疾病的年龄(单位:岁)(以下简称初次患病年龄)的关系,在甲、乙两个地区随机抽取100名患者调查其所患疾病类型及初次患病年龄,得到如下数据.初次患病年龄甲地Ⅰ型疾病患者/人甲地Ⅱ型疾病患者/人乙地Ⅰ型疾病患者/人乙地Ⅱ型疾病患者/人[10,20)815 1[20,30)433 1[30,40)352 4[40,50)384 4[50,60)392 6[60,70]21117(2)记“初次患病年龄在[10,40)内的患者”为“低龄患者”,“初次患病年龄在[40,70]内的患者”为“高龄患者”.根据表中数据,解决以下问题.①将以下两个列联表补充完整,并判断“地域”“初次患病年龄”这两个变量中哪个变量与所患疾病的类型有关联的可能性更大.(直接写出结论,不必说明理由)表一疾病类型患者所在地域Ⅰ型Ⅱ型总计甲地乙地总计100.问:是否有99.9%的把握认为所患疾病的类型与X有关?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.【解】(1)依题意,甲、乙两地区Ⅰ型疾病患者共40人,甲、乙两地区Ⅰ型疾病患者初次患病年龄小于40岁的人数分别为15,10,则从Ⅰ型疾病患者中随机抽取1人,其初次患病年龄小于40岁的概率的估计值为15+1040=58.(2)①填空结果如下.表一低龄 25 15 40 高龄 15 45 60 总计4060100“初次患病年龄”与所患疾病的类型有关联的可能性更大.②由①可知X 为初次患病年龄,根据表二中的数据可得a =25,b =15,c =15,d =45,n =100,则K 2=100×(25×45-15×15)240×60×40×60≈14.063,因为14.063>10.828,故有99.9%的把握认为所患疾病类型与初次患病年龄有关.本题的易错点有三处:一是审题不认真,误认为甲、乙两地区Ⅰ型疾病患者的总数为100,错误列式15+10100=0.25;二是不能从频数分布表中获取相关数据,无法正确填写列联表,不能根据列联表中数据的含义做出正确判断;三是代错公式或计算错误,从而导致统计判断出错.(2021·福州市适应性考试)世界互联网大会是由中华人民共和国倡导并每年在浙江省嘉兴市桐乡乌镇举办的世界性互联网盛会,大会旨在搭建中国与世界互联互通的国际平台和国际互联网共享共治的中国平台,让各国在争议中求共识、在共识中谋合作、在合作中创共赢.2020年11月23日至24日,第七届世界互联网大会如期举行,为了大会顺利召开,组委会特招募了1 000名志愿者.某部门为了了解志愿者的基本情况,调查了其中100名志愿者的年龄(单位:岁),得到了他们年龄的中位数为34,年龄在[40,45)内的人数为15,并根据调查结果画出如图所示的频率分布直方图.(1)求m,n的值并估算出志愿者的平均年龄(同一组的数据用该组区间的中点值代表);(2)这次大会志愿者主要通过现场报名和登录大会官网报名,即现场和网络两种方式报名参加.这100名志愿者的报名方式部分数据如下表所示,完善下面的表格,通过计算说明能否在犯错误的概率不超过0.001的前提下,认为“选择哪种报名方式与性别有关系”?男性女性总计现场报名50网络报名31总计50参考公式及数据:K2=2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.P(K2≥k0)0.050.010.0050.001k0 3.841 6.6357.87910.828解:(1)因为志愿者年龄在[40,45)内的人数为15,所以志愿者年龄在[40,45)内的频率为15100=0.15.由频率分布直方图得,(0.020+2m+4n+0.010)×5+0.15=1,即m+2n=0.07,①由中位数为34可得,0.020×5+2m×5+2n×(34-30)=0.5,即5m+4n=0.2,②由①②解得m=0.020,n=0.025.所以志愿者的平均年龄为(22.5×0.020+27.5×0.040+32.5×0.050+37.5×0.050+42.5×0.030+47.5×0.010)×5=34(岁).(2)根据题意得到列联表,男性女性总计现场报名193150网络报名311950总计5050100所以K2=100×(19×19-31×31)250×50×50×50=2×[(19+31)×(19-31)]250×50×50=5.76<10.828,所以不能在犯错误的概率不超过0.001的前提下,认为“选择哪种报名方式与性别有关系”.图表与线性回归分析相交汇(师生共研)如图是某部门公布的一年内道路交通事故成因分析,由图可知,超速驾驶已经成为交通事故的一个主要因素.研究表明,急刹车时的停车距离等于反应距离与制动距离的和,下表是根据某部门的调查结果整理所得的数据(v表示行车速度,单位:km/h;d1,d2分别表示反应距离和制动距离,单位m).v6472808997105113121128135 d113.415.216.718.620.121.923.525.326.828.5好有1起属于超速驾驶的概率(用频率代替概率);(2)已知d 2与v 的平方成正比,且当行车速度为100 km/h 时,制动距离为65 m.①由表中数据可知,d 1与v 之间具有线性相关关系请建立d 1与v 之间的回归方程,并估计车速为110 km/h 时的停车距离;②我国《道路交通安全法》规定:车速超过100 km/h 时,应该与同车道前车保持100 m 以上的距离,请解释一下上述规定的合理性.参考数据:∑10i =1v i =1 004,∑10i =1(d 1)i =210,∑10i =1v i (d 1)i =22 187.3,∑10i =1v 2i =106 054,11 03352 524≈0.21. 参考公式:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y =bx +a 的斜率和截距的最小二乘估计分别为:b =∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a =y--b x -.【解】 (1)由题意可知,从一年内发生的交通事故中随机抽出一起事故,则该起事故是恰好是超速驾驶的概率为0.2,设“恰好有一起事故属于超速驾驶”为事件A ,则P (A )=3×15×⎝ ⎛⎭⎪⎫1-152=48125.(2)由题意,设d 2=k ·v 2,当行车速度为100 km/h 时,制动距离为65 m. 所以k =0.006 5,即d 2=0.006 5v 2, ①设d 1=b v +a ,因为b =∑i =1n (x i -x ) (y i -y ) ∑i =1n(x i -x )2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,所以b=∑i =110v i(d1)i-10v-d-1∑i=110v2i-10v-2=22 187.3-10×100.4×21106 054-10×100.42=1 103.35 252.4≈0.21,故d1=0.21v+a*,把(100.4,21)代入*式,解得a=-0.084,所以d1与v i之间的回归方程为d1=0.21v-0.084.设停车距离为d,则d=d1+d2,则d=0.006 5v2+0.21 v-0.084,当v=110 km/h时,d=101.666,即车速为110 km/h时的停车距离为101.666 m.②易知当车速为100 km/h时,停车距离为85.916 m,该距离小于100 m,又因为当车速为110 km/h时的停车距离为101.666 m,该距离大于100 m,由以上两个数据可知,当车速超过100 km/h时,必须与同车道前车保持100 m以上的距离才能保证行驶安全.破解此类分层抽样、概率、线性回归相交汇的开放性问题的关键:一是会制图,即会根据频数分布表,把两组数据填入茎叶图中;二是会对开放性问题进行转化;三是熟练掌握求线性回归方程的步骤,求出a^,b^,即可写出线性回归方程.一个工厂在某年里连续10个月每月产品的总成本y(万元)与该月产量x(万件)之间有如下一组数据,x 1.08 1.12 1.19 1.28 1.36 1.48 1.59 1.68 1.80 1.87 y 2.25 2.37 2.40 2.55 2.64 2.75 2.92 3.03 3.14 3.26加以说明;(2)①建立月总成本y 与月产量x 之间的线性回归方程;②通过建立的y 关于x 的回归方程,估计某月产量为1.98万件时,产品的总成本为多少万元?(均精确到0.001)附注:①参考数据:∑10i =1x i =14.45,∑10i =1y i =27.31,∑10i =1x 2i -10x -2≈0.850, ∑10i =1y 2i -10y -2≈1.042,b^≈1.223.②参考公式:相关系数r =∑ni =1x i y i -n x - y-(∑ni =1x 2i -n x -2)(∑ni =1y 2i -n y -2),回归直线y ^=a ^+b ^x 中斜率和截距的最小二乘估计公式分别为b ^=∑ni =1x i y i -n x - y-∑ni =1x 2i -n x-2,a ^=y --b ^x .解:(1)由已知条件得,r =b^·∑10i =1x 2i -10x-2∑10i =1y 2i -10y-2,所以r =1.223×0.8501.042≈0.998, 这说明y 与x 正相关,且相关性很强. (2)①由已知求得x -=1.445,y -=2.731, a ^=y --b ^x -=2.731-1.223×1.445≈0.964, 所以所求回归直线方程为y ^=1.223x +0.964.②当x =1.98时,y =1.223×1.98+0.964≈3.386(万元), 此时产品的总成本约为3.386万元.[A 级 基础练]1.(2020·高考全国卷Ⅰ)某厂接受了一项加工业务,加工出来的产品(单位:件)按标准分为A,B,C,D四个等级.加工业务约定:对于A级品、B级品、C级品,厂家每件分别收取加工费90元,50元,20元;对于D级品,厂家每件要赔偿原料损失费50元.该厂有甲、乙两个分厂可承接加工业务.甲分厂加工成本费为25元/件,乙分厂加工成本费为20元/件.厂家为决定由哪个分厂承接加工业务,在两个分厂各试加工了100件这种产品,并统计了这些产品的等级,整理如下,甲分厂产品等级的频数分布表(1)(2)分别求甲、乙两分厂加工出来的100件产品的平均利润,以平均利润为依据,厂家应选哪个分厂承接加工业务?解:(1)由试加工产品等级的频数分布表知,甲分厂加工出来的一件产品为A级品的概率的估计值为40=0.4;100=0.28.乙分厂加工出来的一件产品为A级品的概率的估计值为28100(2)由数据知甲分厂加工出来的100件产品利润的频数分布表为65×40+25×20-5×20-75×20=15.100由数据知乙分厂加工出来的100件产品利润的频数分布表为70×28+30×17+0×34-70×21100=10.比较甲、乙两分厂加工的产品的平均利润,应选甲分厂承接加工业务. 2.(2021·福州市质量检测)垃圾分一分,城市美十分;垃圾分类,人人有责.某市为进一步推进生活垃圾分类工作,调动全民参与的积极性,举办了“垃圾分类游戏挑战赛”.据统计,在为期2个月的活动中,共有640万人参与.为鼓励市民积极参与活动,市文明办随机抽取200名参与该活动的网友,以他们单次游戏得分作为样本进行分析,由此得到如下频数分布表,中的数据用该组区间的中点值作代表,其中标准差的计算结果要求精确到0.01);(2)若要从单次游戏得分在[30,40),[60,70),[80,90]的三组参与者中,用分层抽样的方法选取7人进行电话回访,再从这7人中任选2人赠送话费,求此2人单次游戏得分不在同一组内的概率.附:185≈13.60,370≈19.24.解:(1)参与该活动的网友单次游戏得分的平均值x -=1200×(35×10+45×40+55×60+65×40+75×30+85×20)=60. 标准差s =252×10+152×40+52×60+52×40+152×30+252×20200=185≈13.60.(2)用分层抽样抽取7人,其中得分在[30,40)的有1人,得分在[60,70)的有4人,得分在[80,90]的有2人.分别记为a ,b 1,b 2,b 3,b 4,c 1,c 2,7人中任选2人,有21种结果,分别是(a ,b 1),(a ,b 2),(a ,b 3),(a ,b 4),(a ,c 1),(a ,c 2),(b 1,b 2),(b 1,b 3),(b 1,b 4),(b 1,c 1),(b 1,c 2),(b 2,b 3),(b 2,b 4),(b 2,c 1),(b 2,c 2),(b 3,b 4),(b 3,c 1),(b 3,c 2),(b 4,c 1),(b 4,c 2),(c 1,c 2).其中2人得分在同一组的有7种,分别是{b 1,b 2},{b 1,b 3},{b 1,b 4},{b 2,b 3},{b 2,b 4},{b 3,b 4},{c 1,c 2},故2人得分不在同一组内的概率P =1-721=23.3.最近青少年的视力健康问题引起家长们的高度重视,某地区为了解当地24所小学,24所初中和12所高中的学生的视力状况,准备采用分层抽样的方法从这些学校中随机抽取5所学校对学生进行视力调查.(1)若从所抽取的5所学校中再随机抽取3所学校进行问卷调查,求抽到的这3所学校中,小学、初中、高中分别有一所的概率;(2)若某小学被抽中,调查得到了该小学前五个年级近视率y 的数据如下表,并根据方程预测六年级学生的近视率.附:回归直线y ^=b ^x +a ^的斜率和截距的最小二乘法估计公式分别为b ^=∑ni =1x i y i -n x - y -∑ni =1x 2i -n x-2,a ^=y --b ^x -. 参考数据:∑5i =1x i y i =2.76,∑5i =1x 2i =55.解:(1)由24∶24∶12=2∶2∶1,得抽取的5所学校中有2所小学、2所初中、1所高中,分别设为a 1,a 2,b 1,b 2,c ,从这5所学校中随机抽取3所学校的所有基本事件为(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 2,c ),(a 1,b 1,b 2),(a 1,b 1,c ),(a 1,b 2,c ),(a 2,b 1,b 2),(a 2,b 1,c ),(a 2,b 2,c ),(b 1,b 2,c ),共10种,设事件A 表示“抽到的这3所学校中,小学、初中、高中分别有一所”,则事件A 包含的基本事件为(a 1,b 1,c ),(a 1,b 2,c ),(a 2,b 1,c ),(a 2,b 2,c ),共4种,故P (A )=410=25.(2)由题中表格数据得x -=3,y -=0.15,5x - y -=2.25,5x -2=45,且由参考数据:∑5i =1x i y i =2.76,∑5i =1x 2i =55,得b ^=2.76-2.2555-45=0.051,a^=0.15-0.051×3=-0.003, 得线性回归方程为y ^=0.051x -0.003.当x =6时,代入得y ^=0.051×6-0.003=0.303, 所以六年级学生的近视率在0.303左右.[B 级 综合练]4.某网络平台从购买该平台某课程的客户中,随机抽取了100位客户的数据,并将这100个数据按学时数、客户性别等进行统计,整理得到下表:组区间的中点值作代表,结果保留小数点后两位);(2)从这100位客户中,对购买该课程学时数在20以下的女性客户按照分层抽样的方式随机抽取7人,再从这7人中随机抽取2人,求这2人购买的学时数都不低于15的概率;(3)将购买该课程达到25学时及以上者视为“十分爱好该课程者”,25学时以下者视为“非十分爱好该课程者”,请根据已知条件完成以下2×2列联表,并判断是否有99.9%的把握认为“十分爱好该课程者”与性别有关?附:K2=(a+b)(c+d)(a+c)(b+a),其中n=a+b+c+d.解:(1)依题意,在这100位购买该课程的客户中,男性客户购买该课程学时数的平均值x-=160×(7.5×18+12.5×12+17.5×9+22.5×9+27.5×6+32.5×4+37.5×2)≈16.92.所以估计男性客户购买该课程学时数的平均值为16.92.(2)设“所抽取的2人购买的学时数都不低于15”为事件A,依题意按照分层抽样的方式分别从学时数为[5,10),[10,15),[15,20)的女性客户中抽取1人(设为a),2人(分别设为b1,b2),4人(分别设为c1,c2,c3,c4).则从这7人中随机抽取2人所包含的基本事件为ab1,ab2,ac1,ac2,ac3,ac4,b1b2,b1c1,b1c2,b1c3,b1c4,b2c1,b2c2,b2c3,b2c4,c1c2,c1c3,c1c4,c2c3,c2c4,c3c4,共21个,其中事件A所包含的基本事件为c1c2,c1c3,c1c4,c2c3,c2c4,c3c4,共6个.所以事件A发生的概率P(A)=621=2 7.(3)依题意得2×2列联表如下,女性 16 24 40 总计6436100K 2=100×(48×24-16×12)264×36×60×40≈16.667>10.828.故有99.9%的把握认为“十分爱好该课程者”与性别有关.5.某客户考察了一款热销的净水器,使用寿命为十年,该款净水器为三级过滤,每一级过滤都由核心部件滤芯来实现.在使用过程中,一级滤芯需要不定期更换,其中每更换3个一级滤芯就需要更换1个二级滤芯,三级滤芯无需更换.其中一级滤芯每个200元,二级滤芯每个400元.记一台净水器在使用期内需要更换的二级滤芯的个数构成的集合为M .如图是根据100台该款净水器在十年使用期内更换的一级滤芯的个数制成的柱状图.(1)结合柱状图,写出集合M ;(2)根据以上信息,求一台净水器在使用期内更换二级滤芯的费用大于1 200元的概率(以100台净水器更换二级滤芯的频率代替1台净水器更换二级滤芯发生的概率);(3)若在购买净水器的同时购买滤芯,则滤芯可享受5折优惠(使用过程中如需再购买无优惠).假设上述100台净水器在购机的同时,每台均购买a 个一级滤芯、b 个二级滤芯作为备用滤芯(其中b ∈M ,a +b =14),计算这100台净水器在使用期内购买滤芯所需总费用的平均数,并以此作为决策依据,如果客户购买净水器的同时购买备用滤芯的总数也为14,则其中一级滤芯和二级滤芯的个数应分别是多少?解:(1)由题意可知,当一级滤芯更换9,10,11个时,二级滤芯需要更换3个,当一级滤芯更换12个时,二级滤芯需要更换4个,所以M={3,4}.(2)由题意可知,二级滤芯更换3个,需1 200元,二级滤芯更换4个,需1 600元,在100台净水器中,二级滤芯需要更换3个的净水器共70台,二级滤芯需要更换4个的净水器共30台,设“一台净水器在使用期内更换二级滤芯的费用大于1 200元”为事件A,则P(A)=30=0.3.100(3)a+b=14,b∈M,①若a=10,b=4,则这100台净水器更换滤芯所需费用的平均数为100×10×30+(100×10+200)×40+(100×10+400)×30+200×4×100100=2 000.②若a=11,b=3,则这100台净水器更换滤芯所需费用的平均数为100×11×70+(100×11+200)×30+200×3×70+(200×3+400)×30100=1 880.所以如果客户购买净水器的同时购买备用滤芯的总数为14,客户应该购买一级滤芯11个,二级滤芯3个.6.互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中不可或缺的一部分,某市一调查机构针对该市市场占有率较高的甲、乙两家网络外卖企业(以下简称外卖甲、外卖乙)的经营情况进行了调查,调查结果如下表,(1)业的经营状况;(2)据统计表明,y 与x 之间具有线性关系.①请用相关系数r 对y 与x 之间的相关性强弱进行判断(若|r |>0.75,则可认为y 与x 有较强的线性相关关系(r 值精确到0.001));②经计算求得y 与x 之间的回归方程为y ^=1.382x -2.674,假定每单外卖业务,企业平均能获取纯利润3元,试预测当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润的大致范围(x 值精确到0.01).相关公式:r =∑ni =1 (x i -x -)(y i -y -)∑ni =1(x i -x -)2∑ni =1(y i -y -)2.参考数据:∑5i =1(x i -x -)(y i -y -)=66,∑5i =1(x i -x -)2∑5i =1(y i -y -)2≈77.解:(1)由题可知x -=5+2+9+8+115=7(百单),y -=2+3+10+5+155=7(百单).外卖甲的日接单量的方差s 2甲=10,外卖乙的日接单量的方差s 2乙=23.6, 因为x -=y -,s 2甲<s 2乙,即外卖甲平均日接单量与外卖乙相同,且外卖甲日接单量更集中一些,所以外卖甲比外卖乙经营状况更好.(2)①计算可得,相关系数r ≈6677≈0.857>0.75, 所以可认为y 与x 之间有较强的线性相关关系. ②令y ≥25,得1.382x -2.674≥25,解得x ≥20.02, 又20.02×100×3=6 006,所以当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润大约不低于6 006元.。
某某学院第五届大学生数学建模竞赛承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规如此.我们完全明白,在竞赛开始后参赛队员不能以任何方式〔包括、电子、网上咨询等〕与队外的任何人〔包括指导教师〕研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规如此的, 如果引用别人的成果或其他公开的资料〔包括网上查到的资料〕,必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们X重承诺,严格遵守竞赛规如此,以保证竞赛的公正、公平性。
如有违反竞赛规如此的行为,我们将受到严肃处理。
所属院系〔请填写完整的全名〕:能源工程学院我们参赛选择的题号是〔 C 〕参赛队员:日期:2013年5月18日一、问题重述C题:面试考核打分问题某市统计局在公开招考面试环节中,组成一个六人专家小组,对51名应试者进展了面试考核,各位专家对每位面试者进展了打分〔见附表〕,请你运用数学建模方法解决如下问题:〔1〕补齐表中缺失的数据,给出补缺的方法与理由,并给出录取顺序。
〔2〕六位专家中哪位专家打分比拟严格,哪位专家打分比拟宽松,并对六位专家的打分质量进展排序。
〔3〕作为人事部门主管,你认为哪些面试者应给予第二次面试的机会。
在今后的面试工作中,如何合理安排面试工作。
二、问题分析这个问题属于数类统计学随机性模型,可采用画图形、逻辑运算、数值运算等各种数学方法和计算机技术。
三、模型假设专家意外情况导致的数据缺失是一种完全随机缺失。
专家打分公平公正公开,不受任何人际关系影响并且在整个过程中保持一致用人单位对每一位专家打分的重视程度一样。
四、符号说明i x 〔i 为1、2、3〕表示专家所打分数的的平均数;1i x 给每位面试者的得分;i s 〔i 为1、2、3、4、5、6〕表示各位专家所打分数的方差;1∧θ=),,,(211n X X X g ,2∧θ=),,,(212n X X X g ,12ˆˆθθ和称为置信限;四、模型建立统计学的思想是对随机事件的现象进展统计分析,将随机性归纳于可能的规律性中。