(通用版)2020版高考数学复习专题六统计与概率6.1概率、统计基础题课件文
- 格式:pptx
- 大小:4.18 MB
- 文档页数:93
概率与统计知识点及专练(一)统计基础知识:1. 随机抽样:(1).简单随机抽样:设一个总体的个数为N ,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.常用抽签法和随机数表法.(2).系统抽样:当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样).(3).分层抽样:当已知总体由差异明显的几部分组成时,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样.2. 普通的众数、平均数、中位数及方差: (1).众数:一组数据中,出现次数最多的数(2).平均数:常规平均数:12nx x x x n ++⋅⋅⋅+=(3).中位数:从大到小或者从小到大排列,最中间或最中间两个数的平均数(4).方差:2222121[()()()]n s x x x x x x n =-+-+⋅⋅⋅+-(5).标准差:s3 .频率直方分布图中的频率:(1).频率 =小长方形面积:f S y d ==⨯距;频率=频数/总数; 频数=总数*频率(2).频率之和等于1:121n f f f ++⋅⋅⋅+=;即面积之和为1: 121n S S S ++⋅⋅⋅+=4. 频率直方分布图下的众数、平均数、中位数及方差: (1).众数:最高小矩形底边的中点(2).平均数:112233n n x x f x f x f x f =+++⋅⋅⋅+ 112233n n x x S x S x S x S =+++⋅⋅⋅+(3).中位数:从左到右或者从右到左累加,面积等于0.5时x 的值(4).方差:22221122()()()nn s x x f x x f x x f =-+-+⋅⋅⋅+-5.线性回归直线方程:(1).公式:ˆˆˆy bx a=+其中:1122211()()ˆ()n ni i i ii in ni ii ix x y y x y nxybx x x nx====---∑∑==--∑∑(展开)ˆˆa y bx=-(2).线性回归直线方程必过样本中心(,) x y(3).ˆ0:b>正相关;ˆ0:b<负相关(4).线性回归直线方程:ˆˆˆy bx a=+的斜率ˆb中,两个公式中分子、分母对应也相等;中间可以推导得到6. 回归分析:(1).残差:ˆˆi i ie y y=-(残差=真实值—预报值)分析:ˆie越小越好(2).残差平方和:2 1ˆ() ni iiy y =-∑分析:①意义:越小越好;②计算:222211221ˆˆˆˆ()()()() ni i n niy y y y y y y y =-=-+-+⋅⋅⋅+-∑(3).拟合度(相关指数):2 2121ˆ()1()ni iiniiy y Ry y==-∑=--∑分析:①.(]20,1R∈的常数;②.越大拟合度越高(4).相关系数:()()n ni i i ix x y y x y nx y r---⋅∑∑==分析:①.[1,1]r∈-的常数;②.0:r>正相关;0:r<负相关③.[0,0.25]r∈;相关性很弱;(0.25,0.75)r∈;相关性一般;[0.75,1]r∈;相关性很强7. 独立性检验:(1).2×2列联表(卡方图): (2).独立性检验公式①.22()()()()()n ad bc k a b c d a c b d -=++++②.上界P 对照表:(3).独立性检验步骤:①.计算观察值k :2()()()()()n ad bc k a b c d a c b d -=++++ ②.查找临界值0k :由犯错误概率P ,根据上表查找临界值0k③.下结论:0k k ≥即认为有P 的没把握、有1-P 以上的有把握认为两个量相关;0k k <:即认为没有1-P 以上的把握认为两个量是相关关系。
第1讲 统计、统计案例[考情考向·高考导航]1.抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主要以选择题、填空题形式命题,难度较小.2.注重知识的交汇渗透,统计与概率,统计案例与概率是近年命题的热点,以解答题中档难度出现.[真题体验]1.(2018·全国Ⅰ卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是( )A .新农村建设后,种植收入减少B .新农村建设后,其他收入增加了一倍以上C .新农村建设后,养殖收入增加了一倍D .新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析:A [设新农村建设前经济收入为x ,则新农村建设后经济收入为2x ,对于A ,新农村建设前,种植收入为,新农村建设后,种植收入为=,种植收入增加,故A 不正确;对于B ,新农60x 10037·2x 10074x100村建设前其他收入为,建设后其他收入为,故B 正确;对于C ,新农村建设前,养殖收入为,4x 10010x 10030x100建设后养殖收入为,故C 正确;对于D ,新农村建设后,养殖收入与第三产业收入的总和占经济收入60x100的28%+30%=58%,超过了一半,故D 正确.]2.(2019·全国Ⅱ卷)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁一列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为____________.解析:平均正点率的估计值为=0.98.10×0.97+20×0.98+10×0.9940答案:0.983.(理)(2017·全国Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件“旧养殖法的箱产量低于50 kg ,新养殖法的箱产量不低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)附:K 2=.n ad -bc 2a +bc +d a +c b +d 解:(1)记:“旧养殖法的箱产量低于50 kg”为事件B ,“新养殖法的箱产量不低于50 kg”为事件C而P (B )=0.040×5+0.034×5+0.024×5+0.014×5+0.012×5=0.62,P (C )=0.068×5+0.046×5+0.010×5+0.008×5=0.66,P (A )=P (B )P (C )=0.409 2(2)箱产量<50 kg箱产量≥50 kg旧养殖法6238新养殖法3466由计算可得K 2的观测值为K 2==15.705,200× 62×66-38×34 2100×100×96×104∵15.705>6.635,∴P (K 2≥6.635)≈0.001∴有99%以上的把握认为箱产量与养殖方法有关.(3)设中位数为x ,则0.004×5+0.020×5+0.044×5+0.068(x -50)=0.5,∴x =52.35.3.(文)(2017·全国Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A 表示事件“旧养殖法的箱产量低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.附:K 2=.n ad -bc 2a +bc +d a +c b +d 解:(1)旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62因此事件A 的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表箱产量<50 kg箱产量≥50 kg旧养殖法6238新养殖法3466K 2=≈15.705200× 62×66-34×38100×100×96×104由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg 到55 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.[主干整合]1.三种抽样方法的特点简单随机抽样:操作简便、适当,总体个数较少分层抽样:按比例抽样系统抽样:等距抽样2.必记公式数据x 1,x 2,…,x n 的数字特征公式(1)平均数:=.x x 1+x 2+ (x)n (2)方差:s 2=[(x 1-)2+(x 2-)2+…+(x n -)2].1n x x x (3)标准差:s = 1n [ x 1-x 2+ x 2-x 2+…+ xn -x 2].3.重要性质及结论(1)频率分布直方图的三个结论①小长方形的面积=组距×=频率;频率组距②各小长方形的面积之和等于1;③小长方形的高=.频率组距(2)回归直线方程:一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ).其回归方程=x +,其过样本点中心(,).y ^ b ^ a ^ x y (3)独立性检验K 2=(其中n =a +b +c +d 为样本容量).n ad -bc 2a +bc +d a +c b +d热点一 抽样方法数据分析素养数据分析——随机抽样问题中的核心素养以解决抽样调查问题为背景,考查应用简单随机抽样、系统抽样和分层抽样获取样本,进行数据收集的技巧与能力.[题组突破]1.(2018·全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.解析:因为不同年龄段客户对其服务的评价有较大差异,所以用分层抽样.答案:分层抽样2.(2019·烟台三模)200名职工年龄分布如图所示,从中随机抽取40名职工作样本,采用系统抽样方法,按1~200编号分为40组,分别为1~5,6~10,…,196~200,第5组抽取号码为23,第9组抽取号码为________;若采用分层抽样,40~50岁年龄段应抽取________人.解析:根据题意可得每5人中抽取一人,所以第九组抽取的号码为(9-5)×5+23=43,根据分层抽样,40~50岁年龄段应抽取:40×30%=12人.答案:43 123.(2019·成都三模)如图是调查某学校高三年级男女学生是否喜欢篮球运动的等高条形图,阴影部分的高表示喜欢该项运动的频率.已知该年级男生女生各500名(假设所有学生都参加了调查),现从所有喜欢篮球运动的同学中按分层抽样的方式抽取32人,则抽取的男生人数为________.解析:由已知得,喜欢篮球运动的女生有500×0.2=100人,喜欢篮球运动的男生有500×0.6=300人,共有400人喜欢篮球运动.按分层抽样的方式抽取32人,抽样比为=0.08,32400则抽取的男生人数为300×0.08=24人.答案:24抽样方法主要有简单随机抽样、系统抽样和分层抽样三种,这三种抽样方法各自适用不同特点的总体,但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体个体数的比值.热点二 用样本估计总体数字特征与茎叶图的应用[例1-1] (2020·北京东城质检)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:假设每名同学最近一周平均每天的锻炼时间是互相独立的.①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;②从平均值分析,男生每天锻炼的时间比女生多;③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;④从10个男生中任选1人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中根据茎叶图能得到的统计结论的编号为( )A .①②③ B .②③④C .①②④D .①③④[解析] C [由茎叶图知,男生每天锻炼时间差别小,女生差别大,①正确.男生平均每天锻炼时间超过65分钟的概率P 1==,女生平均每天锻炼时间超过65分钟的概率51012P 2==,P 1>P 2,因此④正确.41025设男生、女生两组数据的平均数分别为甲,乙,标准差分别为s 甲,s 乙.x x 易求甲=65.2,乙=61.8,知甲>乙,②正确.x x x x 又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散,∴s 甲<s 乙,③错误.因此符合茎叶图所给数据的结论是①②④.]用样本的频率分布估计总体分布[例1-2] (2019·全国Ⅱ卷)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.y 的分组[-0.20,0)[0,0.20)[0.20,0.40)[0.40,0.60)[0.60,0.80)企业数22453147(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:≈8.602.74[审题指导] (1)由所给的频数分布表确定出相应的频数,再代入频率公式,即可求得相应频率,并以此估计总体.(2)根据平均数,方差的计算公式及题设要求计算即可.[解析] (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为=0.21.14+7100产值负增长的企业频率为=0.02.2100用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)=×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,y 1100=×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]1100=0.029 6,s ==0.02×≈0.17.0.029 674所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.1.两类数字特征的意义(1)平均数、中位数、众数描述数据的集中趋势;(2)方差和标准差描述数据的波动大小.方差、标准差越大,数据的离散程度越大,越不稳定.2.与频率分布直方图有关的问题(1)已知频率分布直方图中的部分数据,求其他数据,可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1就可求出其他数据.(2)众数为频率分布直方图中最高矩形的底边中点的横坐标.(3)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.(4)平均数等于频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标乘积的和.(北京卷)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…[80,90],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.解:(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4,所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0.9-5=5.所以总体中分数在区间[40,50)内的人数估计为400×=20.5100(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60×=30,12所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.热点三 回归分析与独立性检验回归分析及应用[例2-1] (2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根y^据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根y^据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.[审题指导] 根据给出的两个模型(回归直线方程)求2018年的环境基础设施投资额的预测值,再根据题中给出的折线图进行对照说明.[解析] (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).y^利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年y^至2016年的数据建立的线性模型=99+17.5 t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.求回归直线方程的关键及实际应用b^a^(1)关键:正确理解计算,的公式和准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.独立性检验及应用[例2-2] (2019·全国Ⅰ卷)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K 2=.n ad -bc 2a +bc +d a +c b +d[审题指导] (1)根据2×2列联表确定相应的频率,即为所求的概率.(2)根据2×2列联表计算出K 2的值,并与临界值比较进行判断.[解析] (1)由调查数据,男顾客中对该商场服务满意的比率为=0.8,因此男顾客对该商场服务4050满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为=0.6,因此女顾客对该商场服务满3050意的概率的估计值为0.6(2)K 2的观测值k =≈4.762.100× 40×20-30×10 250×50×70×30由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.独立性检验的关键(1)根据2×2列联表准确计算K 2的观测值k ,若2×2列联表没有列出来,要先列出此表.(2)K 2的观测值k 越大,对应假设事件H 0成立(两类变量相互独立)的概率越小,H 0不成立的概率越大.(1)(2020·广东湛江模拟)某产品的广告费用x (万元)与销售额y (万元)的统计数据如表:广告费用x 2345销售额y26394954根据上表可得线性回归方程=9.4x +,据此模型预测,广告费用为6万元时的销售额为( )y ^ a^A .65.5万元 B .66.6万元C .67.7万元D .72万元解析:A [==3.5,==42,代入线性回归方程,得x 2+3+4+54y 26+39+49+54442=9.4×3.5+,解得=9.1,a ^ a ^ 所以线性回归方程为=9.4x +9.1,y ^ 当x =6时,y =65.5,故选A.](2)(2019·东营三模)某同学利用课余时间做了一次社交软件使用习惯调查,得到2×2列联表如下:偏爱微信偏爱QQ 合计30岁以下481230岁以上16218合计201030附表:P (K 2≥k 0)0.010.0050.001k 06.6357.87910.828则下列结论正确的是( )A .在犯错的概率不超过0.005的前提下认为社交软件使用习惯与年龄有关B .在犯错的概率超过0.005的前提下认为社交软件使用习惯与年龄有关C .在犯错的概率不超过0.001的前提下认为社交软件使用习惯与年龄有关D .在犯错的概率超过0.001的前提下认为社交软件使用习惯与年龄有关解析:A [K 2==10,由于7.879<10<10.828,可以认为在犯错的30× 4×2-16×8 220×10×12×18概率不超过0.005的前提下认为社交软件使用习惯与年龄有关,故选A.]限时45分钟 满分74分一、选择题(本大题共7小题,每小题5分,共35分)1.(2020·福州模拟)某公司有一批专业技术人员,对他们进行年龄状况和接受教育程度(学历)的调查,其结果(人数分布)如下表: 学历年龄 35岁以下35~50岁50岁以上本科803020研究生x 20y在这个公司的专业技术人员中按年龄状况用分层抽样的方法抽取N 个人,其中35岁以下48人,50岁以上10人,再从这N 个人中随机抽取出1人,此人的年龄为50岁以上的概率为,则的值为( )539x y A. B .432C.D .883解析:D [由题意得=,解得N =78.10N 539∴35~50岁中被抽取的人数为78-48-10=20.∴==,解得x =40,y =5.4880+x 20501020+y ∴=8.]x y 2.(2019·全国Ⅱ卷)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )A .中位数B .平均数C .方差D .极差解析:A [去掉1个最高分,1个最低分,不变的数字特征为中位数.]3.(2020·吉林省长春市高三监测)如图是民航部门统计的2019年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是( )A .深圳的变化幅度最小,北京的平均价格最高B .深圳和厦门的春运期间往返机票价格同去年相比有所下降C .平均价格从高到低居于前三位的城市为北京、深圳、广州D .平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门解析:D [由题图可知深圳对应的小黑点最接近0%,故变化幅度最小,北京对应的条形图最高,则北京的平均价格最高,故A 正确;由题图可知深圳和厦门对应的小黑点在0%以下,故深圳和厦门的价格同去年相比有所下降,故B 正确;由题图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C 正确;由题图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D 错误.选D.]4.(2020·广州调研)将某校100名学生的数学测试成绩(单位:分)按照[90,100),[100,110),[110,120),[120,130),[130,140),[140,150]分成6组,制成的频率分布直方图如图所示,若分数不低于a 为优秀,如果优秀的人数为25,则a 的值是( )A .130B .140C .133D .137解析:A [由题意可知,成绩在[90,100)内的频率为0.005×10=0.05,频数为5,成绩在[100,110)内的频率为0.018×10=0.18,频数为18,成绩在[110,120)内的频率为0.030×10=0.3,频数为30,成绩在[120,130)内的频率为0.022×10=0.22,频数为22,成绩在[130,140)内的频率为0.015×10=0.15,频数为15,成绩在[140,150]内的频率为0.010×10=0.1,频数为10,而优秀的人数为25,成绩在[140,150]内的有10人,成绩在[130,140)内的有15人,所以成绩在[130,150]内的共25人,所以分数不低于130为优秀,故a =130,选A.]5.(2020·重庆六校联考)某老师任教高三A 班、高三B 班两个班,两个班各有50个学生,如图反映的是两个班在某学期5次数学测试中的班级平均分,根据图表,下列结论不正确的是( )A .A 班的数学成绩平均水平高于B 班B .B 班的数学成绩没有A 班稳定C .下次考试B 班的数学成绩平均分要高于A 班D .在第1次考试中,A ,B 两个班的总平均分为98分解析:C [A 班的数学成绩平均值为=101(分),B 班的数学成绩平均值为101+98+101+100+1055=99.2(分),即A 正确;A 班平均成绩的方差为×(0+9+0+1+16)=5.2,B95+100+96+105+100515班平均成绩的方差为×(4.22+0.64+3.22+5.82+0.64)=12.56,即B 正确;在第1次考试中,A ,B15两个班的总平均分为=98(分),即D 正确;无法根据图表知道下次考试成绩的情况,C 不正确,101+952故选C.]6.(2020·苏州模拟)气象意义上从春季进入夏季的标志为:“连续5天的日平均温度均不低于22℃”.现有甲、乙、丙三地连续5天的日平均温度的记录数据(记录数据都是正整数):①甲地:5个数据的中位数为24,众数为22;②乙地:5个数据的中位数为27,总体均值为24;③丙地:5个数据中有一个数据是32,总体均值为26,总体方差为10.8.则肯定进入夏季的地区有( )A .①②③B .①③C .②③D .①解析:B [①甲地:5个数据的中位数为24,众数为22,可知5个数据均不低于22,①符合题意;②乙地:5个数据的中位数为27,总体均值为24,当中有可能某一天的气温低于22℃,故不符合题意;③丙地:5个数据中有一个数据是32,总体均值为26,总体方差为10.8,若有某一天的气温低于22℃,则总体方差就大于10.8,故满足题意.则肯定进入夏季的地区有甲地、丙地.故选B.]7.(2019·宁波三模)第十八届亚运会在印尼·雅加达举办,在篮球比赛中,某参赛队中甲、乙两名篮球运动员在13场比赛中的得分情况用茎叶图表示如下:根据上图,对这两名运动员的成绩进行比较,下列四个结论中不正确的是( )A .甲运动员得分的极差大于乙运动员得分的极差B .甲运动员得分的中位数大于乙运动员得分的中位数C .甲运动员得分的平均值大于乙运动员得分的平均值D .甲运动员的成绩比乙运动员的成绩稳定解析:D [根据茎叶图可知,甲运动员的得分为19,18,18,26,21,20,35,33,32,30,47,41,40;乙运动员的得分为17,17,19,19,22,25,26,27,29,29,30,32,33,对于A ,由图中的数据可得甲运动员得分的极差为47-18=29,乙运动员得分的极差为33-17=16,故甲运动员得分的极差大于乙运动员得分的极差,因此A 正确;对于B ,甲运动员得分的数据从小到大排列:18,18,19,20,21,26,30,32,33,35,40,41,47,位于中间的数是30,所以甲运动员得分的中位数是30分,同理得乙运动员得分的中位数是26分,因此甲运动员得分的中位数大于乙运动员得分的中位数,故B 正确;对于C ,不难得出甲运动员得分的平均值约为29.2分,乙运动员得分的平均值为25.0分,因此甲运动员得分的平均值大于乙运动员得分的平均值,故C 正确;对于D ,甲的方差s ≈×[(19-29.5)2+(18-29.2)2+…+(40-29.9)2]≈88.18,同理,得乙的方差s ≈29.54,乙2甲1132乙的方差小于甲的方差,所以乙运动员的成绩比甲运动员的成绩稳定,故D 不正确,故选D.]二、填空题(本大题共3小题,每小题5分,共15分)8.《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱,欲以钱数多少衰出之,问:各几何?”其意为:今有甲带了560钱,乙带了350钱,丙带了180钱,三人一起出关,共需要交关税100钱,依照钱的多少按比例出钱,则丙应出________钱(所得结果四舍五入,保留整数).解析:甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人带钱多少的比例进行交税,丙应出100×=16≈17(钱).180560+350+18056109答案:179.(2019·青岛三模)某校为了解高三学生寒假期间的学习情况,抽查了100名学生,统计他们每天的平均学习时间,绘制成频率分布直方图,如图所示,则这100名学生中学习时间在6至10小时之间的人数为________.解析:由题图知,(0.04+0.12+x +0.14+0.05)×2=1,解得x =0.15,所以学习时间在6至10小时之间的频率是(0.15+0.14)×2=0.58,所求人数为100×0.58=58.答案:5810.(双空填空题)高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如图所示,甲、乙、丙为该班三位学生.从这次考试成绩看,(1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________;(2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是________.解析:(1)由图分析,乙的语文成绩名次略比甲的语文成绩名次靠前,但总成绩名次靠后,所以甲、乙两人中,语文成绩名次比其总成绩名次靠前的是乙.(2)根据丙在这两个图中对应的点的横坐标相同,找出丙在第一个图中对应的点.观察易得,丙同学成绩名次更靠前的科目是数学.答案:(1)乙 (2)数学三、解答题(本大题共2小题,每小题12分,共24分)11.(2020·陕西质检)2018年12月,针对国内天然气供应紧张的问题,某市政府及时安排部署,加气站采取了紧急限气措施,全市居民打响了节约能源的攻坚战.某研究人员为了了解天然气的需求状况,对该地区某些年份天然气需求量进行了统计,并绘制了相应的折线图.(1)由折线图可以看出,可用线性回归模型拟合年度天然气需求量y (单位:千万立方米)与年份x (单位:年)之间的关系.并且已知y 关于x 的线性回归方程是=6.5x +,试确定的值,并预测2018y ^ a ^ a ^ 年该地区的天然气需求量.(2)政府部门为节约能源出台了《购置新能源汽车补贴方案》,该方案对新能源汽车的续航里程做出了严格规定,根据续航里程的不同,将补贴金额划分为三类,A 类:每车补贴1万元,B 类:每车补贴2.5万元,C 类:每车补贴3.4万元.某出租车公司对该公司60辆新能源汽车的补贴情况进行了统计,结果如下表:类型A 类B 类C 类车辆数目102030为了制定更合理的补贴方案,政府部门决定利用分层抽样的方式了解出租车公司新能源汽车的补贴情况,在该出租车公司的60辆车中抽取6辆车作为样本,再从6辆车中抽取2辆车进一步跟踪调查,求恰好有1辆车享受3.4万元补贴的概率.解析:(1)由折线图数据可知==2012,x 2008+2010+2012+2014+20165==260.2y 236+246+257+276+2865代入线性回归方程=6.5x +可得=-12817.8.y ^ a ^ a ^。
(通用版)2020版高考数学大二轮复习专题六统计与概率6.3.1统计与统计案例课件理6.3统计与概率大题,-2-,-3-,-4-,-5-,-6-,-7-,1.变量间的相关关系1如果散点图中的点从整体上看大致分布在一条直线的附近,那么我们说变量x和y具有线性相关关系.2线性回归方程若变量x与y具有线性相关关系,有n个样本数据xi,yii1,2,,n,则回归方程为,-8-,2.独立性检验对于取值分别是x1,x2和y1,y2的分类变量X和Y,其样本频数列联表是,-9-,3.超几何分布在含有M件次品的N件产品中,任取n件,其中恰有X件次品,则PXk,k0,1,2,,m,其中mminM,n,且nN,MN,n,M,NN*.4.二项分布一般地,在n次独立重复试验中,事件A发生的次数为X,设每次试验中事件A发生的概率为p,则PXkpkqn-k,其中0p1,pq1,k0,1,2,,n,称X服从参数为n,p的二项分布,记作XBn,p,且EXnp,DXnp1-p.,-10-,5.正态分布一般地,如果对于任意实数ab,随机变量X满足PaXb,xdx,则称X的分布为正态分布.正态分布完全由参数和确定,因此正态分布常记作N,2.如果随机变量X服从正态分布,则记为XN,2.满足正态分布的三个基本概率的值是P-X0.6826;P-2X20.9544;P-3X30.9974.,-11-,6.离散型随机变量的分布列.期望.方差1设离散型随机变量X 可能取的不同值为x1,x2,,xi,,xn,X取每一个值xii1,2,,n的概率PXxipi,则称下表为离散型随机变量X的分布列.2EXx1p1x2p2xipixnpn为X的均值或数学期望.3DXx1-EX2p1x2-EX2p2xi-EX2pixn-EX2pn叫做随机变量X的方差.4均值与方差的性质EaXbaEXb;EEE;DaXba2DX.,6.3.1统计与统计案例,-13-,考向一,考向二,考向三,考向四,样本的数字特征的应用例1xx全国卷2,文19某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.1分别估计这类企业中产值增长率不低于40的企业比例.产值负增长的企业比例;2求这类企业产值增长率的平均数与标准差的估计值同一组中的数据用该组区间的中点值为代表.精确到0.01,-14-,考向一,考向二,考向三,考向四,-15-,考向一,考向二,考向三,考向四,解题心得1在预测总体数据的平均值时,常用样本数据的平均值估计,从而做出合理的判断.2平均数反映了数据取值的平均水平,标准差.方差描述了一组数据围绕平均数波动的大小.标准差.方差越大,数据的离散程度越大,越不稳定.,-16-,考向一,考向二,考向三,考向四,对点训练1为迎接即将举行的集体跳绳比赛,高一年级对甲.乙两个代表队各进行了6轮测试,测试成绩单位次/分钟如下表1补全茎叶图,并指出乙队测试成绩的中位数和众数;2试用统计学中的平均数.方差知识对甲.乙两个代表队的测试成绩进行分析.,-17-,考向一,考向二,考向三,考向四,-18-,考向一,考向二,考向三,考向四,利用回归方程进行回归分析例2xx新疆乌鲁木齐二模,理19某互联网公司为了确定下季度的前期广告投入计划,收集了近6个月广告投入量x单位万元和收益y单位万元的数据如表他们分别用两种模型ybxa,yaebx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值,-19-,考向一,考向二,考向三,考向四,-20-,考向一,考向二,考向三,考向四,1根据残差图,比较模型,的拟合效果,应选择哪个模型并说明理由;2残差绝对值大于2的数据被认为是异常数据,需要剔除剔除异常数据后求出1中所选模型的回归方程;若广告投入量x18时,该模型收益的预报值是多少,-21-,考向一,考向二,考向三,考向四,-22-,考向一,考向二,考向三,考向四,解题心得在求两变量的回归方程时,由于的公式比较复杂,求它的值计算量比较大,为了计算准确,可将这个量分成几个部分分别计算,最后再合成,这样等同于分散难点,各个攻破,提高了计算的准确度.,-23-,考向一,考向二,考向三,考向四,对点训练2xx山东德州一模,理20改革开放以来,我国经济持续高速增长.如图给出了我国2003年至xx年第二产业增加值与第一产业增加值的差值以下简称为产业差值的折线图,记产业差值为y单位万亿元.1求出y关于年份代码t的线性回归方程;2利用1中的回归方程,分析2003年至xx年我国产业差值的变化情况,并预测我国产业差值在哪一年约为34亿元;3结合折线图,试求出除去xx年产业差值后剩余的9年产业差值的平均值及方差结果精确到0.1.,-24-,考向一,考向二,考向三,考向四,-25-,考向一,考向二,考向三,考向四,-26-,考向一,考向二,考向三,考向四,-27-,考向一,考向二,考向三,考向四,样本的相关系数的应用例3xx四川宜宾二模,理18艾滋病是一种危害性极大的传染病,由感染艾滋病病毒HIV病毒引起,它把人体免疫系统中最重要的CD4T淋巴细胞作为主要攻击目标,使人体丧失免疫功能.下表是近八年来我国艾滋病病毒感染人数统计表,-28-,考向一,考向二,考向三,考向四,1请根据该统计表,画出这八年我国艾滋病病毒感染人数的折线图;2请用相关系数说明能用线性回归模型拟合y 与x的关系;,-29-,考向一,考向二,考向三,考向四,3建立y关于x的回归方程系数精确到0.01,预测xx年我国艾滋病病毒感染人数.,-30-,考向一,考向二,考向三,考向四,解1我国艾滋病病毒感染人数的折线图如图所示.,-31-,考向一,考向二,考向三,考向四,-32-,考向一,考向二,考向三,考向四,-33-,考向一,考向二,考向三,考向四,解题心得对于样本的相关系数的应用的题目,题目一般都给出样本xi,yii1,2,,n的相关系数r的表达式,以及有关的数据,解决这类题的关键是在有关的数据中选择题目需要的数据代入公式即可.,-34-,考向一,考向二,考向三,考向四,对点训练3下图是我国xx年至xx年生活垃圾无害化处理量单位亿吨的折线图.1由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;2建立y关于t的回归方程系数精确到0.01,预测xx年我国生活垃圾无害化处理量.,-35-,考向一,考向二,考向三,考向四,-36-,考向一,考向二,考向三,考向四,-37-,考向一,考向二,考向三,考向四,-38-,考向一,考向二,考向三,考向四,统计图表与独立性检验的综合例4某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间单位min绘制了如下茎叶图,-39-,考向一,考向二,考向三,考向四,1根据茎叶图判断哪种生产方式的效率更高并说明理由;2求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表3根据2中的列联表,能否有99的把握认为两种生产方式的效率有差异,-40-,考向一,考向二,考向三,考向四,解1第二种生产方式的效率更高.理由如下由茎叶图可知用第一种生产方式的工人中,有75的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.由茎叶图可知用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.由茎叶图可知用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.,-41-,考向一,考向二,考向三,考向四,由茎叶图可知用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.以上给出了4种理由,学生答出其中任意一种或其他合理理由均可,-42-,考向一,考向二,考向三,考向四,解题心得有关独立性检验的问题解题步骤1作出22列联表;2计算随机变量K2的值;3查临界值,检验作答.,-43-,考向一,考向二,考向三,考向四,对点训练4“共享单车”的出现,为我们提供了一种新型的交通方式.某机构为了调查人们对此种交通方式的满意度,从交通拥堵不严重的A城市和交通拥堵严重的B城市分别随机调查了20个用户,得到了一个用户满意度评分的样本,并绘制出如图茎叶图.1根据茎叶图,比较两城市满意度评分的平均值的大小及方差的大小不要求计算出具体值,给出结论即可;,-44-,考向一,考向二,考向三,考向四,2若得分不低于80分,则认为该用户对此种交通方式“认可”,否则认为该用户对此种交通方式“不认可”,请根据此样本完成下面22列联表,并据此样本分析是否有95的把握认为城市拥堵与认可共享单车有关;3若从此样本中的A城市和B城市各抽取1人,则在此2人中恰有1人认可的条件下,此人来自B城市的概率是多少,-45-,考向一,考向二,考向三,考向四,解1A 城市评分的平均值小于B城市评分的平均值;A城市评分的方差大于B城市评分的方差.222列联表如下.,。