统考版2023高考数学二轮专题复习第三篇关键能力为重研重点保大分专题四统计与概率第1讲统计统计案例理
- 格式:docx
- 大小:377.29 KB
- 文档页数:13
2023届高考理科数学大单元二轮复习串思路【新课标全国卷】专题八概率与统计第三讲统计与统计案例(一)高考考点解读(二)核心知识整合考点1:抽样方法,样本频率分布、数字特征1.抽样方法三种抽样方法包括:简单随机抽样、系统抽样、分层抽样2.统计图表在频率分布直方图中:①各小矩形的面积表示相应各组的频率,各小矩形的高=频率组距;②各小矩形面积之和等于1;③中位数左右两侧的直方图面积相等,因此可以估计其近似值.3.样本的数字特征(1)众数:在样本数据中,出现次数最多的那个数据.中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数;(2)样本平均数=11211=()nn i i x x x x x n n ⋯∑+++=;(3)样本方差22222=11211[()()()]()n i n i x s x x x x x x x n n ⋯∑=-+-++-=-;(4)样本标准差s .(5)现实中总体所包含的个体数往往较多,总体的平均数与标准差、方差是不知道(或不可求)的,所以我们通常用样本的平均数与标准差、方差来估计总体的平均数与标准差、方差.(6)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定. 『解题技巧』1.系统抽样与分层抽样的求解方法(1)系统抽样的最基本特征是“等距性”,每组内所抽取的号码需要依据第一组抽取的号码和组距唯一确定.每组抽取样本的号码依次构成一个以第一组抽取的号码m 为首项,组距d 为公差的等差数列{a n },第k 组抽取样本的号码a k =m +(k -1)d . (2)分层抽样的关键是根据样本特征差异进行分层,实质是等比例抽样,求解此类问题需先求出抽样比——样本容量与总体容量的比,则各层所抽取的样本容量等于该层个体总数与抽样比的乘积.在每层抽样时,应采用简单随机抽样或系统抽样进行.2.用样本估计总体的两种方法(1)用样本的频率分布(频率分布表、频率分布直方图、茎叶图等)估计总体的频率分布.(2)用样本的数字特征(众数、中位数、平均数、方差、标准差)估计总体的数字特征.3.方差的计算与含义计算方差首先要计算平均数,然后再按照方差的计算公式进行计算,方差和标准差是描述一个样本和总体的波动大小的特征数,方差、标准差大说明波动大. 4.众数、中位数、平均数与频率分布直方图的关系(1)众数为频率分布直方图中最高矩形的底边中点的横坐标.(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.(3)平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和. [典型例题]1.某校进行了一次创新作文大赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图,则下列结论错误的是( )A.得分在[40,60)之间的共有40人B.从这100名参赛者中随机选取1人,其得分在[60,80)的概率为0.5C.估计得分的众数为55D.这100名参赛者得分的中位数为65 [答案]:D[解析] 根据频率和为1,计算(0.0350.0300.0200.010)101a ++++⨯=,解得0.005a =,得分在[40,60)的频率是0.40,估计得分在[40,60)的有1000.4040⨯=(人),A 正确; 得分在[60,80)的频率为0.5,可得这100名参赛者中随机选取一人,得分在[60,80)的概率为0.5,B 正确;根据频率分布直方图知,最高的小矩形对应的底边中点为5060552+=,即估计得分众数为55,C 正确;中位数的估计值为0.4(60)0.030.5x +-⨯=,解得63.3x ≈,故D 错,故选D. [变式训练]2.已知在一次射击预选赛中,甲、乙两人各射击10次,两人成绩的条形统计图如图所示,则下列四个选项中判断不正确的是( )A.甲的成绩的平均数小于乙的成绩的平均数B.甲的成绩的中位数小于乙的成绩的中位数C.甲的成绩的方差大于乙的成绩的方差D.甲的成绩的极差小于乙的成绩的极差 [答案]:D[解析] 甲的成绩的平均数为 1(56272829210)7.510x =⨯+⨯+⨯+⨯+⨯+=甲,乙的成绩的平均数为1(673829310)810x =⨯+⨯+⨯+⨯+=乙,∴甲的成绩的平均数小于乙的成绩的平均数,故A 判断正确;甲的成绩的中位数为787.52+=,乙的成绩的中位数为8882+=,∴甲的成绩的中位数小于乙的成绩的中位数,故B 判断正确;由条形统计图得甲的成绩相对分散,乙的成绩相对稳定,∴甲的成绩的方差大于乙的成绩的方差,故C 判断正确;甲的成绩的极差为10 55-=,乙的成绩的极差为1064-=,∴甲的成绩的极差大于乙的成绩的极差,故D 判断不正确.故选D.考点2:线性回归分析与独立性检验在实际问题中的应用 1. 变量间的相关关系(1)利用散点图可以初步判断两个变量之间是否线性相关.如果散点图中的点从整体上看大致分布在一条直线的附近,我们说变量x 和y 具有线性相关关系. (2)用最小二乘法求回归直线的方程设线性回归方程为ˆˆˆy bx a =+,则()()()111112221ˆˆˆi i i i i n n i i i n n x x y y x y nxy b x x x nx a y bx--==⎧∑--∑-⎪==⎪⎨∑-∑-⎪⎪=-⎩.注意:回归直线一定经过样本的中心点(,)x y ,据此性质可以解决有关的计算问题. 2.回归分析()()1i i i x x y y r =∑--=叫做相关系数.相关系数用来衡量变量x 与y 之间的线性相关程度;|r |≤1,且|r |越接近于1,相关程度越高,|r |越接近于0,相关程度越低. 3.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为则2()()()()()()a b c d ad bc a b c d a c b K d +++-++++=,若2 3.841K >,则有95%的把握说两个事件有关; 若2 6.635K >,则有99%的把握说两个事件有关; 若2 2.706K <,则没有充分理由认为两个事件有关. 『解题技巧』1.正确理解计算,的公式和准确的计算,是求线性回归方程的关键.其中线性回归方程必过样本中心点(,x y ).2.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.3. 进行独立性检验的步骤(1)假设两个分类变量X 与Y 无关; (2)找相关数据,列出2×2列联表;(3)由公式22()()()()()n ad bc a b c d a c b d K -++++= (其中n a b c d =+++)计算出2K 的值.(4)将2K 的值与临界值进行对比,进而做出统计推断.提醒:2K 的观测值越大,对应假设事件成立的概率越小,假设事件不成立的概率越大. [典型例题]1.为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据()()()()()1122334455,,,,,,,,,x y x y x y x y x y .根据收集到的数据可知12345150x x x x x ++++=, 由最小二乘法求得回归直线方程为0.67549ˆ .y x =+,则12345y y y y y ++++的值为( )A.75B.155.4C.375D.466.2[答案]:C[解析] 由题意可得: 12345305x x x x x x ++++==,线性回归方程过样本中心点,则: 0.6754.975y x =⨯+=, 据此可知: 123455375y y y y y y ++++==. 本题选择C 选项. [变式训练]2.第24届冬季奥林匹克运动会将于2022年在北京举办.为了解某城市居民对冰雪运动的关注情况,随机抽取了该市100人进行调查统计,得到如下22⨯列联表.参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.附表:根据列联表可知( )A.该市女性居民中大约有5%的人关注冰雪运动B.该市男性届民中大约有95%的人关注冰雪运动C.有95%的把握认为该市居民是否关注冰雪运动与性别有关D.有99%的把握认为该市居民是否关注冰雪运动与性别有关[答案]:C[解析]由22⨯列联表中的数据可得()22352515251004.167 3.84160405050K⨯-⨯⨯=≈>⨯⨯⨯,因此,有95%的把握认为该市居民是否关注冰雪运动与性别有关.故选:C.。
2023高三数学第二轮重点复习内容高三数学第二轮重点复习内容专题一:函数与不等式,以函数为主线,不等式和函数综合题型是考点函数的性质:着重掌握函数的单调性,奇偶性,周期性,对称性。
这些性质通常会综合起来一起考察,并且有时会考察具体函数的这些性质,有时会考察抽象函数的这些性质。
一元二次函数:一元二次函数是贯穿中学阶段的一大函数,初中阶段主要对它的一些基础性质进行了了解,高中阶段更多的是将它与导数进行衔接,根据抛物线的开口方向,与x轴的交点位置,进而讨论与定义域在x轴上的摆放顺序,这样可以判断导数的正负,最终达到求出单调区间的目的,求出极值及最值。
不等式:这一类问题常常出现在恒成立,或存在性问题中,其实质是求函数的最值。
当然关于不等式的解法,均值不等式,这些不等式的基础知识点需掌握,还有一类较难的综合性问题为不等式与数列的结合问题,掌握几种不等式的放缩技巧是非常必要的。
专题二:数列。
以等差等比数列为载体,考察等差等比数列的通项公式,求和公式,通项公式和求和公式的关系,求通项公式的几种常用方法,求前n项和的几种常用方法,这些知识点需要掌握。
专题三:三角函数,平面向量,解三角形。
三角函数是每年必考的知识点,难度较小,选择,填空,解答题中都有涉及,有时候考察三角函数的公式之间的互相转化,进而求单调区间或值域;有时候考察三角函数与解三角形,向量的综合性问题,当然正弦,余弦定理是很好的工具。
向量可以很好得实现数与形的转化,是一个很重要的知识衔接点,它还可以和数学的一大难点解析几何整合。
专题四:立体几何。
立体几何中,三视图是每年必考点,主要出现在选择,填空题中。
大题中的立体几何主要考察建立空间直角坐标系,通过向量这一手段求空间距离,线面角,二面角等。
另外,需要掌握棱锥,棱柱的性质,在棱锥中,着重掌握三棱锥,四棱锥,棱柱中,应该掌握三棱柱,长方体。
空间直线与平面的位置关系应以证明垂直为重点,当然常考察的方法为间接证明。
专题6 统计与概率随着《普通高中数学课程标准(2017年版)》地逐步实施,高考数学内容及形式的改革也同步启动,如考查的内容与最新的科技成果、文学、艺术、美学,以及中华优秀传统文化相结合等.其中,对概率与统计内容的考查被提升到较高的位置,如概率与统计的解答题,原来被设置在主观题第二题的位置,2019年被设置为高考数学全国卷Ⅰ理科的压轴题.另外,在课标中,概率与统计属于加强内容,已被单独列为高中数学四大主题之一.一、考纲要求统计与概率是高中数学的重要内容.高考主要考查随机抽样、用样本估计总体、变量的相关性、随机事件的概率、古典概型、几何概型、回归分析、独立性检验.其中,用样本估计总体、古典概率的计算、应用回归分析与独立性检验思想方法解决简单实际问题的能力是考查的重点.试题强调应用性,以实际问题为背景,构建数学模型,突出考查统计与概率的思想及考生的数据处理能力和应用意识.二、知识精粹1.二项式系数的性质(1)各二项式系数之和①C n0 + C n1 + C n2 + …+ C n k + … +C n n= 2n.②C n0 + C n2 + C n4 + …= C n1 + C n3 + C n5 + …= 2n-1.(2)二项式系数的性质①C n k= C n n-k,C n k+ C n+1k = C n+1k+1.②二项式系数最值:中间一项或中间两项的二项式系数最大.2.古典概型的两个特点:(1)有限性;(2)等可能性.古典概型的计算(必须要用列举法...的方法把所有基本事件表示出来,...、树状图...、列表法不重复、不遗漏)3.几何概型的特点及概率计算的关键(1)特点:①无限性;②等可能性.(2)计算概率的关键在于构成事件A的区域长度(面积或体积)的正确计算.4.离散型随机变量数学期望、方差的性质.(1)期望的性质①E(aX + b)= aE(X)+ b;②若X~B(n,p),则E(X)= np;③若X服从两点分布,则E(X)= p.(2)方差的性质① D (aX + b )= a 2 D (X );② 若X ~B (n ,p ),则D (X )= n p (1-p ); ③ 若X 服从两点分布,则D (X )= p (1-p ). 5.平均数、方差、标准差 平均数:)(121n x x x nx +++=方差:])()()[(1222212x x x x x x n s n -+-+-=标准差:])()()[(122221x x x x x x ns n -+-+-=. 在残差分析中,相关指数R 2越大,残差平方和越小,线性回归模型的拟合效果越好.平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小,标准差、方差越大,数据的分散程度越大,越不稳定;标准差、方差越小,数据的分散程度越小,越稳定.6.频率分布直方图的关系(1)小长方形面积 = 组距×频率组距 = 频率;(2)所有小长方形面积的和 = 各组频率和 = 1. 7.线性回归方程方程a x b yˆˆˆ+=称为线性回归方程,其中∑∑==---=ni i n i iix x y y x x b 121)())((ˆ=∑∑==⋅-⋅⋅-ni ini ii xn xyx n y x 1221,x b y a ˆˆ-=,(x ,y )称为样本点的中心.8.利用随机变量))()()(()(22d b c a c b b a bc ad n K ++++-=来判断“两个分类变量有关系”的方法称为独立性检验.K 2的观测值k 越大,说明“两个分类变量有关系”的这种判断犯错误的可能性越小.三、概率统计问题求解思路1.判断变量类型:根据已知数据和设问,判断变量个数(单变量,双变量)和变量类型(离散、连续、数值、分类);2.确定问题类型:根据变量类型确定分布或关系类型,并由统计图表的数据分布情况确定离散型随机变量的分布类型;3.提取有用信息:根据分布或关系模型中的变量或特征量,从统计表中选择恰当的数据;4.数据分析:对所选择的数据进行计算,求出概率模型(分布列,函数模型)或统计模型(线性关系,回归模型,列二联表,k2分布),并解答实际问题或给出检验结果.概率统计题多以生产生活中的实际问题为背景,以样本的数字特征、随机事件的概率、回归分析、独立性检验、离散型随机变量的分布列为载体,考查数据处理能力及应用意识.其求解思路按照知识板块的不同大致分为以下几类:1.古典概型(1)求基本事件总数m ;(2)求事件A 包含基本事件个数n ; (3)代入公式nmA P =)(求概率; (4)检验基本事件是否等可能,且不重不漏. 2.几何概型(1)第一步:求试验全部结果所构成区域长度(或面积或体积); (2)第二步:求构成事件A 的区域长度(或面积或体积); (3)第三步:代入公式)()()(面积或体积总的区域长度面积或体积的区域长度A A P =求概率.3.离散型随机变量分布列 (1)写出随机变量可能取值;(2)求出随机变量取每个值的概率(注意检验所有概率之和是否等于1); (3)写出分布列;(4)求数学期望,通过数学期望进行决策. 4.最小二乘法求两个线性变量的回归方程(1)画散点图(若样本点大致分布在一条直线附近,则可判断两个变量具有线性相关); (2)准确计算x 和y ; (3)列表计算b ˆ;(4)求a ˆ,写出回归方程(运算结果保留两位小数位数应与题目要求). 5.两个分类变量是否有关的独立性检验 (1)用样本数据完成2×2列联表;(2)计算卡方的观测值k (处理分子的交叉相乘时应先提公因式,平方数写成乘积形式再约分,最后除法运算保留三位小数);(3)根据题设中的百分比找对应的经验值做比较观测值k 与k 0;(4)根据比较结果,把结论完整的表述出来,不能只是说有关或无关,下结论.第一节 解答题1.某食品厂为了检查一条自动包装流水线的生产情况,随即抽取该流水线上40件产品作为样本算出他们的重量(单位:克)重量的分组区间为(490,495 ],(495,500 ],…,(510,515 ],由此得到样本的频率分布直方图,如图所示.(1)根据频率分布直方图,求重量超过505克的产品数量;(2)在上述抽取的40件产品中任取2件,设X 为重量超过505克的产品数量,求X 的分布列及期望;(3)在上述抽取的40件产品中任取5件产品,求恰有2件产品的重量超过505克的概率.解:(1)重量超过505克的产品数量是40(0.05×5 + 0.01×5)= 12件. (2)X 的所有可能取值为0、1、2,021********(0)130C C P X C ⋅===,11122824056(1)130C C P X C ⋅===,20122824011(2)130C C P X C ⋅===, X 的分布列为:X 012P631305613011130X 的期望()01213013013065E X =⨯+⨯+⨯=. (3)设在上述抽取的40件产品中任取5件产品,恰有2件产品的重量超过505克为事件A ,则322812540231()703C C P A C ⋅==. 说明:本题考查了直方图,组合数公式的应用,离散型随机变量及其分布列和离散型随机变量期望,其概率模型是超几何分布,考查了运算能力.变式 在原问题不变的情况下,第三问改为:从流水线上任取5件产品,设Y 为重量超过505克的产品数量,求Y 的分布列、期望、方差.解:从流水线上任取5件产品服从二项分布:Y 可取:0,1,2,3,4,5;超过505克的产品发生的概率为p = 0.3,则~(50.3)Y B ,, 005055(0)(1)0.70.16807P Y C p p -==-==, 115111455(1)(1)0.30.70.36015P Y C p p C -==-=⨯=,225222355(2)(1)0.30.70.3087P Y C p p C -==-=⨯=,335333255(3)(1)0.30.70.1323P Y C p p C -==-=⨯=,44544455(4)(1)0.30.70.02835P Y C p p C -==-=⨯=,555555(5)(1)0.30.00243P Y C p p -==-==,则Y 的分布列为:Y 0 1 2 3 4 5 P0.168070.360150.30870.13230.028350.00243Y 的期望E 说明:变式主要考查独立重复事件、二项分布、离散型随机变量分布列、数学期望、方差,考查运用概率与统计知识解决实际问题的能力、考查运算求解能力.2.近年来,共享单车已经悄然进入了广大市民的日常生活,并慢慢改变了人们的出行方式.为了更好地服务民众,某共享单车公司在其官方APP 中设置了用户评价反馈系统,以了解用户对车辆状况和优惠活动的评价,现从评价系统中选出300条较为详细的评价信息进行统计,车辆状况和优惠活动评价的2×2列联表如下:对优惠活动好评对优惠活动不满意合计 对车辆状况好评 150 50 200 对车辆状况不满意60 40 100 合计21090300(1间有关系?(2)为了回馈用户,公司通过APP 向用户随机派送每张的面额为0元,1元,2元的三种骑行券,用户每次使用APP 扫码用车后,都可获得一张骑行券,用户骑行一次获得1元券,获得2元券的概率分别是21,52,且各次获取骑行券的结果相互独立.若某用户一天使用了两次该公司的共享单车,记该用户当天获得的骑行券面额之和为X ,求随机变量X 的分布列和数学期望.附:下边的临界值表仅供参考:P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 k 02.072 2.7063.841 5.024 6.635(参考公式:))()()(()(2d b c a c b b a bc ad n K ++++-=,其中n = a + b + c + d )解:(1)由2×2列联表的数据,有()()()()()()2223006000300020010021090K n ad bc a b c d a c b d --==++++⨯⨯⨯507.14310.8287=≈<,因此,在犯错误的概率不超过0.001的前提下,不能认为优惠活动好评与车辆状况好评有关系.(2)由题意,可知一次骑行用户获得0元的概率为0.1, X 的所有可能取值为0,1,2,3,4.∵ ()2110()10100P X ===,()12111121010P X C ==⨯=, ()2122113325102100P X C ⎛⎫==⨯+= ⎪⎝⎭,()()212122243,4255525P X C P X ⎛⎫==⨯==== ⎪⎝⎭, ∴ X 的分布列为:X 01234P1100 110 33100 25 425X 的数学期望为()1234 2.610100525E X =⨯+⨯+⨯+⨯=. 说明:本题考查了2×2列联表、独立性检验、离散型随机变量的分布列与数学期望,考查运用概率知识解决简单实际问题的能力.3.某汽车美容公司为吸引顾客,推出优惠活动:对首次消费的顾客,按200元∕次收费,并注册成为会员,对会员逐次消费给予相应优惠,标准如下:消费次第 第1次 第2次 第3次 第4次 ≥5次 收费比率10.950.900.850.80100位进行统计,得到统计数据如下:消费次数 1次 2次 3次 4次 5次 人数60201055(1)某会员仅消费两次,求这两次消费中,公司获得的平均利润;(2)以事件发生的频率作为相应事件发生的概率,设该公司为一位会员服务的平均利润为X 元,求X 的分布列和数学期望E (X ).解:(1)∵ 第一次消费为200元,利润为50元:第二次消费190元,利润为40元, ∴ 两次消费的平均利润为45元. (2)若该会员消费1次,则X = 50,()500.6P X ==;若该会员消费2次,则5040452X +==,()450.2P X ==;若该会员消费3次,则504030403X ++==,(40)0.1P X ==;若该会员消费4次,则50403020354X +++==,(35)0.05P X ==;若该会员消费5次,则5040302010305X ++++==,(30)0.05P X ==.故X 的分布列为:X 5045 40 35 30 P0.60.20.10.050.05X 的期望为46.25=(元). 说明:本题考查了离散型随机变量的分布列与数学期望,考查运用概率知识解决简单实际问题的能力、考查数据处理能力.4.甲、乙两队进行一场排球比赛,根据以往经验,单局比赛甲队胜乙队的概率为32.本场比赛采用五局三胜制,即先胜三局的队获胜,比赛结束.设各局比赛相互间没有影响且无平局.求:(1)前三局比赛甲队领先的概率;(2)设本场比赛的局数为ξ,求ξ 的概率分布和数学期望.(用分数表示) 解:(1)设“甲队胜三局”为事件A ,“甲队胜二局”为事件B ,则328()327P A ⎛⎫== ⎪⎝⎭,223214()339P B C ⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭, 所以,前三局比赛甲队领先的概率为20()()27P A P B +=. (2)甲队胜三局或乙胜三局,33211(3)333P ξ⎛⎫⎛⎫==+= ⎪ ⎪⎝⎭⎝⎭;甲队或乙队前三局胜2局,第4局获胜223212(4)333P C ξ⎛⎫==⨯⨯+ ⎪⎝⎭2231211033327C ⎛⎫⨯⨯=⎪⎝⎭;甲队或乙队前四局胜2局,第5局获胜2224212(5)333P C ξ⎛⎫⎛⎫==⨯⨯+ ⎪ ⎪⎝⎭⎝⎭2224121833327C ⎛⎫⎛⎫⨯⨯= ⎪ ⎪⎝⎭⎝⎭; ∴ ξ 的分部列为:ξ 3 4 5P13 1027 827数学期望为1108107()3453272727E ξ=⨯+⨯+⨯=. 说明:本题以体育竞技比赛为背景,考查了独立重复事件、离散型随机变量分布列、数学期望、考查运用概率知识解决简单实际问题的能力.5.我国是世界上严重缺水的国家之一,为提倡节约用水,我市为了制定合理的节水方案,对家庭用水情况进行了调查,通过抽样,获得了2021年 100个家庭的月均用水量(单位:t ),将数据按照[ 0,2),[ 2,4),[ 4,6),[ 6,8),[ 8,10 ] 分成5组,制成了如图所示的频率分布直方图.(1)求全市家庭月均用水量不低于4 t 的频率;(2)假设同组中的每个数据都用该组区间的中点值代替,求全市家庭月均用水量平均数的估计值(精确到0.01);(3)求全市家庭月均用水量的75%分位数的估计值(精确到0.01). 解:(1)由直方图可知全市家庭月均用水量不低于4t 的频率为:()20.180.090.060.66⨯++=.(2)因为0.06210.11230.18250.09270.0629 4.92⨯⨯+⨯⨯+⨯⨯+⨯⨯+⨯⨯=. 因此全市家庭月均用水量的平均数估计值为4.92 t .(3)频率分布直方图中,用水量低于2 t 的频率为0.0620.12⨯=. 用水量低于4 t 的频率为0.0620.1120.34⨯+⨯=. 用水量低于6 t 的频率为0.0620.1120.1820.7⨯+⨯+⨯=.用水量低于8 t 的频率为0.0620.1120.1820.0920.88⨯+⨯+⨯+⨯=. 故全市家庭月均用水量的75%分位数的估计值为x ,则6<x <8 . 则()0.760.090.75x +-⨯=,解得 6.56x ≈.所以全市家庭月均用水量的75%分位数的估计值为6.56.说明:本题考查了频率分布直方图、用频率估计概率、频率分布直方图平均数的计算、使用样本估计总体.6.规定抽球试验规则如下:盒子中初始装有白球和红球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,否则记为失败.在抽取过程中,如果某一轮成功,则停止;否则,在盒子中再放入一个红球,然后接着进行下一轮抽球,如此不断继续下去,直至成功.(1)某人进行该抽球试验时,最多进行三轮,即使第三轮不成功,也停止抽球,记其进行抽球试验的轮次数为随机变量X ,求X 的分布列和数学期望;(2)为验证抽球试验成功的概率不超过21,有1000名数学爱好者独立的进行该抽球试验,记t 表示成功时抽球试验的轮次数,y 表示对应的人数,部分统计数据如下:t 1 2 3 4 5 y23298604020求y 关于t 的回归方程by a t=+,并预测成功的总人数(精确到1); (3)证明:()22222222221111111111111111?·12232342321n n ⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫+-+--++---< ⎪ ⎪⎪ ⎪⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭+. 附:经验回归方程系数:1221niii nii x y nx yb xnx==-⋅=-∑∑,x b y aˆˆ-=; 参考数据:5211.46ii x ==∑,0.46x =,20.212x =(其中1i i x t =,5115i i x x ==∑).解:(1)由题知,X 的取值可能为1,2,3所以()2121114P X C ⎛⎫=== ⎪⎝⎭;()2211231112112P X C C ⎡⎤⎛⎫⎛⎫⎢⎥==-= ⎪ ⎪⎢⎥⎝⎭⎝⎭⎣⎦;()2211231123113P X C C ⎡⎤⎡⎤⎛⎫⎛⎫⎢⎥⎢⎥==--= ⎪ ⎪⎢⎥⎢⎥⎝⎭⎝⎭⎣⎦⎣⎦;所以X 的分布列为:X 123P14 11223所以数学期望为()12341231212E X =⨯+⨯+⨯==. (2)令1i i x t =,则∧∧∧+=a x b y ,由题知:51315i i i x y ==∑,90y =,所以515221531550.46901082701.4650.2120.45i ii ii x y x yb xx==-⋅-⨯⨯====-⨯-∑∑,所以902700.4634.2a =-⨯=-,27034.2y x =-,所求的回归方程为27034.2y t=-, 所以,估计t = 6时,y ≈11;估计t = 7时,y ≈4;估计t ≥8时,y <0; 预测成功的总人数为450 + 11 + 4 = 465. (3)由题知,在前n 轮就成功的概率为()22222222221111111111111111223234231P n n ⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫=+-+--++--⋅⋅- ⎪ ⎪⎪ ⎪⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭+. 又因为在前n 轮没有成功的概率为 ()2221111111231P n ⎡⎤⎛⎫⎛⎫-=-⨯-⨯⨯-⎢⎥ ⎪ ⎪⎝⎭⎝⎭+⎢⎥⎣⎦1111111111111111223311n n n n ⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫=-+⨯-⨯+⨯⨯-⨯+⨯-⨯+ ⎪⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪++⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭1324112223311n n n n n n n n -++⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫=⨯⨯⨯⨯⨯⨯⨯⨯ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪++⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭()12212111222222222n n n n n +++===+>+++ 故()2222222222111111111111111112232342321n n ⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫+-+--++--⋅⋅-< ⎪ ⎪⎪ ⎪⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭+. 说明:本题考查了散点图、相关系数、回归直线方程,考查学生从题目中获取所需信息的能力,考查学生的读图视图能力、考查运算能力.7.某市一中学课外活动小组为了研究经济走势,对该市1994-2016年的GDP (国内生产总值)相关数据进行了初步处理,得到下面的散点图及一些统计量的值.x yzw()2321ii x x =-∑12 113.73.92.241012()2231ii w w =-∑()()231iii x x y y =-⋅-∑()()231iii x x zz=-⋅-∑()()231iii w w y y =-⋅-∑15 17840 212.52 1699.6其中i i z ,i i , 6.42e 614.003≈, 6.63e 757.482≈, 6.84e 934.489≈,ln 24 3.18≈,ln 25 3.22≈,ln 26 3.26≈.(1)根据散点图判断,y = a + bx ,y = e c+dx 与y = m + n ln x 哪一个适合作为该市GDP 值y 关于年份代码x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程; (3)试预测该市2018年的GDP 值.参考公式:()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-.解:(1)散点图可以判断,y = e c+dx 适宜作为该市GDP 值y 关于年份代码x 的回归方程类型.(2)已知ln z y =,则z c dx =+,所以12, 3.9x z ==.所以 ()()()2312321212.520.211012iii i i x x zzd x x==--===-∑∑, 3.90.2112 1.38c z d x =-⋅=-⨯=. 所以z 关于x 的回归方程为 1.380.21z x =+,所以y 关于x 的回归方程为 1.380.21e ˆx y+=. (3)由(2)可知, 1.380.21e ˆx y+=,所以当x = 25时, 1.380.2125 6.63e e 757.ˆ482y +⨯==≈. 所以预测该市2018年的GDP 值为757.482亿元.说明:本题考查回归直线方程,考查学生的读图视图能力、考查运算能力.8.某企业为了解某产品的销售情况,选择某个电商平台对该产品销售情况作调查.统计了一年内的月销售数量(单位:万件),得到该电商平台月销售数量的茎叶图.(1)求该电商平台在这一年内月销售该产品数量的中位数和平均数; (2)该企业与电商签订销售合同时规定:如果电商平台当月的销售件数不低于40万件,当月奖励该电商平台10万元;当月低于40万件没有奖励,用该样本估计总体,从电商平台一个年度内高于该年月销售平均数的月份中任取两个月,求这两个月企业发给电商平台的奖金为20万元的概率.解:(1)由茎叶图知,电商平台的月销售数量的中位数为33(万件), 电商平台的月销售数量的平均数为:1719232528323234363742445339032.51212x ++++++++++++===(万件).(2)由题知,一年内月销售量高于平均数的月份有6个,其中这6个月能获奖励的月份有3个月,记为A 1,A 2,A 3,不能获奖励的份为B 1,B 2,B 3.记从一个年度内高于该年月销售平均数的月份中抽到的两个月都获奖励的事件为A . 则从一个年度内高于该年月销售平均数的月份中抽出的两个月的所有可能为(A 1,A 2),(A 1,A 3),(A 1,B 1),(A 1,B 2),(A 1,B 3),(A 2,A 3),(A 2,A 1),(A 2,B 2),(A 2,B 3),(A 3,A 1),(A 3,A 2),(A 3,B 3),(B 1,B 2),(B 1,B 3),(B 2,B 3)共有15种可能.抽到的两个月都获奖励的可能为(A 1,A 2),(A 1,B 3),(A 2,B 3),共有3种,所以31()155P A ==. 所以,这两个月企业发给电商平台的奖金为20万元的概率为15.说明:本题考查了茎叶图中平均数、中位数的计算、考查了古典概型的概率. 9.为推进“千村百镇计划”,某新能源公司开展“电动莆田绿色出行”活动,首批投放200台P 型新能源车到莆田多个村镇,供当地村民免费试用三个月.试用到期后,为了解男女试用者对P 型新能源车性能的评价情况,该公司要求每位试用者填写一份性能综合评分表(满分为100分).最后该公司共收回600份评分表,现从中随机抽取40份(其中男、女的评分表各20份)作为样本,经统计得到如下茎叶图:(1)求40个样本数据的中位数m ;(2)已知40个样本数据的平均数a = 80,记m 与a 的最大值为M .该公司规定样本中试用者的“认定类型”:评分不小于M 的为“满意型”,评分小于M 的为“需改进型”.① 请根据40个样本数据,完成下面2×2列联表:认定类型 性别满意型需改进型合计女性20 男性20 合计40 根据2② 为做好车辆改进工作,公司先从样本“需改进型”的试用者按性别用分层抽样的方法,从中抽取8人进行回访,根据回访意见改进车辆后,再从这8人中随机抽取3人进行二次试用,记这3人中男性人数为X ,求X 的分布列及数学期望.附:))()()(()(22d b c a c b b a bc ad n K ++++-=,其中n = a + b + c + d )P (K 2≥k )0.050 0.010 0.001 k3.841 6.635 10.828解:(1)由茎叶图可知:8082812m +==. (2)因为m = 81,a = 80,所以M = 81.① 由茎叶图值,女性试用者评分不小于81的有15个,男性试用者评分不小于81的有5个,根据题意得2×2列联表:满意型 需改进型 合计 女性 15 5 20 男性 5 15 20 合计202040由于()24015155510 6.63520202020K ⨯⨯-⨯==>⨯⨯⨯,查表得()26.6350.010P K ≥≈.所以有99%的把握认为“认定类型”与性别有关.② 由①知,从样本“需改进型”的试用者中按性别用分层抽样的方法抽出女性2名,男性6名,X 的所有可能取值为1,2,3, 则()2126386315628C C P X C ====,()122638301525628C C P X C ====,()03263820535614C C P X C ====. 所以X 的分布列如下:X 1 2 3P3281528514所以X 的数学期望为:()315591232828144E X =⨯+⨯+⨯=. 说明:本题考查了茎叶图中位数的计算、独立性的检验、离散型随机变量及其分布列和离散型随机变量期望,其概率模型是超几何分布,考查运算能力.第二节 新情景题10.希尔宾斯基三角形是一种分形,由波兰数学家希尔宾斯基在1915年提出,先作一个正三角形,挖去一个“中心三角形”(即以原三角形各边的中点为顶点的三角形),然后在剩下的小三角形中又挖去一个“中心三角形”,我们用白色代表挖去的面积,那么黑三角形为剩下的面积(我们称黑三角形为希尔宾斯基三角形).在如图第3个大正三角形中随机取点,则落在黑色区域的概率为( )A .35B .916C.716D.25解:设大正三角形面积为1,则黑色区域面积为3193 444161-⨯⨯=,所以落在黑色区域的概率为916,故选B.11.我国古代为了进行复杂的计算,曾经使用“算筹”表示数,后渐渐发展为算盘.算筹有纵式和横式两种排列方式,0~9各个数字及其算筹表示的对应关系如下表:排列数字时,个位采用纵式,十位采用横式,百位采用纵式,千位采用横式……纵式和横式依次交替出现.如“”表示21,“”表示609,在“”、“”、“”、“”、“”按照一定顺序排列成的无重复数字的三位数中任取一个,取到奇数的概率是()0 1 2 3 4 5 6 7 8 9 纵式横式A.5B.10C.5D.10解:所有情况列举如下:百位十位个位备注百位十位个位备注1 3 4 偶数 4 3 1 奇数1 3 0 偶数 4 3 0 偶数1 8 4 偶数 4 8 1 奇数1 8 0 偶数 4 8 0 偶数1 0 4 偶数 4 0 1 奇数所以取到奇数的概率是10,故选B.12.北京2022年冬奥会吉祥物“冰墩墩”和冬残奥会吉祥物“雪容融”一亮相,好评不断,这是一次中国文化与奥林匹克精神的完美结合.为了宣传2022年北京冬奥会和冬残奥会,某学校决定派小明和小李等5名志愿者将两个吉祥物安装在学校的体育广场,每人参与且只参与一个吉祥物的安装,每个吉祥物都至少由两名志愿者安装.若小明和小李必须安装不同的吉祥物,则不同的分配方案种数为()A.8 B.10 C.12 D.14解:由题意可知应将志愿者分为三人组和两人组.先将小李、小明之外的三人分为两组,有C31C22 = 3种分法,再将小李、小明分进两组,有A22 = 2种分法,再将两组分配安装两个吉祥物,有A22 = 2种分法,所以共计有3×2×2 = 12种,故选C.13.(多选)国家统计局官方网站2021年2月28日发布了《中华人民共和国2020年国民经济和社会发展统计公报》,全面展示了一年来全国人民顽强奋斗取得的令世界瞩目、可载入史册的伟大成就.如图是2016-2020年国内生产总值及其增长速度统计图和三次产业增加值占国内生产总值比重统计图.给出下列说法:A.从2016年至2020年国内生产总值逐年递增B.从2016年至2020年国内生产总值增长速度逐年递减C.从2016年至2020年第三产业增加值占国内生产总值比重逐年递增D.从2016年至2020年第二产业增加值占国内生产总值比重逐年递减其中正确的是()解:A,C.对于A,由图1可知,从2016年到2020年国内生产总值数不断的增大,条形图中对应的长方形的高度不断升高,故选项A正确.对于B,由图2可知,在2016年到2017年国内生产总值增长的折线是上升的,从6.8到6.9,故选项B错误.对于C,由图2可知,2016年到2020年第三产业增加值占国内生产总值比重从52.4 →52.7 → 53.3 → 54.3 → 54.5,是不断增加的,故选项C正确.对应D,由图2可知,在2016年到2017年第二产业增加值占国内生产总值比重由39.6上升到了39.9,故选项D错误.14.空气质量指数大小分为五级,指数越大说明污染的情况越严重,对人体危害越大.指数范围在:[ 0,50 ],[ 51,100 ],[ 101,200 ],[ 201,300 ],[ 301,500 ] 分别对应“优”、“良”、“轻度污染”、“中度污染”、“重度污染”五个等级,下面是某市连续14天的空气质量指数变化趋势图,下列说法中正确的是( )A .从2日到5日空气质量越来越好B .这14天中空气质量指数的极差为190C .这14天中空气质量指数的中位数是103.5D .这14天中空气质量指数为“良”的频率为143解:对于A ,由折线图可知,从2日到5日空气质量指数越来越大,所以空气质量越来越差,故选项A 错误.对于B ,这14天中空气质量指数的极差为220-25 = 195,故选项B 错误.对于C ,这14天中空气质量指数为25,37,40,57,79,86,86,121,143,158,160,160,217,220,所以中位数是(86 + 121)÷ 2 = 103.5,故选项C 正确.对于D ,这14天中空气质量指数为“良”的频率为72144=,故选项D 错误. 故选B 、C .15.我国著名数学家陈景润证明了“1 + 2”,即任意充分大的偶数都能表示为一个素数与一个殆素数之和,其中殆素数指的是能分解成两个素数之积的数.现在1到10的自然数中任取两个数,恰为一个素数与一个殆素数的概率为 .分析:先确定素数和殆素数的个数,计算符合条件的事件的个数,根据古典概型的概率计算公式求得答案.解:在1到10的自然数中,2,3,5,7为素数,共4个,4,6,9,10为殆素数(4 = 2×2,6 = 2×3,9 = 3×3,10 = 2×5),共4个, 因此从1到10的自然数中任取两个数,恰为一个素数与一个殆素数的取法数为1144C C , 从1到10的自然数中任取两个数总有210C 种,因此所求概率为11442101645C C C =.16.费马大定理又称为“费马最后定理”,由17世纪法国数学家皮埃尔·德·费马提出,他断言当n >2时,关于x ,y ,z 的方程x n + y n = z n 没有正整数解.他提出后,历经多人猜想辩证,最终在1994年被英国数学家安德鲁·怀尔斯彻底证明.某同学对这个问题很感兴趣,决定从1,2,3,4,5,6这6个自然数中随机选一个数字作为方程x n + y n = z n 中的指数n ,方程x n + y n = z n 存在正整数解的概率为 .解:从1,2,3,4,5,6这6个自然数中随机选一个数字共有6种选法,其中只有n = 1或2使得方程x n + y n = z n 有整数解,故概率为2163P ==. 17.中国北宋数学家贾宪早于西方600多年发现了贾宪三角(如图所示),二项式(1 +x )7展开式中的系数恰好对应于贾宪三角的第八行,则该展开式中x 5的系数为___________,所有项的系数和为___________.解:由题设知,二项式的通项为17r rr T C x +=, ∴ x 5的系数为5721C =. 又01667777777..(1).C C x C x C x x =+++++,令x = 1,有016777777...2128C C C C ++++==.故答案为:21,128.18.某汽车美容公司为吸引顾客,推出优惠活动:对首次消费的顾客,按200元∕次收费,并注册成为会员,对会员逐次消费给予相应优惠,标准如下:消费次第 第1次 第2次 第3次 第4次 ≥5次 收费比率10.950.900.850.80该公司注册的会员中没有消费超过5次的,从注册的会员中,随机抽取了100位进行统计,得到统计数据如下:消费次数 1次 2次 3次 4次 5次 人数60201055假设汽车美容一次,公司成本为150元,根据所给数据,解答下列问题: (1)某会员仅消费两次,求这两次消费中,公司获得的平均利润;(2)以事件发生的频率作为相应事件发生的概率,设该公司为一位会员服务的平均利润为X 元,求X 的分布列和数学期望E (X ).解:(1)∵第一次消费为200元,利润为50元:第二次消费190元,利润为40元, ∴ 两次消费的平均利润为45元. (2)若该会员消费1次,则50X =,()500.6PX ==;若该会员消费2次,则5040452X +==,()450.2P X ==; 若该会员消费3次,则504030403X ++==,(40)0.1P X ==;若该会员消费4次,则50403020354X +++==,(35)0.05P X ==;若该会员消费5次,则5040302010305X ++++==,(30)0.05P X ==.故X 的分布列为:X 50 45 40 35 30 P0.60.20.10.050.05X 的期望为500.6450.2400.1350.05300.0546.25EX =⨯+⨯+⨯+⨯+⨯=(元). 说明:本题考查了离散型随机变量的分布列与数学期望,考查运用概率知识解决简单实际问题的能力、考查数据处理能力.19.“移动支付、高铁、网购、共享单车”被称为中国的“新四大发明”.为了帮助50岁以上的中老年人更快地适应“移动支付”,某机构通过网络组织50岁以上的中老年人学习移动支付相关知识.学习结束后,每人都进行限时答卷,得分都在[ 50,100 ]内.在这些答卷(有大量答卷)中,随机抽出200份,统计得分绘出频率分布直方图如图.(1)求出图中a 的值,并求样本中,答卷成绩在[ 80,90)上的人数;(2)以样本的频率为概率,从参加这次答卷的人群中,随机抽取4名,记成绩在80分以上(含80分)的人数为X ,求X 的分布列和期望.解:(1)依题意,(2a + 3a + 7a + 6a + 2a )×10 = 1,故a = 0.005, 故成绩在[ 80,90)上的频率为60a = 0.3. 答卷成绩在[ 80,90)上的人数为200×0.3 = 60.(2)由样本的频率分布直方图知成绩在80分以上(含80分)的频率为80a = 0.4. 依题意,24,5X B ⎛⎫- ⎪⎝⎭,故()04042381055625P X C ⎛⎫⎛⎫=== ⎪ ⎪⎝⎭⎝⎭,()31423216155625P X C ⎛⎫⎛⎫=== ⎪⎪⎝⎭⎝⎭, ()()22423442321623962,35562555625P X C P X C ⎛⎫⎛⎫⎛⎫⎛⎫====== ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭,)()22423442321623962,35562555625P X C P X C ⎛⎫⎛⎫⎛⎫⎛⎫====== ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭,。
新高考概率与统计主要考查统计分析、变量的相关关系,独立性检验、用样本估计总体及其特征的思想,以排列组合为工具,考查对五个概率事件的判断识别及其概率的计算。
试题考查特点是以实际应用问题为载体,小题部分主要是考查排列组合与古典概型,解答题部分主要考查独立性检验、超几何分布、离散型分布以及正态分布对应的数学期望以及方差。
概率的应用立意高,情境新,赋予时代气息,贴近学生的实际生活。
取代了传统意义上的应用题,成为高考中的亮点。
解答题中概率与统计的交汇是近几年考查的热点趋势,应该引起关注。
求解概率问题首先确定是何值概型再用相应公式进行计算,特别对于解互斥事件(独立事件)的概率时,要注意两点:(1)仔细审题,明确题中的几个事件是否为互斥事件(独立事件),要结合题意分析清楚这些事件互斥(独立)的原因;(2)要注意所求的事件是包含这些互斥事件(独立事件)中的哪几个事件的和(积),如果不符合以上两点,就不能用互斥事件的和的概率.离散型随机变量的均值和方差是概率知识的进一步延伸,是当前高考的热点内容.解决均值和方差问题,都离不开随机变量的分布列,另外在求解分布列时还要注意分布列性质的应用.捆绑法:题目中规定相邻的几个元素捆绑成一个组,当作一个大元素参与排列。
相离问题插空排:元素相离(即不相邻)问题,可先把无位置要求的几个元素全排列,再把规定的相离的几个元素插入上述几个元素的空位和两端。
定序问题缩倍法:在排列问题中限制某几个元素必须保持一定的顺序,可用缩小倍数的方法。
标号排位问题分步法:把元素排到指定位置上,可先把某个元素按规定排入,第二步再排另一个元素,如此继续下去,依次即可完成。
有序分配问题逐分法:有序分配问题指把元素分成若干组,可用逐步下量分组法。
对于二项式定理的应用,只要会求对应的常数项以及对应的n 项即可,但是应注意是二项式系数还是系数。
重难点04概率与统计新高考统计主要考查统计分析、变量的相关关系,独立性检验、用样本估计总体及其特征的思想,以排列组合为工具,考查对五个概率事件的判断识别及其概率的计算。
第1讲统计、统计案例考点一抽样方法——依特点,定方法1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少.2.系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.例 1 (1)某工厂利用随机数表对生产的700个零件进行抽样测试,先将700个零件进行编号001、002、…、699、700.从中抽取70个样本,下图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第5个样本编号是( ) 3321183429 7864560732 5242064438 1223435677 35789056428442125331 3457860736 2530073285 2345788907 23689608043256780843 6789535577 3489948375 2253557832 4577892345A.607 B.328C.253 D.007(2)[2022·江苏海安高三期末]某校高三年级的700名学生中,男生有385名,女生有315名.从中抽取一个容量为60的样本,则抽取男生和女生的人数分别为( ) A.31 29 B.32 28C.33 27 D.34 26归纳总结系统抽样和分层抽样中的计算方法(1)系统抽样个个体(有“零头”时①总体容量为N,样本容量为n,则要将总体均分为n段,每段Nn要先去掉).②若第一段抽取编号为k 的个体,则以后各段中抽取的个体编号依次为k +Nn ,…,k +(n -1)Nn .(2)分层抽样①适用于总体由差异明显的几部分组成的情况. ②当总体容量为N ,样本容量为n 时,有下列关系式:每层入样个体数该层个体总数=nN .提醒 无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量和总体容量的比值.对点训练1.[2022·江西二模]某工厂利用随机数表对生产的300个零件进行抽样测试,先将300个零件进行编号001,002,…,299,300.从中抽取30个样本,根据提供随机数表的第5行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第3个样本编号是( )844212 533134 578607 362530 073286 234578 890723 68960804 325678 084367 895355 773489 948375 225355 783245 77892345 A.072 B .134 C .007 D .2532.某社区卫生室为了了解该社区居民的身体健康状况,对该社区1 100名男性居民和900名女性居民按性别采用等比例分层随机抽样的方法进行抽样调查,抽取了一个容量为100的样本,则应从男性居民中抽取的人数为( )A .45B .50C .55D .60考点二 用样本估计总体——读懂图表,明确数字1.频率分布直方图的两个结论 (1)小长方形的面积=组距×频率组距=频率.(2)各小长方形的面积之和等于1. 2.统计中的四个数字特征(1)众数:在样本数据中,出现次数最多的那个数据.(2)中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.(3)平均数:样本数据的算术平均数,即x̅=________________.(4)方差与标准差方差:s2=_____________________________________________________,标准差:s=____________________________________________________.角度1统计图表的应用——读图、识图、整合信息例 2[2022·安徽省高三质检]2021年,全国居民人均可支配收入和消费支出均较上一年有所增长,结合如下统计图表,下列说法中错误的是( )A.2017~2021年全国居民人均可支配收入逐年递增B.2021年全国居民人均消费支出构成中教育文化娱乐占比低于交通通信占比C.2020年全国居民人均可支配收入较前一年下降D.2021年全国居民人均消费支出构成中食品烟酒和居住占比超过50%归纳总结从图表中挖掘信息(1)折线图,条形图破解此类题的关键:一是从总体上看折线的变化是总体升高还是下降,或是趋于平稳.二是看相邻点的变化:是陡还是缓,是升还是降.三是看最高点和最低点.(2)表格破解此类题只需过“双关”:一是看表关,即会观察频数分布表,读出相关的数据信息;二是定义关,即会利用众数、中位数的定义,求出样本中的众数、中位数,从而估计出总体中的相关数据.(3)“饼形图”将整体分成若干区域来表示所占的比例:即其圆心角的大小与360°的比值.角度2用样本的数字特征估计总体的数字特征——平均数、方差、准确计算例 3[2021·全国乙卷]某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:旧设备和新设备生产产品的该项指标的样本平均数分别记为x̅和y̅,样本方差分别记为s12和s22.(1)求x̅̅̅,x̅̅̅,x12,x22;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果x̅̅̅−x̅̅̅≥2√x12+x22,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显10著提高).归纳总结(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.对点训练1.[2022·全国乙卷(文)]分别统计了甲、乙两位同学16周的各周课外体育运动时长(单位:h),得如下茎叶图:则下列结论中错误的是( )A.甲同学周课外体育运动时长的样本中位数为7.4B.乙同学周课外体育运动时长的样本平均数大于8C.甲同学周课外体育运动时长大于8的概率的估计值大于0.4D.乙同学周课外体育运动时长大于8的概率的估计值大于0.62.[2022·成都七中高三一模]新中国成立至今,我国一共进行了7次全国人口普查,历次普查得到的全国人口总数如图1所示,城镇人口比重如图2所示.下列结论错误的有( )A.与前一次全国人口普查对比,第五次总人数增长量高于第四次总人数增长量B .对比这7次全国人口普查的结果,我国城镇人口数量逐次递增C .第三次全国人口普查城镇人口数量低于2亿D .第七次全国人口普查城镇人口数量超过第二次全国人口普查总人口数考点三 回归分析的实际应用——准确计算,数据分析线性回归方程方程y ̂=b ̂x +a ̂称为线性回归方程,其中b ̂=,a ̂=y ̅−b ̂x ̅;(x ̅,y ̅)称为样本中心点.例 4[2022·衡水市第二中学一模]计算机和互联网的出现使得“千里眼”“顺风耳”变为现实.现在,5G 的到来给人们的生活带来颠覆性的变革,某科技创新公司基于领先技术的支持,5G 经济收入在近一个时期内逐月攀升,如图是该创新公司2021年1至7月份的5G 经济收入(单位:千万)的折线图.(1)由折线图初步判断,可用线性回归模型拟合y 与t 的关系,请建立y 关于t 的回归方程;(2)若该创新公司定下了2021年内5G 经济月收入突破2千万的宏伟目标,请你预测该公司能否达到目标?参考数据:∑y i 7i =1=9.31,∑t i y i 7i =1=40.18参考公式:回归方程y ̂=a ̂+b̂t 中斜率和截距的最小二乘法估计公式分别为b ̂=,â=y̅−b̂t̅.归纳总结求线性回归方程的方法(1)若所求的线性回归方程是在选择题中,常利用回归直线ŷ=b̂x+â必经过样本点的中心(x̅,y̅)快速选择.(2)若所求的线性回归方程是在解答题中,则求线性回归方程的一般步骤为:对点训练[2022·辽宁沈阳二中二模]随着我国经济的发展,人们生活水平的提高,汽车的保有量越来越高.汽车保险费是人们非常关心的话题.保险公司规定:上一年的出险次数决定了下一年的保费倍率,具体关系如下表:经验表明新车商业车险保费与购车价格有较强的线性相关关系,下面是随机采集的8组数据(x,y)(其中x(万元)表示购车价格,y(元)表示商业车险保费):(8,2 150),(11,2 400),(18,3 140),(24,3 750),(26,4 000),(31,4 560),(37,5 500),(45,6 500).设由这8组数据得到的线性回归方程为ŷ=b̂x+1 055.(1)求b̂的值;(2)某车主蔡先生购买一辆价值20万元的新车.①估计该车主蔡先生购车时的商业车险保费.②若该车今年保险期间内已出过一次险,现在又被刮花了,蔡先生到4S店询价,预计修车费用为800元,保险专员建议蔡先生自费(即不出险),你认为蔡先生是否应该接受建议?并说明理由.(假设该车辆下一年与上一年购买相同的商业车险产品进行续保).考点四独立性检验的实际应用——阅读理解,统计推断随机变量,K2=(a+b+c+d)(ad−bc)2(a+b)(c+d)(a+c)(b+d)若K2>3.841,则有95%的把握说两个事件有关;若K2>6.635,则有99%的把握说两个事件有关.例 5[2022·全国甲卷]甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:K2=n(ad−bc)2,(a+b)(c+d)(a+c)(b+d)归纳总结独立性检验的解题步骤(1)根据样本数据列出2×2列联表.(2)计算K2的观测值k,查下表确定临界值k0.(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.对点训练[2021·全国甲卷]甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:K2=n(ad−bc)2,(a+b)(c+d)(a+c)(b+d)第1讲统计、统计案例考点一[例1] 解析:(1)从表中第5行第6列开始向右读取数据,得到的数据中有两个超出范围,一个重复,抽取的5个样本编号分别是:253,313,457,007,328,所以得到的第5个样本编号是328.选B.(2)设样本中的男生和女生的人数分别为m、n,由分层抽样可得m385=n315=60700,解得{m=33n=27.故选C.答案:(1)B (2)C对点训练1.解析:从表中第5行第6列开始向右读取数据,依次为:253(第1个),313(大于300,不取),457(大于300,不取),860(大于300,不取),736(大于300,不取),253(与253重复,不取),007(第2个),328(大于300,不取),623(大于300,不取),457(大于300,不取),889(大于300,不取),072(第3个).故得到的第3个样本编号是072.故选A.答案:A2.解析:应从男性居民中抽取的人数为100×11001100+900=55.故选C.答案:C考点二2.(3)1n(x1+x2+…+x n)(4)1n[(x1-x̅)2+(x2-x̅)2+…+(x n-x̅)2]√1n[(x1−x̅)2+(x2−x̅)2+⋯+(x n−x̅)2][例2] 解析:根据图1可知2017~2021年全国居民人均可支配收入逐年递增,故A 正确,C错误;根据图2可知,2021年全国居民人均消费支出构成中教育文化娱乐占比为10.8%,交通通信占比为13.1%,故B正确;食品烟酒和居住占比分别为29.8%,23.4%,由29.8%+23.4%=53.2%>50%,故D 正确.答案:C[例3] 解析:(1)由题中数据可得: x ̅=9.8+10.3+10.0+10.2+9.9+9.8+10.0+10.1+10.2+9.710=10.0, y ̅=10.1+10.4+10.1+10.0+10.1+10.3+10.6+10.5+10.4+10.510=10.3,s 12=110[(9.8-10.0)2+(10.3-10.0)2+(10.0-10.0)2+(10.2-10.0)2+(9.9-10.0)2+(9.8-10.0)2+(10.0-10.0)2+(10.1-10.0)2+(10.2-10.0)2+(9.7-10.0)2]=0.036,s 22=110[(10.1-10.3)2+(10.4-10.3)2+(10.1-10.3)2+(10.0-10.3)2+(10.1-10.3)2+(10.3-10.3)2+(10.6-10.3)2+(10.5-10.3)2+(10.4-10.3)2+(10.5-10.3)2]=0.04.(2)由(1)知y ̅−x ̅=10.3-10.0=0.3,而2√x 12+x 2210=2 √0.036+0.0410=2√0.007 6,则0.3=√0.09>2√0.007 6=√0.030 4,所以可判断新设备生产产品的该项指标的均值较旧设备有显著提高.对点训练1.解析:对于A 选项,将甲同学周课外体育运动时长的样本从小到大排列,其样本容量为16,中间两个样本为7.3和7.5,所以中位数为7.3+7.52=7.4,所以A 不符合题意.对于B 选项,(方法一)乙同学周课外体育运动时长的样本平均数为116×(6.3+7.4+7.6+8.1+8.2+8.2+8.5+8.6+8.6+8.6+8.6+9.0+9.2+9.3+9.8+10.1)≈8.5,所以B 不符合题意.(方法二)由乙的样本可知,小于8的样本有6.3,7.4,7.6,其他样本均大于8.又因为10.1+6.32>8,9.8+7.42>8,9.3+7.62>8,所以乙同学周课外体育运动时长的样本平均数大于8,所以B 正确.对于C 选项,甲同学周课外体育运动时长大于8的样本有8.1,8.2,8.4,8.6,9.2,9.4,共6个,则甲同学周课外运动时长大于8的概率的估计值为616=38<0.4,所以C 符合题意.对于D 选项,乙同学周课外体育运动时长大于8的样本有13个,则乙同学周课外运动时长大于8的概率的估计值为1316>0.6,所以D 不符合题意.故选C.答案:C2.解析:由柱状图知,与前一次全国人口普查对比,第五次总人数增长量为126 583-113 368=13 215(万人),第四次总人数增长量为113 368-100 818=12 550(万人),A 正确;由折线图知,对比这7次全国人口普查结果,我国城镇人口数量逐次递增,B 正确;由柱状图和折线图知,第三次全国人口普查城镇人口数约为100 818×20.91%>20 000(万人),C 不正确;由柱状图和折线图知,第七次全国人口普查城镇人口数约为141 178×63.89%>70 000(万人),D 正确.故选C.答案:C考点三[例4] 解析: (1)由题意得:y ̅==9.317=1.33,t̅=1+2+3+4+5+6+77=4, ∴b̂===40.18−28×1.33140−7×16=0.105,a ̂=y ̅−b ̂t ̅=1.33-0.105×4=0.91, ∴y 关于t 的回归方程为y ̂=0.105t +0.91.(2)当t =12时,y ̂=0.105×12+0.91=2.17>2,∴该公司能达到目标.对点训练解析:(1)x ̅=18×(8+11+18+24+26+31+37+45)=2008=25(万元),y ̅=18×(2 150+2 400+3 140+3 750+4 000+4 560+5 500+6 500)=32 0008=4 000(元),回归直线y ̂=b ̂x +1 055经过样本点的中心(x ̅,y ̅),即(25,4 000),所以b ̂=y ̅−1 055x ̅=4 000−1 05525=117.8.(2)①价值为20万元的新车的商业车险保费预报值为117.8×20+1 055=3 411(元). ②由于该车已出过一次险,若再出一次险,则保费增加25%,即增加 3 411×25%=852.75(元).因为852.75>800,所以应该接受建议.考点四[例5] 解析:(1)A 公司一共调查了260个班次,其中有240个班次准点,故A 公司甲、乙两城之间的长途客车准点的概率是240260=1213.B 公司一共调查了240个班次,其中有210个班次准点,故B 公司甲、乙两城之间的长途客车准点的概率是210240=78.(2)因为K 2=500×(240×30−20×210)2260×240×450×50=12539≈3.205>2.706,所以有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.对点训练解析:(1)根据题表中数据知,甲机床生产的产品中一级品的频率是150200=0.75,乙机床生产的产品中一级品的频率是120200=0.6.(2)根据题表中的数据可得 K 2=400×(150×80−120×50)2200×200×270×130=40039≈10.256.因为10.256>6.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.。