安徽省2020年高考数学第二轮复习 专题升级训练17 概率、统计与统计案例 理
- 格式:doc
- 大小:2.87 MB
- 文档页数:4
教学资料范本【2020最新】数学高考(理)二轮专题复习:第一部分专题七概率与统计1-7-3-含答案编辑:__________________时间:__________________一、选择题(本题共6小题,每小题5分,共30分)1.(20xx·山东烟台模拟)将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为( )A.26,16,8 B.25,17,8C.25,16,9 D.24,17,9解析:选 B.由题意知间隔为=12,故抽到的号码为12k+3(k=0,1,…,49),列出不等式可解得:第Ⅰ营区抽25人,第Ⅱ营区抽17人,第Ⅲ营区抽8人.2.(20xx·山东济宁模拟)某班主任对全班50名学生进行了作业量的调查,数据如下表:认为作业量大认为作业量不大总计男生18927女生81523总计262450 若推断“学生的性别与认为作业量大有关”,则这种推断犯错误的概率不超过( )A.0.01 B.0.025C.0.10 D.0.05解析:选B.K2=≈5.059>5.024,因为P(K2>5.024)=0.025,所以这种推断犯错误的概率不超过0.025.3.一组数据共有7个数,记得其中有10,2,5,2,4,2,还有一个数没记清,但知道这组数的平均数、中位数、众数依次成等差数列,这个数的所有可能值的和为( )A.9 B.3C.17 D.-11解析:选A.设这个数为x,则平均数为,众数为2,若x≤2,则中位数为2,此时4=+2,x=-11;若2<x<4,则中位数为x,此时2x=+2,x=3;若x≥4,则中位数为4,2×4=+2,x=17,所有可能值为-11,3,17,故其和为-11+3+17=9.4.(20xx·广东广州模拟)如图是民航部门统计的20xx年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是( )A.深圳的变化幅度最小,北京的平均价格最高B.深圳和厦门的春运期间往返机票价格同去年相比有所下降C.平均价格从高到低居于前三位的城市为北京、深圳、广州D.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门解析:选 D.由图可知深圳对应的小黑点最接近0%,故变化幅度最小,北京对应的条形图最高,则北京的平均价格最高,故A正确;由图可知深圳和厦门对应的小黑点在0%以下,故深圳和厦门的价格同去年相比有所下降,故B正确;由图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C正确;由图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D错误.选D.5.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元)456789销量y(件)908483807568由表中数据,求得线性回归方程=-4x+,若在这些样本点中任取一点,则它在回归直线左下方的概率为( )A. B.13C. D.23解析:选B.由表中数据得=6.5,=80.由(,)在直线=-4x+上,得=106.即线性回归方程为=-4x+106.经过计算只有(5,84)和(9,68)在直线的下方,故所求概率为=.6.(20xx·高考全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15℃,B点表示四月的平均最低气温约为5℃.下面叙述不正确的是( )A.各月的平均最低气温都在0℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20℃的月份有5个解析:选D.依据给出的雷达图,逐项验证.对于选项A,由图易知各月平均最低气温都在0℃以上,A正确;对于选项B,七月的平均最高气温点与平均最低气温点间的距离大于一月的平均最高气温点与平均最低气温点间的距离,所以七月的平均温差比一月的平均温差大,B正确;对于选项C ,三月和十一月的平均最高气温均为10℃,所以C 正确;对于选项D ,平均最高气温高于20℃的月份有七月、八月,共2个月份,故D 错误.二、填空题(本题共3小题,每小题5分,共15分)7.(20xx·山西太原模拟)为了研究雾霾天气的治理,某课题组对部分城市进行空气质量调查,按地域特点把这些城市分成甲、乙、丙三组,已知三组城市的个数分别为4,y ,z ,依次构成等差数列,且4,y ,z +4成等比数列,若用分层抽样抽取6个城市,则乙组中应抽取的城市个数为________.解析:由题意可得即⎩⎨⎧ y =2+z 2,y2=4z +16,解得z =12,或z =-4(舍去),故y =8.所以甲、乙、丙三组城市的个数分别为4,8,12.因为一共要抽取6个城市,所以抽样比为=.故乙组城市应抽取的个数为8×=2.答案:28.如图是我市某小区100户居民20xx 年月平均用水量(单位:t)的频率分布直方图的一部分,则该小区20xx 年的月平均用水量的中位数的估计值为________.解析:由图可知,前五组的频率依次为0.04,0.08,0.15,0.22,0.25,因此前五组的频数依次为4,8,15,22,25,由中位数的定义,应是第50个数与第51个数的算术平均数,而前四组的频数和:4+8+15+22=49,是第五组中第1个数与第2个数的算术平均数,中位数是2+(2.5-2)×=2.02.答案:2.029.(20xx·山东潍坊模拟)20xx年11月某校高三20xx名同学参加了一次数学调研测试,利用简单随机抽样从中抽取了部分同学的成绩进行统计分析,由于工作人员的失误,学生成绩分析的茎叶图和频率分布直方图均受到不同程序的破坏,但可见部分信息如图所示,则总体中分数在[80,90)内的人数为________.解析:由茎叶图可知分数在[50,60)内的频数为2,由频率分布直方图可知,分数在[50,60)内的频率为10×0.008=0.08,所以样本容量为n==25.由茎叶图可得,分数在[60,70)内的频数为7,分数在[70,80)内的频数为10.由频率分布直方图可知,分数在[90,100)和[50,60)内的频率相等,所以频数也相等,故分数在[90,100)内的频数为2.所以分数在[80,90)内的频数为25-(2+7+10+2)=4,对应的频率为=0.16.所以总体中分数在[80,90)内的人数为2 000×0.16=320.答案:320三、解答题(本题共3小题,每小题12分,共36分)10.(20xx·高考四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),……,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数.说明理由;(3)估计居民月均用水量的中位数.解:(1)由频率分布直方图,可知:月均用水量在[0,0.5)的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5)等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.(2)由(1)知,100位居民月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.(3)设中位数为x吨.因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5.而前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5.所以2≤x<2.5.由0.50×(x-2)=0.5-0.48,解得x=2.04.故可估计居民月均用水量的中位数为2.04吨.11.(20xx·山东潍坊模拟)寒假期间,很多同学都喜欢参加“迎春花市摆档口”的社会实践活动,下表是今年某个档口某种精品的销售数据.日期2月14日2月15日2月16日2月17日2月18日天气小雨小雨阴阴转多云多云转阴销售量(件)白天3933434154 晚上4246505161已知摊位租金900元/档,精品进货价为9元/件,售价为12元/件,剩余精品可以以进货价退回厂家.(1)画出表中10个销售数据的茎叶图,并求出这组数据的中位数;(2)从表中可知:2月14、15日这两个下雨天的平均销售量为80件/天,后三个非雨天的平均销售量为100件/天,以此数据为依据,除天气外,其他条件不变.假如明年花市5天每天下雨的概率为,且每天是否下雨相互独立,你准备在迎春花市租赁一个档口销售同样的精品,推测花市期间所租档口大约能售出多少件精品?(3)若所获利润大于500元的概率超过0.6,则称为“值得投资”,那么在(2)的条件下,你认为“值得投资”吗?解:(1)由已知得如下茎叶图,中位数为=44.5.3 3 94 1 2 3 65 0 1 461(2)设明年花市期间下雨天数为X,由题知X的所有可能取值为0,1,2,3,4,5,且X~B,E(X)=5×=1.所以估计明年花市期间,可能有1天为下雨天,4天为非雨天,据此推测花市期间所租档口大约能售出的精品数为1×80+4×100=480(件).(3)解法一:设花市期间所租档品获得的利润为L,则L=[80X+100(5-X)]×(12-9)-900=600-60X,所以由600-60X>500,得X<,又X∈N,所以X=0,1,因为P(X=0)+P(X=1)=C+C=>=0.6,所以在(2)的条件下,可以认为“值得投资”.解法二:设花市期间所租档口获得的利润为L元,由题知L=3Y-900,则由3Y-900>500,得Y>>=460.所以利润大于500元时Y可能的取值为480或500.由(2)中法二知P(Y=480)+P(Y=500)=+=>=0.6,所以在(2)的条件下,可以认为“值得投资”.12.(20xx·高考全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取16个零件,并测量其尺寸(单位:cm).根据长期生产经验,可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布N(μ,σ2).(1)假设生产状态正常,记X表示一天内抽取的16个零件中其尺寸在(μ-3σ,μ+3σ)之外的零件数,求P(X≥1)及X的数学期望;(2)一天内抽检零件中,如果出现了尺寸在(μ-3σ,μ+3σ)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①试说明上述监控生产过程方法的合理性;②下面是检验员在一天内抽取的16个零件的尺寸:9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.0410.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95经计算得=xi=9.97,s==≈0.212,其中xi为抽取的第i个零件的尺寸,i=1,2, (16)用样本平均数作为μ的估计值,用样本标准差s作为σ的估计值,利用估计值判断是否需对当天的生产过程进行检查?剔除(-3,+3)之外的数据,用剩下的数据估计μ和σ(精确到0.01).附:若随机变量Z服从正态分布N(μ,σ2),则P(μ-3σ<Z<μ+3σ)=0.997 4,0.997 416≈0.959 2,≈0.09.解:(1)抽取的一个零件的尺寸在(μ-3σ,μ+3σ)之内的概率为0.997 4,从而零件的尺寸在(μ-3σ,μ+3σ)之外的概率为0.002 6,故X ~B(16,0.002 6).因此P(X≥1)=1-P(X =0)=1-0.997 416≈0.040 8.X 的数学期望EX =16×0.002 6=0.041 6.(2)①如果生产状态正常,一个零件尺寸在(μ-3σ,μ+3σ)之外的概率只有0.002 6,一天内抽取的16个零件中,出现尺寸在(μ-3σ,μ+3σ)之外的零件的概率只有0.040 8,发生的概率很小,因此一旦发生这种情况,就有理由认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的.②由=9.97,s≈0.212,得μ的估计值为=9.97,σ的估计值为=0.212,由样本数据可以看出有一个零件的尺寸在(-3,+3)之外,因此需对当天的生产过程进行检查.剔除(-3,+3)之外的数据9.22,剩下数据的平均数为×(16×9.97-9.22)=10.02.因此μ的估计值为10.02.∑16i =1x =16×0.2122+16×9.972≈1 591.134, 剔除(-3,+3)之外的数据9.22,剩下数据的样本方差为×(1 591.134-9.222-15×10.022)≈0.008,因此σ的估计值为≈0.09.。
2020 高考数学二轮复习 概率与统计概率内容的新概念 多,相近概念容易混淆,本 就学生易犯 作如下 :型一 “非等可能 ”与 “等可能 ”混同 例 1 两枚骰子,求所得的点数之和 6 的概率.解两枚骰子出 的点数之和2, 3, 4, ⋯ ,12 共 11 种基本事件,所以概率P=111剖析以上 11 种基本事件不是等可能的,如点数和 2 只有 (1, 1),而点数之和6 有 (1, 5)、(2, 4)、 (3, 3)、 (4,2)、 (5, 1)共 5 种.事 上, 两枚骰子共有 36 种基本事件,且是等可能的,所以“所得点数之和6”的概率 P= 5.36型二 “互斥 ”与 “ 立 ”混同例 2把 、黑、白、4 牌随机地分 甲、乙、丙、丁4 个人,每个人分得1 ,事件“甲分得 牌”与“乙分得 牌”是()A . 立事件B .不可能事件C .互斥但不 立事件D .以上均不解A剖析 本 的原因在于把 “互斥 ”与 “ 立”混同,二者的 系与区 主要体 在 :(1)两事件 立,必定互斥,但互斥未必 立; (2) 互斥概念适用于多个事件,但 立概念只适用于两个事件; (3) 两个事件互斥只表明 两个事件不能同 生,即至多只能 生其中一个,但可以都不 生;而两事件 立 表示它 有且 有一个 生.事件 “甲分得 牌 ”与 “乙分得 牌 ”是不能同 生的两个事件,两个事件可能恰有一个 生,一个不 生,可能两个都不 生,所以 C .型三 例 3解“互斥 ”与 “独立 ”混同甲投 命中率 O .8,乙投 命中率 0.7,每人投 3 次,两人恰好都命中 2 次的概率是多少 ?“甲恰好投中两次” 事件 A , “乙恰好投中两次” 事件B , 两人都恰好投中两次事件A+B , P(A+B)=P(A)+P(B): c 32 0.820.2 c 32 0.720.3 0.825剖析本 的原因是把相互独立同 生的事件当成互斥事件来考 , 将两人都恰好投中2 次理解 “甲恰好投中两次”与 “乙恰好投中两次 ”的和.互斥事件是指两个事件不可能同 生;两事件相互独立是指一个事件的 生与否 另一个事件 生与否没有影响,它 然都描 了两个事件 的关系,但所描 的关系是根本不同.解:“甲恰好投中两次 ” 事件 A ,“乙恰好投中两次” 事件 B ,且 A , B 相互独立,两人都恰好投中两次 事件A ·B ,于是 P(A ·B)=P(A) ×P(B)= 0.169类型四例 4错解“条件概率 P(B / A)”与“积事件的概率P(A·B)”混同袋中有 6 个黄色、 4 个白色的乒乓球,作不放回抽样,每次任取一球,取 2 次,求第二次才取到黄色球的概率.记“第一次取到白球”为事件A,“第二次取到黄球”为事件B,”第二次才取到黄球”为事件62C,所以 P(C)=P(B/A)=.93剖析本题错误在于 P(A B)与 P(B/A) 的含义没有弄清 , P(A B) 表示在样本空间S 中 ,A 与 B 同时发生的概率;而P( B/A )表示在缩减的样本空间S A中,作为条件的 A 已经发生的条件下事件 B 发生的概率。
第2讲统计、统计案例[全国卷3年考情分析]年份全国卷Ⅰ全国卷Ⅱ全国卷Ⅲ2019数字特征·T5频率分布直方图、均值的应用·T172018统计图的识别与分析·T3折线图、线性回归方程模型问题·T18茎叶图的应用及独立性检验·T182017频率分布直方图、独立性检验·T18折线图的识别与分析·T3(1)统计与统计案例在选择题或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在3~4题的位置.(2)统计与统计案例在解答题中多出现在第18或19题位置,考查茎叶图、直方图、数字特征及统计案例,多以计算为主.考点一抽样方法[题组练透]1.福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个两位号码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开始,从左到右依次读取数据,则第四个被选中的红色球号码为()81 47 23 68 63 93 17 90 12 69 86 81 62 93 50 60 91 33 75 85 61 39 8506 32 35 92 46 22 54 10 02 78 49 82 18 86 70 48 05 46 88 15 19 20 49A.12B.33C.06D.16解析:选C被选中的红色球号码依次为17,12,33,06,32,22.所以第四个被选中的红色球号码为06,故选C.2.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为() A.73 B.78C.77 D.76解析:选B 样本的分段间隔为8016=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.故选B.3.某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:最喜爱 喜爱 一般 不喜欢 4 8007 2006 4001 600电视台为了了解观众的具体想法和意见,打算从中抽选100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选的人数分别为( )A.25,25,25,25B.48,72,64,16C.20,40,30,10D.24,36,32,8解析:选D 因为抽样比为10020 000=1200, 所以每类人中应抽选的人数分别为4 800×1200=24,7 200×1200=36,6 400×1200=32,1 600×1200=8.故选D. 4.某班共有学生56人,学号依次为1,2,3,…,56,现用系统抽样的方法抽取一个容量为4的样本,已知学号为2,30,44的同学在样本中,则样本中还有一位同学的学号为________.解析:由题意得,将56人按学号从小到大分成4组,则分段间隔为14,所以抽取的学号依次为2,16,30,44,故还有一位同学的学号为16.答案:16[解题方略] 系统抽样和分层抽样中的计算 (1)系统抽样①总体容量为N ,样本容量为n ,则要将总体均分成n 组,每组Nn 个(有零头时要先去掉).②若第一组抽到编号为k 的个体,则以后各组中抽取的个体编号依次为k +Nn ,…,k+(n -1)Nn.(2)分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比. 考点二 用样本估计总体[例1](2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).[解](1)由已知得0.70=a+0.20+0.15,故a=0.35,b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.[解题方略]1.方差的计算与含义(1)计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.(2)含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.2.从频率分布直方图中得出有关数据的方法 频率 频率分布直方图中横轴表示组数,纵轴表示频率组距,频率=组距×频率组距频率比 频率分布直方图中各小长方形的面积之和为1,各小长方形高的比也就是频率比 众数 最高小长方形底边中点的横坐标中位数 平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标 平均数频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和[多练强化]1.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量,如下表所示:用电量/度 120 140 160 180 200 户数23582则这20户家庭该月用电量的众数和中位数分别是( ) A .180,170 B.160,180 C .160,170D.180,160解析:选A 用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A.2.(2019·贵阳模拟)如图的折线图是某超市2018年一月份至五月份的营业额与成本数据,根据该折线图,下列说法正确的是( )A .该超市2018年的前五个月中三月份的利润最高B.该超市2018年的前五个月的利润一直呈增长趋势C.该超市2018年的前五个月的利润的中位数为0.8万元D.该超市2018年前五个月的总利润为3.5万元解析:选D第1个月利润为3-2.5=0.5(万元),第2个月利润为3.5-2.8=0.7(万元),第3个月利润为3.8-3=0.8(万元),第4个月利润为4-3.5=0.5(万元),第5个月利润为5-4=1(万元),其中第5个月利润最高,为1万元,所以A错误.第4个月利润相比第3个月在下降,所以B错误.前五个月的利润的中位数为0.7万元,所以C错误,前五个月的总利润为0.5+0.7+0.8+0.5+1=3.5(万元),所以D正确.3.(2019·武昌区调研考试)对参加某次数学竞赛的1 000名选手的初赛成绩(满分:100分)作统计,得到如图所示的频率分布直方图.(1)根据直方图完成以下表格;成绩[50,60)[60,70)[70,80)[80,90)[90,100]频数(2)求参赛选手初赛成绩的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)如果从参加初赛的选手中选取380人参加复赛,那么如何确定进入复赛选手的成绩?解:(1)填表如下:成绩[50,60)[60,70)[70,80)[80,90)[90,100]频数50150350350100(2)平均数为55×0.05+65×0.15+75×0.35+85×0.35+95×0.1=78,方差s2=(-23)2×0.05+(-13)2×0.15+(-3)2×0.35+72×0.35+172×0.1=101.(3)进入复赛选手的成绩为80+350-(380-100)350×10=82(分),所以初赛成绩为82分及其以上的选手均可进入复赛.(说明:回答82分以上,或82分及其以上均可) 考点三 统计案例题型一 回归分析在实际问题中的应用[例2] (2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,答出其中任意一种或其他合理理由均可) [解题方略] 求回归直线方程的方法(1)若所求的回归直线方程是在选择题中,常利用回归直线y ^=b ^x +a ^必经过样本点的中心(x ,y )快速选择.(2)若所求的回归直线方程是在解答题中,则求回归直线方程的一般步骤为:题型二 独立性检验在实际问题中的应用[例3] (2019·武汉市调研测试)2019年,在庆祝中华人民共和国成立70周年之际,又迎来了以“创军人荣耀,筑世界和平”为口号的第七届世界军人运动会(以下简称“军运会”).据悉,这次军运会将于2019年10月18日至27日在美丽的江城武汉举行,届时将有来自100多个国家的近万名军人运动员参赛.相对于奥运会、亚运会等大型综合赛事,军运会或许对很多人来说还很陌生,所以武汉某高校为了在学生中更广泛地推介普及军运会相关知识内容,特在网络上组织了一次“我所知晓的武汉军运会”知识问答比赛.为便于对答卷进行对比研究,组委会抽取了1 000名男生和1 000名女生的答卷,他们的成绩(单位:分)频率分布直方图如下:(注:答卷满分为100分,成绩≥80的答卷为“优秀”等级)(1)从现有1 000名男生和1 000名女生的答卷中各取一份,分别求答卷成绩为“优秀”等级的概率;(2)求下面列联表中a,b,c,d的值,并根据列联表回答:能否在犯错误的概率不超过0.025的前提下认为“答卷成绩为‘优秀’等级与性别有关”?男女总计优秀 a b a+b非优秀 c d c+d总计 1 000 1 000 2 000(3)根据男、女生成绩频率分布直方图,对他们的成绩的优劣进行比较.附:P(K2≥k0)0.050.0250.010k0 3.841 5.024 6.635K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.[解](1)男生答卷成绩为“优秀”等级的概率P=(0.058+0.034+0.014+0.010)×5=0.58,女生答卷成绩为“优秀”等级的概率P1=(0.046+0.034+0.016+0.010)×5=0.53.(2)男女总计优秀 580 530 1 110 非优秀 420 470 890 总计1 0001 0002 000∴a =580,b =530,c =420,d =470. 由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )得,K 2=2 000×(580×470-530×420)21 110×890×1 000×1 000≈5.061>5.024,∴在犯错误的概率不超过0.025的前提下认为“答卷成绩为‘优秀’等级与性别有关”.(3)根据男、女生成绩频率分布直方图可得,男、女生成绩的中位数均在80到85之间,但男生的成绩分布集中程度较女生成绩分布集中程度高,因此,可以认为男生的成绩较好且稳定.[解题方略] 独立性检验的关键(1)根据2×2列联表准确计算K 2的观测值k ,若2×2列联表没有列出来,要先列出此表.(2)K 2的观测值k 越大,对应假设事件H 0成立(两类变量相互独立)的概率越小,H 0不成立的概率越大.[多练强化]1.(2019·福建质量检测)“工资条里显红利,个税新政入民心”.随着2019年新年钟声的敲响,我国自1980年以来,力度最大的一次个人所得税(简称个税)改革迎来了全面实施的阶段.某IT 从业者为了解自己在个税新政下能享受多少税收红利,绘制了他在26岁~35岁(2009年~2018年)之间各年的月平均收入y (单元:千元)的散点图:(1)由散点图知,可用回归模型y =b ln x +a 拟合y 与x 的关系,试根据有关数据建立y 关于x 的回归方程;(2)如果该IT 从业者在个税新政下的专项附加扣除为3 000元/月,试利用(1)的结果,将月平均收入视为月收入,根据新旧个税政策,估计他36岁时每个月少缴纳的个人所得税.附注:1.参考数据:∑i =110x i =55,∑i =110y i =155.5,∑i =110(x i -x )2=82.5,∑i =110(x i -x )(y i -y )=94.9,∑i =110t i =15.1,∑i =110(t i -t )2=4.84,∑i =110(t i -t )(y i -y )=24.2,其中t i =ln x i ;取ln 11=2.4,ln 36=3.6.2.参考公式:回归方程v =bu +a 中斜率和截距的最小二乘估计分别为b ^=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,a ^=v -b ^u .3.新旧个税政策下每月应纳税所得额(含税)计算方法及税率表如下:旧个税税率表(个税起征点3 500元) 新个税税率表(个税起征点5 000元) 缴税级数每月应纳税所得额(含税)=收入-个税起征点 税率(%)每月应纳税所得额(含税)=收入-个税起征点-专项附加扣除税率(%) 1不超过1 500元的部分 3不超过3 000元的部分 3 2超过1 500元至4 500元的部分10超过3 000元至12 000元的部分103超过4 500元至9 000元的部分20 超过12 000元至25 000元的部分204超过9 000元至35 000元的部分25 超过25 000元至35 000元的部分255 超过35 000元至55 000元的部分30 超过35 000元至55 000元的部分30 ......... ......解:(1)令t =ln x ,则y =bt +a .b ^=∑i =110(t i -t )(y i -y )∑i =110(t i -t )2=24.24.84=5, y =∑i =110y i10=155.510=15.55,t =∑i =110t i10=15.110=1.51,a ^=y -b ^t =15.55-5×1.51=8, 所以y 关于t 的回归方程为y =5t +8.因为t =ln x ,所以y 关于x 的回归方程为y =5ln x +8. (2)由(1)得该IT 从业者36岁时月平均收入为 y =5ln 11+8=5×2.4+8=20(千元). 旧个税政策下每个月应缴纳的个人所得税为1 500×3%+3 000×10%+4 500×20%+(20 000-3 500-9 000)×25%=3 120(元). 新个税政策下每个月应缴纳的个人所得税为3 000×3%+(20 000-5 000-3 000-3 000)×10%=990(元).故根据新旧个税政策,该IT 从业者36岁时每个月少缴纳的个人所得税为3 120-990=2 130(元).2.(2019·江西八所重点中学联考)2019年2月25日,第11届罗马尼亚数学大师赛(简称RMM)于罗马尼亚首都布加勒斯特闭幕,最终成绩揭晓,以色列选手排名第一,而中国队无一人获得金牌,最好成绩是获得银牌的第15名,总成绩排名第6.在分量极重的国际数学奥林匹克(IMO)比赛中,过去拿冠军拿到手软的中国队,已经连续4年没有拿到冠军了.人们不禁要问“中国奥数究竟怎么了?”,一时间关于各级教育主管部门是否应该下达“禁奥令”成为社会讨论的热点.某重点高中培优班共50人,现就这50人对“禁奥令”的态度进行问卷调查,得到如下的列联表:不应下“禁奥令” 应下“禁奥令” 总计 男生 5 女生 10 总计50若按对“禁奥令”的态度采用分层抽样的方法从50人中抽出10人进行重点调查,知道其中认为不应下“禁奥令”的同学共有6人.(1)请将上面的列联表补充完整,并判断是否有99%的把握认为对下“禁奥令”的态度与性别有关?说明你的理由.(2)现从这10人中抽出2名男生、2名女生,记此4人中认为不应下“禁奥令”的人数为ξ,求ξ的分布列和数学期望.参考公式与数据:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )P (K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.8416.63510.828解:(1)由题意将列联表补充如下:不应下“禁奥令”应下“禁奥令”总计 男生 20 5 25 女生 10 15 25 总计302050所以K 2=50×(20×15-5×10)225×25×30×20=253≈8.333>6.635, 所以有99%的把握认为对下“禁奥令”的态度与性别有关.(2)由题意,可知在这10人中,男、女生各5人,其中男生有4人、女生有2人认为不应下“禁奥令”,ξ的所有可能取值有1,2,3,4.P (ξ=1)=C 14C 11C 23C 25C 25=12100;P (ξ=2)=C 24C 23+C 14C 11C 12C 13C 25C 25=42100; P (ξ=3)=C 14C 11C 22+C 24C 12C 13C 25C 25=40100; P (ξ=4)=C 24C 22C 25C 25=6100.所以ξ的分布列是ξ 1 2 3 4 P1210042100401006100所以E (ξ)=12+2×42+3×40+4×6100=2.4.考点四 概率与统计的综合问题[例4]从某技术公司开发的某种产品中随机抽取200件,测量这些产品的一项质量指标值(记为Z),由测量结果得如下频率分布直方图:(1)公司规定:当Z≥95时,产品为正品;当Z<95时,产品为次品.公司每生产一件这种产品,若是正品,则盈利90元;若是次品,则亏损30元,记ξ为生产一件这种产品的利润,求随机变量ξ的分布列和数学期望;(2)由频率分布直方图可以认为,Z服从正态分布N(μ,σ2),其中μ近似为样本平均数x,σ2近似为样本方差s2(同一组中的数据用该区间的中点值作代表).①利用该正态分布,求P(87.8<Z<112.2);②某客户从该公司购买了500件这种产品,记X表示这500件产品中该项质量指标值位于区间(87.8,112.2)内的产品件数,利用①的结果,求E(X).附:150≈12.2.若Z~N(μ,σ2),则P(μ-σ<Z<μ+σ)=0.682 7.P(μ-2σ<Z<μ+2σ)=0.954 5.[解](1)由频率估计概率,产品为正品的概率为(0.033+0.024+0.008+0.002)×10=0.67,所以随机变量ξ的分布列为ξ90-30P 0.670.33所以E(ξ)=90×0.67+(-30)×0.33=50.4.(2)由频率分布直方图知,抽取产品的该项质量指标值的样本平均数x和样本方差s2分别为x=70×0.02+80×0.09+90×0.22+100×0.33+110×0.24+120×0.08+130×0.02=100,s2=(-30)2×0.02+(-20)2×0.09+(-10)2×0.22+02×0.33+102×0.24+202×0.08+302×0.02=150.①因为Z~N(100,150),从而P(87.8<Z<112.2)=P(100-12.2<Z<100+12.2)=0.682 7.②由①知,一件产品中该项质量指标值位于区间(87.8,112.2)内的概率为0.682 7,依题意知X~B(500,0.682 7),所以E(X)=500×0.682 7=341.35.[解题方略]解决概率与统计综合问题的一般步骤[多练强化](2019·武汉市调研测试)中共十九大以来,某贫困地区扶贫办积极贯彻落实国家精准扶贫的要求,带领广大农村地区人民群众脱贫奔小康.经过不懈的奋力拼搏,新农村建设取得巨大进步,农民年收入也逐年增加.为了更好地制定2019年关于加快提升农民年收入,力争早日脱贫的工作计划,该地扶贫办统计了2018年50位农民的年收入(单位:千元)并制成如下频率分布直方图:(1)根据频率分布直方图,估计50位农民的年平均收入x(单位:千元)(同一组数据用该组数据区间的中点值表示).(2)由频率分布直方图,可以认为该贫困地区农民年收入X服从正态分布N(μ,σ2),其中μ近似为年平均收入x,σ2近似为样本方差s2,经计算得s2=6.92.利用该正态分布,解决下列问题:(ⅰ)在2019年脱贫攻坚工作中,若使该地区约有占总农民人数的84.14%的农民的年收入高于扶贫办制定的最低年收入标准,则最低年收入大约为多少千元?(ⅱ)为了调研“精准扶贫,不落一人”的落实情况,扶贫办随机走访了1 000位农民.若每个农民的年收入相互独立,问:这1 000位农民中年收入不少于12.14千元的人数最有可能是多少?附:参考数据与公式6.92≈2.63,若X~N(μ,σ2),则①P(μ-σ<X≤μ+σ)≈0.682 7;②P(μ-2σ<X≤μ+2σ)≈0.954 5;③P(μ-3σ<X≤μ+3σ)≈0.997 3.解:(1)x=12×0.04+14×0.12+16×0.28+18×0.36+20×0.10+22×0.06+24×0.04=17.40(千元).(2)由题意,X~N(17.40,6.92).(ⅰ)P(X>μ-σ)≈12+0.682 72≈0.841 4,μ-σ≈17.40-2.63=14.77,即最低年收入大约为14.77千元.(ⅱ)由P(X≥12.14)=P(X≥μ-2σ)≈0.5+0.954 52≈0.977 3,得每个农民的年收入不少于12.14千元的事件的概率为0.977 3,记这1 000位农民中年收入不少于12.14千元的人数为ξ,则ξ~B(103,p),其中p=0.977 3,于是恰好有k位农民的年收入不少于12.14千元的事件的概率是P(ξ=k)=C k103p k(1-p)103-k,从而由P(ξ=k)P(ξ=k-1)=(1 001-k)×pk×(1-p)>1,得k<1 001p,而1 001p=978.277 3,所以,当0≤k≤978时,P(ξ=k-1)<P(ξ=k),当979≤k≤1 000时,P(ξ=k-1)>P(ξ=k),由此可知,在所走访的1 000位农民中,年收入不少于12.14千元的人数最有可能是978.数学建模——回归分析问题的求解[典例]二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:使用年数x 234567售价y 20128 6.4 4.4 3z=ln y 3.00 2.48 2.08 1.86 1.48 1.10 下面是z关于x的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关系数加以说明.(2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少?(b ^,a ^小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考公式:回归方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n (x i -x )(y i -y )∑i =1n(x i -x)2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x .r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2.参考数据:∑i =16x i y i =187.4,∑i =16x i z i =47.64,∑i =16x 2i=139,∑i =16(x i -x )2≈4.18,∑i =16(y i -y)2≈13.96, ∑i =16(z i -z )2≈1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.[解] (1)因为x =16×(2+3+4+5+6+7)=4.5,z =16×(3+2.48+2.08+1.86+1.48+1.10)=2,且 ∑i =16x i z i =47.64,∑i =16(x i -x )2≈4.18,∑i =16(z i -z )2≈1.53,所以r =∑i =16(x i -x )(z i -z )∑i =16(x i -x)2∑i =16(z i -z )2≈47.64-6×4.5×24.18×1.53≈-0.99,所以z 与x 的相关系数大约为0.99,说明z 与x 的线性相关程度很高. (2)由已知,得b ^=∑i =16x i z i -6 x z∑i =16x 2i -6x2=47.64-6×4.5×2139-6×4.52≈-0.36,所以a ^=z -b ^x =2+0.36×4.5=3.62, 所以z 与x 的线性回归方程是z ^=-0.36x +3.62. 又z =ln y ,所以y 关于x 的回归方程是y ^=e -0.36x +3.62. 令x =9,得y ^=e -0.36×9+3.62≈1.46,即预测某辆A 型号二手车当使用年数为9年时售价约1.46万元. (3)当y ^≥0.711 8时,e -0.36x +3.62≥0.711 8=e ln 0.711 8=e -0.34, 所以-0.36x +3.62≥-0.34,解得x ≤11,因此预测在收购该型号二手车时车辆的使用年数不得超过11年. [素养通路]本题是典型的回归分析问题,在实际问题中收集数据,画散点图,可以用线性回归模型拟合变量关系,再用最小二乘法求出回归方程,进而用回归模型对实际问题进行预测,考查了数学建模这一核心素养.。
课时作业17统计与统计案例1.[2019·湖南五市十校联考]在某次赛车中,50名参赛选手的成绩(单位:min)全部介于13到18之间(包括13和18),将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18].其频率分布直方图如图所示,若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为()A.39B.35C.15 D.11解析:由频率分布直方图知成绩在[15,18]内的频率为(0.38+0.32+0.08)×1=0.78,所以成绩在[13,15)内的频率为1-0.78=0.22,则成绩在[13,15)内的选手有50×0.22=11(人),即这50名选手中获奖的人数为11,故选D.答案:D2.[2019·湖北黄冈期末]为了调查学生对某项新政策的了解情况,准备从某校高一A,B,C三个班级中抽取10名学生进行调查.已知A,B,C三个班级的学生人数分别为40,30,30.考虑使用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按A,B,C三个班级依次统一编号为1,2,…,100;使用系统抽样时,将学生按A,B,C三个班级依次统一编号为1,2,…,100,并将所有编号依次平均分为10组.如果抽得的号码有下列四种情况:①7,17,27,37,47,57,67,77,87,97;②3,9,15,33,43,53,65,75,85,95;③9,19,29,39,49,59,69,79,89,99;④2,12,22,32,42,52,62,73,83,96.关于上述样本的下列结论中,正确的是()A.①③都可能为分层抽样B.②④都不能为分层抽样C .①④都可能为系统抽样D .②③都不能为系统抽样解析:对于①,既满足系统抽样的数据特征,又满足分层抽样的数据特征,所以可能是分层抽样或系统抽样;对于②,只满足分层抽样的数据特征,所以可能是分层抽样;对于③,既满足系统抽样的数据特征,又满足分层抽样的数据特征,所以可能是分层抽样或系统抽样;对于④,只满足分层抽样的数据特征,所以可能是分层抽样.故选A .答案:A3.[2019·广东惠州一调]已知数据x 1,x 2,…,x 10,2的平均值为2,方差为1,则数据x 1,x 2,…,x 10相对于原数据( )A .一样稳定B .变得稳定C .变得不稳定D .稳定性不可以判断解析:数据x 1,x 2,…,x 10,2的平均值为2,方差为1,故111[(x 1-2)2+(x 2-2)2+…+(x 10-2)2+(2-2)2]=1,数据x 1,x 2,…x 10的方差s 2=110[(x 1-2)2+(x 2-2)2+…+(x 10-2)2]>1,故相对于原数据变得不稳定,故选C .答案:C4.[2019·陕西商洛质检]在一次53.5千米的自行车个人赛中,25名参赛选手成绩(单位:分钟)的茎叶图如图所示,现将参赛选手按成绩由好到差编为1~25号,再用系统抽样的方法从中选取5人,已知选手甲的成绩为85分钟,若甲被选取,则被选取的其余4名选手的成绩的平均数为( )A .95B .96C .97D .98 解析:由系统抽样法及已知条件可知被选中的其他4人的成绩分别是88,94,99,107,故平均数为88+94+99+1074=97,故选C .答案:C5.[2019·湖北重点高中协作体联考]某镇有A ,B ,C 三个村,它们的人口数量之比为::7,现在用分层抽样的方法抽出容量为n 的样本,样本中A 村有15人,则样本容量为( )A .50B .60C .70D .80解析:设A ,B ,C 三个村的人口数量分别为3x,4x,7x ,则由题意可得3x 15=3x +4x +7x n,解得n =70,故选C . 答案:C6.[2019·云南昆明诊断]某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份1 2 3 4 5 6 人均销售额 65 8 3 4 7 利润率(%) 12.6 10.4 18.5 3.0 8.1 16.3根据表中数据,下列说法正确的是( )A .利润率与人均销售额成正相关关系B .利润率与人均销售额成负相关关系C .利润率与人均销售额成正比例函数关系D .利润率与人均销售额成反比例函数关系解析:画出利润率与人均销售额的散点图,如图.由图可知利润率与人均销售额成正相关关系.故选A .答案:A 7.[2019·河南濮阳摸底]根据如表数据,得到的回归方程为y^=b ^x +9,则b^=( ) x4 5 6 7 8 y5 4 3 2 1A .2B .1C .0D .-1解析:由题意可得x -=15×(4+5+6+7+8)=6,y -=15×(5+4+3+2+1)=3,因为回归方程为y^=b ^x +9且回归直线过点(6,3),所以3=6b^+9,解得b ^=-1,故选D . 答案:D8.[2019·宁夏银川一中月考]利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否爱好该项运动,得到2×2列联表,并计算可得K 2≈8.806.P(K 2≥k 0) 0.10 0.05 0.025 0.010 0.005 0.001k 0 2.706 3.841 5.024 6.635 7.879 10.828参照临界值表,得到的正确结论是( )A .有99.5%以上的把握认为“是否爱好该项运动与性别无关”B .有99.5%以上的把握认为“是否爱好该项运动与性别有关”C .在犯错误的概率不超过0.05%的前提下,认为“是否爱好该项运动与性别有关”D .在犯错误的概率不超过0.05%的前提下,认为“是否爱好该项运动与性别无关”解析:由于8.806>7.879,所以根据独立性检验的知识可知有99.5%以上的把握认为“是否爱好该项运动与性别有关”,故选B .答案:B9.[2019·安徽六安毛坦厂中学月考]某位教师2017年的家庭总收入为80 000元,各种用途占比统计如下面的折线图.2018年收入的各种用途占比统计如下面的条形图,已知2018年的就医费用比2017年增加了4 750元,则该教师2018年的家庭总收入为( )A .100 000元B .95 000元C .90 000元D .85 000元 解析:由已知得,2017年的就医费用为80 000×10%=8 000(元),故2018年的就医费用为8 000+4 750=12 750(元),所以该教师2018年的家庭总收入为12 75015%=85 000(元).故选D.答案:D10.[2019·华中师范大学第一附属中学期末]给出下列结论:①某学校从编号依次为001,002,…,900的900个学生中用系统抽样的方法抽取一个样本,已知样本中有两个相邻的编号分别为053,098,则样本中最大的编号为862;②甲组数据的方差为5,乙组数据为5,6,9,10,5,那么这两组数据中甲组数据比较稳定;③两个变量的线性相关性越强,则相关系数r的值越接近于1;④对A,B,C三种个体按::2的比例进行分层抽样调查,若抽取的A种个体有15个,则样本容量为30.则正确的个数是()A.3 B.2C.1 D.0解析:①中,样本中相邻的两个编号为053,098,则样本组距为98-53=45,所以样本容量为90045=20,则样本中最大的编号为53+45×(20-2)=863,故①错误;②中,乙组数据的平均数为5+6+9+10+55=7,所以乙组数据的方差为15×[(5-7)2+(6-7)2+(9-7)2+(10-7)2+(5-7)2]=4.4<5,那么这两组数据中乙组数据比较稳定,故②错误;③中,两个变量的线性相关性越强,则相关系数r的绝对值越接近于1,故③错误;④中,易知样本容量为15÷33+1+2=30,故④正确.综上,选C.答案:C11.[2019·福建三明质检]某校为了解学生的身体素质情况,采用按年级分层抽样的方法,从高一、高二、高三年级的学生中抽取一个300人的样本进行调查,已知高一、高二、高三年级的学生人数之比为::4,抽取的样本中高一年级的学生有120人,则实数k的值为________.解析:由题意可得,120300=kk+5+4,解得k=6.答案:612.[2019·河北六校联考]在一次53.5千米的自行车个人赛中,25名参赛选手的成绩(单位:分)的茎叶图如图所示,若用简单随机抽样的方法从中选取2人,则这2人成绩的平均数恰为100的概率为________.解析:根据题意知,从25人中选取2人,基本事件的总数为C 225=300,其中这2人成绩的平均数恰为100的基本事件为(100,100),(95,105),(95,105),(95,105),(94,106),(93,107),共6个,所以所求的概率P =6300=150.答案:15013.某炼钢厂废品率x(%)与成本y(元/t )的线性回归方程为y^=105.492+42.569x.当成本控制在176.5元/t 时,可以预计生产的1 000 t 钢中,约有________t 钢是废品.解析:因为176.5=105.492+42.569x ,所以x ≈1.668,即成本控制在176.5元/t 时,废品率为1.668%.所以生产的1 000 t 钢中,约有1 000×1.668%=16.68 t 钢是废品. 答案:16.6814.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P(K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒; ③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.解析:K 2≈3.918≥3.841,而P(K 2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案:①15.[2019·湖南四校摸底调研]某家电公司销售部门共有200名销售员,每年部门对每名销售员都有1 400万元的年度销售任务.已知这200名销售员去年的销售额都在区间[2,22](单位:百万元)内,现将其分成5组,第1组、第2组、第3组、第4组、第5组对应的区间分别为[2,6),[6,10),[10,14),[14,18),[18,22],并绘制出如下的频率分布直方图.(1)求a的值,并计算完成年度任务的人数;(2)用分层抽样的方法从这200名销售员中抽取容量为25的样本,求这5组分别应抽取的人数;(3)现从(2)中完成年度任务的销售员中随机选取2名,奖励海南三亚三日游,求获得此奖励的2名销售员在同一组的概率.解析:(1)∵(0.02+0.08+0.09+2a)×4=1,∴a=0.03,∴完成年度任务的人数为2×0.03×4×200=48.(2)第1组应抽取的人数为0.02×4×25=2,第2组应抽取的人数为0.08×4×25=8,第3组应抽取的人数为0.09×4×25=9,第4组应抽取的人数为0.03×4×25=3,第5组应抽取的人数为0.03×4×25=3,(3)在(2)中完成年度任务的销售员中,第4组有3人,记这3人分别为A1,A2,A3;第5组有3人,记这3人分别为B1,B2,B3.从这6人中随机选取2名,所有的基本事件为A1A2,A1A3,A1B1,A1B2,A1B3,A2A3,A2B1,A2B2,A2B3,A3B1,A3B2,A3B3,B1B2,B1B3,B2B3,共有15个基本事件,获得此奖励的2名销售员在同一组所包含的基本事件有6个,故所求概率P=615=2 5.16.[2019·四川德阳一诊]某市工业部门计划对所辖中、小型企业推行节能降耗技术改造,下面是对所辖企业是否支持技术改造进行的问卷调查的结果(不完整):支持 不支持 合计中型企业40 小型企业240 合计560 已知从这560家企业中随机抽取1家,抽到支持技术改造的企业的概率为47.(1)能否在犯错误的概率不超过0.025的前提下认为“是否支持节能降耗技术改造与企业规模大小”有关?(2)从支持技术改造的中、小型企业中按分层抽样的方法抽出8家企业,再从这8家企业中选出2家进行奖励:中型企业奖励20万元,小型企业奖励10万元.求奖励总金额为20万元的概率.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d. P(K 2≥k 0) 0.05 0.025 0.01k 0 3.841 5.024 6.635解析:(1)由从这560家企业中随机抽取1家,抽到支持技术改造的企业的概率为47可知,支持技术改造的企业共有320家,故列联表为支持 不支持合计 中型企业80 40 120 小型企业240 200 440 合计320 240 560 所以K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=560×(80×200-40×240)2120×440×320×240≈5.657>5.024. 故能在犯错误的概率不超过0.025的前提下认为“是否支持节能降耗技术改造与企业规模大小”有关.(2)由(1)可知,从支持技术改造的中、小型企业中,按分层抽样的方法抽出8家企业,其中有2家中型企业,分别用x,y表示,6家小型企业,分别用1,2,3,4,5,6表示.则从中选取2家企业的所有可能情况为xy,x1,x2,x3,x4,x5,x6,y1,y2,y3,y4,y5,y6,12,13,14,15,16,23,24,25,26,34,35,36,45,46,56,共28种,其中奖励总金额为20万元的有12,13,14,15,16,23,24,25,26,34,35,36,45,46,56,共15种.所以奖励总金额为20万元的概率为1528.17.[2019·河南南阳期末联考]某网购平台为了解某市居民在该平台的消费情况,从该市使用该平台且平均每周消费金额超过100元的人员中随机抽取了100名,并绘制如图所示的频率分布直方图,已知中间三组的人数可构成等差数列.(1)求m,n的值.(2)分析人员对这100名调查对象的性别进行统计,发现平均每周消费金额不低于300元的男性有20人,低于300元的男性有25人,请根据统计数据完成下列2×2列联表,并判断是否有99%的把握认为平均每周消费金额与性别有关?男性女性合计平均每周消费金额≥300平均每周消费金额<300合计(3)分析人员对抽取对象平均每周的消费金额y(元)与年龄x(岁)进一步分析,发现它们线性相关,得到的回归方程为y^=-5x+a^.已知这100名调查对象的平均年龄为38岁,试估算一名年龄为25岁的年轻人平均每周的消费金额.(同一组数据用该区间的中点值作代表) 2×2列联表:附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d. P(K 2≥k 0) 0.050 0.010 0.001k 0 3.841 6.635 10.828解析:(1)由频率分布直方图可知,m +n =0.01-0.001 5×2-0.001=0.006,由题意可知m +0.001 5=2n ,解得m =0.003 5,n =0.002 5.(2)平均每周消费金额不低于300元的频率为(0.003 5+0.001 5+0.001)×100=0.6,因此这100名调查对象中,平均每周消费金额不低于300元的人数为100×0.6=60(人).所以2×2列联表为男性 女性 合计 平均每周消费金额≥30020 40 60 平均每周消费金额<30025 15 40 合计 45 55 100K 2=100×(20×15-25×40)245×55×60×40≈8.249>6.635, 所以有99%的把握认为平均每周消费金额与性别有关.(3)调查对象的平均每周消费金额为0.15×150+0.25×250+0.35×350+0.15×450+0.10×550=330(元),由题意得330=-5×38+a ^,解得a ^=520.y^=-5×25+520=395(元). 故一名年龄为25岁的年轻人平均每周的消费金额约为395元.18.[2019·福建三明月考]统计学中经常用环比、同比来进行数据比较.环比是指本期统计数据与上期比较,如2017年7月与2017年6月相比.环比增长率=本期数-上期数上期数×100%,同比增长率=本期数-同期数同期数×100%. 下表是某地区近17个月来的消费者信心指数的统计数据:序号x1 2 3 4 5 6 7 8 时间2017年 1月 2017年 2月 2017年 3月 2017年 4月 2017年 5月 2017年 6月 2017年 7月 2017年 8月 消费者信心指数y107.2 108.6 108.4 109.2 112.6 111 113.4 112 9 10 11 12 13 14 15 16 17 2017年 9月 2017年 10月 2017年 11月 2017年 12月 2018年 1月 2018年 2月 2018年 3月 2018年 4月 2018年 5月 113.3 114.6 114.7 118.6 123.9 121.3 122.6 122.3 124(1)①求该地区2018年5月消费者信心指数的同比增长率(百分比形式下保留整数);②除2017年1月外,该地区消费者信心指数月环比增长率为负数的有几个月?(2)由以上数据可判断,序号x 与该地区消费者信心指数y 具有线性相关关系,求出y 关于x 的线性回归方程y ^=b ^x +a ^(a^,b ^保留2位小数),并依此预测该地区2018年6月的消费者信心指数(结果保留1位小数).参考数据与公式:∑i =117x i y i =18 068.5,∑i =117x 2i =1 785,x -=9,y -≈115,b ^=,a ^=y --b ^x -.解析:(1)①该地区2018年5月消费者信心指数的同比增长率为124-112.6112.6×100%≈10%.②若月环比增长率为负数,则本期数<上期数,从表中可以看出,2017年3月、2017年6月、2017年8月、2018年2月、2018年4月共5个月的月环比增长率为负数.(2)由已知,得≈1.16,a^=y--b^x-=104.56,∴线性回归方程为y^=1.16x+104.56.当x=18时,y^=125.4,故该地区2018年6月的消费者信心指数约为125.4.。
例1 1、某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取___18_____件.2、某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n 人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n =( D ) A.860B.720C.1 020D.1 0403、某学校为落实学生掌握社会主义核心价值观的情况,用系统抽样的方法从全校2 400名学生中抽取30人进行调查.现将2 400名学生随机地从1~2 400编号,按编号顺序平均分成30组(1~80号,81~160号,…,2 321~2 400号),若第3组与第4组抽出的号码之和为432,则第6组抽到的号码是( A )A.416B.432C.448D.464例2 1、甲邀请乙、丙、丁三人加入了“兄弟”这个微信群聊,为庆祝兄弟相聚,甲发了一个9元的红包,被乙、丙、丁三人抢完,已知三人抢到的钱数均为整数,且每人至少抢到2元,则丙获得“手气最佳”(即丙领到的钱数不少于其他两人)的概率是( C ) A.13B.310C.25D.342、博览会安排了分别标有序号为“1号”“2号”“3号”的三辆车,等可能随机顺序前往酒店接嘉宾.某嘉宾突发奇想,设计两种乘车方案.方案一:不乘坐第一辆车,若第二辆车的车序号大于第一辆车的车序号,就乘坐此车,否则乘坐第三辆车;方案二:直接乘坐第一辆车.记方案一与方案二坐到“3号”车的概率分别为p 1,p 2,则( C ) A.p 1·p 2=14B.p 1=p 2=13C.p 1+p 2=56D.p 1<p 2解:三辆车的出车顺序可能为:123、132、213、231、312、321,方案一坐车可能:132、213、231,所以p 1=36;方案二坐车可能:312、321,所以,p 2=26;所以p 1+p 2=56.3、某单位试行上班刷卡制度,规定每天8:30上班,有15分钟的有效刷卡时间(即8:15~8:30),一名职工在7:50到8:30之间到达单位且到达单位的时刻是随机的,则他能有效刷卡上班的概率是( D ) A.23B.58C.13D.38解析 该职工在7:50到8:30之间到达单位且到达单位的时刻是随机的,设其构成的区域为线段AB ,且AB =40,职工的有效刷卡时间是8:15到8:30之间,设其构成的区域为线段CB ,且CB =15,如图, 所以该职工有效刷卡上班的概率p =1540=38.例3 1、某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:2020年高考数学二轮刷题训练—概率与统计假设每名同学最近一周平均每天的锻炼时间是互相独立的. ①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大; ②从平均值分析,男生每天锻炼的时间比女生多;③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中符合茎叶图所给数据的结论是( C ) A.①②③B.②③④C.①②④D.①③④2、“总把新桃换旧符”(王安石)、“灯前小草写桃符”(陆游),春节是中华民族的传统节日.在宋代,人们用写“桃符”的方式来祈福避祸,而现代人们通过贴“福”字、贴春联等方式来表达对新年的美好祝愿.某商家在春节前开展商品促销活动,顾客凡购物金额满50元,则可以任意免费领取一张“福”字或一副春联.茎叶图的统计数据是在不同时段内领取“福”字和春联的人数,则它们的中位数依次为( B ) A.25,27B.26,25C.26,27D.27,253、某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x (个)1020304050加工时间y (min)6275 81 89现发现表中有一个数据看不清,请你推断出该数据的值为___68_____. 解:由x =30,得y =0.67×30+54.9=75.例4 1、手机支付也称为移动支付(Mobile Payment),是指允许移动用户使用其移动终端(通常是手机)对所消费的商品或服务进行账务支付的一种服务方式.继卡类支付、网络支付后,手机支付俨然成为新宠.某金融机构为了解移动支付在大众中的熟知度,对15~65岁的人群随机抽样调查,调查的问题是“你会使用移动支付吗?”其中,回答“会”的共有100个人,把这100个人按照年龄分成5组,然后绘制成如图所示的频率分布表和频率分布直方图.组数第1组第2组第3组第4组第5组分组[15,25)[25,35)[35,45)[45,55)[55,65)频数20363010 4(1)求x;(2)从第1,3,4组中用分层抽样的方法抽取6人,求第1,3,4组抽取的人数;(3)在(2)抽取的6人中再随机抽取2人,求所抽取的2人来自同一个组的概率.解(1)由题意知,x=30×1100×110=0.030. (2)因为第1,3,4组共有60人,且抽样比为660=110,则第1组抽取20×110=2人,第3组抽取30×110=3人,第4组抽取1人.(3)设第1组抽取2人为A1,A2,第3组抽取3人为B1,B2,B3,第4组抽取1人为C.则从6人中随机抽取2人有如下情形:{A1,A2},{A1,B1},{A1,B2},{A1,B3},{A1,C},{A2,B1},{A2,B2},{A2,B3},{A2,C},{B1,B2},{B1,B3},{B1,C},{B2,B3},{B2,C},{B3,C}共有15个基本事件.记“抽取的2人来自同一个组”为事件M,则事件M有{A1,A2},{B1,B2},{B1,B3},{B2,B3}共4个基本事件.故所求事件发生的概率P(M)=415.2、科研所共有30位科研员,其中60%的人爱好体育锻炼.经体检调查,这30位科研员的健康指数(百分制)如下茎叶图所示.体检评价标准指出:健康指数不低于70者为身体状况好,健康指数低于70者为身体状况一般.(1)根据以上资料完成下面的2×2列联表,并判断有多大把握认为“身体状况好与爱好体育锻炼有关系”?身体状况好身体状况一般总计爱好体育锻炼 不爱好体育锻炼总计30(2)1人爱好体育锻炼的概率. 附:K 2=(a +b +c +d )(ad -bc )2(a +b )(c +d )(a +c )(b +d ).K 2≥k 0 0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.828解 (1)2×2 身体状况好身体状况一般总计 爱好体育锻炼 16 2 18 不爱好体育锻炼4 8 12 总计201030则K 2的观测值k =30(16×8-4×2)20×10×18×12=10>7.879,所以有99.5%的把握认为“身体状况好与爱好体育锻炼有关”.(2)记“健康指数高于90的5人中爱好体育锻炼的”为a i (i =1,2,3),“健康指数高于90的5人中不爱好体育锻炼的”为b j (j =1,2),由题意知“从健康指数高于90的5人中随机选取2人”的所有基本事件是:a 1a 2、a 1a 3、a 1b 1、a 1b 2、a 2a 3、a 2b 1、a 2b 2、a 3b 1、a 3b 2、b 1b 2.记“2人中至多1人爱好体育锻炼”为事件A ,则事件A -=“2人中都爱好体育锻炼”,又A -所含的基本事件为a 1a 2、a 1a 3、a 2a 3.∴P (A -)=310,故P (A )=1-P (A -)=710.3、微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,将男性、女性使用微信的时间分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.(1)根据女性频率分布直方图估计女性使用微信的平均时间;(2)若每天玩微信超过4小时的用户列为“微信控”,否则称其为“非微信控”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“微信控”与“性别”有关?参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d ,参考数据:P (K 2≥k 0)0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.828解 (1)). (2)由已知得:2(0.04+a +0.14+2×0.12)=1,解得a =0.08. 由题设条件得列联表微信控 非微信控 总计 男性 38 12 50 女性 30 20 50 总计6832100∴K 2的观测值k =n (ad -bc )(a +b )(c +d )(a +c )(b +d )=100×(38×20-30×12)250×50×68×32≈2.941>2.706. 所以有90%的把握认为“微信控”与“性别”有关.4、某公司积极响应习总书记关于共建学习型社会的号召,开展“学知识,促生产,增效益”的主题学习活动.为进一步提高管理效率,公司决定所有中层干部集中进行“回炉”再学习——管理业务专项培训.已知公司中层干部共有13名(其中女性5名),初、中级职称的人数比例如等高条形图所示.参培人数x(1)若公司随机安排2名性别不同的中层干部作为培训班的牵头人,求这两人职称也不同的概率; (2)由统计数据的散点图可以看出,参加某项管理业务培训所需总费用y (万元)与参培人数x 之间存在线性相关关系,试根据回归方程估计该公司所有中层干部都参加此项业务培训所需要的总费用.参考公式:回归方程y ^=b ^x +a ^中,b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2. 解 (1)由题设及等高条形图,在公司中层干部13人中女性有5人,其中初级职称有5×60%=3(人),中级职称有5×40%=2(人).男性有13-5=8(人),其中初、中级职称均为8×50%=4(人).故所求概率为p =3×4+2×45×8=12.(2)由散点图知,x -=1+2+3+4+5+6+77=4,y -=2.9+3.3+3.6+4.4+4.8+5.2+5.97=30.17=4.3.∑7i =1(x i -x -)2=9+4+1+0+1+4+9=28,∑7i =1(x i -x -)(y i -y -)=-3×(-1.4)-2×(-1)-1×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14.所以b ^=∑n i =1(x i -x -)(y i -y -)∑n i =1 (x i -x -)2=1428=0.5,于是a ^=y --b ^x -=4.3-0.5×4=2.3. 故回归直线方程为y ^=0.5x +2.3.令x =13,得y ^=0.5×13+2.3=8.8(万元).故估计该公司所有中层干部都参加此项业务培训所需要的总费用约为8.8万元.强化精练65题1、利用简单随机抽样从含有8个个体的总体中抽取一个容量为4的样本,则总体中每个个体被抽到的概率是( A )A.12B.13C.16D.142、完成下列两项调查:①从某社区125户高收入家庭、280户中等收入家庭、95户低收入家庭中选出100户,调查社会购买能力的某项指标;②从某中学的15名艺术特长生中选出3名调查学习负担情况.宜采用的抽样方法依次是( B )A .①简单随机抽样,②系统抽样B .①分层抽样,②简单随机抽样C .①系统抽样,②分层抽样D .①②都用分层抽样3、某班有34位同学,座位号记为01,02,…,34,用下面的随机数表选取5组数作为参加青年志愿者活动的五位同学的座号.选取方法是从随机数表第一行的第6列数字开始,由左到右依次选取两个数字,则选出来的第4个志愿者的座号是( D )49 54 43 54 82 17 37 93 23 78 87 35 20 96 43 84 26 34 91 64 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06A .23B .09C .02D .164、某全日制大学共有学生5 600人,其中专科生有1 300人,本科生有3 000人,研究生1 300人,现采用分层抽样的方法调查学生利用因特网查找学习资料的情况,抽取的样本为280人,则应在专科生,本科生与研究生这三类学生中分别抽取( A )A .65人,150人,65人B .30人,150人,100人C .93人,94人,93人D .80人,120人,80人5、利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( B )A .73B .78C .77D .766、采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9,抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为(C) A.7B.9 C.10 D.157、某工厂的一、二、三车间在2017年11月份共生产了3 600双皮靴,在出厂前检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从一、二、三车间抽取的产品数分别为a、b、c,且a、b、c成等差数列,则二车间生产的产品数为(C)A.800 B.1 000 C.1 200 D.1 5008、一个总体中有100个个体,随机编号为0,1,2,…,99.依编号顺序平均分成10个小组,组号依次为1,2,…,10.现抽取一个容量为10的样本,规定如果在第1组中随机抽取的号码为m,那么在第k组中抽取的号码的个位数字与m+k的个位数字相同.若m=6,则在第7组中抽取的号码是(A) A.63 B.64 C.65 D.669、贵阳地铁1号线12月28日开通运营,某辆机车某时刻从下麦西站驶往贵阳北站的过程中,10个车站上车的人数统计如下:70、60、60、50、60、40、40、30、30、10,则这组数据的众数、中位数、平均数的和为(D)A.170B.165 C.160 D.15010、某学生在一门功课的22次考试中,所得分数茎叶图如图所示,则此学生该门功课考试分数的极差与中位数之和为(B)A.117 B.118 C.118.5 D.119.511、某省为了抽选运动员参加“国际马拉松比赛”,将35名运动员的一次马拉松比赛成绩(单位:分钟)制成茎叶图,如图所示.若将运动员按成绩由好到差编号,再用系统抽样的方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数为(C)A.6 B.5 C.4 D.312、某电视传媒公司为了了解某类体育节目的收视情况,随机抽取了100名观众进行调查,如图是根据调查结果绘制的观众日均收看该类体育节目时间的频率分布直方图,其中收看时间分组区间是:[0,10),[10,20),[20,30),[30,40),[40,50),[50,60].将日均收看该类体育节目时间不低于40分钟的观众称为“体育迷”,则图中x的值为(A)A .0.01B .0.02C .0.03D .0.0413、从某地高中男生中随机抽取100名同学,将他们的体重(单位:kg)数据绘制成频率分布直方图(如图),由直方图可知( C )A .估计体重的众数为50或60B .a =0.03C .学生体重在[50,60)有35人D .从这100名男生中随机抽取一人,体重在[60,80)的概率为1314、《易经》是中国传统文化中的精髓,右图是易经八卦图(含乾、坤、巽、震、坎、离、艮、兑八卦),每一卦由三根线组成(表示一根阳线,表示一根阴线),从八卦中任取一卦,这一卦的三根线中恰有2根阳线和1根阴线的概率为( C )A.18B.14C.38D.1215、如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( A )A.3,5B.5,5C.3,7D.5,716、《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词达人”称号的人数为( A )9 1 2 5 6 88 0 0 1 2 4 5 7 87 0 2 2 3 3 3 4 5 5 6 9 6 0 2 2 3 4 4 4 5 7 7 8 9 56 5 8 9A.2 B .4 C .5 D .617、一次数学考试后,某老师从甲、乙两个班级中各抽取5人,记录他们的考试成绩,得到如图所示的茎叶图,已知甲班5名同学成绩的平均数为81,乙班5名同学成绩的中位数为73,则x -y 的值为( D )A .2B .-2C .3D .-3解析:选D.由茎叶图知⎩⎪⎨⎪⎧72+77+86+(80+x )+905=81,70+y =73,解得x =0,y =3,所以x -y =-3,故选D.18、观察下列各图形,其中两个变量x ,y 具有相关关系的图是( C )A.①②B.①④C.③④D.②③19、已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( C )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关20、在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =-12x +1上,则这组样本数据的样本相关系数为( A )A.-1B.0C.-12D.121、某商品的销售量y (件)与销售价格x (元/件)存在线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=-5x +150,则下列结论正确的是( D )A .y 与x 具有正的线性相关关系B .若r 表示y 与x 之间的线性相关系数,则r =-5C .当销售价格为10元时,销售量为100件D .当销售价格为10元时,销售量为100件左右22、某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 4 5 6 7 8 9 销量y (件)908483807568由表中数据,求得线性回归方程为y =-4x +a .若在这些样本点中任取一点,则它在回归直线左下方的概率为( B )A.16 B .13 C .12 D .2323、对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其回归直线方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是( B ) A.116 B.18 C.14 D.1224、某统计部门对四组数据进行统计分析后,获得如图所示的散点图,关于相关系数的比较,其中正确的是( C )A.r 4<r 2<0<r 1<r 3B.r 2<r 4<0<r 1<r 3C.r 2<r 4<0<r 3<r 1D.r 4<r 2<0<r 3<r 1解析 由散点图,(1)、(2)相关性较强,(3)、(4)相关性较弱,又散点图(1)、(3)正相关,(2)、(4)负相关,所以r 2<r 4<0<r 3<r 1.25、某超市从2019年甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,并按[0,10],(10,20],(20,30],(30,40],(40,50]分组,得到频率分布直方图如下:记甲种酸奶与乙种酸奶的日销售量(单位:箱)的方差分别为s 21,s 22,则频率分布直方图(甲)中的a 的值及s 21与s22的大小关系分别是(C)A.a=0.015,s21<s22B.a=0.15,s21>s22C.a=0.015,s21>s22D.a=0.15,s21<s22解析由(0.020+0.010+0.030+a+0.025)×10=1,得a=0.015.根据频率分布直方图,乙较稳定,则s21>s22.26、某班一次测试成绩的茎叶图和频率分布直方图可见部分如图,根据图中的信息可确定被抽测的人数及分数在[90,100]内的人数分别为(C)A.20,2 B.24,4 C.25,2 D.25,427、某省二线城市地铁正式开工建设,地铁时代的到来能否缓解该市的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:男性市民女性市民认为能缓解交通拥堵4830认为不能缓解交通拥堵1220则下列结论正确的是(附:K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)P(K2≥k0)0.050.0100.0050.001k0 3.841 6.6357.87910.828A.有95%B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”解析由2×2列联表,可求K2的观测值,k=(48+30+12+20)(20×48-12×30)2(48+30)(48+12)(12+20)(30+20)≈5.288>3.841. 由统计表P(K2≥3.841)=0.05,∴有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”.28、医疗研究所为了检验某种血清能起到预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,利用2×2列联表计算得K2的观测值k≈3.918.附表:P (K 2≥k 0)0.15 0.10 0.05 0.010 0.005 0.001 k 02.0722.7063.8416.6357.87910.828则作出“这种血清能起到预防感冒的作用”出错的可能性不超过( B ) A .95% B .5% C .97.5%D .2.5%[解析] 由题意知观测值k 2≈3.918>3.841,所以对照题中的附表得P (K 2≥k )=0.05=5%.29、如图所示的三个统计图分别是随机抽查甲,乙,丙三地的若干个家庭教育年投入(万元),记A 表示众数,B 表示中位数,C 表示平均数,则根据图表提供的信息,下面的结论正确的是( C )A.A 甲=A 乙=A 丙,B 甲=B 乙=B 丙B.B 丙>B 甲=B 乙,C 甲=C 乙=C 丙C.A 丙>A 甲=A 乙,C 丙>C 甲>C 乙D.A 丙>A 甲=A 乙,B 丙>B 甲>B 乙解析 由甲地的条形图可知,家庭教育年投入的中位数为10万元,众数为10万元,平均数为10.32万元;由乙地的折线图可知,家庭教育年投入的中位数为10万元,众数为10万元,平均数为9.7万元;由丙地的扇形图可知,家庭教育年投入的中位数为12万元,众数为12万元,平均数为12.4万元.结合选项可知C 正确.30、如图,四个全等的直角三角形和一个小正方形组成一个大正方形,直角三角形两直角边的比为1∶2,小正方形的边长为2,作出小正方形的内切圆,现在大正方形内随机取一点,则此取自圆内部分的概率为( C )A.π8B.π12C.π20D.π25解析 设直角三角形的两直角边长分别为x ,2x ,斜边长为c . 由小正方形边长为2,得2x -x =2,∴x =2, 又c =x 2+(2x )2=25,则大正方形面积S =20.由小正方形边长为2,知圆半径r =1,则S 圆=π×12=π.由几何概型,所求事件的概率p =π20.31、节日前夕,小李在家门前的树上挂了两串彩灯.这两串彩灯的第一次闪亮相互独立,且都在通电后的4秒内任一时刻等可能发生,然后每串彩灯以4秒为间隔闪亮,那么这两串彩灯同时通电后,它们第一次闪亮的时刻相差不超过2秒的概率是( C )A.14 B .12 C .34 D .78[解析]如图所示,设在通电后的4秒钟内,甲串彩灯、乙串彩灯第一次亮的时刻为x ,y ,且x ,y 相互独立,由题意可知⎩⎪⎨⎪⎧0≤x ≤4,0≤y ≤4,|x -y |≤2,所以两串彩灯第一次亮的时间相差不超过2秒的概率为P (|x -y |≤2)=S 正方形-2S △ABCS 正方形=4×4-2×12×2×24×4=1216=34.32、已知某运动员每次投篮命中的概率都为40%.现采用随机模拟的方法估计该运动员三次投篮恰有两次命中的概率:先由计算器算出0到9之间取整数值的随机数,指定1,2,3,4表示命中,5,6,7,8,9,0表示不命中;再以每三个随机数为一组,代表三次投篮的结果.经随机模拟产生了20组随机数: 907 966 191 925 271 932 812 458 569 683 431 257 393 027 556 488 730 113 537 989据此估计,该运动员三次投篮恰有两次命中的概率为___0.25_____. 解析 三次投篮恰有两次命中的事件有:191,271,932,812,393, ∴该运动员三次投篮恰有两次命中的概率p =520=0.25.33、已知某射击运动员每次射击击中目标的概率都为80%.现采用随机模拟的方法估计该运动员4次射击至少3次击中目标的概率:先由计算器产生0到9之间取整数值的随机数,指定0,1表示没有击中目标,2,3,4,5,6,7,8,9表示击中目标;再以每4个随机数为一组,代表4次射击的结果.经随机模拟产生了如下20组随机数:7527 0293 7140 9857 0347 4373 8636 6947 1417 4698 0371 6233 2616 8045 6011 3661 9597 7424 7610 4281据此估计,该射击运动员4次射击至少3次击中目标的概率为________.【解析】 4次射击中有1次或2次击中目标的有:0371,6011,7610,1417,7140,所以所求概率P =1-520=1520=0.75. 34、某企业三月中旬生产A 、B 、C 三种产品共3 000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:产品类别 A B C 产品数量(件) 1 300 样本容量(件)130C 产品的样本容量多10,根据以上信息,可得C 的产品数量是___800_____. 解析:设样本容量为x ,则x3 000×1 300=130,所以x =300.所以A 产品和C 产品在样本中共有300-130=170(件).设C 产品的样本容量为y ,则y +y +10=170,所以y =80.所以C 产品的数量为3 000300×80=800.35、一支田径队有男运动员56人,女运动员m 人,用分层抽样抽出一个容量为n 的样本,在这个样本中随机取一个当队长的概率为128,且样本中的男队员比女队员多4人,则m =___42_____. 解析:由题意知n =28,设其中有男队员x 人,女队员有y 人.则⎩⎪⎨⎪⎧x +y =28,x -y =4,56m =x y .解得x =16,y =12,m =42.36、高中在校学生有2 000人.为了响应“阳光体育运动”的号召,学校开展了跑步和登山比赛活动.每人都参与而且只参与其中一项比赛,各年级参与比赛的人数情况如下表:高一年级高二年级高三年级跑步 a b c 登山xyz其中a ∶b ∶c =2∶3∶5,全校参与登山的人数占总人数的25.为了了解学生对本次活动的满意程度,从中抽取一个200人的样本进行调查,则从高二年级参与跑步的学生中应抽取_____36___人.37、我市某校组织学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100],若低于60分的人数是15,则该班的学生人数是___50_____.38、从某选手的7个得分中去掉1个最高分,去掉1个最低分后,剩余5个得分的平均数为91分,如图所示是该选手得分的茎叶图,其中有一个数字模糊,无法辨认,在图中用x 表示,则剩余5个得分的方差为____6____.解析:由茎叶图知,最低分为87分,最高分为99分.依题意得,15×(87+93+90+9×10+x +91)=91,解得x =4.则剩余5个得分的方差s 2=15×[(87-91)2+(93-91)2+(90-91)2+(94-91)2+(91-91)2]=15×(16+4+1+9)=6.39、某中学奥数培训班共有14人,分为两个小组,在一次阶段测试中两个小组成绩的茎叶图如图所示,其中甲组学生成绩的平均数是88,乙组学生成绩的中位数是89,则n -m 的值是____6____.解析:由甲组学生成绩的平均数是88,可得70+80×3+90×3+(8+4+6+8+2+m +5)7=88,解得m =3.由乙组学生成绩的中位数是89,可得n =9,所以n -m =6.40、一组数据1,10,5,2,x ,2,且2<x <5,若该数据的众数是中位数的23倍,则该数据的方差为___9_____.解析:根据题意知,该组数据的众数是2,则中位数是2÷23=3,把这组数据从小到大排列为1,2,2,x ,5,10,则2+x 2=3,解得x =4,所以这组数据的平均数为x -=16×(1+2+2+4+5+10)=4,方差为s 2=16×[(1-4)2+(2-4)2×2+(4-4)2+(5-4)2+(10-4)2]=9.41、已知样本数据x 1,x 2,…,x n 的均值x -=5,则样本数据2x 1+1,2x 2+1,…,2x n +1的均值为___11_____.解析:由条件知x -=x 1+x 2+…+x n n =5,则所求均值x -0=2x 1+1+2x 2+1+…+2x n +1n=2(x 1+x 2+…+x n )+n n=2x -+1=2×5+1=11.42、已知一组数据x 1,x 2,…,x n 的方差为2,若数据ax 1+b ,ax 2+b ,…,ax n +b (a >0)的方差为8,则a 的值为__2__.43、为了研究某种细菌在特定环境下,随时间变化繁殖情况,得如下实验数据,计算得回归方程为y ^=0.85x -0.25.由以上信息,得到下表中c 的值为__6__.天数t (天) 3 4 5 6 7 繁殖个数y (千个)2.5344.5c[解析] 因为x =15(3+4+5+6+7)=5,y =15(2.5+3+4+4.5+c )=14+c 5,所以这组数据的样本中心点是(5,14+c 5),把样本中心点代入回归方程y ^=0.85x -0.25,所以14+c 5=0.85×5-0.25,所以c =6.44、某商场为了了解毛衣的月销量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:月平均气温x /℃ 17 13 8 2 月销售量y /件24334055由表中数据算出线性回归方程y ^=b ^x +a ^中的b ^=-2,气象部门预测下个月的平均气温约为6 ℃,据此估计该商场下个月毛衣销售量约为____46____件.解析:由题中数据,得x -=10,y -=38,回归直线y ^=b ^x +a ^过点(x -,y -),且b ^=-2,代入得a ^=58,则回归方程y ^=-2x +58,所以当x =6时,y =46.45、对某两名高三学生在连续9次数学测试中的成绩(单位:分)进行统计得到如下折线图,下面是关于这两位同学的数学成绩分析.①甲同学的成绩折线图具有较好的对称性,故平均成绩为130分;②根据甲同学成绩折线图提供的数据进行统计,估计该同学平均成绩在区间[110,120]内; ③乙同学的数学成绩与测试次号具有比较明显的线性相关性,且为正相关; ④乙同学连续九次测验成绩每一次均有明显进步. 其中正确的结论有____②③___(填序号).解析 ①甲同学的成绩折线图具有较好的对称性,最高130分,平均成绩低于130分,①错误;②根据甲同学成绩折线图提供的数据进行统计,估计该同学平均成绩在区间[110,120]内,②正确;③乙同学的数学成绩与测试次号具有比较明显的线性相关性,且为正相关,③正确;④乙同学在这连续九次测试中第四次、第七次成绩较上一次成绩有退步,故④不正确.46、某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性质是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:女 男 总计 喜爱 40 20 60 不喜爱 20 30 50 总计6050110__0.01__(约有__99%__的把握)认为“喜爱该节目与否和性别有关”.参考附表:P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828(参考公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d )[解析] 分析列联表中数据,可得K 2的观测值k =110×(40×30-20×20)260×50×60×50≈7.822>6.635,所以在犯错误的概率不超过0.01的前提下(有99%的把握)认为“喜爱该节目与否和性别有关”.47、某班开展一次智力竞赛活动,共a ,b ,c 三个问题,其中题a 满分是20分,题b ,c 满分都是25分,每道题或者得满分,或者得0分.活动结果显示,全班同学每人至少答对一道题,有1名同学答对全部三道题,有15名同学答对其中两道题,答对题a 与题b 的人数之和为29,答对题a 与题c 的人数之和为25,答对题b 与题c 的人数之和为20,则该班同学中只答对一道题的人数是__4__;该班的平均成绩是__42__.[解析] 设x ,y ,z 分别是答对a ,b ,c 题的人数,则有⎩⎪⎨⎪⎧x +y =29,x +z =25,y +z =20,解得⎩⎪⎨⎪⎧x =17,y =12,z =8,答对一道题的人数为(17+12+8)-3×1-2×15=4,全班总人数为4+15+1=20,全班总得分为17×20+(12+8)×25=840,平均成绩为84020=42.48、为了普及环保知识,共建美丽宜居城市,某市组织了环保知识竞赛,随机抽取了甲、乙两个单位中各5名职工的成绩(单位:分)如下表:对环保知识的掌握更好.解:x -甲=15×(87+88+91+91+93)=90,x -乙=15×(85+89+91+92+93)=90,s 2甲=15×[(87-90)2+(88-90)2+(91-90)2+(91-90)2+(93-90)2]=245, s 2乙=15×[(85-90)2+(89-90)2+(91-90)2+(92-90)2+(93-90)2]=8,因为245<8, 所以甲单位的成绩比乙单位稳定,即甲单位的职工对环保知识的掌握更好.49、手机作为客户端越来越为人们所青睐,通过手机实现衣食住行消费已经成为一种主要的消费方式.在某市随机调查了200名顾客购物时使用手机支付的情况,得到如下的2×2列联表.已知从使用手机支付的人群中随机抽取1人,抽到青年的概率为710.(1)根据已知条件完成2×2列联表,并根据此资料判断是否有99.5%的把握认为“市场购物用手机支付与年龄有关”? 2×2列联表:。
第1讲 统计、统计案例[例1] (1)某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20000人,其中各种态度对应的人数如下表所示:电视台为了了解观众的具体想法和意见,打算从中抽选100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选的人数分别为( )A.25,25,25,25B.48,72,64,16C.20,40,30,10D.24,36,32,8(2)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9,抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C ,则抽到的人中,做问卷B 的人数为( )A.7B.9C.10D.15[解析] (1)因为抽样比为10020000=1200,所以每类人中应抽选的人数分别为4800×1200=24,7200×1200=36,6400×1200=32,1600×1200=8.故选D. (2)由题意知应将960人分成32组,每组30人.设每组选出的人的号码为30k +9(k =0,1,…,31).由451≤30k +9≤750,解得44230≤k ≤74130,又k ∈N ,故k =15,16, (24)共10人.[答案] (1)D (2)C[解题方略] 系统抽样和分层抽样中的计算 (1)系统抽样①总体容量为N ,样本容量为n ,则要将总体均分成n 组,每组Nn个(有零头时要先去掉). ②若第一组抽到编号为k 的个体,则以后各组中抽取的个体编号依次为k +N n,…,k +(n -1)N n.(2)分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.[跟踪训练]1.(2019·全国卷Ⅰ)某学校为了解1000名新生的身体素质,将这些学生编号为1,2,…,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是( )A.8号学生B.200号学生C.616号学生D.815号学生解析:选C 根据题意,系统抽样是等距抽样,所以抽样间隔为1000100=10.因为46除以10余6,所以抽到的号码都是除以10余6的数,结合选项知应为616.故选C.2.某中学有高中生3000人,初中生2000人,男、女生所占的比例如图所示.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取女生21人,则从初中生中抽取的男生人数是( )A.12B.15C.20D.21解析:选 A 因为抽样比为213000×70%=1100,所以从初中生中抽取的男生人数为2000×60%×1100=12.故选A.[例2] (2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例; (2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:74≈8.602.[解] (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100 i =15n i (y i -y )2=1100×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7] =0.0296,s =0.0296=0.02×74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.[解题方略] 1.方差的计算与含义(1)计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算. (2)含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大. 2.从频率分布直方图中得出有关数据的方法[跟踪训练]1.(2019·石家庄市质量检测)甲、乙两人8次测评成绩的茎叶图如图,由茎叶图知甲的成绩的平均数和乙的成绩的中位数分别是( )A.23,22B.23,22.5C.21,22D.21,22.5解析:选D 由茎叶图可得甲的成绩的平均数为10+11+14+21+23+23+32+348=21.将乙的成绩按从小到大的顺序排列,中间的两个成绩分别是22,23,所以乙的成绩的中位数为22+232=22.5.2.为了解一种植物果实的情况,随机抽取一批该植物果实样本测量重量的数据(单位:克),按照[27.5,32.5),[32.5,37.5),[37.5,42.5),[42.5,47.5),[47.5,52.5]分为5组,其频率分布直方图如图所示.(1)求图中a 的值;(2)估计这种植物果实重量的平均数x 和方差s 2(同一组中的数据用该组区间的中点值作代表).解:(1)由5×(0.020+0.040+0.075+a +0.015)=1,得a =0.050. (2)各组中点值和相应的频率依次为中点值 30 35 40 45 50 频率0.10.20.3750.250.075x =30×0.1+35×0.2+40×0.375+45×0.25+50×0.075=40,s 2=(-10)2×0.1+(-5)2×0.2+02×0.375+52×0.25+102×0.075=28.75.考点三统计案例题型一 回归分析在实际问题中的应用[例3] 某省的一个气象站观测点在连续4天里记录的AQI 指数M 与当天的空气水平可见度y (单位:cm)的情况如表1:M 900 700 300 100 y0.53.56.59.5该省某市2019年11月份AQI 指数频数分布如表2:M[0,200)[200,400)[400,600)[600,800)[800,1000]频数(天) 361263(1)设x =M100,若x 与y 之间是线性关系,试根据表1的数据求出y 关于x 的线性回归方程.(2)小李在该市开了一家洗车店,洗车店每天的平均收入与AQI 指数存在相关关系如表3:M[0,200)[200,400)[400,600)[600,800)[800,1000]日均收入(元) -2000-1000200060008000根据表3估计小李的洗车店2019年11月份每天的平均收入.附参考公式:y ^=b ^x +a ^,其中b ^=,a ^=y -b ^x .[解] (1)x =14(9+7+3+1)=5,y =14(0.5+3.5+6.5+9.5)=5,∑4,i =1x i y i =9×0.5+7×3.5+3×6.5+1×9.5=58. ∑4,i =1x 2i =92+72+32+12=140,所以b ^=58-4×5×5140-4×52=-2120,a ^=5-⎝ ⎛⎭⎪⎫-2120×5=414, 所以y 关于x 的线性回归方程为y ^=-2120x +414.(2)根据表3可知,该月30天中有3天每天亏损2000元,有6天每天亏损1000元,有12天每天收入2000元,有6天每天收入6000元,有3天每天收入8000元,估计小李洗车店2019年11月份每天的平均收入为130×(-2000×3-1000×6+2000×12+6000×6+8000×3)=2400(元).[解题方略] 求回归直线方程的方法(1)若所求的回归直线方程是在选择题中,常利用回归直线y ^=b ^x +a ^必经过样本点的中心(x ,y )快速选择.(2)若所求的回归直线方程是在解答题中,则求回归直线方程的一般步骤为:题型二 独立性检验在实际问题中的应用[例4] (2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).P (K 2≥k )0.050 0.010 0.001[解] (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K 2的观测值k =100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.[解题方略] 独立性检验的一般步骤 (1)根据样本数据制成2×2列联表;(2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d )计算出K2的观测值;(3)比较K 2的观测值与临界值的大小,作出统计推断.[跟踪训练]1.某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:则认为“是否同意限定区域停车与家长的性别有关”的把握约为( ) A.0.1% B.0.5% C.99.5%D.99.9%附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解析:选C 因为K 2=50×(20×15-5×10)225×25×30×20≈8.333>7.879,所以约有99.5%的把握认为“是否同意限定区域停车与家长的性别有关”.2.2019年秋新学期开始,某市对全市中小学学生进行健康状况抽样调查,其中在某校调查得到了该校前五个年级近视率y 的数据如下表:根据前五个年级的数据,利用最小二乘法求出y 关于x 的线性回归方程,并根据方程预测六年级学生的近视率.附:回归直线y ^=b ^x +a ^的斜率和截距的最小二乘法估计公式分别为得b ^=2.76-2.2555-45=0.051,a ^=0.15-0.051×3=-0.003,得线性回归方程为y ^=0.051x -0.003.当x =6时,代入得y ^=0.051×6-0.003=0.303, 所以六年级学生的近视率在0.303左右.数学建模——回归分析问题的求解[典例] (2019·合肥市第二次质量检测)为了了解A 地区足球特色学校的发展状况,某调查机构统计得到如下数据:(1)根据表中数据,计算y 与x 的相关系数r ,并说明y 与x 的线性相关性强弱(已知:0.75≤|r |≤1,则认为y 与x 线性相关性很强;0.3≤|r |<0.75,则认为y 与x 线性相关性一般;|r |≤0.25,则认为y 与x 线性相关性较弱);(2)求y 关于x 的线性回归方程,并预测A 地区2019年足球特色学校的个数(精确到个).[解] (1)x =2016,y =1,r =i =15(x i -x )(y i -y )i =15(x i -x )2i =15(y i -y )2=(-2)×(-0.7)+(-1)×(-0.4)+1×0.4+2×0.710× 1.3= 3.63.6056=0.9984>0.75, ∴y 与x 线性相关性很强.a ^=y -b ^x =1-0.36×2016=-724.76,∴y 关于x 的线性回归方程是y ^=0.36x -724.76. 当x =2019时,y ^=0.36×2019-724.76=2.08, 即A 地区2019年足球特色学校约有208个. [素养通路]本题是典型的回归分析问题,在实际问题中收集数据,画散点图,用线性回归模型拟合变量关系,再用最小二乘法求出回归方程,进而用回归模型对实际问题进行预测,考查了数学建模这一核心素养.[专题过关检测]A 组——“6+3+3”考点落实练一、选择题1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( )A.73B.78C.77D.76解析:选B 样本的分段间隔为8016=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.故选B.2.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )A.中位数B.平均数C.方差D.极差解析:选A 中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高分和1个最低分,不变的是中位数,平均数、方差、极差均受影响.故选A.3.(2019·广东六校第一次联考)某单位为了落实“绿水青山就是金山银山”理念,制定节能减排的目标,先调查了用电量y (单位:kW ·h)与气温x (单位:℃)之间的关系,随机选取了4天的用电量与当天气温,并制作了如下对照表:由表中数据得线性回归方程:y ^=-2x +60,则a 的值为( ) A.48 B.62 C.64D.68解析:选C 由题意,得x =17+14+10-14=10,y =24+34+38+a 4=96+a4.样本点的中心(x ,y )在回归直线y ^=-2x +60上,代入线性回归方程可得96+a 4=-20+60,解得a=64,故选C.4.如图是民航部门统计的2019年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是( )A.深圳的变化幅度最小,北京的平均价格最高B.深圳和厦门的春运期间往返机票价格同去年相比有所下降C.平均价格从高到低居于前三位的城市为北京、深圳、广州D.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门解析:选D 由图可知深圳对应的小黑点最接近0%,故变化幅度最小,北京对应的条形图最高,则北京的平均价格最高,故A 正确;由图可知深圳和厦门对应的小黑点在0%以下,故深圳和厦门的价格同去年相比有所下降,故B 正确;由图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C 正确;由图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D 错误,选D.5.一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{a n },若a 3=8,且a 1,a 3,a 7成等比数列,则此样本的平均数和中位数分别是( )A.13,12B.13,13C.12,13D.13,14解析:选B 设等差数列{a n }的公差为d (d ≠0),a 3=8,a 1a 7=a 23=64,(8-2d )(8+4d )=64,即2d -d 2=0,又d ≠0,故d =2,故样本数据为:4,6,8,10,12,14,16,18,20,22,平均数为(4+22)×510=13,中位数为12+142=13.6.(2019·成都市第二次诊断性检测)为比较甲、乙两名篮球运动员的近期竞技状态,选取这两名球员最近五场比赛的得分,制成如图所示的茎叶图.有下列结论:①甲最近五场比赛得分的中位数高于乙最近五场比赛得分的中位数; ②甲最近五场比赛得分的平均数低于乙最近五场比赛得分的平均数;③从最近五场比赛的得分看,乙比甲更稳定; ④从最近五场比赛的得分看,甲比乙更稳定. 其中所有正确结论的编号为( ) A.①③ B.①④ C.②③D.②④解析:选C 对于①,甲得分的中位数为29,乙得分的中位数为30,错误; 对于②,甲得分的平均数为15×(25+28+29+31+32)=29,乙得分的平均数为15×(28+29+30+31+32)=30,正确;对于③,甲得分的方差为15×[(25-29)2+(28-29)2+(29-29)2+(31-29)2+(32-29)2]=15×(16+1+0+4+9)=6,乙得分的方差为15×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=15×(4+1+0+1+4)=2,所以乙比甲更稳定,③正确,④错误.所以正确结论的编号为②③.二、填空题7.(2019·全国卷Ⅱ)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为________.解析:x =10×0.97+20×0.98+10×0.9910+20+10=0.98.则经停该站高铁列车所有车次的平均正点率的估计值为0.98. 答案:0.988.(2019·安徽五校联盟第二次质检)数据a 1,a 2,a 3,…,a n 的方差为σ2,则数据2a 1,2a 2,2a 3,…,2a n 的方差为________.解析:设a 1,a 2,a 3,…,a n 的平均数为a ,则2a 1,2a 2,2a 3,…,2a n 的平均数为2a , σ2=(a 1-a )2+(a 2-a )2+(a 3-a )2+…+(a n -a )2n.则2a 1,2a 2,2a 3,…,2a n 的方差为(2a 1-2a )2+(2a 2-2a )2+(2a 3-2a )2+…+(2a n -2a )2n=4×(a 1-a )2+(a 2-a )2+(a 3-a )2+…+(a n -a )2n=4σ2.答案:4σ29.某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:试根据样本估计总体的思想,估计在犯错误的概率不超过________的前提下(约有________的把握)认为“喜爱该节目与否和性别有关”.参考附表:⎝ ⎛⎭⎪⎫参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d解析:分析列联表中数据,可得K 2的观测值k =110×(40×30-20×20)260×50×60×50≈7.822>6.635,所以在犯错误的概率不超过0.01的前提下(有99%的把握)认为“喜爱该节目与否和性别有关”.答案:0.01 99% 三、解答题10.(2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A ,B 两组,每组100只,其中A 组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C 为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P (C )的估计值为0.70.(1)求乙离子残留百分比直方图中a ,b 的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解:(1)由已知得0.70=a +0.20+0.15,故a =0.35.b =1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05, 乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.11.某市教育学院从参加市级高中数学竞赛的考生中随机抽取60名学生,将其竞赛成绩(均为整数)分成六段:[40,50),[50,60),[60,70),…,[90,100],得到如图所示的频率分布直方图.(1)根据频率分布直方图,估计参加高中数学竞赛的考生的成绩的平均数、众数、中位数(小数点后保留一位有效数字);(2)用分层抽样的方法在各分数段的考生中抽取一个容量为20的样本,则各分数段抽取的人数分别是多少?解:(1)由频率分布直方图可知,(0.010+0.015+0.015+a +0.025+0.005)×10=1,所以a =0.03. 所以参加高中数学竞赛的考生的成绩的平均数为45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71, 成绩的众数为75.设参加高中数学竞赛的考生的成绩的中位数为x ,则0.1+0.15+0.15+(x -70)×0.03=0.5,解得x ≈73.3, 所以中位数为73.3.(2)因为各层人数分别为6,9,9,18,15,3,各层抽取比例为2060=13,所以各分数段抽取人数依次为2,3,3,6,5,1.12.(2019·沈阳市质量监测(一))某篮球运动员的投篮命中率为50%,他想提高自己的投篮水平,制定了一个夏季训练计划,为了了解训练效果,执行训练前,他统计了10场比赛的得分,计算出得分的中位数为15,平均得分为15,得分的方差为46.3.执行训练后也统计了10场比赛的得分,茎叶图如图所示:(1)请计算该篮球运动员执行训练后统计的10场比赛得分的中位数、平均得分与方差. (2)如果仅从执行训练前后统计的各10场比赛得分数据分析,你认为训练计划对该运动员的投篮水平的提高是否有帮助?为什么?解:(1)训练后得分的中位数为14+152=14.5;平均得分为8+9+12+14+14+15+16+18+21+2310=15;方差为110[(8-15)2+(9-15)2+(12-15)2+(14-15)2+(14-15)2+(15-15)2+(16-15)2+(18-15)2+(21-15)2+(23-15)2]=20.6.(2)尽管中位数训练后比训练前稍小,但平均得分一样,训练后方差20.6小于训练前方差46.3,说明训练后得分稳定性提高了(阐述观点合理即可),这是投篮水平提高的表现.故此训练计划对该篮球运动员的投篮水平的提高有帮助.B 组——大题专攻强化练1.(2019·武汉市调研测试)一个工厂在某年里连续10个月每月产品的总成本y (万元)与该月产量x (万件)之间有如下一组数据:(1)通过画散点图,发现可用线性回归模型拟合y 与x 的关系,请用相关系数加以说明. (2)①建立月总成本y 与月产量x 之间的回归方程;②通过建立的y 关于x 的回归方程,估计某月产量为1.98万件时,产品的总成本为多少万元?(均精确到0.001)附注:①参考数据:错误!i =27.31,∑i =110x 2i -10x 2≈0.850,∑i =110y 2i -10y 2≈1.042,b ^≈1.223. ②参考公式:相关系数回归直线y ^=a ^+b ^x 中斜率和截距的最小二乘估计公式分别为:解:(1)由已知条件得,r =b ^·∑i =110x 2i -10x 2∑i =110y 2i -10y 2,∴r =1.223×0.8501.042≈0.998,这说明y 与x 正相关,且相关性很强. (2)①由已知求得x =1.445,y =2.731, a ^=y -b ^x =2.731-1.223×1.445≈0.964,∴所求回归直线方程为y ^=1.223x +0.964.②当x =1.98时,y =1.223×1.98+0.964≈3.386(万元), 此时产品的总成本约为3.386万元.2.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)估计旧养殖法的箱产量低于50kg的概率并估计新养殖法的箱产量的平均值;(2)填写下面的2×2列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.解:(1)旧养殖法的箱产量低于50kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,所以旧养殖法的箱产量低于50kg的概率估计值为0.62;新养殖法的箱产量的平均值为37.5×0.004×5+42.5×0.020×5+47.5×0.044×5+52.5×0.068×5+57.5×0.046×5+62.5×0.010×5+67.5×0.008×5=52.35.(2)根据箱产量的频率分布直方图得2×2列联表如下:由表中数据得K 2=200×(62×66-34×38)2100×100×96×104≈15.705,由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.3.(2019·长沙市统一模拟考试)某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如下表:他们用两种模型①y =bx +a ,②y =a e bx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由. (2)残差绝对值大于2的数据被认为是异常数据,需要剔除:(ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程;(ⅱ)广告投入量x =18时,(1)中所选模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:解:(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预报精度高.(2)(ⅰ)剔除异常数据,即3月份的数据后,得x =15×(7×6-6)=7.2, y =15×(30×6-31.8)=29.64.(ⅱ)把x =18代入(ⅰ)中所求回归方程得y ^=3×18+8.04=62.04,故预报值为62.04万元.4.每年10月中上旬是小麦的最佳种植时间,但小麦的发芽会受到土壤、气候等多方面因素的影响.某科技兴趣小组为了解昼夜温差的大小与小麦发芽的多少之间的关系,在不同的温差下统计了100颗小麦种子的发芽数,得到了如下数据:(1)请根据统计的最后三组数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若由(1)中的线性回归方程得到的估计值与前两组数据的实际值误差均不超过两颗,则认为线性回归方程是可靠的,试判断(1)中得到的线性回归方程是否可靠;(3)若100颗小麦种子的发芽数为n 颗,则记n %的发芽率,当发芽率为n %时,平均每亩地的收益为10n 元,某农场有土地10万亩,小麦种植期间昼夜温差大约为9℃,根据(1)中得到的线性回归方程估计该农场种植小麦所获得的收益.附:在线性回归方程y ^=b ^x +a ^中,b ^=解:(1)∵x =11+13+123=12,y =85+90+863=87,∴b ^=11×85+13×90+12×86-3×12×87112+132+122-3×122=52, 由b ^x +a ^=y ,即52×12+a ^=87,得a ^=57,∴线性回归方程为y ^=52x +57.(2)当x =8时,y ^=52×8+57=77,与实际值79比较,误差没有超过两颗;当x =10时,y ^=52×10+57=82,与实际值81比较,误差也没有超过两颗.所以(1)中得到的线性回归方程y ^=52x +57是可靠的.(3)由y ^=52x +57得,当x =9时,y ^=79.5,即每亩地的收益大约为795元,所以该农场种植小麦所获得的收益大约为7950万元.第2讲 概 率[例1] (1)(2019·全国卷Ⅱ)生物实验室有5只兔子,其中只有3只测量过某项指标.若从这5只兔子中随机取出3只,则恰有2只测量过该指标的概率为( )A.23 B.35 C.25D.15(2)某教师让学生从3.1415926的小数点之后的七个数字1,4,1,5,9,2,6中随机选取两个数字,整数部分3不变,那么得到的数大于3.14的概率为( )A.2831B.1921C.2231D.1721[解析] (1)设5只兔子中测量过某项指标的3只为a 1,a 2,a 3,未测量过这项指标的2只为b 1,b 2,则从5只兔子中随机取出3只的所有可能情况为(a 1,a 2,a 3),(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 3,b 1),(a 1,a 3,b 2),(a 1,b 1,b 2),(a 2,a 3,b 1),(a 2,a 3,b 2),(a 2,b 1,b 2),(a 3,b 1,b 2),共10种可能.其中恰有2只测量过该指标的情况为(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 3,b 1),(a 1,a 3,b 2),(a 2,a 3,b 1),(a 2,a 3,b 2),共6种可能.故恰有2只测量过该指标的概率为610=35.故选B.(2)从1,4,1,5,9,2,6这7位数字中任选两位数字的不同情况有:14,11,15,19,12,16,41,45,49,42,46,59,52,56,92,96,26,51,91,21,61,54,94,24,64,95,25,65,29,69,62,共31种,其中使得到的数字不大于3.14的情况有3种,故所得到的数字大于3.14的概率P =1-331=2831.[答案] (1)B (2)A [解题方略]1.求古典概型概率的两个关键点(1)会利用枚举法、列表法等,求样本空间所含的基本事件数n 以及事件A 所含的基本事件数m ;(2)会运用古典概型的概率计算公式P (A )=m n求事件A 发生的概率. 2.互斥事件、对立事件概率的求法解决此类问题,首先应根据互斥事件和对立事件的定义分析出是不是互斥事件或对立事件,再选择概率公式进行计算.其方法有直接法和间接法.[跟踪训练]1.已知a ∈{-2,0,1,2,3},b ∈{3,5},则函数f (x )=(a 2-2)e x+b 为减函数的概率是( )A.310B.35C.25D.15解析:选C 函数f (x )=(a 2-2)e x+b 为减函数,则a 2-2<0,-2<a <2,且与b无关.又a ∈{-2,0,1,2,3},故只有a =0,a =1满足题意,所以函数f (x )=(a 2-2)e x+b 为减函数的概率是25.故选C.2.如图是由1个圆、1个三角形和1个长方形构成的组合体,现用红、蓝2种颜色为其涂色,每个图形只能涂1种颜色,则3个图形颜色不全相同的概率为________.解析:设事件M 为“3个图形颜色不全相同”,则其对立事件M 为“3个图形颜色全相同”,用红、蓝2种颜色为3个图形涂色,每个图形有2种选择,共有2×2×2=8种情况.其中颜色全部相同的有2种,即全部用红色或蓝色,所以P (M )=28=14,所以P (M )=1-P (M )=1-14=34.答案:343.某校拟从高二年级2名文科生和4名理科生中选出4名同学代表学校参加知识竞赛,其中每个人被选中的可能性均相等.(1)求被选中的4名同学中恰有2名文科生的概率; (2)求被选中的4名同学中至少有1名文科生的概率.解:将2名文科生和4名理科生依次编号为1,2,3,4,5,6,从2名文科生和4名理科生中选出4名同学记为(a ,b ,c ,d ),其结果有(1,2,3,4),(1,2,3,5),(1,2,3,6),(1,2,4,5),(1,2,4,6),(1,2,5,6),(1,3,4,5),(1,3,4,6),(1,3,5,6),(1,4,5,6),(2,3,4,5),(2,3,4,6),(2,3,5,6),(2,4,5,6),(3,4,5,6),共15种.(1)被选中的4名同学中恰有2名文科生的结果有(1,2,3,4),(1,2,3,5),(1,2,3,6),(1,2,4,5),(1,2,4,6),(1,2,5,6),共6种.记“被选中的4名同学中恰有2名文科生”为事件A , 则P (A )=615=25.(2)记“被选中的4名同学中至少有1名文科生”为事件B ,则事件B 包含有1名文科生或者2名文科生这两种情况.其对立事件为“被选中的4名同学中没有文科生”,只有一种结果(3,4,5,6).所以P (B )=115,所以P (B )=1-P (B )=1-115=1415.考点二几何概型[例2] (1)设集合A =⎩⎨⎧x ⎪⎪⎪⎭⎬⎫14<2x <16,B ={x |y =ln(x 2-3x )},从集合A 中任取一个元素,则这个元素也是集合B 中元素的概率是________.(2)(2019·江淮十校联考)七巧板是我国古代劳动人民的发明之一,被誉为“东方魔板”,它是由五块等腰直角三角形、一块小正方形和一块平行四边形共七块板组成的.如图是一个用七巧板拼成的大正方形,若在此正方形中任取一点,则此点取自阴影部分的概率为________.[解析] (1)因为集合A =⎩⎨⎧⎭⎬⎫x ⎪⎪⎪14<2x <16=(-2,4),B ={x |y =ln(x 2-3x )}=(-∞,0)∪(3,+∞),所以A ∩B ={x |3<x <4或-2<x <0},所以所求事件的概率是4-3+0+24+2=12.(2)设大正方形的边长为2,则该正方形的面积为4,阴影部分的面积为12×1×2+1×12=32,所以在大正方形中任取一点,此点取自阴影部分的概率为324=38. [答案] (1)12 (2)38[解题方略] 公式法求解几何概型的关键(1)定型,即判断事件的属性——等可能性与无限性,确定所求概率模型为几何概型. (2)定类,即确定所求事件的几何属性及其度量方式,确定其度量的类别——长度、角度、面积或体积等.(3)求量,根据平面几何、立体几何的相关知识求出基本事件空间Ω度量及事件A 的几何度量.(4)求值,把所求的两个几何度量值代入几何概型的计算公式求值.[跟踪训练]1.(2019·福建五校第二次联考)在区间[0,2]上随机取一个数x ,使sin π2x ≥32的概率为( )A.13B.12C.23D.34解析:选A 当x ∈[0,2]时,0≤π2x ≤π,所以sin π2x ≥32⇔π3≤π2x ≤2π3⇔23≤x≤43.故由几何概型的知识可知所求概率P =43-232=13.故选A. 2.(2019·湖南省五市十校联考)一只蚂蚁在三边长分别为6,8,10的三角形内自由爬行,某时刻该蚂蚁距离三角形的任意一个顶点的距离不超过1的概率为( )A.π24 B.π48C.112D.18解析:选 B 由题意,可得三角形为直角三角形,其面积为12×6×8=24,三角形内距离三角形的任意一个顶点的距离不大于1的区域如图中阴影部分所示,它的面积为半径为1的半圆面积,即S =12π×12=π2,所以所求概率P =π224=π48,故选B.3.已知在四棱锥P ABCD 中,PA ⊥底面ABCD ,底面ABCD 是正方形,PA =AB =2,现在该四棱锥内部或表面任取一点O ,则四棱锥O ABCD 的体积不小于23的概率为________.解析:当四棱锥O ABCD 的体积为23时,设O 到平面ABCD 的距离为h ,则有13×22×h =23,解得h =12.如图所示,在四棱锥P ABCD 内作平面EFGH 平行于底面ABCD ,且平面EFGH 与底面ABCD 的距离为12.因为PA ⊥底面ABCD ,且PA =2,所以PH PA =34,又四棱锥P ABCD 与四棱锥P EFGH 相似,所以四棱锥O ABCD 的体积不小于23的概率为P =V 四棱锥P EFGH V 四棱锥P ABCD =⎝ ⎛⎭⎪⎫PH PA 3=⎝ ⎛⎭⎪⎫343=2764.答案:2764。
专题七 概率与统计真题试做1.(2020·课标全国高考,文3)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ).A .-1B .0C .12D .1 2.(2020·陕西高考,文3)对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( ).A .46,45,56B .46,45,53C .47,45,56D .45,47,533.(2020·辽宁高考,文11)在长为12 cm 的线段AB 上任取一点C .现作一矩形,邻边长分别等于线段AC ,CB 的长,则该矩形面积大于20 cm 2的概率为( ).A .16B .13C .23D .454.(2020·天津高考,文15)某地区有小学21所,中学14所,大学7所,现采用分层抽样的方法从这些学校中抽取6所学校对学生进行视力调查.(1)求应从小学、中学、大学中分别抽取的学校数目;(2)若从抽取的6所学校中随机抽取2所学校做进一步数据分析,①列出所有可能的抽取结果;②求抽取的2所学校均为小学的概率.考向分析从近几年的高考试题来看,概率统计一般是1+1的模式,一大一小.几何概型是高考一个新的热点,并且它是一个重要的知识交会点,通常会把几何概型与线性规划、解析几何以及其他数学知识综合起来进行考查,且重点考查“长度型”和“面积型”,主要以填空题、选择题的形式出现,试题难度为中、低档,所占分值为5分左右.古典概型是考查的热点,经常在解答题中与统计一起考查,属中、低档题,以考查基本概念为主,同时注重运算能力与逻辑推理能力的考查.而对于统计方面的考查,主要是考查分层抽样、系统抽样的有关计算或三种抽样方法的区别以及茎叶图,频率分布表,频率分步直方图的识图及运用.考查概率与统计知识点的高考试题,既有自身概念的思想体现,如:样本估计总体的思想、假设检验的思想;又有必然与或然思想、函数与方程思想和数形结合思想.热点例析热点一 随机抽样和用样本估计总体【例1】(2020·四川高考,文3)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N ,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N 为( ).A .101B .808C .1 212D .2 012【例2】(2020·山东高考,文14)如图是根据部分城市某年6月份的平均气温(单位:℃)数据得到的样本频率分布直方图,其中平均气温的范围是[20.5,26.5],样本数据的分组为[20.5,21.5),[21.5,22.5),[22.5,23.5),[23.5,24.5),[24.5,25.5),[25.5,26.5].已知样本中平均气温低于22.5 ℃的城市个数为11,则样本中平均气温不低于25.5 ℃的城市个数为__________.规律方法 (1)解答与抽样方法有关的问题的关键是深刻理解各种抽样方法的特点、适用范围和实施步骤,熟练掌握系统抽样中被抽个体号码的确定方法,掌握分层抽样中各层人数的计算方法.(2)与频率分布直方图、茎叶图有关的问题,应正确理解图表中各个量的意义,通过图表掌握信息是解决该类问题的关键.(3)在做茎叶图或读茎叶图时,首先要弄清楚“茎”和“叶”分别代表什么,正确求出数据的众数和中位数;方差越小,数据越稳定.特别提醒:频率分布直方图中的纵坐标为频率组距,而不是频率值. 变式训练1 (2020·湖南高考,文13)如图是某学校一名篮球运动员在五场比赛中所得分数的茎叶图,则该运动员在这五场比赛中得分的方差为_____________.⎝ ⎛ 注:方差s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x 为x 1,x 2,…,x n 的平均数 )热点二 变量的相关性和统计案例【例3】(2020·福建高考,文18)某工厂为了对新研发的一种产品进行合理定价,将该(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)规律方法 解决线性回归问题的关键是:(1)正确理解计算b ^,a ^的公式并准确的计算,若对数据作适当的预处理,可避免对大数字进行运算;(2)分析两个变量的相关关系时,可根据样本数据作散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.变式训练(1)利用所给数据求年需求量与年份之间的回归直线方程y =b x +a ;(2)利用(1)中所求出的直线方程预测该地2020年的粮食需求量.热点三 古典概型与几何概型【例4】(2020·安徽名校第六次联考,文4)从1,2,3,4这四个数中一次随机取两个数,则其中一个数是另一个的两倍的概率是( ).A.23B.12C.13D.14【例5】(2020·湖北高考,文10)如图,在圆心角为直角的扇形OAB 中,分别以OA ,OB 为直径作两个半圆.在扇形OAB 内随机取一点,则此点取自阴影部分的概率是( ).A.12-1πB.1π C .1-2πD.2π规律方法 (1)解决古典概型问题的关键是①正确求出基本事件总数和所求事件包含的基本事件数. ②P (A )=m n既是古典概型的定义,又是求概率的计算公式,应熟练掌握.(2)解决几何概型的关键是寻找试验的全部结果构成的区域和事件发生时构成的区域,有时需要设出变量,在坐标系中表示所需要的区域.(3)若事件正面情况比较多、反面情况较少,则一般利用对立事件进行计算.对于“至少”、“至多”等事件的概率计算,往往用这种方法求解.变式训练3 (1)有3个兴趣小组,甲、乙两位同学各自参加其中一个小组,每位同学参加各个小组的可能性相同,则这两位同学参加同一个兴趣小组的概率为( ).A.13B.12C.23D.34(2) 如图,矩形ABCD 中,点E 为边CD 的中点,若在矩形ABCD 内部随机取一个点Q ,则点Q 取自△ABE 内部的概率等于( ).A .14B .13C .12D .23热点四 概率统计综合问题【例6】(2020·北京高考,文17)近年来,某市为了促进生活垃圾的分类处理,将生活垃圾分为厨余垃圾、可回收物和其他垃圾三类,并分别设置了相应的垃圾箱.为调查居民生活垃圾分类投放情况,现随机抽取了该市三类垃圾箱中总计1 000吨生活垃圾,数据统计如下((2)试估计生活垃圾投放错误的概率;(3)假设厨余垃圾在“厨余垃圾”箱、“可回收物”箱、“其他垃圾”箱的投放量分别为a ,b ,c ,其中a >0,a +b +c =600.当数据a ,b ,c 的方差s 2最大时,写出a ,b ,c 的值(结论不要求证明),并求此时s 2的值.⎝ ⎛注:s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x 为数据x 1,x 2,…,x n 的平均数 )规律方法 1.抽样方法和概率问题的综合一般是从分层抽样开始,设置分层抽样中的一些计算问题,然后就分层抽样中各个层设置一个古典概型计算问题.虽然此类题目所考查的知识横跨两部分,但是分解开来后,并不难解决.由于此类题目多与实际问题联系紧密,题干较长,信息量大,且会有图表,因此要认真审题并要掌握解答题目所需的知识.要做到:(1)分层抽样中的公式运用要准确.①抽样比=样本容量个体总量=各层样本容量各层个体总量. ②层1的数量∶层2的数量∶层3的数量=样本1的容量∶样本2的容量∶样本3的容量.(2)在计算古典概型概率时,基本事件的总数要计算准确.2.频率分布与概率的综合主要有两种形式:(1)题目中给出了样本的频率分布表,它反映了样本在各个组内的频数和频率,要求根据频率分布表画出频率分布直方图,并根据样本在各组的频数,设置分层抽样和概率计算等.(2)利用频率与概率的关系,频率近似于概率,给出某类个体中的一个个体被抽中的概率,从而求出样本容量及其他类个体的数量.在解决此类问题时,可将题目中所给概率作为此类个体被抽中的频率,从而求解.变式训练4 (2020·皖北协作区联考,文19)某高校在2020年的自主招生考试成绩中随机抽取100名学生的笔试成绩,按成绩分组,得到的频率分布表如下图所示.(1)为了能选拔出最优秀的学生,高校决定在笔试成绩高的第3,4,5组中用分层抽样抽取6名学生进入第二轮面试,试确定a ,b ,c 的值并求第3,4,5组每组各抽取多少名学生进入第二轮面试;(2)在(1)的前提下,学校决定在6名学生中随机抽取2名学生接受A 考官的面试,求第4思想渗透数形结合思想——解决有关统计问题(1)通过频率分布直方图和频数条形图研究数据分布的总体趋势;(2)根据样本数据散点图确定两个变量是否存在相关关系.解答时注意的问题:(1)频率分布直方图中的纵坐标为频率组距,而不是频率值; (2)注意频率分布直方图与频数条形图的纵坐标的区别.【典型例题】为了解学生身高情况,某校以10%的比例对全校700名学生按性别进行分层抽样调查,测得身高情况的统计图如下:(1)估计该校男生的人数;(2)估计该校学生身高在170~185 cm 之间的概率;(3)从样本中身高在180~190 cm 之间的男生中任选2人,求至少有1人身高在185~190 cm 之间的概率.解:(1)样本中男生人数为40,由分层抽样比例为10%估计全校男生人数为400.(2)由统计图知,样本中身高在170~185 cm 之间的学生有14+13+4+3+1=35人,样本容量为70,所以样本中学生身高在170~185 cm 之间的频率f =3570=0.5,故由f 估计该校学生身高在170~185 cm 之间的概率P 1=0.5.(3)样本中身高在180~185 cm 之间的男生有4人,设其编号为①,②,③,④,样本中身高在185~190 cm 之间的男生有2人,设其编号为⑤,⑥,从上述6人中任取2人的树状图为:故从样本中身高在180~190 cm 之间的男生中任选2人的所有可能结果数为15,至少有1人身高在185~190 cm 之间的可能结果数为9,因此,所求概率P 2=915=35.1.(2020·湖南高考,文5)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( ).A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg2.要完成下列两项调查:①从某社区125户高收入家庭、280户中等收入家庭、95户低收入家庭中选出100户调查社会购买力的某项指标;②从某中学的15名艺术特长生中选出3人调查学习负担情况.宜采用的抽样方法依次为( ).A .①简单随机抽样法,②系统抽样法B .①分层抽样法,②简单随机抽样法C .①系统抽样法,②分层抽样法D .①②都用分层抽样法A .0.35B .0.45C .0.55D .0.654.设不等式组⎩⎪⎨⎪⎧ 0≤x ≤2,0≤y ≤2表示的平面区域为D ,在区域D 内随机取一个点,则此点到坐标原点的距离大于2的概率是( ).A.π4B.π-22C.π6D.4-π45.(2020·浙江五校联考,文11)为了分析某同学在班级中的数学学习情况,统计了该同学在6次月考中的数学名次,用茎叶图表示如图所示:,则该组数据的中位数为__________.6.(2020·安徽高考,文18)若某产品的直径长与标准值的差的绝对值不超过1 mm 时,则视为合格品,否则视为不合格品,在近期一次产品抽样检查中,从某厂生产的此种产品中,随机抽取5 000件进行检测,结果发现有50件不合格品,计算这50件不合格品的直径长与标准值的差(单位:mm)(1)(2)估计该厂生产的此种产品中,不合格品的直径长与标准值的差落在区间(1,3]内的概率;(3)现对该厂这种产品的某个批次进行检查,结果发现有20件不合格品,据此估算这批产品中的合格品的件数.7.(2020·安徽江南十校联考,文18)2020年广州亚运会的一组志愿者全部通晓中文,并且每个志愿者还都通晓英语、日语和韩语中的一种(但无人通晓两种外语).已知从中任抽一人,其通晓中文和英语的概率为12,通晓中文和日语的概率为310.若通晓中文和韩语的人数不超过3人.(1)求这组志愿者的人数;(2)现从这组志愿者中选出通晓英语的志愿者1名,通晓韩语的志愿者1名,若甲通晓英语,乙通晓韩语,求甲和乙不全被选中的概率.参考答案命题调研·明晰考向真题试做1.D 解析:样本相关系数越接近1,相关性越强,现在所有的样本点都在直线y =12x +1上,样本的相关系数应为1.2.A 解析:由茎叶图可知中位数为46,众数为45,极差为68-12=56.故选A.3.C 解析:此概型为几何概型,由于在长为12 cm 的线段AB 上任取一点C ,因此总的几何度量为12,满足矩形面积大于20 cm 2的点在C 1与C 2之间的部分,如图所示.因此所求概率为812,即23,故选C. 4.(1)解:从小学、中学、大学中分别抽取的学校数目为3,2,1. (2)①解:在抽取到的6所学校中,3所小学分别记为A 1,A 2,A 3,2所中学分别记为A 4,A 5,大学记为A 6,则抽取2所学校的所有可能结果为{A 1,A 2},{A 1,A 3},{A 1,A 4},{A 1,A 5},{A 1,A 6},{A 2,A 3},{A 2,A 4},{A 2,A 5},{A 2,A 6},{A 3,A 4},{A 3,A 5},{A 3,A 6},{A 4,A 5},{A 4,A 6},{A 5,A 6},共15种.②解:从6所学校中抽取的2所学校均为小学(记为事件B )的所有可能结果为{A 1,A 2},{A 1,A 3},{A 2,A 3},共3种.所以P (B )=315=15. 精要例析·聚焦热点热点例析【例1】 B 解析:四个社区抽取的总人数为12+21+25+43=101,由分层抽样可知,9612=N 101,解得N =808.故选B. 【例2】 9 解析:由于组距为1,则样本中平均气温低于22.5 ℃的城市频率为0.10+0.12=0.22.平均气温低于22.5 ℃的城市个数为11,所以样本容量为110.22=50. 而平均气温高于25.5 ℃的城市频率为0.18,所以,样本中平均气温不低于25.5 ℃的城市个数为50×0.18=9. 【变式训练1】 6.8 解析:∵x =8+9+10+13+155=11, ∴s 2=8-112+9-112+10-112+13-112+15-1125=6.8.【例3】 解:(1)由于x =16(x 1+x 2+x 3+x 4+x 5+x 6)=8.5, y =16(y 1+y 2+y 3+y 4+y 5+y 6)=80, 所以a ^=y -b ^x =80+20×8.5=250,从而回归直线方程为y ^=-20x +250.(2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20⎝⎛⎭⎪⎫x -3342+361.25, 当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.【变式训练2】 解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来年份-2020 -4 -2 0 2 4需求量-257 -21 -11 0 19 29x =0,y =3.2,b ^=-4×-21+-2×-11+2×19+4×29-42+-22+22+42=26040=6.5, a ^=y -b ^x =3.2.由上述计算结果,知所求回归直线方程为y ^-257=b ^ (x -2 006)+a ^=6.5(x -2 006)+3.2,即y ^=6.5(x -2 006)+260.2.①(2)利用直线方程①,可预测2020年的粮食需求量为:6.5×(2 013-2 006)+260.2=6.5×7+260.2=305.7(万吨)≈306(万吨).【例4】 C 解析:从1,2,3,4这四个数中一次随机取两个数,所有可能的取法有6种,满足“其中一个数是另一个的两倍”的所有可能的结果有(1,2),(2,4)共2种取法,所以其中一个数是另一个的两倍的概率是26=13. 【例5】 C 解析:设OA =OB =2R ,连接AB ,如图所示,由对称性可得,阴影的面积就等于直角扇形拱形的面积,S 阴影=14π(2R )2-12×(2R )2=(π-2)R 2,S 扇=πR 2,故所求的概率是π-2R 2πR 2=1-2π.【变式训练3】 (1)A 解析:记三个兴趣小组分别为1,2,3,甲参加1组记为“甲1”,则基本事件为“甲1,乙1;甲1,乙2;甲1,乙3;甲2,乙1;甲2,乙2;甲2,乙3;甲3,乙1;甲3,乙2;甲3,乙3”,共9个.记事件A 为“甲、乙两位同学参加同一个兴趣小组”,则事件A 包含“甲1,乙1;甲2,乙2;甲3,乙3”,共3个.因此P (A )=39=13. (2)C 解析:由题意知,可设事件A 为“点Q 取自△ABE 内”,构成试验的全部结果为矩形ABCD 内所有点,事件A 为△ABE 内的所有点,又因为E 是CD 的中点,所以S △ ABE =12AD ×AB ,S 矩形ABCD =AD ×AB ,所以P (A )=12. 【例6】 解:(1)厨余垃圾投放正确的概率约为“厨余垃圾”箱里厨余垃圾量厨余垃圾总量=400400+100+100=23. (2)设生活垃圾投放错误为事件A ,则事件A 表示生活垃圾投放正确.事件A 的概率约为“厨余垃圾”箱里厨余垃圾量、“可回收物”箱里可回收物量与“其他垃圾”箱里其他垃圾量的总和除以生活垃圾总量,即P (A )约为400+240+601 000=0.7, 所以P (A )约为1-0.7=0.3.(3)当a =600,b =c =0时,s 2取得最大值.因为x =13(a +b +c )=200, 所以s 2=13×[(600-200)2+(0-200)2+(0-200)2]=80 000.【变式训练4】 解:(1)由分布表知a =100×0.35=35,b =30100=0.300,c =100×0.2=20,∴abc =210.因为第3,4,5组共有60名学生,所以利用分层抽样在60名学生中抽取6名学生,每组分别为:第3组:3060×6=3人, 第4组:2060×6=2人, 第5组:1060×6=1人, 所以第3,4,5组分别抽取3人,2人,1人.(2)设第3组的3位同学为A 1,A 2,A 3,第4组的2位同学为B 1,B 2,第5组的1位同学为C 1,则从六位同学中抽两位同学有15种可能如下:(A 1,A 2),(A 1,A 3),(A 1,B 1),(A 1,B 2),(A 1,C 1),(A 2,A 3),(A 2,B 1),(A 2,B 2),(A 2,C 1),(A 3,B 1),(A 3,B 2),(A 3,C 1),(B 1,B 2),(B 1,C 1),(B 2,C 1),其中第4组的2位同学为B 1,B 2,至少有一位同学入选的有:(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2),(B 1,C 1),(B 2,C 1),9种可能,所以其中第4组的2位同学至少有一位同学入选的概率为915=35. 创新模拟·预测演练1.D 解析:D 选项中,若该大学某女生身高为170 cm ,则可断定其体重约为:0.85×170-85.71=58.79 kg.故D 不正确.2.B 解析:①中总体由差异明显的几部分构成,宜采用分层抽样法,②中总体中的个体数较少,宜采用简单随机抽样法,故选B.3.B 解析:样本数据落在区间[10,40)的频数为2+3+4=9,故所求的频率为920=0.45. 4.D 解析:题目中⎩⎪⎨⎪⎧ 0≤x ≤2,0≤y ≤2表示的区域为如图所示的正方形,而动点D 可以存在的位置为正方形面积减去四分之一圆的面积部分,因此P =2×2-π4·222×2=4-π4,故选D.5.18.5 解析:由茎叶图知中间两位数为18和19,所以中位数为18+192=18.5. 6.解:(1)(2)(1,3]内的概率约为0.50+0.20=0.70;(3)设这批产品中的合格品数为x 件,依题意有505 000=20x +20, 解得x =5 000×2050-20=1 980. 所以这批产品中的合格品件数估计是1 980件.7.解:(1)设通晓中文和英语的人数为x 人,通晓中文和日语的人数为y 人,通晓中文和韩语的人数为z 人,且x ,y ,z ∈N *,则⎩⎪⎨⎪⎧ x x +y +z =12,y x +y +z =310,0<z ≤3,则依题意有⎩⎪⎨⎪⎧ x =5,y =3,z =2.所以这组志愿者有5+3+2=10(人).(2)设通晓中文和英语的人为A 1,A 2,A 3,A 4,A 5,甲为A 1,通晓中文和韩语的人为B 1,B 2,乙为B 1,则从这组志愿者中选出通晓英语和韩语的志愿者各1名的所有情况为(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(A 4,B 1),(A 4,B 2),(A 5,B 1),(A 5,B 2)共10个,同时选中甲、乙只有(A 1,B 1)1个.所以甲和乙不全被选中的概率为1-110=910.。
专题升级训练17 概率、统计与统计案例
(时间:60分钟 满分:100分)一、选择题(本大题共6小题,每小题6分,共36分)
1.从2 007名学生中选取50名学生参加全国数学联赛,若采用下面的方法选取:先用简单随机抽样从2 007人中剔除7人,剩下的2 000人再按系统抽样的方法抽取,则每人入选的概率( ).
A .不全相等
B .均不相等
C .都相等,且为502 007
D .都相等,且为140 2.已知x 与y 之间的一组数据:
X 0 1 2 3
Y 1 3 5 7
则y 与x 的线性回归方程y ^=a ^+b ^
x 必过点( ).
A .(2,2)
B .(1.5,0)
C .(1,2)
D .(1.5,4)
3.向假设的三座相互毗邻的军火库投掷一颗炸弹,只要炸中其中任何一座,另外两座也要发生爆炸.已知炸中第一座军火库的概率为0.2,炸中第二座军火库的概率为0.3,炸中第三座军火库的概率为0.1,则军火库发生爆炸的概率是( ).
A .0.006
B .0.4
C .0.5
D .0.6
4.在区间[-2,2]内任取两数a ,b ,使函数f (x )=x 2+2bx +a 2有两相异零点的概率是
( ).
A.16
B.14
C.13
D.12
5.在样本的频率分布直方图中,共有11个小长方形,若中间一个长方形的面积等于其
他10个小长方形面积和的14
,且样本容量为160,则中间一组的频数为( ). A .32 B .0.2 C .40 D .0.25
6.从标有1,2,3,…,7的7个小球中取出一球,记下它上面的数字,放回后再取出一球,记下它上面的数字,然后把两数相加得和,则取得的两球上的数字之和大于11或者能被4整除的概率是( ).
A.1649
B.1549
C.27
D.1349
二、填空题(本大题共3小题,每小题6分,共18分)
7.某校有高一学生400人,高二学生302人,高三学生250人,现在按年级分层抽样,从所有学生中抽取一个容量为190人的样本,应该从高______学生中剔除______人,高一、高二、高三抽取的人数依次是________.
8.现有10个数,它们能构成一个以1为首项,-3为公比的等比数列,若从这10个数中随机抽取一个数,则它小于8的概率是__________.
9.已知实数x ∈[-1,1],y ∈[0,2],则点P (x ,y )落在区域⎩⎪⎨⎪⎧ 2x -y +2≥0,x -2y +1≤0,
x +y -2≤0内的概
率为__________.
三、解答题(本大题共3小题,共46分.解答应写出必要的文字说明、证明过程或演算步骤)
10.(本小题满分15分)某校100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100].
(1)求图中a的值;
(2)根据频率分布直方图,估计这100名学生语文成绩的平均分;
(3)若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比
分数段[50,60)[60,70)[70,80)[80,90)
x∶y 1∶12∶13∶44∶5
11.(
当两条棱相交时,ξ=0;当两条棱平行时,ξ的值为两条棱之间的距离;当两条棱异面时,ξ=1.
(1)求概率P(ξ=0);
(2)求ξ的分布列,并求其数学期望E(ξ).
12.(本小题满分16分)(2020·安徽蚌埠二中5月质检,理19)上海世博会深圳馆1号作品《大芬丽莎》是由大芬村507名画师集体创作的999幅油画组合而成的世界名画《蒙娜丽莎》,因其诞生于大芬村,因此被命名为《大芬丽莎》.某部门从参加创作的507名画师中随机抽出100
分组(单位:岁)频数频率
[20,25)50.050
[25,30)①0.200
[30,35)35②
[35,40)300.300
[40,45)100.100
合计100 1.00
(1)频率分布表的①、②位置应填什么数据?并补全频率分布直方图,再根据频率分布直方图估计这507名画师中年龄在[30,35]岁的人数(结果取整数).
(2)在抽出的100名画师中,按年龄再采用分层抽样法抽取20人参加上海世博会深圳馆志愿者活动,其中选取2名画师担任解说员工作,记这2名画师中年龄低于30岁的人数为ξ,求ξ的分布列和数学期望.
参考答案
一、选择题
1.C 2.D
3.D 解析:设A ,B ,C 分别表示炸中第一、第二、第三座军火库这三个事件,则P (A )=0.2,P (B )=0.3,P (C )=0.1.设D 表示“军火库爆炸”,则D =A ∪B ∪C .又∵A ,B ,C 彼此互斥,∴P (D )=P (A ∪B ∪C )=P (A )+P (B )+P (C )=0.2+0.3+0.1=0.6.
4.D
5.A 解析:设中间的长方形面积为x ,则其他的10个小长方形的面积为4x ,所以可得x +4x =1,得x =0.2;又因为样本容量为160,所以中间一组的频数为160×0.2=32,故选
A.
6.A
二、填空题
7.二 2 80,60,50 解析:总体人数为400+302+250=952(人)
,∵952190=5……2,4005=80,302-25=60,2505
=50,∴从高二年级中剔除2人.从高一,高二,高三年级中分别抽取80人、60人、50人.
8.35
解析:∵以1为首项,-3为公比的等比数列的10个数为1,-3,9,-27,…,其中有5个负数,1个正数一共6个数小于8,∴从这10个数中随机抽取一个数,它小于8的
概率是610=35
. 9.38
解析:如图所示,(x ,y )在矩形ABCD 内取值,不等式组所表示的区域为△AEF ,由几何概型的概率公式,得所求概率为38,故填38
.
三、解答题
10.解:(1)依题意得,10×(2a +0.02+0.03+0.04)=1,解得a =0.005.
(2)这100名学生语文成绩的平均分为:55×0.05+65×0.4+75×0.3+85×0.2+95×0.05=73(分).
(3)数学成绩在[50,60)的人数为:100×0.05=5,
数学成绩在[60,70)的人数为:100×0.4×12
=20, 数学成绩在[70,80)的人数为:100×0.3×43
=40, 数学成绩在[80,90)的人数为:100×0.2×54
=25, 所以数学成绩在[50,90)之外的人数为:100-5-20-40-25=10.
11.解:(1)若两条棱相交,则交点必为正方体8个顶点中的1个,过任意1个顶点恰有3条棱,所以共有8C 32
对相交棱,因此P (ξ=0)=232128C C =8×366=411. (2)若两条棱平行,则它们的距离为1或2,其中距离为2的共有6对,故P (ξ=2)
=2126C =111
, 于是P (ξ=1)=1-P (ξ=0)-P (ξ=2)=1-411-111=611
, 所以随机变量ξ
因此E (ξ)=1×611+212.解:(1)①处填20,②处填0.350;507名画师中年龄在[30,35)的人数为0.35×507≈177人,补全频率分布直方图如图所示.
(2)用分层抽样的方法,从中选取20人,则其中“年龄低于30岁”的有5人,“年龄不低于30岁”的有15人,故ξ的可能取值为0,1,2.
P (ξ=0)=215220
C C =4276=2138, P (ξ=1)=11155220
C C C =30
76=1538, P (ξ=2)=25220C C =476=119, 所以ξ的分布列为
所以E (ξ)=0×2138+1×38+2×19=2
.。